Weka (aprenentatge automàtic)
De Wikipedia, l'enciclopèdia lliure
Weka (Waikato Environment for Knowledge Analysis - Ajusto per a Anàlisi del Coneixement de la Universitat de Waikato) és un conegut programari per a aprenentatge automàtic i mineria de dades escrit en Java i desenvolupat en la Universitat de Waikato. WEKA és un programari lliure distribuït sota llicència GNU-GPL.
Breu història
- En 1993, la Universitat de Waikato a Nova Zelanda va iniciar el desenvolupament de la versió original de Weka (en TCL/TK i C).
- En 1997, es va decidir reescibir el codi en Java incloent implementacions d'algorismes de modelatge.[1]
- En 2005, Weka rep de SIGKDD[2][3] (Special Interest Group on Knowledge Discovery and Data Mining) el guardó "Data Mining and Knowledge Discovery Service".
- Lloc en el rànquing de Sourceforge.net el 19 de maig de 2008: 248 (amb 1,186,740 descàrregues).
Descripció
El paquet Weka[4] conté una col·lecció d'eines de visualització i algorismes per a anàlisi de dades i modelat predictiu, units a una interfície gràfica d'usuari per accedir fàcilment a les seves funcionalitats. La versió original de Weka va ser un front-end en TCL/TK per modelar algorismes implementats en altres llenguatges de programació, més unes utilitats per preprocesamiento de dades desenvolupades en C per fer experimentos d'aprenentatge automàtic. Aquesta versió original es va dissenyar inicialment com a eina per analitzar dades procedents del domini de la agricultura,[5][6] però la versió més recent basada en Java (WEKA 3), que va començar a desenvolupar-se en 1997, s'utilitza en moltes i molt diferents àrees, en particular amb finalitats docents i d'investigació.
Raons a favor de Weka
Els punts forts de Weka són:
- Està disponible lliurement sota la llicència pública general de GNU.
- És molt portable perquè està completament implementat en Java i pot córrer en gairebé qualsevol plataforma.
- Conté una extensa col·lecció de tècniques per preprocesamiento de dades i modelatge.
- És fàcil d'utilitzar per un principiant gràcies a la seva interfície gràfica d'usuari.
Weka suporta diverses tasques estàndard de mineria de dades, especialment, preprocesamiento de dades, clustering, classificació, regressió, visualització, i selecció. Totes les tècniques de Weka es fonamenten en l'assumpció que les dades estan disponibles en un fitxer pla (flat file) o una relació, en la qual cada registre de dades està descrit per un nombre fix d'atributs (normalment numèrics o nominals, encara que també se suporten altres tipus). Weka també proporciona accés a bases de dades via SQL gràcies a la connexió JDBC (Java Database Connectivity) i pot processar el resultat retornat per una consulta feta a la base de dades. No pot realitzar mineria de dades multi-relacional, però existeixen aplicacions que poden convertir una col·lecció de taules relacionades d'una base de dades en una única taula que ja pot ser processada amb Weka.[7]
Manques de Weka
Un àrea important que actualment no cobreixen els algorismes inclosos en Weka és el modelatge de seqüències.
La interfície d'usuari
En executar l'aplicació ens apareix el selector d'interfície de Weka (Weka GUI Chooser) que dóna l'opció de seleccionar entre quatre possibles interfícies d'usuari per accedir a les funcionalitats del programa, aquestes són "Simple CLI", "Explorer", "Experimenter" i "Knowledge Flow".
Simple CLI
Simple CLI és l'abreviatura de Simple Command-Line Interface (Interfície Simple de Línia de Comandos); es tracta d'una consola que permet accedir a totes les opcions de Weka des de línia de comandos.
Explorer
La interfície Explorer (Explorador) disposa de diversos panells que donen accés als components principals del banc de treball:
-
- El panell "Preprocess" disposa d'opcions per importar dades d'una base de dades, d'un fitxer CSV, etc., i per preprocesar aquestes dades utilitzant els denominats algorismes de filtrat. Aquests filtres es poden utilitzar per transformar les dades (per exemple convertint dades numèriques en valors discrets) i per eliminar registres o atributs segons certs criteris prèviament especificats.
-
- El panell "Classify" permet a l'usuari aplicar algorismes de classificació estadística i anàlisi de regressió (denominats tots classificadors en Weka) als conjunts de dades resultants, per estimar la exactitud del modelo predictiu resultant, i per visualitzar prediccions errònies, corbes ROC, etc., o el propi model (si aquest és susceptible de ser visualitzat, com per exemple un arbre de decisió).
-
- El panell "Associate" proporciona accés a les regles d'associació apreses que intenten identificar totes les interrelacions importants entre els atributs de les dades
-
Article principal: Weka-Associate
-
-
- El panell "Selected attributes" proporciona algorismes per identificar els atributs més predictius en un conjunt de dades.
-
- El panell "Visualize" mostra una matriu de punts dispersos (Scatterplot) on cada punt individual pot seleccionar-se i engrandir-se per ser analitzats detalladament usant diversos operadors de selecció.
Experimenter
La interfície Experimenter (Experimentador) permet la comparació sistemàtica d'una execució dels algorismes predictius de Weka sobre una col·lecció de conjunts de dades.
Knowledge Flow
Knowledge Flow (Flux de Coneixement) és una interfície que suporta essencialment les mateixes funcions que el Explorer però amb una interfície que permet "arrossegar i deixar anar". Un avantatge és que ofereix suport per a l'aprenentatge incremental.
Referències
- ↑ Ian H. Witten; Eibe Frank, Len Trigg, Mark Hall, Geoffrey Holmes, and Sally Jo Cunningham (1999). «Weka: Practical Machine Learning Tools and Techniques with Java Implementations». Proceedings of the ICONIP/ANZIIS/ANNES'99 Workshop on Emerging Knowledge Engineering and Connectionist-Based Information Systems págs. 192-196. Consultat el 2007-06-26.
- ↑ Gregory Piatetsky-Shapiro (2005-06-28). «KDnuggets news on SIGKDD Service Award 2005». Consultat el 2007-06-25.
- ↑ «Overview of SIGKDD Service Award winners» (2005). Consultat el 2007-06-25.
- ↑ Ian H. Witten; Eibe Frank (2005). «Data Mining: Practical machine learning tools and techniques, 2nd Edition». Morgan Kaufmann, Sant Francisco. Consultat el 2007-06-25.
- ↑ G. Holmes; A. Donkin and I.H. Witten (1994). «Weka: A machine learning workbench». Proc Second Austràlia and New Zealand Conference on Intelligent Information Systems, Brisbane, Austràlia. Consultat el 2007-06-25.
- ↑ S.R. Garner; S.J. Cunningham, G. Holmes, C.G. Nevill-Manning, and I.H. Witten (1995). «Applying a machine learning workbench: Experience with agricultural databases». Proc Machine Learning in Practice Workshop, Machine Learning Conference, Tahoe City, CA, USA págs. 14-21. Consultat el 2007-06-25.
- ↑ P. Reutemann; B. Pfahringer and I. Frank (2004). «Proper: A Toolbox for Learning from Relational Data with Propositional and Multi-Instance Learners». 17th Australian Joint Conference on Artificial Intelligence (AI2004). Springer-Verlag. Consultat el 2007-06-25.
Vegeu també
Enllaços externs
Generals
Exemples d'aplicacions
Versions esteses