domingo, 29 de noviembre de 2009

MINERIA DE DATOS.


La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.
Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos. Está fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil para aprovechar los datos almacenados en las bases de datos.
Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.
proceso
Un proceso típico de minería de datos consta de los siguientes pasos generales:
Selección del conjunto de datos, tanto en lo que se refiere a las variables dependientes, como a las variables objetivo, como posiblemente al muestreo de los registros disponibles.
Análisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos (valores nulos).
Transformación del conjunto de datos de entrada, se realizará de diversas formas en función del análisis previo, con el objetivo de prepararlo para aplicar la técnica de minería de datos que mejor se adapte a los datos y al problema.
Seleccionar y aplicar la técnica de minería de datos, se construye el modelo predictivo, de clasificación o segmentación.
Extracción de conocimiento, mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos.
Interpretación y evaluación de datos, una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.Tecnicas
Las técnicas más representativas son:
Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automáticosistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal son: inspirado en la forma en que funciona el
El Perceptrón.
El Perceptrón multicapa.
Los Mapas Autoorganizados, también conocidos como redes de Kohonen.
Regresion lineal.- Es la mas utilizada para formar relaciones entre datos. Rapida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse mas de 2 variables.
Árboles de decisión.- Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema. Ejemplos:
Algoritmo ID3.
Algoritmo C4.5.
Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta.
Agrupamiento o Clustering.- Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. Ejemplos:
Algoritmo K-means.
Algoritmo K-medoids.

MAPAS MENTALES


Un mapa mental (mind map en inglés) es un diagrama usado para representar las palabras, ideas, tareas, u otros conceptos ligados y dispuestos radialmente alrededor de una palabra clave o de una idea central. Se utiliza para la generación, visualización, estructura, y clasificación taxonómica de las ideas, y como ayuda interna para el estudio, organización, solución de problemas, toma de decisiones y escritura.
Es un diagrama de representación semántica de las conexiones entre las porciones de información. Presentando estas conexiones de una manera gráfica radial, no lineal, estimula un acercamiento reflexivo para cualquier tarea de organización de datos, eliminando el estímulo inicial de establecer un marco conceptual intrínseco apropiado o relevante al trabajo específico. Un mapa mental es similar a una red semántica o modelo cognoscitivo pero sin restricciones formales en las clases de enlaces usados. Los elementos se arreglan intuitivamente según la importancia de los conceptos y se organizan en las agrupaciones, las ramas, o las áreas. La formulación gráfica puede ayudar a la memoria.




Características
Los mapas mentales son, por definición, un método gráfico de tomar notas. La base visual de ellas nos ayuda a distinguir las palabras o las ideas, a menudo con los colores y símbolos. Por lo general, tener una estructura jerárquica o formato de rama de un árbol, con las ideas de ramificación en sus subsecciones. Los mapas mentales permiten una mayor creatividad al registro de las ideas y la información, así como permitir que el encargado de tomar notas para asociar palabras con las representaciones visuales. Los mapas mentales y mapas conceptuales son diferentes en que los mapas mentales se centran en una sola palabra o idea, mientras que los mapas conceptuales conectar varias palabras o ideas.

ESTRUCTURAS DE LA MEMORIA.

La memoria humana es la función cerebral resultado de conexiones sinápticas entre neuronasser humano puede retener experiencias pasadas. Los recuerdos se crean cuando las neuronas integradas en un circuito refuerzan la intensidad de las sinopsis. mediante la que el
Estas experiencias, según el alcance temporal con el que se correspondan, se clasifican, convencionalmente, en memoria a corto plazo (consecuencia de la simple excitación de la sinapsis para reforzarla o sensibilizarla transitoriamente) y memoria a largo plazo (consecuencia de un reforzamiento permanente de la sinapsis gracias a la activación de ciertos genes y a la síntesis de las proteínas correspondientes).
La memoria humana, a diferencia de la memoria de los animales que actúa principalmente sobre la base de sus necesidades presentes, puede contemplar el pasado y planear el futuro. Respecto de su capacidad, se ha calculado el cerebro humano puede almacenar información que “llenaría unos veinte millones de volúmenes, como en las mayores bibliotecas del mundo”. Algunos neurocientíficos han calculado que en toda una vida se utiliza solo una diezmilésima parte (0,0001) del potencial del cerebro.
Fijación de la memoria
En la transformación de una memoria a corto plazo en una a largo plazo desempeñan una función los genes: a los pocos minutos de una determinada experiencia, es necesaria la síntesis cerebral de nuevas proteínas para que el recuerdo permanezca a largo plazo.
En una primera hipótesis, el proceso de fijación pasaría por diversas fases: en primer lugar, el estímulo (repetido o especialmente intenso) refuerza una determinada conexión sináptica, mandando una señal al núcleo neuronal para la permanencia del recuerdo; en segundo lugar, se activa el factor CREB (un factor de transcripción del inglés, cyclic AMP-response element-binding protein) para consolidar la sinapsis; tercero, ese factor CREB activa en el núcleo determinados genes que se transcriben en ARN mensajero que parte del núcleo; cuarto, las instrucciones de ese ARN se traducen en proteínas que refuerzan definitivamente la sinapsis primera.
Otra hipótesis prescinde del recurso de la señal al núcleo y subraya que una estimulación sináptica intensa, o la coincidencia de varias sinapsis en la misma neurona, puede suponer que la célula descargue sus potenciales de acción, los cuales abrirían determinados canales de calcio que permitirían a los iones interaccionar con enzimas que finalmente activarían el factor CREB.
Determinados estados psicológicos, como por ejemplo la hipnosis, multiplican la memoria; asimismo, algunas sustancias, como las anfetaminas, acentúan algunos tipos de memoria.
Memoria sensorial
Se denominan «memorias sensoriales» a una serie de almacenes de información provenientes de los distintos sentidos que prolongan la duración de la estimulación. Esto facilita, generalmente, su procesamiento en la Memoria Operativa.
Los almacenes más estudiados han sido los de los sentidos de la vista y el oído.
El almacén icónico se encarga de recibir la percepción visual. Se considera un depósito de líquido de gran capacidad en el cual la información almacenada es una representación isomórfica(con la misma estructura) de la realidad de carácter puramente físico y no categorial (aún no se ha reconocido el objeto). Esta estructura es capaz de mantener nueve elementos aproximadamente, por un intervalo de tiempo muy corto (alrededor de 250 milisegundos). Los elementos que finalmente se transferirán a la «Memoria Operativa» serán aquellos a los que el usuario preste atención.
El almacén ecoico, por su parte, mantiene almacenados los estímulos auditivos hasta que el receptor haya recibido la suficiente información para poder procesarla definitivamente en la

DIFUSA

La lógica difusa o lógica borrosa se basa en lo relativo de lo observado. Este tipo de lógica toma dos valores aleatorios, pero contextualizados y referidos entre sí. Así, por ejemplo, una persona que mida 2 metros es claramente una persona alta, si previamente se ha tomado el valor de persona baja y se ha establecido en 1 metro. Ambos valores están contextualizados a personas y referidos a una medida métrica lineal.
La lógica difusa se adapta mejor al mundo real en el que vivimos, e incluso puede comprender y funcionar con nuestras expresiones, del tipo "hace mucho calor", "no es muy alto", "el ritmo del corazón está un poco acelerado", etc.
La clave de esta adaptación al lenguaje, se basa en comprender los cuantificadores de nuestro lenguaje (en los ejemplos de arriba "mucho", "muy" y "un poco").
En la teoría de conjuntos difusos se definen también las operaciones de unión, intersección, diferencia, negación o complemento, y otras operaciones sobre conjuntos (ver también subconjunto difuso), en los que se basa esta lógica.
Para cada conjunto difuso, existe asociada una función de pertenencia para sus elementos, que indican en qué medida el elemento forma parte de ese conjunto difuso. Las formas de las funciones de pertenencia más típicas son trapezoidal, lineal y curva.
Se basa en reglas heurísticas de la forma SI (antecedente) ENTONCES (consecuente), donde el antecedente y el consecuente son también conjuntos difusos, ya sea puros o resultado de operar con ellos. Sirvan como ejemplos de regla heurística para esta lógica (nótese la importancia de las palabras "muchísimo", "drásticamente", "un poco" y "levemente" para la lógica difusa

ONTOLOGIA Y LA WEB SEMANTICA.

Las ontologías son teorías formales acerca de un dominio de discurso y por eso requieren de un lenguaje lógico formal para ser expresadas. En el área de IA se han desarrollado muchos lenguajes para este fin. Algunos basados en Lógica de predicados de primer orden.
Emplear el poder de razonamiento automático para guiar el acceso a orígenes de información requiere de representación de la semántica de tales orígenes de manera procesable por computador, en consecuencia, se requieren metadatos que describan de una manera computable, dichos orígenes.
Algunos problemas surgen cuando se trata con grandes cantidades de información semiestructurada:
• Los actuales buscadores basados en palabras clave suelen devolver información irrelevante
• Actualmente se requiere lectura humana para extraer información relevante de un texto pues las computadoras no tienen el sentido común
• La utilidad de sitios web adaptativos que permitan su reconfiguración dinámica de acuerdo al perfil del usuario u otros aspectos relevantes, requiere una representación computable de la semántica involucrada.
Se pueden enriquecer los orígenes de información de manera declarativa, con comentarios que provean de su semántica de manera interpretable para un computador.
Lenguajes para la Web
Recomendados como estándares por la W3C, o candidatos a serlo, algunos de las cuales han ganado mucha popularidad, se describen a continuación XML, XML Schema, RDF y RDF Schema.
XML,
que permite que los creadores de páginas web, usen su propio conjunto de etiquetas de demarcación (markup-tags)
Es un estándar que, junto con su norma asociada Xml schema, permite definir tipos de documentos y los conjuntos de etiquetas necesarias para codificarlos. La idea es que, una vez están marcados o codificados con una colección de etiquetas xml, es posible procesarlos y explotarlos de forma automática con diversos propósitos, de la misma manera que un grupo de registros de una base de datos se puede emplear de formas diversas, e incluso exportarse a diferentes sistemas de gestión de bases de datos si la estructura de registros sigue algún tipo de estándar.

RDF
XML provee información semántica como un subproducto de definir la estructura del documento, ya que define una estructura en árbol para un documento de manera que las hojas del mismo contienen la información. Se puede observar entonces que la estructura y la semántica de un documento XML están entrelazadas.
OIL: Una Ontología para la Web
En su concepción Oil unifica tres importantes aspectos provistos por diferentes comunidades la semántica formal y el soporte eficiente para razonamiento provisto por Description Logics, el enriquecimiento epistemológico de las primitivas provistas por los Frames y una propuesta estándar para notación de intercambio propuesta por la comunidad Web

SOCIEDAD DEL CONOCIMIENTO.

La noción de sociedad del conocimiento fue utilizada por primera vez en 1969 por un autor austríaco de literatura relacionada con el "management" o gestión, llamado Peter Drucker, y en el decenio de 1990 fue profundizada en una serie de estudios detallados publicados por investigadores como Robin Mansel o Nico Stehr.
Las sociedades de la información surgen de la implantación de las tecnologías de información y comunicación (TIC) sobre una comunidad. La eficacia de esta tecnología que actúa sobre elementos tan básicos de la persona como son el habla, el recuerdo o el estudio, modifica en muchos sentidos la forma en la que es posible desarrollar muchas actividades propias de la sociedad moderna.
Sin embargo, la información no es lo mismo que el conocimiento. La información se compone de hechos y sucesos, mientras que el conocimiento se define como la interpretación de dichos hechos dentro de un contexto, y posiblemente con alguna finalidad.

TIPOS DE CONOCIMIENTO

Conocimiento Científico:
Este es un pensamiento dinámico el cual utiliza métodos científicos, investigaciones, experimentación, para aproximarse a la realidad o dar solución a un determinado problema. Este utiliza modelos, métodos, procedimientos e información abstracta con el fin de determinar y explicar porqué suceden las cosas. Todos los resultados que se adquiera del conocimiento científico es fundamentado en la realidad y en las investigaciones.
Conocimiento Artístico:
Es aquel que se utiliza para comunicar emociones, pensamientos, sentimientos, además de descubrir la belleza y sencillez de las cosas. El conocimiento artístico no se puede comunicar o transmitir, este es propio del individuo que lo posee y solo puede ser desarrollado por él.
Conocimiento Revelado:
Este conocimiento tiene dos formas: el conocimiento revelado por Dios, y el conocimiento revelado por nuestra conciencia. Este viene dado por una representación de fe, en el que cualquier individuo que desea conocer algo, lo conoce de forma oculta o misteriosa. Es más aplicado a la teología o identidades religiosas.
Conocimiento Empírico:
Es el conocimiento que se da por casualidad de la vida, es decir, al azar, permitiendo a los seres humanos conducirse en su vida y las diferentes actividades que desarrollan, les permite salir de la rutina. Este conocimiento es propio de las personas sin formación, pero que tienen conocimieto del mundo exterior, lo que les permite actuar y determinar acciones, hechos y respuestas casi por instinto, de aquí que su fuente principal de conocimiento son los sentidos.

DOCUMENTOS E HIPERDOCUMENTOS.

Documentos e hiperdocumentos

En el terreno de la ciencia documental, la mayor parte de autores coinciden en que un documento es, esencialmente, información, la materialización de un mensaje o el soporte de una información. Un documento, no es ni más ni menos, que un soporte para transferir información. Para la ciencia de la documentación, el documento es a la vez medio y mensaje de información y conocimiento.
Clasificación tradicional de los Tipos de documentos
Según el soporte material
Según el mensaje informativo por la forma de expresión del contenido
Por el nivel y rigor del contenido
Por la transformación del contenido
Según la posibilidad de transmisión o difusión social
Temporal
Podemos definir documento como cada uno de los nodos (o conjunto de nodos almacenados como una unidad) de la red hipertextual e hiperdocumento como el conjunto de todos los documentos de la red hipertextual, incluyendo también las herramientas que permiten la navegación y búsqueda, y los demás elementos y componentes que conforman toda la estructura hipertextual
"un hiperdocumento es un documento digital complejo, formado por un conjunto de elementos no necesariamente homogéneos, dotado de una composición interna y que se puede leer, indistintamente, de una manera secuencial o no secuencial. Sinónimo: Hipertexto".

Representación de conocimiento

LOGICAS, INDUCCION, DEDUCCION, ABDUCCION, DIFUSA, NO-MONOTONICA

LOGICA
La lógica es una ciencia formal y una rama de la filosofía que estudia los principios de la demostración e inferencia válida. La palabra deriva del griego antiguo (logike), que significa "dotado de razón, intelectual, dialéctico, argumentativo", que a su vez viene de (logos), "palabra, pensamiento, idea, argumento, razón o principio".
Historia de lógica
Históricamente se considera a Aristóteles el fundador de la lógica como propedéutica o herramienta básica para todas las Ciencias,[] ya que fue el primero en formalizar completamente el campo.
La lógica formal, como un análisis explícito de los métodos de razonamientos, se desarrolló originalmente en tres civilizaciones de la historia antigua: China, India y Grecia entre el Siglo V y el Siglo I a. C.
Tipos de lógica
Lógicas clásicas
Los sistemas lógicos clásicos son los más estudiados y utilizados de todos, y se caracterizan por incorporar ciertos principios tradicionales que otras lógicas rechazan.
Entre los sistemas lógicos clásicos se encuentran:
Lógica proposicional
Lógica de primer orden
Lógica de segundo orden
Lógicos no clásicas
Los sistemas lógicos no clásicos son aquellos que rechazan uno o varios de los principios de la lógica clásica. Algunos de estos sistemas son:
Lógica difusa: Es una lógica plurivalente que rechaza el principio del tercero excluido y propone un número infinito de valores de verdad.
Lógica relevante: Es una lógica para consistente que evita el principio de explosión al exigir que para que una implicación sea válida, el antecedente y el consecuente deben compartir al menos una variable.
Lógica cuántica: Desarrollada para lidiar con razonamientos en el campo de la mecánica cuántica; su característica más notable es el rechazo de la propiedad distributiva.
Lógica no monotónica: Una lógica no montónica es una lógica donde, al agregar una fórmula a una teoría cualquiera, es posible que el conjunto de consecuencias de esa teoría se reduzca.
Lógicas modales
Las lógicas modales están diseñada para tratar con expresiones que califican la verdad de los juicios. Así por ejemplo, la expresión "siempre" califica a un juicio verdadero como verdadero siempre. No es lo mismo decir "está lloviendo" que decir "siempre está lloviendo".
Lógica modal: Trata con las nociones de necesidad, posibilidad, imposibilidad y contingencia.
Lógica deóntica: Se ocupa de las nociones morales de obligación y permisibilidad.
Lógica temporal: Abarca operadores temporales como "siempre", "nunca", "antes", "después", etc.
Lógica epistémica: Es la lógica que formaliza los razonamientos relacionados con el conocimiento.
Lógica doxástica: Es la lógica que trata con los razonamientos acerca de las creencias.
INDUCCION
El razonamiento inductivo es una modalidad del razonamiento no deductivo que consiste en obtener conclusiones generales a partir de premisas que contienen datos particulares.
Ejemplos de induccion
El razonamiento inductivo tiene dos formas: inducción por analogía y la inducción por causa y efecto.
Ejemplo de inducción por analogía:
A Julio, a Juan y a mí nos gustan la música, la pintura y la escultura. A mí me gusta también la literatura; luego, a Julio y a Juan debe gustarles también la literatura.
Ejemplo de inducción por relación causa y efecto:
Una vez mi esposa se asustó mucho a causa de una tormenta igual a la de esta noche. Mejor me voy a casa, porque debe estar muy asustada.

ABDUCCION
"La Abducción es aquella clase de operación que sugiere un enunciado que no está en modo alguno contenido en los datos de los que procede. Hay un nombre más familiar para ella que el de abducción, pues no es ni más ni menos que adivinar (guessing). Un determinado objeto presenta una combinación extraordinaria de caracteres para la que nos gustaría una explicación. El que haya uninación? Pues el número de nombres del directorio ni se acerca siquiera a la multitud de posibles leyes de atracción que hubieran dado cuenta de las leyes de Kepler del movimiento de los planetas y que, por delante de la verificación mediante la predicción de perturbaciones, etc., las habrían explicado a la perfección. Newton, se dirá, supuso que la ley sería una sola y simple. Pero, ¿cómo llegó a esto sino acumulando adivinación sobre adivinación? Con seguridad, son muchísimos más los fenómenos de la naturaleza complejos que los simples.

Administracion del Conocimiento.

ADMINISTRACION DEL CONOCIMIENTO
¿Qué es la administración del conocimiento?
La administración del conocimiento implica la conversión del conocimiento tácito (el que sabe un trabajador específico) en explícito (conocimiento documentado y replicable) para convertirlo en un activo estratégico de la organización.
La administración del conocimiento implica la adecuada explotación de datos e información para transformarlos en conocimiento y entendimiento.
Los datos y la información son todo aquello que se sabe acerca de los procesos y que responde a preguntas como ¿qué?, ¿cuándo?, ¿cuánto?, ¿a qué hora?
El conocimiento responde a preguntas que empiezan con ¿cómo?, es decir, todo aquello que generalmente sólo algunos miembros de la organización sabe y lo tiene en su cabeza pero no ha sido transformado en un conocimiento explícito.
El entendimiento responde a preguntas que empiezan con ¿por qué? lo cual permite a la organización mejorar de manera continua cuando se entienden los procesos y se toman acciones para corregir deficiencias y promover mayor eficiencia y productividad.
La sabiduría implica el uso adecuado de todo el aprendizaje organizacional para tomar decisiones estratégicas a lo largo del tiempo que garanticen el mayor de los éxitos.
[ver mas]
Gestión del conocimiento
La Gestión del conocimiento (del inglés Knowledge Management) es un concepto aplicado en las organizaciones, que busca transferir el conocimiento y la experiencia existente entre sus miembros, de modo que pueda ser utilizado como un recurso disponible para otros en la organización.
Usualmente el proceso implica técnicas para capturar, organizar, almacenar el conocimiento de los trabajadores, para transformarlo en un activo intelectual que preste beneficios y se pueda compartir.
En la actualidad, las tecnologías de información permiten contar con herramientas que apoyan la gestión del conocimiento en las empresas, apoyando en la recolección, la transferencia, la seguridad y la administración sistemática de la información, junto con los sistemas diseñados para ayudar a hacer el mejor uso de ese conocimiento.
En detalle, se refiere a las herramientas y a las técnicas diseñadas para preservar la disponibilidad de la información llevada a cabo por los individuos dominantes y facilitar la toma de decisiones, así como reducir el riesgo. Es un mercado del software y un área en la práctica de la consultoría, relacionada a disciplinas tales como inteligencia competitiva. Un tema particular de la administración del conocimiento es que el conocimiento no se puede codificar fácilmente en forma digital, tal como la intuición de los individuos dominantes que viene con años de la experiencia y de poder reconocer los diversos patrones del comportamiento que alguien con menos experiencia no puede reconocer.
El proceso de la Administración del Conocimiento, también conocido en sus fases de desarrollo como "aprendizaje corporativo" o "aprendizaje organizacional", tiene principalmente los siguientes objetivos:
Identificar, recoger y organizar el conocimiento existente.
Facilitar la creación de nuevo conocimiento.
Apuntalar la innovación a través de la reutilización y apoyo de la habilidad de la gente a través de organizaciones para lograr un mejor desempeño en la empresa.
La transferencia del conocimiento (un aspecto da la Administración del Conocimiento) ha existido siempre como proceso en las organizaciones. De manera informal por medio de las discusiones, sesiones, reuniones de reflexión, etc., y de manera formal por medio del aprendizaje, el entrenamiento profesional y los programas de capacitación. Como práctica emergente de negocio, la administración del conocimiento ha considerado la introducción del principal oficial del conocimiento, y el establecimiento de Intranets corporativos, de wikis, y de otras prácticas de la tecnología del conocimiento y de información.
[ver mas]