¿Cómo funciona la minería de datos?

Si bien la tecnología de información a gran escala ha ido evolucionando por separado las transacciones y sistemas de análisis, la minería de datos proporciona un enlace entre los dos. El software de minería de datos analiza las relaciones y patrones en los datos de transacción almacenados sobre la base de consultas de los usuarios de composición abierta. Existen varios tipos de software de análisis que están disponibles: estadísticos, de aprendizaje automático, y redes neuronales. En general, se buscan cualquiera de estos cuatro tipos de relaciones:

• Clases:

Los datos almacenados se utilizan para localizar datos en grupos predeterminados. Por ejemplo, una cadena de restaurantes podría minar datos de compra del cliente para determinar cuando los clientes los visitan y lo que normalmente ordenan. Esta información podría utilizarse para aumentar el tráfico al tener especiales del día.

• Grupos:

Los elementos de datos se agrupan de acuerdo a las relaciones lógicas o preferencias de los consumidores. Por ejemplo, los datos pueden ser extraídos para identificar segmentos de mercado o afinidades de los consumidores.

• Asociaciones:

Los datos pueden ser minados para identificar asociaciones. El ejemplo de cerveza-pañal es un ejemplo de minería asociativa.

• Patrones secuenciales:

Los datos se minan para anticipar patrones de comportamiento y tendencias. Por ejemplo, un distribuidor especializado en sistemas al aire libre puede predecir la probabilidad de compra de una mochila basado en la compra de un consumidor de sacos de dormir y calzado de senderismo.

La minería de datos se compone de cinco elementos principales:
• Extraer, transformar y cargar datos de transacciones en el sistema de almacenamiento de datos.
• Almacenar y manejar los datos en un sistema de base de datos multidimensional.
• Proporcionar acceso a datos para los analistas de negocios y profesionales de tecnologías de la información.
• Analizar los datos por un software de aplicación.
• Presentar los datos en un formato útil, como un gráfico o tabla.

Diferentes niveles de análisis disponibles:

• Redes neuronales artificiales

modelos predictivos no lineales que aprenden a través de la formación y se asemejan a redes neuronales biológicas en su estructura.

• Algoritmos genéticos

Técnicas de optimización que usan procesos tales como combinación genética, mutación y selección natural en un diseño basado en los conceptos de evolución natural.

• Árboles de decisión

Estructuras en forma de árbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Métodos específicos de árboles de decisión incluyen Árboles de Clasificación y Regresión (CART) y Detección Automática de Interacción (Chi Cuadrado CHAID). CART y CHAID son técnicas de árboles de decisión para la clasificación de un conjunto de datos. Constituyen un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cuáles registros tendrán un resultado determinado. CART segmenta un conjunto de datos mediante la creación de dos vías dividas, mientras que CHAID segmenta utilizando pruebas de chi cuadrado para crear divisiones en múltiples direcciones. CART normalmente requiere menos preparación de datos que CHAID.

• Método del vecino más próximo

Una técnica que clasifica cada registro en un conjunto de datos basado en una combinación de las clases de registro(s)  k más similares a él en un conjunto de datos históricos (donde k 1). A veces se llama técnica del vecino k-más cercano.

• Inducción de reglas

La extracción de reglas if-then útiles basados ​​en la significación estadística.

• Visualización de datos:

La interpretación visual de las complejas relaciones de datos multidimensionales. Las herramientas de gráficos se utilizan para ilustrar las relaciones de datos.