lunes, 10 de mayo de 2010

Data Mining: principales tareas y tipos de problemas

Principales tareas de Data Mining
==========================
Los distintos problemas de los distintos procesos de negocio
se pueden expresar en términos de las siguientes tareas:
T1.– Clasificación
T2.– Estimación
T3.– Asociación
T4.– Clustering


T1.– Clasificación
•••••••••••••••••••••
Examinar las características de un nuevo objeto
y asignarlo a una clase dentro de un conjunto de clases predefinido.
– Clasificar personas que piden créditos como alto medio o bajo riesgo,
– Determinar el patrón de las quejas de seguros fraudulentas
– Patrón de los clientes que nos dejarán en los próximos 6 meses
• Se ha de disponer de un conjunto de entrenamiento en el que todos los registros estén clasificados
• El problema consiste en construir un modelo que aplicado a un nuevo ejemplo sin clasificar lo clasifique.
• Se tiene siempre un número limitado de clases y se esperar poder asignar cualquier nuevo objeto en una de esas clases.


T2.– Estimación
•••••••••••••••••••••
• La clasificación trata con problemas de salidas discretas (si o no, alto, medio o bajo riesgo, responderá o no responderá...)
• La estimación trata con problemas donde el valor a clasificar puede tomar valores
en un rango continuo (ingresos, balance de la tarjeta de crédito, probabilidad de que sea jugador)
• Es una clasificación en la que se establece un score
Ejemplos
– Estimar el número de hijos de una familia
– Estimar la probabilidad de que alguien conteste a un mailing
– Estimar el tiempo de vida de un cliente
– Estimar los ingresos totales de una familia


T3.– Asociación o cesta de la compra
••••••••••••••••••••••••••••••••••••••••••••
Determinar que cosas van juntas.
– Pañales y cerveza se compran juntos los fines de semana
• El ejemplo típico es observar qué productos suelen ir juntos en la cesta de la compra
• Se puede utilizar para establecer los almacenes, escaparates y estrategias de Cross-selling.


T4.– Clustering
••••••••••••••••••
Segmentar una población heterogénea en un número de subgrupos homogéneos o clusters.
• No hay clases predefinidas
• Registros agrupados en base a su similitud.
• Se realiza a menudo antes de otras tareas de descubrimiento.
– Encontrar clientes con hábitos de compra similares



Tipos de Objetivos
==============

• Descubrimiento indirecto [ Problemas Descriptivos: Asociaciones(Asociación) - Segmentación(Clustering) ]
----------------------------------------------
–- Segmentación de bases de datos [T4.– Clustering]
. Clustering demográfico
. Algoritmo de las K-medias
. Mapas de Kohonen
–- Análisis de asociaciones y /o Patrones secuenciales [T3.– Asociación]
. Matrices de coocurrencias
. Algoritmo Apriori

•Descubrimiento directo [ Problemas Predictivos: Clasificación(Clasificación) - Predicción de valores(Estimación) ]
--------------------------------------------------------------------
–- Clasificación y Estimación [T1.– Clasificación, T2.– Estimación]
- Árboles de decisión:
. ID3, CART, C4.5, CHAID
- Redes neuronales
. Back Propagation
. RBF
- Regresión lineal


Tipos de problemas de Data Mining:
============================
el proceso de data mining es siempre un proceso inductivo en que no se realiza ninguna predicción de los datos.


A.- Problemas Descriptivos (problemas de descubrimiento indirecto puesto que no hay una meta a predecir)
--------------------------------------------------------------
META: es simplemente encontrar una descripción de los datos de estudio.
Pertenecen a este tipo de problemas el ejemplo de conocer cuales son los clientes de una organización
(características de los mismos) [una descripción como decimos del conjunto de datos origen],
o el encontrar los productos que frecuentemente se compran juntos o síntomas de enfermedades que se presentan juntos
[si bien el problema sigue siendo descriptivo,
el tipo de descripción requerida es diferente pues lo que se pretende es encontrar asociaciones
esta vez no entre los objetos origen sino entre los valores de atributos o propiedades de estos objetos].
Esto provoca una división más detallada del problema descriptivo en:

A1.- Análisis de segmentación ["segmentación de los clientes"]:
------------------------------------------
Se refiere a los problemas donde la meta es encontrar grupos homogéneos en la población de objetos origen.
A estos problemas se los denomina también problemas de aprendizaje no supervisado.
El típico ejemplo de segmentación es realizar una segmentación de los clientes

A2.- Análisis de asociaciones ["análisis de la cesta de la compra"]:
------------------------------------------
Hace referencia a los problemas en los que se persigue obtener relaciones entre los valores de atributos de una base de datos.
El ejemplo más típico es el de análisis de la cesta de la compra.


B.- Problemas Predictivos (problemas de descubrimiento directo.)
------------------------------------
META: es obtener un modelo que en un futuro pueda ser aplicado para predecir comportamientos.
Este tipo de problemas es el que denominamos problemas predictivos
o en entornos de inteligencia Artificial se denominan problemas de aprendizaje supervisado.
Aunque las técnicas aplicadas para la obtención del modelo son técnicas de inducción sobre los datos de origen,
el resultado (modelo) será aplicado para predecir.
La distinción en el tipo de variables que el modelo predecirá
nos lleva a una distinción dentro de los problemas predictivos que es:

B1.- Problemas de clasificación ["Encontrar el perfil.."]:
--------------------------------------------
problemas en los que la variable a predecir tiene un número finito de valores, esto es, la variable es categórica.
Un ejemplo de este tipo de problemas sería encontrar un modelo que a la vista de un histórico de clientes
clasificados como “buenos” , “regulares” y “malos” establezca de qué tipo de cliente es uno nuevo.

B2.- Problemas de predicción de valores ["Encontrar la probabilidad..."]:
---------------------------------------------------------
problemas en los que la variable a predecir es numérica.
Como ejemplo podríamos tener el caso de encontrar un modelo que me establezca la probabilidad
de que un cliente que está pidiendo un préstamo lo devolverá o no.

---
El hacer esta distinción es importante pues dependiendo del tipo de problema así será la técnica que se utilizará para solucionarlo.


fuente:
Tipos de Problemas de Data Mining
Ernestina Menasalvas
Universidad Politécnica de Madrid
Facultad de Informática

No hay comentarios: