7 min read

Las mejores formas de aprovechar el Proceso Estándar Intersectorial para la extracción de datos (CRISP-DM)

16-may-2022 9:23:48

Best Ways to Leverage the Cross-Industry Standard Process for Data Mining (CRISP-DM)

FuenteiStock

La minería de datos ayuda a analizar y encontrar patrones en los datos. La fiabilidad de los datos puede garantizar una mayor precisión en la creación de modelos en diferentes sectores. Las empresas pueden conocer mejor a sus clientes y desarrollar estrategias eficaces relacionadas con diversas funciones empresariales. Estas estrategias pueden ayudar a aprovechar los recursos de manera óptima y perspicaz. La minería de datos puede proporcionar una profunda ventaja sobre los competidores al permitir a las empresas conocer mejor a los clientes, desarrollar estrategias de marketing eficaces, aumentar los ingresos y reducir los costes.

New call-to-action

¿Qué procesos estándar son necesarios para la minería de datos?

El proceso estándar cross industria para la minería de datos, conocido como CRISP-DM, es un modelo de proceso estándar abierto que describe los enfoques comunes utilizados por los expertos en minería de datos. Es el modelo de análisis más empleado, y muchos problemas, como la limpieza y la transformación de datos, pueden detectarse a tiempo o incluso evitarse por completo siguiendo un proceso de análisis de datos denominado CRISP-DM.

La analítica de datos se ocupa de resolver un problema para generar conocimientos a partir de los datos. Para obtener una solución basada en la analítica de datos, es necesario seguir los siguientes pasos:

1. Entender el problema de la empresa

  1. Determinar el objetivo empresarial:

    Exponer el objetivo en términos técnicos.
  2. Identificar el objetivo del análisis de datos:

    Exponer el objetivo en términos empresariales.

En este primer paso, comprender el punto débil y su impacto en la empresa es fundamental para determinar el objetivo empresarial, que es de suma importancia. Después hay que especificar el objetivo y trabajar para conseguirlo en el marco CRISP-DM. 

Concéntrate en comprender los objetivos y requisitos del proyecto desde una perspectiva empresarial. Convierte este conocimiento utilizando la minería de datos y crea un plan preliminar diseñado para alcanzar los siguientes objetivos:

  • ¿Qué debes lograr exactamente?
  • ¿Cuáles son los factores clave? Por ejemplo, las limitaciones, los objetivos en competencia, etc.

2. Reconocer y comprender los datos

Reconocer y comprender los distintos conjuntos o fuentes de datos que pueden aprovecharse para resolver el problema en cuestión. Para solucionar un problema empresarial, el mejor proceso es comprender los datos disponibles e identificar los puntos de datos relevantes para un análisis adecuado.

  1. Reunir datos relevantes:

    La identificación y recopilación de los conjuntos de datos adecuados ayuda al análisis de datos. Deben estar disponibles en la empresa. De lo contrario, es posible que tenga que recopilar la información de otras fuentes, como repositorios de código abierto o conjuntos de datos gubernamentales. Algunos ejemplos de estas fuentes son el UCI Machine Learning Repository o Kaggle.
  2. Describir los datos:

    Una vez identificado el conjunto de información, explica su contenido y explora los conocimientos para aumentar la comprensión de la información y sus implicaciones empresariales. Después, crea un diccionario de conocimientos enumerando los distintos tipos de variables, por ejemplo, atributos, formas completas, número de registros, etc.
  3. Explorar los datos:

    Para explorar los datos, traza gráficos sencillos en Excel/R/Python. Por ejemplo, para entender las ventas de un producto específico, traza representaciones diarias, mensuales y anuales de los datos.
  4. Comprobar la calidad de los datos:

     Una vez comprendida la estructura de los datos, se examina el estándar de conocimiento y se abordan diversos factores como:
  • ¿Están completos los datos? ¿Cubre todos los casos y registros?
  • ¿Son correctos los datos? ¿Contienen errores y, si los hay, cuán comunes son? 
  • ¿Faltan valores en los datos? Si es así, ¿cómo se representan?
  • ¿Dónde se producen los valores que faltan? Por ejemplo, si las ventas se declaran inexactamente
    como 50.000 dólares o 5.000 millones de dólares cuando el rango de ventas tradicionalmente declarado es de 0 a 50 millones de dólares, es probable que la entrada de datos tenga errores.

3. Preparación de los datos

Este es un paso crítico y que consume tiempo en el análisis completo. Todo analista de datos/científico de datos dedica el 70-80% del tiempo a la preparación de los datos, ya que desempeña un papel importante antes de aplicar cualquier modelización sobre los datos. Los conjuntos de datos deben ser bien comprendidos y preparados antes de la investigación.

  1. La información almacenada suele proceder de múltiples fuentes y está disponible en diferentes archivos y formatos. El primer objetivo es combinarlos para resolver un problema empresarial concreto. 
  2. Después de unir los datos, hay que pasar a la etapa de preparación de datos, que debe tener diferentes pasos de limpieza, como el tratamiento de los valores perdidos, los valores atípicos y los datos irrelevantes.
  3. Si se necesita más información para enriquecer los datos existentes, se utiliza la extracción de características o la ingeniería de características.

4. Modelado de datos

El modelado de datos es el paso más emocionante de todo el proceso CRISP-DM. Los conocimientos se pueden generar a partir de la información tras la preparación de los datos y mediante la construcción de modelos para responder los problemas empresariales.

El modelado de datos desempeña un papel esencial en el marco CRISP-DM. Es importante:

  1. Elegir los algoritmos/modelos de ML adecuados en función de los enunciados del problema.
  2. Seleccionar un modelo relevante de la lista de algoritmos en función del tipo de datos.

Ejemplo: ¿Cómo enseñar a una máquina a elegir un equipo de críquet ganador en la India Premier League (IPL)?

Los algoritmos identifican patrones en los datos y aprenden qué parámetros son los más importantes para predecir con fiabilidad el rendimiento de un equipo, como la media de bateo, la puntuación de los capitanes, la tasa de strike y los wickets. Algunos modelos de datos utilizan las opiniones de expertos de entrenadores y jugadores anteriores para incorporar detalles subjetivos, como el liderazgo y la solidaridad, junto con las estadísticas duras. Los parámetros elegidos son las entradas del modelo, que da el resultado que nos interesa: si el equipo asignado ganará o perderá. Los resultados pueden repetirse para encontrar el ganador más probable.

5. Evaluar el modelo

La evaluación de un modelo de datos es necesaria para comprobar su precisión, su utilidad, entender su rendimiento y revisar su proceso continuo. 

Una vez que se establece un algoritmo específico, los encargados de las pruebas pueden aumentar la precisión afinando/ajustando los parámetros de los modelos hasta lograr resultados satisfactorios en la evaluación.

6. Desplegar el modelo

El último paso del marco es la implantación del modelo. Una vez que el modelo supera los criterios de evaluación, está listo para su despliegue.

La traducción de un modelo en una estrategia empresarial es la última etapa, y se denomina despliegue del modelo. CRISP-DM es un proceso iterativo. Por ejemplo, la comprensión de los datos puede mejorar la comprensión del negocio. Del mismo modo, después de la evaluación del modelo, si el modelo no funciona bien, tendrá que volver a la etapa de preparación de los datos y luego, desarrollar el modelo de nuevo.

Ejemplo: Considera la IPL como un negocio en el que el objetivo puede ser ganar o maximizar los beneficios. Es esencial tener un objetivo empresarial bien definido antes de poder identificar las metas del problema de análisis de datos. Si el objetivo empresarial es ganar, el propósito del análisis podría ser detectar a los jugadores con mayor puntuación o a los jugadores de bolos con el mejor wicket. Por otro lado, si el objetivo empresarial es maximizar los beneficios, el objetivo del análisis podría ser detectar a los mejores jugadores que atraen la financiación. Es fundamental definir claramente los objetivos de la empresa para que el propósito del problema del análisis de datos sea más fácil. 

El proceso de extracción de datos debe ser fiable y repetible sin depender del tipo de recursos. CRISP-DM es flexible y fácilmente aplicable a diferentes empresas con diferentes tipos de datos.

¿Cómo Nisum puede ayudar?

Nisum puede ayudar a las empresas a comprender los datos y proporcionar información aprovechando los métodos adecuados de minería de datos. Aprovechando los éxitos del pasado, personalizamos soluciones tecnológicas que pueden ayudar a mejorar las ventas, el marketing y los servicios al cliente. Contáctanos para más información.

Murali Kommanaboina

Murali Kommanaboina

Murali Kommanaboina ha estado trabajando con Nisum como científico de datos senior. Tiene experiencia trabajando en los sectores minorista, BFSI y sanitario.

Have feedback? Leave a comment!

Featured

Blog by Topics

See All
7 minutos de lectura

Las mejores formas de aprovechar el Proceso Estándar Intersectorial para la extracción de datos (CRISP-DM)

16-may-2022 9:23:48

Best Ways to Leverage the Cross-Industry Standard Process for Data Mining (CRISP-DM)

FuenteiStock

La minería de datos ayuda a analizar y encontrar patrones en los datos. La fiabilidad de los datos puede garantizar una mayor precisión en la creación de modelos en diferentes sectores. Las empresas pueden conocer mejor a sus clientes y desarrollar estrategias eficaces relacionadas con diversas funciones empresariales. Estas estrategias pueden ayudar a aprovechar los recursos de manera óptima y perspicaz. La minería de datos puede proporcionar una profunda ventaja sobre los competidores al permitir a las empresas conocer mejor a los clientes, desarrollar estrategias de marketing eficaces, aumentar los ingresos y reducir los costes.

New call-to-action

¿Qué procesos estándar son necesarios para la minería de datos?

El proceso estándar cross industria para la minería de datos, conocido como CRISP-DM, es un modelo de proceso estándar abierto que describe los enfoques comunes utilizados por los expertos en minería de datos. Es el modelo de análisis más empleado, y muchos problemas, como la limpieza y la transformación de datos, pueden detectarse a tiempo o incluso evitarse por completo siguiendo un proceso de análisis de datos denominado CRISP-DM.

La analítica de datos se ocupa de resolver un problema para generar conocimientos a partir de los datos. Para obtener una solución basada en la analítica de datos, es necesario seguir los siguientes pasos:

1. Entender el problema de la empresa

  1. Determinar el objetivo empresarial:

    Exponer el objetivo en términos técnicos.
  2. Identificar el objetivo del análisis de datos:

    Exponer el objetivo en términos empresariales.

En este primer paso, comprender el punto débil y su impacto en la empresa es fundamental para determinar el objetivo empresarial, que es de suma importancia. Después hay que especificar el objetivo y trabajar para conseguirlo en el marco CRISP-DM. 

Concéntrate en comprender los objetivos y requisitos del proyecto desde una perspectiva empresarial. Convierte este conocimiento utilizando la minería de datos y crea un plan preliminar diseñado para alcanzar los siguientes objetivos:

  • ¿Qué debes lograr exactamente?
  • ¿Cuáles son los factores clave? Por ejemplo, las limitaciones, los objetivos en competencia, etc.

2. Reconocer y comprender los datos

Reconocer y comprender los distintos conjuntos o fuentes de datos que pueden aprovecharse para resolver el problema en cuestión. Para solucionar un problema empresarial, el mejor proceso es comprender los datos disponibles e identificar los puntos de datos relevantes para un análisis adecuado.

  1. Reunir datos relevantes:

    La identificación y recopilación de los conjuntos de datos adecuados ayuda al análisis de datos. Deben estar disponibles en la empresa. De lo contrario, es posible que tenga que recopilar la información de otras fuentes, como repositorios de código abierto o conjuntos de datos gubernamentales. Algunos ejemplos de estas fuentes son el UCI Machine Learning Repository o Kaggle.
  2. Describir los datos:

    Una vez identificado el conjunto de información, explica su contenido y explora los conocimientos para aumentar la comprensión de la información y sus implicaciones empresariales. Después, crea un diccionario de conocimientos enumerando los distintos tipos de variables, por ejemplo, atributos, formas completas, número de registros, etc.
  3. Explorar los datos:

    Para explorar los datos, traza gráficos sencillos en Excel/R/Python. Por ejemplo, para entender las ventas de un producto específico, traza representaciones diarias, mensuales y anuales de los datos.
  4. Comprobar la calidad de los datos:

     Una vez comprendida la estructura de los datos, se examina el estándar de conocimiento y se abordan diversos factores como:
  • ¿Están completos los datos? ¿Cubre todos los casos y registros?
  • ¿Son correctos los datos? ¿Contienen errores y, si los hay, cuán comunes son? 
  • ¿Faltan valores en los datos? Si es así, ¿cómo se representan?
  • ¿Dónde se producen los valores que faltan? Por ejemplo, si las ventas se declaran inexactamente
    como 50.000 dólares o 5.000 millones de dólares cuando el rango de ventas tradicionalmente declarado es de 0 a 50 millones de dólares, es probable que la entrada de datos tenga errores.

3. Preparación de los datos

Este es un paso crítico y que consume tiempo en el análisis completo. Todo analista de datos/científico de datos dedica el 70-80% del tiempo a la preparación de los datos, ya que desempeña un papel importante antes de aplicar cualquier modelización sobre los datos. Los conjuntos de datos deben ser bien comprendidos y preparados antes de la investigación.

  1. La información almacenada suele proceder de múltiples fuentes y está disponible en diferentes archivos y formatos. El primer objetivo es combinarlos para resolver un problema empresarial concreto. 
  2. Después de unir los datos, hay que pasar a la etapa de preparación de datos, que debe tener diferentes pasos de limpieza, como el tratamiento de los valores perdidos, los valores atípicos y los datos irrelevantes.
  3. Si se necesita más información para enriquecer los datos existentes, se utiliza la extracción de características o la ingeniería de características.

4. Modelado de datos

El modelado de datos es el paso más emocionante de todo el proceso CRISP-DM. Los conocimientos se pueden generar a partir de la información tras la preparación de los datos y mediante la construcción de modelos para responder los problemas empresariales.

El modelado de datos desempeña un papel esencial en el marco CRISP-DM. Es importante:

  1. Elegir los algoritmos/modelos de ML adecuados en función de los enunciados del problema.
  2. Seleccionar un modelo relevante de la lista de algoritmos en función del tipo de datos.

Ejemplo: ¿Cómo enseñar a una máquina a elegir un equipo de críquet ganador en la India Premier League (IPL)?

Los algoritmos identifican patrones en los datos y aprenden qué parámetros son los más importantes para predecir con fiabilidad el rendimiento de un equipo, como la media de bateo, la puntuación de los capitanes, la tasa de strike y los wickets. Algunos modelos de datos utilizan las opiniones de expertos de entrenadores y jugadores anteriores para incorporar detalles subjetivos, como el liderazgo y la solidaridad, junto con las estadísticas duras. Los parámetros elegidos son las entradas del modelo, que da el resultado que nos interesa: si el equipo asignado ganará o perderá. Los resultados pueden repetirse para encontrar el ganador más probable.

5. Evaluar el modelo

La evaluación de un modelo de datos es necesaria para comprobar su precisión, su utilidad, entender su rendimiento y revisar su proceso continuo. 

Una vez que se establece un algoritmo específico, los encargados de las pruebas pueden aumentar la precisión afinando/ajustando los parámetros de los modelos hasta lograr resultados satisfactorios en la evaluación.

6. Desplegar el modelo

El último paso del marco es la implantación del modelo. Una vez que el modelo supera los criterios de evaluación, está listo para su despliegue.

La traducción de un modelo en una estrategia empresarial es la última etapa, y se denomina despliegue del modelo. CRISP-DM es un proceso iterativo. Por ejemplo, la comprensión de los datos puede mejorar la comprensión del negocio. Del mismo modo, después de la evaluación del modelo, si el modelo no funciona bien, tendrá que volver a la etapa de preparación de los datos y luego, desarrollar el modelo de nuevo.

Ejemplo: Considera la IPL como un negocio en el que el objetivo puede ser ganar o maximizar los beneficios. Es esencial tener un objetivo empresarial bien definido antes de poder identificar las metas del problema de análisis de datos. Si el objetivo empresarial es ganar, el propósito del análisis podría ser detectar a los jugadores con mayor puntuación o a los jugadores de bolos con el mejor wicket. Por otro lado, si el objetivo empresarial es maximizar los beneficios, el objetivo del análisis podría ser detectar a los mejores jugadores que atraen la financiación. Es fundamental definir claramente los objetivos de la empresa para que el propósito del problema del análisis de datos sea más fácil. 

El proceso de extracción de datos debe ser fiable y repetible sin depender del tipo de recursos. CRISP-DM es flexible y fácilmente aplicable a diferentes empresas con diferentes tipos de datos.

¿Cómo Nisum puede ayudar?

Nisum puede ayudar a las empresas a comprender los datos y proporcionar información aprovechando los métodos adecuados de minería de datos. Aprovechando los éxitos del pasado, personalizamos soluciones tecnológicas que pueden ayudar a mejorar las ventas, el marketing y los servicios al cliente. Contáctanos para más información.

Murali Kommanaboina

Murali Kommanaboina

Murali Kommanaboina ha estado trabajando con Nisum como científico de datos senior. Tiene experiencia trabajando en los sectores minorista, BFSI y sanitario.

¿Tienes algún comentario sobre este? Déjanoslo saber!

Destacados

Blogs por tema

See All