Los científicos de datos utilizan el análisis exploratorio de datos (EDA) para analizar e investigar conjuntos de datos y resumir sus características principales, a menudo empleando métodos de visualización de datos. Ayuda a determinar la mejor manera de gestionar las fuentes de datos para obtener las respuestas que necesita, lo que facilita que los científicos de datos descubran patrones, detecten anomalías, prueben una hipótesis o verifiquen suposiciones. El EDA se utiliza principalmente para ver qué datos pueden revelarse más allá de la tarea de modelado formal o las pruebas de hipótesis, y permite conocer mejor las variables de conjunto de datos y las relaciones entre ellas. También permite determinar si las técnicas estadísticas que está considerando para el análisis de datos son apropiadas. Las técnicas de EDA, desarrolladas originalmente por el matemático estadounidense John Tukey en los años 70, siguen siendo un método ampliamente utilizado en el proceso de descubrimiento de datos hoy día.
¿Qué es EDA (Exploratory Data Analysis) en Data Science?
Los diagramas de cajas o en inglés, boxplots, son un tipo de gráficos que permiten ver la distribución de los datos en forma de caja. Las metodologías de exploración de datos son normalmente el primer paso antes de proceder con técnicas estadísticas avanzadas https://noticianegocios.com/mexico/conseguir-un-salario-por-encima-del-promedio-en-el-mundo-de-los-datos-gracias-al-bootcamp-de-tripleten/ como puede ser la estadística inferencial o el aprendizaje autónomo. Por lo tanto, el análisis tipo exploratorio es una parte esencial de cualquier análisis de datos, y esperamos que este artículo te haya brindado una excelente introducción al tema.
Otros artículos que te pueden interesar
Los datos multivariados usan gráficos cuando muestran las relaciones entre dos o más conjuntos de datos. El más utilizado es un diagrama de barras agrupadas o gráfico de barras en el que cada grupo representa un nivel de una de las variables y cada barra dentro de un grupo representa los niveles de la otra variable. La verdad es que como cada conjunto de datos suele ser único, el EDA se hace bastante “a mano”, pero podemos seguir diversos pasos ordenados para intentar acercarnos a ese objetivo que nos pasa el cliente en curso de análisis de datos pocas horas. El multivariate analysis va un paso más allá y explora simultáneamente tres o más variables para identificar patrones y relaciones complejas. Y la última fase de este análisis exploratorio consiste en sumarizar nuestras observaciones, es decir extraer las conclusiones más importantes del análisis que hemos venido realizando. En este caso podemos usar los gráficos de barras, que podemos visualizar usando el conteo de ocurrencias en cada categoría o el porcentaje que estas representan del total de datos.
¿Cómo hacer el Análisis Exploratorio de Datos? – Guía paso a paso
En muchas ocasiones, esta exploración de los datos se descuida y no se lleva a cabo de manera correcta. Este tipo de análisis puede incluir PCA (análisis de componentes principales) para reducir la dimensionalidad de los datos, análisis de conglomerados (Clustering) y modelos de regresión múltiple. El análisis exploratorio de datos es un proceso flexible y dinámico, diseñado para maximizar el entendimiento de los conjuntos de datos.
Cada uno de estos enfoques ofrece perspectivas únicas sobre los datos, ayudándonos a entender desde características individuales hasta complejas interacciones. Dentro del EDA, el análisis puede clasificarse según el número de variables que se examinan simultáneamente. El EDA se centra en la curiosidad y la apertura mental, tratando de explorar los datos con una mente abierta, sin hipótesis preconcebidas. https://digitalfinanzas.com/mexico/entrar-en-el-mundo-de-los-datos-con-el-bootcamp-de-tripleten-para-ganar-un-salario-por-encima-del-promedio/ La mediana resuelve este inconveniente, y es simplemente el valor que divide los datos en dos mitades y se puede aplicar para datos ordinales o discretos (como la categoría del tiquete o la edad). La media es simplemente el promedio de los datos y por tanto se puede aplicar a datos discretos (como por ejemplo la edad de los pasajeros) o continuos (como por ejemplo el valor de los tiquetes).
- Realizar un análisis exploratorio de datos de forma sistemática pero flexible nos permite obtener el máximo provecho de la información con la que contamos.
- Como resultado del EDA si determinamos continuar, pasaremos a una etapa en la que ya preprocesaremos los datos pensando en la entrada a un modelo (ó modelos!) de Machine Learning.
- Mediante comandos como ggplot() y funciones geom_ se pueden generar una variedad de gráficos, como histogramas, gráficos de dispersión, diagramas de caja y gráficos de barras, lo que permite comprender mejor la distribución y las relaciones en los datos.
- Estos problemas incluían la fabricación de semiconductores y la comprensión de las redes de comunicaciones, que preocupaban a los Laboratorios Bell.