BLOG

Buscar
  • José Antonio Ces Franjo

Cuando hablo de Big Data

Parece mentira que, con todo lo que se habla de ello, la gente siga sin saber de qué habla cuando habla de Big Data. Una cosa es que haya muchos datos y otra muy distinta es que se puedan modelar, analizar y utilizar para obtener mucha más información de la que se observa a simple vista. Dos materias muy relacionadas, pero muy distintas. Hablemos de datos.



Haruki Murakami es una de mis referencias literarias. Eterno aspirante al Nobel de Literatura, deja detrás de sus novelas una marca indeleble. "Tokio Blues (Norwegian Wood)", "Al sur de la frontera, al oeste del sol", "Kafka en la orilla" o "Crónica del pájaro que da cuerda al mundo" son sencillamente maravillosas. A Murakami le gusta correr maratones. Como a muchos otros últimamente, que corren sin que nadie les persiga. Y como Murakami es Murakami, a su afición atlética le dedicó un libro. "De que hablo cuando hablo de correr" o "What I talk about when I talk about running" (si lo prefieres en inglés). Menos bueno que los que te he mencionado (siempre en mi opinión) pero al que le tomo prestado el título para la entrada de este blog. ¿De qué hablo cuando hablo de Big Data? ¿Y de Data Science? Entremos en materia.


La relevancia de los datos

Que los datos son relevantes en el momento de tomar una decisión es una perogrullada. Si sé que un avión se va a estrellar, no lo cojo. Y si sé que comprando un cupón de la Once, me tocará el primer premio, ya estoy tardando en rascarme el bolsillo. Los datos ayudan a tomar decisiones. A entender mejor qué sucede a mi alrededor. Y cuando más sé, más listo me vuelvo. Y por lo tanto, mejor haré las cosas. Mejores decisiones tomaré. Pero esto ya lo sabías... ¿o no?

Que los datos son relevantes en el momento de tomar una decisión es una perogrullada

Hace unos años se puso de moda el Big Data. Si no has vivido en Marte estos últimos cinco años, estoy seguro de que lo habrás notado. La realidad detrás de este "boom" era que los sistemas mejoraban hasta el punto de poder analizar más datos en menos tiempo de lo que habían sido capaces en años previos. Eran capaces de procesar más datos en menos tiempo. Piensa en un conjunto de sensores que recogen información datos atmosféricos en distintos puntos de la geografía. El número de sensores, la frecuencia de recogida de datos y el número de variables a monitorizar dependen de la capacidad del sistema para recoger esos datos y procesarlos para su análisis. El Big Data supone que mi capacidad para la recogida de datos y su preparación para su análisis aumenta lo suficiente como para darle a todo esto una magnitud mucho mayor.


Hadoop y Spark

Uno de los culpables es Hadoop. Una distribución de Linux orientada a la ingesta o recogida de muchos datos y su preparación para su análisis y tratamiento posterior. ¿Sabías que "Hadoop" es el nombre del elefante de peluche del hijo de Doug Cutting, creador de esta distribución de Linux?. El otro culpable, pelín más tardío, es Spark. Aunque hay quienes ven estos dos frameworks como competidores en el espacio de Big Data, no es tan fácil hacer una comparación entre Spark y Hadoop. Se trata de dos diseños tecnológicos que, aunque parecen alternativos, en realidad fueron diseñados con la idea de operar en un mismo contexto. Hacen muchas cosas igual, pero hay algunas áreas donde ambos no se superponen. Por ejemplo, Spark no tiene sistema de archivos y, por lo tanto, depende del sistema de archivos distribuido de Hadoop. Su HDFS. Sin embargo podría sustituir elementos como YARN y MapReduce que operan en la distribución diseñada por Doug Cutting. Vale. Que no sabemos a ciencia cierta si compiten o se complementan.

Puedes imaginarte un gran número de pequeños ordenadores, cada uno de los cuales se encarga de procesar una porción de información

Al margen de la discusión del párrafo anterior Hadoop y Spark suelen encontrarse juntos en las arquitecturas de sistemas orientadas al Big Data. Pero... ¿cómo funcionan? ¿Cuál es su fundamento? En palabras muy llanas y desde cien mil pies de altura para que lo entiendas, lo que hacen ambas plataformas por medio de software es recoger tantos datos como seas capaz de facilitarles. Estos datos se distribuyen entre múltiples entidades software, que los tratan en paralelo. De esta forma evitan el procesamiento secuencial tradicional para expandir sus capacidades espacialmente. Una vez más el lema "divide y vencerás" aparece en nuestro horizonte. Recuerda lo que te conté cuando te hablé de las FPGA o de Microservicios. Puedes imaginarte un gran número de pequeños ordenadores, cada uno de los cuales se encarga de procesar una porción de información. La grandiosidad del sistema es que, a pesar de que cada uno de ellos funciona de forma independiente y autónoma, todos actúan en conjunto, como si fueran un solo ordenador de dimensiones increíbles.


Hasta aquí Big Data. Quizás podría hablarte algo de bases de datos no estructuradas que permiten una mayor velocidad en el acceso a ellas comparativamente a lo que nos permiten las típicas SQL, al evitar los dichosos queries. Esto lo cuento mi libro, así que no me extiendo mucho. Una base de datos NoSQL completa una arquitectura de sistemas que mejora sustancialmente el procesado de los muchísimos datos que están destinados a ser tratados. A ser analizados. Y aquí es donde entra la segunda parte de la ecuación: el Data Science. Una "ciencia" que también ha sufrido interesantes mejoras.


Data Science o el paradigma de la analítica de datos

Los sistemas de Data Science permiten aplicar modelos estadísticos a los datos para la extracción de información que no se ve a simple vista. Son muchos años ya desde mi encuentro con la estadística en la Universidad. Pero todavía lo recuerdo. Mi cabeza es bastante estructurada y la estadística me gustó de siempre. Porque es lógica. Un pelín enrevesada, a veces, pero siempre lógica. Recientemente he vuelto a revivir ciertos aprendizajes de la mano de un proyecto que hemos arrancado a la vuelta de vacaciones. Si tengo unos datos de entrada y le aplico una regresión, podré establecer relaciones entre esos datos de entrada que me ayudarán en mis decisiones. Os pongo un ejemplo de lo que estamos haciendo que te ayudará a entenderlo.

Los sistemas de Data Science permiten aplicar modelos estadísticos a los datos para la extracción de información que no se ve a simple vista

Una empresa que trabaja leads comerciales a través de agentes en un call center hace un reparto poco "inteligente" de los leads entre los agentes, por ejemplo, según éstos van quedando libres. O algún otro criterio digamos físico. De sentido común. Bajo esta premisa el resultado será uno. Pero si en vez de hacerlo así, aplicamos una regresión sobre distintas variables históricas de comportamiento, la cosa cambia. Y mucho. Si los leads se corresponden con la venta de seguros y resulta que hay comerciales que venden mejor cuando el cliente es una mujer, o cuando el producto es un seguro de vida, o cuando trabaja en horario de mañana, esos datos son relevantes a la hora de repartir los leads. Y todas estas relaciones pasan, la mayoría de las veces, totalmente inadvertidas. Y eso que he mencionado unas variables que son bastante obvias. Pero lo cierto es que hay muchas más. Muchas de ellas ocultas a la vista e imbuidas en una maraña de datos cada vez más grande. Porque los sistemas han mejorado y nos facilitan, a los sistemas de analítica, más y más datos cada vez.


El anterior es un ejemplo que ya se está utilizando en muchos sitios. La demanda empieza a ser alta porque la mejora proporcionada es alta. El análisis estadístico de la información para la mejor toma de decisiones es muy interesante y muy beneficioso para quien lo usa. Porque permite ver donde otros no ven. Es como tener las gafas en un universo de miopes. Porque todavía hay mucho miope. O ciego que no quiere ver. Porque no todo el mundo tiene la suficiente inteligencia como para apreciarlo. Todavía hay alguno de que dice que todo eso es una chorrada. Que lo hace él con un excel. Ya puede ser grande el excel. Pero incrédulos los hubo, los hay y los habrá siempre. Que se lo digan a San Pablo.


Analítica descriptiva, predictiva y prescriptiva

La base analítica del ejemplo, basada en al análisis de los datos históricos, es la que nos aplica cuando entramos en la analítica de los datos. Mirar hacia atrás es la forma tradicional de trabajar los datos. La forma normal de trabajar los sistemas de Business Intelligence en las Empresas. Algo que, siendo muy necesario, no es el cabo de la calle. Esto va ya de otra cosa. La potencia que observamos está en ser capaces de realizar análisis predictivos. Soy capaz de analizar comportamientos del entorno para predecir lo que pasará con mi negocio, con mis costes, con mi producción, con mis clientes. Y en esa predicción tomo decisiones antes que los demás. Y obtengo una ventaja competitiva que me hace ganar el partido. Seguir vivo. Ser el mejor. Y si soy capaz de tratar los algoritmos en esquemas de aprendizaje, esto es, de machine learning, entonces la potencia se multiplica. Y aparece algo más que la predicción. Aparece la prescripción. El diseño de distintos futuros posibles que, apoyados en un sistema de realimentación, contempla las consecuencias de las acciones sugeridas. Un modelo prescriptivo es capaz de predecir consecuencias basándose en diferentes opciones de acción. Pero también puede recomendar el mejor camino para cualquier consecuencia preestablecida.

Un modelo prescriptivo es capaz de predecir consecuencias basándose en diferentes opciones de acción

En definitiva, los datos hoy son grandes por lo mismo que lo eran hace ya mucho tiempo. Porque ayudan a decidir. El diferencial entre lo de hoy y lo de ayer es que, gracias al software y a los avances en la computación, somos capaces de disponer de arquitecturas que permiten tratar mucha más información de la que éramos capaces antes. Y además no sólo tratamos información histórica, sino que trazamos predicciones que, una vez más gracias a las capacidades que proporciona el software, convertimos en prescripciones que son consecuencia de un análisis paralelo y pormenorizado de los distintos escenarios predichos y de sus consecuencias. Toda una ciencia que. estando ahí desde mucho antes de que yo aprendiese estadística en "teleco", no ha podido ser explotada hasta estos niveles hasta hace muy poco.


Cuando hablo de Big Data hablo de todo esto. Principalmente de Data Science, porque es lo importante de los datos. Su analítica y su tratamiento para la obtención de la mejor información en la toma de decisiones.


Pero... ¿y tú?


¿De qué hablas cuando hablas de Big Data?

0 vistas
  • LinkedIn - Círculo Negro
  • Twitter - Círculo Negro
  • Facebook - Círculo Negro

Room714 © 2019

Madrid | Spain