El matemático José Antonio Guerrero (Cádiz, 1961) es pintor, pero sus óleos son los datos. El lienzo sobre el que trabaja cada noche hasta el amanecer, después de su jornada laboral oficial, es el ordenador de su casa, en Sevilla, donde de forma obsesiva y anónima, como los artistas auténticos, ha pintado una serie de modelos predictivos que le han convertido en el mejor científico de datos del mundo.
Sus predicciones matemáticas son, a su modo, obras de arte: “Lo más parecido a mi trabajo sería el impresionismo. Muchas veces vas dando pasos intermedios definiendo y calculando variables, construyendo modelos parciales. El conjunto sólo toma pleno sentido cuando se mira desde una cierta perspectiva”, cuenta el escurridizo Guerrero, inédito aún -salvo este post de Soraya Paniagua- en las búsquedas de Google. Sin duda, forma parte del reducido grupo de personas que pueden encontrar la belleza en el big data.
El andaluz es un completo desconocido fuera de los círculos especializados, pero si visitamos Kaggle, la influyente plataforma que agrupa a una comunidad de 130.000 científicos de datos de todo el mundo, hallaremos su nombre en el número uno del ‘ranking’
El andaluz, que se gana el pan trabajando en el Hospital Universitario Virgen del Rocío como técnico de bases de datos, es un completo desconocido fuera de los círculos especializados, pero si visitamos Kaggle, la plataforma que agrupa a una comunidad global de 130.000 científicos de datos, hallaremos su rostro sonriente en el número uno del ranking, por delante de japoneses, estadounidenses, brasileños o europeos.
– ¿José Antonio, y qué demonios es un científico de datos?
Es una persona con fundamentos en matemáticas, estadística y métodos de optimización, con conocimientos en lenguajes de programación y que además tiene una experiencia práctica en el análisis de datos reales y la elaboración de modelos predictivos.
De las tres características quizás la más difícil es la tercera; no en vano la modelización de los datos se ha definido en ocasiones como un arte. Aquí no hay reglas de oro, y cada conjunto de datos es un lienzo en blanco.
Kaggle no es una red social de andar por casa. Sus integrantes no chismorrean, se retan: ponen a prueba sus mentes al más alto nivel. Tampoco es un juego virtual; ni una lista cualquiera. Uno de sus socios principales es la NASA, y cuando las multinacionales necesitan encontrar una solución creativa relacionada con los modelos de datos por encima de las posibilidades de sus propios trabajadores, la buscan aquí.
Un científico de datos es una persona con fundamentos en matemáticas, estadística y métodos de optimización, con conocimientos en lenguajes de programación y que además tenga una experiencia práctica en el análisis de datos reales y la elaboración de modelos predictivos
Una de las últimas compañías en hacerlo fue Microsoft, que recurrió a los integrantes de Kaggle para mejorar el sistema de reconocimiento de gestos de Kinect, pero los ejemplos son miles. “Es una forma de organizar el capital intelectual de los científicos de datos con más talento del mundo y hacerla accesible a las organizaciones de todos los tamaños”, dijo sobre la plataforma Hal Varian, economista jefe de Google.
– ¿Cómo funciona Kaggle?
Un promotor contacta con el equipo de Kaggle y preparan un conjunto de datos de su área de negocio o de su ámbito de investigación. Una parte de estos datos son publicados en la web para que los científicos desarrollen sus modelos predictivos. Estos datos contienen la variable respuesta que se necesita modelar.
Para valorar la bondad de las predicciones se publica también una métrica, es decir, una fórmula del error. El ranking de los modelos se realiza comparando las predicciones sobre otro conjunto de datos del que sólo Kaggle conoce el verdadero valor de la variable respuesta. Todo el proceso es completamente objetivo y automático.
La importancia de la ciencia de datos
La ciencia de datos es tan desconocida para el gran público como esencial para el funcionamiento del mundo. Los modelos predictivos generados a partir grandes volúmenes de datos son una especie de Matrix del sistema. El trabajo de los científicos de datos está en todas partes, aunque nadie lo ve: en los modelos de negocio de las empresas, en el desarrollo de las participaciones preferentes, en las previsiones sobre el tráfico en la próxima Navidad, incluso en el modo de jugar al ajedrez de Magnus Carlsen.
Por esa razón algunas de las mentes más brillantes del mundo están a su servicio. “En Kaggle hay estudiantes, responsables de datos de empresas, profesores de universidad… La receta del éxito está en el equilibrio entre la colaboración y la competitividad: un día compites contra alguien y en otra ocasión colaboras con él”.
Guerrero entró en el mundillo cuando un proveedor de servicios sanitarios de Estados Unidos anunció que iba a patrocinar en Kaggle el desarrollo de modelos predictivos sobre necesidades en los servicios sanitarios: su punto fuerte. El Heritage Health Prize atrajo a más de 1.300 equipos de hospitales, universidades y empresas de todo el mundo. “Después de bastantes meses de trabajo mis modelos finalizaron en tercera posición”.
En España estamos acostumbrados a tener los mejores deportistas a nivel mundial en casi todas las disciplinas, pero que alguien destaque en un aspecto científico parece más raro. Es algo sobre lo que habría que reflexionar
A partir de entonces, ha participado en una veintena de retos hasta alcanzar la primera posición en la plataforma. “He trabajado sobre los temas más diversos: proyectos biosanitarios, empresas de seguros, agencias de viajes… Todo negocio dispone de información que es susceptible de modelizar y optimizar. Cada reto reparte puntos a los algoritmos en función de la posición final y del número total de equipos. Estos puntos tienen una vida media de dos años, y van perdiendo su valor según una función logarítmica en el tiempo, según esta fórmula”, explica el matemático.
– Ponga un ejemplo sobre la importancia de la ciencia de datos en esta época.
El fundador de Kaggle, Anthony Goldbloom, había visto el éxito alcanzado por una iniciativa del proveedor de películas Netflix para mejorar su sistema de recomendación de contenidos. Netflix puso en 2006 a disposición de la comunidad científica una base de datos anonimizada de más de 100.000.000 de recomendaciones de películas realizadas por unos 500.000 usuarios y anunció que el primer equipo cuyo algoritmo mejorara dicho sistema en un 10% obtendría una recompensa de 1.000.000 de dólares.
Fueron necesarios casi tres años y 40.000 equipos para alcanzar el objetivo. Hoy en día la práctica totalidad de los sistemas de recomendación que usan las tiendas online incorporan algunas de las ideas que fueron desarrolladas para el reto de Netflix.
Una sana competición científica
En la misma línea, la mayoría de los retos de Kaggle conllevan una dotación económica, aunque también existen proyectos enfocados al puro aprendizaje. “Hay universidades que los organizan para sus alumnos y son obligatorios para aprobar determinadas asignaturas, llegando a suponer el 30% de la puntuación”, apunta. “En Kaggle estamos un grupo de españoles bastante minoritario. Con diferencia, los colectivos más numerosos son los países asiáticos. En España estamos acostumbrados a tener los mejores deportistas a nivel mundial en casi todas las disciplinas, pero que alguien destaque en un aspecto científico parece más raro. Es algo sobre lo que habría que reflexionar”.
Estoy casado y con dos hijos. Es de agradecer su apoyo en todo esto, ya que mis horarios a veces no son normales y para ellos siempre ha supuesto también un sacrificio
En la actualidad, el matemático compagina su pasión por la ciencia de datos con su trabajo en la sanidad pública, en la que lleva desarrollando proyectos relacionados con las nuevas tecnologías desde hace 25 años. “He sido bioestadístico, programador, técnico y por último subdirector de tecnologías de la información durante bastantes años en un hospital”. A Guerrero no le costaría demasiado cambiar de trabajo. De hecho, Kaggle se está convirtiendo en un Infojobs global para matemáticos e informáticos. De momento, no quiere dar el paso. Seguramente porque le va la marcha.
– ¿Usted está siempre pensando en cómo resolver problemas matemáticos?
Hombre, todo el tiempo no, pero como decía Picasso, ‘cuando te llegue la inspiración, que te coja trabajando’. Cuando no encuentro la solución a un problema me suelo ir a pasear, eso suele funcionar. Estoy acostumbrado a trabajar muchas horas desde la época en que fui subdirector de un hospital.
Cuando me pongo con un problema no miro el reloj, y como prefiero trabajar de noche, me suele dar el día. Estoy casado y con dos hijos. Es de agradecer su apoyo en todo esto, ya que mis horarios a veces no son normales y para ellos siempre ha supuesto también un sacrificio.