El Grupo de Investigación "Extracción de Conocimiento y Sistemas Inteligentes en Biomedicina" es un grupo consolidado del IMIBIC. Nuestro equipo de investigación cuenta con 10 investigadores y 8 estudiantes de doctorado. Nuestras áreas de investigación cubren dos campos principales: el descubrimiento de conocimiento y la minería de datos, y la aplicación de técnicas de inteligencia artificial para el desarrollo industrial de sistemas inteligentes. Tenemos experiencia en investigación básica en las áreas de big data, machine learning, soft computing y técnicas de optimización. Al mismo tiempo, tenemos experiencia probada en el uso de estas técnicas en diversos dominios de aplicación y, últimamente, nos hemos centrado en su aplicación al campo de la Biomedicina.
Nuestra línea de trabajo para los próximos años se centra en el desarrollo de metodologías/propuestas de análisis de datos para la resolución de problemas complejos en el campo de la Biomedicina con gran relevancia social, como la predicción de melanomas, splicing alternativo, predicción y descripción de patologías relacionadas con la hipertensión arterial, entre otros. Las técnicas de análisis de datos juegan un papel fundamental en el diagnóstico médico, especialmente con el crecimiento de la medicina de precisión y el pronóstico individualizado; así, los modelos de diagnóstico precoz suponen una gran ventaja tanto para el paciente como para el sistema sanitario, mientras que los modelos que obtenemos pueden arrojar luz sobre la comprensión de las enfermedades.
El investigador principal del grupo Sebastián Ventura Soto y el resto de los miembros colaboran con el grupo científico PAIDI TIC-222. Otras colaboraciones incluyen grupos de investigación altamente competitivos tanto a nivel nacional como internacional.
Líneas de Investigación
Los modelos predictivos se desarrollan con el objetivo de estimar una salida o un conjunto de valores de salida dado un conjunto de características de entrada. Según el tipo de resultados, estos modelos se clasifican principalmente en clasificación (resultados discretos) y regresión (resultados continuos).
Los problemas tradicionales de clasificación y regresión estiman un único valor de salida a partir de un único vector de entrada, pero, en los últimos años, se han definido representaciones más flexibles de los espacios de entrada (multiinstancia, multivista) y de salida (multietiqueta, multiobjetivo). Nuestros estudios en este campo se basan en el desarrollo de una amplia gama de modelos predictivos tanto para problemas clásicos como para problemas con una representación más flexible de los espacios de entrada y salida.
Algunos de los estudios de nuestro grupo de investigación consisten en aplicar directamente estos modelos a una amplia gama de problemas reales en biomedicina, como la predicción del riesgo de diabetes en pacientes y el diagnóstico a partir de textos clínicos utilizando la clasificación multietiqueta.
La minería de patrones tiene como objetivo extraer y describir elementos que están relacionados de alguna manera en una base de datos. Los patrones, como elemento clave en la analítica de datos, representan cualquier tipo de homogeneidad y regularidad en los datos y sirven como buenos descriptores de propiedades intrínsecas e importantes de los datos. Nuestros estudios en este campo de investigación se centran en la extracción de conocimiento (en forma de relaciones) a partir de los patrones y en el descubrimiento de información útil asociada a variables específicas de interés para el campo de aplicación. Nuestro grupo de investigación tiene una amplia experiencia en diferentes tipos de patrones, incluyendo patrones frecuentes/infrecuentes definidos en dominios discretos/continuos, y definidos en diferentes tipos de datos como datos relacionales (así como multirelacionales), datos secuenciales y datos definidos en dominios ambiguos. Por último, pero no por ello menos importante, nuestro grupo de investigación ha desarrollado una amplia gama de algoritmos para la extracción de patrones con respecto a una única (o múltiples) variable objetivo o variable de interés, incluyendo enfoques de descubrimiento de subgrupos y algoritmos de modelos excepcionales, entre otros.
En el contexto de la era del big data, los sistemas de información producen un flujo continuo de colecciones masivas de datos que superan las capacidades de almacenamiento y cálculo de los métodos tradicionales de extracción de conocimientos. Los big data se caracterizan por sus propiedades, que incluyen volumen, velocidad, variedad, veracidad, variabilidad, visualización y valor.
En los últimos años, los investigadores se han centrado principalmente en la escalabilidad de los algoritmos de extracción de datos para hacer frente al creciente volumen de datos. Las plataformas informáticas distribuidas, como Apache Hadoop y Spark, implementan el modelo de programación MapReduce para escalar los algoritmos de minería de datos más avanzados a volúmenes de datos heterogéneos cada vez mayores. Esta cuestión es especialmente difícil en el ámbito biomédico, que comprende cantidades masivas de información procedentes de muchas fuentes de datos. La integración eficiente y eficaz de todos los datos disponibles para inferir conclusiones significativas y precisas no es sencilla. Nuestro grupo de investigación ha desarrollado algoritmos escalables para grandes colecciones de datos, adaptados a las necesidades de los sistemas de información del siglo XXI.
La tecnología de flujos de trabajo aporta un marco de representación para realizar análisis de datos más cercano al dominio de la aplicación, ocultando los requisitos computacionales y de ejecución, y permitiendo el desarrollo de procesos complejos para la extracción de conocimiento a partir de datos heterogéneos. Así, los flujos de trabajo son un mecanismo de alto nivel para automatizar y describir los procesos como un conjunto de actividades que funcionan juntas para producir un resultado deseado. En la ciencia de los datos, la aplicación de los flujos de trabajo a las tareas intensivas en datos se enfrenta a importantes retos, no sólo referidos a la descomposición de los métodos de extracción de conocimiento en procesos y actividades, sino también a la adaptación y ordenación de los procedimientos algorítmicos de bajo nivel intensivos en datos. El desarrollo de soluciones de Big Data basadas en flujos de trabajo requiere el análisis de nuevas soluciones de paralelización para los algoritmos de extracción de datos; su ejecución en plataformas distribuidas, tanto en clústeres (por ejemplo, Hadoop) como en sistemas basados en la nube (por ejemplo, Azure); la reutilización de procesos y flujos de trabajo entre diferentes dominios de aplicación y problemas como la biomedicina o la educación; la optimización de procesos de alto rendimiento para la ejecución de flujos de trabajo intensivos en datos en tiempo de ejecución; o la transformación de datos de estructuras de datos complejas (por ejemplo, flujos de datos). Con el objetivo de democratizar la ciencia de datos en entornos industriales, nuestro grupo de investigación trabaja en la construcción de soluciones basadas en flujos de trabajo para mejorar el despliegue y la reutilización de algoritmos de minería de datos y técnicas de descubrimiento de conocimiento.
Redes
SEBASENet - Red de Excelencia en Ingeniería del Software basada en Búsqueda
Red de Excelencia en Big Data y Análisis de Datos Escalable
Teoría y Aplicaciones de Minería de Datos
PAIDI TIC-122
Palabras Clave
- ciencia de los datos biomédicos
- imagen médica
- aprendizaje automático
- big data
- modelos descriptivos
- modelos predictivos
- análisis de datos sanitarios
- radiómica
- aprendizaje profundo
- agrupación
- minería de patrones
- clasificación y regresión
Información Adicional
Nuestra Web: Knowledge Discovery and Intelligent Systems