Biografía
Soy investigador en IA y recientemente obtuve el doctorado (Ph.D.) Cum Laude con Mención Internacional en Control Automático y Robótica por la Universidad Politécnica de Madrid (UPM), bajo la dirección de los profesores Luis Fernando D'Haro y Fernando Matía. Mi investigación doctoral abordó los retos críticos de alinear grandes modelos de lenguaje y agentes multimodales con la intención humana, centrándose en recetas post-entrenamiento robustas, estrategias de modelado de recompensas y el razonamiento de agentes generativos.
Como investigador en el Speech Technology and Machine Learning Group (UPM) y en el Intelligent Control Group del Centro de Automática y Robótica (CAR UPM-CSIC), mi trabajo conecta el diseño algorítmico teórico con el despliegue de sistemas en el mundo real. Me especializo en Reinforcement Learning from AI Feedback (RLAIF) utilizando estrategias de entrenamiento PPO y DPO. De forma destacada, apliqué el método de prompting "Chain-of-Emotion" para elicitar respuestas emocionales estructuradas durante mi estancia como Visiting Research Scholar en el Institute for Creative Technologies de la USC.
Me apasiona la evaluación robusta de la IA y el despliegue a gran escala. Fui el organizador principal del DSTC11 Track 4, donde coordiné equipos internacionales y curé más de 3 millones de turnos de diálogo para evaluar la robustez de métricas en múltiples idiomas. Además, fui seleccionado en dos ocasiones para participar en el Amazon Alexa Prize Socialbot Grand Challenge, donde ayudé a construir y desplegar socialbots de dominio abierto que atendieron a usuarios reales en entornos de producción con requisitos estrictos de latencia.
Al planificar el siguiente paso en mi carrera, estoy muy motivado para orientar mi investigación hacia lo que considero la frontera más crítica en IA: el escalado en tiempo de inferencia para el Razonamiento de Sistema 2. Basándome en mi trabajo previo con modelos de recompensa multiobjetivo y Mixture-of-Experts (MoE), quiero profundizar en la intersección de Modelos Escasos (Sparse Models), Dinámicas de Enrutamiento de Expertos, Monte Carlo Tree Search (MCTS), Process Reward Models (PRMs) y Group Relative Policy Optimization (GRPO).
Mi currículum puede consultarse aquí.
Contacto
Si tiene alguna pregunta o comentario, no dude en contactarme por correo electrónico:
mario.rcantelar@gmail.com.