Artículos de investigación en IA seleccionados diariamente con traducciones
Los avances recientes en modelos de razonamiento a gran escala han impulsado un creciente interés en extender dichas capacidades a dominios multimodales. Sin embargo, a pesar del progreso notable en el razonamiento visual, la falta de estrategias transparentes y reproducibles para la curación de datos y el entrenamiento sigue siendo una barrera importante para la investigación escalable. En este trabajo, presentamos OpenMMReasoner, una receta completamente transparente de dos etapas para el razonamiento multimodal que abarca el ajuste fino supervisado (SFT) y el aprendizaje por refuerzo (RL). En la etapa de SFT, construimos un conjunto de datos de arranque en frío de 874K muestras con una validación rigurosa paso a paso, proporcionando una base sólida para las capacidades de razonamiento. La etapa posterior de RL aprovecha un conjunto de datos de 74K muestras en diversos dominios para afinar y estabilizar aún más estas habilidades, resultando en un proceso de aprendizaje más robusto y eficiente. Evaluaciones extensas demuestran que nuestra receta de entrenamiento no solo supera líneas de base sólidas, sino que también resalta el papel crítico de la calidad de los datos y el diseño del entrenamiento en el desempeño del razonamiento multimodal. Notablemente, nuestro método logra una mejora del 11.6% sobre la línea de base Qwen2.5-VL-7B-Instruct en nueve benchmarks de razonamiento multimodal, estableciendo una base empírica sólida para futuras investigaciones a gran escala en razonamiento multimodal. Hemos liberado todo nuestro código, pipeline y datos en https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.