ChatPaper.aiChatPaper

HoneyBee: Recetas de Datos para Sistemas de Razonamiento Visión-Lenguaje

HoneyBee: Data Recipes for Vision-Language Reasoners

October 14, 2025
Autores: Hritik Bansal, Devandra Singh Sachan, Kai-Wei Chang, Aditya Grover, Gargi Ghosh, Wen-tau Yih, Ramakanth Pasunuru
cs.AI

Resumen

Los recientes avances en los modelos de visión y lenguaje (VLMs) los han hecho altamente efectivos en tareas de razonamiento. Sin embargo, los principios subyacentes en la construcción de conjuntos de datos de entrenamiento para el razonamiento visual-lingüístico (VL) siguen siendo poco comprendidos. En este trabajo, introducimos varios enfoques de curación de datos y estudiamos su impacto en las capacidades de razonamiento VL mediante un control cuidadoso de los entornos de entrenamiento y evaluación. Analizamos los efectos de las fuentes de contexto (pares de imagen y pregunta), implementamos intervenciones específicas en los datos y exploramos la ampliación de imágenes, preguntas y soluciones de cadena de pensamiento (CoT). Nuestros hallazgos revelan que (a) las estrategias de fuentes de contexto afectan significativamente el rendimiento de los VLMs, (b) intervenciones como señales auxiliares de descripciones de imágenes y la inclusión de razonamiento basado únicamente en texto generan mejoras sustanciales, y (c) escalar todas las dimensiones de los datos (por ejemplo, preguntas únicas por imagen y CoTs únicos por par imagen-pregunta) mejora consistentemente la capacidad de razonamiento. Motivados por estas ideas, presentamos HoneyBee, un conjunto de datos de razonamiento CoT a gran escala y de alta calidad con 2.5 millones de ejemplos que consisten en 350,000 pares de imagen-pregunta. Los VLMs entrenados con HoneyBee superan a los modelos de última generación en todos los tamaños de modelo. Por ejemplo, un VLM entrenado con HoneyBee de 3 mil millones de parámetros supera al modelo SOTA y al modelo base en un 7.8% y un 24.8%, respectivamente, en MathVerse. Además, proponemos una estrategia de escalado en tiempo de prueba que reduce el costo de decodificación en un 73% sin sacrificar la precisión. En general, este trabajo presenta estrategias mejoradas para la investigación en la curación de conjuntos de datos de razonamiento VL.
English
Recent advances in vision-language models (VLMs) have made them highly effective at reasoning tasks. However, the principles underlying the construction of performant VL reasoning training datasets remain poorly understood. In this work, we introduce several data curation approaches and study their impacts on VL reasoning capabilities by carefully controlling training and evaluation setups. We analyze the effects of context (image and question pair) sources, implement targeted data interventions, and explore scaling up images, questions, and chain-of-thought (CoT) solutions. Our findings reveal that (a) context source strategies significantly affect VLM performance, (b) interventions such as auxiliary signals from image captions and the inclusion of text-only reasoning yield substantial gains, and (c) scaling all data dimensions (e.g., unique questions per image and unique CoTs per image-question pair) consistently improves reasoning capability. Motivated by these insights, we introduce HoneyBee, a large-scale, high-quality CoT reasoning dataset with 2.5M examples consisting 350K image-question pairs. VLMs trained with HoneyBee outperform state-of-the-art models across model sizes. For instance, a HoneyBee-trained VLM with 3B parameters outperforms the SOTA model and the base model by 7.8% and 24.8%, respectively, on MathVerse. Furthermore, we propose a test-time scaling strategy that reduces decoding cost by 73% without sacrificing accuracy. Overall, this work presents improved strategies for VL reasoning dataset curation research.
PDF92October 15, 2025