ChatPaper.aiChatPaper

HoneyBee : Recettes de données pour les raisonneurs vision-langage

HoneyBee: Data Recipes for Vision-Language Reasoners

October 14, 2025
papers.authors: Hritik Bansal, Devandra Singh Sachan, Kai-Wei Chang, Aditya Grover, Gargi Ghosh, Wen-tau Yih, Ramakanth Pasunuru
cs.AI

papers.abstract

Les récents progrès dans les modèles vision-langage (VLMs) les ont rendus très efficaces pour les tâches de raisonnement. Cependant, les principes sous-jacents à la construction de jeux de données d’entraînement performants pour le raisonnement visuel et linguistique restent mal compris. Dans ce travail, nous introduisons plusieurs approches de curation de données et étudions leurs impacts sur les capacités de raisonnement VL en contrôlant soigneusement les configurations d’entraînement et d’évaluation. Nous analysons les effets des sources de contexte (paires image-question), mettons en œuvre des interventions ciblées sur les données, et explorons la mise à l’échelle des images, des questions et des solutions de chaîne de pensée (CoT). Nos résultats révèlent que (a) les stratégies de sources de contexte affectent significativement les performances des VLMs, (b) des interventions telles que les signaux auxiliaires provenant de légendes d’images et l’inclusion de raisonnements textuels uniquement apportent des gains substantiels, et (c) la mise à l’échelle de toutes les dimensions des données (par exemple, des questions uniques par image et des CoTs uniques par paire image-question) améliore systématiquement la capacité de raisonnement. Motivés par ces observations, nous introduisons HoneyBee, un jeu de données de raisonnement CoT à grande échelle et de haute qualité, comprenant 2,5 millions d’exemples constitués de 350 000 paires image-question. Les VLMs entraînés avec HoneyBee surpassent les modèles de pointe quelle que soit leur taille. Par exemple, un VLM entraîné avec HoneyBee et doté de 3 milliards de paramètres surpasse le modèle SOTA et le modèle de base respectivement de 7,8 % et 24,8 % sur MathVerse. De plus, nous proposons une stratégie de mise à l’échelle au moment du test qui réduit le coût de décodage de 73 % sans sacrifier la précision. Globalement, ce travail présente des stratégies améliorées pour la recherche sur la curation de jeux de données de raisonnement VL.
English
Recent advances in vision-language models (VLMs) have made them highly effective at reasoning tasks. However, the principles underlying the construction of performant VL reasoning training datasets remain poorly understood. In this work, we introduce several data curation approaches and study their impacts on VL reasoning capabilities by carefully controlling training and evaluation setups. We analyze the effects of context (image and question pair) sources, implement targeted data interventions, and explore scaling up images, questions, and chain-of-thought (CoT) solutions. Our findings reveal that (a) context source strategies significantly affect VLM performance, (b) interventions such as auxiliary signals from image captions and the inclusion of text-only reasoning yield substantial gains, and (c) scaling all data dimensions (e.g., unique questions per image and unique CoTs per image-question pair) consistently improves reasoning capability. Motivated by these insights, we introduce HoneyBee, a large-scale, high-quality CoT reasoning dataset with 2.5M examples consisting 350K image-question pairs. VLMs trained with HoneyBee outperform state-of-the-art models across model sizes. For instance, a HoneyBee-trained VLM with 3B parameters outperforms the SOTA model and the base model by 7.8% and 24.8%, respectively, on MathVerse. Furthermore, we propose a test-time scaling strategy that reduces decoding cost by 73% without sacrificing accuracy. Overall, this work presents improved strategies for VL reasoning dataset curation research.
PDF112February 7, 2026