HoneyBee: Рецепты данных для систем, анализирующих визуально-текстовую информацию
HoneyBee: Data Recipes for Vision-Language Reasoners
October 14, 2025
Авторы: Hritik Bansal, Devandra Singh Sachan, Kai-Wei Chang, Aditya Grover, Gargi Ghosh, Wen-tau Yih, Ramakanth Pasunuru
cs.AI
Аннотация
Последние достижения в области моделей, объединяющих зрение и язык (VLMs), сделали их высокоэффективными в задачах логического рассуждения. Однако принципы, лежащие в основе создания производительных наборов данных для обучения VL-рассуждений, остаются малоизученными. В данной работе мы представляем несколько подходов к курированию данных и изучаем их влияние на способности VL-рассуждений, тщательно контролируя настройки обучения и оценки. Мы анализируем эффекты источников контекста (пары изображение и вопрос), внедряем целенаправленные вмешательства в данные и исследуем масштабирование изображений, вопросов и решений с использованием цепочек рассуждений (CoT). Наши результаты показывают, что (а) стратегии выбора источников контекста значительно влияют на производительность VLM, (б) вмешательства, такие как вспомогательные сигналы из описаний изображений и включение текстовых рассуждений, приводят к существенному улучшению, и (в) масштабирование всех измерений данных (например, уникальных вопросов на изображение и уникальных CoT на пару изображение-вопрос) последовательно улучшает способность к рассуждению. Вдохновленные этими выводами, мы представляем HoneyBee — крупномасштабный, высококачественный набор данных для CoT-рассуждений, содержащий 2,5 млн примеров, состоящих из 350 тыс. пар изображение-вопрос. VLM, обученные на HoneyBee, превосходят современные модели независимо от их размера. Например, VLM с 3 млрд параметров, обученная на HoneyBee, превосходит современную модель и базовую модель на 7,8% и 24,8% соответственно на MathVerse. Кроме того, мы предлагаем стратегию масштабирования на этапе тестирования, которая снижает затраты на декодирование на 73% без ущерба для точности. В целом, данная работа представляет улучшенные стратегии для исследований в области курирования наборов данных для VL-рассуждений.
English
Recent advances in vision-language models (VLMs) have made them highly
effective at reasoning tasks. However, the principles underlying the
construction of performant VL reasoning training datasets remain poorly
understood. In this work, we introduce several data curation approaches and
study their impacts on VL reasoning capabilities by carefully controlling
training and evaluation setups. We analyze the effects of context (image and
question pair) sources, implement targeted data interventions, and explore
scaling up images, questions, and chain-of-thought (CoT) solutions. Our
findings reveal that (a) context source strategies significantly affect VLM
performance, (b) interventions such as auxiliary signals from image captions
and the inclusion of text-only reasoning yield substantial gains, and (c)
scaling all data dimensions (e.g., unique questions per image and unique CoTs
per image-question pair) consistently improves reasoning capability. Motivated
by these insights, we introduce HoneyBee, a large-scale, high-quality CoT
reasoning dataset with 2.5M examples consisting 350K image-question pairs. VLMs
trained with HoneyBee outperform state-of-the-art models across model sizes.
For instance, a HoneyBee-trained VLM with 3B parameters outperforms the SOTA
model and the base model by 7.8% and 24.8%, respectively, on MathVerse.
Furthermore, we propose a test-time scaling strategy that reduces decoding cost
by 73% without sacrificing accuracy. Overall, this work presents improved
strategies for VL reasoning dataset curation research.