허니비: 시각-언어 추론기를 위한 데이터 레시피
HoneyBee: Data Recipes for Vision-Language Reasoners
October 14, 2025
저자: Hritik Bansal, Devandra Singh Sachan, Kai-Wei Chang, Aditya Grover, Gargi Ghosh, Wen-tau Yih, Ramakanth Pasunuru
cs.AI
초록
최근 비전-언어 모델(Vision-Language Models, VLMs)의 발전으로 인해 이러한 모델들은 추론 작업에서 매우 효과적인 성능을 보이고 있다. 그러나 성능이 우수한 VL 추론 훈련 데이터셋 구축의 기본 원리는 여전히 잘 이해되지 않고 있다. 본 연구에서는 여러 데이터 큐레이션 접근법을 소개하고, 훈련 및 평가 설정을 신중하게 통제하여 VL 추론 능력에 미치는 영향을 연구한다. 우리는 컨텍스트(이미지와 질문 쌍)의 출처가 미치는 영향을 분석하고, 표적 데이터 개입을 구현하며, 이미지, 질문, 그리고 사고의 연쇄(Chain-of-Thought, CoT) 솔루션의 확장을 탐구한다. 연구 결과는 (a) 컨텍스트 출처 전략이 VLM 성능에 상당한 영향을 미치고, (b) 이미지 캡션에서의 보조 신호와 텍스트 전용 추론의 포함과 같은 개입이 상당한 성능 향상을 가져오며, (c) 모든 데이터 차원(예: 이미지당 고유한 질문 수와 이미지-질문 쌍당 고유한 CoT 수)의 확장이 일관되게 추론 능력을 향상시킨다는 것을 보여준다. 이러한 통찰을 바탕으로, 우리는 350K개의 이미지-질문 쌍으로 구성된 2.5M개의 예시를 포함한 대규모 고품질 CoT 추론 데이터셋인 HoneyBee를 소개한다. HoneyBee로 훈련된 VLMs은 모델 크기에 관계없이 최첨단 모델들을 능가한다. 예를 들어, 3B 매개변수를 가진 HoneyBee로 훈련된 VLM은 MathVerse에서 SOTA 모델과 기본 모델을 각각 7.8%와 24.8% 능가한다. 또한, 우리는 정확도를 희생하지 않고 디코딩 비용을 73% 줄이는 테스트 시간 확장 전략을 제안한다. 전반적으로, 이 연구는 VL 추론 데이터셋 큐레이션 연구를 위한 개선된 전략을 제시한다.
English
Recent advances in vision-language models (VLMs) have made them highly
effective at reasoning tasks. However, the principles underlying the
construction of performant VL reasoning training datasets remain poorly
understood. In this work, we introduce several data curation approaches and
study their impacts on VL reasoning capabilities by carefully controlling
training and evaluation setups. We analyze the effects of context (image and
question pair) sources, implement targeted data interventions, and explore
scaling up images, questions, and chain-of-thought (CoT) solutions. Our
findings reveal that (a) context source strategies significantly affect VLM
performance, (b) interventions such as auxiliary signals from image captions
and the inclusion of text-only reasoning yield substantial gains, and (c)
scaling all data dimensions (e.g., unique questions per image and unique CoTs
per image-question pair) consistently improves reasoning capability. Motivated
by these insights, we introduce HoneyBee, a large-scale, high-quality CoT
reasoning dataset with 2.5M examples consisting 350K image-question pairs. VLMs
trained with HoneyBee outperform state-of-the-art models across model sizes.
For instance, a HoneyBee-trained VLM with 3B parameters outperforms the SOTA
model and the base model by 7.8% and 24.8%, respectively, on MathVerse.
Furthermore, we propose a test-time scaling strategy that reduces decoding cost
by 73% without sacrificing accuracy. Overall, this work presents improved
strategies for VL reasoning dataset curation research.