Zebra-CoT: 시각-언어 간 교차 추론을 위한 데이터셋
Zebra-CoT: A Dataset for Interleaved Vision Language Reasoning
July 22, 2025
저자: Ang Li, Charles Wang, Kaiyu Yue, Zikui Cai, Ollie Liu, Deqing Fu, Peng Guo, Wang Bill Zhu, Vatsal Sharan, Robin Jia, Willie Neiswanger, Furong Huang, Tom Goldstein, Micah Goldblum
cs.AI
초록
인간은 복잡한 문제를 해결할 때 종종 다이어그램이나 스케치와 같은 시각적 보조 도구를 사용합니다. 이를 모방하여 다중모달 모델을 훈련시키는 것은 시각적 사고 연쇄(Visual Chain of Thought, Visual CoT)라고 불리며, 다음과 같은 이유로 도전적입니다: (1) 즉시 사용 가능한 시각적 CoT 성능이 낮아 강화 학습을 방해하고, (2) 고품질 시각적 CoT 훈련 데이터가 부족합니다. 우리는 Zebra-CoT라는 182,384개의 샘플로 구성된 다양하고 대규모 데이터셋을 소개합니다. 이 데이터셋은 논리적으로 일관된 텍스트-이미지 추적을 포함하고 있습니다. 우리는 스케치나 시각적 추론이 특히 자연스러운 네 가지 범주의 작업에 초점을 맞추었습니다: 기하학, 물리학, 알고리즘과 같은 과학적 질문; 시각적 탐색과 직소 퍼즐과 같은 2D 시각적 추론 작업; 3D 다중 홉 추론, 구현 및 로봇 계획을 포함한 3D 추론 작업; 시각적 논리 문제 및 체스와 같은 전략 게임. Anole-7B 모델을 Zebra-CoT 훈련 코퍼스로 미세 조정한 결과, 테스트 세트 정확도에서 +12%의 향상을 보였으며, 표준 VLM 벤치마크 평가에서 최대 +13%의 성능 향상을 달성했습니다. Bagel-7B를 미세 조정하면 고품질의 인터리브된 시각적 추론 체인을 생성하는 모델이 만들어져, Zebra-CoT가 다중모달 추론 능력 개발에 효과적임을 입증했습니다. 우리는 시각적 CoT의 개발과 평가를 지원하기 위해 데이터셋과 모델을 오픈소스로 공개합니다.
English
Humans often use visual aids, for example diagrams or sketches, when solving
complex problems. Training multimodal models to do the same, known as Visual
Chain of Thought (Visual CoT), is challenging due to: (1) poor off-the-shelf
visual CoT performance, which hinders reinforcement learning, and (2) the lack
of high-quality visual CoT training data. We introduce Zebra-CoT, a
diverse large-scale dataset with 182,384 samples, containing logically coherent
interleaved text-image reasoning traces. We focus on four categories of tasks
where sketching or visual reasoning is especially natural, spanning scientific
questions such as geometry, physics, and algorithms; 2D visual reasoning tasks
like visual search and jigsaw puzzles; 3D reasoning tasks including 3D
multi-hop inference, embodied and robot planning; visual logic problems and
strategic games like chess. Fine-tuning the Anole-7B model on the Zebra-CoT
training corpus results in an improvement of +12% in our test-set accuracy and
yields up to +13% performance gain on standard VLM benchmark evaluations.
Fine-tuning Bagel-7B yields a model that generates high-quality interleaved
visual reasoning chains, underscoring Zebra-CoT's effectiveness for developing
multimodal reasoning abilities. We open-source our dataset and models to
support development and evaluation of visual CoT.