Zebra-CoT: Un Dataset per il Ragionamento Intervallato tra Visione e Linguaggio
Zebra-CoT: A Dataset for Interleaved Vision Language Reasoning
July 22, 2025
Autori: Ang Li, Charles Wang, Kaiyu Yue, Zikui Cai, Ollie Liu, Deqing Fu, Peng Guo, Wang Bill Zhu, Vatsal Sharan, Robin Jia, Willie Neiswanger, Furong Huang, Tom Goldstein, Micah Goldblum
cs.AI
Abstract
Gli esseri umani spesso utilizzano ausili visivi, come diagrammi o schizzi, per risolvere problemi complessi. Addestrare modelli multimodali a fare lo stesso, noto come Catena di Pensiero Visiva (Visual CoT), è impegnativo a causa di: (1) scarse prestazioni immediate del Visual CoT, che ostacolano l'apprendimento per rinforzo, e (2) la mancanza di dati di addestramento di alta qualità per il Visual CoT. Presentiamo Zebra-CoT, un dataset ampio e diversificato con 182.384 campioni, contenente tracce di ragionamento intervallate testo-immagine logicamente coerenti. Ci concentriamo su quattro categorie di task in cui disegnare o ragionare visivamente è particolarmente naturale, spaziando da domande scientifiche come geometria, fisica e algoritmi; task di ragionamento visivo 2D come ricerca visiva e puzzle; task di ragionamento 3D tra cui inferenza multi-hop 3D, pianificazione embodied e robotica; problemi di logica visiva e giochi strategici come gli scacchi. Il fine-tuning del modello Anole-7B sul corpus di addestramento Zebra-CoT porta a un miglioramento del +12% nell'accuratezza sul nostro test set e a un guadagno di prestazioni fino al +13% nelle valutazioni standard dei benchmark VLM. Il fine-tuning di Bagel-7B produce un modello che genera catene di ragionamento visivo intervallate di alta qualità, sottolineando l'efficacia di Zebra-CoT nello sviluppare capacità di ragionamento multimodale. Rendiamo open-source il nostro dataset e i modelli per supportare lo sviluppo e la valutazione del Visual CoT.
English
Humans often use visual aids, for example diagrams or sketches, when solving
complex problems. Training multimodal models to do the same, known as Visual
Chain of Thought (Visual CoT), is challenging due to: (1) poor off-the-shelf
visual CoT performance, which hinders reinforcement learning, and (2) the lack
of high-quality visual CoT training data. We introduce Zebra-CoT, a
diverse large-scale dataset with 182,384 samples, containing logically coherent
interleaved text-image reasoning traces. We focus on four categories of tasks
where sketching or visual reasoning is especially natural, spanning scientific
questions such as geometry, physics, and algorithms; 2D visual reasoning tasks
like visual search and jigsaw puzzles; 3D reasoning tasks including 3D
multi-hop inference, embodied and robot planning; visual logic problems and
strategic games like chess. Fine-tuning the Anole-7B model on the Zebra-CoT
training corpus results in an improvement of +12% in our test-set accuracy and
yields up to +13% performance gain on standard VLM benchmark evaluations.
Fine-tuning Bagel-7B yields a model that generates high-quality interleaved
visual reasoning chains, underscoring Zebra-CoT's effectiveness for developing
multimodal reasoning abilities. We open-source our dataset and models to
support development and evaluation of visual CoT.