Zebra-CoT: Un conjunto de datos para el razonamiento intercalado de visión y lenguaje
Zebra-CoT: A Dataset for Interleaved Vision Language Reasoning
July 22, 2025
Autores: Ang Li, Charles Wang, Kaiyu Yue, Zikui Cai, Ollie Liu, Deqing Fu, Peng Guo, Wang Bill Zhu, Vatsal Sharan, Robin Jia, Willie Neiswanger, Furong Huang, Tom Goldstein, Micah Goldblum
cs.AI
Resumen
Los seres humanos suelen utilizar ayudas visuales, como diagramas o bocetos, al resolver problemas complejos. Entrenar modelos multimodales para hacer lo mismo, conocido como Cadena de Pensamiento Visual (Visual CoT), es un desafío debido a: (1) el bajo rendimiento de las soluciones preexistentes de Visual CoT, lo cual dificulta el aprendizaje por refuerzo, y (2) la falta de datos de entrenamiento de alta calidad para Visual CoT. Presentamos Zebra-CoT, un conjunto de datos diverso y a gran escala con 182,384 muestras, que contiene trazas de razonamiento intercaladas de texto e imagen lógicamente coherentes. Nos enfocamos en cuatro categorías de tareas donde el bocetado o el razonamiento visual son especialmente naturales, abarcando preguntas científicas como geometría, física y algoritmos; tareas de razonamiento visual 2D como búsqueda visual y rompecabezas; tareas de razonamiento 3D que incluyen inferencia de múltiples pasos en 3D, planificación en entornos físicos y robótica; problemas de lógica visual y juegos estratégicos como el ajedrez. El ajuste fino del modelo Anole-7B en el corpus de entrenamiento de Zebra-CoT resulta en una mejora del +12% en la precisión de nuestro conjunto de prueba y produce una ganancia de rendimiento de hasta +13% en evaluaciones estándar de modelos de lenguaje visual (VLM). El ajuste fino de Bagel-7B genera un modelo que produce cadenas de razonamiento visual intercaladas de alta calidad, destacando la efectividad de Zebra-CoT para desarrollar habilidades de razonamiento multimodal. Hemos liberado nuestro conjunto de datos y modelos de código abierto para apoyar el desarrollo y evaluación de Visual CoT.
English
Humans often use visual aids, for example diagrams or sketches, when solving
complex problems. Training multimodal models to do the same, known as Visual
Chain of Thought (Visual CoT), is challenging due to: (1) poor off-the-shelf
visual CoT performance, which hinders reinforcement learning, and (2) the lack
of high-quality visual CoT training data. We introduce Zebra-CoT, a
diverse large-scale dataset with 182,384 samples, containing logically coherent
interleaved text-image reasoning traces. We focus on four categories of tasks
where sketching or visual reasoning is especially natural, spanning scientific
questions such as geometry, physics, and algorithms; 2D visual reasoning tasks
like visual search and jigsaw puzzles; 3D reasoning tasks including 3D
multi-hop inference, embodied and robot planning; visual logic problems and
strategic games like chess. Fine-tuning the Anole-7B model on the Zebra-CoT
training corpus results in an improvement of +12% in our test-set accuracy and
yields up to +13% performance gain on standard VLM benchmark evaluations.
Fine-tuning Bagel-7B yields a model that generates high-quality interleaved
visual reasoning chains, underscoring Zebra-CoT's effectiveness for developing
multimodal reasoning abilities. We open-source our dataset and models to
support development and evaluation of visual CoT.