Zebra-CoT: Un conjunto de datos para el razonamiento intercalado de visión y lenguaje

Resumen

Los seres humanos suelen utilizar ayudas visuales, como diagramas o bocetos, al resolver problemas complejos. Entrenar modelos multimodales para hacer lo mismo, conocido como Cadena de Pensamiento Visual (Visual CoT), es un desafío debido a: (1) el bajo rendimiento de las soluciones preexistentes de Visual CoT, lo cual dificulta el aprendizaje por refuerzo, y (2) la falta de datos de entrenamiento de alta calidad para Visual CoT. Presentamos Zebra-CoT, un conjunto de datos diverso y a gran escala con 182,384 muestras, que contiene trazas de razonamiento intercaladas de texto e imagen lógicamente coherentes. Nos enfocamos en cuatro categorías de tareas donde el bocetado o el razonamiento visual son especialmente naturales, abarcando preguntas científicas como geometría, física y algoritmos; tareas de razonamiento visual 2D como búsqueda visual y rompecabezas; tareas de razonamiento 3D que incluyen inferencia de múltiples pasos en 3D, planificación en entornos físicos y robótica; problemas de lógica visual y juegos estratégicos como el ajedrez. El ajuste fino del modelo Anole-7B en el corpus de entrenamiento de Zebra-CoT resulta en una mejora del +12% en la precisión de nuestro conjunto de prueba y produce una ganancia de rendimiento de hasta +13% en evaluaciones estándar de modelos de lenguaje visual (VLM). El ajuste fino de Bagel-7B genera un modelo que produce cadenas de razonamiento visual intercaladas de alta calidad, destacando la efectividad de Zebra-CoT para desarrollar habilidades de razonamiento multimodal. Hemos liberado nuestro conjunto de datos y modelos de código abierto para apoyar el desarrollo y evaluación de Visual CoT.

English

Humans often use visual aids, for example diagrams or sketches, when solving complex problems. Training multimodal models to do the same, known as Visual Chain of Thought (Visual CoT), is challenging due to: (1) poor off-the-shelf visual CoT performance, which hinders reinforcement learning, and (2) the lack of high-quality visual CoT training data. We introduce Zebra-CoT, a diverse large-scale dataset with 182,384 samples, containing logically coherent interleaved text-image reasoning traces. We focus on four categories of tasks where sketching or visual reasoning is especially natural, spanning scientific questions such as geometry, physics, and algorithms; 2D visual reasoning tasks like visual search and jigsaw puzzles; 3D reasoning tasks including 3D multi-hop inference, embodied and robot planning; visual logic problems and strategic games like chess. Fine-tuning the Anole-7B model on the Zebra-CoT training corpus results in an improvement of +12% in our test-set accuracy and yields up to +13% performance gain on standard VLM benchmark evaluations. Fine-tuning Bagel-7B yields a model that generates high-quality interleaved visual reasoning chains, underscoring Zebra-CoT's effectiveness for developing multimodal reasoning abilities. We open-source our dataset and models to support development and evaluation of visual CoT.

Zebra-CoT: Un conjunto de datos para el razonamiento intercalado de visión y lenguaje

Zebra-CoT: A Dataset for Interleaved Vision Language Reasoning

Resumen

Support