Destilar la capacidad de razonamiento de gráficos visuales de LLMs a MLLMs.
Distill Visual Chart Reasoning Ability from LLMs to MLLMs
October 24, 2024
Autores: Wei He, Zhiheng Xi, Wanxu Zhao, Xiaoran Fan, Yiwen Ding, Zifei Shan, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
Resumen
Resolver tareas complejas de preguntas y respuestas de gráficos requiere habilidades avanzadas de razonamiento visual en modelos de lenguaje multimodales grandes (MLLMs). Estudios recientes resaltan que estas habilidades consisten en dos partes principales: reconocer información clave de entradas visuales y realizar razonamientos sobre ella. Por lo tanto, un enfoque prometedor para mejorar los MLLMs es construir datos de entrenamiento relevantes centrándose en estos dos aspectos. Sin embargo, recolectar y anotar gráficos y preguntas complejas es costoso y consume tiempo, y garantizar la calidad de las respuestas anotadas sigue siendo un desafío. En este documento, proponemos Traducción de Código como Intermediario (CIT), un método de síntesis de datos rentable, eficiente y fácilmente escalable para destilar habilidades de razonamiento visual de LLMs a MLLMs. El código actúa como un intermediario que traduce representaciones visuales de gráficos en representaciones textuales, permitiendo a los LLMs entender información cruzada modal. Específicamente, empleamos técnicas de síntesis basadas en texto para construir código de trazado de gráficos y producir ReachQA, un conjunto de datos que contiene 3k gráficos intensivos en razonamiento y 20k pares de preguntas y respuestas para mejorar tanto las habilidades de reconocimiento como de razonamiento. Los experimentos muestran que cuando se ajustan finamente con nuestros datos, los modelos no solo se desempeñan bien en pruebas relacionadas con gráficos, sino que también demuestran habilidades mejoradas de razonamiento multimodal en pruebas matemáticas generales como MathVista. El código y el conjunto de datos están disponibles públicamente en https://github.com/hewei2001/ReachQA.
English
Solving complex chart Q&A tasks requires advanced visual reasoning abilities
in multimodal large language models (MLLMs). Recent studies highlight that
these abilities consist of two main parts: recognizing key information from
visual inputs and conducting reasoning over it. Thus, a promising approach to
enhance MLLMs is to construct relevant training data focusing on the two
aspects. However, collecting and annotating complex charts and questions is
costly and time-consuming, and ensuring the quality of annotated answers
remains a challenge. In this paper, we propose Code-as-Intermediary Translation
(CIT), a cost-effective, efficient and easily scalable data synthesis method
for distilling visual reasoning abilities from LLMs to MLLMs. The code serves
as an intermediary that translates visual chart representations into textual
representations, enabling LLMs to understand cross-modal information.
Specifically, we employ text-based synthesizing techniques to construct
chart-plotting code and produce ReachQA, a dataset containing 3k
reasoning-intensive charts and 20k Q&A pairs to enhance both recognition and
reasoning abilities. Experiments show that when fine-tuned with our data,
models not only perform well on chart-related benchmarks, but also demonstrate
improved multimodal reasoning abilities on general mathematical benchmarks like
MathVista. The code and dataset are publicly available at
https://github.com/hewei2001/ReachQA.Summary
AI-Generated Summary