Destilar a Capacidade de Raciocínio de Gráficos Visuais de LLMs para MLLMs
Distill Visual Chart Reasoning Ability from LLMs to MLLMs
October 24, 2024
Autores: Wei He, Zhiheng Xi, Wanxu Zhao, Xiaoran Fan, Yiwen Ding, Zifei Shan, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
Resumo
Resolver tarefas complexas de perguntas e respostas de gráficos requer habilidades avançadas de raciocínio visual em modelos de linguagem multimodais grandes (MLLMs). Estudos recentes destacam que essas habilidades consistem em duas partes principais: reconhecer informações-chave a partir de entradas visuais e realizar raciocínio sobre elas. Assim, uma abordagem promissora para aprimorar MLLMs é construir dados de treinamento relevantes focando nesses dois aspectos. No entanto, coletar e anotar gráficos e perguntas complexas é caro e demorado, e garantir a qualidade das respostas anotadas continua sendo um desafio. Neste artigo, propomos a Tradução de Código como Intermediário (CIT), um método de síntese de dados econômico, eficiente e facilmente escalável para destilar habilidades de raciocínio visual de LLMs para MLLMs. O código atua como um intermediário que traduz representações visuais de gráficos em representações textuais, permitindo que LLMs compreendam informações cruzadas modais. Especificamente, empregamos técnicas de síntese baseadas em texto para construir código de plotagem de gráficos e produzir o ReachQA, um conjunto de dados contendo 3 mil gráficos intensivos em raciocínio e 20 mil pares de perguntas e respostas para aprimorar tanto as habilidades de reconhecimento quanto de raciocínio. Experimentos mostram que, quando ajustados com nossos dados, os modelos não apenas se saem bem em benchmarks relacionados a gráficos, mas também demonstram habilidades aprimoradas de raciocínio multimodal em benchmarks matemáticos gerais como o MathVista. O código e o conjunto de dados estão disponíveis publicamente em https://github.com/hewei2001/ReachQA.
English
Solving complex chart Q&A tasks requires advanced visual reasoning abilities
in multimodal large language models (MLLMs). Recent studies highlight that
these abilities consist of two main parts: recognizing key information from
visual inputs and conducting reasoning over it. Thus, a promising approach to
enhance MLLMs is to construct relevant training data focusing on the two
aspects. However, collecting and annotating complex charts and questions is
costly and time-consuming, and ensuring the quality of annotated answers
remains a challenge. In this paper, we propose Code-as-Intermediary Translation
(CIT), a cost-effective, efficient and easily scalable data synthesis method
for distilling visual reasoning abilities from LLMs to MLLMs. The code serves
as an intermediary that translates visual chart representations into textual
representations, enabling LLMs to understand cross-modal information.
Specifically, we employ text-based synthesizing techniques to construct
chart-plotting code and produce ReachQA, a dataset containing 3k
reasoning-intensive charts and 20k Q&A pairs to enhance both recognition and
reasoning abilities. Experiments show that when fine-tuned with our data,
models not only perform well on chart-related benchmarks, but also demonstrate
improved multimodal reasoning abilities on general mathematical benchmarks like
MathVista. The code and dataset are publicly available at
https://github.com/hewei2001/ReachQA.Summary
AI-Generated Summary