Извлечение способности визуального анализа диаграмм из языковых моделей на большом масштабе.
Distill Visual Chart Reasoning Ability from LLMs to MLLMs
October 24, 2024
Авторы: Wei He, Zhiheng Xi, Wanxu Zhao, Xiaoran Fan, Yiwen Ding, Zifei Shan, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
Аннотация
Решение сложных задач вопросов-ответов на основе диаграмм требует продвинутых способностей к визуальному рассуждению в мультимодельных больших языковых моделях (MLLMs). Недавние исследования подчеркивают, что эти способности состоят из двух основных частей: распознавания ключевой информации из визуальных входов и проведения рассуждений над ней. Таким образом, многообещающим подходом к улучшению MLLMs является создание соответствующих обучающих данных, сосредоточенных на этих двух аспектах. Однако сбор и аннотирование сложных диаграмм и вопросов является затратным и времязатратным процессом, и обеспечение качества аннотированных ответов остается вызовом. В данной статье мы предлагаем метод трансляции кода как посредника (CIT), дешевый, эффективный и легко масштабируемый метод синтеза данных для извлечения способностей к визуальному рассуждению из LLMs в MLLMs. Код служит посредником, который переводит визуальные представления диаграмм в текстовые представления, позволяя LLMs понимать кросс-модальную информацию. В частности, мы используем текстовые методы синтеза для создания кода построения диаграмм и создаем ReachQA, набор данных, содержащий 3 тыс. диаграмм, требующих рассуждений, и 20 тыс. пар вопросов и ответов для улучшения как способностей к распознаванию, так и рассуждения. Эксперименты показывают, что после донастройки наших данных модели не только хорошо справляются с бенчмарками, связанными с диаграммами, но также демонстрируют улучшенные способности к мультимодальному рассуждению на общих математических бенчмарках, таких как MathVista. Код и набор данных доступны публично по адресу https://github.com/hewei2001/ReachQA.
English
Solving complex chart Q&A tasks requires advanced visual reasoning abilities
in multimodal large language models (MLLMs). Recent studies highlight that
these abilities consist of two main parts: recognizing key information from
visual inputs and conducting reasoning over it. Thus, a promising approach to
enhance MLLMs is to construct relevant training data focusing on the two
aspects. However, collecting and annotating complex charts and questions is
costly and time-consuming, and ensuring the quality of annotated answers
remains a challenge. In this paper, we propose Code-as-Intermediary Translation
(CIT), a cost-effective, efficient and easily scalable data synthesis method
for distilling visual reasoning abilities from LLMs to MLLMs. The code serves
as an intermediary that translates visual chart representations into textual
representations, enabling LLMs to understand cross-modal information.
Specifically, we employ text-based synthesizing techniques to construct
chart-plotting code and produce ReachQA, a dataset containing 3k
reasoning-intensive charts and 20k Q&A pairs to enhance both recognition and
reasoning abilities. Experiments show that when fine-tuned with our data,
models not only perform well on chart-related benchmarks, but also demonstrate
improved multimodal reasoning abilities on general mathematical benchmarks like
MathVista. The code and dataset are publicly available at
https://github.com/hewei2001/ReachQA.Summary
AI-Generated Summary