ChartGemma: Визуальная настройка инструкций для анализа диаграмм в реальных условиях
ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild
July 4, 2024
Авторы: Ahmed Masry, Megh Thakkar, Aayush Bajaj, Aaryaman Kartha, Enamul Hoque, Shafiq Joty
cs.AI
Аннотация
Учитывая всеобщее распространение диаграмм в качестве инструмента анализа данных, визуализации и принятия решений в различных отраслях и науках, возрос интерес к разработке заранее обученных базовых моделей, а также универсальных моделей, настроенных на инструкции, для понимания и рассуждения на основе диаграмм. Однако существующие методы имеют существенные недостатки по двум критическим аспектам, влияющим на производительность моделей представления диаграмм: они обучены на данных, сгенерированных из базовых таблиц данных диаграмм, игнорируя визуальные тенденции и узоры на изображениях диаграмм, и используют слабо согласованные модели основы зрения-языка для обучения в определенной области, что ограничивает их обобщаемость при работе с диаграммами в реальных условиях. Мы решаем эти важные недостатки и представляем ChartGemma, новую модель понимания и рассуждения на основе диаграмм, разработанную над PaliGemma. В отличие от использования базовых таблиц данных, ChartGemma обучается на данных настройки по инструкциям, сгенерированных непосредственно из изображений диаграмм, захватывая как общие тенденции, так и детальную визуальную информацию из разнообразного набора диаграмм. Наш простой подход достигает лучших результатов на 5 бенчмарках, охватывающих суммирование диаграмм, ответы на вопросы и проверку фактов, и наши тщательные качественные исследования на диаграммах из реального мира показывают, что ChartGemma генерирует более реалистичные и фактически правильные сводки по сравнению с конкурентами. Мы предоставляем код, контрольные точки модели, набор данных и демонстрации на https://github.com/vis-nlp/ChartGemma.
English
Given the ubiquity of charts as a data analysis, visualization, and
decision-making tool across industries and sciences, there has been a growing
interest in developing pre-trained foundation models as well as general purpose
instruction-tuned models for chart understanding and reasoning. However,
existing methods suffer crucial drawbacks across two critical axes affecting
the performance of chart representation models: they are trained on data
generated from underlying data tables of the charts, ignoring the visual trends
and patterns in chart images, and use weakly aligned vision-language backbone
models for domain-specific training, limiting their generalizability when
encountering charts in the wild. We address these important drawbacks and
introduce ChartGemma, a novel chart understanding and reasoning model developed
over PaliGemma. Rather than relying on underlying data tables, ChartGemma is
trained on instruction-tuning data generated directly from chart images, thus
capturing both high-level trends and low-level visual information from a
diverse set of charts. Our simple approach achieves state-of-the-art results
across 5 benchmarks spanning chart summarization, question answering, and
fact-checking, and our elaborate qualitative studies on real-world charts show
that ChartGemma generates more realistic and factually correct summaries
compared to its contemporaries. We release the code, model checkpoints,
dataset, and demos at https://github.com/vis-nlp/ChartGemma.Summary
AI-Generated Summary