ChartGemma: Визуальная настройка инструкций для анализа диаграмм в реальных условиях

Аннотация

Учитывая всеобщее распространение диаграмм в качестве инструмента анализа данных, визуализации и принятия решений в различных отраслях и науках, возрос интерес к разработке заранее обученных базовых моделей, а также универсальных моделей, настроенных на инструкции, для понимания и рассуждения на основе диаграмм. Однако существующие методы имеют существенные недостатки по двум критическим аспектам, влияющим на производительность моделей представления диаграмм: они обучены на данных, сгенерированных из базовых таблиц данных диаграмм, игнорируя визуальные тенденции и узоры на изображениях диаграмм, и используют слабо согласованные модели основы зрения-языка для обучения в определенной области, что ограничивает их обобщаемость при работе с диаграммами в реальных условиях. Мы решаем эти важные недостатки и представляем ChartGemma, новую модель понимания и рассуждения на основе диаграмм, разработанную над PaliGemma. В отличие от использования базовых таблиц данных, ChartGemma обучается на данных настройки по инструкциям, сгенерированных непосредственно из изображений диаграмм, захватывая как общие тенденции, так и детальную визуальную информацию из разнообразного набора диаграмм. Наш простой подход достигает лучших результатов на 5 бенчмарках, охватывающих суммирование диаграмм, ответы на вопросы и проверку фактов, и наши тщательные качественные исследования на диаграммах из реального мира показывают, что ChartGemma генерирует более реалистичные и фактически правильные сводки по сравнению с конкурентами. Мы предоставляем код, контрольные точки модели, набор данных и демонстрации на https://github.com/vis-nlp/ChartGemma.

English

Given the ubiquity of charts as a data analysis, visualization, and decision-making tool across industries and sciences, there has been a growing interest in developing pre-trained foundation models as well as general purpose instruction-tuned models for chart understanding and reasoning. However, existing methods suffer crucial drawbacks across two critical axes affecting the performance of chart representation models: they are trained on data generated from underlying data tables of the charts, ignoring the visual trends and patterns in chart images, and use weakly aligned vision-language backbone models for domain-specific training, limiting their generalizability when encountering charts in the wild. We address these important drawbacks and introduce ChartGemma, a novel chart understanding and reasoning model developed over PaliGemma. Rather than relying on underlying data tables, ChartGemma is trained on instruction-tuning data generated directly from chart images, thus capturing both high-level trends and low-level visual information from a diverse set of charts. Our simple approach achieves state-of-the-art results across 5 benchmarks spanning chart summarization, question answering, and fact-checking, and our elaborate qualitative studies on real-world charts show that ChartGemma generates more realistic and factually correct summaries compared to its contemporaries. We release the code, model checkpoints, dataset, and demos at https://github.com/vis-nlp/ChartGemma.

ChartGemma: Визуальная настройка инструкций для анализа диаграмм в реальных условиях

ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild

Аннотация

Support