ChatPaper.aiChatPaper

ChartGemma: 실세계 차트 추론을 위한 시각적 명령어 튜닝

ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild

July 4, 2024
저자: Ahmed Masry, Megh Thakkar, Aayush Bajaj, Aaryaman Kartha, Enamul Hoque, Shafiq Joty
cs.AI

초록

차트가 산업과 과학 전반에 걸쳐 데이터 분석, 시각화 및 의사결정 도구로서 보편적으로 사용됨에 따라, 차트 이해와 추론을 위한 사전 학습된 기초 모델과 일반 목적의 지시 튜닝 모델 개발에 대한 관심이 점차 증가하고 있습니다. 그러나 기존 방법들은 차트 표현 모델의 성능에 영향을 미치는 두 가지 중요한 측면에서 결정적인 단점을 가지고 있습니다: 이들은 차트의 기반 데이터 테이블에서 생성된 데이터로 학습되어 차트 이미지의 시각적 추세와 패턴을 무시하며, 도메인 특화 학습을 위해 약하게 정렬된 시각-언어 백본 모델을 사용함으로써 실제 환경에서 마주치는 차트에 대한 일반화 능력을 제한합니다. 우리는 이러한 중요한 단점을 해결하고 PaliGemma를 기반으로 개발된 새로운 차트 이해 및 추론 모델인 ChartGemma를 소개합니다. ChartGemma는 기반 데이터 테이블에 의존하는 대신, 차트 이미지에서 직접 생성된 지시 튜닝 데이터로 학습되어 다양한 차트에서 고수준의 추세와 저수준의 시각적 정보를 모두 포착합니다. 우리의 간단한 접근 방식은 차트 요약, 질문 응답, 사실 확인을 아우르는 5개의 벤치마크에서 최첨단 결과를 달성하며, 실제 차트에 대한 상세한 정성적 연구를 통해 ChartGemma가 동시대 모델들에 비해 더 현실적이고 사실적으로 정확한 요약을 생성함을 보여줍니다. 우리는 코드, 모델 체크포인트, 데이터셋 및 데모를 https://github.com/vis-nlp/ChartGemma에서 공개합니다.
English
Given the ubiquity of charts as a data analysis, visualization, and decision-making tool across industries and sciences, there has been a growing interest in developing pre-trained foundation models as well as general purpose instruction-tuned models for chart understanding and reasoning. However, existing methods suffer crucial drawbacks across two critical axes affecting the performance of chart representation models: they are trained on data generated from underlying data tables of the charts, ignoring the visual trends and patterns in chart images, and use weakly aligned vision-language backbone models for domain-specific training, limiting their generalizability when encountering charts in the wild. We address these important drawbacks and introduce ChartGemma, a novel chart understanding and reasoning model developed over PaliGemma. Rather than relying on underlying data tables, ChartGemma is trained on instruction-tuning data generated directly from chart images, thus capturing both high-level trends and low-level visual information from a diverse set of charts. Our simple approach achieves state-of-the-art results across 5 benchmarks spanning chart summarization, question answering, and fact-checking, and our elaborate qualitative studies on real-world charts show that ChartGemma generates more realistic and factually correct summaries compared to its contemporaries. We release the code, model checkpoints, dataset, and demos at https://github.com/vis-nlp/ChartGemma.

Summary

AI-Generated Summary

PDF276November 28, 2024