TextSquare: 텍스트 중심 시각적 명령어 튜닝의 확장
TextSquare: Scaling up Text-Centric Visual Instruction Tuning
April 19, 2024
저자: Jingqun Tang, Chunhui Lin, Zhen Zhao, Shu Wei, Binghong Wu, Qi Liu, Hao Feng, Yang Li, Siqi Wang, Lei Liao, Wei Shi, Yuliang Liu, Hao Liu, Yuan Xie, Xiang Bai, Can Huang
cs.AI
초록
텍스트 중심 시각 질의응답(VQA)은 멀티모달 대형 언어 모델(MLLM)의 발전과 함께 큰 진전을 이루었지만, 오픈소스 모델들은 여전히 GPT4V 및 Gemini와 같은 선두 모델에 미치지 못하고 있습니다. 이는 부분적으로 방대하고 고품질의 지시 튜닝 데이터의 부족 때문입니다. 이를 위해, 우리는 폐쇄형 MLLM을 사용하여 생성된 대규모 고품질 지시 튜닝 데이터셋인 Square-10M을 생성하는 새로운 접근 방식을 소개합니다. 이 데이터 구성 과정은 Square라고 불리며, 네 단계로 이루어집니다: 자기 질문, 응답, 추론 및 평가. Square-10M을 사용한 실험을 통해 세 가지 주요 결과를 얻었습니다: 1) 우리의 모델인 TextSquare는 이전의 오픈소스 텍스트 중심 MLLM 최신 기술을 상당히 능가하며 OCRBench에서 새로운 기준을 세웠습니다(62.2%). 또한 10개의 텍스트 중심 벤치마크 중 6개에서 GPT4V 및 Gemini와 같은 최상위 모델을 능가했습니다. 2) 또한, 우리는 VQA 추론 데이터가 특정 질문에 대한 포괄적인 맥락적 통찰력을 제공하는 데 중요한 역할을 한다는 것을 입증했습니다. 이는 정확도를 향상시킬 뿐만 아니라 환각 현상을 크게 완화시킵니다. 특히, TextSquare는 네 개의 일반 VQA 및 환각 평가 데이터셋에서 평균 75.1%의 점수를 기록하며, 이전의 최신 모델을 능가했습니다. 3) 특히, 텍스트 중심 VQA 데이터셋의 규모 확장에서 관찰된 현상은 뚜렷한 패턴을 보여줍니다: 지시 튜닝 데이터 양의 기하급수적 증가는 모델 성능의 개선과 직접적으로 비례하며, 이는 데이터셋 규모의 필요성과 Square-10M의 높은 품질을 검증합니다.
English
Text-centric visual question answering (VQA) has made great strides with the
development of Multimodal Large Language Models (MLLMs), yet open-source models
still fall short of leading models like GPT4V and Gemini, partly due to a lack
of extensive, high-quality instruction tuning data. To this end, we introduce a
new approach for creating a massive, high-quality instruction-tuning dataset,
Square-10M, which is generated using closed-source MLLMs. The data construction
process, termed Square, consists of four steps: Self-Questioning, Answering,
Reasoning, and Evaluation. Our experiments with Square-10M led to three key
findings: 1) Our model, TextSquare, considerably surpasses open-source previous
state-of-the-art Text-centric MLLMs and sets a new standard on OCRBench(62.2%).
It even outperforms top-tier models like GPT4V and Gemini in 6 of 10
text-centric benchmarks. 2) Additionally, we demonstrate the critical role of
VQA reasoning data in offering comprehensive contextual insights for specific
questions. This not only improves accuracy but also significantly mitigates
hallucinations. Specifically, TextSquare scores an average of 75.1% across four
general VQA and hallucination evaluation datasets, outperforming previous
state-of-the-art models. 3) Notably, the phenomenon observed in scaling
text-centric VQA datasets reveals a vivid pattern: the exponential increase of
instruction tuning data volume is directly proportional to the improvement in
model performance, thereby validating the necessity of the dataset scale and
the high quality of Square-10M.Summary
AI-Generated Summary