TextSquare: Schaalvergroting van Visuele Instructieafstemming met Tekst als Centraal Element
TextSquare: Scaling up Text-Centric Visual Instruction Tuning
April 19, 2024
Auteurs: Jingqun Tang, Chunhui Lin, Zhen Zhao, Shu Wei, Binghong Wu, Qi Liu, Hao Feng, Yang Li, Siqi Wang, Lei Liao, Wei Shi, Yuliang Liu, Hao Liu, Yuan Xie, Xiang Bai, Can Huang
cs.AI
Samenvatting
Text-centrische visuele vraag-antwoord (VQA) heeft grote vooruitgang geboekt met de ontwikkeling van Multimodale Grote Taalmodellen (MLLMs), maar open-source modellen blijven achter bij toonaangevende modellen zoals GPT4V en Gemini, deels door een gebrek aan uitgebreide, hoogwaardige instructie-afstemmingsdata. Om dit aan te pakken, introduceren we een nieuwe aanpak voor het creëren van een enorme, hoogwaardige instructie-afstemmingsdataset, Square-10M, die wordt gegenereerd met behulp van closed-source MLLMs. Het dataconstructieproces, genaamd Square, bestaat uit vier stappen: Zelf-Bevragen, Beantwoorden, Redeneren en Evaluatie. Onze experimenten met Square-10M leidden tot drie belangrijke bevindingen: 1) Ons model, TextSquare, overtreft aanzienlijk eerdere open-source state-of-the-art text-centrische MLLMs en stelt een nieuwe standaard op OCRBench (62,2%). Het presteert zelfs beter dan topmodellen zoals GPT4V en Gemini in 6 van de 10 text-centrische benchmarks. 2) Daarnaast tonen we het cruciale belang aan van VQA-redeneerdata in het bieden van uitgebreide contextuele inzichten voor specifieke vragen. Dit verbetert niet alleen de nauwkeurigheid, maar vermindert ook hallucinaties aanzienlijk. Specifiek scoort TextSquare gemiddeld 75,1% over vier algemene VQA- en hallucinatie-evaluatiedatasets, wat beter is dan eerdere state-of-the-art modellen. 3) Opmerkelijk is het fenomeen dat wordt waargenomen bij het schalen van text-centrische VQA-datasets, dat een duidelijk patroon onthult: de exponentiële toename van het volume aan instructie-afstemmingsdata is recht evenredig met de verbetering in modelprestaties, waardoor de noodzaak van de datasetschaal en de hoge kwaliteit van Square-10M worden bevestigd.
English
Text-centric visual question answering (VQA) has made great strides with the
development of Multimodal Large Language Models (MLLMs), yet open-source models
still fall short of leading models like GPT4V and Gemini, partly due to a lack
of extensive, high-quality instruction tuning data. To this end, we introduce a
new approach for creating a massive, high-quality instruction-tuning dataset,
Square-10M, which is generated using closed-source MLLMs. The data construction
process, termed Square, consists of four steps: Self-Questioning, Answering,
Reasoning, and Evaluation. Our experiments with Square-10M led to three key
findings: 1) Our model, TextSquare, considerably surpasses open-source previous
state-of-the-art Text-centric MLLMs and sets a new standard on OCRBench(62.2%).
It even outperforms top-tier models like GPT4V and Gemini in 6 of 10
text-centric benchmarks. 2) Additionally, we demonstrate the critical role of
VQA reasoning data in offering comprehensive contextual insights for specific
questions. This not only improves accuracy but also significantly mitigates
hallucinations. Specifically, TextSquare scores an average of 75.1% across four
general VQA and hallucination evaluation datasets, outperforming previous
state-of-the-art models. 3) Notably, the phenomenon observed in scaling
text-centric VQA datasets reveals a vivid pattern: the exponential increase of
instruction tuning data volume is directly proportional to the improvement in
model performance, thereby validating the necessity of the dataset scale and
the high quality of Square-10M.