TextSquare: Scalabilità dell'Addestramento Visivo Centrato sul Testo

Abstract

Il Visual Question Answering (VQA) incentrato sul testo ha compiuto notevoli progressi con lo sviluppo dei Modelli Linguistici Multimodali di Grande Scala (MLLM), tuttavia i modelli open-source rimangono ancora inferiori ai modelli leader come GPT4V e Gemini, in parte a causa della mancanza di dati estesi e di alta qualità per il tuning delle istruzioni. A tal fine, introduciamo un nuovo approccio per la creazione di un dataset massiccio e di alta qualità per il tuning delle istruzioni, Square-10M, generato utilizzando MLLM closed-source. Il processo di costruzione dei dati, denominato Square, consiste in quattro passaggi: Auto-Interrogazione, Risposta, Ragionamento e Valutazione. I nostri esperimenti con Square-10M hanno portato a tre risultati chiave: 1) Il nostro modello, TextSquare, supera considerevolmente i precedenti MLLM incentrati sul testo open-source e stabilisce un nuovo standard su OCRBench (62,2%). Addirittura supera i modelli di punta come GPT4V e Gemini in 6 dei 10 benchmark incentrati sul testo. 2) Inoltre, dimostriamo il ruolo cruciale dei dati di ragionamento VQA nel fornire approfondimenti contestuali completi per domande specifiche. Ciò non solo migliora l'accuratezza, ma mitiga significativamente anche le allucinazioni. In particolare, TextSquare ottiene una media del 75,1% su quattro dataset di valutazione generale VQA e di allucinazione, superando i precedenti modelli all'avanguardia. 3) In modo significativo, il fenomeno osservato nella scalabilità dei dataset VQA incentrati sul testo rivela un modello evidente: l'aumento esponenziale del volume dei dati per il tuning delle istruzioni è direttamente proporzionale al miglioramento delle prestazioni del modello, validando così la necessità della scala del dataset e l'alta qualità di Square-10M.

English

Text-centric visual question answering (VQA) has made great strides with the development of Multimodal Large Language Models (MLLMs), yet open-source models still fall short of leading models like GPT4V and Gemini, partly due to a lack of extensive, high-quality instruction tuning data. To this end, we introduce a new approach for creating a massive, high-quality instruction-tuning dataset, Square-10M, which is generated using closed-source MLLMs. The data construction process, termed Square, consists of four steps: Self-Questioning, Answering, Reasoning, and Evaluation. Our experiments with Square-10M led to three key findings: 1) Our model, TextSquare, considerably surpasses open-source previous state-of-the-art Text-centric MLLMs and sets a new standard on OCRBench(62.2%). It even outperforms top-tier models like GPT4V and Gemini in 6 of 10 text-centric benchmarks. 2) Additionally, we demonstrate the critical role of VQA reasoning data in offering comprehensive contextual insights for specific questions. This not only improves accuracy but also significantly mitigates hallucinations. Specifically, TextSquare scores an average of 75.1% across four general VQA and hallucination evaluation datasets, outperforming previous state-of-the-art models. 3) Notably, the phenomenon observed in scaling text-centric VQA datasets reveals a vivid pattern: the exponential increase of instruction tuning data volume is directly proportional to the improvement in model performance, thereby validating the necessity of the dataset scale and the high quality of Square-10M.

TextSquare: Scalabilità dell'Addestramento Visivo Centrato sul Testo

TextSquare: Scaling up Text-Centric Visual Instruction Tuning

Abstract

Support