ChatPaper.aiChatPaper

TextSquare: Skalierung der textzentrierten visuellen Anleitungsoptimierung

TextSquare: Scaling up Text-Centric Visual Instruction Tuning

April 19, 2024
Autoren: Jingqun Tang, Chunhui Lin, Zhen Zhao, Shu Wei, Binghong Wu, Qi Liu, Hao Feng, Yang Li, Siqi Wang, Lei Liao, Wei Shi, Yuliang Liu, Hao Liu, Yuan Xie, Xiang Bai, Can Huang
cs.AI

Zusammenfassung

Die textzentrierte visuelle Frage-Antwort (VQA) hat mit der Entwicklung von Multimodalen Großen Sprachmodellen (MLLMs) große Fortschritte gemacht, dennoch bleiben Open-Source-Modelle hinter führenden Modellen wie GPT4V und Gemini zurück, teilweise aufgrund eines Mangels an umfangreichen, hochwertigen Anleitungstuning-Daten. Zu diesem Zweck stellen wir einen neuen Ansatz zur Erstellung eines massiven, hochwertigen Anleitungstuning-Datensatzes, Square-10M, vor, der unter Verwendung von geschlossenen MLLMs generiert wird. Der Datenkonstruktionsprozess, genannt Square, besteht aus vier Schritten: Selbstbefragung, Beantwortung, Schlussfolgerung und Bewertung. Unsere Experimente mit Square-10M führten zu drei wichtigen Erkenntnissen: 1) Unser Modell, TextSquare, übertrifft erheblich die bisherigen Open-Source-Text-zentrierten MLLMs und setzt einen neuen Maßstab auf OCRBench (62,2%). Es übertrifft sogar erstklassige Modelle wie GPT4V und Gemini in 6 von 10 textzentrierten Benchmarks. 2) Darüber hinaus zeigen wir die entscheidende Rolle von VQA-Schlussfolgerungsdaten bei der Bereitstellung umfassender Kontexteinblicke für spezifische Fragen. Dies verbessert nicht nur die Genauigkeit, sondern mildert auch Halluzinationen signifikant. Speziell erzielt TextSquare durchschnittlich 75,1% in vier allgemeinen VQA- und Halluzinationsbewertungsdatensätzen und übertrifft damit bisherige Spitzenmodelle. 3) Bemerkenswert ist das Phänomen, das bei der Skalierung von textzentrierten VQA-Datensätzen beobachtet wird: Der exponentielle Anstieg des Anleitungstuning-Datenvolumens ist direkt proportional zur Verbesserung der Modellleistung, was die Notwendigkeit des Datensatzumfangs und der hohen Qualität von Square-10M bestätigt.
English
Text-centric visual question answering (VQA) has made great strides with the development of Multimodal Large Language Models (MLLMs), yet open-source models still fall short of leading models like GPT4V and Gemini, partly due to a lack of extensive, high-quality instruction tuning data. To this end, we introduce a new approach for creating a massive, high-quality instruction-tuning dataset, Square-10M, which is generated using closed-source MLLMs. The data construction process, termed Square, consists of four steps: Self-Questioning, Answering, Reasoning, and Evaluation. Our experiments with Square-10M led to three key findings: 1) Our model, TextSquare, considerably surpasses open-source previous state-of-the-art Text-centric MLLMs and sets a new standard on OCRBench(62.2%). It even outperforms top-tier models like GPT4V and Gemini in 6 of 10 text-centric benchmarks. 2) Additionally, we demonstrate the critical role of VQA reasoning data in offering comprehensive contextual insights for specific questions. This not only improves accuracy but also significantly mitigates hallucinations. Specifically, TextSquare scores an average of 75.1% across four general VQA and hallucination evaluation datasets, outperforming previous state-of-the-art models. 3) Notably, the phenomenon observed in scaling text-centric VQA datasets reveals a vivid pattern: the exponential increase of instruction tuning data volume is directly proportional to the improvement in model performance, thereby validating the necessity of the dataset scale and the high quality of Square-10M.

Summary

AI-Generated Summary

PDF316December 15, 2024