ChatPaper.aiChatPaper

TextSquare : Mise à l'échelle de l'apprentissage par instructions visuelles centré sur le texte

TextSquare: Scaling up Text-Centric Visual Instruction Tuning

April 19, 2024
Auteurs: Jingqun Tang, Chunhui Lin, Zhen Zhao, Shu Wei, Binghong Wu, Qi Liu, Hao Feng, Yang Li, Siqi Wang, Lei Liao, Wei Shi, Yuliang Liu, Hao Liu, Yuan Xie, Xiang Bai, Can Huang
cs.AI

Résumé

La réponse visuelle à des questions centrées sur le texte (VQA) a réalisé des progrès significatifs grâce au développement des modèles de langage multimodaux de grande envergure (MLLMs). Cependant, les modèles open source restent en retrait par rapport aux leaders comme GPT4V et Gemini, en partie à cause d'un manque de données d'ajustement par instruction étendues et de haute qualité. Pour pallier cela, nous introduisons une nouvelle approche pour créer un ensemble de données massif et de haute qualité pour l'ajustement par instruction, Square-10M, généré à l'aide de MLLMs propriétaires. Le processus de construction des données, appelé Square, se compose de quatre étapes : Auto-Questionnement, Réponse, Raisonnement et Évaluation. Nos expériences avec Square-10M ont conduit à trois conclusions majeures : 1) Notre modèle, TextSquare, surpasse considérablement les MLLMs centrés sur le texte open source précédents et établit un nouveau standard sur OCRBench (62,2%). Il dépasse même les modèles de premier plan comme GPT4V et Gemini dans 6 des 10 benchmarks centrés sur le texte. 2) De plus, nous démontrons le rôle crucial des données de raisonnement VQA en fournissant des insights contextuels complets pour des questions spécifiques. Cela améliore non seulement la précision, mais atténue également de manière significative les hallucinations. En particulier, TextSquare obtient une moyenne de 75,1% sur quatre ensembles de données d'évaluation générale VQA et d'hallucination, surpassant les modèles précédents de pointe. 3) Enfin, le phénomène observé dans la mise à l'échelle des ensembles de données VQA centrés sur le texte révèle un schéma clair : l'augmentation exponentielle du volume de données d'ajustement par instruction est directement proportionnelle à l'amélioration des performances du modèle, validant ainsi la nécessité de l'échelle des données et la haute qualité de Square-10M.
English
Text-centric visual question answering (VQA) has made great strides with the development of Multimodal Large Language Models (MLLMs), yet open-source models still fall short of leading models like GPT4V and Gemini, partly due to a lack of extensive, high-quality instruction tuning data. To this end, we introduce a new approach for creating a massive, high-quality instruction-tuning dataset, Square-10M, which is generated using closed-source MLLMs. The data construction process, termed Square, consists of four steps: Self-Questioning, Answering, Reasoning, and Evaluation. Our experiments with Square-10M led to three key findings: 1) Our model, TextSquare, considerably surpasses open-source previous state-of-the-art Text-centric MLLMs and sets a new standard on OCRBench(62.2%). It even outperforms top-tier models like GPT4V and Gemini in 6 of 10 text-centric benchmarks. 2) Additionally, we demonstrate the critical role of VQA reasoning data in offering comprehensive contextual insights for specific questions. This not only improves accuracy but also significantly mitigates hallucinations. Specifically, TextSquare scores an average of 75.1% across four general VQA and hallucination evaluation datasets, outperforming previous state-of-the-art models. 3) Notably, the phenomenon observed in scaling text-centric VQA datasets reveals a vivid pattern: the exponential increase of instruction tuning data volume is directly proportional to the improvement in model performance, thereby validating the necessity of the dataset scale and the high quality of Square-10M.

Summary

AI-Generated Summary

PDF316December 15, 2024