ChatPaper.aiChatPaper

TextSquare: Масштабирование настройки визуальных инструкций, сосредоточенных на тексте.

TextSquare: Scaling up Text-Centric Visual Instruction Tuning

April 19, 2024
Авторы: Jingqun Tang, Chunhui Lin, Zhen Zhao, Shu Wei, Binghong Wu, Qi Liu, Hao Feng, Yang Li, Siqi Wang, Lei Liao, Wei Shi, Yuliang Liu, Hao Liu, Yuan Xie, Xiang Bai, Can Huang
cs.AI

Аннотация

Визуальное вопросно-ответное моделирование на основе текста (VQA) сделало значительные успехи с развитием Мультимодальных Больших Языковых Моделей (MLLMs), однако открытые модели все еще уступают ведущим моделям, таким как GPT4V и Gemini, частично из-за недостатка обширных данных для настройки инструкций высокого качества. В этой связи мы представляем новый подход к созданию массивного набора данных для настройки инструкций высокого качества, Square-10M, который создан с использованием закрытых источников MLLMs. Процесс создания данных, названный Square, состоит из четырех этапов: Самопоставление вопросов, Ответы, Обоснование и Оценка. Наши эксперименты с Square-10M привели к трем ключевым результатам: 1) Наша модель, TextSquare, значительно превосходит открытые предыдущие лучшие модели MLLMs на основе текста и устанавливает новый стандарт на OCRBench (62.2%). Она даже превосходит модели верхнего уровня, такие как GPT4V и Gemini, в 6 из 10 тестов на основе текста. 2) Кроме того, мы демонстрируем критическую роль данных рассуждения VQA в предоставлении всесторонних контекстуальных идей для конкретных вопросов. Это не только повышает точность, но также значительно снижает галлюцинации. В частности, TextSquare набирает в среднем 75.1% по четырем общим наборам данных VQA и оценки галлюцинаций, превосходя предыдущие лучшие модели. 3) Особенно заметное явление, наблюдаемое при масштабировании наборов данных VQA на основе текста, показывает яркий паттерн: экспоненциальный рост объема данных для настройки инструкций прямо пропорционален улучшению производительности модели, что подтверждает необходимость масштаба набора данных и высокого качества Square-10M.
English
Text-centric visual question answering (VQA) has made great strides with the development of Multimodal Large Language Models (MLLMs), yet open-source models still fall short of leading models like GPT4V and Gemini, partly due to a lack of extensive, high-quality instruction tuning data. To this end, we introduce a new approach for creating a massive, high-quality instruction-tuning dataset, Square-10M, which is generated using closed-source MLLMs. The data construction process, termed Square, consists of four steps: Self-Questioning, Answering, Reasoning, and Evaluation. Our experiments with Square-10M led to three key findings: 1) Our model, TextSquare, considerably surpasses open-source previous state-of-the-art Text-centric MLLMs and sets a new standard on OCRBench(62.2%). It even outperforms top-tier models like GPT4V and Gemini in 6 of 10 text-centric benchmarks. 2) Additionally, we demonstrate the critical role of VQA reasoning data in offering comprehensive contextual insights for specific questions. This not only improves accuracy but also significantly mitigates hallucinations. Specifically, TextSquare scores an average of 75.1% across four general VQA and hallucination evaluation datasets, outperforming previous state-of-the-art models. 3) Notably, the phenomenon observed in scaling text-centric VQA datasets reveals a vivid pattern: the exponential increase of instruction tuning data volume is directly proportional to the improvement in model performance, thereby validating the necessity of the dataset scale and the high quality of Square-10M.

Summary

AI-Generated Summary

PDF316December 15, 2024