TextSquare: Escalando el ajuste fino de instrucciones visuales centradas en texto
TextSquare: Scaling up Text-Centric Visual Instruction Tuning
April 19, 2024
Autores: Jingqun Tang, Chunhui Lin, Zhen Zhao, Shu Wei, Binghong Wu, Qi Liu, Hao Feng, Yang Li, Siqi Wang, Lei Liao, Wei Shi, Yuliang Liu, Hao Liu, Yuan Xie, Xiang Bai, Can Huang
cs.AI
Resumen
La respuesta visual a preguntas centradas en texto (VQA, por sus siglas en inglés) ha avanzado significativamente con el desarrollo de Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés). Sin embargo, los modelos de código abierto aún no alcanzan el nivel de los modelos líderes como GPT4V y Gemini, en parte debido a la falta de datos extensos y de alta calidad para el ajuste por instrucción. Para abordar este problema, presentamos un nuevo enfoque para crear un conjunto de datos masivo y de alta calidad para el ajuste por instrucción, llamado Square-10M, el cual se genera utilizando MLLMs de código cerrado. El proceso de construcción de datos, denominado Square, consta de cuatro pasos: Autocuestionamiento, Respuesta, Razonamiento y Evaluación. Nuestros experimentos con Square-10M arrojaron tres hallazgos clave: 1) Nuestro modelo, TextSquare, supera considerablemente a los MLLMs centrados en texto de código abierto anteriores y establece un nuevo estándar en OCRBench (62.2%). Incluso supera a modelos de primer nivel como GPT4V y Gemini en 6 de 10 benchmarks centrados en texto. 2) Además, demostramos el papel crucial de los datos de razonamiento en VQA para ofrecer información contextual completa para preguntas específicas. Esto no solo mejora la precisión, sino que también mitiga significativamente las alucinaciones. En concreto, TextSquare obtiene un promedio de 75.1% en cuatro conjuntos de datos de evaluación general de VQA y alucinaciones, superando a los modelos anteriores más avanzados. 3) Notablemente, el fenómeno observado en la escalabilidad de los conjuntos de datos de VQA centrados en texto revela un patrón claro: el aumento exponencial del volumen de datos para el ajuste por instrucción es directamente proporcional a la mejora en el rendimiento del modelo, validando así la necesidad de la escala del conjunto de datos y la alta calidad de Square-10M.
English
Text-centric visual question answering (VQA) has made great strides with the
development of Multimodal Large Language Models (MLLMs), yet open-source models
still fall short of leading models like GPT4V and Gemini, partly due to a lack
of extensive, high-quality instruction tuning data. To this end, we introduce a
new approach for creating a massive, high-quality instruction-tuning dataset,
Square-10M, which is generated using closed-source MLLMs. The data construction
process, termed Square, consists of four steps: Self-Questioning, Answering,
Reasoning, and Evaluation. Our experiments with Square-10M led to three key
findings: 1) Our model, TextSquare, considerably surpasses open-source previous
state-of-the-art Text-centric MLLMs and sets a new standard on OCRBench(62.2%).
It even outperforms top-tier models like GPT4V and Gemini in 6 of 10
text-centric benchmarks. 2) Additionally, we demonstrate the critical role of
VQA reasoning data in offering comprehensive contextual insights for specific
questions. This not only improves accuracy but also significantly mitigates
hallucinations. Specifically, TextSquare scores an average of 75.1% across four
general VQA and hallucination evaluation datasets, outperforming previous
state-of-the-art models. 3) Notably, the phenomenon observed in scaling
text-centric VQA datasets reveals a vivid pattern: the exponential increase of
instruction tuning data volume is directly proportional to the improvement in
model performance, thereby validating the necessity of the dataset scale and
the high quality of Square-10M.Summary
AI-Generated Summary