TextSquare: Escalonando o Ajuste Fino de Instruções Visuais Centradas em Texto
TextSquare: Scaling up Text-Centric Visual Instruction Tuning
April 19, 2024
Autores: Jingqun Tang, Chunhui Lin, Zhen Zhao, Shu Wei, Binghong Wu, Qi Liu, Hao Feng, Yang Li, Siqi Wang, Lei Liao, Wei Shi, Yuliang Liu, Hao Liu, Yuan Xie, Xiang Bai, Can Huang
cs.AI
Resumo
A resposta visual a perguntas centrada em texto (VQA) fez grandes avanços com o desenvolvimento de Modelos de Linguagem Multimodais de Grande Escala (MLLMs), mas os modelos de código aberto ainda ficam aquém dos líderes como GPT4V e Gemini, em parte devido à falta de dados extensivos e de alta qualidade para ajuste por instrução. Para isso, introduzimos uma nova abordagem para criar um conjunto de dados massivo e de alta qualidade para ajuste por instrução, o Square-10M, gerado usando MLLMs de código fechado. O processo de construção dos dados, denominado Square, consiste em quatro etapas: Autoquestionamento, Resposta, Raciocínio e Avaliação. Nossos experimentos com o Square-10M resultaram em três descobertas principais: 1) Nosso modelo, TextSquare, supera consideravelmente os MLLMs centrados em texto de código aberto anteriores e estabelece um novo padrão no OCRBench (62,2%). Ele até supera modelos de ponta como GPT4V e Gemini em 6 de 10 benchmarks centrados em texto. 2) Além disso, demonstramos o papel crucial dos dados de raciocínio VQA em fornecer insights contextuais abrangentes para perguntas específicas. Isso não apenas melhora a precisão, mas também mitiga significativamente as alucinações. Especificamente, o TextSquare obtém uma média de 75,1% em quatro conjuntos de dados gerais de avaliação VQA e de alucinação, superando os modelos state-of-the-art anteriores. 3) Notavelmente, o fenômeno observado na escalabilidade de conjuntos de dados VQA centrados em texto revela um padrão claro: o aumento exponencial do volume de dados de ajuste por instrução é diretamente proporcional à melhoria no desempenho do modelo, validando assim a necessidade da escala do conjunto de dados e a alta qualidade do Square-10M.
English
Text-centric visual question answering (VQA) has made great strides with the
development of Multimodal Large Language Models (MLLMs), yet open-source models
still fall short of leading models like GPT4V and Gemini, partly due to a lack
of extensive, high-quality instruction tuning data. To this end, we introduce a
new approach for creating a massive, high-quality instruction-tuning dataset,
Square-10M, which is generated using closed-source MLLMs. The data construction
process, termed Square, consists of four steps: Self-Questioning, Answering,
Reasoning, and Evaluation. Our experiments with Square-10M led to three key
findings: 1) Our model, TextSquare, considerably surpasses open-source previous
state-of-the-art Text-centric MLLMs and sets a new standard on OCRBench(62.2%).
It even outperforms top-tier models like GPT4V and Gemini in 6 of 10
text-centric benchmarks. 2) Additionally, we demonstrate the critical role of
VQA reasoning data in offering comprehensive contextual insights for specific
questions. This not only improves accuracy but also significantly mitigates
hallucinations. Specifically, TextSquare scores an average of 75.1% across four
general VQA and hallucination evaluation datasets, outperforming previous
state-of-the-art models. 3) Notably, the phenomenon observed in scaling
text-centric VQA datasets reveals a vivid pattern: the exponential increase of
instruction tuning data volume is directly proportional to the improvement in
model performance, thereby validating the necessity of the dataset scale and
the high quality of Square-10M.