ChatPaper.aiChatPaper

Quando Modelos Grandes Treinam os Pequenos: Alinhamento de Paridade de Modelos sem Rótulos para Resposta Eficiente a Perguntas Visuais usando Pequenos VLMs

When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs

September 20, 2025
Autores: Abhirama Subramanyam Penamakuri, Navlika Singh, Piyush Arora, Anand Mishra
cs.AI

Resumo

Modelos Grandes de Visão e Linguagem (L-VLMs) têm demonstrado desempenho notável em diversas tarefas de visão e linguagem, incluindo a resposta a perguntas visuais (VQA). No entanto, seu alto custo computacional os torna impraticáveis para ambientes com recursos limitados e aplicações que exigem muita inferência. Em contraste, os Modelos Pequenos de Visão e Linguagem (S-VLMs) oferecem eficiência, mas sofrem com uma lacuna significativa de desempenho em comparação com seus equivalentes maiores. Neste trabalho, apresentamos o Model Parity Aligner (MPA), uma estrutura inovadora projetada para melhorar sistematicamente os S-VLMs, aproveitando imagens não rotuladas e uma transferência eficaz de conhecimento dos L-VLMs. Em vez de métodos tradicionais de destilação de conhecimento que dependem de dados de treinamento rotulados, o MPA emprega uma abordagem estratégica baseada em paridade que identifica precisamente as disparidades de conhecimento entre S-VLMs e L-VLMs, e otimiza o treinamento direcionando apenas essas disparidades. Realizamos experimentos extensos em quatro benchmarks diversos de VQA, nomeadamente TextVQA, ST-VQA, ChartQA e OKVQA, cada um dos quais exige capacidades de raciocínio especializadas, como reconhecimento de texto, interpretação de gráficos e compreensão de senso comum e factual. Nossos resultados demonstram que o MPA melhora consistentemente o desempenho dos S-VLMs em todos os benchmarks, reduzindo a lacuna de desempenho enquanto mantém a eficiência computacional. Disponibilizamos nosso código publicamente.
English
Large Vision-Language Models (L-VLMs) have demonstrated remarkable performance in various vision and language tasks, including visual question answering (VQA). However, their high computational cost makes them impractical for resource-constrained settings and inference-heavy applications. In contrast, Small Vision-Language Models (S-VLMs) offer efficiency but suffer from a significant performance gap compared to their larger counterparts. In this work, we introduce the Model Parity Aligner (MPA), a novel framework designed to systematically improve S-VLMs by leveraging unlabeled images and effective knowledge transfer from L-VLMs. Instead of traditional knowledge distillation methods that rely on labeled training data, MPA employs a strategic parity-based approach that precisely identifies the knowledge disparities between S-VLMs and L-VLMs, and optimizes training by targeting only these disparities. We conduct extensive experiments on four diverse VQA benchmarks, namely TextVQA, ST-VQA, ChartQA, and OKVQA, each of which requires specialized reasoning capabilities such as text recognition, chart interpretation, and commonsense and factual understanding. Our results demonstrate that MPA consistently enhances the performance of S-VLMs on all benchmarks, reducing the performance gap while maintaining computational efficiency. We make our code publicly available.
PDF12September 23, 2025