ChatPaper.aiChatPaper

Quando i Modelli Grandi Addestrano i Piccoli: Allineamento della Parità dei Modelli Senza Etichette per il Visual Question Answering Efficiente Utilizzando Piccoli VLMs

When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs

September 20, 2025
Autori: Abhirama Subramanyam Penamakuri, Navlika Singh, Piyush Arora, Anand Mishra
cs.AI

Abstract

I grandi modelli visione-linguaggio (Large Vision-Language Models, L-VLM) hanno dimostrato prestazioni notevoli in vari compiti di visione e linguaggio, inclusa la risposta a domande visive (Visual Question Answering, VQA). Tuttavia, il loro elevato costo computazionale li rende poco pratici in contesti con risorse limitate e applicazioni che richiedono molta inferenza. Al contrario, i piccoli modelli visione-linguaggio (Small Vision-Language Models, S-VLM) offrono efficienza, ma soffrono di un significativo divario prestazionale rispetto alle loro controparti più grandi. In questo lavoro, introduciamo il Model Parity Aligner (MPA), un framework innovativo progettato per migliorare sistematicamente gli S-VLM sfruttando immagini non etichettate e un trasferimento efficace di conoscenza dagli L-VLM. Invece di utilizzare i tradizionali metodi di distillazione della conoscenza che si basano su dati di addestramento etichettati, MPA adotta un approccio strategico basato sulla parità, che identifica con precisione le disparità di conoscenza tra S-VLM e L-VLM e ottimizza l'addestramento concentrandosi solo su queste disparità. Abbiamo condotto esperimenti approfonditi su quattro benchmark VQA diversi, ovvero TextVQA, ST-VQA, ChartQA e OKVQA, ciascuno dei quali richiede capacità di ragionamento specializzate come il riconoscimento del testo, l'interpretazione di grafici e la comprensione del senso comune e dei fatti. I nostri risultati dimostrano che MPA migliora costantemente le prestazioni degli S-VLM su tutti i benchmark, riducendo il divario prestazionale mantenendo l'efficienza computazionale. Rendiamo il nostro codice pubblicamente disponibile.
English
Large Vision-Language Models (L-VLMs) have demonstrated remarkable performance in various vision and language tasks, including visual question answering (VQA). However, their high computational cost makes them impractical for resource-constrained settings and inference-heavy applications. In contrast, Small Vision-Language Models (S-VLMs) offer efficiency but suffer from a significant performance gap compared to their larger counterparts. In this work, we introduce the Model Parity Aligner (MPA), a novel framework designed to systematically improve S-VLMs by leveraging unlabeled images and effective knowledge transfer from L-VLMs. Instead of traditional knowledge distillation methods that rely on labeled training data, MPA employs a strategic parity-based approach that precisely identifies the knowledge disparities between S-VLMs and L-VLMs, and optimizes training by targeting only these disparities. We conduct extensive experiments on four diverse VQA benchmarks, namely TextVQA, ST-VQA, ChartQA, and OKVQA, each of which requires specialized reasoning capabilities such as text recognition, chart interpretation, and commonsense and factual understanding. Our results demonstrate that MPA consistently enhances the performance of S-VLMs on all benchmarks, reducing the performance gap while maintaining computational efficiency. We make our code publicly available.
PDF12September 23, 2025