Quand les grands modèles entraînent les petits : Alignement de parité de modèle sans étiquettes pour un traitement efficace des questions-réponses visuelles avec des petits modèles de langage visuel
When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs
September 20, 2025
papers.authors: Abhirama Subramanyam Penamakuri, Navlika Singh, Piyush Arora, Anand Mishra
cs.AI
papers.abstract
Les grands modèles vision-langage (L-VLMs) ont démontré des performances remarquables dans diverses tâches combinant vision et langage, notamment le question-réponse visuel (VQA). Cependant, leur coût computationnel élevé les rend peu pratiques pour les environnements aux ressources limitées et les applications nécessitant une inférence intensive. En revanche, les petits modèles vision-langage (S-VLMs) offrent une meilleure efficacité, mais souffrent d'un écart de performance significatif par rapport à leurs homologues plus grands. Dans ce travail, nous introduisons le Model Parity Aligner (MPA), un cadre novateur conçu pour améliorer systématiquement les S-VLMs en exploitant des images non annotées et un transfert de connaissances efficace depuis les L-VLMs. Plutôt que de recourir aux méthodes traditionnelles de distillation de connaissances qui reposent sur des données d'entraînement annotées, le MPA utilise une approche stratégique basée sur la parité, identifiant précisément les disparités de connaissances entre les S-VLMs et les L-VLMs, et optimisant l'entraînement en ciblant uniquement ces écarts. Nous menons des expériences approfondies sur quatre benchmarks VQA variés, à savoir TextVQA, ST-VQA, ChartQA et OKVQA, chacun nécessitant des capacités de raisonnement spécialisées telles que la reconnaissance de texte, l'interprétation de graphiques, ainsi que la compréhension du bon sens et des faits. Nos résultats montrent que le MPA améliore de manière constante les performances des S-VLMs sur tous les benchmarks, réduisant l'écart de performance tout en maintenant l'efficacité computationnelle. Nous rendons notre code public.
English
Large Vision-Language Models (L-VLMs) have demonstrated remarkable
performance in various vision and language tasks, including visual question
answering (VQA). However, their high computational cost makes them impractical
for resource-constrained settings and inference-heavy applications. In
contrast, Small Vision-Language Models (S-VLMs) offer efficiency but suffer
from a significant performance gap compared to their larger counterparts. In
this work, we introduce the Model Parity Aligner (MPA), a novel framework
designed to systematically improve S-VLMs by leveraging unlabeled images and
effective knowledge transfer from L-VLMs. Instead of traditional knowledge
distillation methods that rely on labeled training data, MPA employs a
strategic parity-based approach that precisely identifies the knowledge
disparities between S-VLMs and L-VLMs, and optimizes training by targeting only
these disparities. We conduct extensive experiments on four diverse VQA
benchmarks, namely TextVQA, ST-VQA, ChartQA, and OKVQA, each of which requires
specialized reasoning capabilities such as text recognition, chart
interpretation, and commonsense and factual understanding. Our results
demonstrate that MPA consistently enhances the performance of S-VLMs on all
benchmarks, reducing the performance gap while maintaining computational
efficiency. We make our code publicly available.