Wanneer grote modellen kleine modellen trainen: Labelvrije modelpariteit-afstemming voor efficiënte visuele vraagbeantwoording met kleine VLMs
When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs
September 20, 2025
Auteurs: Abhirama Subramanyam Penamakuri, Navlika Singh, Piyush Arora, Anand Mishra
cs.AI
Samenvatting
Grote Vision-Taalmodellen (L-VLMs) hebben opmerkelijke prestaties geleverd in diverse visuele en taaltaken, waaronder visuele vraagbeantwoording (VQA). Hun hoge rekenkundige kosten maken ze echter onpraktisch voor omgevingen met beperkte middelen en toepassingen die zwaar leunen op inferentie. Kleine Vision-Taalmodellen (S-VLMs) bieden daarentegen efficiëntie, maar lijden onder een aanzienlijk prestatieverschil in vergelijking met hun grotere tegenhangers. In dit werk introduceren we de Model Parity Aligner (MPA), een nieuw raamwerk dat is ontworpen om S-VLMs systematisch te verbeteren door gebruik te maken van ongelabelde afbeeldingen en effectieve kennisoverdracht van L-VLMs. In plaats van traditionele methoden voor kennisdistillatie die afhankelijk zijn van gelabelde trainingsdata, hanteert MPA een strategische parity-gebaseerde aanpak die de kenniskloof tussen S-VLMs en L-VLMs precies identificeert en de training optimaliseert door alleen deze verschillen aan te pakken. We voeren uitgebreide experimenten uit op vier diverse VQA-benchmarks, namelijk TextVQA, ST-VQA, ChartQA en OKVQA, die elk gespecialiseerde redeneervaardigheden vereisen, zoals tekstherkenning, grafiekinterpretatie, en begrip van gezond verstand en feiten. Onze resultaten tonen aan dat MPA consistent de prestaties van S-VLMs op alle benchmarks verbetert, het prestatieverschil verkleint en tegelijkertijd de rekenkundige efficiëntie behoudt. We stellen onze code openbaar beschikbaar.
English
Large Vision-Language Models (L-VLMs) have demonstrated remarkable
performance in various vision and language tasks, including visual question
answering (VQA). However, their high computational cost makes them impractical
for resource-constrained settings and inference-heavy applications. In
contrast, Small Vision-Language Models (S-VLMs) offer efficiency but suffer
from a significant performance gap compared to their larger counterparts. In
this work, we introduce the Model Parity Aligner (MPA), a novel framework
designed to systematically improve S-VLMs by leveraging unlabeled images and
effective knowledge transfer from L-VLMs. Instead of traditional knowledge
distillation methods that rely on labeled training data, MPA employs a
strategic parity-based approach that precisely identifies the knowledge
disparities between S-VLMs and L-VLMs, and optimizes training by targeting only
these disparities. We conduct extensive experiments on four diverse VQA
benchmarks, namely TextVQA, ST-VQA, ChartQA, and OKVQA, each of which requires
specialized reasoning capabilities such as text recognition, chart
interpretation, and commonsense and factual understanding. Our results
demonstrate that MPA consistently enhances the performance of S-VLMs on all
benchmarks, reducing the performance gap while maintaining computational
efficiency. We make our code publicly available.