ChatPaper.aiChatPaper

Wenn große Modelle kleine trainieren: Label-freie Modellparitätsausrichtung für effizientes visuelles Frage-Antworten mit kleinen VLMs

When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs

September 20, 2025
papers.authors: Abhirama Subramanyam Penamakuri, Navlika Singh, Piyush Arora, Anand Mishra
cs.AI

papers.abstract

Große Vision-Sprach-Modelle (Large Vision-Language Models, L-VLMs) haben bemerkenswerte Leistungen in verschiedenen Vision- und Sprachaufgaben gezeigt, einschließlich visueller Fragebeantwortung (Visual Question Answering, VQA). Ihre hohen Rechenkosten machen sie jedoch für ressourcenbeschränkte Umgebungen und anwendungen mit hohem Inferenzaufwand unpraktisch. Im Gegensatz dazu bieten Kleine Vision-Sprach-Modelle (Small Vision-Language Models, S-VLMs) Effizienz, leiden jedoch unter einer erheblichen Leistungslücke im Vergleich zu ihren größeren Gegenstücken. In dieser Arbeit stellen wir den Model Parity Aligner (MPA) vor, ein neuartiges Framework, das darauf abzielt, S-VLMs systematisch zu verbessern, indem es unmarkierte Bilder und effektiven Wissenstransfer von L-VLMs nutzt. Anstelle traditioneller Wissensdistillationsmethoden, die auf markierten Trainingsdaten basieren, verwendet MPA einen strategischen, paritätsbasierten Ansatz, der die Wissensunterschiede zwischen S-VLMs und L-VLMs präzise identifiziert und das Training gezielt auf diese Unterschiede optimiert. Wir führen umfangreiche Experimente auf vier verschiedenen VQA-Benchmarks durch, nämlich TextVQA, ST-VQA, ChartQA und OKVQA, von denen jeder spezialisierte Fähigkeiten wie Texterkennung, Diagramminterpretation sowie Alltags- und Faktenverständnis erfordert. Unsere Ergebnisse zeigen, dass MPA die Leistung von S-VLMs auf allen Benchmarks konsistent verbessert, die Leistungslücke verringert und dabei die Recheneffizienz beibehält. Wir stellen unseren Code öffentlich zur Verfügung.
English
Large Vision-Language Models (L-VLMs) have demonstrated remarkable performance in various vision and language tasks, including visual question answering (VQA). However, their high computational cost makes them impractical for resource-constrained settings and inference-heavy applications. In contrast, Small Vision-Language Models (S-VLMs) offer efficiency but suffer from a significant performance gap compared to their larger counterparts. In this work, we introduce the Model Parity Aligner (MPA), a novel framework designed to systematically improve S-VLMs by leveraging unlabeled images and effective knowledge transfer from L-VLMs. Instead of traditional knowledge distillation methods that rely on labeled training data, MPA employs a strategic parity-based approach that precisely identifies the knowledge disparities between S-VLMs and L-VLMs, and optimizes training by targeting only these disparities. We conduct extensive experiments on four diverse VQA benchmarks, namely TextVQA, ST-VQA, ChartQA, and OKVQA, each of which requires specialized reasoning capabilities such as text recognition, chart interpretation, and commonsense and factual understanding. Our results demonstrate that MPA consistently enhances the performance of S-VLMs on all benchmarks, reducing the performance gap while maintaining computational efficiency. We make our code publicly available.
PDF12September 23, 2025