Когда большие модели обучают маленькие: выравнивание моделей без меток для эффективного визуального ответа на вопросы с использованием компактных визуально-языковых моделей
When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs
September 20, 2025
Авторы: Abhirama Subramanyam Penamakuri, Navlika Singh, Piyush Arora, Anand Mishra
cs.AI
Аннотация
Крупные модели для обработки зрения и языка (Large Vision-Language Models, L-VLMs) продемонстрировали выдающиеся результаты в различных задачах, связанных с обработкой изображений и текста, включая визуальное ответы на вопросы (Visual Question Answering, VQA). Однако их высокая вычислительная стоимость делает их непрактичными для сред с ограниченными ресурсами и приложений, требующих интенсивного вывода. В то же время, небольшие модели для обработки зрения и языка (Small Vision-Language Models, S-VLMs) предлагают эффективность, но значительно уступают по производительности своим более крупным аналогам. В данной работе мы представляем Model Parity Aligner (MPA) — новый фреймворк, предназначенный для систематического улучшения S-VLMs за счет использования немаркированных изображений и эффективного переноса знаний от L-VLMs. В отличие от традиционных методов дистилляции знаний, которые полагаются на маркированные обучающие данные, MPA применяет стратегический подход, основанный на выравнивании, который точно определяет различия в знаниях между S-VLMs и L-VLMs и оптимизирует обучение, фокусируясь только на этих различиях. Мы провели обширные эксперименты на четырех различных бенчмарках VQA, а именно TextVQA, ST-VQA, ChartQA и OKVQA, каждый из которых требует специализированных навыков рассуждения, таких как распознавание текста, интерпретация диаграмм, а также понимание здравого смысла и фактов. Наши результаты показывают, что MPA последовательно улучшает производительность S-VLMs на всех бенчмарках, сокращая разрыв в производительности при сохранении вычислительной эффективности. Мы делаем наш код общедоступным.
English
Large Vision-Language Models (L-VLMs) have demonstrated remarkable
performance in various vision and language tasks, including visual question
answering (VQA). However, their high computational cost makes them impractical
for resource-constrained settings and inference-heavy applications. In
contrast, Small Vision-Language Models (S-VLMs) offer efficiency but suffer
from a significant performance gap compared to their larger counterparts. In
this work, we introduce the Model Parity Aligner (MPA), a novel framework
designed to systematically improve S-VLMs by leveraging unlabeled images and
effective knowledge transfer from L-VLMs. Instead of traditional knowledge
distillation methods that rely on labeled training data, MPA employs a
strategic parity-based approach that precisely identifies the knowledge
disparities between S-VLMs and L-VLMs, and optimizes training by targeting only
these disparities. We conduct extensive experiments on four diverse VQA
benchmarks, namely TextVQA, ST-VQA, ChartQA, and OKVQA, each of which requires
specialized reasoning capabilities such as text recognition, chart
interpretation, and commonsense and factual understanding. Our results
demonstrate that MPA consistently enhances the performance of S-VLMs on all
benchmarks, reducing the performance gap while maintaining computational
efficiency. We make our code publicly available.