Quand les grands modèles entraînent les petits : Alignement de parité de modèle sans étiquettes pour un traitement efficace des questions-réponses visuelles avec des petits modèles de langage visuel

papers.abstract

Les grands modèles vision-langage (L-VLMs) ont démontré des performances remarquables dans diverses tâches combinant vision et langage, notamment le question-réponse visuel (VQA). Cependant, leur coût computationnel élevé les rend peu pratiques pour les environnements aux ressources limitées et les applications nécessitant une inférence intensive. En revanche, les petits modèles vision-langage (S-VLMs) offrent une meilleure efficacité, mais souffrent d'un écart de performance significatif par rapport à leurs homologues plus grands. Dans ce travail, nous introduisons le Model Parity Aligner (MPA), un cadre novateur conçu pour améliorer systématiquement les S-VLMs en exploitant des images non annotées et un transfert de connaissances efficace depuis les L-VLMs. Plutôt que de recourir aux méthodes traditionnelles de distillation de connaissances qui reposent sur des données d'entraînement annotées, le MPA utilise une approche stratégique basée sur la parité, identifiant précisément les disparités de connaissances entre les S-VLMs et les L-VLMs, et optimisant l'entraînement en ciblant uniquement ces écarts. Nous menons des expériences approfondies sur quatre benchmarks VQA variés, à savoir TextVQA, ST-VQA, ChartQA et OKVQA, chacun nécessitant des capacités de raisonnement spécialisées telles que la reconnaissance de texte, l'interprétation de graphiques, ainsi que la compréhension du bon sens et des faits. Nos résultats montrent que le MPA améliore de manière constante les performances des S-VLMs sur tous les benchmarks, réduisant l'écart de performance tout en maintenant l'efficacité computationnelle. Nous rendons notre code public.

English

Large Vision-Language Models (L-VLMs) have demonstrated remarkable performance in various vision and language tasks, including visual question answering (VQA). However, their high computational cost makes them impractical for resource-constrained settings and inference-heavy applications. In contrast, Small Vision-Language Models (S-VLMs) offer efficiency but suffer from a significant performance gap compared to their larger counterparts. In this work, we introduce the Model Parity Aligner (MPA), a novel framework designed to systematically improve S-VLMs by leveraging unlabeled images and effective knowledge transfer from L-VLMs. Instead of traditional knowledge distillation methods that rely on labeled training data, MPA employs a strategic parity-based approach that precisely identifies the knowledge disparities between S-VLMs and L-VLMs, and optimizes training by targeting only these disparities. We conduct extensive experiments on four diverse VQA benchmarks, namely TextVQA, ST-VQA, ChartQA, and OKVQA, each of which requires specialized reasoning capabilities such as text recognition, chart interpretation, and commonsense and factual understanding. Our results demonstrate that MPA consistently enhances the performance of S-VLMs on all benchmarks, reducing the performance gap while maintaining computational efficiency. We make our code publicly available.

Quand les grands modèles entraînent les petits : Alignement de parité de modèle sans étiquettes pour un traitement efficace des questions-réponses visuelles avec des petits modèles de langage visuel

When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs

papers.abstract

Support