Apprentissage Unifié par Renforcement et Imitation pour les Modèles Vision-Langage
Unified Reinforcement and Imitation Learning for Vision-Language Models
October 22, 2025
papers.authors: Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu
cs.AI
papers.abstract
Les modèles vision-langage (VLMs) ont réalisé des progrès remarquables, mais leur grande échelle les rend souvent inadaptés aux environnements à ressources limitées. Cet article présente l'apprentissage unifié par renforcement et imitation (RIL), un algorithme de formation novateur et efficace conçu pour créer des VLMs puissants et légers. RIL combine de manière distinctive les avantages de l'apprentissage par renforcement avec ceux de l'apprentissage par imitation adversarial. Cela permet aux VLMs étudiants de plus petite taille non seulement d'imiter la génération de texte sophistiquée des grands modèles enseignants, mais aussi d'améliorer systématiquement leurs capacités génératives grâce à des signaux de renforcement. Un élément clé de notre cadre d'imitation est un discriminateur basé sur un LLM qui distingue habilement les sorties des étudiants et des enseignants, complété par des conseils provenant de plusieurs grands VLMs enseignants pour assurer un apprentissage diversifié. Cette stratégie d'apprentissage unifiée, exploitant à la fois le renforcement et l'imitation, permet aux modèles étudiants d'obtenir des gains de performance significatifs, les rendant compétitifs avec les VLMs propriétaires de pointe. Des expériences approfondies sur divers benchmarks vision-langage démontrent que RIL réduit considérablement l'écart de performance avec les VLMs open-source et propriétaires de pointe et, dans plusieurs cas, les dépasse.
English
Vision-Language Models (VLMs) have achieved remarkable progress, yet their
large scale often renders them impractical for resource-constrained
environments. This paper introduces Unified Reinforcement and Imitation
Learning (RIL), a novel and efficient training algorithm designed to create
powerful, lightweight VLMs. RIL distinctively combines the strengths of
reinforcement learning with adversarial imitation learning. This enables
smaller student VLMs not only to mimic the sophisticated text generation of
large teacher models but also to systematically improve their generative
capabilities through reinforcement signals. Key to our imitation framework is
an LLM-based discriminator that adeptly distinguishes between student and
teacher outputs, complemented by guidance from multiple large teacher VLMs to
ensure diverse learning. This unified learning strategy, leveraging both
reinforcement and imitation, empowers student models to achieve significant
performance gains, making them competitive with leading closed-source VLMs.
Extensive experiments on diverse vision-language benchmarks demonstrate that
RIL significantly narrows the performance gap with state-of-the-art open- and
closed-source VLMs and, in several instances, surpasses them.