Geïntegreerd Reinforcement en Imitatie Leren voor Visie-Taalmodellen
Unified Reinforcement and Imitation Learning for Vision-Language Models
October 22, 2025
Auteurs: Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu
cs.AI
Samenvatting
Vision-Language Models (VLMs) hebben opmerkelijke vooruitgang geboekt, maar hun grote schaal maakt ze vaak onpraktisch voor omgevingen met beperkte middelen. Dit artikel introduceert Unified Reinforcement and Imitation Learning (RIL), een nieuw en efficiënt trainingsalgoritme ontworpen om krachtige, lichtgewicht VLMs te creëren. RIL combineert op unieke wijze de sterke punten van reinforcement learning met adversarial imitation learning. Hierdoor kunnen kleinere student-VLMs niet alleen de geavanceerde tekstgeneratie van grote leraar-modellen nabootsen, maar ook hun generatieve capaciteiten systematisch verbeteren via reinforcement-signalen. Centraal in ons imitatieraamwerk staat een op LLM gebaseerde discriminator die vaardig onderscheid maakt tussen de uitvoer van studenten en leraren, aangevuld met begeleiding van meerdere grote leraar-VLMs om divers leren te garanderen. Deze geïntegreerde leerstrategie, die zowel reinforcement als imitatie benut, stelt student-modellen in staat aanzienlijke prestatieverbeteringen te behalen, waardoor ze concurrerend worden met toonaangevende closed-source VLMs. Uitgebreide experimenten op diverse vision-language benchmarks tonen aan dat RIL de prestatiekloof met state-of-the-art open- en closed-source VLMs aanzienlijk verkleint en in verschillende gevallen zelfs overtreft.
English
Vision-Language Models (VLMs) have achieved remarkable progress, yet their
large scale often renders them impractical for resource-constrained
environments. This paper introduces Unified Reinforcement and Imitation
Learning (RIL), a novel and efficient training algorithm designed to create
powerful, lightweight VLMs. RIL distinctively combines the strengths of
reinforcement learning with adversarial imitation learning. This enables
smaller student VLMs not only to mimic the sophisticated text generation of
large teacher models but also to systematically improve their generative
capabilities through reinforcement signals. Key to our imitation framework is
an LLM-based discriminator that adeptly distinguishes between student and
teacher outputs, complemented by guidance from multiple large teacher VLMs to
ensure diverse learning. This unified learning strategy, leveraging both
reinforcement and imitation, empowers student models to achieve significant
performance gains, making them competitive with leading closed-source VLMs.
Extensive experiments on diverse vision-language benchmarks demonstrate that
RIL significantly narrows the performance gap with state-of-the-art open- and
closed-source VLMs and, in several instances, surpasses them.