Vereinheitlichtes Verstärkungs- und Imitationslernen für visuell-sprachliche Modelle
Unified Reinforcement and Imitation Learning for Vision-Language Models
October 22, 2025
papers.authors: Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu
cs.AI
papers.abstract
Vision-Language Models (VLMs) haben bemerkenswerte Fortschritte erzielt, doch ihre große Skalierung macht sie oft unpraktisch für ressourcenbeschränkte Umgebungen. Dieses Papier stellt Unified Reinforcement and Imitation Learning (RIL) vor, einen neuartigen und effizienten Trainingsalgorithmus, der darauf abzielt, leistungsstarke, leichtgewichtige VLMs zu erstellen. RIL kombiniert auf einzigartige Weise die Stärken des Reinforcement Learning mit dem adversarischen Imitation Learning. Dadurch können kleinere Schüler-VLMs nicht nur die anspruchsvolle Textgenerierung großer Lehrermodelle nachahmen, sondern auch ihre generativen Fähigkeiten systematisch durch Verstärkungssignale verbessern. Ein zentrales Element unseres Imitationsframeworks ist ein LLM-basierter Diskriminator, der geschickt zwischen den Ausgaben von Schüler- und Lehrermodellen unterscheidet, ergänzt durch die Anleitung mehrerer großer Lehrer-VLMs, um eine vielfältige Lernumgebung zu gewährleisten. Diese vereinheitlichte Lernstrategie, die sowohl Verstärkung als auch Imitation nutzt, befähigt Schülermodelle, signifikante Leistungssteigerungen zu erzielen, wodurch sie mit führenden Closed-Source-VLMs konkurrieren können. Umfangreiche Experimente auf diversen Vision-Language-Benchmarks zeigen, dass RIL die Leistungslücke zu state-of-the-art Open- und Closed-Source-VLMs erheblich verringert und in mehreren Fällen sogar übertrifft.
English
Vision-Language Models (VLMs) have achieved remarkable progress, yet their
large scale often renders them impractical for resource-constrained
environments. This paper introduces Unified Reinforcement and Imitation
Learning (RIL), a novel and efficient training algorithm designed to create
powerful, lightweight VLMs. RIL distinctively combines the strengths of
reinforcement learning with adversarial imitation learning. This enables
smaller student VLMs not only to mimic the sophisticated text generation of
large teacher models but also to systematically improve their generative
capabilities through reinforcement signals. Key to our imitation framework is
an LLM-based discriminator that adeptly distinguishes between student and
teacher outputs, complemented by guidance from multiple large teacher VLMs to
ensure diverse learning. This unified learning strategy, leveraging both
reinforcement and imitation, empowers student models to achieve significant
performance gains, making them competitive with leading closed-source VLMs.
Extensive experiments on diverse vision-language benchmarks demonstrate that
RIL significantly narrows the performance gap with state-of-the-art open- and
closed-source VLMs and, in several instances, surpasses them.