Geïntegreerd Reinforcement en Imitatie Leren voor Visie-Taalmodellen

Samenvatting

Vision-Language Models (VLMs) hebben opmerkelijke vooruitgang geboekt, maar hun grote schaal maakt ze vaak onpraktisch voor omgevingen met beperkte middelen. Dit artikel introduceert Unified Reinforcement and Imitation Learning (RIL), een nieuw en efficiënt trainingsalgoritme ontworpen om krachtige, lichtgewicht VLMs te creëren. RIL combineert op unieke wijze de sterke punten van reinforcement learning met adversarial imitation learning. Hierdoor kunnen kleinere student-VLMs niet alleen de geavanceerde tekstgeneratie van grote leraar-modellen nabootsen, maar ook hun generatieve capaciteiten systematisch verbeteren via reinforcement-signalen. Centraal in ons imitatieraamwerk staat een op LLM gebaseerde discriminator die vaardig onderscheid maakt tussen de uitvoer van studenten en leraren, aangevuld met begeleiding van meerdere grote leraar-VLMs om divers leren te garanderen. Deze geïntegreerde leerstrategie, die zowel reinforcement als imitatie benut, stelt student-modellen in staat aanzienlijke prestatieverbeteringen te behalen, waardoor ze concurrerend worden met toonaangevende closed-source VLMs. Uitgebreide experimenten op diverse vision-language benchmarks tonen aan dat RIL de prestatiekloof met state-of-the-art open- en closed-source VLMs aanzienlijk verkleint en in verschillende gevallen zelfs overtreft.

English

Vision-Language Models (VLMs) have achieved remarkable progress, yet their large scale often renders them impractical for resource-constrained environments. This paper introduces Unified Reinforcement and Imitation Learning (RIL), a novel and efficient training algorithm designed to create powerful, lightweight VLMs. RIL distinctively combines the strengths of reinforcement learning with adversarial imitation learning. This enables smaller student VLMs not only to mimic the sophisticated text generation of large teacher models but also to systematically improve their generative capabilities through reinforcement signals. Key to our imitation framework is an LLM-based discriminator that adeptly distinguishes between student and teacher outputs, complemented by guidance from multiple large teacher VLMs to ensure diverse learning. This unified learning strategy, leveraging both reinforcement and imitation, empowers student models to achieve significant performance gains, making them competitive with leading closed-source VLMs. Extensive experiments on diverse vision-language benchmarks demonstrate that RIL significantly narrows the performance gap with state-of-the-art open- and closed-source VLMs and, in several instances, surpasses them.

Geïntegreerd Reinforcement en Imitatie Leren voor Visie-Taalmodellen

Unified Reinforcement and Imitation Learning for Vision-Language Models

Samenvatting

Support