視覚言語モデルのための統合型強化学習と模倣学習
Unified Reinforcement and Imitation Learning for Vision-Language Models
October 22, 2025
著者: Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu
cs.AI
要旨
Vision-Language Models(VLM)は目覚ましい進歩を遂げてきたが、その大規模さゆえにリソースが限られた環境では実用的でないことが多い。本論文では、強力で軽量なVLMを創出するために設計された、新規かつ効率的な訓練アルゴリズムであるUnified Reinforcement and Imitation Learning(RIL)を紹介する。RILは、強化学習と敵対的模倣学習の長所を独自に組み合わせている。これにより、小規模な学生VLMは、大規模な教師モデルの洗練されたテキスト生成を模倣するだけでなく、強化学習信号を通じて体系的に生成能力を向上させることができる。我々の模倣フレームワークの鍵となるのは、学生と教師の出力を巧みに識別するLLMベースの識別器であり、多様な学習を保証するために複数の大規模教師VLMからのガイダンスが補完される。この強化学習と模倣を活用した統一学習戦略により、学生モデルは大幅な性能向上を達成し、主要なクローズドソースVLMと競争できるようになる。多様な視覚言語ベンチマークでの広範な実験により、RILが最先端のオープンソースおよびクローズドソースVLMとの性能差を大幅に縮め、いくつかの事例ではそれを上回ることが実証された。
English
Vision-Language Models (VLMs) have achieved remarkable progress, yet their
large scale often renders them impractical for resource-constrained
environments. This paper introduces Unified Reinforcement and Imitation
Learning (RIL), a novel and efficient training algorithm designed to create
powerful, lightweight VLMs. RIL distinctively combines the strengths of
reinforcement learning with adversarial imitation learning. This enables
smaller student VLMs not only to mimic the sophisticated text generation of
large teacher models but also to systematically improve their generative
capabilities through reinforcement signals. Key to our imitation framework is
an LLM-based discriminator that adeptly distinguishes between student and
teacher outputs, complemented by guidance from multiple large teacher VLMs to
ensure diverse learning. This unified learning strategy, leveraging both
reinforcement and imitation, empowers student models to achieve significant
performance gains, making them competitive with leading closed-source VLMs.
Extensive experiments on diverse vision-language benchmarks demonstrate that
RIL significantly narrows the performance gap with state-of-the-art open- and
closed-source VLMs and, in several instances, surpasses them.