ChatPaper.aiChatPaper

비전-언어 모델을 위한 통합 강화 학습 및 모방 학습

Unified Reinforcement and Imitation Learning for Vision-Language Models

October 22, 2025
저자: Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu
cs.AI

초록

비전-언어 모델(VLMs)은 놀라운 발전을 이루었지만, 그 규모가 크기 때문에 자원이 제한된 환경에서는 실용적이지 못한 경우가 많습니다. 본 논문은 강력하면서도 경량화된 VLMs를 생성하기 위해 설계된 새로운 효율적인 학습 알고리즘인 통합 강화 및 모방 학습(RIL)을 소개합니다. RIL은 강화 학습과 적대적 모방 학습의 장점을 독창적으로 결합합니다. 이를 통해 더 작은 학생 VLMs는 대형 교사 모델의 정교한 텍스트 생성을 모방할 뿐만 아니라 강화 신호를 통해 생성 능력을 체계적으로 개선할 수 있습니다. 우리의 모방 프레임워크의 핵심은 학생과 교사의 출력을 능숙하게 구별하는 LLM 기반 판별자와 다양한 학습을 보장하기 위한 여러 대형 교사 VLMs의 지침으로 구성됩니다. 이 통합 학습 전략은 강화와 모방을 모두 활용하여 학생 모델이 주요 클로즈드 소스 VLMs와 경쟁할 수 있는 상당한 성능 향상을 달성할 수 있게 합니다. 다양한 비전-언어 벤치마크에서의 광범위한 실험을 통해 RIL이 최신 오픈 소스 및 클로즈드 소스 VLMs와의 성능 격차를 크게 좁히고, 여러 경우 이를 능가함을 입증했습니다.
English
Vision-Language Models (VLMs) have achieved remarkable progress, yet their large scale often renders them impractical for resource-constrained environments. This paper introduces Unified Reinforcement and Imitation Learning (RIL), a novel and efficient training algorithm designed to create powerful, lightweight VLMs. RIL distinctively combines the strengths of reinforcement learning with adversarial imitation learning. This enables smaller student VLMs not only to mimic the sophisticated text generation of large teacher models but also to systematically improve their generative capabilities through reinforcement signals. Key to our imitation framework is an LLM-based discriminator that adeptly distinguishes between student and teacher outputs, complemented by guidance from multiple large teacher VLMs to ensure diverse learning. This unified learning strategy, leveraging both reinforcement and imitation, empowers student models to achieve significant performance gains, making them competitive with leading closed-source VLMs. Extensive experiments on diverse vision-language benchmarks demonstrate that RIL significantly narrows the performance gap with state-of-the-art open- and closed-source VLMs and, in several instances, surpasses them.
PDF131October 23, 2025