Унифицированное обучение с подкреплением и имитационное обучение для моделей обработки зрения и языка
Unified Reinforcement and Imitation Learning for Vision-Language Models
October 22, 2025
Авторы: Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu
cs.AI
Аннотация
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), достигли значительных успехов, однако их большой масштаб часто делает их непрактичными для сред с ограниченными ресурсами. В данной статье представлен Unified Reinforcement and Imitation Learning (RIL) — новый и эффективный алгоритм обучения, разработанный для создания мощных и легковесных VLMs. RIL уникальным образом сочетает преимущества обучения с подкреплением и состязательного имитационного обучения. Это позволяет более компактным студенческим VLMs не только имитировать сложное генеративное поведение крупных учительских моделей, но и систематически улучшать свои генеративные способности с помощью сигналов подкрепления. Ключевым элементом нашей имитационной структуры является дискриминатор на основе LLM, который эффективно различает выходы студенческих и учительских моделей, дополненный руководством со стороны нескольких крупных учительских VLMs для обеспечения разнообразия в обучении. Эта унифицированная стратегия обучения, использующая как подкрепление, так и имитацию, позволяет студенческим моделям достигать значительного прироста производительности, делая их конкурентоспособными с ведущими проприетарными VLMs. Многочисленные эксперименты на различных бенчмарках для задач, связанных с зрением и языком, демонстрируют, что RIL существенно сокращает разрыв в производительности с передовыми открытыми и закрытыми VLMs, а в ряде случаев превосходит их.
English
Vision-Language Models (VLMs) have achieved remarkable progress, yet their
large scale often renders them impractical for resource-constrained
environments. This paper introduces Unified Reinforcement and Imitation
Learning (RIL), a novel and efficient training algorithm designed to create
powerful, lightweight VLMs. RIL distinctively combines the strengths of
reinforcement learning with adversarial imitation learning. This enables
smaller student VLMs not only to mimic the sophisticated text generation of
large teacher models but also to systematically improve their generative
capabilities through reinforcement signals. Key to our imitation framework is
an LLM-based discriminator that adeptly distinguishes between student and
teacher outputs, complemented by guidance from multiple large teacher VLMs to
ensure diverse learning. This unified learning strategy, leveraging both
reinforcement and imitation, empowers student models to achieve significant
performance gains, making them competitive with leading closed-source VLMs.
Extensive experiments on diverse vision-language benchmarks demonstrate that
RIL significantly narrows the performance gap with state-of-the-art open- and
closed-source VLMs and, in several instances, surpasses them.