ChatPaper.aiChatPaper

Aprendizado Unificado de Reforço e Imitação para Modelos de Visão e Linguagem

Unified Reinforcement and Imitation Learning for Vision-Language Models

October 22, 2025
Autores: Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu
cs.AI

Resumo

Modelos Visão-Linguagem (VLMs) têm alcançado progressos notáveis, mas sua grande escala frequentemente os torna impraticáveis para ambientes com recursos limitados. Este artigo introduz o Aprendizado Unificado de Reforço e Imitação (RIL), um algoritmo de treinamento novo e eficiente projetado para criar VLMs poderosos e leves. O RIL combina de forma distinta os pontos fortes do aprendizado por reforço com o aprendizado de imitação adversarial. Isso permite que VLMs menores, os chamados modelos "estudantes", não apenas imitem a geração sofisticada de texto de grandes modelos "professores", mas também melhorem sistematicamente suas capacidades gerativas por meio de sinais de reforço. Um elemento-chave de nosso framework de imitação é um discriminador baseado em LLM que distingue habilmente as saídas dos modelos estudante e professor, complementado pela orientação de múltiplos VLMs professores grandes para garantir um aprendizado diversificado. Essa estratégia de aprendizado unificada, que aproveita tanto o reforço quanto a imitação, capacita os modelos estudantes a alcançarem ganhos significativos de desempenho, tornando-os competitivos com os principais VLMs de código fechado. Experimentos extensos em diversos benchmarks de visão-linguagem demonstram que o RIL reduz significativamente a lacuna de desempenho em relação aos VLMs de código aberto e fechado mais avançados e, em vários casos, os supera.
English
Vision-Language Models (VLMs) have achieved remarkable progress, yet their large scale often renders them impractical for resource-constrained environments. This paper introduces Unified Reinforcement and Imitation Learning (RIL), a novel and efficient training algorithm designed to create powerful, lightweight VLMs. RIL distinctively combines the strengths of reinforcement learning with adversarial imitation learning. This enables smaller student VLMs not only to mimic the sophisticated text generation of large teacher models but also to systematically improve their generative capabilities through reinforcement signals. Key to our imitation framework is an LLM-based discriminator that adeptly distinguishes between student and teacher outputs, complemented by guidance from multiple large teacher VLMs to ensure diverse learning. This unified learning strategy, leveraging both reinforcement and imitation, empowers student models to achieve significant performance gains, making them competitive with leading closed-source VLMs. Extensive experiments on diverse vision-language benchmarks demonstrate that RIL significantly narrows the performance gap with state-of-the-art open- and closed-source VLMs and, in several instances, surpasses them.
PDF131October 23, 2025