ChatPaper.aiChatPaper

Aprendizaje Unificado de Refuerzo e Imitación para Modelos de Visión y Lenguaje

Unified Reinforcement and Imitation Learning for Vision-Language Models

October 22, 2025
Autores: Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu
cs.AI

Resumen

Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) han logrado avances notables, aunque su gran escala a menudo los hace poco prácticos para entornos con recursos limitados. Este artículo presenta el Aprendizaje Unificado de Refuerzo e Imitación (RIL, por sus siglas en inglés), un algoritmo de entrenamiento novedoso y eficiente diseñado para crear VLMs potentes y livianos. RIL combina de manera distintiva las fortalezas del aprendizaje por refuerzo con el aprendizaje de imitación adversarial. Esto permite que los VLMs estudiantes más pequeños no solo imiten la generación sofisticada de texto de los grandes modelos maestros, sino que también mejoren sistemáticamente sus capacidades generativas mediante señales de refuerzo. Un elemento clave de nuestro marco de imitación es un discriminador basado en LLM que distingue hábilmente entre las salidas del estudiante y del maestro, complementado con la guía de múltiples VLMs maestros grandes para garantizar un aprendizaje diverso. Esta estrategia de aprendizaje unificada, que aprovecha tanto el refuerzo como la imitación, permite que los modelos estudiantes logren mejoras significativas en su rendimiento, haciéndolos competitivos con los VLMs líderes de código cerrado. Experimentos exhaustivos en diversos puntos de referencia de visión-lenguaje demuestran que RIL reduce considerablemente la brecha de rendimiento con los VLMs de última generación, tanto de código abierto como cerrado, y, en varios casos, los supera.
English
Vision-Language Models (VLMs) have achieved remarkable progress, yet their large scale often renders them impractical for resource-constrained environments. This paper introduces Unified Reinforcement and Imitation Learning (RIL), a novel and efficient training algorithm designed to create powerful, lightweight VLMs. RIL distinctively combines the strengths of reinforcement learning with adversarial imitation learning. This enables smaller student VLMs not only to mimic the sophisticated text generation of large teacher models but also to systematically improve their generative capabilities through reinforcement signals. Key to our imitation framework is an LLM-based discriminator that adeptly distinguishes between student and teacher outputs, complemented by guidance from multiple large teacher VLMs to ensure diverse learning. This unified learning strategy, leveraging both reinforcement and imitation, empowers student models to achieve significant performance gains, making them competitive with leading closed-source VLMs. Extensive experiments on diverse vision-language benchmarks demonstrate that RIL significantly narrows the performance gap with state-of-the-art open- and closed-source VLMs and, in several instances, surpasses them.
PDF131October 23, 2025