ChatPaper.aiChatPaper

Apprendimento Unificato per Rinforzo e Imitazione nei Modelli Visione-Linguaggio

Unified Reinforcement and Imitation Learning for Vision-Language Models

October 22, 2025
Autori: Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu
cs.AI

Abstract

I modelli visione-linguaggio (VLMs) hanno raggiunto progressi notevoli, ma la loro ampia scala li rende spesso impraticabili in ambienti con risorse limitate. Questo articolo introduce Unified Reinforcement and Imitation Learning (RIL), un algoritmo di addestramento innovativo ed efficiente progettato per creare VLMs potenti e leggeri. RIL combina in modo distintivo i punti di forza dell'apprendimento per rinforzo con l'apprendimento per imitazione avversariale. Ciò consente ai VLMs studente più piccoli non solo di imitare la generazione sofisticata di testo dei grandi modelli insegnante, ma anche di migliorare sistematicamente le loro capacità generative attraverso segnali di rinforzo. Elemento chiave del nostro framework di imitazione è un discriminatore basato su LLM che distingue abilmente tra gli output dello studente e dell'insegnante, integrato dalla guida di più grandi VLMs insegnante per garantire un apprendimento diversificato. Questa strategia di apprendimento unificata, che sfrutta sia il rinforzo che l'imitazione, consente ai modelli studente di ottenere significativi miglioramenti delle prestazioni, rendendoli competitivi con i principali VLMs closed-source. Esperimenti estesi su vari benchmark visione-linguaggio dimostrano che RIL riduce significativamente il divario di prestazioni con i VLMs open- e closed-source all'avanguardia e, in diversi casi, li supera.
English
Vision-Language Models (VLMs) have achieved remarkable progress, yet their large scale often renders them impractical for resource-constrained environments. This paper introduces Unified Reinforcement and Imitation Learning (RIL), a novel and efficient training algorithm designed to create powerful, lightweight VLMs. RIL distinctively combines the strengths of reinforcement learning with adversarial imitation learning. This enables smaller student VLMs not only to mimic the sophisticated text generation of large teacher models but also to systematically improve their generative capabilities through reinforcement signals. Key to our imitation framework is an LLM-based discriminator that adeptly distinguishes between student and teacher outputs, complemented by guidance from multiple large teacher VLMs to ensure diverse learning. This unified learning strategy, leveraging both reinforcement and imitation, empowers student models to achieve significant performance gains, making them competitive with leading closed-source VLMs. Extensive experiments on diverse vision-language benchmarks demonstrate that RIL significantly narrows the performance gap with state-of-the-art open- and closed-source VLMs and, in several instances, surpasses them.
PDF131October 23, 2025