Ocultamiento del Maestro y Reforzamiento del Estudiante para la Destilación de Modelos de Visión y Lenguaje
Masking Teacher and Reinforcing Student for Distilling Vision-Language Models
December 23, 2025
Autores: Byung-Kwan Lee, Yu-Chiang Frank Wang, Ryo Hachiuma
cs.AI
Resumen
Los modelos de visión y lenguaje (VLM) a gran escala han logrado recientemente una notable comprensión multimodal, pero su enorme tamaño los hace poco prácticos para su implementación en dispositivos móviles o periféricos. Esto plantea la necesidad de VLM compactos pero capaces que puedan aprender eficientemente de maestros grandes y potentes. Sin embargo, la destilación de conocimiento de un maestro grande a un estudiante pequeño sigue siendo un desafío debido a su gran brecha de tamaño: el estudiante a menudo no logra reproducir las representaciones complejas y de alta dimensión del maestro, lo que conduce a un aprendizaje inestable y a un rendimiento degradado. Para abordar esto, proponemos Masters (Enmascaramiento del Maestro y Refuerzo del Estudiante), un marco de destilación por aprendizaje por refuerzo (RL) con enmascaramiento progresivo. Masters primero enmascara los pesos no dominantes del maestro para reducir la complejidad innecesaria, y luego restaura progresivamente al maestro aumentando gradualmente su capacidad durante el entrenamiento. Esta estrategia permite al estudiante aprender representaciones más ricas del maestro de manera suave y estable. Para refinar aún más la transferencia de conocimiento, Masters integra una etapa de RL fuera de línea con dos recompensas complementarias: una recompensa de precisión que mide la corrección de las respuestas generadas, y una recompensa de destilación que cuantifica la facilidad de transferir respuestas del maestro al estudiante. A diferencia de los paradigmas de RL de pensar-contestar en línea, que son computacionalmente costosos y generan respuestas extensas, nuestro RL fuera de línea aprovecha respuestas pregeneradas por maestros enmascarados. Estas proporcionan una guía rica y eficiente, permitiendo a los estudiantes alcanzar un rendimiento sólido sin requerir el proceso de pensar-contestar.
English
Large-scale vision-language models (VLMs) have recently achieved remarkable multimodal understanding, but their massive size makes them impractical for deployment on mobile or edge devices. This raises the need for compact yet capable VLMs that can efficiently learn from powerful large teachers. However, distilling knowledge from a large teacher to a small student remains challenging due to their large size gap: the student often fails to reproduce the teacher's complex, high-dimensional representations, leading to unstable learning and degraded performance. To address this, we propose Masters (Masking Teacher and Reinforcing Student), a mask-progressive reinforcement learning (RL) distillation framework. Masters first masks non-dominant weights of the teacher to reduce unnecessary complexity, then progressively restores the teacher by gradually increasing its capacity during training. This strategy allows the student to learn richer representations from the teacher in a smooth and stable manner. To further refine knowledge transfer, Masters integrates an offline RL stage with two complementary rewards: an accuracy reward that measures the correctness of the generated responses, and a distillation reward that quantifies the ease of transferring responses from teacher to student. Unlike online think-answer RL paradigms that are computationally expensive and generate lengthy responses, our offline RL leverages pre-generated responses from masked teachers. These provide rich yet efficient guidance, enabling students to achieve strong performance without requiring the think-answer process.