ChatPaper.aiChatPaper

Маскирование учителя и усиление ученика для дистилляции моделей "визуальный язык"

Masking Teacher and Reinforcing Student for Distilling Vision-Language Models

December 23, 2025
Авторы: Byung-Kwan Lee, Yu-Chiang Frank Wang, Ryo Hachiuma
cs.AI

Аннотация

Крупномасштабные визуально-языковые модели (VLM) в последнее время демонстрируют выдающиеся результаты в области мультимодального понимания, однако их огромный размер делает их непрактичными для развертывания на мобильных или периферийных устройствах. Это создает потребность в компактных, но эффективных VLM, способных результативно обучаться у мощных крупных моделей-учителей. Однако дистилляция знаний от крупного учителя к малому ученику остается сложной задачей из-за значительного разрыва в их размерах: ученик часто не может воспроизвести сложные, высокоразмерные представления учителя, что приводит к нестабильному обучению и ухудшению производительности. Для решения этой проблемы мы предлагаем Masters (Masking Teacher and Reinforcing Student) — фреймворк дистилляции на основе маскирующего прогрессивного обучения с подкреплением (RL). Masters сначала маскирует недоминирующие веса учителя, чтобы снизить избыточную сложность, а затем постепенно восстанавливает учителя, поэтапно увеличивая его емкость в процессе обучения. Эта стратегия позволяет ученику плавно и стабильно усваивать более богатые представления от учителя. Для дальнейшего улучшения передачи знаний Masters интегрирует этап оффлайн-обучения с подкреплением с двумя взаимодополняющими вознаграждениями: вознаграждением за точность, которое измеряет правильность генерируемых ответов, и вознаграждением за дистилляцию, которое количественно оценивает легкость передачи ответов от учителя к ученику. В отличие от ресурсоемких онлайн-парадигм RL типа "подумай-ответь", генерирующих пространные ответы, наш оффлайн-подход использует предварительно сгенерированные ответы от замаскированных учителей. Они обеспечивают богатое, но эффективное руководство, позволяя ученикам достигать высокой производительности без необходимости процесса "подумай-ответь".
English
Large-scale vision-language models (VLMs) have recently achieved remarkable multimodal understanding, but their massive size makes them impractical for deployment on mobile or edge devices. This raises the need for compact yet capable VLMs that can efficiently learn from powerful large teachers. However, distilling knowledge from a large teacher to a small student remains challenging due to their large size gap: the student often fails to reproduce the teacher's complex, high-dimensional representations, leading to unstable learning and degraded performance. To address this, we propose Masters (Masking Teacher and Reinforcing Student), a mask-progressive reinforcement learning (RL) distillation framework. Masters first masks non-dominant weights of the teacher to reduce unnecessary complexity, then progressively restores the teacher by gradually increasing its capacity during training. This strategy allows the student to learn richer representations from the teacher in a smooth and stable manner. To further refine knowledge transfer, Masters integrates an offline RL stage with two complementary rewards: an accuracy reward that measures the correctness of the generated responses, and a distillation reward that quantifies the ease of transferring responses from teacher to student. Unlike online think-answer RL paradigms that are computationally expensive and generate lengthy responses, our offline RL leverages pre-generated responses from masked teachers. These provide rich yet efficient guidance, enabling students to achieve strong performance without requiring the think-answer process.
PDF273February 8, 2026