Mascarando o Professor e Reforçando o Estudante para Destilar Modelos de Visão e Linguagem
Masking Teacher and Reinforcing Student for Distilling Vision-Language Models
December 23, 2025
Autores: Byung-Kwan Lee, Yu-Chiang Frank Wang, Ryo Hachiuma
cs.AI
Resumo
Os modelos de visão e linguagem (VLMs) em larga escala têm alcançado recentemente avanços notáveis na compreensão multimodal, mas seu tamanho massivo os torna impraticáveis para implantação em dispositivos móveis ou de borda. Isso levanta a necessidade de VLMs compactos, porém capazes, que possam aprender eficientemente de grandes professores. No entanto, a destilação de conhecimento de um professor grande para um estudante pequeno permanece desafiadora devido à grande diferença de tamanho: o estudante frequentemente falha em reproduzir as representações complexas e de alta dimensão do professor, levando a um aprendizado instável e a desempenho degradado. Para resolver isso, propomos o Masters (Mascaramento do Professor e Reforço do Estudante), uma estrutura de destilação por reforço progressivo com mascaramento. O Masters primeiro mascara os pesos não dominantes do professor para reduzir a complexidade desnecessária e, em seguida, restaura progressivamente o professor aumentando gradualmente sua capacidade durante o treinamento. Essa estratégia permite que o estudante aprenda representações mais ricas do professor de forma suave e estável. Para refinar ainda mais a transferência de conhecimento, o Masters integra um estágio de RL offline com duas recompensas complementares: uma recompensa de precisão, que mede a correção das respostas geradas, e uma recompensa de destilação, que quantifica a facilidade de transferir respostas do professor para o estudante. Diferente dos paradigmas de RL online de "pensar-responder", que são computacionalmente caros e geram respostas longas, nosso RL offline aproveita respostas pré-geradas por professores mascarados. Estas fornecem orientação rica e eficiente, permitindo que os estudantes alcancem um desempenho forte sem exigir o processo de pensar-responder.
English
Large-scale vision-language models (VLMs) have recently achieved remarkable multimodal understanding, but their massive size makes them impractical for deployment on mobile or edge devices. This raises the need for compact yet capable VLMs that can efficiently learn from powerful large teachers. However, distilling knowledge from a large teacher to a small student remains challenging due to their large size gap: the student often fails to reproduce the teacher's complex, high-dimensional representations, leading to unstable learning and degraded performance. To address this, we propose Masters (Masking Teacher and Reinforcing Student), a mask-progressive reinforcement learning (RL) distillation framework. Masters first masks non-dominant weights of the teacher to reduce unnecessary complexity, then progressively restores the teacher by gradually increasing its capacity during training. This strategy allows the student to learn richer representations from the teacher in a smooth and stable manner. To further refine knowledge transfer, Masters integrates an offline RL stage with two complementary rewards: an accuracy reward that measures the correctness of the generated responses, and a distillation reward that quantifies the ease of transferring responses from teacher to student. Unlike online think-answer RL paradigms that are computationally expensive and generate lengthy responses, our offline RL leverages pre-generated responses from masked teachers. These provide rich yet efficient guidance, enabling students to achieve strong performance without requiring the think-answer process.