ChatPaper.aiChatPaper

Como Ensinar Novas Habilidades a Modelos Multimodais de Grande Escala

How to Teach Large Multimodal Models New Skills

October 9, 2025
Autores: Zhen Zhu, Yiming Gong, Yao Xiao, Yaoyao Liu, Derek Hoiem
cs.AI

Resumo

Como podemos ensinar novas habilidades a grandes modelos multimodais (LMMs) sem apagar habilidades anteriores? Estudamos o ajuste sequencial em cinco habilidades específicas enquanto monitoramos a capacidade geral em oito benchmarks de teste em três famílias de modelos. Observamos que o aparente "esquecimento" em tarefas de teste após o ajuste fino específico pode se recuperar parcialmente em estágios posteriores. Rastreamos esse comportamento a uma mudança mensurável na distribuição de tokens de saída, manifestada por meio de uma sonda simples de viés de contagem que co-varia com o esquecimento. Guiados por essa análise, identificamos duas receitas simples e robustas de ajuste que aprendem fortemente enquanto limitam a deriva: (i) atualizar apenas as camadas de projeção de auto-atenção, e (ii) atualizar apenas o Gate&Up da MLP enquanto congela a projeção Down. Em modelos e tarefas, essas escolhas proporcionam ganhos significativos no alvo enquanto preservam amplamente o desempenho nos testes. O código está disponível em https://github.com/jessemelpolio/LMM_CL.
English
How can we teach large multimodal models (LMMs) new skills without erasing prior abilities? We study sequential fine-tuning on five target skills while monitoring general ability on eight held-out benchmarks across three model families. We observe that apparent "forgetting" on held-out tasks after narrow fine-tuning can partly recover at later stages. We trace this behavior to a measurable shift in the output token distribution, manifested through a simple counting-bias probe that co-varies with forgetting. Guided by this picture, we identify two simple, robust tuning recipes that learn strongly while limiting drift: (i) updating only the self-attention projection layers, and (ii) updating only the MLP Gate&Up while freezing the Down projection. Across models and tasks, these choices deliver strong target gains while largely preserving held-out performance. Code is available at https://github.com/jessemelpolio/LMM_CL
PDF22October 13, 2025