Comment enseigner de nouvelles compétences aux grands modèles multimodaux
How to Teach Large Multimodal Models New Skills
October 9, 2025
papers.authors: Zhen Zhu, Yiming Gong, Yao Xiao, Yaoyao Liu, Derek Hoiem
cs.AI
papers.abstract
Comment pouvons-nous enseigner de nouvelles compétences aux grands modèles multimodaux (LMMs) sans effacer leurs capacités antérieures ? Nous étudions le fine-tuning séquentiel sur cinq compétences cibles tout en surveillant les capacités générales sur huit benchmarks de référence à travers trois familles de modèles. Nous observons que l'« oubli » apparent sur les tâches de référence après un fine-tuning ciblé peut partiellement se résorber à des étapes ultérieures. Nous retraçons ce comportement à un changement mesurable dans la distribution des tokens de sortie, manifesté à travers une sonde simple de biais de comptage qui co-varie avec l'oubli. Guidés par cette observation, nous identifions deux recettes de réglage simples et robustes qui apprennent efficacement tout en limitant la dérive : (i) mettre à jour uniquement les couches de projection de l'auto-attention, et (ii) mettre à jour uniquement les portes et projections ascendantes (MLP Gate&Up) tout en gelant les projections descendantes (Down). À travers les modèles et les tâches, ces choix offrent des gains cibles significatifs tout en préservant largement les performances sur les benchmarks de référence. Le code est disponible à l'adresse suivante : https://github.com/jessemelpolio/LMM_CL.
English
How can we teach large multimodal models (LMMs) new skills without erasing
prior abilities? We study sequential fine-tuning on five target skills while
monitoring general ability on eight held-out benchmarks across three model
families. We observe that apparent "forgetting" on held-out tasks after narrow
fine-tuning can partly recover at later stages. We trace this behavior to a
measurable shift in the output token distribution, manifested through a simple
counting-bias probe that co-varies with forgetting. Guided by this picture, we
identify two simple, robust tuning recipes that learn strongly while limiting
drift: (i) updating only the self-attention projection layers, and (ii)
updating only the MLP Gate&Up while freezing the Down projection. Across models
and tasks, these choices deliver strong target gains while largely preserving
held-out performance. Code is available at
https://github.com/jessemelpolio/LMM_CL