Comment enseigner de nouvelles compétences aux grands modèles multimodaux

papers.abstract

Comment pouvons-nous enseigner de nouvelles compétences aux grands modèles multimodaux (LMMs) sans effacer leurs capacités antérieures ? Nous étudions le fine-tuning séquentiel sur cinq compétences cibles tout en surveillant les capacités générales sur huit benchmarks de référence à travers trois familles de modèles. Nous observons que l'« oubli » apparent sur les tâches de référence après un fine-tuning ciblé peut partiellement se résorber à des étapes ultérieures. Nous retraçons ce comportement à un changement mesurable dans la distribution des tokens de sortie, manifesté à travers une sonde simple de biais de comptage qui co-varie avec l'oubli. Guidés par cette observation, nous identifions deux recettes de réglage simples et robustes qui apprennent efficacement tout en limitant la dérive : (i) mettre à jour uniquement les couches de projection de l'auto-attention, et (ii) mettre à jour uniquement les portes et projections ascendantes (MLP Gate&Up) tout en gelant les projections descendantes (Down). À travers les modèles et les tâches, ces choix offrent des gains cibles significatifs tout en préservant largement les performances sur les benchmarks de référence. Le code est disponible à l'adresse suivante : https://github.com/jessemelpolio/LMM_CL.

English

How can we teach large multimodal models (LMMs) new skills without erasing prior abilities? We study sequential fine-tuning on five target skills while monitoring general ability on eight held-out benchmarks across three model families. We observe that apparent "forgetting" on held-out tasks after narrow fine-tuning can partly recover at later stages. We trace this behavior to a measurable shift in the output token distribution, manifested through a simple counting-bias probe that co-varies with forgetting. Guided by this picture, we identify two simple, robust tuning recipes that learn strongly while limiting drift: (i) updating only the self-attention projection layers, and (ii) updating only the MLP Gate&Up while freezing the Down projection. Across models and tasks, these choices deliver strong target gains while largely preserving held-out performance. Code is available at https://github.com/jessemelpolio/LMM_CL

Comment enseigner de nouvelles compétences aux grands modèles multimodaux

How to Teach Large Multimodal Models New Skills

papers.abstract

Support