Come Insegnare Nuove Abilità ai Modelli Multimodali di Grandi Dimensioni
How to Teach Large Multimodal Models New Skills
October 9, 2025
Autori: Zhen Zhu, Yiming Gong, Yao Xiao, Yaoyao Liu, Derek Hoiem
cs.AI
Abstract
Come possiamo insegnare nuove abilità ai grandi modelli multimodali (LMM) senza cancellare le capacità precedenti? Studiamo il fine-tuning sequenziale su cinque abilità target mentre monitoriamo le capacità generali su otto benchmark tenuti da parte, attraverso tre famiglie di modelli. Osserviamo che l'apparente "dimenticanza" sui task tenuti da parte dopo un fine-tuning ristretto può parzialmente recuperare nelle fasi successive. Tracciamo questo comportamento a un cambiamento misurabile nella distribuzione dei token di output, manifestato attraverso una semplice sonda di bias di conteggio che co-varia con la dimenticanza. Guidati da questa prospettiva, identifichiamo due semplici e robuste ricette di tuning che apprendono efficacemente limitando la deriva: (i) aggiornare solo i livelli di proiezione del self-attention, e (ii) aggiornare solo il Gate&Up del MLP mentre si congela la proiezione Down. Attraverso modelli e task, queste scelte forniscono forti guadagni target preservando in gran parte le prestazioni sui benchmark tenuti da parte. Il codice è disponibile all'indirizzo https://github.com/jessemelpolio/LMM_CL.
English
How can we teach large multimodal models (LMMs) new skills without erasing
prior abilities? We study sequential fine-tuning on five target skills while
monitoring general ability on eight held-out benchmarks across three model
families. We observe that apparent "forgetting" on held-out tasks after narrow
fine-tuning can partly recover at later stages. We trace this behavior to a
measurable shift in the output token distribution, manifested through a simple
counting-bias probe that co-varies with forgetting. Guided by this picture, we
identify two simple, robust tuning recipes that learn strongly while limiting
drift: (i) updating only the self-attention projection layers, and (ii)
updating only the MLP Gate&Up while freezing the Down projection. Across models
and tasks, these choices deliver strong target gains while largely preserving
held-out performance. Code is available at
https://github.com/jessemelpolio/LMM_CL