Come Insegnare Nuove Abilità ai Modelli Multimodali di Grandi Dimensioni

Abstract

Come possiamo insegnare nuove abilità ai grandi modelli multimodali (LMM) senza cancellare le capacità precedenti? Studiamo il fine-tuning sequenziale su cinque abilità target mentre monitoriamo le capacità generali su otto benchmark tenuti da parte, attraverso tre famiglie di modelli. Osserviamo che l'apparente "dimenticanza" sui task tenuti da parte dopo un fine-tuning ristretto può parzialmente recuperare nelle fasi successive. Tracciamo questo comportamento a un cambiamento misurabile nella distribuzione dei token di output, manifestato attraverso una semplice sonda di bias di conteggio che co-varia con la dimenticanza. Guidati da questa prospettiva, identifichiamo due semplici e robuste ricette di tuning che apprendono efficacemente limitando la deriva: (i) aggiornare solo i livelli di proiezione del self-attention, e (ii) aggiornare solo il Gate&Up del MLP mentre si congela la proiezione Down. Attraverso modelli e task, queste scelte forniscono forti guadagni target preservando in gran parte le prestazioni sui benchmark tenuti da parte. Il codice è disponibile all'indirizzo https://github.com/jessemelpolio/LMM_CL.

English

How can we teach large multimodal models (LMMs) new skills without erasing prior abilities? We study sequential fine-tuning on five target skills while monitoring general ability on eight held-out benchmarks across three model families. We observe that apparent "forgetting" on held-out tasks after narrow fine-tuning can partly recover at later stages. We trace this behavior to a measurable shift in the output token distribution, manifested through a simple counting-bias probe that co-varies with forgetting. Guided by this picture, we identify two simple, robust tuning recipes that learn strongly while limiting drift: (i) updating only the self-attention projection layers, and (ii) updating only the MLP Gate&Up while freezing the Down projection. Across models and tasks, these choices deliver strong target gains while largely preserving held-out performance. Code is available at https://github.com/jessemelpolio/LMM_CL

Come Insegnare Nuove Abilità ai Modelli Multimodali di Grandi Dimensioni

How to Teach Large Multimodal Models New Skills

Abstract

Support