Hoe grote multimodale modellen nieuwe vaardigheden aan te leren
How to Teach Large Multimodal Models New Skills
October 9, 2025
Auteurs: Zhen Zhu, Yiming Gong, Yao Xiao, Yaoyao Liu, Derek Hoiem
cs.AI
Samenvatting
Hoe kunnen we grote multimodale modellen (LMMs) nieuwe vaardigheden aanleren zonder eerdere capaciteiten te wissen? We bestuderen sequentiële fine-tuning op vijf doelvaardigheden terwijl we de algemene prestaties monitoren op acht achtergehouden benchmarks in drie modelfamilies. We observeren dat schijnbaar "vergeten" op achtergehouden taken na nauwe fine-tuning gedeeltelijk kan herstellen in latere fasen. We leiden dit gedrag terug naar een meetbare verschuiving in de uitvoertokenverdeling, die zich manifesteert via een eenvoudige telbias-test die samenhangt met vergeten. Geleid door dit inzicht identificeren we twee eenvoudige, robuuste fine-tuningmethoden die sterk leren terwijl verschuiving wordt beperkt: (i) alleen de self-attention-projectielagen updaten, en (ii) alleen de MLP Gate&Up updaten terwijl de Down-projectie wordt bevroren. Over modellen en taken heen leveren deze keuzes sterke doelwinsten op terwijl de prestaties op achtergehouden taken grotendeels behouden blijven. Code is beschikbaar op https://github.com/jessemelpolio/LMM_CL.
English
How can we teach large multimodal models (LMMs) new skills without erasing
prior abilities? We study sequential fine-tuning on five target skills while
monitoring general ability on eight held-out benchmarks across three model
families. We observe that apparent "forgetting" on held-out tasks after narrow
fine-tuning can partly recover at later stages. We trace this behavior to a
measurable shift in the output token distribution, manifested through a simple
counting-bias probe that co-varies with forgetting. Guided by this picture, we
identify two simple, robust tuning recipes that learn strongly while limiting
drift: (i) updating only the self-attention projection layers, and (ii)
updating only the MLP Gate&Up while freezing the Down projection. Across models
and tasks, these choices deliver strong target gains while largely preserving
held-out performance. Code is available at
https://github.com/jessemelpolio/LMM_CL