Hoe grote multimodale modellen nieuwe vaardigheden aan te leren

Samenvatting

Hoe kunnen we grote multimodale modellen (LMMs) nieuwe vaardigheden aanleren zonder eerdere capaciteiten te wissen? We bestuderen sequentiële fine-tuning op vijf doelvaardigheden terwijl we de algemene prestaties monitoren op acht achtergehouden benchmarks in drie modelfamilies. We observeren dat schijnbaar "vergeten" op achtergehouden taken na nauwe fine-tuning gedeeltelijk kan herstellen in latere fasen. We leiden dit gedrag terug naar een meetbare verschuiving in de uitvoertokenverdeling, die zich manifesteert via een eenvoudige telbias-test die samenhangt met vergeten. Geleid door dit inzicht identificeren we twee eenvoudige, robuuste fine-tuningmethoden die sterk leren terwijl verschuiving wordt beperkt: (i) alleen de self-attention-projectielagen updaten, en (ii) alleen de MLP Gate&Up updaten terwijl de Down-projectie wordt bevroren. Over modellen en taken heen leveren deze keuzes sterke doelwinsten op terwijl de prestaties op achtergehouden taken grotendeels behouden blijven. Code is beschikbaar op https://github.com/jessemelpolio/LMM_CL.

English

How can we teach large multimodal models (LMMs) new skills without erasing prior abilities? We study sequential fine-tuning on five target skills while monitoring general ability on eight held-out benchmarks across three model families. We observe that apparent "forgetting" on held-out tasks after narrow fine-tuning can partly recover at later stages. We trace this behavior to a measurable shift in the output token distribution, manifested through a simple counting-bias probe that co-varies with forgetting. Guided by this picture, we identify two simple, robust tuning recipes that learn strongly while limiting drift: (i) updating only the self-attention projection layers, and (ii) updating only the MLP Gate&Up while freezing the Down projection. Across models and tasks, these choices deliver strong target gains while largely preserving held-out performance. Code is available at https://github.com/jessemelpolio/LMM_CL

Hoe grote multimodale modellen nieuwe vaardigheden aan te leren

How to Teach Large Multimodal Models New Skills

Samenvatting

Support