Wie man großen multimodalen Modellen neue Fähigkeiten beibringt

papers.abstract

Wie können wir großen multimodalen Modellen (LMMs) neue Fähigkeiten beibringen, ohne ihre bisherigen Kompetenzen zu verlieren? Wir untersuchen sequenzielles Feinabstimmen auf fünf Zielfertigkeiten, während wir die allgemeine Leistungsfähigkeit anhand von acht zurückgehaltenen Benchmarks über drei Modellfamilien hinweg überwachen. Wir beobachten, dass scheinbares „Vergessen“ bei zurückgehaltenen Aufgaben nach engem Feinabstimmen sich in späteren Phasen teilweise wieder erholen kann. Dieses Verhalten führen wir auf eine messbare Verschiebung in der Ausgabe-Token-Verteilung zurück, die sich durch eine einfache Zählungsbias-Sonde zeigt, die mit dem Vergessen korreliert. Angeleitet durch diese Erkenntnis identifizieren wir zwei einfache, robuste Feinabstimmungsmethoden, die starkes Lernen ermöglichen, während sie die Abweichung begrenzen: (i) Aktualisieren nur der Self-Attention-Projektionsschichten und (ii) Aktualisieren nur der MLP-Gate&Up-Schichten bei gleichzeitigem Einfrieren der Down-Projektion. Über Modelle und Aufgaben hinweg liefern diese Ansätze starke Zielverbesserungen, während die Leistung bei zurückgehaltenen Aufgaben weitgehend erhalten bleibt. Der Code ist verfügbar unter https://github.com/jessemelpolio/LMM_CL.

English

How can we teach large multimodal models (LMMs) new skills without erasing prior abilities? We study sequential fine-tuning on five target skills while monitoring general ability on eight held-out benchmarks across three model families. We observe that apparent "forgetting" on held-out tasks after narrow fine-tuning can partly recover at later stages. We trace this behavior to a measurable shift in the output token distribution, manifested through a simple counting-bias probe that co-varies with forgetting. Guided by this picture, we identify two simple, robust tuning recipes that learn strongly while limiting drift: (i) updating only the self-attention projection layers, and (ii) updating only the MLP Gate&Up while freezing the Down projection. Across models and tasks, these choices deliver strong target gains while largely preserving held-out performance. Code is available at https://github.com/jessemelpolio/LMM_CL

Wie man großen multimodalen Modellen neue Fähigkeiten beibringt

How to Teach Large Multimodal Models New Skills

papers.abstract

Support