ChatPaper.aiChatPaper

대규모 멀티모달 모델에 새로운 기술을 가르치는 방법

How to Teach Large Multimodal Models New Skills

October 9, 2025
저자: Zhen Zhu, Yiming Gong, Yao Xiao, Yaoyao Liu, Derek Hoiem
cs.AI

초록

기존 능력을 잃지 않으면서 대규모 다중모달 모델(LMMs)에 새로운 기술을 어떻게 가르칠 수 있을까? 우리는 세 가지 모델 패밀리에서 8개의 보류된 벤치마크에 대한 일반적인 능력을 모니터링하며, 5가지 목표 기술에 대한 순차적 미세조정을 연구했다. 좁은 범위의 미세조정 후 보류된 작업에서 나타나는 "망각" 현상이 후기 단계에서 부분적으로 회복될 수 있음을 관찰했다. 우리는 이러한 행동을 출력 토큰 분포의 측정 가능한 변화로 추적했으며, 이는 망각과 공변하는 간단한 카운팅 편향 프로브를 통해 나타났다. 이 그림을 바탕으로, 우리는 드리프트를 제한하면서 강력하게 학습할 수 있는 두 가지 간단하고 견고한 튜닝 레시피를 식별했다: (i) 셀프-어텐션 투영 레이어만 업데이트하는 것, 그리고 (ii) MLP Gate&Up만 업데이트하고 Down 투영을 고정하는 것. 모델과 작업 전반에 걸쳐, 이러한 선택은 강력한 목표 성과를 제공하면서도 보류된 성능을 크게 보존한다. 코드는 https://github.com/jessemelpolio/LMM_CL에서 확인할 수 있다.
English
How can we teach large multimodal models (LMMs) new skills without erasing prior abilities? We study sequential fine-tuning on five target skills while monitoring general ability on eight held-out benchmarks across three model families. We observe that apparent "forgetting" on held-out tasks after narrow fine-tuning can partly recover at later stages. We trace this behavior to a measurable shift in the output token distribution, manifested through a simple counting-bias probe that co-varies with forgetting. Guided by this picture, we identify two simple, robust tuning recipes that learn strongly while limiting drift: (i) updating only the self-attention projection layers, and (ii) updating only the MLP Gate&Up while freezing the Down projection. Across models and tasks, these choices deliver strong target gains while largely preserving held-out performance. Code is available at https://github.com/jessemelpolio/LMM_CL
PDF22October 13, 2025