ChatPaper.aiChatPaper

Как обучать крупные мультимодальные модели новым навыкам

How to Teach Large Multimodal Models New Skills

October 9, 2025
Авторы: Zhen Zhu, Yiming Gong, Yao Xiao, Yaoyao Liu, Derek Hoiem
cs.AI

Аннотация

Как можно обучать крупные мультимодальные модели (LMM) новым навыкам, не стирая при этом ранее приобретённые способности? Мы исследуем последовательное тонкое настраивание на пяти целевых навыках, одновременно отслеживая общие способности на восьми независимых тестовых наборах данных для трёх семейств моделей. Мы наблюдаем, что кажущееся "забывание" на независимых задачах после узкого тонкого настраивания может частично восстанавливаться на более поздних этапах. Мы связываем это поведение с измеримым сдвигом в распределении выходных токенов, который проявляется через простой зонд, основанный на подсчёте смещений и коррелирующий с забыванием. Руководствуясь этой картиной, мы определяем два простых и устойчивых рецепта настройки, которые обеспечивают сильное обучение при ограниченном дрейфе: (i) обновление только слоёв проекции self-attention и (ii) обновление только слоёв MLP Gate&Up при замороженной проекции Down. Для различных моделей и задач эти подходы обеспечивают значительные улучшения на целевых задачах, при этом в значительной степени сохраняя производительность на независимых тестах. Код доступен по адресу https://github.com/jessemelpolio/LMM_CL.
English
How can we teach large multimodal models (LMMs) new skills without erasing prior abilities? We study sequential fine-tuning on five target skills while monitoring general ability on eight held-out benchmarks across three model families. We observe that apparent "forgetting" on held-out tasks after narrow fine-tuning can partly recover at later stages. We trace this behavior to a measurable shift in the output token distribution, manifested through a simple counting-bias probe that co-varies with forgetting. Guided by this picture, we identify two simple, robust tuning recipes that learn strongly while limiting drift: (i) updating only the self-attention projection layers, and (ii) updating only the MLP Gate&Up while freezing the Down projection. Across models and tasks, these choices deliver strong target gains while largely preserving held-out performance. Code is available at https://github.com/jessemelpolio/LMM_CL
PDF22October 13, 2025