О дилемме токенов: динамическая смешанная модель экспертов с учетом дрейфа при распределении токенов для непрерывного обучения больших мультимодальных моделей
On Token's Dilemma: Dynamic MoE with Drift-Aware Token Assignment for Continual Learning of Large Vision Language Models
March 29, 2026
Авторы: Chongyang Zhao, Mingsong Li, Haodong Lu, Dong Gong
cs.AI
Аннотация
Мультимодальная непрерывная настройка по инструкциям (Multimodal Continual Instruction Tuning) направлена на постоянное улучшение больших визуально-языковых моделей (Large Vision Language Models, LVLMs) за счет обучения на новых данных без забывания ранее полученных знаний. Архитектуры смеси экспертов (Mixture of Experts, MoE) естественным образом способствуют этому, постепенно добавляя новых экспертов и расширяя маршрутизаторы, сохраняя при этом существующие компоненты замороженными. Однако, несмотря на изоляцию экспертов, системы непрерывного обучения на основе MoE все же страдают от забывания из-за *дрейфа маршрутизации*: токены старых задач ошибочно привлекаются к новым экспертам, что снижает производительность на предыдущих задачах. Мы анализируем этот режим сбоя на уровне токенов и выявляем *дилемму токена*: неоднозначные и старые токены в данных новой задачи приносят минимальную пользу для обучения, но вызывают забывание, когда направляются к новым экспертам, из-за их неоднозначного назначения при маршрутизации во время обучения. Руководствуясь этим, мы предлагаем LLaVA-DyMoE — динамическую структуру MoE, которая увеличивает смесь экспертов с учетом дрейфа при назначении токенов. Мы классифицируем типы токенов по распределению их оценок маршрутизации и применяем целенаправленную регуляризацию. В частности, *руководство по назначению на уровне токена* направляет неоднозначные и старые токены в сторону от новых экспертов, чтобы сохранить установленные шаблоны маршрутизации и ослабить дрейф, в то время как дополнительные *регуляризации оценок маршрутизации* обеспечивают разделение групп экспертов и способствуют специализации новых экспертов. Многочисленные эксперименты демонстрируют, что наш LLaVA-DyMoE эффективно смягчает забывание, вызванное дрейфом маршрутизации, достигая более чем 7% прироста в средней итоговой точности и 12% снижения забывания по сравнению с базовыми методами. Страница проекта: https://zhaoc5.github.io/DyMoE.
English
Multimodal Continual Instruction Tuning aims to continually enhance Large Vision Language Models (LVLMs) by learning from new data without forgetting previously acquired knowledge. Mixture of Experts (MoE) architectures naturally facilitate this by incrementally adding new experts and expanding routers while keeping the existing ones frozen. However, despite expert isolation, MoE-based continual learners still suffer from forgetting due to routing-drift: old-task tokens become mistakenly attracted to newly added experts, degrading performance on prior tasks. We analyze the failure mode at the token level and reveal the token's dilemma: ambiguous and old tokens in new-task data offer minimal learning benefit yet induce forgetting when routed to new experts, due to their ambiguous routing assignment during training. Motivated by this, we propose LLaVA-DyMoE, a dynamic MoE framework that incrementally expands the MoE with drift-aware token assignment. We characterize token types via their routing score distributions and apply targeted regularization. Specifically, a token-level assignment guidance steers ambiguous and old tokens away from new experts to preserve established routing patterns and alleviate routing-drift, while complementary routing score regularizations enforce expert-group separation and promote new-expert specialization. Extensive experiments demonstrate that our LLaVA-DyMoE effectively mitigates routing-drift-induced forgetting, achieving over a 7% gain in mean final accuracy and a 12% reduction in forgetting compared to baselines. The project page is https://zhaoc5.github.io/DyMoE.