Zum Dilemma des Tokens: Dynamisches MoE mit driftbewusster Token-Zuweisung für kontinuierliches Lernen großer visuell-sprachlicher Modelle
On Token's Dilemma: Dynamic MoE with Drift-Aware Token Assignment for Continual Learning of Large Vision Language Models
March 29, 2026
Autoren: Chongyang Zhao, Mingsong Li, Haodong Lu, Dong Gong
cs.AI
Zusammenfassung
Multimodales kontinuierliches Instruction Tuning zielt darauf ab, große visuell-sprachliche Modelle (LVLMs) durch Lernen aus neuen Daten kontinuierlich zu verbessern, ohne zuvor erworbenes Wissen zu vergessen. Mixture-of-Experts (MoE)-Architekturen begünstigen dies auf natürliche Weise, indem sie neue Experten hinzufügen und Router erweitern, während bestehende Komponenten eingefroren werden. Trotz der Expertenisolation leiden jedoch auch MoE-basierte kontinuierliche Lernverfahren unter Vergessen aufgrund von Routing-Drift: Tokens früherer Aufgaben werden fälschlicherweise zu neu hinzugefügten Experten hingezogen, was die Leistung auf vorherigen Aufgaben verschlechtert. Wir analysieren den Fehlermodus auf Token-Ebene und enthüllen das Token-Dilemma: Mehrdeutige und alte Tokens in neuen Aufgabendaten bieten nur minimalen Lerneffekt, verursachen jedoch Vergessen, wenn sie neuen Experten zugewiesen werden, und zwar aufgrund ihrer mehrdeutigen Routing-Zuordnung während des Trainings. Darauf aufbauend schlagen wir LLaVA-DyMoE vor, ein dynamisches MoE-Framework, das die MoE-Architektur mit driftbewusster Token-Zuordnung inkrementell erweitert. Wir charakterisieren Tokentypen anhand ihrer Routing-Score-Verteilungen und wenden gezielte Regularisierung an. Konkret lenkt eine Token-Level-Zuordnungssteuerung mehrdeutige und alte Tokens von neuen Experten weg, um etablierte Routing-Muster zu bewahren und Routing-Drift zu mildern, während komplementäre Routing-Score-Regularisierungen die Trennung von Expertengruppen erzwingen und die Spezialisierung neuer Experten fördern. Umfangreiche Experimente zeigen, dass unser LLaVA-DyMoE routing-drift-induziertes Vergessen wirksam mindert und im Vergleich zu Baseline-Methoden einen Gewinn von über 7 % in der mittleren Endgenauigkeit sowie eine 12 %-ige Reduktion des Vergessens erreicht. Die Projektseite ist https://zhaoc5.github.io/DyMoE.
English
Multimodal Continual Instruction Tuning aims to continually enhance Large Vision Language Models (LVLMs) by learning from new data without forgetting previously acquired knowledge. Mixture of Experts (MoE) architectures naturally facilitate this by incrementally adding new experts and expanding routers while keeping the existing ones frozen. However, despite expert isolation, MoE-based continual learners still suffer from forgetting due to routing-drift: old-task tokens become mistakenly attracted to newly added experts, degrading performance on prior tasks. We analyze the failure mode at the token level and reveal the token's dilemma: ambiguous and old tokens in new-task data offer minimal learning benefit yet induce forgetting when routed to new experts, due to their ambiguous routing assignment during training. Motivated by this, we propose LLaVA-DyMoE, a dynamic MoE framework that incrementally expands the MoE with drift-aware token assignment. We characterize token types via their routing score distributions and apply targeted regularization. Specifically, a token-level assignment guidance steers ambiguous and old tokens away from new experts to preserve established routing patterns and alleviate routing-drift, while complementary routing score regularizations enforce expert-group separation and promote new-expert specialization. Extensive experiments demonstrate that our LLaVA-DyMoE effectively mitigates routing-drift-induced forgetting, achieving over a 7% gain in mean final accuracy and a 12% reduction in forgetting compared to baselines. The project page is https://zhaoc5.github.io/DyMoE.