Over het dilemma van tokens: Dynamisch MoE met driftbewuste token-toewijzing voor continu leren van grote visie-taalmodellen
On Token's Dilemma: Dynamic MoE with Drift-Aware Token Assignment for Continual Learning of Large Vision Language Models
March 29, 2026
Auteurs: Chongyang Zhao, Mingsong Li, Haodong Lu, Dong Gong
cs.AI
Samenvatting
Multimodal Continual Instruction Tuning heeft als doel Large Vision Language Models (LVLMs) voortdurend te verbeteren door te leren van nieuwe gegevens zonder eerder verworven kennis te vergeten. Mixture of Experts (MoE)-architecturen faciliteren dit van nature door incrementeel nieuwe experts toe te voegen en routers uit te breiden, terwijl de bestaande bevroren blijven. Ondanks de isolatie van experts lijden op MoE gebaseerde continuële leersystemen echter nog steeds aan vergeten als gevolg van routing-drift: tokens van oude taken worden ten onrechte aangetrokken tot nieuw toegevoegde experts, wat de prestaties op eerdere taken aantast. Wij analyseren de faalwijze op tokenniveau en onthullen het dilemma van de token: dubbelzinnige en oude tokens in nieuwe-taakgegevens bieden minimaal leervoordeel, maar induceren vergeten wanneer ze naar nieuwe experts worden gerouteerd, vanwege hun dubbelzinnige routeringstoewijzing tijdens de training. Gemotiveerd door dit inzicht stellen wij LLaVA-DyMoE voor, een dynamisch MoE-raamwerk dat de MoE incrementeel uitbreidt met drift-aware token-toewijzing. Wij karakteriseren tokentypes via hun routeringsscoreverdelingen en passen gerichte regularisatie toe. Specifiek stuurt een token-level toewijzingsrichtlijn dubbelzinnige en oude tokens weg van nieuwe experts om gevestigde routeringspatronen te behouden en routing-drift te verlichten, terwijl complementaire routeringsscoreregelisaties scheiding tussen expertgroepen afdwingen en specialisatie van nieuwe experts bevorderen. Uitgebreide experimenten tonen aan dat onze LLaVA-DyMoE effectief door routing-drift geïnduceerd vergeten vermindert, met een winst van meer dan 7% in gemiddelde eindnauwkeurigheid en een vermindering van 12% in vergeten vergeleken met de basislijnen. De projectpagina is https://zhaoc5.github.io/DyMoE.
English
Multimodal Continual Instruction Tuning aims to continually enhance Large Vision Language Models (LVLMs) by learning from new data without forgetting previously acquired knowledge. Mixture of Experts (MoE) architectures naturally facilitate this by incrementally adding new experts and expanding routers while keeping the existing ones frozen. However, despite expert isolation, MoE-based continual learners still suffer from forgetting due to routing-drift: old-task tokens become mistakenly attracted to newly added experts, degrading performance on prior tasks. We analyze the failure mode at the token level and reveal the token's dilemma: ambiguous and old tokens in new-task data offer minimal learning benefit yet induce forgetting when routed to new experts, due to their ambiguous routing assignment during training. Motivated by this, we propose LLaVA-DyMoE, a dynamic MoE framework that incrementally expands the MoE with drift-aware token assignment. We characterize token types via their routing score distributions and apply targeted regularization. Specifically, a token-level assignment guidance steers ambiguous and old tokens away from new experts to preserve established routing patterns and alleviate routing-drift, while complementary routing score regularizations enforce expert-group separation and promote new-expert specialization. Extensive experiments demonstrate that our LLaVA-DyMoE effectively mitigates routing-drift-induced forgetting, achieving over a 7% gain in mean final accuracy and a 12% reduction in forgetting compared to baselines. The project page is https://zhaoc5.github.io/DyMoE.