Sul Dilemma del Token: MoE Dinamico con Assegnazione di Token Consapevole dello Scostamento per l'Apprendimento Continuo di Grandi Modelli Linguistici e Visivi
On Token's Dilemma: Dynamic MoE with Drift-Aware Token Assignment for Continual Learning of Large Vision Language Models
March 29, 2026
Autori: Chongyang Zhao, Mingsong Li, Haodong Lu, Dong Gong
cs.AI
Abstract
LLaVA-DyMoE mira a migliorare continuamente i Large Vision Language Models (LVLM) apprendendo da nuovi dati senza dimenticare le conoscenze acquisite in precedenza. Le architetture Mixture of Experts (MoE) facilitano naturalmente questo processo aggiungendo incrementalmente nuovi esperti ed espandendo i router, mantenendo congelati quelli esistenti. Tuttavia, nonostante l'isolamento degli esperti, i sistemi di apprendimento continuo basati su MoE soffrono comunque di dimenticanza a causa del routing-drift: i token dei task precedenti vengono erroneamente attratti dai nuovi esperti aggiunti, degradando le prestazioni sui task precedenti. Analizziamo la modalità di fallimento a livello di token e riveliamo il dilemma del token: i token ambigui e vecchi nei dati dei nuovi task offrono un beneficio di apprendimento minimo, ma inducono dimenticanza quando vengono instradati verso nuovi esperti, a causa del loro assegnamento di routing ambiguo durante l'addestramento. Motivati da ciò, proponiamo LLaVA-DyMoE, un framework MoE dinamico che espande incrementalmente il MoE con un assegnamento dei token consapevole del drift. Caratterizziamo i tipi di token attraverso le loro distribuzioni dei punteggi di routing e applichiamo una regolarizzazione mirata. Nello specifico, una guida di assegnamento a livello di token indirizza i token ambigui e vecchi lontano dai nuovi esperti per preservare i pattern di routing consolidati e alleviare il routing-drift, mentre regolarizzazioni complementari dei punteggi di routing impongono la separazione tra gruppi di esperti e promuovono la specializzazione dei nuovi esperti. Esperimenti estensivi dimostrano che il nostro LLaVA-DyMoE mitiga efficacemente la dimenticanza indotta dal routing-drift, raggiungendo un guadagno superiore al 7% nell'accuratezza media finale e una riduzione del 12% della dimenticanza rispetto ai baseline. La pagina del progetto è https://zhaoc5.github.io/DyMoE.
English
Multimodal Continual Instruction Tuning aims to continually enhance Large Vision Language Models (LVLMs) by learning from new data without forgetting previously acquired knowledge. Mixture of Experts (MoE) architectures naturally facilitate this by incrementally adding new experts and expanding routers while keeping the existing ones frozen. However, despite expert isolation, MoE-based continual learners still suffer from forgetting due to routing-drift: old-task tokens become mistakenly attracted to newly added experts, degrading performance on prior tasks. We analyze the failure mode at the token level and reveal the token's dilemma: ambiguous and old tokens in new-task data offer minimal learning benefit yet induce forgetting when routed to new experts, due to their ambiguous routing assignment during training. Motivated by this, we propose LLaVA-DyMoE, a dynamic MoE framework that incrementally expands the MoE with drift-aware token assignment. We characterize token types via their routing score distributions and apply targeted regularization. Specifically, a token-level assignment guidance steers ambiguous and old tokens away from new experts to preserve established routing patterns and alleviate routing-drift, while complementary routing score regularizations enforce expert-group separation and promote new-expert specialization. Extensive experiments demonstrate that our LLaVA-DyMoE effectively mitigates routing-drift-induced forgetting, achieving over a 7% gain in mean final accuracy and a 12% reduction in forgetting compared to baselines. The project page is https://zhaoc5.github.io/DyMoE.