Sur le dilemme du token : MoE dynamique avec attribution de tokens tenant compte de la dérive pour l'apprentissage continu des grands modèles vision-langage

Résumé

L'ajustement continu multimodal d'instructions vise à améliorer continuellement les grands modèles de vision et de langage (LVLM) en apprenant à partir de nouvelles données sans oublier les connaissances précédemment acquises. Les architectures de mélange d'experts (MoE) facilitent naturellement cette approche en ajoutant de nouveaux experts et en étendant les routeurs de manière incrémentale tout en gelant les existants. Cependant, malgré l'isolation des experts, les apprenants continus basés sur MoE souffrent toujours d'oubli en raison de la dérive du routage : les jetons des anciennes tâches sont incorrectement attirés vers les nouveaux experts, dégradant les performances sur les tâches antérieures. Nous analysons le mode d'échec au niveau du jeton et révélons le dilemme du jeton : les jetons ambigus et anciens dans les données des nouvelles tâches offrent un bénéfice d'apprentissage minime tout en induisant l'oubli lorsqu'ils sont routés vers de nouveaux experts, en raison de leur attribution de routage ambiguë pendant l'entraînement. Motivés par cette observation, nous proposons LLaVA-DyMoE, un framework MoE dynamique qui étend progressivement le MoE avec une attribution de jetons consciente de la dérive. Nous caractérisons les types de jetons via leurs distributions de scores de routage et appliquons une régularisation ciblée. Spécifiquement, un guide d'attribution au niveau du jeton dirige les jetons ambigus et anciens loin des nouveaux experts pour préserver les schémas de routage établis et atténuer la dérive du routage, tandis que des régularisations complémentaires des scores de routage imposent une séparation entre groupes d'experts et favorisent la spécialisation des nouveaux experts. Des expériences approfondies démontrent que notre LLaVA-DyMoE atténue efficacement l'oubli induit par la dérive du routage, obtenant un gain de plus de 7 % en précision moyenne finale et une réduction de 12 % de l'oubli par rapport aux méthodes de référence. La page du projet est https://zhaoc5.github.io/DyMoE.

English

Multimodal Continual Instruction Tuning aims to continually enhance Large Vision Language Models (LVLMs) by learning from new data without forgetting previously acquired knowledge. Mixture of Experts (MoE) architectures naturally facilitate this by incrementally adding new experts and expanding routers while keeping the existing ones frozen. However, despite expert isolation, MoE-based continual learners still suffer from forgetting due to routing-drift: old-task tokens become mistakenly attracted to newly added experts, degrading performance on prior tasks. We analyze the failure mode at the token level and reveal the token's dilemma: ambiguous and old tokens in new-task data offer minimal learning benefit yet induce forgetting when routed to new experts, due to their ambiguous routing assignment during training. Motivated by this, we propose LLaVA-DyMoE, a dynamic MoE framework that incrementally expands the MoE with drift-aware token assignment. We characterize token types via their routing score distributions and apply targeted regularization. Specifically, a token-level assignment guidance steers ambiguous and old tokens away from new experts to preserve established routing patterns and alleviate routing-drift, while complementary routing score regularizations enforce expert-group separation and promote new-expert specialization. Extensive experiments demonstrate that our LLaVA-DyMoE effectively mitigates routing-drift-induced forgetting, achieving over a 7% gain in mean final accuracy and a 12% reduction in forgetting compared to baselines. The project page is https://zhaoc5.github.io/DyMoE.

Sur le dilemme du token : MoE dynamique avec attribution de tokens tenant compte de la dérive pour l'apprentissage continu des grands modèles vision-langage

On Token's Dilemma: Dynamic MoE with Drift-Aware Token Assignment for Continual Learning of Large Vision Language Models

Résumé

Support