Sobre o Dilema do Token: MoE Dinâmico com Atribuição de Tokens Consciente de Deriva para Aprendizado Contínuo de Grandes Modelos de Linguagem Visual

Resumo

O Ajuste Contínuo Multimodal de Instruções visa aprimorar continuamente os Modelos de Linguagem e Visão de Grande Escala (LVLMs) aprendendo com novos dados sem esquecer o conhecimento previamente adquirido. As arquiteturas de Mistura de Especialistas (MoE) facilitam naturalmente isso ao adicionar incrementalmente novos especialistas e expandir os roteadores, mantendo os existentes congelados. No entanto, apesar do isolamento dos especialistas, os aprendizes contínuos baseados em MoE ainda sofrem com o esquecimento devido ao *routing-drift*: tokens de tarefas antigas são erroneamente atraídos para os novos especialistas adicionados, degradando o desempenho em tarefas anteriores. Analisamos o modo de falha no nível do token e revelamos o dilema do token: tokens ambíguos e antigos nos dados de novas tarefas oferecem benefício de aprendizado mínimo, mas induzem o esquecimento quando roteados para novos especialistas, devido à sua atribuição de roteamento ambígua durante o treinamento. Motivados por isso, propomos o LLaVA-DyMoE, uma estrutura MoE dinâmica que expande incrementalmente o MoE com atribuição de tokens consciente do *drift*. Caracterizamos os tipos de token por meio de suas distribuições de pontuação de roteamento e aplicamos regularização direcionada. Especificamente, uma orientação de atribuição em nível de token direciona tokens ambíguos e antigos para longe dos novos especialistas para preservar padrões de roteamento estabelecidos e aliviar o *routing-drift*, enquanto regularizações complementares da pontuação de roteamento impõem a separação entre grupos de especialistas e promovem a especialização dos novos especialistas. Experimentos extensivos demonstram que nosso LLaVA-DyMoE mitiga efetivamente o esquecimento induzido por *routing-drift*, alcançando um ganho de mais de 7% na precisão final média e uma redução de 12% no esquecimento em comparação com as linhas de base. A página do projeto é https://zhaoc5.github.io/DyMoE.

English

Multimodal Continual Instruction Tuning aims to continually enhance Large Vision Language Models (LVLMs) by learning from new data without forgetting previously acquired knowledge. Mixture of Experts (MoE) architectures naturally facilitate this by incrementally adding new experts and expanding routers while keeping the existing ones frozen. However, despite expert isolation, MoE-based continual learners still suffer from forgetting due to routing-drift: old-task tokens become mistakenly attracted to newly added experts, degrading performance on prior tasks. We analyze the failure mode at the token level and reveal the token's dilemma: ambiguous and old tokens in new-task data offer minimal learning benefit yet induce forgetting when routed to new experts, due to their ambiguous routing assignment during training. Motivated by this, we propose LLaVA-DyMoE, a dynamic MoE framework that incrementally expands the MoE with drift-aware token assignment. We characterize token types via their routing score distributions and apply targeted regularization. Specifically, a token-level assignment guidance steers ambiguous and old tokens away from new experts to preserve established routing patterns and alleviate routing-drift, while complementary routing score regularizations enforce expert-group separation and promote new-expert specialization. Extensive experiments demonstrate that our LLaVA-DyMoE effectively mitigates routing-drift-induced forgetting, achieving over a 7% gain in mean final accuracy and a 12% reduction in forgetting compared to baselines. The project page is https://zhaoc5.github.io/DyMoE.

Sobre o Dilema do Token: MoE Dinâmico com Atribuição de Tokens Consciente de Deriva para Aprendizado Contínuo de Grandes Modelos de Linguagem Visual

On Token's Dilemma: Dynamic MoE with Drift-Aware Token Assignment for Continual Learning of Large Vision Language Models

Resumo

Support