Sobre el Dilema del Token: MoE Dinámico con Asignación de Tokens Consciente del Desplazamiento para el Aprendizaje Continuo de Grandes Modelos de Lenguaje Visual

Resumen

La Sintonización Continua de Instrucciones Multimodal busca mejorar continuamente los Modelos de Lenguaje y Visión de Gran Escala (LVLM) aprendiendo de nuevos datos sin olvidar el conocimiento previamente adquirido. Las arquitecturas de Mezcla de Expertos (MoE) facilitan naturalmente este proceso al añadir incrementalmente nuevos expertos y expandir los enrutadores manteniendo congelados los existentes. Sin embargo, a pesar del aislamiento de expertos, los sistemas de aprendizaje continuo basados en MoE aún sufren de olvido debido al desvío de enrutamiento: los tokens de tareas antiguas son atraídos erróneamente hacia los nuevos expertos añadidos, degradando el rendimiento en tareas previas. Analizamos el modo de fallo a nivel de token y revelamos el dilema del token: los tokens ambiguos y antiguos en los datos de nuevas tareas ofrecen un beneficio de aprendizaje mínimo, pero inducen olvido cuando se enrutan a nuevos expertos, debido a su asignación de enrutamiento ambigua durante el entrenamiento. Motivados por esto, proponemos LLaVA-DyMoE, un marco MoE dinámico que expande incrementalmente el MoE con una asignación de tokens consciente del desvío. Caracterizamos los tipos de tokens mediante sus distribuciones de puntuación de enrutamiento y aplicamos una regularización dirigida. Específicamente, una guía de asignación a nivel de token dirige los tokens ambiguos y antiguos lejos de los nuevos expertos para preservar los patrones de enrutamiento establecidos y aliviar el desvío de enrutamiento, mientras que regularizaciones complementarias de la puntuación de enrutamiento imponen la separación entre grupos de expertos y promueven la especialización de los nuevos expertos. Experimentos exhaustivos demuestran que nuestro LLaVA-DyMoE mitiga efectivamente el olvido inducido por el desvío de enrutamiento, logrando una ganancia de más del 7% en la precisión final media y una reducción del 12% en el olvido en comparación con los métodos base. La página del proyecto es https://zhaoc5.github.io/DyMoE.

English

Multimodal Continual Instruction Tuning aims to continually enhance Large Vision Language Models (LVLMs) by learning from new data without forgetting previously acquired knowledge. Mixture of Experts (MoE) architectures naturally facilitate this by incrementally adding new experts and expanding routers while keeping the existing ones frozen. However, despite expert isolation, MoE-based continual learners still suffer from forgetting due to routing-drift: old-task tokens become mistakenly attracted to newly added experts, degrading performance on prior tasks. We analyze the failure mode at the token level and reveal the token's dilemma: ambiguous and old tokens in new-task data offer minimal learning benefit yet induce forgetting when routed to new experts, due to their ambiguous routing assignment during training. Motivated by this, we propose LLaVA-DyMoE, a dynamic MoE framework that incrementally expands the MoE with drift-aware token assignment. We characterize token types via their routing score distributions and apply targeted regularization. Specifically, a token-level assignment guidance steers ambiguous and old tokens away from new experts to preserve established routing patterns and alleviate routing-drift, while complementary routing score regularizations enforce expert-group separation and promote new-expert specialization. Extensive experiments demonstrate that our LLaVA-DyMoE effectively mitigates routing-drift-induced forgetting, achieving over a 7% gain in mean final accuracy and a 12% reduction in forgetting compared to baselines. The project page is https://zhaoc5.github.io/DyMoE.

Sobre el Dilema del Token: MoE Dinámico con Asignación de Tokens Consciente del Desplazamiento para el Aprendizaje Continuo de Grandes Modelos de Lenguaje Visual

On Token's Dilemma: Dynamic MoE with Drift-Aware Token Assignment for Continual Learning of Large Vision Language Models

Resumen

Support