Una teoría de perturbación local para la interferencia y recuperación entre dominios en RL multidominio

Resumen

El post-entrenamiento con aprendizaje por refuerzo (RL) mejora los modelos de lenguaje grandes (LLMs) en dominios individuales como el razonamiento matemático, la generación de código, la respuesta a preguntas y la escritura creativa (CW), pero el entrenamiento en un dominio a menudo degrada el rendimiento en otros. Las explicaciones existentes basadas en el olvido catastrófico o el conflicto global de gradientes son incompletas: puede ocurrir una interferencia sustancial incluso cuando los gradientes del modelo completo son casi ortogonales. Mostramos que el RL de un solo dominio produce ediciones de parámetros dispersas y de pequeña magnitud con una superposición débil entre las neuronas más modificadas, mientras que diferentes dominios aún comparten rutas de cómputo activas sustanciales en las que las direcciones de actualización determinan si actúan de manera sinérgica o en conflicto. Guiados por esta observación, demostramos bajo un modelo de perturbación local de RL multi-dominio que el entrenamiento en un dominio posterior perjudica a un dominio anterior principalmente a través de un término de daño de segundo orden, que bajo la estructura de ruta dispersa observada se concentra en un subespacio de conflicto compartido de baja dimensionalidad. Además, un breve refresco de dominio contrae el componente dañino en este subespacio, permitiendo una recuperación selectiva con daño colateral limitado. Consistente con la teoría, un breve refresco de Re-Matemáticas después de Código → Matemáticas → Preguntas-Respuestas → Escritura Creativa recupera Matemáticas de 57.66 a 66.04 mientras preserva en gran medida el rendimiento en los otros dominios, logrando la mejor puntuación promedio de 66.39. Más allá del refresco, un retroceso sin entrenamiento en un conjunto disperso de coordenadas de conflicto proxy para el par Matemáticas-Preguntas-Respuestas restaura parcialmente Matemáticas, proporcionando evidencia directa a nivel de proxy de daño localizado. Estos resultados ofrecen una explicación mecanicista localizada de la interferencia y recuperación en RL multi-dominio.

English

Reinforcement learning (RL) post-training improves large language models (LLMs) on individual domains such as mathematical reasoning, code generation, question answering, and creative writing (CW), but training on one domain often degrades performance on others. Existing explanations based on catastrophic forgetting or global gradient conflict are incomplete: substantial interference can occur even when full-model gradients are nearly orthogonal. We show that single-domain RL produces sparse, small-magnitude parameter edits with weak overlap among top-changed neurons, while different domains still share substantial active computation routes on which update directions determine whether they act synergistically or conflict. Guided by this observation, we prove under a local perturbation model of multi-domain RL that later-domain training harms an earlier domain mainly through a second-order damage term, which under the observed sparse route structure concentrates in a low-dimensional shared conflict subspace. Moreover, a short domain refresh contracts the harmful component on this subspace, enabling selective recovery with limited collateral damage. Consistent with the theory, a brief Re-Math refresh after Code rightarrow Math rightarrow QA rightarrow CW recovers Math from 57.66 to 66.04 while largely preserving performance on the other domains, yielding the best average score of 66.39. Beyond refresh, a training-free rollback on a sparse proxy conflict coordinate set for the Math-QA pair partially restores Math, providing direct proxy-level evidence for localized damage. These results provide a localized mechanistic account of interference and recovery in multi-domain RL.