Girando la Marea: Distilación Transarquitectónica para Modelos de Lenguaje Grande Basados en Difusión

Resumen

Los modelos de lenguaje de difusión a gran escala (dLLM) ofrecen decodificación paralela y contexto bidireccional, pero los dLLM de última generación requieren miles de millones de parámetros para un rendimiento competitivo. Si bien los métodos de destilación existentes para dLLM reducen los pasos de inferencia dentro de una única arquitectura, ninguno aborda la transferencia de conocimiento entre arquitecturas, donde el profesor y el estudiante difieren en arquitectura, mecanismo de atención y tokenizador. Presentamos TIDE, el primer marco para la destilación de dLLM entre arquitecturas, que comprende tres componentes modulares: (1) TIDAL, que modula conjuntamente la intensidad de la destilación a lo largo del progreso del entrenamiento y el paso de difusión para tener en cuenta la confiabilidad dependiente del ruido del profesor; (2) CompDemo, que enriquece el contexto del profesor mediante división de máscaras complementaria para mejorar las predicciones bajo enmascaramiento severo; y (3) Reverse CALM, un objetivo entre tokenizadores que invierte la coincidencia de verosimilitud a nivel de fragmentos, produciendo gradientes acotados y filtrado de ruido dual. La destilación de profesores densos de 8B y MoE de 16B en un estudiante de 0.6B mediante dos pipelines heterogéneos supera la línea base en un promedio de 1.53 puntos en ocho benchmarks, logrando ganancias notables en generación de código, donde las puntuaciones en HumanEval alcanzan 48.78 en comparación con 32.3 para la línea base AR.

English

Diffusion large language models (dLLMs) offer parallel decoding and bidirectional context, but state-of-the-art dLLMs require billions of parameters for competitive performance. While existing distillation methods for dLLMs reduce inference steps within a single architecture, none address cross-architecture knowledge transfer, in which the teacher and student differ in architecture, attention mechanism, and tokenizer. We present TIDE, the first framework for cross-architecture dLLM distillation, comprising three modular components: (1) TIDAL, which jointly modulates distillation strength across training progress and diffusion timestep to account for the teacher's noise-dependent reliability; (2) CompDemo, which enriches the teacher's context via complementary mask splitting to improve predictions under heavy masking; and (3) Reverse CALM, a cross-tokenizer objective that inverts chunk-level likelihood matching, yielding bounded gradients and dual-end noise filtering. Distilling 8B dense and 16B MoE teachers into a 0.6B student via two heterogeneous pipelines outperforms the baseline by an average of 1.53 points across eight benchmarks, yielding notable gains in code generation, where HumanEval scores reach 48.78 compared to 32.3 for the AR baseline.

Girando la Marea: Distilación Transarquitectónica para Modelos de Lenguaje Grande Basados en Difusión

Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

Resumen

Support