Decodificación Directa de Múltiples Tokens
Direct Multi-Token Decoding
October 13, 2025
Autores: Xuan Luo, Weizhi Wang, Xifeng Yan
cs.AI
Resumen
Los transformadores de solo decodificador se han convertido en la arquitectura estándar para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) debido a su sólido rendimiento. Estudios recientes sugieren que, en los LLMs preentrenados, las capas iniciales, intermedias y finales pueden desempeñar roles distintos: las capas iniciales se centran en comprender el contexto de la entrada, las capas intermedias manejan el procesamiento específico de la tarea y las capas finales convierten las representaciones abstractas en tokens de salida. Nuestra hipótesis es que, una vez que las representaciones han sido procesadas por las capas iniciales e intermedias, los estados ocultos resultantes pueden encapsular suficiente información para apoyar la generación de múltiples tokens utilizando solo las capas finales, eliminando la necesidad de atravesar repetidamente las capas iniciales e intermedias. Nos referimos a este paradigma de inferencia como Decodificación Directa de Múltiples Tokens (DMTD, por sus siglas en inglés). A diferencia de la decodificación especulativa, nuestro método no introduce parámetros adicionales, rutinas auxiliares ni verificación posterior a la generación. A pesar de haber sido entrenado en un conjunto de datos limitado, un modelo Qwen3-4B ajustado con DMTD ya ha demostrado resultados prometedores, logrando una aceleración de hasta 2x con solo una mínima pérdida de rendimiento. Además, como se muestra en nuestro análisis de escalabilidad, se espera que su rendimiento mejore aún más con conjuntos de datos de entrenamiento más grandes.
English
Decoder-only transformers have become the standard architecture for large
language models (LLMs) due to their strong performance. Recent studies suggest
that, in pre-trained LLMs, early, middle, and late layers may serve distinct
roles: Early layers focus on understanding the input context, middle layers
handle task-specific processing, and late layers convert abstract
representations into output tokens. We hypothesize that once representations
have been processed by the early and middle layers, the resulting hidden states
may encapsulate sufficient information to support the generation of multiple
tokens using only the late layers, eliminating the need to repeatedly traverse
the early and middle layers. We refer to this inference paradigm as Direct
Multi-Token Decoding (DMTD). Unlike speculative decoding, our method introduces
no additional parameters, auxiliary routines, or post-generation verification.
Despite being trained on a limited dataset, a fine-tuned DMTD Qwen3-4B model
has already demonstrated promising results, achieving up to a 2x speedup with
only minor performance loss. Moreover, as shown in our scaling analysis, its
performance is expected to further improve with larger training datasets.