ChatPaper.aiChatPaper

Decodificación Directa de Múltiples Tokens

Direct Multi-Token Decoding

October 13, 2025
Autores: Xuan Luo, Weizhi Wang, Xifeng Yan
cs.AI

Resumen

Los transformadores de solo decodificador se han convertido en la arquitectura estándar para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) debido a su sólido rendimiento. Estudios recientes sugieren que, en los LLMs preentrenados, las capas iniciales, intermedias y finales pueden desempeñar roles distintos: las capas iniciales se centran en comprender el contexto de la entrada, las capas intermedias manejan el procesamiento específico de la tarea y las capas finales convierten las representaciones abstractas en tokens de salida. Nuestra hipótesis es que, una vez que las representaciones han sido procesadas por las capas iniciales e intermedias, los estados ocultos resultantes pueden encapsular suficiente información para apoyar la generación de múltiples tokens utilizando solo las capas finales, eliminando la necesidad de atravesar repetidamente las capas iniciales e intermedias. Nos referimos a este paradigma de inferencia como Decodificación Directa de Múltiples Tokens (DMTD, por sus siglas en inglés). A diferencia de la decodificación especulativa, nuestro método no introduce parámetros adicionales, rutinas auxiliares ni verificación posterior a la generación. A pesar de haber sido entrenado en un conjunto de datos limitado, un modelo Qwen3-4B ajustado con DMTD ya ha demostrado resultados prometedores, logrando una aceleración de hasta 2x con solo una mínima pérdida de rendimiento. Además, como se muestra en nuestro análisis de escalabilidad, se espera que su rendimiento mejore aún más con conjuntos de datos de entrenamiento más grandes.
English
Decoder-only transformers have become the standard architecture for large language models (LLMs) due to their strong performance. Recent studies suggest that, in pre-trained LLMs, early, middle, and late layers may serve distinct roles: Early layers focus on understanding the input context, middle layers handle task-specific processing, and late layers convert abstract representations into output tokens. We hypothesize that once representations have been processed by the early and middle layers, the resulting hidden states may encapsulate sufficient information to support the generation of multiple tokens using only the late layers, eliminating the need to repeatedly traverse the early and middle layers. We refer to this inference paradigm as Direct Multi-Token Decoding (DMTD). Unlike speculative decoding, our method introduces no additional parameters, auxiliary routines, or post-generation verification. Despite being trained on a limited dataset, a fine-tuned DMTD Qwen3-4B model has already demonstrated promising results, achieving up to a 2x speedup with only minor performance loss. Moreover, as shown in our scaling analysis, its performance is expected to further improve with larger training datasets.
PDF53October 16, 2025