El fin de la decodificación manual: Hacia modelos de lenguaje verdaderamente de extremo a extremo
The End of Manual Decoding: Towards Truly End-to-End Language Models
October 30, 2025
Autores: Zhichao Wang, Dongyang Ma, Xinting Huang, Deng Cai, Tian Lan, Jiahao Xu, Haitao Mi, Xiaoying Tang, Yan Wang
cs.AI
Resumen
La etiqueta "de extremo a extremo" para los LLM es un nombre inapropiado. En la práctica, estos modelos dependen de un proceso de decodificación no diferenciable que requiere una laboriosa sintonización manual de hiperparámetros como la temperatura y el top-p. Este artículo presenta AutoDeco, una arquitectura novedosa que permite una generación verdaderamente "de extremo a extremo" al aprender a controlar su propia estrategia de decodificación. Aumentamos el transformador estándar con cabezales ligeros que, en cada paso, predicen dinámicamente valores de temperatura y top-p específicos del contexto junto con los logits del siguiente token. Este enfoque transforma la decodificación en un proceso paramétrico a nivel de token, permitiendo que el modelo autorregule su estrategia de muestreo dentro de una única pasada hacia adelante.
A través de experimentos exhaustivos en ocho puntos de referencia, demostramos que AutoDeco no solo supera significativamente a las estrategias de decodificación por defecto, sino que también logra un rendimiento comparable a una línea de base ajustada por oráculo derivada de "manipular el conjunto de prueba", un límite superior práctico para cualquier método estático. Crucialmente, descubrimos una capacidad emergente para el control de la decodificación basada en instrucciones: el modelo aprende a interpretar comandos en lenguaje natural (por ejemplo, "genera con baja aleatoriedad") y ajusta su temperatura y top-p predichos token por token, abriendo un nuevo paradigma para la decodificación de LLM dirigible e interactiva.
English
The "end-to-end" label for LLMs is a misnomer. In practice, they depend on a
non-differentiable decoding process that requires laborious, hand-tuning of
hyperparameters like temperature and top-p. This paper introduces AutoDeco, a
novel architecture that enables truly "end-to-end" generation by learning to
control its own decoding strategy. We augment the standard transformer with
lightweight heads that, at each step, dynamically predict context-specific
temperature and top-p values alongside the next-token logits. This approach
transforms decoding into a parametric, token-level process, allowing the model
to self-regulate its sampling strategy within a single forward pass.
Through extensive experiments on eight benchmarks, we demonstrate that
AutoDeco not only significantly outperforms default decoding strategies but
also achieves performance comparable to an oracle-tuned baseline derived from
"hacking the test set"-a practical upper bound for any static method.
Crucially, we uncover an emergent capability for instruction-based decoding
control: the model learns to interpret natural language commands (e.g.,
"generate with low randomness") and adjusts its predicted temperature and top-p
on a token-by-token basis, opening a new paradigm for steerable and interactive
LLM decoding.