Domino: Desacoplando el Modelado Causal de la Redacción Autorregresiva en la Decodificación Especulativa

Resumen

El decoding especulativo acelera la inferencia de LLM al generar borradores de múltiples tokens y verificarlos en paralelo con el modelo objetivo. Sin embargo, su aceleración práctica está limitada por el equilibrio entre la calidad del borrador y el costo de generación: los generadores de borradores autorregresivos modelan dependencias causales entre los tokens del borrador pero incurren en una sobrecarga secuencial, mientras que los generadores paralelos reducen el costo de generación pero debilitan el modelado de dependencias intra-bloque. En este artículo, proponemos Domino, un marco de decoding especulativo que desacopla el modelado de dependencias causales de la costosa ejecución autorregresiva de borradores. Domino primero utiliza una estructura principal de borrador paralelo para producir distribuciones preliminares de borrador para todo el bloque, y luego aplica una cabeza Domino ligera para refinarlas con información causal dependiente del prefijo. Para estabilizar la codificación causal forzada por el profesor, introducimos además un plan de entrenamiento anclado en la base que primero fortalece la estructura principal paralela y luego desplaza gradualmente la optimización hacia la distribución final corregida causalmente. Los experimentos con modelos Qwen3 muestran que Domino logra hasta \(5.49\times\) de aceleración extremo a extremo bajo el backend de Transformers y hasta \(5.8\times\) de aceleración de rendimiento bajo el servicio SGLang.

English

Speculative decoding accelerates LLM inference by drafting multiple tokens and verifying them in parallel with the target model. However, its practical speedup is constrained by the trade-off between draft quality and drafting cost: autoregressive drafters model causal dependencies among draft tokens but incur sequential overhead, while parallel drafters reduce drafting cost but weaken intra-block dependency modeling. In this paper, we propose Domino, a speculative decoding framework that decouples causal dependency modeling from expensive autoregressive draft execution. Domino first uses a parallel draft backbone to produce preliminary draft distributions for the entire block, and then applies a lightweight Domino head to refine them with prefix-dependent causal information. To stabilize teacher-forced causal encoding, we further introduce a base-anchored training curriculum that first strengthens the parallel backbone and then gradually shifts optimization toward the causally corrected final distribution. Experiments on Qwen3 models show that Domino achieves up to \(5.49\times\) end-to-end speedup under the Transformers backend and up to \(5.8\times\) throughput speedup under SGLang serving.