TAPS: Aufgabenbewusste Vorschlagsverteilungen für spekulatives Sampling

Zusammenfassung

Spekulatives Decoding beschleunigt die autoregressive Generierung, indem ein leichtgewichtiges Draft-Modell zukünftige Token vorschlägt, die ein größeres Target-Modell dann parallel verifiziert. In der Praxis werden Draft-Modelle jedoch meist auf breiten, generischen Korpora trainiert, was unklar lässt, inwieweit die Qualität des spekulativen Decodierens von der Trainingsverteilung des Draft-Modells abhängt. Wir untersuchen diese Frage mit den leichtgewichtigen Draft-Modellen HASS und EAGLE-2, die auf MathInstruct, ShareGPT und gemischten Datenvarianten trainiert und auf MT-Bench, GSM8K, MATH-500 und SVAMP evaluiert wurden. Gemessen an der Akzeptanzlänge führt taskspezifisches Training zu einer klaren Spezialisierung: Auf MathInstruct trainierte Draft-Modelle sind auf Reasoning-Benchmarks am stärksten, während auf ShareGPT trainierte Draft-Modelle auf MT-Bench am stärksten abschneiden. Training mit gemischten Daten verbessert die Robustheit, jedoch dominieren größere Mischungen nicht über verschiedene Decoding-Temperaturen hinweg. Wir untersuchen auch, wie spezialisierte Draft-Modelle zur Inferenzzeit kombiniert werden können. Naives Checkpoint-Averaging schneidet schlecht ab, während konfidenzbasiertes Routing Einzeldomänen-Drafts übertrifft und merged-tree-Verifikation für beide Backbones insgesamt die höchste Akzeptanzlänge erzielt. Schließlich ist Konfidenz ein nützlicheres Routing-Signal als Entropie: Abgelehnte Token tendieren zu höherer Entropie, aber Konfidenz erzeugt viel klarere Routing-Entscheidungen auf Benchmark-Ebene. Diese Ergebnisse zeigen, dass die Qualität des spekulativen Decodierens nicht nur von der Draft-Architektur, sondern auch von der Übereinstimmung zwischen den Trainingsdaten des Draft-Modells und der nachgelagerten Arbeitslast abhängt, und dass spezialisierte Draft-Modelle zur Inferenzzeit besser kombiniert werden können als im Gewichtsraum.

English

Speculative decoding accelerates autoregressive generation by letting a lightweight draft model propose future tokens that a larger target model then verifies in parallel. In practice, however, draft models are usually trained on broad generic corpora, which leaves it unclear how much speculative decoding quality depends on the draft training distribution. We study this question with lightweight HASS and EAGLE-2 drafters trained on MathInstruct, ShareGPT, and mixed-data variants, evaluated on MT-Bench, GSM8K, MATH-500, and SVAMP. Measured by acceptance length, task-specific training yields clear specialization: MathInstruct-trained drafts are strongest on reasoning benchmarks, while ShareGPT-trained drafts are strongest on MT-Bench. Mixed-data training improves robustness, but larger mixtures do not dominate across decoding temperatures. We also study how to combine specialized drafters at inference time. Naive checkpoint averaging performs poorly, whereas confidence-based routing improves over single-domain drafts and merged-tree verification yields the highest acceptance length overall for both backbones. Finally, confidence is a more useful routing signal than entropy: rejected tokens tend to have higher entropy, but confidence produces much clearer benchmark-level routing decisions. These results show that speculative decoding quality depends not only on draft architecture, but also on the match between draft training data and downstream workload, and that specialized drafters are better combined at inference time than in weight space.

TAPS: Aufgabenbewusste Vorschlagsverteilungen für spekulatives Sampling

TAPS: Task Aware Proposal Distributions for Speculative Sampling

Zusammenfassung

Support