ChatPaper.aiChatPaper

직접 다중 토큰 디코딩

Direct Multi-Token Decoding

October 13, 2025
저자: Xuan Luo, Weizhi Wang, Xifeng Yan
cs.AI

초록

디코더 전용 트랜스포머(Decoder-only transformers)는 뛰어난 성능으로 인해 대규모 언어 모델(LLMs)의 표준 아키텍처로 자리 잡았습니다. 최근 연구에 따르면, 사전 학습된 LLMs에서 초기, 중간, 후기 레이어는 각각 다른 역할을 수행할 수 있습니다: 초기 레이어는 입력 컨텍스트를 이해하는 데 집중하고, 중간 레이어는 작업별 처리를 담당하며, 후기 레이어는 추상적 표현을 출력 토큰으로 변환합니다. 우리는 초기 및 중간 레이어에서 표현이 처리된 후, 그 결과로 생성된 은닉 상태(hidden states)가 후기 레이어만을 사용하여 여러 토큰을 생성하는 데 충분한 정보를 포함할 수 있다고 가정합니다. 이를 통해 초기 및 중간 레이어를 반복적으로 통과할 필요가 없어집니다. 우리는 이러한 추론 패러다임을 직접 다중 토큰 디코딩(Direct Multi-Token Decoding, DMTD)이라고 부릅니다. 스펙티브 디코딩(speculative decoding)과 달리, 우리의 방법은 추가 매개변수, 보조 루틴 또는 생성 후 검증을 도입하지 않습니다. 제한된 데이터셋으로 학습되었음에도 불구하고, 미세 조정된 DMTD Qwen3-4B 모델은 이미 유망한 결과를 보여주며, 최대 2배의 속도 향상과 함께 미미한 성능 손실만을 기록했습니다. 또한, 우리의 스케일링 분석에 따르면, 더 큰 학습 데이터셋을 사용할 경우 그 성능이 더욱 개선될 것으로 예상됩니다.
English
Decoder-only transformers have become the standard architecture for large language models (LLMs) due to their strong performance. Recent studies suggest that, in pre-trained LLMs, early, middle, and late layers may serve distinct roles: Early layers focus on understanding the input context, middle layers handle task-specific processing, and late layers convert abstract representations into output tokens. We hypothesize that once representations have been processed by the early and middle layers, the resulting hidden states may encapsulate sufficient information to support the generation of multiple tokens using only the late layers, eliminating the need to repeatedly traverse the early and middle layers. We refer to this inference paradigm as Direct Multi-Token Decoding (DMTD). Unlike speculative decoding, our method introduces no additional parameters, auxiliary routines, or post-generation verification. Despite being trained on a limited dataset, a fine-tuned DMTD Qwen3-4B model has already demonstrated promising results, achieving up to a 2x speedup with only minor performance loss. Moreover, as shown in our scaling analysis, its performance is expected to further improve with larger training datasets.
PDF53October 16, 2025