ChatPaper.aiChatPaper

효율적인 깊이 스케일링을 위한 범용 YOCO

Universal YOCO for Efficient Depth Scaling

April 1, 2026
저자: Yutao Sun, Li Dong, Tianzhu Ye, Shaohan Huang, Jianyong Wang, Furu Wei
cs.AI

초록

테스트 타임 스케일링의 부상은 대규모 언어 모델(LLM)의 추론 및 에이전시 능력을 현저히 향상시켰습니다. 그러나 표준 트랜스포머는 모델 깊이에 따라 팽창하는 KV 캐시와 높은 계산 오버헤드를 겪는 기존 루핑 전략으로 인해 추론 시 컴퓨팅 자원을 효율적으로 확장하는 데 어려움을 겪습니다. 본 논문에서는 YOCO 디코더-디코더 아키텍처와 재귀적 계산을 결합하여 각각 단독으로 얻을 수 있는 것보다 시너지 효과가 큰 Universal YOCO(YOCO-U)를 제안합니다. YOCO 프레임워크를 기반으로 구축된 YOCO-U는 매개변수 공유를 통해 여러 반복을 수행하는 범용 셀프-디코더를 구현하면서도 반복 과정을 얕고 효율적인 어텐션 계층으로 제한합니다. 이러한 조합은 YOCO나 재귀 단독으로는 달성할 수 없는 유리한 능력-효율성 트레이드오프를 제공합니다. YOCO 아키텍처는 일정한 전역 KV 캐시와 선형 사전 채우기를 제공하는 반면, 부분 재귀는 제한된 오버헤드로 표현 깊이를 향상시킵니다. 이를 통해 YOCO-U는 효율적인 추론을 유지하면서 토큰 활용도와 확장성을 개선합니다. 실험 결과는 YOCO-U가 일반 및 장문맥 벤치마크에서 여전히 높은 경쟁력을 유지함을 확인하며, 효율적 어텐션 아키텍처와 재귀적 계산의 통합이 확장 가능한 LLM을 위한 유망한 방향임을 입증합니다.
English
The rise of test-time scaling has remarkably boosted the reasoning and agentic proficiency of Large Language Models (LLMs). Yet, standard Transformers struggle to scale inference-time compute efficiently, as conventional looping strategies suffer from high computational overhead and a KV cache that inflates alongside model depth. We present Universal YOCO (YOCO-U), which combines the YOCO decoder-decoder architecture with recursive computation to achieve a synergistic effect greater than either alone. Built on the YOCO framework, YOCO-U implements a Universal Self-Decoder that performs multiple iterations via parameter sharing, while confining the iterative process to shallow, efficient-attention layers. This combination yields a favorable capability-efficiency tradeoff that neither YOCO nor recursion achieves independently. The YOCO architecture provides a constant global KV cache and linear pre-filling, while partial recursion enhances representational depth with limited overhead. Together, YOCO-U improves token utility and scaling behavior while maintaining efficient inference. Empirical results confirm that YOCO-U remains highly competitive in general and long-context benchmarks, demonstrating that the integration of efficient-attention architectures and recursive computation is a promising direction for scalable LLMs.
PDF111April 3, 2026