컨텍스트 인식 스케일링 법칙을 통한 작업 성능 예측
Predicting Task Performance with Context-aware Scaling Laws
October 16, 2025
저자: Kyle Montgomery, David Park, Jianhong Tu, Michael Bendersky, Beliz Gunel, Dawn Song, Chenguang Wang
cs.AI
초록
스케일링 법칙은 모델 크기, 훈련 데이터, 컴퓨팅 자원과 같은 설계 요소를 크로스 엔트로피 손실과 같은 상위 지표와 연결함으로써 대규모 언어 모델에 대한 우리의 이해를 혁신적으로 변화시켰습니다. 그러나 이러한 기존의 법칙은 문맥이 중요한 역할을 하는 하위 작업 성능을 포착하지 못합니다. 본 연구에서는 훈련에 투입된 컴퓨팅 자원과 제공된 문맥의 함수로 하위 작업 성능을 공동으로 모델링하는 직관적이고 해석 가능한 프레임워크를 제안합니다. 우리는 Llama-2-7B와 Llama-2-13B의 확장 문맥 변형 모델을 산술 추론, 상식 추론, 기계 번역 등 세 가지 작업에 걸쳐 65,500개의 고유한 인스턴스에서 관찰된 하위 작업 성능에 이 프레임워크를 적용하여 실증적으로 검증했습니다. 우리의 결과는 이 프레임워크가 분포 내 하위 작업 성능을 정확하게 모델링하고, 훈련 컴퓨팅 자원의 세 배수에 걸쳐 일반화하며, 문맥 양이 증가함에 따라 성능을 신뢰성 있게 외삽할 수 있음을 보여줍니다. 이러한 발견은 훈련 컴퓨팅 자원과 문맥 활용 간의 상호작용에 대한 귀중한 통찰을 제공하며, 다양한 하위 작업을 위한 더 효율적인 장문맥 LLM 설계에 대한 지침을 제시합니다. 우리의 코드는 https://github.com/wang-research-lab/context-scaling에서 확인할 수 있습니다.
English
Scaling laws have transformed our understanding of large language models by
linking upstream metrics like cross-entropy loss to design factors such as
model size, training data, and compute. However, these conventional laws fail
to capture downstream task performance, where context plays a critical role. In
this work, we propose a straightforward, interpretable framework that jointly
models downstream performance as a function of the training compute and the
provided context. We empirically validate our framework by fitting it on the
observed downstream performance of extended-context variants of Llama-2-7B and
Llama-2-13B across 65,500 unique instances spanning three tasks: arithmetic
reasoning, common sense reasoning, and machine translation. Our results
demonstrate that our framework accurately models in-distribution downstream
performance, generalizes across three orders of magnitude in training compute,
and reliably extrapolates performance as the amount of context increases. These
findings offer valuable insights into the interplay between training compute
and context utilization, providing guidance for designing more efficient
long-context LLMs for diverse downstream tasks. Our code is available at
https://github.com/wang-research-lab/context-scaling.