추론 시점 기법을 통한 미세 조정된 트랜스포머 능력 유도
Eliciting Fine-Tuned Transformer Capabilities via Inference-Time Techniques
June 9, 2025
저자: Asankhaya Sharma
cs.AI
초록
대규모 언어 모델은 자연어 처리 분야를 혁신적으로 변화시켰지만, 지도 미세 조정(SFT)은 여전히 계산적으로 많은 비용이 듭니다. 본 논문은 이상적인 가정 하에서(무한한 계산 자원과 미세 조정 데이터셋에 대한 접근 가능성을 포함), 모델 파라미터를 변경하지 않고도 추론 시점 기법, 특히 문맥 내 학습(ICL)을 통해 SFT를 통해 획득한 능력을 기본 트랜스포머 모델로 근사할 수 있음을 이론적으로 증명합니다. 또한 이러한 결과를 유한한 문맥 길이와 부분적인 데이터셋 접근이 가능한 실제 시나리오로 확장합니다. 고정된 출력 길이 l을 가지는 텍스트 생성 작업의 경우, 크기 Oleft( m V{varepsilon^2} log m{delta} right)의 데이터셋 또는 제한된 문맥 하에서 Oleft( l log V{varepsilon^2} log 1{delta} right)의 데이터셋이 m개의 문맥에서 오차 varepsilon 이내로 미세 조정된 동작을 근사하기에 충분합니다. 여기서 V는 어휘 크기이고 delta는 실패 확률입니다. 선형 분류의 경우, 크기 Oleft( d{varepsilon} right)의 데이터셋 또는 고정된 문맥 하에서 Oleft( 1{varepsilon^2} log 1{delta} right)의 데이터셋이 충분하며, 여기서 d는 입력 차원입니다. 트랜스포머의 튜링 완전성에 기반한 이러한 결과는 대규모 언어 모델의 자원 효율적인 배포를 위한 이론적 기반을 제공하며, 검색 증강 생성과 같은 실용적인 기법을 통해 이론을 실제 응용으로 연결합니다.
English
Large language models have transformed natural language processing, yet
supervised fine-tuning (SFT) remains computationally intensive. This paper
formally proves that capabilities acquired through SFT can be approximated by a
base transformer model using inference-time techniques, specifically in-context
learning (ICL), without altering model parameters, under idealized assumptions
including unbounded computational resources and access to the fine-tuning
dataset. We extend these results to practical scenarios with finite context
lengths and partial dataset access. For text generation tasks with fixed output
length l, datasets of size Oleft( m V{varepsilon^2} log
m{delta} right) or, with bounded context, Oleft( l
log V{varepsilon^2} log 1{delta} right) suffice to approximate
fine-tuned behavior across m contexts within error varepsilon, where V
is the vocabulary size and delta is the failure probability. For linear
classification, datasets of size Oleft( d{varepsilon}
right) or, with fixed context, Oleft( 1{varepsilon^2} log
1{delta} right) are sufficient, where d is the input dimension.
Grounded in the Turing completeness of transformers, these results provide a
theoretical foundation for resource-efficient deployment of large language
models, with practical techniques like retrieval-augmented generation bridging
theory to real-world applications.