인-컨텍스트 학습을 넘어서: 작업 고유 속성 지침을 통한 대규모 언어 모델의 장문 생성 정렬
Beyond In-Context Learning: Aligning Long-form Generation of Large Language Models via Task-Inherent Attribute Guidelines
June 2, 2025
저자: Do Xuan Long, Duong Ngoc Yen, Do Xuan Trong, Luu Anh Tuan, Kenji Kawaguchi, Shafiq Joty, Min-Yen Kan, Nancy F. Chen
cs.AI
초록
컨텍스트 내 학습(In-context learning, ICL)은 사전 훈련된 대규모 언어 모델(LLMs)의 중요하지만 완전히 이해되지 않은 능력 중 하나이다. ICL은 미세 조정 없이도 몇 가지 예시(데모)를 통해 작업 성능을 크게 향상시킬 수 있다. 질문 응답에서는 효과적이지만, 요약과 같은 장문 생성 작업에서는 종종 성능이 떨어진다. 적절히 현실적인 가정 하에서, 우리는 실증적 및 이론적으로 ICL 데모만으로는 LLMs에게 생성 작업을 위한 작업 언어 및 형식 분포를 가르치기에 불충분함을 보인다. 우리는 작업 분포에 대한 명시적 노출이 필요하며, 이를 프롬프트로 정의함으로써 모델 성능이 향상될 것이라는 가설을 제시한다. 이를 위해, 우리는 작업 언어 및 형식 속성을 포착하는 두 가지 병렬 가이드라인 스트림을 효율적으로 생성하는 LongGuide를 제안한다: (i) 모델이 자체 평가 지표를 최적화하도록 지시하는 메트릭 가이드라인(Metric Guidelines, MGs); (ii) 토큰 및 문장 수준에서 생성을 제한하는 출력 제약 가이드라인(Output Constraint Guidelines, OCGs). LongGuide는 자동으로 최적의 가이드라인 조합을 선택하여, 강력한 오픈소스 및 클로즈드소스 LLMs의 제로샷 및 퓨샷 설정에서 모두 5% 이상의 성능 향상을 이끌어낸다. 우리는 LongGuide가 일반화 가능하며, 약한 모델이 강한 모델을 향상시키기 위해 학습할 수 있고, 자동 프롬프트 최적화 도구와 시너지적으로 통합될 수 있음을 보인다.
English
In-context learning (ICL) is an important yet not fully understood ability of
pre-trained large language models (LLMs). It can greatly enhance task
performance using a few examples, termed demonstrations, without fine-tuning.
Although effective in question answering, ICL often underperforms in long-form
generation tasks such as summarization. Under appropriately realistic
assumptions, we empirically and theoretically show that ICL demonstrations
alone are insufficient to teach LLMs the task language and format distributions
for generation. We argue for explicit exposure to the task distributions and
hypothesize that defining them by prompting enhances model performance. To this
end, we present LongGuide, which efficiently generates two parallel streams of
guidelines capturing task language and format properties: (i) Metric Guidelines
(MGs) that instruct models to optimize self-evaluated metrics; and (ii) Output
Constraint Guidelines (OCGs) that constrain generation at both token and
sentence levels. LongGuide automatically selects the best combination of
guidelines, improving both strong open- and closed-source LLMs by over 5% in
both zero- and few-shot settings. We show that LongGuide is generalizable,
learnable by weak models to enhance strong ones, and integrates synergistically
with automatic prompt optimizers.