文脈内学習を超えて:タスク固有の属性ガイドラインによる大規模言語モデルの長文生成の整合化
Beyond In-Context Learning: Aligning Long-form Generation of Large Language Models via Task-Inherent Attribute Guidelines
June 2, 2025
著者: Do Xuan Long, Duong Ngoc Yen, Do Xuan Trong, Luu Anh Tuan, Kenji Kawaguchi, Shafiq Joty, Min-Yen Kan, Nancy F. Chen
cs.AI
要旨
インコンテキスト学習(ICL)は、事前学習済みの大規模言語モデル(LLM)が持つ重要でありながら完全には理解されていない能力である。ICLは、ファインチューニングを行わずに、少数の例(デモンストレーションと呼ばれる)を使用してタスクのパフォーマンスを大幅に向上させることができる。質問応答においては効果的であるが、要約などの長文生成タスクではしばしば性能が低下する。適切に現実的な仮定の下で、我々は経験的および理論的に、ICLのデモンストレーションだけではLLMに生成のためのタスク言語とフォーマットの分布を教えるには不十分であることを示す。我々は、タスク分布への明示的な曝露を主張し、それらをプロンプトによって定義することがモデルの性能を向上させると仮説を立てる。この目的のために、タスク言語とフォーマットの特性を捉えた2つの並列ガイドラインを効率的に生成するLongGuideを提案する:(i)モデルに自己評価メトリクスを最適化するよう指示するメトリックガイドライン(MGs);(ii)トークンおよび文レベルで生成を制約する出力制約ガイドライン(OCGs)。LongGuideは、最適なガイドラインの組み合わせを自動的に選択し、強力なオープンソースおよびクローズドソースのLLMのゼロショットおよび少数ショット設定において、両方で5%以上性能を向上させる。LongGuideは一般化可能であり、弱いモデルによって学習されて強いモデルを強化することができ、自動プロンプト最適化ツールと相乗的に統合されることを示す。
English
In-context learning (ICL) is an important yet not fully understood ability of
pre-trained large language models (LLMs). It can greatly enhance task
performance using a few examples, termed demonstrations, without fine-tuning.
Although effective in question answering, ICL often underperforms in long-form
generation tasks such as summarization. Under appropriately realistic
assumptions, we empirically and theoretically show that ICL demonstrations
alone are insufficient to teach LLMs the task language and format distributions
for generation. We argue for explicit exposure to the task distributions and
hypothesize that defining them by prompting enhances model performance. To this
end, we present LongGuide, which efficiently generates two parallel streams of
guidelines capturing task language and format properties: (i) Metric Guidelines
(MGs) that instruct models to optimize self-evaluated metrics; and (ii) Output
Constraint Guidelines (OCGs) that constrain generation at both token and
sentence levels. LongGuide automatically selects the best combination of
guidelines, improving both strong open- and closed-source LLMs by over 5% in
both zero- and few-shot settings. We show that LongGuide is generalizable,
learnable by weak models to enhance strong ones, and integrates synergistically
with automatic prompt optimizers.