文脈内でのプロンプト進化:オープンエンドで自己複製的な視点
Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective
June 22, 2025
著者: Jianyu Wang, Zhiqiang Hu, Lidong Bing
cs.AI
要旨
従来の大規模言語モデル(LLM)プロンプティングの常識に挑戦する、新しいプロンプト設計パラダイムを提案します。従来の常識では、文脈内学習(ICL)のために洗練された指示やデモンストレーションを重視しますが、ランダムなデモンストレーションを一見無意味な「無意味な言葉」に刈り込むことで、多様なタスクにおいて驚くほど性能が向上することを示します。特に、この「無意味な言葉」は常に最先端の自動プロンプト最適化技術を上回るか同等の結果を達成し、LLMのアラインメントに関係なく大幅な改善をもたらします。しかし、効果的な刈り込み戦略を発見することは容易ではなく、既存の帰属手法やプロンプト圧縮アルゴリズムは堅牢な結果を提供できず、人間の直感さえも頼りになりません。この点において、低データ体制のみを使用して自動的に刈り込み戦略を探索する進化的探索フレームワークであるPromptQuineを提案します。自然界で資源制約に応じて生じる共生や自己組織化といった創発的複雑さと同様に、このフレームワークは文脈内に存在するトークンのみを活用して、非伝統的でありながら非常に効果的なプロンプトを進化させ、洗練します。分類、多肢選択問題回答、生成、数学的推論タスクにおいて、LLM全体でその有効性を実証し、良好な実行効率を達成します。我々の発見が文脈内学習に関するメカニズム研究を導き、より効果的なLLMプロンプティングのためのよりオープンエンドな探索アルゴリズムへの道を開く呼び水となることを期待します。
English
We propose a novel prompt design paradigm that challenges conventional wisdom
in large language model (LLM) prompting. While conventional wisdom prioritizes
well-crafted instructions and demonstrations for in-context learning (ICL), we
show that pruning random demonstrations into seemingly incoherent "gibberish"
can remarkably improve performance across diverse tasks. Notably, the
"gibberish" always matches or surpasses state-of-the-art automatic prompt
optimization techniques, achieving substantial gains regardless of LLM
alignment. Nevertheless, discovering an effective pruning strategy is
non-trivial, as existing attribution methods and prompt compression algorithms
fail to deliver robust results, let alone human intuition. In terms of this, we
propose a self-discover prompt optimization framework, PromptQuine, an
evolutionary search framework that automatically searches for the pruning
strategy by itself using only low-data regimes. Much like the emergent
complexity in nature--such as symbiosis and self-organization--arising in
response to resource constraints, our framework evolves and refines
unconventional yet highly effective prompts by leveraging only the tokens
present within the context. We demonstrate its effectiveness across
classification, multi-choice question answering, generation and math reasoning
tasks across LLMs, while achieving decent runtime efficiency. We hope our
findings can guide mechanistic studies on in-context learning, and provide a
call to action, to pave the way for more open-ended search algorithms for more
effective LLM prompting.