ChatPaper.aiChatPaper

大規模言語モデルを用いた反復的生成最適化における課題の理解

Understanding the Challenges in Iterative Generative Optimization with LLMs

March 25, 2026
著者: Allen Nie, Xavier Daull, Zhiyi Kuang, Abhinav Akkiraju, Anish Chaudhuri, Max Piasevoli, Ryan Rong, YuCheng Yuan, Prerit Choudhary, Shannon Xiao, Rasool Fakoor, Adith Swaminathan, Ching-An Cheng
cs.AI

要旨

生成的最適化は、大規模言語モデル(LLM)を用いて実行フィードバックを通じて成果物(コード、ワークフロー、プロンプトなど)を反復的に改善する手法である。これは自己改善型エージェント構築に向けた有望なアプローチであるが、実際には依然として脆弱性を抱えている:活発な研究にもかかわらず、調査対象エージェントのわずか9%しか自動化された最適化を採用していない。我々は、この脆弱性の原因が学習ループを構築する際にエンジニアが「隠れた」設計判断を迫られる点にあると主張する:最適化対象が編集可能な要素は何か、各更新で提供すべき「適切な」学習証拠とは何か?本論文では、ほとんどの応用に影響を与える3つの要因を検証する:初期成果物、実行トレースの信用割り当て範囲、試行錯誤の学習証拠へのバッチ処理である。MLAgentBench、Atari、BigBench Extra Hardにおけるケーススタディを通じて、これらの設計判断が生成的最適化の成否を決定し得るにもかかわらず、従来の研究では明示されないことが多いことを明らかにする。異なる初期成果物はMLAgentBenchで到達可能な解を決定し、切断されたトレースでもAtariエージェントを改善可能であり、大きなミニバッチはBBEHの汎化性能を単調に向上させない。我々は、領域横断的に学習ループを構築する単純で普遍的な方法の欠如が実用化と普及における主要な障壁であると結論付ける。これらの選択を行う実践的な指針を提供する。
English
Generative optimization uses large language models (LLMs) to iteratively improve artifacts (such as code, workflows or prompts) using execution feedback. It is a promising approach to building self-improving agents, yet in practice remains brittle: despite active research, only 9% of surveyed agents used any automated optimization. We argue that this brittleness arises because, to set up a learning loop, an engineer must make ``hidden'' design choices: What can the optimizer edit and what is the "right" learning evidence to provide at each update? We investigate three factors that affect most applications: the starting artifact, the credit horizon for execution traces, and batching trials and errors into learning evidence. Through case studies in MLAgentBench, Atari, and BigBench Extra Hard, we find that these design decisions can determine whether generative optimization succeeds, yet they are rarely made explicit in prior work. Different starting artifacts determine which solutions are reachable in MLAgentBench, truncated traces can still improve Atari agents, and larger minibatches do not monotonically improve generalization on BBEH. We conclude that the lack of a simple, universal way to set up learning loops across domains is a major hurdle for productionization and adoption. We provide practical guidance for making these choices.
PDF131March 27, 2026