Понимание проблем итеративной генеративной оптимизации с использованием больших языковых моделей
Understanding the Challenges in Iterative Generative Optimization with LLMs
March 25, 2026
Авторы: Allen Nie, Xavier Daull, Zhiyi Kuang, Abhinav Akkiraju, Anish Chaudhuri, Max Piasevoli, Ryan Rong, YuCheng Yuan, Prerit Choudhary, Shannon Xiao, Rasool Fakoor, Adith Swaminathan, Ching-An Cheng
cs.AI
Аннотация
Генеративная оптимизация использует большие языковые модели (LLM) для итеративного улучшения артефактов (таких как код, рабочие процессы или промпты) с использованием обратной связи от выполнения. Это перспективный подход к созданию самообучающихся агентов, однако на практике он остается хрупким: несмотря на активные исследования, только 9% изученных агентов использовали какую-либо автоматическую оптимизацию. Мы утверждаем, что эта хрупкость возникает из-за того, что для настройки цикла обучения инженер должен сделать «скрытые» проектные решения: что может редактировать оптимизатор и какие «правильные» обучающие данные предоставлять на каждом шаге обновления? Мы исследуем три фактора, влияющих на большинство приложений: исходный артефакт, горизонт кредитования для трасс выполнения и объединение проб и ошибок в пакеты для формирования обучающих данных. В ходе кейс-стади в MLAgentBench, Atari и BigBench Extra Hard мы обнаружили, что эти проектные решения могут определять успех генеративной оптимизации, однако в предыдущих работах они редко формулируются явно. Различные стартовые артефакты определяют, какие решения достижимы в MLAgentBench, усеченные трассы все еще могут улучшать агентов в Atari, а увеличение размера мини-батч не приводит к монотонному улучшению обобщения на BBEH. Мы заключаем, что отсутствие простого универсального способа настройки циклов обучения в различных областях является серьезным препятствием для внедрения в производство и широкого распространения. Мы предлагаем практические рекомендации для принятия этих решений.
English
Generative optimization uses large language models (LLMs) to iteratively improve artifacts (such as code, workflows or prompts) using execution feedback. It is a promising approach to building self-improving agents, yet in practice remains brittle: despite active research, only 9% of surveyed agents used any automated optimization. We argue that this brittleness arises because, to set up a learning loop, an engineer must make ``hidden'' design choices: What can the optimizer edit and what is the "right" learning evidence to provide at each update? We investigate three factors that affect most applications: the starting artifact, the credit horizon for execution traces, and batching trials and errors into learning evidence. Through case studies in MLAgentBench, Atari, and BigBench Extra Hard, we find that these design decisions can determine whether generative optimization succeeds, yet they are rarely made explicit in prior work. Different starting artifacts determine which solutions are reachable in MLAgentBench, truncated traces can still improve Atari agents, and larger minibatches do not monotonically improve generalization on BBEH. We conclude that the lack of a simple, universal way to set up learning loops across domains is a major hurdle for productionization and adoption. We provide practical guidance for making these choices.