Verständnis der Herausforderungen bei iterativer generativer Optimierung mit LLMs

Zusammenfassung

Generative Optimierung nutzt große Sprachmodelle (LLMs), um Artefakte (wie Code, Workflows oder Prompts) iterativ mithilfe von Ausführungsfeedback zu verbessern. Es handelt sich um einen vielversprechenden Ansatz zum Aufbau selbstverbessernder Agenten, der in der Praxis jedoch nach wie vor anfällig ist: Trotz aktiver Forschung nutzten nur 9 % der untersuchten Agenten eine automatisierte Optimierung. Wir argumentieren, dass diese Anfälligkeit daher rührt, dass ein Ingenieur für die Einrichtung einer Lernschleife „versteckte“ Designentscheidungen treffen muss: Was kann der Optimierer ändern und was ist der „richtige“ Lernbeleg, der bei jedem Update bereitgestellt werden soll? Wir untersuchen drei Faktoren, die die meisten Anwendungen betreffen: das Ausgangsartefakt, den Kredithorizont für Ausführungsspuren sowie das Bündeln von Versuchen und Irrtümern zu Lernbelegen. Anhand von Fallstudien in MLAgentBench, Atari und BigBench Extra Hard stellen wir fest, dass diese Designentscheidungen darüber entscheiden können, ob die generative Optimierung erfolgreich ist, sie jedoch in früheren Arbeiten selten explizit gemacht wurden. Unterschiedliche Ausgangsartefakte bestimmen, welche Lösungen in MLAgentBench erreichbar sind, verkürzte Spuren können Atari-Agenten dennoch verbessern, und größere Minibatches verbessern die Generalisierung auf BBEH nicht monoton. Wir kommen zu dem Schluss, dass das Fehlen einer einfachen, universellen Methode zur Einrichtung von Lernschleifen über Domänen hinweg ein großes Hindernis für die Produktreife und Einführung darstellt. Wir geben praktische Hinweise für diese Entscheidungen.

English

Generative optimization uses large language models (LLMs) to iteratively improve artifacts (such as code, workflows or prompts) using execution feedback. It is a promising approach to building self-improving agents, yet in practice remains brittle: despite active research, only 9% of surveyed agents used any automated optimization. We argue that this brittleness arises because, to set up a learning loop, an engineer must make ``hidden'' design choices: What can the optimizer edit and what is the "right" learning evidence to provide at each update? We investigate three factors that affect most applications: the starting artifact, the credit horizon for execution traces, and batching trials and errors into learning evidence. Through case studies in MLAgentBench, Atari, and BigBench Extra Hard, we find that these design decisions can determine whether generative optimization succeeds, yet they are rarely made explicit in prior work. Different starting artifacts determine which solutions are reachable in MLAgentBench, truncated traces can still improve Atari agents, and larger minibatches do not monotonically improve generalization on BBEH. We conclude that the lack of a simple, universal way to set up learning loops across domains is a major hurdle for productionization and adoption. We provide practical guidance for making these choices.

Verständnis der Herausforderungen bei iterativer generativer Optimierung mit LLMs

Understanding the Challenges in Iterative Generative Optimization with LLMs

Zusammenfassung

Support