Comprendre les défis de l'optimisation générative itérative avec les LLM

Résumé

L'optimisation générative utilise de grands modèles de langage (LLM) pour améliorer itérativement des artefacts (tels que du code, des flux de travail ou des prompts) en s'appuyant sur des retours d'exécution. C'est une approche prometteuse pour construire des agents auto-améliorants, mais elle reste en pratique fragile : malgré une recherche active, seulement 9 % des agents étudiés utilisaient une optimisation automatisée. Nous soutenons que cette fragilité provient du fait que, pour mettre en place une boucle d'apprentissage, un ingénieur doit faire des choix de conception « cachés » : Que peut modifier l'optimiseur et quelle est la « bonne » preuve d'apprentissage à fournir à chaque mise à jour ? Nous étudions trois facteurs qui affectent la plupart des applications : l'artefact de départ, l'horizon de crédit pour les traces d'exécution, et le regroupement des essais et erreurs en preuves d'apprentissage. À travers des études de cas dans MLAgentBench, Atari et BigBench Extra Hard, nous constatons que ces décisions de conception peuvent déterminer si l'optimisation générative réussit, pourtant elles sont rarement explicitées dans les travaux antérieurs. Différents artefacts de départ déterminent quelles solutions sont atteignables dans MLAgentBench, des traces tronquées peuvent encore améliorer les agents Atari, et des mini-lots plus grands n'améliorent pas de manière monotone la généralisation sur BBEH. Nous concluons que l'absence d'un moyen simple et universel de configurer des boucles d'apprentissage entre les domaines constitue un obstacle majeur à l'industrialisation et à l'adoption. Nous fournissons des conseils pratiques pour effectuer ces choix.

English

Generative optimization uses large language models (LLMs) to iteratively improve artifacts (such as code, workflows or prompts) using execution feedback. It is a promising approach to building self-improving agents, yet in practice remains brittle: despite active research, only 9% of surveyed agents used any automated optimization. We argue that this brittleness arises because, to set up a learning loop, an engineer must make ``hidden'' design choices: What can the optimizer edit and what is the "right" learning evidence to provide at each update? We investigate three factors that affect most applications: the starting artifact, the credit horizon for execution traces, and batching trials and errors into learning evidence. Through case studies in MLAgentBench, Atari, and BigBench Extra Hard, we find that these design decisions can determine whether generative optimization succeeds, yet they are rarely made explicit in prior work. Different starting artifacts determine which solutions are reachable in MLAgentBench, truncated traces can still improve Atari agents, and larger minibatches do not monotonically improve generalization on BBEH. We conclude that the lack of a simple, universal way to set up learning loops across domains is a major hurdle for productionization and adoption. We provide practical guidance for making these choices.

Comprendre les défis de l'optimisation générative itérative avec les LLM

Understanding the Challenges in Iterative Generative Optimization with LLMs

Résumé

Support