Inzicht in de uitdagingen bij iteratieve generatieve optimalisatie met LLM's

Samenvatting

Generatieve optimalisatie gebruikt grote taalmodellen (LLM's) om artefacten (zoals code, workflows of prompts) iteratief te verbeteren met behulp van uitvoeringsfeedback. Het is een veelbelovende benadering voor het bouwen van zelfverbeterende agents, maar blijft in de praktijk broos: ondanks actief onderzoek gebruikte slechts 9% van de onderzochte agents enige geautomatiseerde optimalisatie. Wij stellen dat deze broosheid ontstaat omdat een ingenieur om een leerlus op te zetten ``verborgen'' ontwerpkeuzes moet maken: Wat kan de optimalisator bewerken en wat is het "juiste" leerbewijs om bij elke update te verschaffen? Wij onderzoeken drie factoren die de meeste toepassingen beïnvloeden: het startartefact, de krediethorizon voor uitvoeringstrajecten, en het bundelen van trials en errors tot leerbewijs. Via casestudies in MLAgentBench, Atari en BigBench Extra Hard stellen we vast dat deze ontwerpbeslissingen kunnen bepalen of generatieve optimalisatie slaagt, maar dat ze zelden expliciet worden gemaakt in eerder werk. Verschillende startartefacten bepalen welke oplossingen bereikbaar zijn in MLAgentBench, afgekapte trajecten kunnen Atari-agents nog steeds verbeteren, en grotere minibatches verbeteren de generalisatie op BBEH niet monotoon. Wij concluderen dat het ontbreken van een eenvoudige, universele manier om leerlussen op te zetten over domeinen heen een grote hindernis is voor productisering en adoptie. Wij geven praktische richtlijnen voor het maken van deze keuzes.

English

Generative optimization uses large language models (LLMs) to iteratively improve artifacts (such as code, workflows or prompts) using execution feedback. It is a promising approach to building self-improving agents, yet in practice remains brittle: despite active research, only 9% of surveyed agents used any automated optimization. We argue that this brittleness arises because, to set up a learning loop, an engineer must make ``hidden'' design choices: What can the optimizer edit and what is the "right" learning evidence to provide at each update? We investigate three factors that affect most applications: the starting artifact, the credit horizon for execution traces, and batching trials and errors into learning evidence. Through case studies in MLAgentBench, Atari, and BigBench Extra Hard, we find that these design decisions can determine whether generative optimization succeeds, yet they are rarely made explicit in prior work. Different starting artifacts determine which solutions are reachable in MLAgentBench, truncated traces can still improve Atari agents, and larger minibatches do not monotonically improve generalization on BBEH. We conclude that the lack of a simple, universal way to set up learning loops across domains is a major hurdle for productionization and adoption. We provide practical guidance for making these choices.

Inzicht in de uitdagingen bij iteratieve generatieve optimalisatie met LLM's

Understanding the Challenges in Iterative Generative Optimization with LLMs

Samenvatting

Support