Comprendere le Sfide nell'Ottimizzazione Generativa Iterativa con i Modelli Linguistici di Grande Dimensione

Abstract

L'ottimizzazione generativa utilizza modelli linguistici di grandi dimensioni (LLM) per migliorare iterativamente gli artefatti (come codice, flussi di lavoro o prompt) sfruttando il feedback di esecuzione. È un approccio promettente per costruire agenti auto-miglioranti, ma nella pratica rimane fragile: nonostante la ricerca attiva, solo il 9% degli agenti esaminati utilizzava una qualche forma di ottimizzazione automatizzata. Sosteniamo che questa fragilità derivi dal fatto che, per impostare un ciclo di apprendimento, un ingegnere deve compiere scelte progettuali "nascoste": cosa può modificare l'ottimizzatore e qual è l'evidenza di apprendimento "corretta" da fornire ad ogni aggiornamento? Indaghiamo tre fattori che riguardano la maggior parte delle applicazioni: l'artefatto iniziale, l'orizzonte del credito per le tracce di esecuzione, e il raggruppamento di tentativi ed errori in evidenze di apprendimento. Attraverso studi di caso in MLAgentBench, Atari e BigBench Extra Hard, scopriamo che queste decisioni progettuali possono determinare il successo dell'ottimizzazione generativa, eppure sono raramente rese esplicite nei lavori precedenti. Diversi artefatti iniziali determinano quali soluzioni sono raggiungibili in MLAgentBench, tracce troncate possono comunque migliorare gli agenti Atari, e batch più grandi non migliorano monotonicamente la generalizzazione su BBEH. Concludiamo che la mancanza di un modo semplice e universale per impostare cicli di apprendimento tra diversi domini è un ostacolo maggiore per la produzione e l'adozione. Forniamo indicazioni pratiche per effettuare queste scelte.

English

Generative optimization uses large language models (LLMs) to iteratively improve artifacts (such as code, workflows or prompts) using execution feedback. It is a promising approach to building self-improving agents, yet in practice remains brittle: despite active research, only 9% of surveyed agents used any automated optimization. We argue that this brittleness arises because, to set up a learning loop, an engineer must make ``hidden'' design choices: What can the optimizer edit and what is the "right" learning evidence to provide at each update? We investigate three factors that affect most applications: the starting artifact, the credit horizon for execution traces, and batching trials and errors into learning evidence. Through case studies in MLAgentBench, Atari, and BigBench Extra Hard, we find that these design decisions can determine whether generative optimization succeeds, yet they are rarely made explicit in prior work. Different starting artifacts determine which solutions are reachable in MLAgentBench, truncated traces can still improve Atari agents, and larger minibatches do not monotonically improve generalization on BBEH. We conclude that the lack of a simple, universal way to set up learning loops across domains is a major hurdle for productionization and adoption. We provide practical guidance for making these choices.

Comprendere le Sfide nell'Ottimizzazione Generativa Iterativa con i Modelli Linguistici di Grande Dimensione

Understanding the Challenges in Iterative Generative Optimization with LLMs

Abstract

Support