Compreendendo os Desafios na Otimização Generativa Iterativa com LLMs

Resumo

A otimização generativa utiliza modelos de linguagem de grande escala (LLMs) para melhorar iterativamente artefatos (como código, fluxos de trabalho ou instruções) usando *feedback* de execução. É uma abordagem promissora para a construção de agentes de autoaprimoramento, mas na prática permanece frágil: apesar da pesquisa ativa, apenas 9% dos agentes pesquisados utilizaram qualquer otimização automatizada. Argumentamos que essa fragilidade surge porque, para configurar um ciclo de aprendizagem, um engenheiro deve tomar escolhas de design "ocultas": O que o otimizador pode editar e qual é a evidência de aprendizagem "correta" a fornecer em cada atualização? Investigamos três fatores que afetam a maioria das aplicações: o artefato inicial, o horizonte de crédito para traços de execução e o agrupamento de tentativas e erros em evidências de aprendizagem. Através de estudos de caso em MLAgentBench, Atari e BigBench Extra Hard, descobrimos que essas decisões de projeto podem determinar se a otimização generativa tem sucesso, mas raramente são explicitadas em trabalhos anteriores. Diferentes artefatos iniciais determinam quais soluções são alcançáveis no MLAgentBench, traços truncados ainda podem melhorar agentes no Atari, e lotes maiores não melhoram monotonicamente a generalização no BBEH. Concluímos que a falta de uma maneira simples e universal de configurar ciclos de aprendizagem entre domínios é um grande obstáculo para a produção e adoção. Fornecemos orientações práticas para fazer essas escolhas.

English

Generative optimization uses large language models (LLMs) to iteratively improve artifacts (such as code, workflows or prompts) using execution feedback. It is a promising approach to building self-improving agents, yet in practice remains brittle: despite active research, only 9% of surveyed agents used any automated optimization. We argue that this brittleness arises because, to set up a learning loop, an engineer must make ``hidden'' design choices: What can the optimizer edit and what is the "right" learning evidence to provide at each update? We investigate three factors that affect most applications: the starting artifact, the credit horizon for execution traces, and batching trials and errors into learning evidence. Through case studies in MLAgentBench, Atari, and BigBench Extra Hard, we find that these design decisions can determine whether generative optimization succeeds, yet they are rarely made explicit in prior work. Different starting artifacts determine which solutions are reachable in MLAgentBench, truncated traces can still improve Atari agents, and larger minibatches do not monotonically improve generalization on BBEH. We conclude that the lack of a simple, universal way to set up learning loops across domains is a major hurdle for productionization and adoption. We provide practical guidance for making these choices.

Compreendendo os Desafios na Otimização Generativa Iterativa com LLMs

Understanding the Challenges in Iterative Generative Optimization with LLMs

Resumo

Support