Comprendiendo los Desafíos en la Optimización Generativa Iterativa con Modelos de Lenguaje a Gran Escala

Resumen

La optimización generativa utiliza modelos de lenguaje grandes (LLMs) para mejorar iterativamente artefactos (como código, flujos de trabajo o instrucciones) utilizando retroalimentación de la ejecución. Es un enfoque prometedor para construir agentes de auto-mejora, pero en la práctica sigue siendo frágil: a pesar de la investigación activa, solo el 9% de los agentes encuestados utilizaron cualquier tipo de optimización automatizada. Sostenemos que esta fragilidad surge porque, para configurar un ciclo de aprendizaje, un ingeniero debe tomar decisiones de diseño "ocultas": ¿Qué puede editar el optimizador y cuál es la evidencia de aprendizaje "correcta" para proporcionar en cada actualización? Investigamos tres factores que afectan a la mayoría de las aplicaciones: el artefacto inicial, el horizonte de crédito para las trazas de ejecución y la agrupación de ensayos y errores en evidencia de aprendizaje. A través de estudios de caso en MLAgentBench, Atari y BigBench Extra Hard, encontramos que estas decisiones de diseño pueden determinar si la optimización generativa tiene éxito, sin embargo, rara vez se explicitan en trabajos previos. Diferentes artefactos iniciales determinan qué soluciones son alcanzables en MLAgentBench, las trazas truncadas aún pueden mejorar los agentes de Atari, y lotes más grandes no mejoran monótonamente la generalización en BBEH. Concluimos que la falta de una forma simple y universal de configurar ciclos de aprendizaje en diferentes dominios es un obstáculo importante para la producción y la adopción. Proporcionamos orientación práctica para tomar estas decisiones.

English

Generative optimization uses large language models (LLMs) to iteratively improve artifacts (such as code, workflows or prompts) using execution feedback. It is a promising approach to building self-improving agents, yet in practice remains brittle: despite active research, only 9% of surveyed agents used any automated optimization. We argue that this brittleness arises because, to set up a learning loop, an engineer must make ``hidden'' design choices: What can the optimizer edit and what is the "right" learning evidence to provide at each update? We investigate three factors that affect most applications: the starting artifact, the credit horizon for execution traces, and batching trials and errors into learning evidence. Through case studies in MLAgentBench, Atari, and BigBench Extra Hard, we find that these design decisions can determine whether generative optimization succeeds, yet they are rarely made explicit in prior work. Different starting artifacts determine which solutions are reachable in MLAgentBench, truncated traces can still improve Atari agents, and larger minibatches do not monotonically improve generalization on BBEH. We conclude that the lack of a simple, universal way to set up learning loops across domains is a major hurdle for productionization and adoption. We provide practical guidance for making these choices.

Comprendiendo los Desafíos en la Optimización Generativa Iterativa con Modelos de Lenguaje a Gran Escala

Understanding the Challenges in Iterative Generative Optimization with LLMs

Resumen

Support