ChatPaper.aiChatPaper

LLM을 활용한 반복적 생성 최적화의 과제 이해

Understanding the Challenges in Iterative Generative Optimization with LLMs

March 25, 2026
저자: Allen Nie, Xavier Daull, Zhiyi Kuang, Abhinav Akkiraju, Anish Chaudhuri, Max Piasevoli, Ryan Rong, YuCheng Yuan, Prerit Choudhary, Shannon Xiao, Rasool Fakoor, Adith Swaminathan, Ching-An Cheng
cs.AI

초록

생성적 최적화는 대규모 언어 모델(LLM)을 사용하여 실행 피드백을 바탕으로 아티팩트(코드, 워크플로우 또는 프롬프트 등)를 반복적으로 개선하는 방법론입니다. 이는 자기 개선 에이전트 구축에 유망한 접근법이지만, 실제로는 여전히 취약한 성격을 보입니다: 활발한 연구에도 불구하고, 조사된 에이전트 중 단 9%만이 자동화된 최적화를 사용했습니다. 우리는 이러한 취약성이 학습 루프를 설정하기 위해 엔지니어가 '숨겨진' 설계 선택(최적화 도구가 무엇을 수정할 수 있으며, 각 업데이트 시 제공할 '올바른' 학습 증거는 무엇인가?)을 해야 하기 때문에 발생한다고 주장합니다. 본 논문은 대부분의 응용 분야에 영향을 미치는 세 가지 요인인 시작 아티팩트, 실행 추적에 대한 신용 지평(credit horizon), 그리고 시행착오를 학습 증거로 배치 처리하는 방법을 조사합니다. MLAgentBench, Atari, BigBench Extra Hard(BBEH)에 대한 사례 연구를 통해, 이러한 설계 결정이 생성적 최적화의 성공 여부를 결정할 수 있음에도 불구하고 선행 연구에서 명시적으로 다루어진 경우가 드물다는 사실을 발견했습니다. 서로 다른 시작 아티팩트는 MLAgentBench에서 도달 가능한 솔루션을 결정하며, 단절된 추적(truncated traces)으로도 Atari 에이전트를 개선할 수 있고, 더 큰 미니배치(minibatches)가 BBEH에서 일반화 성능을 단조롭게(monotonically) 향상시키지는 않았습니다. 우리는 도메인 간에 학습 루프를 설정하는 간단하고 보편적인 방법의 부족이 실제 제품화 및 채택의 주요 장벽이라고 결론지습니다. 본 논문은 이러한 선택을 하는 데 실용적인 지침을 제공합니다.
English
Generative optimization uses large language models (LLMs) to iteratively improve artifacts (such as code, workflows or prompts) using execution feedback. It is a promising approach to building self-improving agents, yet in practice remains brittle: despite active research, only 9% of surveyed agents used any automated optimization. We argue that this brittleness arises because, to set up a learning loop, an engineer must make ``hidden'' design choices: What can the optimizer edit and what is the "right" learning evidence to provide at each update? We investigate three factors that affect most applications: the starting artifact, the credit horizon for execution traces, and batching trials and errors into learning evidence. Through case studies in MLAgentBench, Atari, and BigBench Extra Hard, we find that these design decisions can determine whether generative optimization succeeds, yet they are rarely made explicit in prior work. Different starting artifacts determine which solutions are reachable in MLAgentBench, truncated traces can still improve Atari agents, and larger minibatches do not monotonically improve generalization on BBEH. We conclude that the lack of a simple, universal way to set up learning loops across domains is a major hurdle for productionization and adoption. We provide practical guidance for making these choices.
PDF131March 27, 2026