ChatPaper.aiChatPaper

POLCA: LLM 기반 확률적 생성 최적화

POLCA: Stochastic Generative Optimization with LLM

March 16, 2026
저자: Xuanfei Ren, Allen Nie, Tengyang Xie, Ching-An Cheng
cs.AI

초록

대규모 언어 모델(LLM) 프롬프트부터 다중 턴 에이전트에 이르기까지 복잡한 시스템을 최적화하는 작업은 전통적으로 노동 집약적인 수동 반복 과정을 필요로 해왔습니다. 본 연구에서는 이러한 과제를 생성형 언어 모델이 최적화자 역할을 하며 수치적 보상과 텍스트 피드백의 지도를 받아 최상의 시스템을 발견하는 확률적 생성 최적화 문제로 정형화합니다. 우리는 확률적 최적화(노이즈가 있는 피드백, 미니배치 샘플링, 확률적 시스템 동작 등)를 처리하고 솔루션 공간의 비제한적 확장을 효과적으로 관리하도록 설계된 확장 가능한 프레임워크인 POLCA(Prioritized Optimization with Local Contextual Aggregation)를 제안합니다. POLCA는 탐색과 활용 사이의 균형을 관리하기 위해 우선순위 큐를 유지하며, 후보 솔루션들과 그 평가 이력을 체계적으로 추적합니다. 효율성을 높이기 위해, 매개변수 다양성을 유지하는 ε-Net 메커니즘과 과거 시행 기록에 걸쳐 메타러닝을 수행하는 LLM 요약기를 통합합니다. 우리는 POLCA가 확률적 환경에서도 근사적 최적 후보 솔루션으로 수렴함을 이론적으로 증명합니다. τ-bench, HotpotQA(에이전트 최적화), VeriBench(코드 번역), KernelBench(CUDA 커널 생성) 등 다양한 벤치마크를 통해 우리의 프레임워크를 평가했습니다. 실험 결과, POLCA는 견고하고 샘플 및 시간 효율적인 성능을 달성하며, 결정론적 및 확률론적 문제 모두에서 최신 알고리즘들을 일관되게 능가하는 것을 보여줍니다. 본 연구의 코드베이스는 https://github.com/rlx-lab/POLCA 에서 공개되어 있습니다.
English
Optimizing complex systems, ranging from LLM prompts to multi-turn agents, traditionally requires labor-intensive manual iteration. We formalize this challenge as a stochastic generative optimization problem where a generative language model acts as the optimizer, guided by numerical rewards and text feedback to discover the best system. We introduce Prioritized Optimization with Local Contextual Aggregation (POLCA), a scalable framework designed to handle stochasticity in optimization -- such as noisy feedback, sampling minibatches, and stochastic system behaviors -- while effectively managing the unconstrained expansion of solution space. POLCA maintains a priority queue to manage the exploration-exploitation tradeoff, systematically tracking candidate solutions and their evaluation histories. To enhance efficiency, we integrate an varepsilon-Net mechanism to maintain parameter diversity and an LLM Summarizer to perform meta-learning across historical trials. We theoretically prove that POLCA converges to near-optimal candidate solutions under stochasticity. We evaluate our framework on diverse benchmarks, including τ-bench, HotpotQA (agent optimization), VeriBench (code translation) and KernelBench (CUDA kernel generation). Experimental results demonstrate that POLCA achieves robust, sample and time-efficient performance, consistently outperforming state-of-the-art algorithms in both deterministic and stochastic problems. The codebase for this work is publicly available at https://github.com/rlx-lab/POLCA.
PDF212March 18, 2026