POLCA: Otimização Generativa Estocástica com LLM

Resumo

A otimização de sistemas complexos, desde prompts de LLM até agentes multi-turn, requer tradicionalmente uma iteração manual intensiva. Formalizamos este desafio como um problema de otimização generativa estocástica, no qual um modelo de linguagem generativo atua como otimizador, guiado por recompensas numéricas e feedback textual para descobrir o melhor sistema. Introduzimos o POLCA (Prioritized Optimization with Local Contextual Aggregation), uma estrutura escalável concebida para lidar com a estocasticidade na otimização — como feedback ruidoso, amostragem de minibatches e comportamentos estocásticos do sistema — enquanto gere eficazmente a expansão não restrita do espaço de soluções. O POLCA mantém uma fila de prioridades para gerir o compromisso entre exploração e exploração, acompanhando sistematicamente soluções candidatas e os seus históricos de avaliação. Para aumentar a eficiência, integramos um mecanismo de ε-Rede para manter a diversidade de parâmetros e um Resumidor de LLM para realizar meta-aprendizagem através de tentativas históricas. Provamos teoricamente que o POLCA converge para soluções candidatas quase ótimas sob estocasticidade. Avaliamos a nossa estrutura em diversas benchmarks, incluindo τ-bench, HotpotQA (otimização de agentes), VeriBench (tradução de código) e KernelBench (geração de kernels CUDA). Os resultados experimentais demonstram que o POLCA alcança um desempenho robusto, eficiente em amostras e em tempo, superando consistentemente os algoritmos state-of-the-art tanto em problemas determinísticos como estocásticos. A base de código deste trabalho está publicamente disponível em https://github.com/rlx-lab/POLCA.

English

Optimizing complex systems, ranging from LLM prompts to multi-turn agents, traditionally requires labor-intensive manual iteration. We formalize this challenge as a stochastic generative optimization problem where a generative language model acts as the optimizer, guided by numerical rewards and text feedback to discover the best system. We introduce Prioritized Optimization with Local Contextual Aggregation (POLCA), a scalable framework designed to handle stochasticity in optimization -- such as noisy feedback, sampling minibatches, and stochastic system behaviors -- while effectively managing the unconstrained expansion of solution space. POLCA maintains a priority queue to manage the exploration-exploitation tradeoff, systematically tracking candidate solutions and their evaluation histories. To enhance efficiency, we integrate an varepsilon-Net mechanism to maintain parameter diversity and an LLM Summarizer to perform meta-learning across historical trials. We theoretically prove that POLCA converges to near-optimal candidate solutions under stochasticity. We evaluate our framework on diverse benchmarks, including τ-bench, HotpotQA (agent optimization), VeriBench (code translation) and KernelBench (CUDA kernel generation). Experimental results demonstrate that POLCA achieves robust, sample and time-efficient performance, consistently outperforming state-of-the-art algorithms in both deterministic and stochastic problems. The codebase for this work is publicly available at https://github.com/rlx-lab/POLCA.

POLCA: Otimização Generativa Estocástica com LLM

POLCA: Stochastic Generative Optimization with LLM

Resumo

Support