ChatPaper.aiChatPaper

POLCA: Стохастическая генеративная оптимизация с использованием больших языковых моделей

POLCA: Stochastic Generative Optimization with LLM

March 16, 2026
Авторы: Xuanfei Ren, Allen Nie, Tengyang Xie, Ching-An Cheng
cs.AI

Аннотация

Оптимизация сложных систем, от промптов больших языковых моделей (LLM) до многошаговых агентов, традиционно требует трудоемкой ручной итерации. Мы формализуем эту задачу как стохастическую проблему генеративной оптимизации, в которой генеративная языковая модель выступает в роли оптимизатора, направляемого численными вознаграждениями и текстовой обратной связью для поиска наилучшей системы. Мы представляем Приоритизированную Оптимизацию с Локальной Контекстной Агрегацией (POLCA) — масштабируемую структуру, предназначенную для работы со стохастичностью в оптимизации (такой как зашумленная обратная связь, выборка мини-пакетов и стохастическое поведение систем) при эффективном управлении неограниченным расширением пространства решений. POLCA использует очередь с приоритетами для управления компромиссом между исследованием и использованием, систематически отслеживая кандидатные решения и историю их оценки. Для повышения эффективности мы интегрируем механизм ε-сети для поддержания разнообразия параметров и модуль LLM-суммаризации для выполнения мета-обучения на основе исторических испытаний. Мы теоретически доказываем, что POLCA сходится к почти оптимальным кандидатным решениям в условиях стохастичности. Мы оцениваем нашу структуру на различных бенчмарках, включая τ-bench, HotpotQA (оптимизация агентов), VeriBench (перевод кода) и KernelBench (генерация CUDA-ядeр). Результаты экспериментов демонстрируют, что POLCA обеспечивает надежную, ресурсо- и временно-эффективную производительность, стабильно превосходя современные алгоритмы как в детерминированных, так и в стохастических задачах. Кодовая база для данной работы общедоступна по адресу https://github.com/rlx-lab/POLCA.
English
Optimizing complex systems, ranging from LLM prompts to multi-turn agents, traditionally requires labor-intensive manual iteration. We formalize this challenge as a stochastic generative optimization problem where a generative language model acts as the optimizer, guided by numerical rewards and text feedback to discover the best system. We introduce Prioritized Optimization with Local Contextual Aggregation (POLCA), a scalable framework designed to handle stochasticity in optimization -- such as noisy feedback, sampling minibatches, and stochastic system behaviors -- while effectively managing the unconstrained expansion of solution space. POLCA maintains a priority queue to manage the exploration-exploitation tradeoff, systematically tracking candidate solutions and their evaluation histories. To enhance efficiency, we integrate an varepsilon-Net mechanism to maintain parameter diversity and an LLM Summarizer to perform meta-learning across historical trials. We theoretically prove that POLCA converges to near-optimal candidate solutions under stochasticity. We evaluate our framework on diverse benchmarks, including τ-bench, HotpotQA (agent optimization), VeriBench (code translation) and KernelBench (CUDA kernel generation). Experimental results demonstrate that POLCA achieves robust, sample and time-efficient performance, consistently outperforming state-of-the-art algorithms in both deterministic and stochastic problems. The codebase for this work is publicly available at https://github.com/rlx-lab/POLCA.
PDF212March 18, 2026