POLCA: Stochastische generative Optimierung mit LLM

Zusammenfassung

Die Optimierung komplexer Systeme, von LLM-Prompts bis hin zu Multi-Turn-Agenten, erfordert traditionell arbeitsintensive manuelle Iterationen. Wir formalisieren diese Herausforderung als ein stochastisches generatives Optimierungsproblem, bei dem ein generatives Sprachmodell als Optimierer agiert und durch numerische Belohnungen und Textfeedback geleitet wird, um das beste System zu finden. Wir stellen Prioritized Optimization with Local Contextual Aggregation (POLCA) vor, einen skalierbaren Rahmen, der entwickelt wurde, um Stochastizität in der Optimierung – wie verrauschtes Feedback, Stichproben-Minibatches und stochastisches Systemverhalten – zu handhaben und gleichzeitig die unkontrollierte Ausweitung des Lösungsraums effektiv zu verwalten. POLCA verwaltet eine Prioritätswarteschlange, um den Trade-off zwischen Exploration und Exploitation zu steuern, und verfolgt systematisch Kandidatenlösungen sowie deren Bewertungshistorien. Um die Effizienz zu steigern, integrieren wir einen ε-Net-Mechanismus zur Aufrechterhaltung der Parameterdiversität und einen LLM-Summarizer zur Durchführung von Meta-Learning über historische Versuche hinweg. Wir beweisen theoretisch, dass POLCA unter Stochastizität gegen nahezu optimale Kandidatenlösungen konvergiert. Wir evaluieren unseren Rahmen anhand diverser Benchmarks, darunter τ-bench, HotpotQA (Agentenoptimierung), VeriBench (Code-Übersetzung) und KernelBench (CUDA-Kernel-Generierung). Experimentelle Ergebnisse zeigen, dass POLCA eine robuste, proben- und zeiteffiziente Leistung erzielt und durchgängig state-of-the-art Algorithmen bei deterministischen und stochastischen Problemen übertrifft. Die Codebasis für diese Arbeit ist öffentlich unter https://github.com/rlx-lab/POLCA verfügbar.

English

Optimizing complex systems, ranging from LLM prompts to multi-turn agents, traditionally requires labor-intensive manual iteration. We formalize this challenge as a stochastic generative optimization problem where a generative language model acts as the optimizer, guided by numerical rewards and text feedback to discover the best system. We introduce Prioritized Optimization with Local Contextual Aggregation (POLCA), a scalable framework designed to handle stochasticity in optimization -- such as noisy feedback, sampling minibatches, and stochastic system behaviors -- while effectively managing the unconstrained expansion of solution space. POLCA maintains a priority queue to manage the exploration-exploitation tradeoff, systematically tracking candidate solutions and their evaluation histories. To enhance efficiency, we integrate an varepsilon-Net mechanism to maintain parameter diversity and an LLM Summarizer to perform meta-learning across historical trials. We theoretically prove that POLCA converges to near-optimal candidate solutions under stochasticity. We evaluate our framework on diverse benchmarks, including τ-bench, HotpotQA (agent optimization), VeriBench (code translation) and KernelBench (CUDA kernel generation). Experimental results demonstrate that POLCA achieves robust, sample and time-efficient performance, consistently outperforming state-of-the-art algorithms in both deterministic and stochastic problems. The codebase for this work is publicly available at https://github.com/rlx-lab/POLCA.

POLCA: Stochastische generative Optimierung mit LLM

POLCA: Stochastic Generative Optimization with LLM

Zusammenfassung

Support