AlphaOPT: Optimalisatieprogramma's Formuleren met een Zelfverbeterende LLM-Ervaringsbibliotheek
AlphaOPT: Formulating Optimization Programs with Self-Improving LLM Experience Library
October 21, 2025
Auteurs: Minwei Kong, Ao Qu, Xiaotong Guo, Wenbin Ouyang, Chonghe Jiang, Han Zheng, Yining Ma, Dingyi Zhuang, Yuhan Tang, Junyi Li, Hai Wang, Cathy Wu, Jinhua Zhao
cs.AI
Samenvatting
Optimalisatiemodellering maakt cruciale beslissingen mogelijk in verschillende sectoren, maar blijft moeilijk te automatiseren: informele taal moet worden omgezet in precieze wiskundige formuleringen en uitvoerbare solvercode. Eerdere LLM-benaderingen vertrouwen op kwetsbare prompting of kostbare hertraining met beperkte generalisatie. Wij presenteren AlphaOPT, een zelfverbeterende ervaringsbibliotheek die een LLM in staat stelt te leren van beperkte demonstraties (zelfs alleen antwoorden, zonder gouden-standaardprogramma's) en solverfeedback - zonder geannoteerde redeneersporen of parameterupdates. AlphaOPT werkt in een voortdurende tweefasige cyclus: (i) een Bibliotheekleerfase die reflecteert op mislukte pogingen, waarbij solver-geverifieerde, gestructureerde inzichten worden geëxtraheerd als {taxonomie, conditie, uitleg, voorbeeld}; en (ii) een Bibliotheekevolutiefase die retrieval-misalignments diagnosticeert en de toepassingsvoorwaarden van opgeslagen inzichten verfijnt, waardoor de overdracht tussen taken wordt verbeterd. Dit ontwerp (1) leert efficiënt van beperkte demonstraties zonder gecureerde redeneringen, (2) breidt zich voortdurend uit zonder kostbare hertraining door de bibliotheek bij te werken in plaats van modelgewichten, en (3) maakt kennis expliciet en interpreteerbaar voor menselijke inspectie en interventie. Experimenten tonen aan dat AlphaOPT gestaag verbetert met meer data (65% tot 72% van 100 tot 300 trainingsitems) en de sterkste baseline met 7,7% overtreft op de out-of-distribution OptiBench-dataset wanneer alleen op antwoorden getraind. Code en data zijn beschikbaar op: https://github.com/Minw913/AlphaOPT.
English
Optimization modeling enables critical decisions across industries but
remains difficult to automate: informal language must be mapped to precise
mathematical formulations and executable solver code. Prior LLM approaches
either rely on brittle prompting or costly retraining with limited
generalization. We present AlphaOPT, a self-improving experience library that
enables an LLM to learn from limited demonstrations (even answers alone,
without gold-standard programs) and solver feedback - without annotated
reasoning traces or parameter updates. AlphaOPT operates in a continual
two-phase cycle: (i) a Library Learning phase that reflects on failed attempts,
extracting solver-verified, structured insights as {taxonomy, condition,
explanation, example}; and (ii) a Library Evolution phase that diagnoses
retrieval misalignments and refines the applicability conditions of stored
insights, improving transfer across tasks. This design (1) learns efficiently
from limited demonstrations without curated rationales, (2) expands continually
without costly retraining by updating the library rather than model weights,
and (3) makes knowledge explicit and interpretable for human inspection and
intervention. Experiments show that AlphaOPT steadily improves with more data
(65% to 72% from 100 to 300 training items) and surpasses the strongest
baseline by 7.7% on the out-of-distribution OptiBench dataset when trained only
on answers. Code and data are available at:
https://github.com/Minw913/AlphaOPT.