AlphaOPT: Formulierung von Optimierungsprogrammen mit einer selbstverbessernden LLM-Erfahrungsbibliothek

papers.abstract

Optimierungsmodellierung ermöglicht kritische Entscheidungen in verschiedenen Branchen, bleibt jedoch schwierig zu automatisieren: informelle Sprache muss in präzise mathematische Formulierungen und ausführbaren Solver-Code abgebildet werden. Bisherige LLM-Ansätze (Large Language Models) verlassen sich entweder auf anfällige Prompting-Techniken oder auf kostspieliges Retraining mit begrenzter Generalisierungsfähigkeit. Wir stellen AlphaOPT vor, eine sich selbst verbessernde Erfahrungsbibliothek, die es einem LLM ermöglicht, aus begrenzten Demonstrationen (sogar nur aus Antworten, ohne goldstandardisierte Programme) und Solver-Feedback zu lernen – ohne annotierte Begründungsspuren oder Parameteraktualisierungen. AlphaOPT arbeitet in einem kontinuierlichen Zwei-Phasen-Zyklus: (i) einer Bibliothekslernphase, die gescheiterte Versuche reflektiert und solver-verifizierte, strukturierte Erkenntnisse als {Taxonomie, Bedingung, Erklärung, Beispiel} extrahiert; und (ii) einer Bibliotheksentwicklungsphase, die Fehlausrichtungen bei der Abfrage diagnostiziert und die Anwendbarkeitsbedingungen gespeicherter Erkenntnisse verfeinert, um die Übertragbarkeit über Aufgaben hinweg zu verbessern. Dieser Ansatz (1) lernt effizient aus begrenzten Demonstrationen ohne kuratierte Begründungen, (2) erweitert sich kontinuierlich ohne kostspieliges Retraining, indem die Bibliothek anstelle der Modellgewichte aktualisiert wird, und (3) macht Wissen explizit und interpretierbar für menschliche Überprüfung und Eingriffe. Experimente zeigen, dass AlphaOPT mit mehr Daten stetig besser wird (65 % auf 72 % bei 100 bis 300 Trainingsbeispielen) und den stärksten Baseline-Ansatz um 7,7 % auf dem Out-of-Distribution-Datensatz OptiBench übertrifft, wenn es nur auf Antworten trainiert wird. Code und Daten sind verfügbar unter: https://github.com/Minw913/AlphaOPT.

English

Optimization modeling enables critical decisions across industries but remains difficult to automate: informal language must be mapped to precise mathematical formulations and executable solver code. Prior LLM approaches either rely on brittle prompting or costly retraining with limited generalization. We present AlphaOPT, a self-improving experience library that enables an LLM to learn from limited demonstrations (even answers alone, without gold-standard programs) and solver feedback - without annotated reasoning traces or parameter updates. AlphaOPT operates in a continual two-phase cycle: (i) a Library Learning phase that reflects on failed attempts, extracting solver-verified, structured insights as {taxonomy, condition, explanation, example}; and (ii) a Library Evolution phase that diagnoses retrieval misalignments and refines the applicability conditions of stored insights, improving transfer across tasks. This design (1) learns efficiently from limited demonstrations without curated rationales, (2) expands continually without costly retraining by updating the library rather than model weights, and (3) makes knowledge explicit and interpretable for human inspection and intervention. Experiments show that AlphaOPT steadily improves with more data (65% to 72% from 100 to 300 training items) and surpasses the strongest baseline by 7.7% on the out-of-distribution OptiBench dataset when trained only on answers. Code and data are available at: https://github.com/Minw913/AlphaOPT.

AlphaOPT: Formulierung von Optimierungsprogrammen mit einer selbstverbessernden LLM-Erfahrungsbibliothek

AlphaOPT: Formulating Optimization Programs with Self-Improving LLM Experience Library

papers.abstract

Support