AlphaOPT : Formulation de programmes d'optimisation avec une bibliothèque d'expériences auto-améliorée basée sur des modèles de langage
AlphaOPT: Formulating Optimization Programs with Self-Improving LLM Experience Library
October 21, 2025
papers.authors: Minwei Kong, Ao Qu, Xiaotong Guo, Wenbin Ouyang, Chonghe Jiang, Han Zheng, Yining Ma, Dingyi Zhuang, Yuhan Tang, Junyi Li, Hai Wang, Cathy Wu, Jinhua Zhao
cs.AI
papers.abstract
La modélisation d'optimisation permet de prendre des décisions critiques dans divers secteurs, mais reste difficile à automatiser : un langage informel doit être traduit en formulations mathématiques précises et en code exécutable par des solveurs. Les approches précédentes basées sur les modèles de langage (LLM) reposent soit sur des incitations fragiles, soit sur un réentraînement coûteux avec une généralisation limitée. Nous présentons AlphaOPT, une bibliothèque d'expériences auto-améliorante qui permet à un LLM d'apprendre à partir de démonstrations limitées (même uniquement des réponses, sans programmes de référence) et des retours des solveurs – sans traces de raisonnement annotées ni mises à jour de paramètres. AlphaOPT fonctionne selon un cycle continu en deux phases : (i) une phase d'apprentissage de la bibliothèque qui analyse les tentatives infructueuses, en extrayant des insights structurés et vérifiés par le solveur sous la forme {taxonomie, condition, explication, exemple} ; et (ii) une phase d'évolution de la bibliothèque qui diagnostique les désalignements de récupération et affine les conditions d'applicabilité des insights stockés, améliorant ainsi le transfert entre les tâches. Cette conception (1) apprend efficacement à partir de démonstrations limitées sans rationales soigneusement préparées, (2) s'étend continuellement sans réentraînement coûteux en mettant à jour la bibliothèque plutôt que les poids du modèle, et (3) rend les connaissances explicites et interprétables pour l'inspection et l'intervention humaine. Les expériences montrent qu'AlphaOPT s'améliore régulièrement avec davantage de données (de 65 % à 72 % pour 100 à 300 éléments d'entraînement) et surpasse le meilleur modèle de référence de 7,7 % sur le jeu de données hors distribution OptiBench lorsqu'il est entraîné uniquement sur des réponses. Le code et les données sont disponibles à l'adresse : https://github.com/Minw913/AlphaOPT.
English
Optimization modeling enables critical decisions across industries but
remains difficult to automate: informal language must be mapped to precise
mathematical formulations and executable solver code. Prior LLM approaches
either rely on brittle prompting or costly retraining with limited
generalization. We present AlphaOPT, a self-improving experience library that
enables an LLM to learn from limited demonstrations (even answers alone,
without gold-standard programs) and solver feedback - without annotated
reasoning traces or parameter updates. AlphaOPT operates in a continual
two-phase cycle: (i) a Library Learning phase that reflects on failed attempts,
extracting solver-verified, structured insights as {taxonomy, condition,
explanation, example}; and (ii) a Library Evolution phase that diagnoses
retrieval misalignments and refines the applicability conditions of stored
insights, improving transfer across tasks. This design (1) learns efficiently
from limited demonstrations without curated rationales, (2) expands continually
without costly retraining by updating the library rather than model weights,
and (3) makes knowledge explicit and interpretable for human inspection and
intervention. Experiments show that AlphaOPT steadily improves with more data
(65% to 72% from 100 to 300 training items) and surpasses the strongest
baseline by 7.7% on the out-of-distribution OptiBench dataset when trained only
on answers. Code and data are available at:
https://github.com/Minw913/AlphaOPT.