AlphaOPT: Formulazione di Programmi di Ottimizzazione con una Libreria di Esperienze Auto-Migliorative basata su LLM
AlphaOPT: Formulating Optimization Programs with Self-Improving LLM Experience Library
October 21, 2025
Autori: Minwei Kong, Ao Qu, Xiaotong Guo, Wenbin Ouyang, Chonghe Jiang, Han Zheng, Yining Ma, Dingyi Zhuang, Yuhan Tang, Junyi Li, Hai Wang, Cathy Wu, Jinhua Zhao
cs.AI
Abstract
La modellizzazione di ottimizzazione consente decisioni critiche in vari settori, ma rimane difficile da automatizzare: il linguaggio informale deve essere mappato su formulazioni matematiche precise e codice eseguibile per i risolutori. Gli approcci precedenti basati su LLM si affidano a prompt fragili o a costosi riaddestramenti con una generalizzazione limitata. Presentiamo AlphaOPT, una libreria di esperienze auto-migliorante che consente a un LLM di apprendere da dimostrazioni limitate (anche solo dalle risposte, senza programmi di riferimento) e dal feedback del risolutore, senza tracce di ragionamento annotate o aggiornamenti dei parametri. AlphaOPT opera in un ciclo continuo a due fasi: (i) una fase di Apprendimento della Libreria che riflette sui tentativi falliti, estraendo intuizioni strutturate verificate dal risolutore come {tassonomia, condizione, spiegazione, esempio}; e (ii) una fase di Evoluzione della Libreria che diagnostica disallineamenti nel recupero e affina le condizioni di applicabilità delle intuizioni memorizzate, migliorando il trasferimento tra i compiti. Questo design (1) apprende in modo efficiente da dimostrazioni limitate senza razionali curati, (2) si espande continuamente senza costosi riaddestramenti aggiornando la libreria anziché i pesi del modello, e (3) rende la conoscenza esplicita e interpretabile per l'ispezione e l'intervento umano. Gli esperimenti mostrano che AlphaOPT migliora costantemente con più dati (dal 65% al 72% da 100 a 300 elementi di addestramento) e supera il baseline più forte del 7,7% sul dataset out-of-distribution OptiBench quando addestrato solo sulle risposte. Codice e dati sono disponibili su: https://github.com/Minw913/AlphaOPT.
English
Optimization modeling enables critical decisions across industries but
remains difficult to automate: informal language must be mapped to precise
mathematical formulations and executable solver code. Prior LLM approaches
either rely on brittle prompting or costly retraining with limited
generalization. We present AlphaOPT, a self-improving experience library that
enables an LLM to learn from limited demonstrations (even answers alone,
without gold-standard programs) and solver feedback - without annotated
reasoning traces or parameter updates. AlphaOPT operates in a continual
two-phase cycle: (i) a Library Learning phase that reflects on failed attempts,
extracting solver-verified, structured insights as {taxonomy, condition,
explanation, example}; and (ii) a Library Evolution phase that diagnoses
retrieval misalignments and refines the applicability conditions of stored
insights, improving transfer across tasks. This design (1) learns efficiently
from limited demonstrations without curated rationales, (2) expands continually
without costly retraining by updating the library rather than model weights,
and (3) makes knowledge explicit and interpretable for human inspection and
intervention. Experiments show that AlphaOPT steadily improves with more data
(65% to 72% from 100 to 300 training items) and surpasses the strongest
baseline by 7.7% on the out-of-distribution OptiBench dataset when trained only
on answers. Code and data are available at:
https://github.com/Minw913/AlphaOPT.