AlphaOPT: Formulación de Programas de Optimización con una Biblioteca de Experiencias de Auto-mejora de LLM
AlphaOPT: Formulating Optimization Programs with Self-Improving LLM Experience Library
October 21, 2025
Autores: Minwei Kong, Ao Qu, Xiaotong Guo, Wenbin Ouyang, Chonghe Jiang, Han Zheng, Yining Ma, Dingyi Zhuang, Yuhan Tang, Junyi Li, Hai Wang, Cathy Wu, Jinhua Zhao
cs.AI
Resumen
La modelización de optimización permite tomar decisiones críticas en diversas industrias, pero sigue siendo difícil de automatizar: el lenguaje informal debe traducirse en formulaciones matemáticas precisas y código ejecutable para solucionadores. Los enfoques previos basados en modelos de lenguaje (LLM) dependen de indicaciones frágiles o de costosos reentrenamientos con una generalización limitada. Presentamos AlphaOPT, una biblioteca de experiencia que se mejora a sí misma y permite que un LLM aprenda a partir de demostraciones limitadas (incluso solo respuestas, sin programas de referencia) y retroalimentación del solucionador, sin necesidad de trazas de razonamiento anotadas ni actualizaciones de parámetros. AlphaOPT opera en un ciclo continuo de dos fases: (i) una fase de Aprendizaje de la Biblioteca que reflexiona sobre intentos fallidos, extrayendo conocimientos estructurados verificados por el solucionador como {taxonomía, condición, explicación, ejemplo}; y (ii) una fase de Evolución de la Biblioteca que diagnostica desalineaciones en la recuperación y refina las condiciones de aplicabilidad de los conocimientos almacenados, mejorando la transferencia entre tareas. Este diseño (1) aprende eficientemente a partir de demostraciones limitadas sin racionales curados, (2) se expande continuamente sin costosos reentrenamientos al actualizar la biblioteca en lugar de los pesos del modelo, y (3) hace explícito e interpretable el conocimiento para su inspección e intervención humana. Los experimentos muestran que AlphaOPT mejora constantemente con más datos (del 65% al 72% al pasar de 100 a 300 elementos de entrenamiento) y supera al mejor modelo de referencia en un 7.7% en el conjunto de datos fuera de distribución OptiBench cuando se entrena solo con respuestas. El código y los datos están disponibles en: https://github.com/Minw913/AlphaOPT.
English
Optimization modeling enables critical decisions across industries but
remains difficult to automate: informal language must be mapped to precise
mathematical formulations and executable solver code. Prior LLM approaches
either rely on brittle prompting or costly retraining with limited
generalization. We present AlphaOPT, a self-improving experience library that
enables an LLM to learn from limited demonstrations (even answers alone,
without gold-standard programs) and solver feedback - without annotated
reasoning traces or parameter updates. AlphaOPT operates in a continual
two-phase cycle: (i) a Library Learning phase that reflects on failed attempts,
extracting solver-verified, structured insights as {taxonomy, condition,
explanation, example}; and (ii) a Library Evolution phase that diagnoses
retrieval misalignments and refines the applicability conditions of stored
insights, improving transfer across tasks. This design (1) learns efficiently
from limited demonstrations without curated rationales, (2) expands continually
without costly retraining by updating the library rather than model weights,
and (3) makes knowledge explicit and interpretable for human inspection and
intervention. Experiments show that AlphaOPT steadily improves with more data
(65% to 72% from 100 to 300 training items) and surpasses the strongest
baseline by 7.7% on the out-of-distribution OptiBench dataset when trained only
on answers. Code and data are available at:
https://github.com/Minw913/AlphaOPT.