AlphaOPT: Formulação de Programas de Otimização com Biblioteca de Experiência de Autoaprimoramento de LLM
AlphaOPT: Formulating Optimization Programs with Self-Improving LLM Experience Library
October 21, 2025
Autores: Minwei Kong, Ao Qu, Xiaotong Guo, Wenbin Ouyang, Chonghe Jiang, Han Zheng, Yining Ma, Dingyi Zhuang, Yuhan Tang, Junyi Li, Hai Wang, Cathy Wu, Jinhua Zhao
cs.AI
Resumo
A modelagem de otimização possibilita decisões críticas em diversas indústrias, mas ainda é difícil de automatizar: a linguagem informal precisa ser mapeada para formulações matemáticas precisas e código executável por solvers. Abordagens anteriores com LLMs dependem de prompts frágeis ou de retreinamentos custosos com generalização limitada. Apresentamos o AlphaOPT, uma biblioteca de experiência que se autoaperfeiçoa e permite que um LLM aprenda a partir de demonstrações limitadas (apenas respostas, sem programas de referência) e feedback de solvers — sem rastros de raciocínio anotados ou atualizações de parâmetros. O AlphaOPT opera em um ciclo contínuo de duas fases: (i) uma fase de Aprendizado da Biblioteca, que reflete sobre tentativas falhas, extraindo insights estruturados e verificados pelo solver como {taxonomia, condição, explicação, exemplo}; e (ii) uma fase de Evolução da Biblioteca, que diagnostica desalinhamentos na recuperação e refina as condições de aplicabilidade dos insights armazenados, melhorando a transferência entre tarefas. Esse design (1) aprende de forma eficiente a partir de demonstrações limitadas sem racionais curados, (2) se expande continuamente sem retreinamentos custosos, atualizando a biblioteca em vez dos pesos do modelo, e (3) torna o conhecimento explícito e interpretável para inspeção e intervenção humana. Experimentos mostram que o AlphaOPT melhora consistentemente com mais dados (de 65% para 72% ao passar de 100 para 300 itens de treinamento) e supera a linha de base mais forte em 7,7% no conjunto de dados OptiBench fora da distribuição, quando treinado apenas com respostas. Código e dados estão disponíveis em: https://github.com/Minw913/AlphaOPT.
English
Optimization modeling enables critical decisions across industries but
remains difficult to automate: informal language must be mapped to precise
mathematical formulations and executable solver code. Prior LLM approaches
either rely on brittle prompting or costly retraining with limited
generalization. We present AlphaOPT, a self-improving experience library that
enables an LLM to learn from limited demonstrations (even answers alone,
without gold-standard programs) and solver feedback - without annotated
reasoning traces or parameter updates. AlphaOPT operates in a continual
two-phase cycle: (i) a Library Learning phase that reflects on failed attempts,
extracting solver-verified, structured insights as {taxonomy, condition,
explanation, example}; and (ii) a Library Evolution phase that diagnoses
retrieval misalignments and refines the applicability conditions of stored
insights, improving transfer across tasks. This design (1) learns efficiently
from limited demonstrations without curated rationales, (2) expands continually
without costly retraining by updating the library rather than model weights,
and (3) makes knowledge explicit and interpretable for human inspection and
intervention. Experiments show that AlphaOPT steadily improves with more data
(65% to 72% from 100 to 300 training items) and surpasses the strongest
baseline by 7.7% on the out-of-distribution OptiBench dataset when trained only
on answers. Code and data are available at:
https://github.com/Minw913/AlphaOPT.