AlphaOPT: 자기 개선형 LLM 경험 라이브러리를 활용한 최적화 프로그램 공식화
AlphaOPT: Formulating Optimization Programs with Self-Improving LLM Experience Library
October 21, 2025
저자: Minwei Kong, Ao Qu, Xiaotong Guo, Wenbin Ouyang, Chonghe Jiang, Han Zheng, Yining Ma, Dingyi Zhuang, Yuhan Tang, Junyi Li, Hai Wang, Cathy Wu, Jinhua Zhao
cs.AI
초록
최적화 모델링은 다양한 산업 분야에서 중요한 의사결정을 가능하게 하지만, 이를 자동화하는 것은 여전히 어려운 과제입니다: 비공식적인 언어를 정확한 수학적 공식화와 실행 가능한 솔버 코드로 매핑해야 합니다. 기존의 대형 언어 모델(LLM) 접근법은 취약한 프롬프팅에 의존하거나 제한된 일반화 능력을 가진 비용이 많이 드는 재학습을 필요로 했습니다. 우리는 AlphaOPT를 제안합니다. 이는 LLM이 제한된 데모(심지어 정답만으로도, 골드 스탠다드 프로그램 없이)와 솔버 피드백을 통해 학습할 수 있도록 하는 자기 개선형 경험 라이브러리로, 주석이 달린 추적 기록이나 매개변수 업데이트 없이도 작동합니다. AlphaOPT는 지속적인 두 단계 사이클로 운영됩니다: (i) 실패한 시도를 반영하여 솔버 검증된 구조화된 통찰을 {분류, 조건, 설명, 예시}로 추출하는 라이브러리 학습 단계, 그리고 (ii) 검색 불일치를 진단하고 저장된 통찰의 적용 조건을 개선하여 작업 간 전이를 향상시키는 라이브러리 진화 단계입니다. 이 설계는 (1) 정제된 근거 없이도 제한된 데모로부터 효율적으로 학습하고, (2) 모델 가중치 대신 라이브러리를 업데이트함으로써 비용이 많이 드는 재학습 없이 지속적으로 확장하며, (3) 지식을 명시적이고 해석 가능하게 만들어 인간의 검사와 개입을 가능하게 합니다. 실험 결과, AlphaOPT는 더 많은 데이터로 꾸준히 개선되었으며(100개에서 300개 훈련 항목으로 65%에서 72%로 증가), 정답만으로 훈련했을 때 분포 외 OptiBench 데이터셋에서 가장 강력한 베이스라인을 7.7% 앞섰습니다. 코드와 데이터는 https://github.com/Minw913/AlphaOPT에서 확인할 수 있습니다.
English
Optimization modeling enables critical decisions across industries but
remains difficult to automate: informal language must be mapped to precise
mathematical formulations and executable solver code. Prior LLM approaches
either rely on brittle prompting or costly retraining with limited
generalization. We present AlphaOPT, a self-improving experience library that
enables an LLM to learn from limited demonstrations (even answers alone,
without gold-standard programs) and solver feedback - without annotated
reasoning traces or parameter updates. AlphaOPT operates in a continual
two-phase cycle: (i) a Library Learning phase that reflects on failed attempts,
extracting solver-verified, structured insights as {taxonomy, condition,
explanation, example}; and (ii) a Library Evolution phase that diagnoses
retrieval misalignments and refines the applicability conditions of stored
insights, improving transfer across tasks. This design (1) learns efficiently
from limited demonstrations without curated rationales, (2) expands continually
without costly retraining by updating the library rather than model weights,
and (3) makes knowledge explicit and interpretable for human inspection and
intervention. Experiments show that AlphaOPT steadily improves with more data
(65% to 72% from 100 to 300 training items) and surpasses the strongest
baseline by 7.7% on the out-of-distribution OptiBench dataset when trained only
on answers. Code and data are available at:
https://github.com/Minw913/AlphaOPT.