AlphaOPT: Формулирование оптимизационных программ с использованием самообучающейся библиотеки опыта на основе языковых моделей
AlphaOPT: Formulating Optimization Programs with Self-Improving LLM Experience Library
October 21, 2025
Авторы: Minwei Kong, Ao Qu, Xiaotong Guo, Wenbin Ouyang, Chonghe Jiang, Han Zheng, Yining Ma, Dingyi Zhuang, Yuhan Tang, Junyi Li, Hai Wang, Cathy Wu, Jinhua Zhao
cs.AI
Аннотация
Моделирование оптимизации позволяет принимать ключевые решения в различных отраслях, но остается сложным для автоматизации: неформальный язык необходимо преобразовать в точные математические формулировки и исполняемый код для решателей. Предыдущие подходы с использованием больших языковых моделей (LLM) либо полагаются на ненадежные подсказки, либо требуют дорогостоящего переобучения с ограниченной обобщающей способностью. Мы представляем AlphaOPT — самообучающуюся библиотеку опыта, которая позволяет LLM учиться на ограниченных демонстрациях (даже только на ответах, без эталонных программ) и обратной связи от решателя — без аннотированных трассировок рассуждений или обновления параметров. AlphaOPT работает в непрерывном двухфазном цикле: (i) фаза обучения библиотеки, которая анализирует неудачные попытки, извлекая проверенные решателем структурированные инсайты в виде {таксономия, условие, объяснение, пример}; и (ii) фаза эволюции библиотеки, которая диагностирует несоответствия при извлечении и уточняет условия применимости сохраненных инсайтов, улучшая перенос знаний между задачами. Этот дизайн (1) эффективно обучается на ограниченных демонстрациях без тщательно подготовленных обоснований, (2) непрерывно расширяется без дорогостоящего переобучения, обновляя библиотеку вместо весов модели, и (3) делает знания явными и интерпретируемыми для проверки и вмешательства со стороны человека. Эксперименты показывают, что AlphaOPT стабильно улучшается с увеличением объема данных (с 65% до 72% при увеличении обучающих элементов с 100 до 300) и превосходит самый сильный базовый метод на 7,7% на наборе данных OptiBench вне распределения, обучаясь только на ответах. Код и данные доступны по адресу: https://github.com/Minw913/AlphaOPT.
English
Optimization modeling enables critical decisions across industries but
remains difficult to automate: informal language must be mapped to precise
mathematical formulations and executable solver code. Prior LLM approaches
either rely on brittle prompting or costly retraining with limited
generalization. We present AlphaOPT, a self-improving experience library that
enables an LLM to learn from limited demonstrations (even answers alone,
without gold-standard programs) and solver feedback - without annotated
reasoning traces or parameter updates. AlphaOPT operates in a continual
two-phase cycle: (i) a Library Learning phase that reflects on failed attempts,
extracting solver-verified, structured insights as {taxonomy, condition,
explanation, example}; and (ii) a Library Evolution phase that diagnoses
retrieval misalignments and refines the applicability conditions of stored
insights, improving transfer across tasks. This design (1) learns efficiently
from limited demonstrations without curated rationales, (2) expands continually
without costly retraining by updating the library rather than model weights,
and (3) makes knowledge explicit and interpretable for human inspection and
intervention. Experiments show that AlphaOPT steadily improves with more data
(65% to 72% from 100 to 300 training items) and surpasses the strongest
baseline by 7.7% on the out-of-distribution OptiBench dataset when trained only
on answers. Code and data are available at:
https://github.com/Minw913/AlphaOPT.