CALM Before the STORM: Раскрытие естественного мышления для оптимизации моделирования
CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling
October 5, 2025
Авторы: Zhengyang Tang, Zihan Ye, Chenyu Huang, Xuhan Huang, Chengpeng Li, Sihang Li, Guanhua Chen, Ming Yan, Zizhuo Wang, Hongyuan Zha, Dayiheng Liu, Benyou Wang
cs.AI
Аннотация
Крупные модели рассуждений (Large Reasoning Models, LRMs) продемонстрировали высокие способности в сложных многошаговых рассуждениях, открывая новые возможности для автоматизации задач оптимизационного моделирования. Однако существующие методы адаптации к предметной области, изначально разработанные для более ранних моделей, настроенных на инструкции, часто не способны использовать продвинутые паттерны рассуждений современных LRMs. В частности, мы показываем, что прямое тонкое настраивание на традиционных нерефлексивных наборах данных приводит к ограниченным улучшениям. Чтобы полностью раскрыть встроенные способности LRMs к рассуждениям, мы предлагаем CALM (Corrective Adaptation with Lightweight Modification) — фреймворк, который постепенно улучшает LRMs в их естественных режимах рассуждений для задач оптимизационного моделирования. В CALM эксперт-интервентор выявляет ошибки в рассуждениях и предоставляет краткие корректирующие подсказки, которые LRM использует для создания улучшенных траекторий рассуждений. Эти вмешательства изменяют менее 2,6% сгенерированных токенов, но создают высококачественные данные для мягкой адаптации через тонкое настраивание с учителем. Затем адаптированная модель дополнительно улучшается с помощью обучения с подкреплением. На основе CALM мы разрабатываем STORM (Smart Thinking Optimization Reasoning Model) — LRM с 4 миллиардами параметров, которая достигает нового рекордного среднего показателя точности 68,9% на пяти популярных бенчмарках оптимизационного моделирования, сопоставимого с производительностью LRM с 671 миллиардом параметров. Эти результаты демонстрируют, что динамический синтез данных на основе подсказок сохраняет и усиливает естественные паттерны рассуждений современных LRMs, предлагая более эффективный и масштабируемый путь к экспертному уровню производительности в сложных задачах оптимизационного моделирования.
English
Large Reasoning Models (LRMs) have demonstrated strong capabilities in
complex multi-step reasoning, opening new opportunities for automating
optimization modeling. However, existing domain adaptation methods, originally
designed for earlier instruction-tuned models, often fail to exploit the
advanced reasoning patterns of modern LRMs -- In particular, we show that
direct fine-tuning on traditional non-reflective datasets leads to
limited gains. To fully leverage LRMs' inherent reasoning abilities, we propose
CALM (Corrective Adaptation with Lightweight Modification), a
framework that progressively refines LRMs within their native reasoning modes
for optimization modeling tasks. In CALM, an expert intervener identifies
reasoning flaws and provides concise corrective hints, which the LRM
incorporates to produce improved reasoning trajectories. These interventions
modify fewer than 2.6\% of generated tokens, but generate high-quality data for
soft adaptation through supervised fine-tuning. The adapted model is then
further improved through reinforcement learning. Building on CALM, we develop
STORM (Smart Thinking Optimization Reasoning Model), a
4B-parameter LRM that achieves a new state-of-the-art average accuracy of
68.9\% across five popular optimization modeling benchmarks, matching the
performance of a 671B LRM. These results demonstrate that dynamic, hint-based
data synthesis both preserves and amplifies the native reasoning patterns of
modern LRMs, offering a more effective and scalable path towards expert-level
performance on challenging optimization modeling tasks.