CALM Voor de STORM: Het Ontsluiten van Natuurlijk Redeneren voor Optimalisatiemodellering
CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling
October 5, 2025
Auteurs: Zhengyang Tang, Zihan Ye, Chenyu Huang, Xuhan Huang, Chengpeng Li, Sihang Li, Guanhua Chen, Ming Yan, Zizhuo Wang, Hongyuan Zha, Dayiheng Liu, Benyou Wang
cs.AI
Samenvatting
Grote Redeneermodellen (LRMs) hebben sterke capaciteiten getoond in complexe, meerstaps redenering, wat nieuwe mogelijkheden opent voor het automatiseren van optimalisatiemodellering. Bestaande methoden voor domeinaanpassing, oorspronkelijk ontworpen voor eerdere instructie-afgestemde modellen, slagen er echter vaak niet in om de geavanceerde redeneerpatronen van moderne LRMs te benutten. In het bijzonder laten we zien dat directe fine-tuning op traditionele niet-reflectieve datasets slechts beperkte verbeteringen oplevert. Om de inherente redeneervermogens van LRMs volledig te benutten, stellen we CALM (Corrective Adaptation with Lightweight Modification) voor, een raamwerk dat LRMs geleidelijk verfijnt binnen hun natuurlijke redeneermodi voor optimalisatiemodelleringstaken. In CALM identificeert een expert interventies redeneerfouten en geeft beknopte correctieve hints, die de LRM incorporeert om verbeterde redeneertrajecten te produceren. Deze interventies wijzigen minder dan 2,6% van de gegenereerde tokens, maar genereren hoogwaardige data voor zachte aanpassing via supervised fine-tuning. Het aangepaste model wordt vervolgens verder verbeterd door reinforcement learning. Op basis van CALM ontwikkelen we STORM (Smart Thinking Optimization Reasoning Model), een 4B-parameter LRM dat een nieuwe state-of-the-art gemiddelde nauwkeurigheid van 68,9% bereikt over vijf populaire optimalisatiemodelleringsbenchmarks, wat overeenkomt met de prestaties van een 671B LRM. Deze resultaten tonen aan dat dynamische, hint-gebaseerde datasynthese zowel de natuurlijke redeneerpatronen van moderne LRMs behoudt als versterkt, en biedt een effectievere en schaalbare weg naar expertniveau prestaties op uitdagende optimalisatiemodelleringstaken.
English
Large Reasoning Models (LRMs) have demonstrated strong capabilities in
complex multi-step reasoning, opening new opportunities for automating
optimization modeling. However, existing domain adaptation methods, originally
designed for earlier instruction-tuned models, often fail to exploit the
advanced reasoning patterns of modern LRMs -- In particular, we show that
direct fine-tuning on traditional non-reflective datasets leads to
limited gains. To fully leverage LRMs' inherent reasoning abilities, we propose
CALM (Corrective Adaptation with Lightweight Modification), a
framework that progressively refines LRMs within their native reasoning modes
for optimization modeling tasks. In CALM, an expert intervener identifies
reasoning flaws and provides concise corrective hints, which the LRM
incorporates to produce improved reasoning trajectories. These interventions
modify fewer than 2.6\% of generated tokens, but generate high-quality data for
soft adaptation through supervised fine-tuning. The adapted model is then
further improved through reinforcement learning. Building on CALM, we develop
STORM (Smart Thinking Optimization Reasoning Model), a
4B-parameter LRM that achieves a new state-of-the-art average accuracy of
68.9\% across five popular optimization modeling benchmarks, matching the
performance of a 671B LRM. These results demonstrate that dynamic, hint-based
data synthesis both preserves and amplifies the native reasoning patterns of
modern LRMs, offering a more effective and scalable path towards expert-level
performance on challenging optimization modeling tasks.