CALM Avant la TEMPÊTE : Débloquer le Raisonnement Natif pour la Modélisation de l'Optimisation
CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling
October 5, 2025
papers.authors: Zhengyang Tang, Zihan Ye, Chenyu Huang, Xuhan Huang, Chengpeng Li, Sihang Li, Guanhua Chen, Ming Yan, Zizhuo Wang, Hongyuan Zha, Dayiheng Liu, Benyou Wang
cs.AI
papers.abstract
Les modèles de raisonnement à grande échelle (Large Reasoning Models, LRMs) ont démontré des capacités impressionnantes dans le raisonnement complexe à plusieurs étapes, ouvrant de nouvelles opportunités pour l'automatisation de la modélisation d'optimisation. Cependant, les méthodes existantes d'adaptation de domaine, initialement conçues pour des modèles antérieurs ajustés par instruction, échouent souvent à exploiter les schémas de raisonnement avancés des LRMs modernes. En particulier, nous montrons qu'un ajustement fin direct sur des ensembles de données traditionnels non réflexifs conduit à des gains limités. Pour tirer pleinement parti des capacités de raisonnement inhérentes des LRMs, nous proposons CALM (Corrective Adaptation with Lightweight Modification), un cadre qui affine progressivement les LRMs dans leurs modes de raisonnement natifs pour les tâches de modélisation d'optimisation. Dans CALM, un intervenant expert identifie les défauts de raisonnement et fournit des indices correctifs concis, que le LRM intègre pour produire des trajectoires de raisonnement améliorées. Ces interventions modifient moins de 2,6 % des tokens générés, mais génèrent des données de haute qualité pour une adaptation douce via un ajustement fin supervisé. Le modèle adapté est ensuite encore amélioré par apprentissage par renforcement. Sur la base de CALM, nous développons STORM (Smart Thinking Optimization Reasoning Model), un LRM de 4 milliards de paramètres qui atteint une nouvelle précision moyenne de pointe de 68,9 % sur cinq benchmarks populaires de modélisation d'optimisation, égalant les performances d'un LRM de 671 milliards. Ces résultats démontrent que la synthèse dynamique de données basée sur des indices préserve et amplifie les schémas de raisonnement natifs des LRMs modernes, offrant une voie plus efficace et évolutive vers des performances de niveau expert sur des tâches de modélisation d'optimisation complexes.
English
Large Reasoning Models (LRMs) have demonstrated strong capabilities in
complex multi-step reasoning, opening new opportunities for automating
optimization modeling. However, existing domain adaptation methods, originally
designed for earlier instruction-tuned models, often fail to exploit the
advanced reasoning patterns of modern LRMs -- In particular, we show that
direct fine-tuning on traditional non-reflective datasets leads to
limited gains. To fully leverage LRMs' inherent reasoning abilities, we propose
CALM (Corrective Adaptation with Lightweight Modification), a
framework that progressively refines LRMs within their native reasoning modes
for optimization modeling tasks. In CALM, an expert intervener identifies
reasoning flaws and provides concise corrective hints, which the LRM
incorporates to produce improved reasoning trajectories. These interventions
modify fewer than 2.6\% of generated tokens, but generate high-quality data for
soft adaptation through supervised fine-tuning. The adapted model is then
further improved through reinforcement learning. Building on CALM, we develop
STORM (Smart Thinking Optimization Reasoning Model), a
4B-parameter LRM that achieves a new state-of-the-art average accuracy of
68.9\% across five popular optimization modeling benchmarks, matching the
performance of a 671B LRM. These results demonstrate that dynamic, hint-based
data synthesis both preserves and amplifies the native reasoning patterns of
modern LRMs, offering a more effective and scalable path towards expert-level
performance on challenging optimization modeling tasks.