ChatPaper.aiChatPaper

CALM Prima della TEMPESTA: Sbloccare il Ragionamento Naturale per la Modellizzazione dell'Ottimizzazione

CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling

October 5, 2025
Autori: Zhengyang Tang, Zihan Ye, Chenyu Huang, Xuhan Huang, Chengpeng Li, Sihang Li, Guanhua Chen, Ming Yan, Zizhuo Wang, Hongyuan Zha, Dayiheng Liu, Benyou Wang
cs.AI

Abstract

I Large Reasoning Models (LRM) hanno dimostrato capacità avanzate nel ragionamento complesso a più passaggi, aprendo nuove opportunità per l'automazione della modellazione di ottimizzazione. Tuttavia, i metodi esistenti di adattamento al dominio, originariamente progettati per modelli precedenti ottimizzati tramite istruzioni, spesso non riescono a sfruttare i modelli di ragionamento avanzati degli LRM moderni. In particolare, dimostriamo che il fine-tuning diretto su dataset tradizionali non riflessivi porta a guadagni limitati. Per sfruttare appieno le capacità di ragionamento intrinseche degli LRM, proponiamo CALM (Corrective Adaptation with Lightweight Modification), un framework che affina progressivamente gli LRM all'interno dei loro modi di ragionamento nativi per compiti di modellazione di ottimizzazione. In CALM, un interventore esperto identifica errori di ragionamento e fornisce suggerimenti correttivi concisi, che l'LRM incorpora per produrre traiettorie di ragionamento migliorate. Questi interventi modificano meno del 2,6% dei token generati, ma producono dati di alta qualità per un adattamento soft tramite fine-tuning supervisionato. Il modello adattato viene poi ulteriormente migliorato attraverso l'apprendimento per rinforzo. Basandoci su CALM, sviluppiamo STORM (Smart Thinking Optimization Reasoning Model), un LRM da 4 miliardi di parametri che raggiunge una nuova precisione media all'avanguardia del 68,9% su cinque benchmark popolari di modellazione di ottimizzazione, eguagliando le prestazioni di un LRM da 671 miliardi. Questi risultati dimostrano che la sintesi dinamica di dati basata su suggerimenti preserva e amplifica i modelli di ragionamento nativi degli LRM moderni, offrendo un percorso più efficace e scalabile verso prestazioni di livello esperto su compiti impegnativi di modellazione di ottimizzazione.
English
Large Reasoning Models (LRMs) have demonstrated strong capabilities in complex multi-step reasoning, opening new opportunities for automating optimization modeling. However, existing domain adaptation methods, originally designed for earlier instruction-tuned models, often fail to exploit the advanced reasoning patterns of modern LRMs -- In particular, we show that direct fine-tuning on traditional non-reflective datasets leads to limited gains. To fully leverage LRMs' inherent reasoning abilities, we propose CALM (Corrective Adaptation with Lightweight Modification), a framework that progressively refines LRMs within their native reasoning modes for optimization modeling tasks. In CALM, an expert intervener identifies reasoning flaws and provides concise corrective hints, which the LRM incorporates to produce improved reasoning trajectories. These interventions modify fewer than 2.6\% of generated tokens, but generate high-quality data for soft adaptation through supervised fine-tuning. The adapted model is then further improved through reinforcement learning. Building on CALM, we develop STORM (Smart Thinking Optimization Reasoning Model), a 4B-parameter LRM that achieves a new state-of-the-art average accuracy of 68.9\% across five popular optimization modeling benchmarks, matching the performance of a 671B LRM. These results demonstrate that dynamic, hint-based data synthesis both preserves and amplifies the native reasoning patterns of modern LRMs, offering a more effective and scalable path towards expert-level performance on challenging optimization modeling tasks.
PDF192October 9, 2025