ChatPaper.aiChatPaper

RUHE VOR DEM STURM: Natürliches Denken für die Optimierungsmodellierung freisetzen

CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling

October 5, 2025
papers.authors: Zhengyang Tang, Zihan Ye, Chenyu Huang, Xuhan Huang, Chengpeng Li, Sihang Li, Guanhua Chen, Ming Yan, Zizhuo Wang, Hongyuan Zha, Dayiheng Liu, Benyou Wang
cs.AI

papers.abstract

Große Reasoning-Modelle (LRMs) haben starke Fähigkeiten im komplexen, mehrstufigen Reasoning bewiesen und eröffnen damit neue Möglichkeiten zur Automatisierung von Optimierungsmodellierungen. Bestehende Methoden zur Domänenanpassung, die ursprünglich für frühere instruktionsoptimierte Modelle entwickelt wurden, scheitern jedoch oft daran, die fortgeschrittenen Reasoning-Muster moderner LRMs zu nutzen – insbesondere zeigen wir, dass ein direktes Fine-Tuning auf traditionellen nicht-reflektiven Datensätzen nur begrenzte Verbesserungen bringt. Um die inhärenten Reasoning-Fähigkeiten von LRMs vollständig auszuschöpfen, schlagen wir CALM (Corrective Adaptation with Lightweight Modification) vor, ein Framework, das LRMs schrittweise innerhalb ihrer nativen Reasoning-Modi für Optimierungsmodellierungsaufgaben verfeinert. In CALM identifiziert ein Expertenintervenient Reasoning-Fehler und liefert prägnante korrigierende Hinweise, die das LRM einbezieht, um verbesserte Reasoning-Pfade zu erzeugen. Diese Interventionen modifizieren weniger als 2,6 % der generierten Tokens, erzeugen jedoch hochwertige Daten für eine sanfte Anpassung durch überwachtes Fine-Tuning. Das angepasste Modell wird anschließend durch Reinforcement Learning weiter verbessert. Aufbauend auf CALM entwickeln wir STORM (Smart Thinking Optimization Reasoning Model), ein 4B-Parameter-LRM, das eine neue Bestleistung von durchschnittlich 68,9 % Genauigkeit über fünf beliebte Optimierungsmodellierungs-Benchmarks erreicht und damit die Leistung eines 671B-LRM erreicht. Diese Ergebnisse zeigen, dass die dynamische, hinweisbasierte Datensynthese die nativen Reasoning-Muster moderner LRMs sowohl bewahrt als auch verstärkt und einen effektiveren und skalierbaren Weg zur Expertenleistung bei anspruchsvollen Optimierungsmodellierungsaufgaben bietet.
English
Large Reasoning Models (LRMs) have demonstrated strong capabilities in complex multi-step reasoning, opening new opportunities for automating optimization modeling. However, existing domain adaptation methods, originally designed for earlier instruction-tuned models, often fail to exploit the advanced reasoning patterns of modern LRMs -- In particular, we show that direct fine-tuning on traditional non-reflective datasets leads to limited gains. To fully leverage LRMs' inherent reasoning abilities, we propose CALM (Corrective Adaptation with Lightweight Modification), a framework that progressively refines LRMs within their native reasoning modes for optimization modeling tasks. In CALM, an expert intervener identifies reasoning flaws and provides concise corrective hints, which the LRM incorporates to produce improved reasoning trajectories. These interventions modify fewer than 2.6\% of generated tokens, but generate high-quality data for soft adaptation through supervised fine-tuning. The adapted model is then further improved through reinforcement learning. Building on CALM, we develop STORM (Smart Thinking Optimization Reasoning Model), a 4B-parameter LRM that achieves a new state-of-the-art average accuracy of 68.9\% across five popular optimization modeling benchmarks, matching the performance of a 671B LRM. These results demonstrate that dynamic, hint-based data synthesis both preserves and amplifies the native reasoning patterns of modern LRMs, offering a more effective and scalable path towards expert-level performance on challenging optimization modeling tasks.
PDF192October 9, 2025