RUHE VOR DEM STURM: Natürliches Denken für die Optimierungsmodellierung freisetzen
CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling
October 5, 2025
papers.authors: Zhengyang Tang, Zihan Ye, Chenyu Huang, Xuhan Huang, Chengpeng Li, Sihang Li, Guanhua Chen, Ming Yan, Zizhuo Wang, Hongyuan Zha, Dayiheng Liu, Benyou Wang
cs.AI
papers.abstract
Große Reasoning-Modelle (LRMs) haben starke Fähigkeiten im komplexen, mehrstufigen Reasoning bewiesen und eröffnen damit neue Möglichkeiten zur Automatisierung von Optimierungsmodellierungen. Bestehende Methoden zur Domänenanpassung, die ursprünglich für frühere instruktionsoptimierte Modelle entwickelt wurden, scheitern jedoch oft daran, die fortgeschrittenen Reasoning-Muster moderner LRMs zu nutzen – insbesondere zeigen wir, dass ein direktes Fine-Tuning auf traditionellen nicht-reflektiven Datensätzen nur begrenzte Verbesserungen bringt. Um die inhärenten Reasoning-Fähigkeiten von LRMs vollständig auszuschöpfen, schlagen wir CALM (Corrective Adaptation with Lightweight Modification) vor, ein Framework, das LRMs schrittweise innerhalb ihrer nativen Reasoning-Modi für Optimierungsmodellierungsaufgaben verfeinert. In CALM identifiziert ein Expertenintervenient Reasoning-Fehler und liefert prägnante korrigierende Hinweise, die das LRM einbezieht, um verbesserte Reasoning-Pfade zu erzeugen. Diese Interventionen modifizieren weniger als 2,6 % der generierten Tokens, erzeugen jedoch hochwertige Daten für eine sanfte Anpassung durch überwachtes Fine-Tuning. Das angepasste Modell wird anschließend durch Reinforcement Learning weiter verbessert. Aufbauend auf CALM entwickeln wir STORM (Smart Thinking Optimization Reasoning Model), ein 4B-Parameter-LRM, das eine neue Bestleistung von durchschnittlich 68,9 % Genauigkeit über fünf beliebte Optimierungsmodellierungs-Benchmarks erreicht und damit die Leistung eines 671B-LRM erreicht. Diese Ergebnisse zeigen, dass die dynamische, hinweisbasierte Datensynthese die nativen Reasoning-Muster moderner LRMs sowohl bewahrt als auch verstärkt und einen effektiveren und skalierbaren Weg zur Expertenleistung bei anspruchsvollen Optimierungsmodellierungsaufgaben bietet.
English
Large Reasoning Models (LRMs) have demonstrated strong capabilities in
complex multi-step reasoning, opening new opportunities for automating
optimization modeling. However, existing domain adaptation methods, originally
designed for earlier instruction-tuned models, often fail to exploit the
advanced reasoning patterns of modern LRMs -- In particular, we show that
direct fine-tuning on traditional non-reflective datasets leads to
limited gains. To fully leverage LRMs' inherent reasoning abilities, we propose
CALM (Corrective Adaptation with Lightweight Modification), a
framework that progressively refines LRMs within their native reasoning modes
for optimization modeling tasks. In CALM, an expert intervener identifies
reasoning flaws and provides concise corrective hints, which the LRM
incorporates to produce improved reasoning trajectories. These interventions
modify fewer than 2.6\% of generated tokens, but generate high-quality data for
soft adaptation through supervised fine-tuning. The adapted model is then
further improved through reinforcement learning. Building on CALM, we develop
STORM (Smart Thinking Optimization Reasoning Model), a
4B-parameter LRM that achieves a new state-of-the-art average accuracy of
68.9\% across five popular optimization modeling benchmarks, matching the
performance of a 671B LRM. These results demonstrate that dynamic, hint-based
data synthesis both preserves and amplifies the native reasoning patterns of
modern LRMs, offering a more effective and scalable path towards expert-level
performance on challenging optimization modeling tasks.