CALMA antes de la TORMENTA: Desbloqueando el razonamiento nativo para la optimización de modelos
CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling
October 5, 2025
Autores: Zhengyang Tang, Zihan Ye, Chenyu Huang, Xuhan Huang, Chengpeng Li, Sihang Li, Guanhua Chen, Ming Yan, Zizhuo Wang, Hongyuan Zha, Dayiheng Liu, Benyou Wang
cs.AI
Resumen
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) han demostrado capacidades sólidas en razonamiento complejo de múltiples pasos, abriendo nuevas oportunidades para la automatización del modelado de optimización. Sin embargo, los métodos existentes de adaptación de dominio, diseñados originalmente para modelos ajustados por instrucciones anteriores, a menudo no logran explotar los patrones avanzados de razonamiento de los LRMs modernos. En particular, mostramos que el ajuste fino directo en conjuntos de datos tradicionales no reflexivos conduce a ganancias limitadas. Para aprovechar plenamente las habilidades de razonamiento inherentes de los LRMs, proponemos CALM (Adaptación Correctiva con Modificación Ligera), un marco que refina progresivamente los LRMs dentro de sus modos de razonamiento nativos para tareas de modelado de optimización. En CALM, un interventor experto identifica fallos de razonamiento y proporciona pistas correctivas concisas, que el LRM incorpora para producir trayectorias de razonamiento mejoradas. Estas intervenciones modifican menos del 2.6\% de los tokens generados, pero generan datos de alta calidad para una adaptación suave mediante ajuste fino supervisado. El modelo adaptado se mejora aún más mediante aprendizaje por refuerzo. Basándonos en CALM, desarrollamos STORM (Modelo de Razonamiento de Optimización de Pensamiento Inteligente), un LRM de 4B parámetros que alcanza una nueva precisión promedio de vanguardia del 68.9\% en cinco puntos de referencia populares de modelado de optimización, igualando el rendimiento de un LRM de 671B. Estos resultados demuestran que la síntesis dinámica de datos basada en pistas preserva y amplifica los patrones de razonamiento nativos de los LRMs modernos, ofreciendo un camino más efectivo y escalable hacia un rendimiento de nivel experto en tareas desafiantes de modelado de optimización.
English
Large Reasoning Models (LRMs) have demonstrated strong capabilities in
complex multi-step reasoning, opening new opportunities for automating
optimization modeling. However, existing domain adaptation methods, originally
designed for earlier instruction-tuned models, often fail to exploit the
advanced reasoning patterns of modern LRMs -- In particular, we show that
direct fine-tuning on traditional non-reflective datasets leads to
limited gains. To fully leverage LRMs' inherent reasoning abilities, we propose
CALM (Corrective Adaptation with Lightweight Modification), a
framework that progressively refines LRMs within their native reasoning modes
for optimization modeling tasks. In CALM, an expert intervener identifies
reasoning flaws and provides concise corrective hints, which the LRM
incorporates to produce improved reasoning trajectories. These interventions
modify fewer than 2.6\% of generated tokens, but generate high-quality data for
soft adaptation through supervised fine-tuning. The adapted model is then
further improved through reinforcement learning. Building on CALM, we develop
STORM (Smart Thinking Optimization Reasoning Model), a
4B-parameter LRM that achieves a new state-of-the-art average accuracy of
68.9\% across five popular optimization modeling benchmarks, matching the
performance of a 671B LRM. These results demonstrate that dynamic, hint-based
data synthesis both preserves and amplifies the native reasoning patterns of
modern LRMs, offering a more effective and scalable path towards expert-level
performance on challenging optimization modeling tasks.