CALM Antes da TEMPESTADE: Desbloqueando o Raciocínio Nativo para Modelagem de Otimização
CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling
October 5, 2025
Autores: Zhengyang Tang, Zihan Ye, Chenyu Huang, Xuhan Huang, Chengpeng Li, Sihang Li, Guanhua Chen, Ming Yan, Zizhuo Wang, Hongyuan Zha, Dayiheng Liu, Benyou Wang
cs.AI
Resumo
Modelos de Raciocínio de Grande Escala (LRMs) demonstraram capacidades robustas em raciocínio complexo de múltiplos passos, abrindo novas oportunidades para a automação de modelagem de otimização. No entanto, os métodos existentes de adaptação de domínio, originalmente projetados para modelos ajustados por instrução anteriores, frequentemente falham em explorar os padrões avançados de raciocínio dos LRMs modernos — em particular, mostramos que o ajuste fino direto em conjuntos de dados tradicionais não reflexivos resulta em ganhos limitados. Para aproveitar plenamente as habilidades inerentes de raciocínio dos LRMs, propomos o CALM (Adaptação Corretiva com Modificação Leve), um framework que refina progressivamente os LRMs dentro de seus modos nativos de raciocínio para tarefas de modelagem de otimização. No CALM, um interventor especializado identifica falhas de raciocínio e fornece dicas corretivas concisas, que o LRM incorpora para produzir trajetórias de raciocínio aprimoradas. Essas intervenções modificam menos de 2,6% dos tokens gerados, mas geram dados de alta qualidade para adaptação suave por meio de ajuste fino supervisionado. O modelo adaptado é então ainda mais aprimorado por meio de aprendizado por reforço. Com base no CALM, desenvolvemos o STORM (Modelo de Raciocínio de Otimização com Pensamento Inteligente), um LRM de 4 bilhões de parâmetros que alcança uma nova precisão média de ponta de 68,9% em cinco benchmarks populares de modelagem de otimização, equiparando-se ao desempenho de um LRM de 671 bilhões. Esses resultados demonstram que a síntese dinâmica de dados baseada em dicas preserva e amplifica os padrões nativos de raciocínio dos LRMs modernos, oferecendo um caminho mais eficaz e escalável para o desempenho de nível especialista em tarefas desafiadoras de modelagem de otimização.
English
Large Reasoning Models (LRMs) have demonstrated strong capabilities in
complex multi-step reasoning, opening new opportunities for automating
optimization modeling. However, existing domain adaptation methods, originally
designed for earlier instruction-tuned models, often fail to exploit the
advanced reasoning patterns of modern LRMs -- In particular, we show that
direct fine-tuning on traditional non-reflective datasets leads to
limited gains. To fully leverage LRMs' inherent reasoning abilities, we propose
CALM (Corrective Adaptation with Lightweight Modification), a
framework that progressively refines LRMs within their native reasoning modes
for optimization modeling tasks. In CALM, an expert intervener identifies
reasoning flaws and provides concise corrective hints, which the LRM
incorporates to produce improved reasoning trajectories. These interventions
modify fewer than 2.6\% of generated tokens, but generate high-quality data for
soft adaptation through supervised fine-tuning. The adapted model is then
further improved through reinforcement learning. Building on CALM, we develop
STORM (Smart Thinking Optimization Reasoning Model), a
4B-parameter LRM that achieves a new state-of-the-art average accuracy of
68.9\% across five popular optimization modeling benchmarks, matching the
performance of a 671B LRM. These results demonstrate that dynamic, hint-based
data synthesis both preserves and amplifies the native reasoning patterns of
modern LRMs, offering a more effective and scalable path towards expert-level
performance on challenging optimization modeling tasks.