LEAD: Raciocínio Adaptativo e Dinâmico Eficiente em Comprimento para Grandes Modelos de Linguagem

Resumo

Grandes modelos de raciocínio, como o OpenAI o1 e o DeepSeek-R1, tendem a se tornar cada vez mais verbosos à medida que suas capacidades de raciocínio melhoram. Essas trajetórias infladas de Cadeia de Pensamento (CoT) frequentemente excedem o que os problemas subjacentes exigem, desperdiçando recursos computacionais, latência e orçamentos de contexto. Embora a introdução de recompensas de eficiência baseadas em comprimento durante o aprendizado por reforço ofereça um remédio natural, os métodos existentes enfrentam dois desafios fundamentais: o equilíbrio ideal entre correção e eficiência é não estacionário ao longo do treinamento, e os orçamentos de raciocínio intrínsecos variam drasticamente entre os problemas. Depender de pesos de recompensa estáticos e restrições globais de comprimento inevitavelmente força um compromisso entre precisão degradada e compressão não realizada. Para superar essas limitações, propomos LEAD (Raciocínio Adaptativo e Dinâmico com Eficiência de Comprimento), um método que substitui heurísticas estáticas por mecanismos adaptativos online. O LEAD calibra dinamicamente o trade-off entre correção e eficiência a cada passo usando uma Instabilidade Escalonada por Potencial, direcionando a capacidade de otimização para o sinal de aprendizado mais informativo. Além disso, estima online um comprimento alvo adaptativo por problema com base nas próprias trajetórias corretas do modelo, aplicando uma recompensa de eficiência simétrica que penaliza tanto o excesso de pensamento quanto a compressão excessiva. Avaliado em cinco benchmarks de raciocínio matemático, o LEAD alcança a maior precisão e Pontuação de Precisão-Eficiência entre métodos de raciocínio eficiente treinados por RL, ao mesmo tempo que produz saídas substancialmente mais curtas que o modelo base.

English

Large reasoning models, such as OpenAI o1 and DeepSeek-R1, tend to become increasingly verbose as their reasoning capabilities improve. These inflated Chain-of-Thought (CoT) trajectories often exceed what the underlying problems require, wasting compute, latency, and context budgets. While introducing length-based efficiency rewards during reinforcement learning offers a natural remedy, existing methods struggle with two fundamental challenges: the optimal balance between correctness and efficiency is non-stationary throughout training, and intrinsic reasoning budgets vary drastically across problems. Relying on static reward weights and global length constraints inevitably forces a compromise between degraded accuracy and unrealized compression. To overcome these limitations, we propose LEAD (Length-Efficient Adaptive and Dynamic reasoning), a method that replaces static heuristics with online, self-adaptive mechanisms. LEAD dynamically calibrates the correctness-efficiency trade-off at each step using a Potential-Scaled Instability, directing optimization capacity to the most informative learning signal. Furthermore, it estimates an adaptive per-problem target length online based on the model's own correct rollouts, applying a symmetric efficiency reward that penalizes both overthinking and over-compression. Evaluated on five mathematical reasoning benchmarks, LEAD achieves the highest accuracy and Accuracy-Efficiency Score among RL-trained efficient-reasoning methods while producing substantially shorter outputs than the base model.