Arbitragem: Raciocínio Eficiente por meio de Especulação Consciente de Vantagem

Resumo

Os Grandes Modelos de Linguagem Modernos alcançam capacidades impressionantes de raciocínio com longas Cadeias de Pensamento, mas incorrem em custos computacionais substanciais durante a inferência, o que motiva o desenvolvimento de técnicas para melhorar a relação custo-desempenho. Entre essas técnicas, a Decodificação Especulativa acelera a inferência empregando um modelo rascunho rápido, porém impreciso, para propor tokens de forma autoregressiva, que são então verificados em paralelo por um modelo alvo mais capaz. No entanto, devido a rejeições desnecessárias causadas por discrepâncias de tokens em etapas semanticamente equivalentes, a Decodificação Especulativa tradicional em nível de token tem dificuldades em tarefas de raciocínio. Embora trabalhos recentes tenham migrado para a verificação semântica em nível de etapa, que melhora a eficiência ao aceitar ou rejeitar etapas inteiras de raciocínio, os métodos existentes em nível de etapa ainda regeneram muitas etapas rejeitadas com pouca melhoria, desperdiçando computação valiosa do modelo alvo. Para enfrentar este desafio, propomos o Arbitrage, uma nova estrutura de geração especulativa em nível de etapa que direciona a geração dinamicamente com base na vantagem relativa entre os modelos rascunho e alvo. Em vez de aplicar um limite de aceitação fixo, o Arbitrage utiliza um roteador leve treinado para prever quando o modelo alvo provavelmente produzirá uma etapa significativamente melhor. Este roteamento aproxima-se de um Oráculo de Arbitragem ideal que sempre escolhe a etapa de maior qualidade, alcançando compensações de eficiência-precisão quase ótimas. Em vários benchmarks de raciocínio matemático, o Arbitrage supera consistentemente as linhas de base anteriores de Decodificação Especulativa em nível de etapa, reduzindo a latência de inferência em até ~2 vezes com a mesma precisão.

English

Modern Large Language Models achieve impressive reasoning capabilities with long Chain of Thoughts, but they incur substantial computational cost during inference, and this motivates techniques to improve the performance-cost ratio. Among these techniques, Speculative Decoding accelerates inference by employing a fast but inaccurate draft model to autoregressively propose tokens, which are then verified in parallel by a more capable target model. However, due to unnecessary rejections caused by token mismatches in semantically equivalent steps, traditional token-level Speculative Decoding struggles in reasoning tasks. Although recent works have shifted to step-level semantic verification, which improve efficiency by accepting or rejecting entire reasoning steps, existing step-level methods still regenerate many rejected steps with little improvement, wasting valuable target compute. To address this challenge, we propose Arbitrage, a novel step-level speculative generation framework that routes generation dynamically based on the relative advantage between draft and target models. Instead of applying a fixed acceptance threshold, Arbitrage uses a lightweight router trained to predict when the target model is likely to produce a meaningfully better step. This routing approximates an ideal Arbitrage Oracle that always chooses the higher-quality step, achieving near-optimal efficiency-accuracy trade-offs. Across multiple mathematical reasoning benchmarks, Arbitrage consistently surpasses prior step-level Speculative Decoding baselines, reducing inference latency by up to sim2times at matched accuracy.

Arbitragem: Raciocínio Eficiente por meio de Especulação Consciente de Vantagem

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Resumo

Support