**RelayGen: Troca de Modelos Intra-Geração para Raciocínio Eficiente**

Resumo

Os grandes modelos de raciocínio (LRMs) alcançam alto desempenho em tarefas complexas de raciocínio gerando trajetórias de raciocínio longas e multi-etapas, mas a escalabilidade no momento da inferência incorre em custos substanciais de implantação. Um desafio fundamental é que a dificuldade de geração varia dentro de uma única saída, enquanto as abordagens existentes orientadas para eficiência ignoram essa variação intrageração ou dependem de roteamento supervisionado a nível de token com alta complexidade do sistema. Apresentamos o RelayGen, uma estrutura de comutação de modelos em tempo de execução a nível de segmento, livre de treinamento, que explora a variação de dificuldade no raciocínio de longa forma. Através da análise offline da incerteza de geração usando margens de probabilidade de token, mostramos que o controle a nível de segmento de granularidade grossa é suficiente para capturar transições de dificuldade dentro de uma trajetória de raciocínio. O RelayGen identifica pistas de comutação específicas do modelo que sinalizam transições para segmentos de menor dificuldade e delega dinamicamente sua continuação a um modelo menor, preservando o raciocínio de alta dificuldade no modelo grande. Em vários benchmarks de raciocínio, o RelayGen reduz substancialmente a latência de inferência enquanto preserva a maior parte da precisão dos modelos grandes. Quando combinado com decodificação especulativa, o RelayGen alcança até 2,2 vezes de aceleração de ponta a ponta com menos de 2% de degradação de precisão, sem exigir treinamento adicional ou componentes de roteamento aprendidos.

English

Large reasoning models (LRMs) achieve strong performance on complex reasoning tasks by generating long, multi-step reasoning trajectories, but inference-time scaling incurs substantial deployment cost. A key challenge is that generation difficulty varies within a single output, whereas existing efficiency-oriented approaches either ignore this intra-generation variation or rely on supervised token-level routing with high system complexity. We present RelayGen, a training-free, segment-level runtime model switching framework that exploits difficulty variation in long-form reasoning. Through offline analysis of generation uncertainty using token probability margins, we show that coarse-grained segment-level control is sufficient to capture difficulty transitions within a reasoning trajectory. RelayGen identifies model-specific switch cues that signal transitions to lower-difficulty segments and dynamically delegates their continuation to a smaller model, while preserving high-difficulty reasoning on the large model. Across multiple reasoning benchmarks, RelayGen substantially reduces inference latency while preserving most of the accuracy of large models. When combined with speculative decoding, RelayGen achieves up to 2.2times end-to-end speedup with less than 2\% accuracy degradation, without requiring additional training or learned routing components.

RelayGen: Troca de Modelos Intra-Geração para Raciocínio Eficiente

RelayGen: Intra-Generation Model Switching for Efficient Reasoning

Resumo

Support