Orthrus: Geração Paralela de Tokens Eficiente em Memória via Difusão de Dupla Visão

Resumo

Apresentamos o Orthrus, um framework dual de arquitetura simples e eficiente que unifica a fidelidade exata de geração dos Modelos de Linguagem de Grande Escala (LLMs) autorregressivos com a geração paralela de tokens em alta velocidade dos modelos de difusão. A natureza sequencial da decodificação autorregressiva padrão representa um gargalo fundamental para a inferência de alto rendimento. Embora os modelos de linguagem de difusão tentem romper essa barreira por meio da geração paralela, eles sofrem de degradação significativa de desempenho, altos custos de treinamento e falta de garantias rigorosas de convergência. O Orthrus resolve essa dicotomia de forma nativa. Projetado para integrar-se perfeitamente aos Transformers existentes, o framework aumenta um LLM congelado com um módulo leve e treinável, criando uma visão de difusão paralela junto à visão autorregressiva padrão. Neste sistema unificado, ambas as visões atendem ao mesmo cache de Chave-Valor (KV) de alta fidelidade; a cabeça autorregressiva executa o pré-preenchimento de contexto para construir representações KV precisas, enquanto a cabeça de difusão executa a geração paralela. Ao empregar um mecanismo de consenso exato entre as duas visões, o Orthrus garante inferência sem perdas, fornecendo uma aceleração de até 7,8x com apenas uma sobrecarga de cache de memória O(1) e adições mínimas de parâmetros.

English

We introduce Orthrus, a simple and efficient dual-architecture framework that unifies the exact generation fidelity of autoregressive Large Language Models (LLMs) with the high-speed parallel token generation of diffusion models. The sequential nature of standard autoregressive decoding represents a fundamental bottleneck for high-throughput inference. While diffusion language models attempt to break this barrier via parallel generation, they suffer from significant performance degradation, high training costs, and a lack of rigorous convergence guarantees. Orthrus resolves this dichotomy natively. Designed to seamlessly integrate into existing Transformers, the framework augments a frozen LLM with a lightweight, trainable module to create a parallel diffusion view alongside the standard autoregressive view. In this unified system, both views attend to the exact same high-fidelity Key-Value (KV) cache; the autoregressive head executes context pre-filling to construct accurate KV representations, while the diffusion head executes parallel generation. By employing an exact consensus mechanism between the two views, Orthrus guarantees lossless inference, delivering up to a 7.8x speedup with only an O(1) memory cache overhead and minimal parameter additions.