Reactive Transformer (RxT) -- Processamento em Tempo Real com Estado para Modelos de Linguagem Reativos Orientados a Eventos

Resumo

A arquitetura Transformer tornou-se o padrão de facto para Modelos de Linguagem de Grande Escala (LLMs), demonstrando capacidades notáveis em compreensão e geração de linguagem. No entanto, sua aplicação em IA conversacional é fundamentalmente limitada por sua natureza sem estado e pela complexidade computacional quadrática (O(L^2)) em relação ao comprimento da sequência L. Os modelos atuais emulam memória reprocessando um histórico de conversação em constante expansão a cada turno, resultando em custos e latência proibitivos em diálogos longos. Este artigo introduz o Transformer Reativo (RxT), uma nova arquitetura projetada para superar essas limitações ao mudar de um paradigma orientado a dados para um paradigma orientado a eventos. O RxT processa cada turno conversacional como um evento discreto em tempo real, mantendo o contexto em um sistema integrado de Memória de Curto Prazo (STM) de tamanho fixo. A arquitetura apresenta um ciclo operacional distinto, onde um gerador-decodificador produz uma resposta com base na consulta atual e no estado anterior da memória, após o qual um codificador de memória e uma rede dedicada de Atenção à Memória atualizam de forma assíncrona a STM com uma representação da interação completa. Esse design altera fundamentalmente a dinâmica de escalonamento, reduzindo o custo total de uma conversação para o usuário de quadrático (O(N^2 cdot T)) para linear (O(N cdot T)) em relação ao número de interações N. Ao desacoplar a geração de respostas das atualizações de memória, o RxT alcança baixa latência, permitindo conversações longas em tempo real, com estado e economicamente viáveis. Validamos nossa arquitetura com uma série de experimentos de prova de conceito em dados sintéticos, demonstrando desempenho superior e latência de inferência constante em comparação com um modelo sem estado de tamanho comparável.

English

The Transformer architecture has become the de facto standard for Large Language Models (LLMs), demonstrating remarkable capabilities in language understanding and generation. However, its application in conversational AI is fundamentally constrained by its stateless nature and the quadratic computational complexity (O(L^2)) with respect to sequence length L. Current models emulate memory by reprocessing an ever-expanding conversation history with each turn, leading to prohibitive costs and latency in long dialogues. This paper introduces the Reactive Transformer (RxT), a novel architecture designed to overcome these limitations by shifting from a data-driven to an event-driven paradigm. RxT processes each conversational turn as a discrete event in real-time, maintaining context in an integrated, fixed-size Short-Term Memory (STM) system. The architecture features a distinct operational cycle where a generator-decoder produces a response based on the current query and the previous memory state, after which a memory-encoder and a dedicated Memory Attention network asynchronously update the STM with a representation of the complete interaction. This design fundamentally alters the scaling dynamics, reducing the total user-facing cost of a conversation from quadratic (O(N^2 cdot T)) to linear (O(N cdot T)) with respect to the number of interactions N. By decoupling response generation from memory updates, RxT achieves low latency, enabling truly real-time, stateful, and economically viable long-form conversations. We validated our architecture with a series of proof-of-concept experiments on synthetic data, demonstrating superior performance and constant-time inference latency compared to a baseline stateless model of comparable size.

Reactive Transformer (RxT) -- Processamento em Tempo Real com Estado para Modelos de Linguagem Reativos Orientados a Eventos

Reactive Transformer (RxT) -- Stateful Real-Time Processing for Event-Driven Reactive Language Models

Resumo

Support