Reactive Transformer (RxT) - Elaborazione Stateful in Tempo Reale per Modelli Linguistici Reattivi Basati su Eventi

Abstract

L'architettura Transformer è diventata lo standard de facto per i Large Language Models (LLM), dimostrando capacità straordinarie nella comprensione e generazione del linguaggio. Tuttavia, la sua applicazione nell'ambito dell'AI conversazionale è fondamentalmente limitata dalla sua natura senza stato e dalla complessità computazionale quadratica (O(L^2)) rispetto alla lunghezza della sequenza L. I modelli attuali emulano la memoria rielaborando una cronologia della conversazione in continua espansione a ogni turno, portando a costi e latenze proibitivi nei dialoghi lunghi. Questo articolo introduce il Reactive Transformer (RxT), una nuova architettura progettata per superare queste limitazioni passando da un paradigma basato sui dati a uno basato sugli eventi. RxT elabora ogni turno conversazionale come un evento discreto in tempo reale, mantenendo il contesto in un sistema integrato di memoria a breve termine (STM) di dimensione fissa. L'architettura presenta un ciclo operativo distinto in cui un generatore-decodifica produce una risposta basata sulla query corrente e sullo stato di memoria precedente, dopodiché un codificatore di memoria e una rete dedicata di Memory Attention aggiornano in modo asincrono la STM con una rappresentazione dell'interazione completa. Questo design altera fondamentalmente le dinamiche di scalabilità, riducendo il costo totale percepito dall'utente di una conversazione da quadratico (O(N^2 cdot T)) a lineare (O(N cdot T)) rispetto al numero di interazioni N. Disaccoppiando la generazione delle risposte dagli aggiornamenti della memoria, RxT raggiunge una bassa latenza, consentendo conversazioni lunghe, con stato, in tempo reale e economicamente sostenibili. Abbiamo validato la nostra architettura con una serie di esperimenti proof-of-concept su dati sintetici, dimostrando prestazioni superiori e una latenza di inferenza costante rispetto a un modello senza stato di dimensioni comparabili.

English

The Transformer architecture has become the de facto standard for Large Language Models (LLMs), demonstrating remarkable capabilities in language understanding and generation. However, its application in conversational AI is fundamentally constrained by its stateless nature and the quadratic computational complexity (O(L^2)) with respect to sequence length L. Current models emulate memory by reprocessing an ever-expanding conversation history with each turn, leading to prohibitive costs and latency in long dialogues. This paper introduces the Reactive Transformer (RxT), a novel architecture designed to overcome these limitations by shifting from a data-driven to an event-driven paradigm. RxT processes each conversational turn as a discrete event in real-time, maintaining context in an integrated, fixed-size Short-Term Memory (STM) system. The architecture features a distinct operational cycle where a generator-decoder produces a response based on the current query and the previous memory state, after which a memory-encoder and a dedicated Memory Attention network asynchronously update the STM with a representation of the complete interaction. This design fundamentally alters the scaling dynamics, reducing the total user-facing cost of a conversation from quadratic (O(N^2 cdot T)) to linear (O(N cdot T)) with respect to the number of interactions N. By decoupling response generation from memory updates, RxT achieves low latency, enabling truly real-time, stateful, and economically viable long-form conversations. We validated our architecture with a series of proof-of-concept experiments on synthetic data, demonstrating superior performance and constant-time inference latency compared to a baseline stateless model of comparable size.

Reactive Transformer (RxT) - Elaborazione Stateful in Tempo Reale per Modelli Linguistici Reattivi Basati su Eventi

Reactive Transformer (RxT) -- Stateful Real-Time Processing for Event-Driven Reactive Language Models

Abstract

Support