Reactive Transformer (RxT) - Stateful Real-time Verwerking voor Event-Gestuurde Reactieve Taalmodellen

Samenvatting

Het Transformer-architectuur is de facto standaard geworden voor Large Language Models (LLMs), waarbij het opmerkelijke prestaties vertoont in taalbegrip en -generatie. De toepassing ervan in conversationele AI wordt echter fundamenteel beperkt door zijn stateless aard en de kwadratische rekencomplexiteit (O(L^2)) ten opzichte van de sequentielengte L. Huidige modellen bootsen geheugen na door een steeds uitdijende conversatiegeschiedenis bij elke beurt opnieuw te verwerken, wat leidt tot onhoudbare kosten en latentie in lange dialogen. Dit artikel introduceert de Reactive Transformer (RxT), een nieuwe architectuur die ontworpen is om deze beperkingen te overwinnen door te verschuiven van een data-driven naar een event-driven paradigma. RxT verwerkt elke conversatiebeurt als een discreet event in realtime, waarbij context wordt bewaard in een geïntegreerd, vast formaat Short-Term Memory (STM)-systeem. De architectuur kenmerkt zich door een duidelijk operationeel cyclus waarin een generator-decoder een antwoord produceert op basis van de huidige query en de vorige geheugenstatus, waarna een memory-encoder en een toegewijd Memory Attention-netwerk asynchroon het STM bijwerken met een representatie van de volledige interactie. Dit ontwerp verandert de schaalbaarheidsdynamiek fundamenteel, waardoor de totale gebruikersgerichte kosten van een conversatie worden gereduceerd van kwadratisch (O(N^2 cdot T)) naar lineair (O(N cdot T)) ten opzichte van het aantal interacties N. Door het ontkoppelen van antwoordgeneratie en geheugenupdates bereikt RxT een lage latentie, waardoor echt realtime, stateful en economisch haalbare langdurige gesprekken mogelijk worden. We hebben onze architectuur gevalideerd met een reeks proof-of-concept experimenten op synthetische data, waarbij superieure prestaties en constante-tijd inferentielatentie werden aangetoond in vergelijking met een baseline stateless model van vergelijkbare grootte.

English

The Transformer architecture has become the de facto standard for Large Language Models (LLMs), demonstrating remarkable capabilities in language understanding and generation. However, its application in conversational AI is fundamentally constrained by its stateless nature and the quadratic computational complexity (O(L^2)) with respect to sequence length L. Current models emulate memory by reprocessing an ever-expanding conversation history with each turn, leading to prohibitive costs and latency in long dialogues. This paper introduces the Reactive Transformer (RxT), a novel architecture designed to overcome these limitations by shifting from a data-driven to an event-driven paradigm. RxT processes each conversational turn as a discrete event in real-time, maintaining context in an integrated, fixed-size Short-Term Memory (STM) system. The architecture features a distinct operational cycle where a generator-decoder produces a response based on the current query and the previous memory state, after which a memory-encoder and a dedicated Memory Attention network asynchronously update the STM with a representation of the complete interaction. This design fundamentally alters the scaling dynamics, reducing the total user-facing cost of a conversation from quadratic (O(N^2 cdot T)) to linear (O(N cdot T)) with respect to the number of interactions N. By decoupling response generation from memory updates, RxT achieves low latency, enabling truly real-time, stateful, and economically viable long-form conversations. We validated our architecture with a series of proof-of-concept experiments on synthetic data, demonstrating superior performance and constant-time inference latency compared to a baseline stateless model of comparable size.

Reactive Transformer (RxT) - Stateful Real-time Verwerking voor Event-Gestuurde Reactieve Taalmodellen

Reactive Transformer (RxT) -- Stateful Real-Time Processing for Event-Driven Reactive Language Models

Samenvatting

Support