ChatPaper.aiChatPaper

Reactive Transformer (RxT) – Zustandsbehaftete Echtzeitverarbeitung für ereignisgesteuerte reaktive Sprachmodelle

Reactive Transformer (RxT) -- Stateful Real-Time Processing for Event-Driven Reactive Language Models

October 3, 2025
papers.authors: Adam Filipek
cs.AI

papers.abstract

Die Transformer-Architektur hat sich als De-facto-Standard für Large Language Models (LLMs) etabliert und zeigt bemerkenswerte Fähigkeiten im Bereich des Sprachverständnisses und der Sprachgenerierung. Ihre Anwendung in der konversationellen KI wird jedoch grundlegend durch ihren zustandslosen Charakter und die quadratische Rechenkomplexität (O(L^2)) in Bezug auf die Sequenzlänge L eingeschränkt. Aktuelle Modelle imitieren Gedächtnis, indem sie eine ständig wachsende Konversationshistorie bei jedem Dialogschritt erneut verarbeiten, was zu unvertretbaren Kosten und Latenzzeiten in langen Dialogen führt. Dieses Papier stellt den Reactive Transformer (RxT) vor, eine neuartige Architektur, die entwickelt wurde, um diese Einschränkungen zu überwinden, indem sie von einem datengetriebenen zu einem ereignisgetriebenen Paradigma wechselt. RxT verarbeitet jeden Konversationsschritt als diskretes Ereignis in Echtzeit und bewahrt den Kontext in einem integrierten, festen Kurzzeitgedächtnis (Short-Term Memory, STM). Die Architektur zeichnet sich durch einen spezifischen Betriebszyklus aus, bei dem ein Generator-Decoder eine Antwort basierend auf der aktuellen Anfrage und dem vorherigen Gedächtniszustand erzeugt, woraufhin ein Memory-Encoder und ein dediziertes Memory-Attention-Netzwerk das STM asynchron mit einer Repräsentation der gesamten Interaktion aktualisieren. Dieser Entwurf verändert die Skalierungsdynamik grundlegend und reduziert die Gesamtkosten einer Konversation für den Benutzer von quadratisch (O(N^2 cdot T)) auf linear (O(N cdot T)) in Bezug auf die Anzahl der Interaktionen N. Durch die Entkopplung der Antwortgenerierung von Gedächtnisaktualisierungen erreicht RxT niedrige Latenzzeiten und ermöglicht damit echtzeitfähige, zustandsbehaftete und wirtschaftlich tragfähige Langzeitkonversationen. Wir haben unsere Architektur mit einer Reihe von Proof-of-Concept-Experimenten auf synthetischen Daten validiert und dabei eine überlegene Leistung sowie eine konstante Inferenzlatenz im Vergleich zu einem zustandslosen Basismodell vergleichbarer Größe nachgewiesen.
English
The Transformer architecture has become the de facto standard for Large Language Models (LLMs), demonstrating remarkable capabilities in language understanding and generation. However, its application in conversational AI is fundamentally constrained by its stateless nature and the quadratic computational complexity (O(L^2)) with respect to sequence length L. Current models emulate memory by reprocessing an ever-expanding conversation history with each turn, leading to prohibitive costs and latency in long dialogues. This paper introduces the Reactive Transformer (RxT), a novel architecture designed to overcome these limitations by shifting from a data-driven to an event-driven paradigm. RxT processes each conversational turn as a discrete event in real-time, maintaining context in an integrated, fixed-size Short-Term Memory (STM) system. The architecture features a distinct operational cycle where a generator-decoder produces a response based on the current query and the previous memory state, after which a memory-encoder and a dedicated Memory Attention network asynchronously update the STM with a representation of the complete interaction. This design fundamentally alters the scaling dynamics, reducing the total user-facing cost of a conversation from quadratic (O(N^2 cdot T)) to linear (O(N cdot T)) with respect to the number of interactions N. By decoupling response generation from memory updates, RxT achieves low latency, enabling truly real-time, stateful, and economically viable long-form conversations. We validated our architecture with a series of proof-of-concept experiments on synthetic data, demonstrating superior performance and constant-time inference latency compared to a baseline stateless model of comparable size.
PDF212October 7, 2025