Transformateur Réactif (RxT) — Traitement en Temps Réel avec État pour les Modèles de Langage Réactifs Pilotés par Événements

papers.abstract

L'architecture Transformer est devenue le standard de facto pour les modèles de langage à grande échelle (LLMs), démontrant des capacités remarquables en compréhension et génération de langage. Cependant, son application dans l'intelligence conversationnelle est fondamentalement limitée par sa nature sans état et sa complexité computationnelle quadratique (O(L^2)) par rapport à la longueur de séquence L. Les modèles actuels simulent la mémoire en retraitant une histoire de conversation en expansion constante à chaque tour, entraînant des coûts et une latence prohibitifs dans les dialogues longs. Cet article présente le Transformer Réactif (RxT), une architecture novatrice conçue pour surmonter ces limitations en passant d'un paradigme piloté par les données à un paradigme piloté par les événements. RxT traite chaque tour de conversation comme un événement discret en temps réel, maintenant le contexte dans un système de mémoire à court terme (STM) intégré et de taille fixe. L'architecture se distingue par un cycle opérationnel où un générateur-décodeur produit une réponse basée sur la requête actuelle et l'état de mémoire précédent, après quoi un encodeur de mémoire et un réseau d'attention dédié à la mémoire mettent à jour de manière asynchrone la STM avec une représentation de l'interaction complète. Cette conception modifie fondamentalement la dynamique de mise à l'échelle, réduisant le coût total pour l'utilisateur d'une conversation de quadratique (O(N^2 cdot T)) à linéaire (O(N cdot T)) par rapport au nombre d'interactions N. En découplant la génération de réponse des mises à jour de mémoire, RxT atteint une faible latence, permettant des conversations longues en temps réel, avec état et économiquement viables. Nous avons validé notre architecture par une série d'expériences de preuve de concept sur des données synthétiques, démontrant une performance supérieure et une latence d'inférence en temps constant par rapport à un modèle de base sans état de taille comparable.

English

The Transformer architecture has become the de facto standard for Large Language Models (LLMs), demonstrating remarkable capabilities in language understanding and generation. However, its application in conversational AI is fundamentally constrained by its stateless nature and the quadratic computational complexity (O(L^2)) with respect to sequence length L. Current models emulate memory by reprocessing an ever-expanding conversation history with each turn, leading to prohibitive costs and latency in long dialogues. This paper introduces the Reactive Transformer (RxT), a novel architecture designed to overcome these limitations by shifting from a data-driven to an event-driven paradigm. RxT processes each conversational turn as a discrete event in real-time, maintaining context in an integrated, fixed-size Short-Term Memory (STM) system. The architecture features a distinct operational cycle where a generator-decoder produces a response based on the current query and the previous memory state, after which a memory-encoder and a dedicated Memory Attention network asynchronously update the STM with a representation of the complete interaction. This design fundamentally alters the scaling dynamics, reducing the total user-facing cost of a conversation from quadratic (O(N^2 cdot T)) to linear (O(N cdot T)) with respect to the number of interactions N. By decoupling response generation from memory updates, RxT achieves low latency, enabling truly real-time, stateful, and economically viable long-form conversations. We validated our architecture with a series of proof-of-concept experiments on synthetic data, demonstrating superior performance and constant-time inference latency compared to a baseline stateless model of comparable size.

Transformateur Réactif (RxT) — Traitement en Temps Réel avec État pour les Modèles de Langage Réactifs Pilotés par Événements

Reactive Transformer (RxT) -- Stateful Real-Time Processing for Event-Driven Reactive Language Models

papers.abstract

Support