Реактивный Трансформер (RxT) — обработка в реальном времени с сохранением состояния для реактивных языковых моделей, управляемых событиями

Аннотация

Архитектура Transformer стала де-факто стандартом для больших языковых моделей (LLM), демонстрируя выдающиеся способности в понимании и генерации текста. Однако её применение в диалоговых системах фундаментально ограничено её бессостоятельной природой и квадратичной вычислительной сложностью (O(L^2)) относительно длины последовательности L. Современные модели имитируют память, перерабатывая постоянно расширяющуюся историю диалога на каждом шаге, что приводит к неприемлемым затратам и задержкам в длинных беседах. В данной статье представлен Reactive Transformer (RxT) — новая архитектура, разработанная для преодоления этих ограничений за счёт перехода от парадигмы, управляемой данными, к событийно-ориентированной. RxT обрабатывает каждый шаг диалога как дискретное событие в реальном времени, сохраняя контекст в интегрированной системе кратковременной памяти (STM) фиксированного размера. Архитектура отличается уникальным операционным циклом, в котором генератор-декодер формирует ответ на основе текущего запроса и предыдущего состояния памяти, после чего кодировщик памяти и специализированная сеть внимания к памяти асинхронно обновляют STM, представляя полное взаимодействие. Этот подход кардинально меняет динамику масштабирования, снижая общую стоимость диалога для пользователя с квадратичной (O(N^2 cdot T)) до линейной (O(N cdot T)) относительно числа взаимодействий N. Разделяя генерацию ответов и обновление памяти, RxT достигает низкой задержки, обеспечивая по-настоящему реальное время, сохранение состояния и экономическую целесообразность длительных бесед. Мы подтвердили эффективность нашей архитектуры серией экспериментов на синтетических данных, продемонстрировав превосходную производительность и постоянное время вывода по сравнению с базовой бессостоятельной моделью сопоставимого размера.

English

The Transformer architecture has become the de facto standard for Large Language Models (LLMs), demonstrating remarkable capabilities in language understanding and generation. However, its application in conversational AI is fundamentally constrained by its stateless nature and the quadratic computational complexity (O(L^2)) with respect to sequence length L. Current models emulate memory by reprocessing an ever-expanding conversation history with each turn, leading to prohibitive costs and latency in long dialogues. This paper introduces the Reactive Transformer (RxT), a novel architecture designed to overcome these limitations by shifting from a data-driven to an event-driven paradigm. RxT processes each conversational turn as a discrete event in real-time, maintaining context in an integrated, fixed-size Short-Term Memory (STM) system. The architecture features a distinct operational cycle where a generator-decoder produces a response based on the current query and the previous memory state, after which a memory-encoder and a dedicated Memory Attention network asynchronously update the STM with a representation of the complete interaction. This design fundamentally alters the scaling dynamics, reducing the total user-facing cost of a conversation from quadratic (O(N^2 cdot T)) to linear (O(N cdot T)) with respect to the number of interactions N. By decoupling response generation from memory updates, RxT achieves low latency, enabling truly real-time, stateful, and economically viable long-form conversations. We validated our architecture with a series of proof-of-concept experiments on synthetic data, demonstrating superior performance and constant-time inference latency compared to a baseline stateless model of comparable size.

Реактивный Трансформер (RxT) — обработка в реальном времени с сохранением состояния для реактивных языковых моделей, управляемых событиями

Reactive Transformer (RxT) -- Stateful Real-Time Processing for Event-Driven Reactive Language Models

Аннотация

Support