ChatPaper.aiChatPaper

Multi-Stream-LLMs: Entblockung von Sprachmodellen durch parallele Ströme von Gedanken, Eingaben und Ausgaben

Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs

May 12, 2026
Autoren: Guinan Su, Yanwu Yang, Xueyan Li, Jonas Geiping
cs.AI

Zusammenfassung

Die kontinuierlichen Verbesserungen der Fähigkeiten von Sprachmodellen haben ihren weit verbreiteten Einsatz als Treiber autonomer Agenten ermöglicht, beispielsweise in Programmier- oder Computeranwendungen. Der Kern dieser Systeme hat sich jedoch seit frühen instruktionsabgestimmten Modellen wie ChatGPT kaum verändert. Selbst fortschrittliche KI-Agenten basieren auf Formaten zum Nachrichtenaustausch, bei denen sie nacheinander Nachrichten mit Nutzern, Systemen, mit sich selbst (d.h. Gedankenkette) und Werkzeugen in einem einzigen Rechenstrom austauschen. Diese Beschränkung auf einen einzigen Strom in Chat-Modellen führt zu einer Reihe von Einschränkungen: Der Agent kann nicht handeln (Ausgabe erzeugen), während er liest, und umgekehrt nicht auf neue Informationen reagieren, während er schreibt. Ebenso kann der Agent nicht handeln, während er denkt, und nicht denken, während er liest oder auf Informationen handelt. In dieser Arbeit zeigen wir, dass Modelle entblockt werden können, indem man von der Instruktionsabstimmung auf sequenzielle Nachrichtenformate zur Instruktionsabstimmung auf mehrere, parallele Rechenströme übergeht, wobei jede Rolle in einen separaten Strom aufgeteilt wird. Jeder Vorwärtsdurchlauf des Sprachmodells liest dann gleichzeitig aus mehreren Eingabeströmen und erzeugt Token in mehreren Ausgabeströmen, die alle kausal von früheren Zeitschritten abhängen. Wir argumentieren, dass diese datengesteuerte Änderung eine Reihe der oben skizzierten Nutzungseinschränkungen behebt, die Modelleffizienz durch Parallelisierung verbessert, die Modellsicherheit durch eine bessere Trennung der Zuständigkeiten erhöht und die Überwachbarkeit von Modellen weiter verbessern kann.
English
The continued improvements in language model capability have unlocked their widespread use as drivers of autonomous agents, for example in coding or computer use applications. However, the core of these systems has not changed much since early instruction-tuned models like ChatGPT. Even advanced AI agents function on message exchange formats, successively exchanging messages with users, systems, with itself (i.e. chain-of-thought) and tools in a single stream of computation. This bottleneck to a single stream in chat models leads to a number of limitations: the agent cannot act (generate output) while reading, and in reverse, cannot react to new information while writing. Similarly, the agent cannot act while thinking and cannot think while reading or acting on information. In this work, we show that models can be unblocked by switching from instruction-tuning for sequential message formats to instruction-tuning for multiple, parallel streams of computation, splitting each role into a separate stream. Every forward pass of the language model then simultaneously reads from multiple input streams and generates tokens in multiple output streams, all of which causally depend on earlier timesteps. We argue that this data-driven change remedies a number of usability limitations as outlined above, improves model efficiency through parallelization, improves model security through better separation of concerns and can further improve model monitorability.
PDF132May 14, 2026