LLMs Multiflujo: Desbloqueando Modelos de Lenguaje con Flujos Paralelos de Pensamientos, Entradas y Salidas
Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs
May 12, 2026
Autores: Guinan Su, Yanwu Yang, Xueyan Li, Jonas Geiping
cs.AI
Resumen
Las mejoras continuas en la capacidad de los modelos de lenguaje han permitido su uso generalizado como impulsores de agentes autónomos, por ejemplo, en aplicaciones de codificación o uso de computadoras. Sin embargo, el núcleo de estos sistemas no ha cambiado mucho desde los primeros modelos ajustados por instrucciones como ChatGPT. Incluso los agentes de IA avanzados funcionan con formatos de intercambio de mensajes, intercambiando sucesivamente mensajes con usuarios, sistemas, consigo mismos (es decir, cadena de pensamiento) y herramientas en un único flujo de cómputo. Este cuello de botella hacia un único flujo en los modelos de chat genera varias limitaciones: el agente no puede actuar (generar salida) mientras lee y, a la inversa, no puede reaccionar a nueva información mientras escribe. De manera similar, el agente no puede actuar mientras piensa ni pensar mientras lee o actúa sobre la información.
En este trabajo, mostramos que los modelos pueden liberarse de esta restricción al pasar del ajuste por instrucciones para formatos de mensajes secuenciales al ajuste por instrucciones para múltiples flujos paralelos de cómputo, dividiendo cada función en un flujo separado. Cada paso hacia adelante del modelo de lenguaje lee simultáneamente de múltiples flujos de entrada y genera tokens en múltiples flujos de salida, todos los cuales dependen causalmente de pasos de tiempo anteriores. Sostenemos que este cambio basado en datos remedia varias limitaciones de usabilidad como las descritas anteriormente, mejora la eficiencia del modelo mediante la paralelización, mejora la seguridad del modelo a través de una mejor separación de preocupaciones y puede mejorar aún más la capacidad de monitoreo del modelo.
English
The continued improvements in language model capability have unlocked their widespread use as drivers of autonomous agents, for example in coding or computer use applications. However, the core of these systems has not changed much since early instruction-tuned models like ChatGPT. Even advanced AI agents function on message exchange formats, successively exchanging messages with users, systems, with itself (i.e. chain-of-thought) and tools in a single stream of computation. This bottleneck to a single stream in chat models leads to a number of limitations: the agent cannot act (generate output) while reading, and in reverse, cannot react to new information while writing. Similarly, the agent cannot act while thinking and cannot think while reading or acting on information.
In this work, we show that models can be unblocked by switching from instruction-tuning for sequential message formats to instruction-tuning for multiple, parallel streams of computation, splitting each role into a separate stream. Every forward pass of the language model then simultaneously reads from multiple input streams and generates tokens in multiple output streams, all of which causally depend on earlier timesteps. We argue that this data-driven change remedies a number of usability limitations as outlined above, improves model efficiency through parallelization, improves model security through better separation of concerns and can further improve model monitorability.