LLMs multi-flux : débloquer les modèles de langage avec des flux parallèles de pensées, d'entrées et de sorties

Résumé

Les améliorations continues des capacités des modèles de langage ont libéré leur utilisation généralisée comme moteurs d'agents autonomes, par exemple dans des applications de codage ou d'utilisation d'ordinateurs. Cependant, le cœur de ces systèmes n'a pas beaucoup changé depuis les premiers modèles ajustés par instructions comme ChatGPT. Même les agents d'IA avancés fonctionnent sur des formats d'échange de messages, échangeant successivement des messages avec les utilisateurs, les systèmes, avec eux-mêmes (c'est-à-dire le raisonnement en chaîne) et les outils dans un seul flux de calcul. Ce goulot d'étranglement vers un flux unique dans les modèles de chat entraîne un certain nombre de limitations : l'agent ne peut pas agir (générer une sortie) tout en lisant, et inversement, il ne peut pas réagir à de nouvelles informations tout en écrivant. De même, l'agent ne peut pas agir tout en réfléchissant, ni réfléchir tout en lisant ou en agissant sur des informations. Dans ce travail, nous montrons que les modèles peuvent être débloqués en passant de l'ajustement par instructions pour des formats de messages séquentiels à un ajustement par instructions pour des flux de calcul multiples et parallèles, en divisant chaque rôle en un flux séparé. Chaque passage avant du modèle de langage lit alors simultanément à partir de plusieurs flux d'entrée et génère des jetons dans plusieurs flux de sortie, qui dépendent tous causalement des pas de temps antérieurs. Nous soutenons que ce changement basé sur les données remédie à un certain nombre de limitations d'utilisabilité comme exposé ci-dessus, améliore l'efficacité du modèle grâce à la parallélisation, améliore la sécurité du modèle grâce à une meilleure séparation des préoccupations et peut en outre améliorer la surveillabilité du modèle.

English

The continued improvements in language model capability have unlocked their widespread use as drivers of autonomous agents, for example in coding or computer use applications. However, the core of these systems has not changed much since early instruction-tuned models like ChatGPT. Even advanced AI agents function on message exchange formats, successively exchanging messages with users, systems, with itself (i.e. chain-of-thought) and tools in a single stream of computation. This bottleneck to a single stream in chat models leads to a number of limitations: the agent cannot act (generate output) while reading, and in reverse, cannot react to new information while writing. Similarly, the agent cannot act while thinking and cannot think while reading or acting on information. In this work, we show that models can be unblocked by switching from instruction-tuning for sequential message formats to instruction-tuning for multiple, parallel streams of computation, splitting each role into a separate stream. Every forward pass of the language model then simultaneously reads from multiple input streams and generates tokens in multiple output streams, all of which causally depend on earlier timesteps. We argue that this data-driven change remedies a number of usability limitations as outlined above, improves model efficiency through parallelization, improves model security through better separation of concerns and can further improve model monitorability.

LLMs multi-flux : débloquer les modèles de langage avec des flux parallèles de pensées, d'entrées et de sorties

Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs

Résumé

Support