Многопоточные LLM: Разблокирование языковых моделей с помощью параллельных потоков мыслей, входов и выходов

Аннотация

Постоянное улучшение возможностей языковых моделей позволило широко использовать их в качестве движущей силы автономных агентов, например, в приложениях для программирования или использования компьютера. Однако ядро этих систем мало изменилось со времен ранних моделей, настроенных на выполнение инструкций, таких как ChatGPT. Даже продвинутые AI-агенты функционируют в форматах обмена сообщениями, последовательно обмениваясь сообщениями с пользователями, системами, с самими собой (т.е. цепочка рассуждений) и инструментами в едином потоке вычислений. Это узкое место в виде единого потока в чат-моделях приводит к ряду ограничений: агент не может действовать (генерировать вывод) во время чтения и, наоборот, не может реагировать на новую информацию во время записи. Аналогично, агент не может действовать во время размышления и не может размышлять во время чтения или обработки информации. В данной работе мы показываем, что модели можно разблокировать, переключившись с настройки на выполнение инструкций для последовательных форматов сообщений на настройку на выполнение инструкций для множества параллельных потоков вычислений, разделяя каждую роль на отдельный поток. Каждый прямой проход языковой модели затем одновременно считывает данные из нескольких входных потоков и генерирует токены в нескольких выходных потоках, все из которых причинно зависят от предыдущих временных шагов. Мы утверждаем, что это изменение, основанное на данных, устраняет ряд описанных выше ограничений удобства использования, повышает эффективность модели за счет параллелизации, улучшает безопасность модели за счет лучшего разделения ответственности и может дополнительно улучшить наблюдаемость модели.

English

The continued improvements in language model capability have unlocked their widespread use as drivers of autonomous agents, for example in coding or computer use applications. However, the core of these systems has not changed much since early instruction-tuned models like ChatGPT. Even advanced AI agents function on message exchange formats, successively exchanging messages with users, systems, with itself (i.e. chain-of-thought) and tools in a single stream of computation. This bottleneck to a single stream in chat models leads to a number of limitations: the agent cannot act (generate output) while reading, and in reverse, cannot react to new information while writing. Similarly, the agent cannot act while thinking and cannot think while reading or acting on information. In this work, we show that models can be unblocked by switching from instruction-tuning for sequential message formats to instruction-tuning for multiple, parallel streams of computation, splitting each role into a separate stream. Every forward pass of the language model then simultaneously reads from multiple input streams and generates tokens in multiple output streams, all of which causally depend on earlier timesteps. We argue that this data-driven change remedies a number of usability limitations as outlined above, improves model efficiency through parallelization, improves model security through better separation of concerns and can further improve model monitorability.

Многопоточные LLM: Разблокирование языковых моделей с помощью параллельных потоков мыслей, входов и выходов

Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs

Аннотация

Support