ChatPaper.aiChatPaper

다중 스트림 LLM: 병렬적인 사고, 입력 및 출력 스트림을 통한 언어 모델의 병목 해소

Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs

May 12, 2026
저자: Guinan Su, Yanwu Yang, Xueyan Li, Jonas Geiping
cs.AI

초록

언어 모델의 지속적인 성능 향상은 이들을 자율 에이전트의 핵심 동력으로 광범위하게 활용할 수 있게 해주었으며, 예를 들어 코딩이나 컴퓨터 사용 애플리케이션에서 그 사례를 찾을 수 있다. 그러나 이러한 시스템의 핵심은 ChatGPT와 같은 초기 명령어 튜닝(instruction-tuned) 모델 이후로 크게 변하지 않았다. 고급 AI 에이전트조차도 메시지 교환 형식에 의존하며, 사용자, 시스템, 자기 자신(즉, 사고 사슬, chain-of-thought) 및 도구와 메시지를 연속적으로 교환하는 단일 계산 스트림(single stream of computation)을 통해 작동한다. 채팅 모델에서 이러한 단일 스트림의 병목 현상은 여러 제약을 초래한다: 에이전트는 읽는 동안 행동(출력 생성)할 수 없고, 반대로 쓰는 동안 새로운 정보에 반응할 수 없다. 유사하게, 에이전트는 생각하는 동안 행동할 수 없으며, 정보를 읽거나 그에 따라 행동하는 동안 생각할 수 없다. 본 연구에서는 순차적 메시지 형식을 위한 명령어 튜닝에서 다중 병렬 계산 스트림(parallel streams of computation)을 위한 명령어 튜닝으로 전환하여, 각 역할을 별도의 스트림으로 분리함으로써 모델의 제약을 해소할 수 있음을 보여준다. 이때 언어 모델의 매 순방향 전달(forward pass)은 여러 입력 스트림을 동시에 읽고 여러 출력 스트림에 토큰을 생성하며, 이 모든 과정은 이전 시간 단계에 인과적으로 의존한다. 우리는 이러한 데이터 기반의 변화가 위에서 언급한 여러 사용성 제약을 해결하고, 병렬화를 통해 모델 효율성을 개선하며, 관심사 분리(better separation of concerns)를 통해 모델 보안을 향상시키고, 나아가 모델의 모니터링 가능성(monitorability)을 개선할 수 있다고 주장한다.
English
The continued improvements in language model capability have unlocked their widespread use as drivers of autonomous agents, for example in coding or computer use applications. However, the core of these systems has not changed much since early instruction-tuned models like ChatGPT. Even advanced AI agents function on message exchange formats, successively exchanging messages with users, systems, with itself (i.e. chain-of-thought) and tools in a single stream of computation. This bottleneck to a single stream in chat models leads to a number of limitations: the agent cannot act (generate output) while reading, and in reverse, cannot react to new information while writing. Similarly, the agent cannot act while thinking and cannot think while reading or acting on information. In this work, we show that models can be unblocked by switching from instruction-tuning for sequential message formats to instruction-tuning for multiple, parallel streams of computation, splitting each role into a separate stream. Every forward pass of the language model then simultaneously reads from multiple input streams and generates tokens in multiple output streams, all of which causally depend on earlier timesteps. We argue that this data-driven change remedies a number of usability limitations as outlined above, improves model efficiency through parallelization, improves model security through better separation of concerns and can further improve model monitorability.
PDF132May 14, 2026