ChatPaper.aiChatPaper

스트리밍클로 기술 보고서

StreamingClaw Technical Report

March 23, 2026
저자: Jiawei Chen, Zhe Chen, Chaoqun Du, Maokui He, Wei He, Hengtao Li, Qizhen Li, Zide Liu, Hao Ma, Xuhao Pan, Chang Ren, Xudong Rao, Xintian Shen, Chenfeng Wang, Tao Wei, Chengjun Yu, Pengfei Yu, Shengyu Yao, Chunpeng Zhou, Kun Zhan, Lihao Zheng, Pan Zhou, Xuhan Zhu, Yufei Zheng
cs.AI

초록

구현형 인텔리전스와 같은 애플리케이션은 실시간 인지-결정-행동 폐쇄 루프에 의존하며, 스트리밍 비디오 이해에 대한 엄격한 요구사항을 제시합니다. 그러나 현재 에이전트들은 오프라인 비디오 이해만 지원하거나, 장기적인 다중 모드 메모리 메커니즘이 부족하거나, 스트리밍 입력 하에서 실시간 추론 및 능동적 상호작용을 달성하는 데 어려움을 겪는 등 단편적인 역량을 가진 한계를 지닙니다. 이러한 단점들은 실제 환경에서 지속적인 인지를 유지하고 실시간 결정을 내리며 행동을 실행하는 것을 방해하는 주요 병목 현상이 되었습니다. 이러한 문제를 완화하기 위해, 우리는 스트리밍 비디오 이해와 구현형 인텔리전스를 위한 통합 에이전트 프레임워크인 StreamingClaw를 제안합니다. 이는 또한 OpenClaw와 호환되며 실시간 다중 모드 스트리밍 상호작용을 지원하는 프레임워크이기도 합니다. StreamingClaw는 다섯 가지 핵심 역량을 통합합니다: (1) 실시간 스트리밍 추론을 지원합니다. (2) 상호작용 목표의 온라인 진화 하에서 미래 사건에 대한 추론 및 능동적 상호작용을 지원합니다. (3) 다중 에이전트 간 다중 모드 장기 저장, 계층적 진화 및 효율적인 공유 메모리 검색을 지원합니다. (4) 인지-결정-행동의 폐쇄 루프를 지원합니다. 기존의 도구 및 기술 외에도 실제 물리 환경에 맞춤화된 스트리밍 도구와 행동 중심의 기술을 제공합니다. (5) OpenClaw 프레임워크와 호환되어 오픈소스 커뮤니티의 자원과 지원을 완전히 활용할 수 있게 합니다. 이러한 설계를 통해 StreamingClaw는 온라인 실시간 추론, 다중 모드 장기 메모리, 능동적 상호작용을 단일 프레임워크 내에 통합합니다. 더 나아가 결정을 실행 가능한 행동으로 변환함으로써 물리 세계를 직접 제어할 수 있게 하여 구현형 상호작용의 실질적인 배치를 지원합니다.
English
Applications such as embodied intelligence rely on a real-time perception-decision-action closed loop, posing stringent challenges for streaming video understanding. However, current agents suffer from fragmented capabilities, such as supporting only offline video understanding, lacking long-term multimodal memory mechanisms, or struggling to achieve real-time reasoning and proactive interaction under streaming inputs. These shortcomings have become a key bottleneck for preventing them from sustaining perception, making real-time decisions, and executing actions in real-world environments. To alleviate these issues, we propose StreamingClaw, a unified agent framework for streaming video understanding and embodied intelligence. It is also an OpenClaw-compatible framework that supports real-time, multimodal streaming interaction. StreamingClaw integrates five core capabilities: (1) It supports real-time streaming reasoning. (2) It supports reasoning about future events and proactive interaction under the online evolution of interaction objectives. (3) It supports multimodal long-term storage, hierarchical evolution, and efficient retrieval of shared memory across multiple agents. (4) It supports a closed-loop of perception-decision-action. In addition to conventional tools and skills, it also provides streaming tools and action-centric skills tailored for real-world physical environments. (5) It is compatible with the OpenClaw framework, allowing it to fully leverage the resources and support of the open-source community. With these designs, StreamingClaw integrates online real-time reasoning, multimodal long-term memory, and proactive interaction within a unified framework. Moreover, by translating decisions into executable actions, it enables direct control of the physical world, supporting practical deployment of embodied interaction.
PDF31March 27, 2026