ChatPaper.aiChatPaper

StreamingClaw Technischer Bericht

StreamingClaw Technical Report

March 23, 2026
Autoren: Jiawei Chen, Zhe Chen, Chaoqun Du, Maokui He, Wei He, Hengtao Li, Qizhen Li, Zide Liu, Hao Ma, Xuhao Pan, Chang Ren, Xudong Rao, Xintian Shen, Chenfeng Wang, Tao Wei, Chengjun Yu, Pengfei Yu, Shengyu Yao, Chunpeng Zhou, Kun Zhan, Lihao Zheng, Pan Zhou, Xuhan Zhu, Yufei Zheng
cs.AI

Zusammenfassung

Anwendungen wie verkörperte Intelligenz basieren auf einem geschlossenen Echtzeit-Wahrnehmungs-Entscheidungs-Handlungs-Kreislauf, was hohe Anforderungen an das Verständnis von Streaming-Videos stellt. Allerdings leiden aktuelle Agenten unter fragmentierten Fähigkeiten, wie z.B. der ausschließlichen Unterstützung von Offline-Videoverständnis, dem Fehlen langfristiger multimodaler Gedächtnismechanismen oder Schwierigkeiten bei der Echtzeit-Argumentation und proaktiven Interaktion unter Streaming-Eingaben. Diese Mängel sind zu einem zentralen Engpass geworden, der sie daran hindert, in realen Umgebungen kontinuierlich wahrzunehmen, Echtzeitentscheidungen zu treffen und Aktionen auszuführen. Um diese Probleme zu mildern, schlagen wir StreamingClaw vor, einen einheitlichen Agentenrahmen für Streaming-Videoverständnis und verkörperte Intelligenz. Es handelt sich ebenfalls um ein OpenClaw-kompatibles Framework, das Echtzeit-, multimodale Streaming-Interaktion unterstützt. StreamingClaw integriert fünf Kernfähigkeiten: (1) Es unterstützt Echtzeit-Streaming-Argumentation. (2) Es unterstützt die Reasoning über zukünftige Ereignisse und proaktive Interaktion bei der Online-Entwicklung von Interaktionszielen. (3) Es unterstützt multimodale Langzeitspeicherung, hierarchische Entwicklung und effiziente Abfrage von gemeinsamem Speicher über mehrere Agenten hinweg. (4) Es unterstützt einen geschlossenen Wahrnehmungs-Entscheidungs-Handlungs-Kreislauf. Neben konventionellen Werkzeugen und Fähigkeiten bietet es auch Streaming-Tools und handlungszentrierte Fähigkeiten, die für reale physische Umgebungen maßgeschneidert sind. (5) Es ist kompatibel mit dem OpenClaw-Framework, was es ermöglicht, die Ressourcen und Unterstützung der Open-Source-Community voll auszuschöpfen. Durch diese Designs integriert StreamingClaw Online-Echtzeit-Argumentation, multimodales Langzeitgedächtnis und proaktive Interaktion in einem einheitlichen Rahmen. Darüber hinaus ermöglicht es durch die Übersetzung von Entscheidungen in ausführbare Aktionen die direkte Steuerung der physischen Welt und unterstützt die praktische Implementierung von verkörperter Interaktion.
English
Applications such as embodied intelligence rely on a real-time perception-decision-action closed loop, posing stringent challenges for streaming video understanding. However, current agents suffer from fragmented capabilities, such as supporting only offline video understanding, lacking long-term multimodal memory mechanisms, or struggling to achieve real-time reasoning and proactive interaction under streaming inputs. These shortcomings have become a key bottleneck for preventing them from sustaining perception, making real-time decisions, and executing actions in real-world environments. To alleviate these issues, we propose StreamingClaw, a unified agent framework for streaming video understanding and embodied intelligence. It is also an OpenClaw-compatible framework that supports real-time, multimodal streaming interaction. StreamingClaw integrates five core capabilities: (1) It supports real-time streaming reasoning. (2) It supports reasoning about future events and proactive interaction under the online evolution of interaction objectives. (3) It supports multimodal long-term storage, hierarchical evolution, and efficient retrieval of shared memory across multiple agents. (4) It supports a closed-loop of perception-decision-action. In addition to conventional tools and skills, it also provides streaming tools and action-centric skills tailored for real-world physical environments. (5) It is compatible with the OpenClaw framework, allowing it to fully leverage the resources and support of the open-source community. With these designs, StreamingClaw integrates online real-time reasoning, multimodal long-term memory, and proactive interaction within a unified framework. Moreover, by translating decisions into executable actions, it enables direct control of the physical world, supporting practical deployment of embodied interaction.
PDF31March 27, 2026