Technisch Rapport StreamingClaw
StreamingClaw Technical Report
March 23, 2026
Auteurs: Jiawei Chen, Zhe Chen, Chaoqun Du, Maokui He, Wei He, Hengtao Li, Qizhen Li, Zide Liu, Hao Ma, Xuhao Pan, Chang Ren, Xudong Rao, Xintian Shen, Chenfeng Wang, Tao Wei, Chengjun Yu, Pengfei Yu, Shengyu Yao, Chunpeng Zhou, Kun Zhan, Lihao Zheng, Pan Zhou, Xuhan Zhu, Yufei Zheng
cs.AI
Samenvatting
Toepassingen zoals belichaamde intelligentie zijn afhankelijk van een gesloten lus van waarneming-beslissing-actie in realtime, wat strenge eisen stelt aan het begrijpen van streamvideo's. Huidige agents kampen echter met gefragmenteerde capaciteiten, zoals het alleen ondersteunen van offline videobegrip, het ontbreken van langetermijn multimodale geheugenmechanismen, of moeite met het bereiken van realtime redenering en proactieve interactie onder streaming inputs. Deze tekortkomingen zijn een belangrijke bottleneck geworden die hen verhindert om waarneming vol te houden, realtime beslissingen te nemen en acties uit te voeren in realistische omgevingen. Om deze problemen te verlichten, stellen wij StreamingClaw voor, een uniform agentraamwerk voor streamvideobegrip en belichaamde intelligentie. Het is tevens een OpenClaw-compatibel raamwerk dat realtime, multimodale streaminteractie ondersteunt. StreamingClaw integreert vijf kerncapaciteiten: (1) Het ondersteunt realtime streamredenering. (2) Het ondersteunt redenering over toekomstige gebeurtenissen en proactieve interactie onder de online evolutie van interactiedoelen. (3) Het ondersteunt multimodale langetermijnopslag, hiërarchische evolutie en efficiënte retrieval van gedeeld geheugen over meerdere agents. (4) Het ondersteunt een gesloten lus van waarneming-beslissing-actie. Naast conventionele tools en vaardigheden biedt het ook streamingtools en actiegerichte vaardigheden die zijn afgestemd op fysieke omgevingen in de echte wereld. (5) Het is compatibel met het OpenClaw-raamwerk, waardoor het de middelen en ondersteuning van de open-sourcegemeenschap volledig kan benutten. Met deze ontwerpen integreert StreamingClaw online realtime redenering, multimodaal langetermijngeheugen en proactieve interactie binnen een uniform raamwerk. Bovendien maakt het, door beslissingen om te zetten in uitvoerbare acties, directe controle over de fysieke wereld mogelijk en ondersteunt het praktische implementatie van belichaamde interactie.
English
Applications such as embodied intelligence rely on a real-time perception-decision-action closed loop, posing stringent challenges for streaming video understanding. However, current agents suffer from fragmented capabilities, such as supporting only offline video understanding, lacking long-term multimodal memory mechanisms, or struggling to achieve real-time reasoning and proactive interaction under streaming inputs. These shortcomings have become a key bottleneck for preventing them from sustaining perception, making real-time decisions, and executing actions in real-world environments. To alleviate these issues, we propose StreamingClaw, a unified agent framework for streaming video understanding and embodied intelligence. It is also an OpenClaw-compatible framework that supports real-time, multimodal streaming interaction. StreamingClaw integrates five core capabilities: (1) It supports real-time streaming reasoning. (2) It supports reasoning about future events and proactive interaction under the online evolution of interaction objectives. (3) It supports multimodal long-term storage, hierarchical evolution, and efficient retrieval of shared memory across multiple agents. (4) It supports a closed-loop of perception-decision-action. In addition to conventional tools and skills, it also provides streaming tools and action-centric skills tailored for real-world physical environments. (5) It is compatible with the OpenClaw framework, allowing it to fully leverage the resources and support of the open-source community. With these designs, StreamingClaw integrates online real-time reasoning, multimodal long-term memory, and proactive interaction within a unified framework. Moreover, by translating decisions into executable actions, it enables direct control of the physical world, supporting practical deployment of embodied interaction.