Rapport technique de StreamingClaw
StreamingClaw Technical Report
March 23, 2026
Auteurs: Jiawei Chen, Zhe Chen, Chaoqun Du, Maokui He, Wei He, Hengtao Li, Qizhen Li, Zide Liu, Hao Ma, Xuhao Pan, Chang Ren, Xudong Rao, Xintian Shen, Chenfeng Wang, Tao Wei, Chengjun Yu, Pengfei Yu, Shengyu Yao, Chunpeng Zhou, Kun Zhan, Lihao Zheng, Pan Zhou, Xuhan Zhu, Yufei Zheng
cs.AI
Résumé
Les applications telles que l'intelligence incarnée reposent sur une boucle fermée perception-décision-action en temps réel, ce qui pose des défis exigeants pour la compréhension du flux vidéo. Cependant, les agents actuels souffrent de capacités fragmentées, comme la prise en charge uniquement de la compréhension vidéo hors ligne, l'absence de mécanismes de mémoire multimodale à long terme, ou des difficultés à réaliser un raisonnement en temps réel et une interaction proactive avec des entrées en flux continu. Ces limitations constituent un goulot d'étranglement clé les empêchant de maintenir la perception, de prendre des décisions en temps réel et d'exécuter des actions dans des environnements réels. Pour atténuer ces problèmes, nous proposons StreamingClaw, un framework d'agents unifié pour la compréhension du flux vidéo et l'intelligence incarnée. C'est également un framework compatible OpenClaw qui prend en charge l'interaction multimodale en flux continu en temps réel. StreamingClaw intègre cinq capacités fondamentales : (1) Il prend en charge le raisonnement en flux continu en temps réel. (2) Il permet de raisonner sur des événements futurs et d'interagir de manière proactive lors de l'évolution en ligne des objectifs d'interaction. (3) Il prend en charge le stockage multimodal à long terme, l'évolution hiérarchique et la récupération efficace de la mémoire partagée entre plusieurs agents. (4) Il implémente une boucle fermée perception-décision-action. Outre les outils et compétences conventionnels, il fournit également des outils de flux continu et des compétences centrées sur l'action adaptées aux environnements physiques réels. (5) Il est compatible avec le framework OpenClaw, lui permettant de tirer pleinement parti des ressources et du soutien de la communauté open source. Grâce à ces conceptions, StreamingClaw intègre le raisonnement en temps réel en ligne, la mémoire à long terme multimodale et l'interaction proactive dans un framework unifié. De plus, en traduisant les décisions en actions exécutables, il permet un contrôle direct du monde physique, supportant le déploiement pratique de l'interaction incarnée.
English
Applications such as embodied intelligence rely on a real-time perception-decision-action closed loop, posing stringent challenges for streaming video understanding. However, current agents suffer from fragmented capabilities, such as supporting only offline video understanding, lacking long-term multimodal memory mechanisms, or struggling to achieve real-time reasoning and proactive interaction under streaming inputs. These shortcomings have become a key bottleneck for preventing them from sustaining perception, making real-time decisions, and executing actions in real-world environments. To alleviate these issues, we propose StreamingClaw, a unified agent framework for streaming video understanding and embodied intelligence. It is also an OpenClaw-compatible framework that supports real-time, multimodal streaming interaction. StreamingClaw integrates five core capabilities: (1) It supports real-time streaming reasoning. (2) It supports reasoning about future events and proactive interaction under the online evolution of interaction objectives. (3) It supports multimodal long-term storage, hierarchical evolution, and efficient retrieval of shared memory across multiple agents. (4) It supports a closed-loop of perception-decision-action. In addition to conventional tools and skills, it also provides streaming tools and action-centric skills tailored for real-world physical environments. (5) It is compatible with the OpenClaw framework, allowing it to fully leverage the resources and support of the open-source community. With these designs, StreamingClaw integrates online real-time reasoning, multimodal long-term memory, and proactive interaction within a unified framework. Moreover, by translating decisions into executable actions, it enables direct control of the physical world, supporting practical deployment of embodied interaction.