Relatório Técnico do StreamingClaw
StreamingClaw Technical Report
March 23, 2026
Autores: Jiawei Chen, Zhe Chen, Chaoqun Du, Maokui He, Wei He, Hengtao Li, Qizhen Li, Zide Liu, Hao Ma, Xuhao Pan, Chang Ren, Xudong Rao, Xintian Shen, Chenfeng Wang, Tao Wei, Chengjun Yu, Pengfei Yu, Shengyu Yao, Chunpeng Zhou, Kun Zhan, Lihao Zheng, Pan Zhou, Xuhan Zhu, Yufei Zheng
cs.AI
Resumo
Aplicações como a inteligência incorporada dependem de um circuito fechado de percepção-decisão-ação em tempo real, impondo desafios rigorosos para a compreensão de vídeo em fluxo contínuo. No entanto, os agentes atuais sofrem com capacidades fragmentadas, como suportar apenas a compreensão de vídeo offline, carecer de mecanismos de memória multimodal de longo prazo ou lutar para alcançar raciocínio em tempo real e interação proativa sob entradas de fluxo contínuo. Essas deficiências tornaram-se um gargalo fundamental que os impede de sustentar a percepção, tomar decisões em tempo real e executar ações em ambientes do mundo real. Para aliviar esses problemas, propomos o StreamingClaw, uma estrutura de agente unificada para compreensão de vídeo em fluxo contínuo e inteligência incorporada. É também uma estrutura compatível com OpenClaw que suporta interação multimodal em fluxo contínuo em tempo real. O StreamingClaw integra cinco capacidades principais: (1) Suporta raciocínio em fluxo contínuo em tempo real. (2) Suporta o raciocínio sobre eventos futuros e a interação proativa sob a evolução online dos objetivos de interação. (3) Suporta armazenamento de longo prazo multimodal, evolução hierárquica e recuperação eficiente de memória compartilhada entre múltiplos agentes. (4) Suporta um circuito fechado de percepção-decisão-ação. Além de ferramentas e habilidades convencionais, também fornece ferramentas de fluxo contínuo e habilidades centradas em ação adaptadas para ambientes físicos do mundo real. (5) É compatível com a estrutura OpenClaw, permitindo aproveitar totalmente os recursos e o suporte da comunidade de código aberto. Com esses projetos, o StreamingClaw integra raciocínio online em tempo real, memória de longo prazo multimodal e interação proativa dentro de uma estrutura unificada. Além disso, ao traduzir decisões em ações executáveis, ele permite o controle direto do mundo físico, apoiando a implantação prática da interação incorporada.
English
Applications such as embodied intelligence rely on a real-time perception-decision-action closed loop, posing stringent challenges for streaming video understanding. However, current agents suffer from fragmented capabilities, such as supporting only offline video understanding, lacking long-term multimodal memory mechanisms, or struggling to achieve real-time reasoning and proactive interaction under streaming inputs. These shortcomings have become a key bottleneck for preventing them from sustaining perception, making real-time decisions, and executing actions in real-world environments. To alleviate these issues, we propose StreamingClaw, a unified agent framework for streaming video understanding and embodied intelligence. It is also an OpenClaw-compatible framework that supports real-time, multimodal streaming interaction. StreamingClaw integrates five core capabilities: (1) It supports real-time streaming reasoning. (2) It supports reasoning about future events and proactive interaction under the online evolution of interaction objectives. (3) It supports multimodal long-term storage, hierarchical evolution, and efficient retrieval of shared memory across multiple agents. (4) It supports a closed-loop of perception-decision-action. In addition to conventional tools and skills, it also provides streaming tools and action-centric skills tailored for real-world physical environments. (5) It is compatible with the OpenClaw framework, allowing it to fully leverage the resources and support of the open-source community. With these designs, StreamingClaw integrates online real-time reasoning, multimodal long-term memory, and proactive interaction within a unified framework. Moreover, by translating decisions into executable actions, it enables direct control of the physical world, supporting practical deployment of embodied interaction.