Informe Técnico de StreamingClaw
StreamingClaw Technical Report
March 23, 2026
Autores: Jiawei Chen, Zhe Chen, Chaoqun Du, Maokui He, Wei He, Hengtao Li, Qizhen Li, Zide Liu, Hao Ma, Xuhao Pan, Chang Ren, Xudong Rao, Xintian Shen, Chenfeng Wang, Tao Wei, Chengjun Yu, Pengfei Yu, Shengyu Yao, Chunpeng Zhou, Kun Zhan, Lihao Zheng, Pan Zhou, Xuhan Zhu, Yufei Zheng
cs.AI
Resumen
Aplicaciones como la inteligencia embodada dependen de un bucle cerrado de percepción-decisión-acción en tiempo real, lo que plantea desafíos rigurosos para la comprensión de vídeo en streaming. Sin embargo, los agentes actuales adolecen de capacidades fragmentadas, como soportar únicamente la comprensión de vídeo offline, carecer de mecanismos de memoria multimodal a largo plazo, o tener dificultades para lograr un razonamiento en tiempo real y una interacción proactiva bajo entradas de streaming. Estas deficiencias se han convertido en un cuello de botella clave que les impide mantener la percepción, tomar decisiones en tiempo real y ejecutar acciones en entornos del mundo real. Para paliar estos problemas, proponemos StreamingClaw, un marco de agente unificado para la comprensión de vídeo en streaming y la inteligencia embodada. También es un marco compatible con OpenClaw que soporta interacción multimodal en streaming en tiempo real. StreamingClaw integra cinco capacidades principales: (1) Soporta razonamiento en streaming en tiempo real. (2) Soporta el razonamiento sobre eventos futuros y la interacción proactiva bajo la evolución en línea de los objetivos de interacción. (3) Soporta el almacenamiento multimodal a largo plazo, la evolución jerárquica y la recuperación eficiente de memoria compartida entre múltiples agentes. (4) Soporta un bucle cerrado de percepción-decisión-acción. Además de las herramientas y habilidades convencionales, también proporciona herramientas de streaming y habilidades centradas en la acción diseñadas para entornos físicos del mundo real. (5) Es compatible con el marco OpenClaw, permitiéndole aprovechar plenamente los recursos y el apoyo de la comunidad de código abierto. Con estos diseños, StreamingClaw integra el razonamiento en línea en tiempo real, la memoria multimodal a largo plazo y la interacción proactiva dentro de un marco unificado. Además, al traducir las decisiones en acciones ejecutables, permite el control directo del mundo físico, apoyando el despliegue práctico de la interacción embodada.
English
Applications such as embodied intelligence rely on a real-time perception-decision-action closed loop, posing stringent challenges for streaming video understanding. However, current agents suffer from fragmented capabilities, such as supporting only offline video understanding, lacking long-term multimodal memory mechanisms, or struggling to achieve real-time reasoning and proactive interaction under streaming inputs. These shortcomings have become a key bottleneck for preventing them from sustaining perception, making real-time decisions, and executing actions in real-world environments. To alleviate these issues, we propose StreamingClaw, a unified agent framework for streaming video understanding and embodied intelligence. It is also an OpenClaw-compatible framework that supports real-time, multimodal streaming interaction. StreamingClaw integrates five core capabilities: (1) It supports real-time streaming reasoning. (2) It supports reasoning about future events and proactive interaction under the online evolution of interaction objectives. (3) It supports multimodal long-term storage, hierarchical evolution, and efficient retrieval of shared memory across multiple agents. (4) It supports a closed-loop of perception-decision-action. In addition to conventional tools and skills, it also provides streaming tools and action-centric skills tailored for real-world physical environments. (5) It is compatible with the OpenClaw framework, allowing it to fully leverage the resources and support of the open-source community. With these designs, StreamingClaw integrates online real-time reasoning, multimodal long-term memory, and proactive interaction within a unified framework. Moreover, by translating decisions into executable actions, it enables direct control of the physical world, supporting practical deployment of embodied interaction.