Технический отчет StreamingClaw
StreamingClaw Technical Report
March 23, 2026
Авторы: Jiawei Chen, Zhe Chen, Chaoqun Du, Maokui He, Wei He, Hengtao Li, Qizhen Li, Zide Liu, Hao Ma, Xuhao Pan, Chang Ren, Xudong Rao, Xintian Shen, Chenfeng Wang, Tao Wei, Chengjun Yu, Pengfei Yu, Shengyu Yao, Chunpeng Zhou, Kun Zhan, Lihao Zheng, Pan Zhou, Xuhan Zhu, Yufei Zheng
cs.AI
Аннотация
Такие приложения, как воплощенный интеллект, полагаются на замкнутый цикл "восприятие-решение-действие" в реальном времени, что предъявляет строгие требования к обработке потокового видео. Однако современные агенты страдают от фрагментированности возможностей: они поддерживают только офлайн-анализ видео, не имеют механизмов долговременной мультимодальной памяти или испытывают трудности с реализацией рассуждений в реальном времени и проактивного взаимодействия при потоковом вводе. Эти недостатки стали ключевым препятствием для их способности поддерживать непрерывное восприятие, принимать решения в реальном времени и выполнять действия в реальных условиях. Для решения этих проблем мы предлагаем StreamingClaw — унифицированную агентскую платформу для обработки потокового видео и воплощенного интеллекта. Это также совместимая с OpenClaw платформа, поддерживающая интерактивное мультимодальное взаимодействие в реальном времени. StreamingClaw интегрирует пять ключевых возможностей: (1) Поддержка потоковых рассуждений в реальном времени. (2) Поддержка прогнозирования будущих событий и проактивного взаимодействия при эволюции целей взаимодействия. (3) Поддержка долговременного мультимодального хранения, иерархической эволюции и эффективного поиска в общей памяти для множества агентов. (4) Реализация замкнутого цикла восприятие-решение-действие. Помимо традиционных инструментов и навыков, платформа предоставляет потоковые инструменты и ориентированные на действия навыки, адаптированные для физического окружения. (5) Совместимость с фреймворком OpenClaw, что позволяет полностью использовать ресурсы и поддержку сообщества открытого исходного кода. Благодаря такой архитектуре, StreamingClaw объединяет онлайн-рассуждения в реальном времени, долговременную мультимодальную память и проактивное взаимодействие в единой системе. Более того, преобразуя решения в исполняемые действия, платформа обеспечивает прямое управление физическим миром, поддерживая практическое развертывание воплощенного взаимодействия.
English
Applications such as embodied intelligence rely on a real-time perception-decision-action closed loop, posing stringent challenges for streaming video understanding. However, current agents suffer from fragmented capabilities, such as supporting only offline video understanding, lacking long-term multimodal memory mechanisms, or struggling to achieve real-time reasoning and proactive interaction under streaming inputs. These shortcomings have become a key bottleneck for preventing them from sustaining perception, making real-time decisions, and executing actions in real-world environments. To alleviate these issues, we propose StreamingClaw, a unified agent framework for streaming video understanding and embodied intelligence. It is also an OpenClaw-compatible framework that supports real-time, multimodal streaming interaction. StreamingClaw integrates five core capabilities: (1) It supports real-time streaming reasoning. (2) It supports reasoning about future events and proactive interaction under the online evolution of interaction objectives. (3) It supports multimodal long-term storage, hierarchical evolution, and efficient retrieval of shared memory across multiple agents. (4) It supports a closed-loop of perception-decision-action. In addition to conventional tools and skills, it also provides streaming tools and action-centric skills tailored for real-world physical environments. (5) It is compatible with the OpenClaw framework, allowing it to fully leverage the resources and support of the open-source community. With these designs, StreamingClaw integrates online real-time reasoning, multimodal long-term memory, and proactive interaction within a unified framework. Moreover, by translating decisions into executable actions, it enables direct control of the physical world, supporting practical deployment of embodied interaction.