Rapporto Tecnico di StreamingClaw

Abstract

Applicazioni come l'intelligenza embodied si basano su un ciclo chiuso percezione-decisione-azione in tempo reale, ponendo sfide stringenti per la comprensione di video in streaming. Tuttavia, gli agenti attuali soffrono di capacità frammentate, come il supporto esclusivo alla comprensione video offline, la mancanza di meccanismi di memoria multimodale a lungo termine, o la difficoltà nel raggiungere ragionamento in tempo reale e interazione proattiva con input in streaming. Queste carenze sono diventate un collo di bottiglia cruciale che impedisce loro di sostenere la percezione, prendere decisioni tempestive ed eseguire azioni in ambienti reali. Per alleviare questi problemi, proponiamo StreamingClaw, un framework agente unificato per la comprensione di video in streaming e l'intelligenza embodied. È inoltre un framework compatibile con OpenClaw che supporta l'interazione multimodale in streaming in tempo reale. StreamingClaw integra cinque capacità fondamentali: (1) Supporta il ragionamento in streaming in tempo reale. (2) Supporta il ragionamento su eventi futuri e l'interazione proattiva durante l'evoluzione online degli obiettivi interattivi. (3) Supporta la memorizzazione multimodale a lungo termine, l'evoluzione gerarchica e il recupero efficiente della memoria condivisa tra più agenti. (4) Supporta un ciclo chiuso percezione-decisione-azione. Oltre agli strumenti e alle abilità convenzionali, fornisce anche strumenti di streaming e abilità centrate sull'azione specificamente progettate per ambienti fisici reali. (5) È compatibile con il framework OpenClaw, consentendo di sfruttare appieno le risorse e il supporto della comunità open-source. Con questi progetti, StreamingClaw integra ragionamento online in tempo reale, memoria a lungo termine multimodale e interazione proattiva in un framework unificato. Inoltre, tradurre le decisioni in azioni eseguibili gli permette di controllare direttamente il mondo fisico, supportando la distribuzione pratica di interazioni embodied.

English

Applications such as embodied intelligence rely on a real-time perception-decision-action closed loop, posing stringent challenges for streaming video understanding. However, current agents suffer from fragmented capabilities, such as supporting only offline video understanding, lacking long-term multimodal memory mechanisms, or struggling to achieve real-time reasoning and proactive interaction under streaming inputs. These shortcomings have become a key bottleneck for preventing them from sustaining perception, making real-time decisions, and executing actions in real-world environments. To alleviate these issues, we propose StreamingClaw, a unified agent framework for streaming video understanding and embodied intelligence. It is also an OpenClaw-compatible framework that supports real-time, multimodal streaming interaction. StreamingClaw integrates five core capabilities: (1) It supports real-time streaming reasoning. (2) It supports reasoning about future events and proactive interaction under the online evolution of interaction objectives. (3) It supports multimodal long-term storage, hierarchical evolution, and efficient retrieval of shared memory across multiple agents. (4) It supports a closed-loop of perception-decision-action. In addition to conventional tools and skills, it also provides streaming tools and action-centric skills tailored for real-world physical environments. (5) It is compatible with the OpenClaw framework, allowing it to fully leverage the resources and support of the open-source community. With these designs, StreamingClaw integrates online real-time reasoning, multimodal long-term memory, and proactive interaction within a unified framework. Moreover, by translating decisions into executable actions, it enables direct control of the physical world, supporting practical deployment of embodied interaction.