VisualClaw: 物理世界のためのリアルタイム・パーソナライズドエージェント
VisualClaw: A Real-Time, Personalized Agent for the Physical World
June 15, 2026
著者: Haoqin Tu, Jianwen Chen, Zijun Wang, Siwei Han, Juncheng Wu, Hardy Chen, Haonian Ji, Kaiwen Xiong, Jiaqi Liu, Peng Xia, Jieru Mei, Hongliang Fei, Jason Eshraghian, Zeyu Zheng, Yuyin Zhou, Huaxiu Yao, Cihang Xie
cs.AI
要旨
ビジョン言語モデルは、複雑なマルチモーダルタスクのための汎用インターフェースとして機能している。しかし、その導入には依然として3つのギャップが存在する。すなわち、VLMは高密度なビデオフレームや長いプロンプトを処理する際に高いレイテンシとコストを伴うこと、エージェントの基盤が導入後も静的なままであること、そして標準的なビデオQAベンチマークでは、ツールを使用するワークスペース内でエージェントが視覚的証拠を活用できるかどうかをテストできないことである。本稿では、2つの原則に基づいて構築された自己進化型マルチモーダルエージェントであるVisualClawを提案する。第一に、ハイブリッド符号化により、カスケードゲートで情報量の少ないストリーミングフレームをフィルタリングし、ホット/コールドtop-k注入によってテキストスキルバンクを圧縮することで、導入コストを削減する。第二に、スキル進化により、エージェントは失敗から学習する。すなわち、検索された記憶が、直接結合されたコンテキストとして、あるいは誘導された証拠として進化器に条件付けされ、将来の質問に役立つスキルバンクの更新を生成する。2つのVLMを用いた4つのビデオQAベンチマークにおいて、VisualClawは、全フレームアップロードと比較して1質問あたりのAPIコストを平均98%削減し、オフラインの均一8フレームベースラインと比較して平均25.9%削減するとともに、ほとんどの設定で精度を向上させた(例:Gemini 3 Flashを用いたEgoSchemaでは平均+3.85%、最大+15.80%)。このギャップに対処するため、厳格な5段階パイプラインを通じて構築された200シナリオのマルチモーダルエージェントベンチマークであるVisualClawArenaを厳選した。モデルは、ワークスペース内でビデオ証拠、ドキュメント、動的更新、実行可能チェックを使用しなければならない。VisualClawArenaにおいて、同じフレームワークをコンピュータ使用エージェントバックエンドと組み合わせた場合、進化なしのベースラインと比較して、Codex(GPT-5.5)ではマクロ精度が+2.9%、Claude Code(Sonnet 4.6)では+3.2%向上し、均一サンプリングベースラインと比較してコストが9.5%削減された。これらの特性により、VisualClawはエッジアプリケーションに自然に適合する。カスケードにより、1時間のストリーミングセッションが約3,600回のAPIアップロードからわずか5~20回の呼び出しに削減され、自己進化によりパーソナライズされたアシスタントとして理想的なものとなる。
English
Vision language models are serving as general-purpose interfaces for complex multimodal tasks. However, deployment still faces three gaps: VLMs typically incur high latency and cost when processing dense video frames and long prompts, the agent scaffold remains static after deployment, and standard video-QA benchmarks do not test whether agents can use visual evidence inside tool-using workspaces. We present VisualClaw, a self-evolving multimodal agent built around two principles. First, hybrid encoding reduces deployment cost by filtering less informative streaming frames with a cascaded gate and compressing the text skill bank through hot/cold top-k injection. Second, skill evolution lets the agent learn from failures: retrieved memories condition an evolver as direct concatenated context or as guided evidence, producing skill-bank updates that help future questions. Across 4 video-QA benchmarks with 2 VLMs, VisualClaw cuts per-question API cost by an average -98% versus full-frame upload and by -25.9% over the offline uniform 8 frame baseline, while boosting accuracy in most settings, e.g., an average +3.85% and a peak +15.80% on EgoSchema with Gemini 3 Flash. To address the gap, we curate VisualClawArena, a 200-scenario multimodal agentic benchmark built through a strict five-stage pipeline; models must use video evidence, documents, dynamic updates, and executable checks inside a workspace. On VisualClawArena, the same framework with computer-use agent backends improves macro accuracy by +2.9% for Codex (GPT-5.5) and +3.2% for Claude Code (Sonnet 4.6) over no-evolution baselines, with a -9.5% cost reduction compared to the uniform-sampled baseline. These properties make VisualClaw a natural fit for edge applications, where the cascade reduces a 1-hour streaming session from ~3,600 API uploads down to only 5-20 calls and the self-evolution makes it a perfect personalized assistant.