VisualClaw: Ein Echtzeit-, personalisierter Agent für die physische Welt
VisualClaw: A Real-Time, Personalized Agent for the Physical World
June 15, 2026
Autoren: Haoqin Tu, Jianwen Chen, Zijun Wang, Siwei Han, Juncheng Wu, Hardy Chen, Haonian Ji, Kaiwen Xiong, Jiaqi Liu, Peng Xia, Jieru Mei, Hongliang Fei, Jason Eshraghian, Zeyu Zheng, Yuyin Zhou, Huaxiu Yao, Cihang Xie
cs.AI
Zusammenfassung
Vision-Language-Modelle dienen als universelle Schnittstellen für komplexe multimodale Aufgaben. Dennoch bestehen bei der Bereitstellung weiterhin drei Lücken: VLMs verursachen typischerweise hohe Latenz und Kosten bei der Verarbeitung dichter Videobilder und langer Prompts, das Agenten-Scaffold bleibt nach der Bereitstellung statisch, und standardmäßige Video-QA-Benchmarks testen nicht, ob Agenten visuelle Belege innerhalb von Werkzeug- Arbeitsbereichen nutzen können. Wir präsentieren VisualClaw, einen selbst-evolvierenden multimodalen Agenten, der auf zwei Prinzipien aufbaut. Erstens reduziert die hybride Kodierung die Bereitstellungskosten, indem sie weniger informative Streaming-Bilder durch ein kaskadiertes Gatter filtert und die Textfähigkeitsbank durch Heiß/Kalt-Top-k-Injektion komprimiert. Zweitens ermöglicht die Fähigkeitsentwicklung dem Agenten, aus Fehlern zu lernen: Abgerufene Erinnerungen konditionieren einen Evolver entweder als direkten verketteten Kontext oder als geführte Belege, was zu Aktualisierungen der Fähigkeitsbank führt, die zukünftige Fragen unterstützen. Über 4 Video-QA-Benchmarks mit 2 VLMs senkt VisualClaw die API-Kosten pro Frage im Durchschnitt um -98 % im Vergleich zum Hochladen aller Bilder und um -25,9 % gegenüber der offline gleichmäßigen 8-Bild-Baseline, während die Genauigkeit in den meisten Umgebungen gesteigert wird, z. B. um durchschnittlich +3,85 % und bis zu +15,80 % auf EgoSchema mit Gemini 3 Flash. Um diese Lücke zu schließen, kuratieren wir VisualClawArena, einen 200-Szenarien umfassenden multimodalen agentischen Benchmark, der durch eine strenge fünffache Pipeline erstellt wurde; Modelle müssen Videobelege, Dokumente, dynamische Aktualisierungen und ausführbare Prüfungen innerhalb eines Arbeitsbereichs nutzen. In VisualClawArena verbessert dasselbe Framework mit Computer-Use-Agenten-Backends die makroskopische Genauigkeit um +2,9 % für Codex (GPT-5.5) und +3,2 % für Claude Code (Sonnet 4.6) gegenüber Baselines ohne Evolution, bei einer Kostenreduktion von -9,5 % im Vergleich zur gleichmäßig abgetasteten Baseline. Diese Eigenschaften machen VisualClaw zu einer natürlichen Wahl für Edge-Anwendungen, wo die Kaskade eine einstündige Streaming-Sitzung von ~3.600 API-Uploads auf nur 5–20 Aufrufe reduziert und die Selbst-Evolution es zu einem perfekten personalisierten Assistenten macht.
English
Vision language models are serving as general-purpose interfaces for complex multimodal tasks. However, deployment still faces three gaps: VLMs typically incur high latency and cost when processing dense video frames and long prompts, the agent scaffold remains static after deployment, and standard video-QA benchmarks do not test whether agents can use visual evidence inside tool-using workspaces. We present VisualClaw, a self-evolving multimodal agent built around two principles. First, hybrid encoding reduces deployment cost by filtering less informative streaming frames with a cascaded gate and compressing the text skill bank through hot/cold top-k injection. Second, skill evolution lets the agent learn from failures: retrieved memories condition an evolver as direct concatenated context or as guided evidence, producing skill-bank updates that help future questions. Across 4 video-QA benchmarks with 2 VLMs, VisualClaw cuts per-question API cost by an average -98% versus full-frame upload and by -25.9% over the offline uniform 8 frame baseline, while boosting accuracy in most settings, e.g., an average +3.85% and a peak +15.80% on EgoSchema with Gemini 3 Flash. To address the gap, we curate VisualClawArena, a 200-scenario multimodal agentic benchmark built through a strict five-stage pipeline; models must use video evidence, documents, dynamic updates, and executable checks inside a workspace. On VisualClawArena, the same framework with computer-use agent backends improves macro accuracy by +2.9% for Codex (GPT-5.5) and +3.2% for Claude Code (Sonnet 4.6) over no-evolution baselines, with a -9.5% cost reduction compared to the uniform-sampled baseline. These properties make VisualClaw a natural fit for edge applications, where the cascade reduces a 1-hour streaming session from ~3,600 API uploads down to only 5-20 calls and the self-evolution makes it a perfect personalized assistant.