VisualClaw: Ein Echtzeit-, personalisierter Agent für die physische Welt

Zusammenfassung

Vision-Language-Modelle dienen als universelle Schnittstellen für komplexe multimodale Aufgaben. Dennoch bestehen bei der Bereitstellung weiterhin drei Lücken: VLMs verursachen typischerweise hohe Latenz und Kosten bei der Verarbeitung dichter Videobilder und langer Prompts, das Agenten-Scaffold bleibt nach der Bereitstellung statisch, und standardmäßige Video-QA-Benchmarks testen nicht, ob Agenten visuelle Belege innerhalb von Werkzeug- Arbeitsbereichen nutzen können. Wir präsentieren VisualClaw, einen selbst-evolvierenden multimodalen Agenten, der auf zwei Prinzipien aufbaut. Erstens reduziert die hybride Kodierung die Bereitstellungskosten, indem sie weniger informative Streaming-Bilder durch ein kaskadiertes Gatter filtert und die Textfähigkeitsbank durch Heiß/Kalt-Top-k-Injektion komprimiert. Zweitens ermöglicht die Fähigkeitsentwicklung dem Agenten, aus Fehlern zu lernen: Abgerufene Erinnerungen konditionieren einen Evolver entweder als direkten verketteten Kontext oder als geführte Belege, was zu Aktualisierungen der Fähigkeitsbank führt, die zukünftige Fragen unterstützen. Über 4 Video-QA-Benchmarks mit 2 VLMs senkt VisualClaw die API-Kosten pro Frage im Durchschnitt um -98 % im Vergleich zum Hochladen aller Bilder und um -25,9 % gegenüber der offline gleichmäßigen 8-Bild-Baseline, während die Genauigkeit in den meisten Umgebungen gesteigert wird, z. B. um durchschnittlich +3,85 % und bis zu +15,80 % auf EgoSchema mit Gemini 3 Flash. Um diese Lücke zu schließen, kuratieren wir VisualClawArena, einen 200-Szenarien umfassenden multimodalen agentischen Benchmark, der durch eine strenge fünffache Pipeline erstellt wurde; Modelle müssen Videobelege, Dokumente, dynamische Aktualisierungen und ausführbare Prüfungen innerhalb eines Arbeitsbereichs nutzen. In VisualClawArena verbessert dasselbe Framework mit Computer-Use-Agenten-Backends die makroskopische Genauigkeit um +2,9 % für Codex (GPT-5.5) und +3,2 % für Claude Code (Sonnet 4.6) gegenüber Baselines ohne Evolution, bei einer Kostenreduktion von -9,5 % im Vergleich zur gleichmäßig abgetasteten Baseline. Diese Eigenschaften machen VisualClaw zu einer natürlichen Wahl für Edge-Anwendungen, wo die Kaskade eine einstündige Streaming-Sitzung von ~3.600 API-Uploads auf nur 5–20 Aufrufe reduziert und die Selbst-Evolution es zu einem perfekten personalisierten Assistenten macht.

English

Vision language models are serving as general-purpose interfaces for complex multimodal tasks. However, deployment still faces three gaps: VLMs typically incur high latency and cost when processing dense video frames and long prompts, the agent scaffold remains static after deployment, and standard video-QA benchmarks do not test whether agents can use visual evidence inside tool-using workspaces. We present VisualClaw, a self-evolving multimodal agent built around two principles. First, hybrid encoding reduces deployment cost by filtering less informative streaming frames with a cascaded gate and compressing the text skill bank through hot/cold top-k injection. Second, skill evolution lets the agent learn from failures: retrieved memories condition an evolver as direct concatenated context or as guided evidence, producing skill-bank updates that help future questions. Across 4 video-QA benchmarks with 2 VLMs, VisualClaw cuts per-question API cost by an average -98% versus full-frame upload and by -25.9% over the offline uniform 8 frame baseline, while boosting accuracy in most settings, e.g., an average +3.85% and a peak +15.80% on EgoSchema with Gemini 3 Flash. To address the gap, we curate VisualClawArena, a 200-scenario multimodal agentic benchmark built through a strict five-stage pipeline; models must use video evidence, documents, dynamic updates, and executable checks inside a workspace. On VisualClawArena, the same framework with computer-use agent backends improves macro accuracy by +2.9% for Codex (GPT-5.5) and +3.2% for Claude Code (Sonnet 4.6) over no-evolution baselines, with a -9.5% cost reduction compared to the uniform-sampled baseline. These properties make VisualClaw a natural fit for edge applications, where the cascade reduces a 1-hour streaming session from ~3,600 API uploads down to only 5-20 calls and the self-evolution makes it a perfect personalized assistant.