VisualClaw: Een real-time, gepersonaliseerde agent voor de fysieke wereld

Samenvatting

Visie-taalmodellen dienen als algemene interfaces voor complexe multimodale taken. De implementatie kent echter nog drie hiaten: VLM's hebben doorgaans een hoge latentie en kosten bij het verwerken van dichte videoframes en lange prompts, het agentenskelet blijft statisch na implementatie, en standaard video-QA-benchmarks testen niet of agenten visueel bewijs kunnen gebruiken in tool-gebruikende werkomgevingen. We presenteren VisualClaw, een zelf-evoluerende multimodale agent gebouwd rond twee principes. Ten eerste vermindert hybride codering de implementatiekosten door minder informatieve streamingframes te filteren met een trapsgewijze poort en de tekstvaardigheidsbank te comprimeren via hot/cold top-k injectie. Ten tweede stelt vaardigheidsevolutie de agent in staat om te leren van fouten: opgehaalde herinneringen conditioneren een evolueerder als directe aaneengeschakelde context of als begeleid bewijs, wat leidt tot updates van de vaardigheidsbank die toekomstige vragen helpen. In 4 video-QA-benchmarks met 2 VLM's verlaagt VisualClaw de API-kosten per vraag gemiddeld met -98% ten opzichte van volledige frame-upload en met -25,9% ten opzichte van de offline uniforme 8-frames-baseline, terwijl de nauwkeurigheid in de meeste instellingen toeneemt, bijvoorbeeld een gemiddelde +3,85% en een piek van +15,80% op EgoSchema met Gemini 3 Flash. Om dit hiaat aan te pakken, hebben we VisualClawArena samengesteld, een multimodale agentische benchmark met 200 scenario's, gebouwd via een strikte vijf-fasenpijplijn; modellen moeten video-bewijs, documenten, dynamische updates en uitvoerbare controles binnen een werkruimte gebruiken. Op VisualClawArena verbetert hetzelfde raamwerk met computer-gebruik agent-backends de macro-nauwkeurigheid met +2,9% voor Codex (GPT-5.5) en +3,2% voor Claude Code (Sonnet 4.6) ten opzichte van baselines zonder evolutie, met een kostenreductie van -9,5% vergeleken met de uniform gesamplede baseline. Deze eigenschappen maken VisualClaw een natuurlijke keuze voor edge-toepassingen, waar de cascade een streamsessie van 1 uur reduceert van ~3.600 API-uploads tot slechts 5-20 aanroepen en de zelf-evolutie het een perfecte gepersonaliseerde assistent maakt.

English

Vision language models are serving as general-purpose interfaces for complex multimodal tasks. However, deployment still faces three gaps: VLMs typically incur high latency and cost when processing dense video frames and long prompts, the agent scaffold remains static after deployment, and standard video-QA benchmarks do not test whether agents can use visual evidence inside tool-using workspaces. We present VisualClaw, a self-evolving multimodal agent built around two principles. First, hybrid encoding reduces deployment cost by filtering less informative streaming frames with a cascaded gate and compressing the text skill bank through hot/cold top-k injection. Second, skill evolution lets the agent learn from failures: retrieved memories condition an evolver as direct concatenated context or as guided evidence, producing skill-bank updates that help future questions. Across 4 video-QA benchmarks with 2 VLMs, VisualClaw cuts per-question API cost by an average -98% versus full-frame upload and by -25.9% over the offline uniform 8 frame baseline, while boosting accuracy in most settings, e.g., an average +3.85% and a peak +15.80% on EgoSchema with Gemini 3 Flash. To address the gap, we curate VisualClawArena, a 200-scenario multimodal agentic benchmark built through a strict five-stage pipeline; models must use video evidence, documents, dynamic updates, and executable checks inside a workspace. On VisualClawArena, the same framework with computer-use agent backends improves macro accuracy by +2.9% for Codex (GPT-5.5) and +3.2% for Claude Code (Sonnet 4.6) over no-evolution baselines, with a -9.5% cost reduction compared to the uniform-sampled baseline. These properties make VisualClaw a natural fit for edge applications, where the cascade reduces a 1-hour streaming session from ~3,600 API uploads down to only 5-20 calls and the self-evolution makes it a perfect personalized assistant.