VisualClaw: Um Agente Personalizado em Tempo Real para o Mundo Físico

Resumo

Modelos de linguagem visual estão servindo como interfaces de propósito geral para tarefas multimodais complexas. No entanto, a implantação ainda enfrenta três lacunas: VLMs geralmente incorrem em alta latência e custo ao processar quadros de vídeo densos e prompts longos, o arcabouço do agente permanece estático após a implantação, e benchmarks padrão de vídeo-QA não testam se os agentes podem usar evidências visuais dentro de ambientes de uso de ferramentas. Apresentamos o VisualClaw, um agente multimodal auto-evolutivo construído em torno de dois princípios. Primeiro, a codificação híbrida reduz o custo de implantação ao filtrar quadros de streaming menos informativos com uma porta em cascata e comprimir o banco de habilidades de texto através de injeção hot/cold top-k. Segundo, a evolução de habilidades permite que o agente aprenda com falhas: memórias recuperadas condicionam um evolver como contexto concatenado direto ou como evidência guiada, produzindo atualizações no banco de habilidades que ajudam perguntas futuras. Em 4 benchmarks de vídeo-QA com 2 VLMs, o VisualClaw reduz o custo de API por pergunta em média -98% em comparação com o upload de quadro completo e -25,9% em relação à linha de base offline uniforme de 8 quadros, ao mesmo tempo que aumenta a precisão na maioria dos cenários, por exemplo, uma média de +3,85% e um pico de +15,80% no EgoSchema com Gemini 3 Flash. Para abordar a lacuna, curadamos o VisualClawArena, um benchmark agêntico multimodal de 200 cenários construído através de um pipeline rigoroso de cinco estágios; os modelos devem usar evidências de vídeo, documentos, atualizações dinâmicas e verificações executáveis dentro de um ambiente de trabalho. No VisualClawArena, a mesma estrutura com backends de agente de uso de computador melhora a precisão macro em +2,9% para Codex (GPT-5.5) e +3,2% para Claude Code (Sonnet 4.6) em comparação com as linhas de base sem evolução, com uma redução de custo de -9,5% em relação à linha de base de amostragem uniforme. Essas propriedades tornam o VisualClaw uma escolha natural para aplicações de borda, onde a cascata reduz uma sessão de streaming de 1 hora de ~3.600 uploads de API para apenas 5 a 20 chamadas e a auto-evolução o torna um assistente personalizado perfeito.

English

Vision language models are serving as general-purpose interfaces for complex multimodal tasks. However, deployment still faces three gaps: VLMs typically incur high latency and cost when processing dense video frames and long prompts, the agent scaffold remains static after deployment, and standard video-QA benchmarks do not test whether agents can use visual evidence inside tool-using workspaces. We present VisualClaw, a self-evolving multimodal agent built around two principles. First, hybrid encoding reduces deployment cost by filtering less informative streaming frames with a cascaded gate and compressing the text skill bank through hot/cold top-k injection. Second, skill evolution lets the agent learn from failures: retrieved memories condition an evolver as direct concatenated context or as guided evidence, producing skill-bank updates that help future questions. Across 4 video-QA benchmarks with 2 VLMs, VisualClaw cuts per-question API cost by an average -98% versus full-frame upload and by -25.9% over the offline uniform 8 frame baseline, while boosting accuracy in most settings, e.g., an average +3.85% and a peak +15.80% on EgoSchema with Gemini 3 Flash. To address the gap, we curate VisualClawArena, a 200-scenario multimodal agentic benchmark built through a strict five-stage pipeline; models must use video evidence, documents, dynamic updates, and executable checks inside a workspace. On VisualClawArena, the same framework with computer-use agent backends improves macro accuracy by +2.9% for Codex (GPT-5.5) and +3.2% for Claude Code (Sonnet 4.6) over no-evolution baselines, with a -9.5% cost reduction compared to the uniform-sampled baseline. These properties make VisualClaw a natural fit for edge applications, where the cascade reduces a 1-hour streaming session from ~3,600 API uploads down to only 5-20 calls and the self-evolution makes it a perfect personalized assistant.