ChatPaper.aiChatPaper

VisualClaw: Um Agente Personalizado em Tempo Real para o Mundo Físico

VisualClaw: A Real-Time, Personalized Agent for the Physical World

June 15, 2026
Autores: Haoqin Tu, Jianwen Chen, Zijun Wang, Siwei Han, Juncheng Wu, Hardy Chen, Haonian Ji, Kaiwen Xiong, Jiaqi Liu, Peng Xia, Jieru Mei, Hongliang Fei, Jason Eshraghian, Zeyu Zheng, Yuyin Zhou, Huaxiu Yao, Cihang Xie
cs.AI

Resumo

Modelos de linguagem visual estão servindo como interfaces de propósito geral para tarefas multimodais complexas. No entanto, a implantação ainda enfrenta três lacunas: VLMs geralmente incorrem em alta latência e custo ao processar quadros de vídeo densos e prompts longos, o arcabouço do agente permanece estático após a implantação, e benchmarks padrão de vídeo-QA não testam se os agentes podem usar evidências visuais dentro de ambientes de uso de ferramentas. Apresentamos o VisualClaw, um agente multimodal auto-evolutivo construído em torno de dois princípios. Primeiro, a codificação híbrida reduz o custo de implantação ao filtrar quadros de streaming menos informativos com uma porta em cascata e comprimir o banco de habilidades de texto através de injeção hot/cold top-k. Segundo, a evolução de habilidades permite que o agente aprenda com falhas: memórias recuperadas condicionam um evolver como contexto concatenado direto ou como evidência guiada, produzindo atualizações no banco de habilidades que ajudam perguntas futuras. Em 4 benchmarks de vídeo-QA com 2 VLMs, o VisualClaw reduz o custo de API por pergunta em média -98% em comparação com o upload de quadro completo e -25,9% em relação à linha de base offline uniforme de 8 quadros, ao mesmo tempo que aumenta a precisão na maioria dos cenários, por exemplo, uma média de +3,85% e um pico de +15,80% no EgoSchema com Gemini 3 Flash. Para abordar a lacuna, curadamos o VisualClawArena, um benchmark agêntico multimodal de 200 cenários construído através de um pipeline rigoroso de cinco estágios; os modelos devem usar evidências de vídeo, documentos, atualizações dinâmicas e verificações executáveis dentro de um ambiente de trabalho. No VisualClawArena, a mesma estrutura com backends de agente de uso de computador melhora a precisão macro em +2,9% para Codex (GPT-5.5) e +3,2% para Claude Code (Sonnet 4.6) em comparação com as linhas de base sem evolução, com uma redução de custo de -9,5% em relação à linha de base de amostragem uniforme. Essas propriedades tornam o VisualClaw uma escolha natural para aplicações de borda, onde a cascata reduz uma sessão de streaming de 1 hora de ~3.600 uploads de API para apenas 5 a 20 chamadas e a auto-evolução o torna um assistente personalizado perfeito.
English
Vision language models are serving as general-purpose interfaces for complex multimodal tasks. However, deployment still faces three gaps: VLMs typically incur high latency and cost when processing dense video frames and long prompts, the agent scaffold remains static after deployment, and standard video-QA benchmarks do not test whether agents can use visual evidence inside tool-using workspaces. We present VisualClaw, a self-evolving multimodal agent built around two principles. First, hybrid encoding reduces deployment cost by filtering less informative streaming frames with a cascaded gate and compressing the text skill bank through hot/cold top-k injection. Second, skill evolution lets the agent learn from failures: retrieved memories condition an evolver as direct concatenated context or as guided evidence, producing skill-bank updates that help future questions. Across 4 video-QA benchmarks with 2 VLMs, VisualClaw cuts per-question API cost by an average -98% versus full-frame upload and by -25.9% over the offline uniform 8 frame baseline, while boosting accuracy in most settings, e.g., an average +3.85% and a peak +15.80% on EgoSchema with Gemini 3 Flash. To address the gap, we curate VisualClawArena, a 200-scenario multimodal agentic benchmark built through a strict five-stage pipeline; models must use video evidence, documents, dynamic updates, and executable checks inside a workspace. On VisualClawArena, the same framework with computer-use agent backends improves macro accuracy by +2.9% for Codex (GPT-5.5) and +3.2% for Claude Code (Sonnet 4.6) over no-evolution baselines, with a -9.5% cost reduction compared to the uniform-sampled baseline. These properties make VisualClaw a natural fit for edge applications, where the cascade reduces a 1-hour streaming session from ~3,600 API uploads down to only 5-20 calls and the self-evolution makes it a perfect personalized assistant.