VisualClaw: Un Agente Personalizado en Tiempo Real para el Mundo Físico

Resumen

Los modelos de lenguaje visual están sirviendo como interfaces de propósito general para tareas multimodales complejas. Sin embargo, el despliegue aún enfrenta tres brechas: los VLM típicamente incurren en alta latencia y costo al procesar fotogramas densos de video y prompts largos, el andamiaje del agente permanece estático después del despliegue, y los benchmarks estándar de video-QA no evalúan si los agentes pueden utilizar evidencia visual dentro de espacios de trabajo con herramientas. Presentamos VisualClaw, un agente multimodal autoevolutivo construido en torno a dos principios. Primero, la codificación híbrida reduce el costo de despliegue filtrando fotogramas de streaming menos informativos con una compuerta en cascada y comprimiendo el banco de habilidades textuales mediante inyección top-k caliente/fría. Segundo, la evolución de habilidades permite que el agente aprenda de los fallos: los recuerdos recuperados condicionan un evolucionador, ya sea como contexto concatenado directo o como evidencia guiada, generando actualizaciones del banco de habilidades que ayudan a preguntas futuras. En 4 benchmarks de video-QA con 2 VLM, VisualClaw reduce el costo de API por pregunta en un promedio de -98% frente a la carga de fotogramas completos y en un -25.9% sobre la línea base uniforme de 8 fotogramas fuera de línea, mientras mejora la precisión en la mayoría de los casos, por ejemplo, un +3.85% promedio y un +15.80% máximo en EgoSchema con Gemini 3 Flash. Para abordar esta brecha, seleccionamos VisualClawArena, un benchmark agentivo multimodal de 200 escenarios construido mediante un estricto proceso de cinco etapas; los modelos deben usar evidencia de video, documentos, actualizaciones dinámicas y verificaciones ejecutables dentro de un espacio de trabajo. En VisualClawArena, el mismo marco con backends de agente de uso de computadora mejora la precisión macro en un +2.9% para Codex (GPT-5.5) y un +3.2% para Claude Code (Sonnet 4.6) en comparación con las líneas base sin evolución, con una reducción de costo del -9.5% en comparación con la línea base de muestreo uniforme. Estas propiedades hacen de VisualClaw un ajuste natural para aplicaciones de borde, donde la cascada reduce una sesión de streaming de 1 hora de ~3,600 cargas de API a solo 5-20 llamadas y la autoevolución lo convierte en un asistente personalizado perfecto.

English

Vision language models are serving as general-purpose interfaces for complex multimodal tasks. However, deployment still faces three gaps: VLMs typically incur high latency and cost when processing dense video frames and long prompts, the agent scaffold remains static after deployment, and standard video-QA benchmarks do not test whether agents can use visual evidence inside tool-using workspaces. We present VisualClaw, a self-evolving multimodal agent built around two principles. First, hybrid encoding reduces deployment cost by filtering less informative streaming frames with a cascaded gate and compressing the text skill bank through hot/cold top-k injection. Second, skill evolution lets the agent learn from failures: retrieved memories condition an evolver as direct concatenated context or as guided evidence, producing skill-bank updates that help future questions. Across 4 video-QA benchmarks with 2 VLMs, VisualClaw cuts per-question API cost by an average -98% versus full-frame upload and by -25.9% over the offline uniform 8 frame baseline, while boosting accuracy in most settings, e.g., an average +3.85% and a peak +15.80% on EgoSchema with Gemini 3 Flash. To address the gap, we curate VisualClawArena, a 200-scenario multimodal agentic benchmark built through a strict five-stage pipeline; models must use video evidence, documents, dynamic updates, and executable checks inside a workspace. On VisualClawArena, the same framework with computer-use agent backends improves macro accuracy by +2.9% for Codex (GPT-5.5) and +3.2% for Claude Code (Sonnet 4.6) over no-evolution baselines, with a -9.5% cost reduction compared to the uniform-sampled baseline. These properties make VisualClaw a natural fit for edge applications, where the cascade reduces a 1-hour streaming session from ~3,600 API uploads down to only 5-20 calls and the self-evolution makes it a perfect personalized assistant.