VisualClaw : un agent personnalisé en temps réel pour le monde physique

Résumé

Les modèles de langage visuels servent d'interfaces polyvalentes pour des tâches multimodales complexes. Cependant, leur déploiement se heurte encore à trois écarts : les VLMs entraînent généralement une latence et un coût élevés lors du traitement de trames vidéo denses et de longues invites, l'infrastructure d'agent reste statique après le déploiement, et les référentiels standard de questions-réponses vidéo ne testent pas si les agents peuvent utiliser des preuves visuelles dans des espaces de travail utilisant des outils. Nous présentons VisualClaw, un agent multimodal auto-évolutif construit autour de deux principes. Premièrement, l'encodage hybride réduit le coût de déploiement en filtrant les trames de streaming moins informatives via une porte en cascade et en compressant la banque de compétences textuelles par injection top-k chaud/froid. Deuxièmement, l'évolution des compétences permet à l'agent d'apprendre de ses échecs : les souvenirs récupérés conditionnent un évolueur soit en tant que contexte directement concaténé, soit en tant que preuve guidée, produisant des mises à jour de la banque de compétences qui aident les questions futures. Sur 4 référentiels de questions-réponses vidéo avec 2 VLMs, VisualClaw réduit le coût API par question en moyenne de -98 % par rapport à l'upload complet des trames et de -25,9 % par rapport à la référence hors ligne uniforme de 8 trames, tout en améliorant la précision dans la plupart des configurations, par exemple une augmentation moyenne de +3,85 % et un pic de +15,80 % sur EgoSchema avec Gemini 3 Flash. Pour combler cet écart, nous élaborons VisualClawArena, un référentiel agentique multimodal de 200 scénarios construit via un pipeline strict en cinq étapes ; les modèles doivent utiliser des preuves vidéo, des documents, des mises à jour dynamiques et des vérifications exécutables dans un espace de travail. Sur VisualClawArena, le même cadre avec des backends d'agent d'utilisation d'ordinateur améliore la précision macro de +2,9 % pour Codex (GPT-5.5) et de +3,2 % pour Claude Code (Sonnet 4.6) par rapport aux bases sans évolution, avec une réduction du coût de -9,5 % par rapport à la base d'échantillonnage uniforme. Ces propriétés font de VisualClaw un choix naturel pour les applications périphériques, où la cascade réduit une session de streaming d'une heure d'environ 3 600 uploads API à seulement 5 à 20 appels, et l'auto-évolution en fait un assistant personnalisé parfait.

English

Vision language models are serving as general-purpose interfaces for complex multimodal tasks. However, deployment still faces three gaps: VLMs typically incur high latency and cost when processing dense video frames and long prompts, the agent scaffold remains static after deployment, and standard video-QA benchmarks do not test whether agents can use visual evidence inside tool-using workspaces. We present VisualClaw, a self-evolving multimodal agent built around two principles. First, hybrid encoding reduces deployment cost by filtering less informative streaming frames with a cascaded gate and compressing the text skill bank through hot/cold top-k injection. Second, skill evolution lets the agent learn from failures: retrieved memories condition an evolver as direct concatenated context or as guided evidence, producing skill-bank updates that help future questions. Across 4 video-QA benchmarks with 2 VLMs, VisualClaw cuts per-question API cost by an average -98% versus full-frame upload and by -25.9% over the offline uniform 8 frame baseline, while boosting accuracy in most settings, e.g., an average +3.85% and a peak +15.80% on EgoSchema with Gemini 3 Flash. To address the gap, we curate VisualClawArena, a 200-scenario multimodal agentic benchmark built through a strict five-stage pipeline; models must use video evidence, documents, dynamic updates, and executable checks inside a workspace. On VisualClawArena, the same framework with computer-use agent backends improves macro accuracy by +2.9% for Codex (GPT-5.5) and +3.2% for Claude Code (Sonnet 4.6) over no-evolution baselines, with a -9.5% cost reduction compared to the uniform-sampled baseline. These properties make VisualClaw a natural fit for edge applications, where the cascade reduces a 1-hour streaming session from ~3,600 API uploads down to only 5-20 calls and the self-evolution makes it a perfect personalized assistant.