VisualClaw: агент реального времени, персонализированный для физического мира
VisualClaw: A Real-Time, Personalized Agent for the Physical World
June 15, 2026
Авторы: Haoqin Tu, Jianwen Chen, Zijun Wang, Siwei Han, Juncheng Wu, Hardy Chen, Haonian Ji, Kaiwen Xiong, Jiaqi Liu, Peng Xia, Jieru Mei, Hongliang Fei, Jason Eshraghian, Zeyu Zheng, Yuyin Zhou, Huaxiu Yao, Cihang Xie
cs.AI
Аннотация
Модели зрения-языка (VLM) служат интерфейсами общего назначения для сложных мультимодальных задач. Однако их развертывание по-прежнему сталкивается с тремя пробелами: VLM, как правило, имеют высокую задержку и стоимость при обработке плотных видеокадров и длинных запросов; агентный каркас остается статичным после развертывания; стандартные бенчмарки видео-QA не проверяют, способны ли агенты использовать визуальные свидетельства внутри рабочих пространств с инструментами. Мы представляем VisualClaw — саморазвивающийся мультимодальный агент, построенный на двух принципах. Во-первых, гибридное кодирование снижает стоимость развертывания за счет фильтрации менее информативных потоковых кадров с помощью каскадного затвора и сжатия банка текстовых навыков через горячее/холодное top-k внедрение. Во-вторых, эволюция навыков позволяет агенту учиться на ошибках: извлеченные воспоминания подают эволюционирующему компоненту либо как прямой конкатенированный контекст, либо как направленное свидетельство, что приводит к обновлениям банка навыков, помогающим будущим вопросам. На 4 бенчмарках видео-QA с 2 VLM VisualClaw сокращает стоимость API на один вопрос в среднем на -98% по сравнению с загрузкой полного кадра и на -25,9% по сравнению с офлайн-равномерным базовым потоком из 8 кадров, одновременно повышая точность в большинстве конфигураций, например, среднее +3,85% и пиковое +15,80% на EgoSchema с Gemini 3 Flash. Для устранения указанного пробела мы подготовили VisualClawArena — мультимодальный агентный бенчмарк из 200 сценариев, построенный через строгий пятиэтапный конвейер; модели должны использовать видеосвидетельства, документы, динамические обновления и выполнимые проверки в рабочей области. На VisualClawArena та же структура с бэкендами агентов для работы с компьютером улучшает макроточность на +2,9% для Codex (GPT-5.5) и на +3,2% для Claude Code (Sonnet 4.6) по сравнению с базовыми версиями без эволюции, при снижении стоимости на -9,5% по сравнению с равномерно сэмплированным базовым вариантом. Эти свойства делают VisualClaw естественным выбором для приложений на границе сети, где каскад сокращает 1-часовую потоковую сессию с ~3 600 API-вызовов до всего 5–20 обращений, а самоэволюция превращает его в идеального персонализированного ассистента.
English
Vision language models are serving as general-purpose interfaces for complex multimodal tasks. However, deployment still faces three gaps: VLMs typically incur high latency and cost when processing dense video frames and long prompts, the agent scaffold remains static after deployment, and standard video-QA benchmarks do not test whether agents can use visual evidence inside tool-using workspaces. We present VisualClaw, a self-evolving multimodal agent built around two principles. First, hybrid encoding reduces deployment cost by filtering less informative streaming frames with a cascaded gate and compressing the text skill bank through hot/cold top-k injection. Second, skill evolution lets the agent learn from failures: retrieved memories condition an evolver as direct concatenated context or as guided evidence, producing skill-bank updates that help future questions. Across 4 video-QA benchmarks with 2 VLMs, VisualClaw cuts per-question API cost by an average -98% versus full-frame upload and by -25.9% over the offline uniform 8 frame baseline, while boosting accuracy in most settings, e.g., an average +3.85% and a peak +15.80% on EgoSchema with Gemini 3 Flash. To address the gap, we curate VisualClawArena, a 200-scenario multimodal agentic benchmark built through a strict five-stage pipeline; models must use video evidence, documents, dynamic updates, and executable checks inside a workspace. On VisualClawArena, the same framework with computer-use agent backends improves macro accuracy by +2.9% for Codex (GPT-5.5) and +3.2% for Claude Code (Sonnet 4.6) over no-evolution baselines, with a -9.5% cost reduction compared to the uniform-sampled baseline. These properties make VisualClaw a natural fit for edge applications, where the cascade reduces a 1-hour streaming session from ~3,600 API uploads down to only 5-20 calls and the self-evolution makes it a perfect personalized assistant.