VisualClaw: агент реального времени, персонализированный для физического мира

Аннотация

Модели зрения-языка (VLM) служат интерфейсами общего назначения для сложных мультимодальных задач. Однако их развертывание по-прежнему сталкивается с тремя пробелами: VLM, как правило, имеют высокую задержку и стоимость при обработке плотных видеокадров и длинных запросов; агентный каркас остается статичным после развертывания; стандартные бенчмарки видео-QA не проверяют, способны ли агенты использовать визуальные свидетельства внутри рабочих пространств с инструментами. Мы представляем VisualClaw — саморазвивающийся мультимодальный агент, построенный на двух принципах. Во-первых, гибридное кодирование снижает стоимость развертывания за счет фильтрации менее информативных потоковых кадров с помощью каскадного затвора и сжатия банка текстовых навыков через горячее/холодное top-k внедрение. Во-вторых, эволюция навыков позволяет агенту учиться на ошибках: извлеченные воспоминания подают эволюционирующему компоненту либо как прямой конкатенированный контекст, либо как направленное свидетельство, что приводит к обновлениям банка навыков, помогающим будущим вопросам. На 4 бенчмарках видео-QA с 2 VLM VisualClaw сокращает стоимость API на один вопрос в среднем на -98% по сравнению с загрузкой полного кадра и на -25,9% по сравнению с офлайн-равномерным базовым потоком из 8 кадров, одновременно повышая точность в большинстве конфигураций, например, среднее +3,85% и пиковое +15,80% на EgoSchema с Gemini 3 Flash. Для устранения указанного пробела мы подготовили VisualClawArena — мультимодальный агентный бенчмарк из 200 сценариев, построенный через строгий пятиэтапный конвейер; модели должны использовать видеосвидетельства, документы, динамические обновления и выполнимые проверки в рабочей области. На VisualClawArena та же структура с бэкендами агентов для работы с компьютером улучшает макроточность на +2,9% для Codex (GPT-5.5) и на +3,2% для Claude Code (Sonnet 4.6) по сравнению с базовыми версиями без эволюции, при снижении стоимости на -9,5% по сравнению с равномерно сэмплированным базовым вариантом. Эти свойства делают VisualClaw естественным выбором для приложений на границе сети, где каскад сокращает 1-часовую потоковую сессию с ~3 600 API-вызовов до всего 5–20 обращений, а самоэволюция превращает его в идеального персонализированного ассистента.

English

Vision language models are serving as general-purpose interfaces for complex multimodal tasks. However, deployment still faces three gaps: VLMs typically incur high latency and cost when processing dense video frames and long prompts, the agent scaffold remains static after deployment, and standard video-QA benchmarks do not test whether agents can use visual evidence inside tool-using workspaces. We present VisualClaw, a self-evolving multimodal agent built around two principles. First, hybrid encoding reduces deployment cost by filtering less informative streaming frames with a cascaded gate and compressing the text skill bank through hot/cold top-k injection. Second, skill evolution lets the agent learn from failures: retrieved memories condition an evolver as direct concatenated context or as guided evidence, producing skill-bank updates that help future questions. Across 4 video-QA benchmarks with 2 VLMs, VisualClaw cuts per-question API cost by an average -98% versus full-frame upload and by -25.9% over the offline uniform 8 frame baseline, while boosting accuracy in most settings, e.g., an average +3.85% and a peak +15.80% on EgoSchema with Gemini 3 Flash. To address the gap, we curate VisualClawArena, a 200-scenario multimodal agentic benchmark built through a strict five-stage pipeline; models must use video evidence, documents, dynamic updates, and executable checks inside a workspace. On VisualClawArena, the same framework with computer-use agent backends improves macro accuracy by +2.9% for Codex (GPT-5.5) and +3.2% for Claude Code (Sonnet 4.6) over no-evolution baselines, with a -9.5% cost reduction compared to the uniform-sampled baseline. These properties make VisualClaw a natural fit for edge applications, where the cascade reduces a 1-hour streaming session from ~3,600 API uploads down to only 5-20 calls and the self-evolution makes it a perfect personalized assistant.