AURA: Память, управляемая действиями, для политик роботов с постоянным объёмом видеопамяти (VRAM)

Аннотация

KV-кэш — подходящая память для дата-центров, но неподходящая — для роботов. Вывод в дата-центрах обрабатывает множество коротких запросов партиями и сбрасывает их, амортизируя кэш внимания для большой аудитории. Воплощенные агенты, напротив, выполняют один длинный, непрерывный эпизод на периферийном оборудовании с ограниченной пропускной способностью, где ресурсы высокоскоростной памяти и флэш-памяти ограничены, флэш-память имеет конечный ресурс записи, а лимитирующим фактором могут стать операции записи в память, а не вычисления. AURA-Mem (Action-Utility Recurrent Adaptive Memory — рекуррентная адаптивная память действия-полезности) ориентирована на такой режим. Она оборачивает замороженную базовую модель «зрение-язык-действие» рекуррентной памятью постоянного размера и обученным гейтом, который записывает данные только тогда, когда текущее наблюдение изменило бы следующее действие: память, умеющая оставаться молчаливой. В отличие от памяти на основе реконструкции, гейт обучается непосредственно по сигналу ошибки действия в замкнутом контуре. Ее состояние вывода зафиксировано на уровне 4 224 байт независимо от горизонта, тогда как KV-кэш при 100 000 шагах становится в 6 061 раз больше. На контролируемом синтетическом бенчмарке AURA-Mem по точности соответствует лучшему базовому алгоритму O(1), используя при этом в 5,19–6,13 раз меньше записей, а на более простых конфигурациях — до 9,19 раз меньше. Случайные и периодические расписания с согласованным бюджетом не воспроизводят этот выигрыш, что позволяет объяснить преимущество сигналом неожиданности действия. На обученной замкнутой панели OpenVLA-OFT 7B на LIBERO-Long (n=60 эпизодов на руку) гейт не вредит успеху: AURA-Mem соответствует базовой политике без гейта (0,233) и незначительно превосходит руку KV с постоянной записью (0,217), используя при этом в 7,0 раз меньше записей и постоянную память. Мы также реализуем границу потерь ценности приближенного информационного состояния в качестве демонстрации методологии; при таком масштабе граница является тривиальной, а не гарантией.

English

The KV-cache is the right memory for datacenters but the wrong memory for robots. Datacenter inference batches many short requests and resets them, amortizing an attention cache across a crowd. Embodied agents instead run one long, non-resetting episode on bandwidth-limited edge hardware, where high-bandwidth memory and flash are scarce, flash has finite write endurance, and memory writes rather than compute can become the binding constraint. AURA-Mem (Action-Utility Recurrent Adaptive Memory) targets this regime. It wraps a frozen vision-language-action backbone with a constant-size recurrent memory and a learned gate that writes only when the current observation would change the next action: memory that knows when to stay silent. Unlike reconstruction-based memory, the gate is trained directly against a closed-loop action-error signal. Its inference state is fixed at 4,224 bytes regardless of horizon, while a KV-cache grows to 6,061 times larger at 100,000 steps. On a controlled synthetic benchmark, AURA-Mem matches the best O(1) baseline in accuracy while using 5.19-6.13 times fewer writes, and up to 9.19 times fewer writes on easier configurations. Budget-matched random and periodic schedules do not recover this gain, isolating the benefit to the action-surprise signal. On a trained closed-loop OpenVLA-OFT 7B panel on LIBERO-Long (n=60 episodes per arm), the gate does not hurt success: AURA-Mem matches the ungated base policy (0.233) and slightly exceeds an always-write KV arm (0.217), while using 7.0 times fewer writes and constant memory. We also instantiate an approximate-information-state value-loss bound as a methodology demonstration; at this scale, the bound is vacuous rather than a guarantee.