AURA: Memoria con puerta de acción para políticas robóticas con VRAM constante

Resumen

La caché KV es la memoria adecuada para centros de datos, pero la memoria incorrecta para robots. La inferencia en centros de datos procesa por lotes muchas solicitudes cortas y las reinicia, amortizando una caché de atención entre una multitud. En cambio, los agentes encarnados ejecutan un episodio largo y sin reinicio en hardware de borde con ancho de banda limitado, donde la memoria de alto ancho de banda y la memoria flash son escasas, la memoria flash tiene una resistencia de escritura finita y las escrituras en memoria, en lugar del cómputo, pueden convertirse en la restricción vinculante. AURA-Mem (Memoria Adaptativa Recurrente de Utilidad de Acción) se dirige a este régimen. Envuelve una arquitectura base de visión-lenguaje-acción congelada con una memoria recurrente de tamaño constante y una compuerta aprendida que escribe solo cuando la observación actual cambiaría la siguiente acción: una memoria que sabe cuándo permanecer en silencio. A diferencia de la memoria basada en reconstrucción, la compuerta se entrena directamente con una señal de error de acción en circuito cerrado. Su estado de inferencia es fijo en 4.224 bytes independientemente del horizonte, mientras que una caché KV crece 6.061 veces más en 100.000 pasos. En un banco de pruebas sintético controlado, AURA-Mem iguala la mejor línea base O(1) en precisión mientras utiliza entre 5,19 y 6,13 veces menos escrituras, y hasta 9,19 veces menos escrituras en configuraciones más fáciles. Los programas aleatorios y periódicos ajustados al presupuesto no recuperan esta ganancia, aislando el beneficio a la señal de sorpresa de acción. En un panel entrenado de OpenVLA-OFT 7B en circuito cerrado en LIBERO-Long (n=60 episodios por brazo), la compuerta no perjudica el éxito: AURA-Mem iguala la política base sin compuerta (0,233) y supera ligeramente a un brazo KV de escritura constante (0,217), mientras utiliza 7,0 veces menos escrituras y memoria constante. También instanciamos una cota de pérdida de valor de estado de información aproximado como demostración metodológica; a esta escala, la cota es vacua más que una garantía.

English

The KV-cache is the right memory for datacenters but the wrong memory for robots. Datacenter inference batches many short requests and resets them, amortizing an attention cache across a crowd. Embodied agents instead run one long, non-resetting episode on bandwidth-limited edge hardware, where high-bandwidth memory and flash are scarce, flash has finite write endurance, and memory writes rather than compute can become the binding constraint. AURA-Mem (Action-Utility Recurrent Adaptive Memory) targets this regime. It wraps a frozen vision-language-action backbone with a constant-size recurrent memory and a learned gate that writes only when the current observation would change the next action: memory that knows when to stay silent. Unlike reconstruction-based memory, the gate is trained directly against a closed-loop action-error signal. Its inference state is fixed at 4,224 bytes regardless of horizon, while a KV-cache grows to 6,061 times larger at 100,000 steps. On a controlled synthetic benchmark, AURA-Mem matches the best O(1) baseline in accuracy while using 5.19-6.13 times fewer writes, and up to 9.19 times fewer writes on easier configurations. Budget-matched random and periodic schedules do not recover this gain, isolating the benefit to the action-surprise signal. On a trained closed-loop OpenVLA-OFT 7B panel on LIBERO-Long (n=60 episodes per arm), the gate does not hurt success: AURA-Mem matches the ungated base policy (0.233) and slightly exceeds an always-write KV arm (0.217), while using 7.0 times fewer writes and constant memory. We also instantiate an approximate-information-state value-loss bound as a methodology demonstration; at this scale, the bound is vacuous rather than a guarantee.