EventVLA: Event-gedreven Visueel Bewijsgeheugen voor Lange-termijn Visie-Taal-Actie Beleidsstrategieën

Samenvatting

Geheugen blijft een kritiek knelpunt voor robotmanipulatie over lange tijdsperioden, omdat standaard Visie-Taal-Actie (VTA)-beleidsstrategieën vaak falen wanneer taakrelevante aanwijzingen na verloop van tijd worden afgeschermd of niet waarneembaar zijn. Hoewel bestaande geheugenaugmentatiemethoden historische context benutten, kampen ze ofwel met ernstige informatieknelpunten, vertonen ze hoge latentie door ontkoppelde dubbele systemen, of vertrouwen ze op onselectieve buffers die enorme visuele redundanties accumuleren. Om deze beperkingen aan te pakken, introduceren wij EventVLA, een eind-tot-eind raamwerk dat is gebaseerd op het concept van geheugen met spaarzame visuele bewijzen. Het bestaat uit twee kerncomponenten: fundamentele visuele ankers voor het behouden van initiële en korte-termijn contexten, en een dynamische Keyframe Evidence Memory (KEM)-module. Specifiek voorspelt KEM rechtstreeks toekomstige kansverdelingen voor sleutelframes op basis van de latente inbeddingen van de VTA om autonoom spaarzame, taakkritische visuele gebeurtenissen vast te leggen en op te slaan. Dit vooruitziende mechanisme stelt het beleid in staat om dynamisch het toekomstige causale nut van huidige waarnemingen te evalueren, waarbij vluchtig visueel bewijs wordt bewaard voordat het niet waarneembaar wordt. Verder stellen wij RoboTwin-MeM voor, een diagnostische benchmark die specifiek is ontworpen om niet-Markovse manipulatietaken met interactieve visuele bewijzen te evalueren. Uitgebreide evaluaties tonen aan dat EventVLA over 17 simulatietaken die geheugen vereisen en 4 realistische bimanuele taken een gemiddelde verbetering van het slagingspercentage van +40% behaalt ten opzichte van de modernste geheugengeaugmenteerde VTA's.

English

Memory remains a critical bottleneck for long-horizon robotic manipulation, as standard Vision-Language-Action (VLA) policies often fail when task-relevant cues become occluded or unobservable over time. While existing memory-augmented methods utilize historical context, they either suffer from severe information bottlenecks, incur high latency via decoupled dual systems, or rely on unselective buffers that accumulate massive visual redundancies. To address these limitations, we introduce EventVLA, an end-to-end framework founded on the concept of sparse visual evidence memory that comprises two core components: foundational visual anchors to retain initial and short-term contexts, and a dynamic Keyframe Evidence Memory (KEM) module. Specifically, KEM directly predicts future keyframe probabilities from the VLA's latent embeddings to autonomously capture and store sparse, task-critical visual events. This foresight-driven mechanism empowers the policy to dynamically evaluate the future causal utility of current observations, preserving transient visual evidence before it becomes unobservable. Furthermore, we propose RoboTwin-MeM, a diagnostic benchmark specifically designed to evaluate non-Markovian manipulation tasks with interactive visual evidence. Extensive evaluations show that across 17 memory-requiring simulation tasks and 4 real-world bimanual tasks, EventVLA achieves an average success rate improvement of +40% over state-of-the-art memory-augmented VLAs.