MMA: Agente di Memoria Multimodale

Abstract

Gli agenti multimodali a lungo termine dipendono da memorie esterne; tuttavia, il recupero basato sulla similarità spesso riporta elementi obsoleti, a bassa credibilità o in conflitto, che possono innescare errori dovuti a eccessiva sicurezza. Proponiamo Multimodal Memory Agent (MMA), che assegna a ciascun elemento di memoria recuperato un punteggio di affidabilità dinamico combinando la credibilità della fonte, il decadimento temporale e un consenso di rete consapevole dei conflitti, utilizzando questo segnale per ripesare le evidenze e astenersi quando il supporto è insufficiente. Introduciamo anche MMA-Bench, un benchmark generato programmaticamente per le dinamiche di credibilità con affidabilità controllata del parlante e contraddizioni strutturate testo-immagine. Utilizzando questo framework, scopriamo l'"Effetto Placebo Visivo", rivelando come gli agenti basati su RAG ereditino pregiudizi visivi latenti dai modelli di base. Su FEVER, MMA eguaglia l'accuratezza baseline riducendo la varianza del 35,2% e migliorando l'utilità selettiva; su LoCoMo, una configurazione orientata alla sicurezza migliora l'accuratezza azionabile e riduce le risposte errate; su MMA-Bench, MMA raggiunge il 41,18% di accuratezza di Tipo-B in modalità Visione, mentre il baseline collassa allo 0,0% con lo stesso protocollo. Codice: https://github.com/AIGeeksGroup/MMA.

English

Long-horizon multimodal agents depend on external memory; however, similarity-based retrieval often surfaces stale, low-credibility, or conflicting items, which can trigger overconfident errors. We propose Multimodal Memory Agent (MMA), which assigns each retrieved memory item a dynamic reliability score by combining source credibility, temporal decay, and conflict-aware network consensus, and uses this signal to reweight evidence and abstain when support is insufficient. We also introduce MMA-Bench, a programmatically generated benchmark for belief dynamics with controlled speaker reliability and structured text-vision contradictions. Using this framework, we uncover the "Visual Placebo Effect", revealing how RAG-based agents inherit latent visual biases from foundation models. On FEVER, MMA matches baseline accuracy while reducing variance by 35.2% and improving selective utility; on LoCoMo, a safety-oriented configuration improves actionable accuracy and reduces wrong answers; on MMA-Bench, MMA reaches 41.18% Type-B accuracy in Vision mode, while the baseline collapses to 0.0% under the same protocol. Code: https://github.com/AIGeeksGroup/MMA.

MMA: Agente di Memoria Multimodale

MMA: Multimodal Memory Agent

Abstract

Support