MMA: Multimedialer Gedächtnis-Agent

Zusammenfassung

Multimodale Agentensysteme mit langem Planungshorizont sind auf externen Speicher angewiesen; ähnlichkeitsbasierte Abrufverfahren liefern jedoch häufig veraltete, wenig vertrauenswürdige oder widersprüchliche Einträge, die zu übermäßig selbstsicheren Fehlentscheidungen führen können. Wir stellen den Multimodal Memory Agent (MMA) vor, der jedem abgerufenen Speichereintrag eine dynamische Zuverlässigkeitsbewertung zuweist, indem er Quellenglaubwürdigkeit, zeitlichen Abfall und konfliktsensiblen Netzwerkkonsens kombiniert. Dieses Signal wird zur Neugewichtung von Evidenz genutzt, wobei MMA bei unzureichender Unterstützung entscheidet, sich einer Antwort zu enthalten. Zudem führen wir MMA-Bench ein, einen programmgesteuert generierten Benchmark für Überzeugungsdynamiken mit kontrollierter Sprecherzuverlässigkeit und strukturierten Text-Bild-Widersprüchen. Mit diesem Framework decken wir den „Visuellen Placebo-Effekt“ auf, der zeigt, wie RAG-basierte Agenten latente visuelle Verzerrungen aus Foundation Models übernehmen. Auf FEVER erreicht MMA die Basisgenauigkeit, reduziert jedoch die Varianz um 35,2 % und verbessert die selektive Nutzbarkeit; auf LoCoMo steigert eine sicherheitsorientierte Konfiguration die handlungsrelevante Genauigkeit und reduziert falsche Antworten; auf MMA-Bench erzielt MMA im Vision-Modus eine Typ-B-Genauigkeit von 41,18 %, während der Baseline-Ansatz unter demselben Protokoll auf 0,0 % abfällt. Code: https://github.com/AIGeeksGroup/MMA.

English

Long-horizon multimodal agents depend on external memory; however, similarity-based retrieval often surfaces stale, low-credibility, or conflicting items, which can trigger overconfident errors. We propose Multimodal Memory Agent (MMA), which assigns each retrieved memory item a dynamic reliability score by combining source credibility, temporal decay, and conflict-aware network consensus, and uses this signal to reweight evidence and abstain when support is insufficient. We also introduce MMA-Bench, a programmatically generated benchmark for belief dynamics with controlled speaker reliability and structured text-vision contradictions. Using this framework, we uncover the "Visual Placebo Effect", revealing how RAG-based agents inherit latent visual biases from foundation models. On FEVER, MMA matches baseline accuracy while reducing variance by 35.2% and improving selective utility; on LoCoMo, a safety-oriented configuration improves actionable accuracy and reduces wrong answers; on MMA-Bench, MMA reaches 41.18% Type-B accuracy in Vision mode, while the baseline collapses to 0.0% under the same protocol. Code: https://github.com/AIGeeksGroup/MMA.

MMA: Multimedialer Gedächtnis-Agent

MMA: Multimodal Memory Agent

Zusammenfassung

Support