MMA: Agente de Memoria Multimodal

Resumen

Los agentes multimodales de horizonte largo dependen de la memoria externa; sin embargo, la recuperación basada en similitud a menudo presenta elementos obsoletos, de baja credibilidad o contradictorios, lo que puede desencadenar errores de sobreconfianza. Proponemos el Agente de Memoria Multimodal (MMA), que asigna a cada elemento de memoria recuperado una puntuación de confiabilidad dinámica mediante la combinación de la credibilidad de la fuente, la descomposición temporal y el consenso de la red consciente de conflictos, y utiliza esta señal para reponderar la evidencia y abstenerse cuando el respaldo es insuficiente. También presentamos MMA-Bench, un benchmark generado de forma programática para la dinámica de creencias con confiabilidad controlada del hablante y contradicciones estructuradas texto-visión. Utilizando este marco, descubrimos el "Efecto Placebo Visual", que revela cómo los agentes basados en RAG heredan sesgos visuales latentes de los modelos fundacionales. En FEVER, MMA iguala la precisión de la línea base mientras reduce la varianza en un 35,2% y mejora la utilidad selectiva; en LoCoMo, una configuración orientada a la seguridad mejora la precisión accionable y reduce las respuestas incorrectas; en MMA-Bench, MMA alcanza un 41,18% de precisión Tipo-B en modo Visión, mientras que la línea base colapsa al 0,0% bajo el mismo protocolo. Código: https://github.com/AIGeeksGroup/MMA.

English

Long-horizon multimodal agents depend on external memory; however, similarity-based retrieval often surfaces stale, low-credibility, or conflicting items, which can trigger overconfident errors. We propose Multimodal Memory Agent (MMA), which assigns each retrieved memory item a dynamic reliability score by combining source credibility, temporal decay, and conflict-aware network consensus, and uses this signal to reweight evidence and abstain when support is insufficient. We also introduce MMA-Bench, a programmatically generated benchmark for belief dynamics with controlled speaker reliability and structured text-vision contradictions. Using this framework, we uncover the "Visual Placebo Effect", revealing how RAG-based agents inherit latent visual biases from foundation models. On FEVER, MMA matches baseline accuracy while reducing variance by 35.2% and improving selective utility; on LoCoMo, a safety-oriented configuration improves actionable accuracy and reduces wrong answers; on MMA-Bench, MMA reaches 41.18% Type-B accuracy in Vision mode, while the baseline collapses to 0.0% under the same protocol. Code: https://github.com/AIGeeksGroup/MMA.

MMA: Agente de Memoria Multimodal

MMA: Multimodal Memory Agent

Resumen

Support