MMA : Agent de Mémoire Multimodale

Résumé

Les agents multimodaux à long horizon dépendent de la mémoire externe ; cependant, la récupération par similarité remonte souvent des éléments obsolètes, peu crédibles ou conflictuels, ce qui peut déclencher des erreurs de surconfiance. Nous proposons l'Agent à Mémoire Multimodale (MMA), qui attribue à chaque élément de mémoire récupéré un score de fiabilité dynamique en combinant la crédibilité de la source, la décroissance temporelle et un consensus de réseau tenant compte des conflits, et utilise ce signal pour repondérer les preuves et s'abstenir lorsque le soutien est insuffisant. Nous présentons également MMA-Bench, un benchmark généré programmatiquement pour la dynamique des croyances avec une fiabilité contrôlée des locuteurs et des contradictions structurées texte-vision. En utilisant ce cadre, nous mettons en évidence l'« Effet Placebo Visuel », révélant comment les agents basés sur RAG héritent des biais visuels latents des modèles de fondation. Sur FEVER, MMA atteint la précision de base tout en réduisant la variance de 35,2 % et en améliorant l'utilité sélective ; sur LoCoMo, une configuration axée sur la sécurité améliore la précision actionnable et réduit les mauvaises réponses ; sur MMA-Bench, MMA atteint 41,18 % de précision de Type-B en mode Vision, tandis que la base de référence s'effondre à 0,0 % sous le même protocole. Code : https://github.com/AIGeeksGroup/MMA.

English

Long-horizon multimodal agents depend on external memory; however, similarity-based retrieval often surfaces stale, low-credibility, or conflicting items, which can trigger overconfident errors. We propose Multimodal Memory Agent (MMA), which assigns each retrieved memory item a dynamic reliability score by combining source credibility, temporal decay, and conflict-aware network consensus, and uses this signal to reweight evidence and abstain when support is insufficient. We also introduce MMA-Bench, a programmatically generated benchmark for belief dynamics with controlled speaker reliability and structured text-vision contradictions. Using this framework, we uncover the "Visual Placebo Effect", revealing how RAG-based agents inherit latent visual biases from foundation models. On FEVER, MMA matches baseline accuracy while reducing variance by 35.2% and improving selective utility; on LoCoMo, a safety-oriented configuration improves actionable accuracy and reduces wrong answers; on MMA-Bench, MMA reaches 41.18% Type-B accuracy in Vision mode, while the baseline collapses to 0.0% under the same protocol. Code: https://github.com/AIGeeksGroup/MMA.

MMA : Agent de Mémoire Multimodale

MMA: Multimodal Memory Agent

Résumé

Support