MMA: Agente de Memória Multimodal

Resumo

Agentes multimodais de longo horizonte dependem de memória externa; no entanto, a recuperação baseada em similaridade frequentemente traz à tona itens desatualizados, de baixa credibilidade ou conflitantes, o que pode desencadear erros de excesso de confiança. Propomos o Agente de Memória Multimodal (MMA), que atribui a cada item de memória recuperado uma pontuação de confiabilidade dinâmica, combinando a credibilidade da fonte, o decaimento temporal e um consenso de rede com consciência de conflitos, e usa este sinal para reponderar evidências e abster-se quando o suporte é insuficiente. Também introduzimos o MMA-Bench, um benchmark gerado programaticamente para dinâmica de crenças com confiabilidade controlada do orador e contradições estruturadas texto-visão. Usando esta estrutura, descobrimos o "Efeito Placebo Visual", revelando como agentes baseados em RAG herdam vieses visuais latentes de modelos de base. No FEVER, o MMA iguala a precisão da linha de base enquanto reduz a variância em 35,2% e melhora a utilidade seletiva; no LoCoMo, uma configuração orientada para a segurança melhora a precisão acionável e reduz respostas erradas; no MMA-Bench, o MMA atinge 41,18% de precisão Tipo-B no modo Visão, enquanto a linha de base cai para 0,0% sob o mesmo protocolo. Código: https://github.com/AIGeeksGroup/MMA.

English

Long-horizon multimodal agents depend on external memory; however, similarity-based retrieval often surfaces stale, low-credibility, or conflicting items, which can trigger overconfident errors. We propose Multimodal Memory Agent (MMA), which assigns each retrieved memory item a dynamic reliability score by combining source credibility, temporal decay, and conflict-aware network consensus, and uses this signal to reweight evidence and abstain when support is insufficient. We also introduce MMA-Bench, a programmatically generated benchmark for belief dynamics with controlled speaker reliability and structured text-vision contradictions. Using this framework, we uncover the "Visual Placebo Effect", revealing how RAG-based agents inherit latent visual biases from foundation models. On FEVER, MMA matches baseline accuracy while reducing variance by 35.2% and improving selective utility; on LoCoMo, a safety-oriented configuration improves actionable accuracy and reduces wrong answers; on MMA-Bench, MMA reaches 41.18% Type-B accuracy in Vision mode, while the baseline collapses to 0.0% under the same protocol. Code: https://github.com/AIGeeksGroup/MMA.

MMA: Agente de Memória Multimodal

MMA: Multimodal Memory Agent

Resumo

Support