Aprendizagem Agente com Memória Semântica Multimodal de Crescimento e Refinamento

Resumo

Os MLLMs exibem raciocínio robusto em consultas isoladas, mas operam de novo – resolvendo cada problema independentemente e frequentemente repetindo os mesmos erros. Os agentes existentes com aumento de memória armazenam principalmente trajetórias passadas para reutilização. No entanto, a memória baseada em trajetória sofre de viés de brevidade, perdendo gradualmente conhecimentos essenciais do domínio. Mais criticamente, mesmo em ambientes verdadeiramente multimodais de resolução de problemas, ela registra apenas um traço de modalidade única do comportamento passado, falhando em preservar como a atenção visual e o raciocínio lógico contribuíram conjuntamente para a solução. Isto está fundamentalmente desalinhado com a cognição humana: a memória semântica é multimodal e integrada, preservando conhecimento visual e abstrato através de fluxos representacionais coordenados mas distintos. Apresentamos assim o ViLoMem, uma estrutura de memória de fluxo duplo que constrói memória compacta baseada em esquemas. Ele codifica separadamente padrões de distração visual e erros de raciocínio lógico, permitindo que os MLLMs aprendam com suas experiências bem-sucedidas e fracassadas. Seguindo um princípio de crescimento e refinamento, o sistema acumula e atualiza incrementalmente conhecimento semântico multimodal – preservando estratégias estáveis e generalizáveis enquanto evita o esquecimento catastrófico. Em seis benchmarks multimodais, o ViLoMem melhora consistentemente a precisão pass@1 e reduz substancialmente os erros visuais e lógicos repetidos. Ablações confirmam a necessidade de memória de fluxo duplo com separação explícita entre distração e alucinação, demonstrando o valor da memória multimodal consciente de erros para aprendizado agentivo contínuo e entre domínios. Nossa página do projeto estará disponível em https://weihao-bo.github.io/ViLoMeo-page.

English

MLLMs exhibit strong reasoning on isolated queries, yet they operate de novo -- solving each problem independently and often repeating the same mistakes. Existing memory-augmented agents mainly store past trajectories for reuse. However, trajectory-based memory suffers from brevity bias, gradually losing essential domain knowledge. More critically, even in truly multimodal problem-solving settings, it records only a single-modality trace of past behavior, failing to preserve how visual attention and logical reasoning jointly contributed to the solution. This is fundamentally misaligned with human cognition: semantic memory is both multimodal and integrated, preserving visual and abstract knowledge through coordinated but distinct representational streams. We thus introduce ViLoMem, a dual-stream memory framework that constructs compact, schema-based memory. It separately encodes visual distraction patterns and logical reasoning errors, enabling MLLMs to learn from their successful and failed experiences. Following a grow-and-refine principle, the system incrementally accumulates and updates multimodal semantic knowledge -- preserving stable, generalizable strategies while avoiding catastrophic forgetting. Across six multimodal benchmarks, ViLoMem consistently improves pass@1 accuracy and substantially reduces repeated visual and logical errors. Ablations confirm the necessity of dual-stream memory with explicit distraction--hallucination separation, demonstrating the value of error-aware multimodal memory for lifelong and cross-domain agentic learning. Our project page will be available at https://weihao-bo.github.io/ViLoMeo-page.

Aprendizagem Agente com Memória Semântica Multimodal de Crescimento e Refinamento

Agentic Learner with Grow-and-Refine Multimodal Semantic Memory

Resumo

Support