ChatPaper.aiChatPaper

ReMMD: 현실적인 다국어 다중 이미지 에이전트 기반 검증을 통한 다중 양식 허위 정보 탐지

ReMMD: Realistic Multilingual Multi-Image Agentic Verification for Multimodal Misinformation Detection

June 23, 2026
저자: Chenhao Dang, Dantong Zhu, Jun Yang, Conghui He, Weijia Li
cs.AI

초록

멀티모달 허위 정보 탐지는 바이럴 게시물이 긴 다국어 서사, 여러 이미지, 혼합된 출처, 그리고 미묘한 텍스트-이미지 프레이밍 오류를 결합함에 따라 점점 더 중요해지고 있다. 기존 벤치마크와 방법은 이러한 설정에 부적합한 상태로 남아 있는데, 이는 일반적으로 짧은 캡션, 단일 이미지, 이진 레이블 또는 단일 조작 출처만을 다루며, 에이전트 기반 검증은 현실적인 증거 검색 환경에서 여전히 비용이 많이 든다. 본 논문에서는 멀티모달 허위 정보 탐지를 위한 현실적인 다국어 다중 이미지 에이전트 기반 검증 프레임워크인 ReMMD를 제시한다. ReMMD는 ReMMDBench를 포함하며, 이는 500개 샘플, 2,756개 이미지, 5개 단일 언어, 2개 교차 언어 설정, 3가지 텍스트 길이 계층, 다중 이미지 게시물, 5단계 진실성 레이블, 8가지 왜곡 레이블, 증거 출처 및 근거를 갖춘 실제 세계 멀티모달 허위 정보 탐지 벤치마크이다. 또한 ReMMD-Agent를 포함하며, 이는 지속적 메모리 검증기로서 게시물을 원자적 포인트로 분해하고, 재사용 가능한 증거 세트를 구축하며, 구조화된 L1/L2/L3 출력을 예측한다. 독점 시스템, 오픈 LVLM, MMD-Agent 및 T2-Agent 중에서 ReMMD-Agent가 최고의 5단계 진실성 성능을 달성하였으며, GPT-5.2를 사용하여 정확도 41.80%, 매크로 F1 39.12%를 기록하였고, MMD-Agent 대비 17.5%, T2-Agent 대비 79.9%의 비용 절감을 보였다. 프로젝트는 https://dang-ai.github.io/ReMMD에서 확인할 수 있다.
English
Multimodal misinformation detection is increasingly important because viral posts now combine long multilingual narratives, several images, mixed provenance, and subtle text--image framing errors. Existing benchmarks and methods remain poorly matched to this setting: they usually isolate short captions, single images, binary labels, or one manipulation source, while agentic verification remains costly under realistic evidence search. We present ReMMD, a realistic multilingual multi-image agentic verification framework for multimodal misinformation detection. ReMMD includes ReMMDBench, a real-world multimodal misinformation detection benchmark with 500 samples, 2,756 images, five monolingual languages, two cross-lingual settings, three text-length tiers, multi-image posts, five-way veracity labels, eight distortion labels, evidence provenance, and rationales. It also includes ReMMD-Agent, a persistent-memory verifier that decomposes posts into atomic points, builds a reusable evidence set, and predicts structured L1/L2/L3 outputs. Across proprietary systems, open LVLMs, MMD-Agent, and T2-Agent, ReMMD-Agent obtains the best five-way veracity performance, with 41.80% accuracy and 39.12% macro-F1 using GPT-5.2, while reducing cost by 17.5% relative to MMD-Agent and 79.9% relative to T2-Agent. The project is available at https://dang-ai.github.io/ReMMD.