ReMMD: Realistische meertalige multi-afbeelding agentische verificatie voor multimodale desinformatiedetectie
ReMMD: Realistic Multilingual Multi-Image Agentic Verification for Multimodal Misinformation Detection
June 23, 2026
Auteurs: Chenhao Dang, Dantong Zhu, Jun Yang, Conghui He, Weijia Li
cs.AI
Samenvatting
Multimodale desinformatiedetectie wordt steeds belangrijker omdat virale berichten nu lange meertalige verhalen, meerdere afbeeldingen, gemengde herkomst en subtiele tekst-beeld framingfouten combineren. Bestaande benchmarks en methoden sluiten slecht aan bij deze context: ze isoleren gewoonlijk korte bijschriften, enkele afbeeldingen, binaire labels of één manipulatiebron, terwijl agentische verificatie onder realistische bewijszoeopdrachten duur blijft. Wij presenteren ReMMD, een realistisch meertalig multi-image agentisch verificatiekader voor multimodale desinformatiedetectie. ReMMD omvat ReMMDBench, een realistische multimodale desinformatiedetectiebenchmark met 500 monsters, 2.756 afbeeldingen, vijf eentalige talen, twee cross-linguale instellingen, drie tekstlengteniveaus, berichten met meerdere afbeeldingen, vijfwaardige waarheidslabels, acht vervormingslabels, bewijsherkomst en motiveringen. Het omvat ook ReMMD-Agent, een aanhoudende geheugenverificateur die berichten ontleedt in atomaire punten, een herbruikbare bewijzenset opbouwt en gestructureerde L1/L2/L3-uitvoer voorspelt. Over propriëtaire systemen, open LVLM's, MMD-Agent en T2-Agent heen behaalt ReMMD-Agent de beste vijfwaardige waarheidsprestaties, met 41,80% nauwkeurigheid en 39,12% macro-F1 met GPT-5.2, terwijl de kosten met 17,5% dalen ten opzichte van MMD-Agent en met 79,9% ten opzichte van T2-Agent. Het project is beschikbaar op https://dang-ai.github.io/ReMMD.
English
Multimodal misinformation detection is increasingly important because viral posts now combine long multilingual narratives, several images, mixed provenance, and subtle text--image framing errors. Existing benchmarks and methods remain poorly matched to this setting: they usually isolate short captions, single images, binary labels, or one manipulation source, while agentic verification remains costly under realistic evidence search. We present ReMMD, a realistic multilingual multi-image agentic verification framework for multimodal misinformation detection. ReMMD includes ReMMDBench, a real-world multimodal misinformation detection benchmark with 500 samples, 2,756 images, five monolingual languages, two cross-lingual settings, three text-length tiers, multi-image posts, five-way veracity labels, eight distortion labels, evidence provenance, and rationales. It also includes ReMMD-Agent, a persistent-memory verifier that decomposes posts into atomic points, builds a reusable evidence set, and predicts structured L1/L2/L3 outputs. Across proprietary systems, open LVLMs, MMD-Agent, and T2-Agent, ReMMD-Agent obtains the best five-way veracity performance, with 41.80% accuracy and 39.12% macro-F1 using GPT-5.2, while reducing cost by 17.5% relative to MMD-Agent and 79.9% relative to T2-Agent. The project is available at https://dang-ai.github.io/ReMMD.