ReMMD: Realistische meertalige multi-afbeelding agentische verificatie voor multimodale desinformatiedetectie

Samenvatting

Multimodale desinformatiedetectie wordt steeds belangrijker omdat virale berichten nu lange meertalige verhalen, meerdere afbeeldingen, gemengde herkomst en subtiele tekst-beeld framingfouten combineren. Bestaande benchmarks en methoden sluiten slecht aan bij deze context: ze isoleren gewoonlijk korte bijschriften, enkele afbeeldingen, binaire labels of één manipulatiebron, terwijl agentische verificatie onder realistische bewijszoeopdrachten duur blijft. Wij presenteren ReMMD, een realistisch meertalig multi-image agentisch verificatiekader voor multimodale desinformatiedetectie. ReMMD omvat ReMMDBench, een realistische multimodale desinformatiedetectiebenchmark met 500 monsters, 2.756 afbeeldingen, vijf eentalige talen, twee cross-linguale instellingen, drie tekstlengteniveaus, berichten met meerdere afbeeldingen, vijfwaardige waarheidslabels, acht vervormingslabels, bewijsherkomst en motiveringen. Het omvat ook ReMMD-Agent, een aanhoudende geheugenverificateur die berichten ontleedt in atomaire punten, een herbruikbare bewijzenset opbouwt en gestructureerde L1/L2/L3-uitvoer voorspelt. Over propriëtaire systemen, open LVLM's, MMD-Agent en T2-Agent heen behaalt ReMMD-Agent de beste vijfwaardige waarheidsprestaties, met 41,80% nauwkeurigheid en 39,12% macro-F1 met GPT-5.2, terwijl de kosten met 17,5% dalen ten opzichte van MMD-Agent en met 79,9% ten opzichte van T2-Agent. Het project is beschikbaar op https://dang-ai.github.io/ReMMD.

English

Multimodal misinformation detection is increasingly important because viral posts now combine long multilingual narratives, several images, mixed provenance, and subtle text--image framing errors. Existing benchmarks and methods remain poorly matched to this setting: they usually isolate short captions, single images, binary labels, or one manipulation source, while agentic verification remains costly under realistic evidence search. We present ReMMD, a realistic multilingual multi-image agentic verification framework for multimodal misinformation detection. ReMMD includes ReMMDBench, a real-world multimodal misinformation detection benchmark with 500 samples, 2,756 images, five monolingual languages, two cross-lingual settings, three text-length tiers, multi-image posts, five-way veracity labels, eight distortion labels, evidence provenance, and rationales. It also includes ReMMD-Agent, a persistent-memory verifier that decomposes posts into atomic points, builds a reusable evidence set, and predicts structured L1/L2/L3 outputs. Across proprietary systems, open LVLMs, MMD-Agent, and T2-Agent, ReMMD-Agent obtains the best five-way veracity performance, with 41.80% accuracy and 39.12% macro-F1 using GPT-5.2, while reducing cost by 17.5% relative to MMD-Agent and 79.9% relative to T2-Agent. The project is available at https://dang-ai.github.io/ReMMD.