ReMMD: マルチモーダル誤情報検出のための現実的な多言語マルチイメージエージェンティック検証
ReMMD: Realistic Multilingual Multi-Image Agentic Verification for Multimodal Misinformation Detection
June 23, 2026
著者: Chenhao Dang, Dantong Zhu, Jun Yang, Conghui He, Weijia Li
cs.AI
要旨
マルチモーダルな偽情報検出の重要性が高まっています。なぜなら、拡散される投稿には現在、長大な多言語ナラティブ、複数の画像、多様な出典、そしてテキストと画像の微妙なフレーミングの誤りが組み合わされているからです。既存のベンチマークや手法は、この状況に十分に対応できていません。通常、短いキャプション、単一画像、二値ラベル、または単一の操作ソースに限定されており、現実的なエビデンス探索の下ではエージェント型検証が依然として高コストです。本論文では、現実的な多言語・複数画像対応のエージェント型検証フレームワークであるReMMDを提案します。ReMMDには、500サンプル、2,756枚の画像、5つの単一言語、2つの言語横断設定、3つのテキスト長レベル、複数画像投稿、5段階真偽ラベル、8種類の歪みラベル、エビデンスの出典、および根拠を含む、実世界のマルチモーダル偽情報検出ベンチマークReMMDBenchが含まれます。また、持続的メモリを持つ検証器ReMMD-Agentも含まれており、投稿を原子的事実に分解し、再利用可能なエビデンスセットを構築し、構造化されたL1/L2/L3出力を予測します。プロプライエタリシステム、オープンLVLM、MMD-Agent、T2-Agentと比較して、ReMMD-Agentは5段階真偽分類で最高性能を達成し、GPT-5.2を用いて精度41.80%、マクロF1値39.12%を記録するとともに、MMD-Agent比17.5%、T2-Agent比79.9%のコスト削減を実現しました。プロジェクトはhttps://dang-ai.github.io/ReMMDで公開しています。
English
Multimodal misinformation detection is increasingly important because viral posts now combine long multilingual narratives, several images, mixed provenance, and subtle text--image framing errors. Existing benchmarks and methods remain poorly matched to this setting: they usually isolate short captions, single images, binary labels, or one manipulation source, while agentic verification remains costly under realistic evidence search. We present ReMMD, a realistic multilingual multi-image agentic verification framework for multimodal misinformation detection. ReMMD includes ReMMDBench, a real-world multimodal misinformation detection benchmark with 500 samples, 2,756 images, five monolingual languages, two cross-lingual settings, three text-length tiers, multi-image posts, five-way veracity labels, eight distortion labels, evidence provenance, and rationales. It also includes ReMMD-Agent, a persistent-memory verifier that decomposes posts into atomic points, builds a reusable evidence set, and predicts structured L1/L2/L3 outputs. Across proprietary systems, open LVLMs, MMD-Agent, and T2-Agent, ReMMD-Agent obtains the best five-way veracity performance, with 41.80% accuracy and 39.12% macro-F1 using GPT-5.2, while reducing cost by 17.5% relative to MMD-Agent and 79.9% relative to T2-Agent. The project is available at https://dang-ai.github.io/ReMMD.