TARS: MLLMにおける幻覚低減のためのMinMaxトークン適応選好戦略
TARS: MinMax Token-Adaptive Preference Strategy for Hallucination Reduction in MLLMs
July 29, 2025
著者: Kejia Zhang, Keda Tao, Zhiming Luo, Chang Liu, Jiasheng Tang, Huan Wang
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)は視覚と言語の推論を可能にするが、しばしば事実誤認や視覚的根拠を欠いたもっともらしい出力を生成し、その信頼性を損なう。直接選好最適化(DPO)は、モデルの出力を人間の選好に合わせることで幻覚を修正する一般的な戦略である。既存のDPO戦略は、幻覚関連の選好を固定された目標として扱い、学習中に静的な監視信号に依存する傾向がある。このアプローチは、選好データにおける表面的な言語的指標に過剰適合し、分布の硬直化や因果的に関連する視覚情報の根拠を損なう偽の相関を引き起こす。この制限を克服するため、我々はTARSを提案する。TARSは、DPOをミニマックス最適化問題として再定式化するトークン適応型選好戦略である。TARSは、意味的制約の下でトークンレベルの分布シフトを最大化して整合性の不確実性をシミュレートし、同時にこれらの制御された摂動の下で期待選好損失を最小化する。この共同目的は、因果的根拠を維持しながら選好パターンへの過剰適合を緩和し、マルチモーダル推論における幻覚を減少させる。我々はTARSを複数の幻覚ベンチマークで評価し、一貫して高い性能を確認した。わずか4.8kの選好サンプルと専門家のフィードバックなしで、TARSは幻覚率を26.4%から13.2%に減少させ、認知価値を2.5から0.4に低下させた。TARSは標準DPOを上回り、いくつかの主要な指標でGPT-4oに匹敵する性能を示した。
English
Multimodal large language models (MLLMs) enable vision-language reasoning,
yet often generate plausible outputs that are factually incorrect or visually
ungrounded, thereby compromising their reliability. Direct preference
optimization (DPO) is a common strategy for correcting hallucinations by
aligning model outputs with human preferences. Existing DPO strategies
typically treat hallucination-related preferences as fixed targets, relying on
static supervision signals during training. This approach tends to overfit to
superficial linguistic cues in preference data, leading to distributional
rigidity and spurious correlations that impair grounding in causally relevant
visual information. To overcome this limitation, we propose TARS, a
token-adaptive preference strategy that reformulates DPO as a min-max
optimization problem. TARS maximizes token-level distributional shifts under
semantic constraints to simulate alignment uncertainty, and simultaneously
minimizes the expected preference loss under these controlled perturbations.
This joint objective preserves causal grounding while mitigating overfitting to
preference patterns, thereby reducing hallucinations in multimodal reasoning.
We evaluate TARS on multiple hallucination benchmarks and find consistently
strong performance. Using only 4.8k preference samples and no expert feedback,
TARS reduces hallucination rates from 26.4% to 13.2% and decreases cognition
value from 2.5 to 0.4. It outperforms standard DPO and matches GPT-4o on
several key metrics.