ChatPaper.aiChatPaper

TARS: MinMax Token-Adaptieve Voorkeursstrategie voor Hallucinatievermindering in MLLM's

TARS: MinMax Token-Adaptive Preference Strategy for Hallucination Reduction in MLLMs

July 29, 2025
Auteurs: Kejia Zhang, Keda Tao, Zhiming Luo, Chang Liu, Jiasheng Tang, Huan Wang
cs.AI

Samenvatting

Multimodale grote taalmodellen (MLLMs) maken visueel-taalkundige redenering mogelijk, maar genereren vaak plausibele uitvoer die feitelijk onjuist of visueel ongegrond is, waardoor hun betrouwbaarheid wordt aangetast. Direct preference optimization (DPO) is een veelgebruikte strategie om hallucinaties te corrigeren door modeluitvoer af te stemmen op menselijke voorkeuren. Bestaande DPO-strategieën behandelen hallucinatiegerelateerde voorkeuren doorgaans als vaste doelen, waarbij ze vertrouwen op statische supervisiesignalen tijdens de training. Deze aanpak heeft de neiging om te overfitten op oppervlakkige taalkundige signalen in voorkeursdata, wat leidt tot distributierigiditeit en valse correlaties die de verankering in causaal relevante visuele informatie aantasten. Om deze beperking te overwinnen, stellen we TARS voor, een token-adaptieve voorkeursstrategie die DPO herformuleert als een min-max optimalisatieprobleem. TARS maximaliseert token-niveau distributieverschuivingen onder semantische beperkingen om afstemmingsonzekerheid te simuleren, en minimaliseert tegelijkertijd het verwachte voorkeursverlies onder deze gecontroleerde verstoringen. Dit gezamenlijke doel behoudt causale verankering terwijl overfitting aan voorkeurspatronen wordt verminderd, waardoor hallucinaties in multimodale redeneringen worden teruggedrongen. We evalueren TARS op meerdere hallucinatiebenchmarks en vinden consistent sterke prestaties. Met slechts 4.8k voorkeursmonsters en zonder expertfeedback reduceert TARS hallucinatieratio's van 26.4% naar 13.2% en verlaagt het cognitiewaarde van 2.5 naar 0.4. Het overtreft standaard DPO en evenaart GPT-4o op verschillende belangrijke metrieken.
English
Multimodal large language models (MLLMs) enable vision-language reasoning, yet often generate plausible outputs that are factually incorrect or visually ungrounded, thereby compromising their reliability. Direct preference optimization (DPO) is a common strategy for correcting hallucinations by aligning model outputs with human preferences. Existing DPO strategies typically treat hallucination-related preferences as fixed targets, relying on static supervision signals during training. This approach tends to overfit to superficial linguistic cues in preference data, leading to distributional rigidity and spurious correlations that impair grounding in causally relevant visual information. To overcome this limitation, we propose TARS, a token-adaptive preference strategy that reformulates DPO as a min-max optimization problem. TARS maximizes token-level distributional shifts under semantic constraints to simulate alignment uncertainty, and simultaneously minimizes the expected preference loss under these controlled perturbations. This joint objective preserves causal grounding while mitigating overfitting to preference patterns, thereby reducing hallucinations in multimodal reasoning. We evaluate TARS on multiple hallucination benchmarks and find consistently strong performance. Using only 4.8k preference samples and no expert feedback, TARS reduces hallucination rates from 26.4% to 13.2% and decreases cognition value from 2.5 to 0.4. It outperforms standard DPO and matches GPT-4o on several key metrics.
PDF62August 1, 2025