Hallucinatie in Wereldmodellen is Voorspelbaar en Voorkombaar

Samenvatting

Moderne generatieve wereldmodellen produceren steeds realistischer actie-controleerbare toekomsten, maar hallucineren vaak: uitrolsessies blijven visueel vloeiend terwijl ze afwijken van de werkelijke dynamiek. Wij veronderstellen dat hallucinatie geconcentreerd is in gebieden met een lage dekking van de toestand-actieruimte, waar lichtgewicht data-gedreven signalen zowel de detectie ervan als de mitigatie kunnen sturen. Om dit te testen introduceren we MMBench2, een dataset van 427 uur en 210 taken voor visuele wereldmodellering met werkelijke acties, beloningen en live simulatoren, en trainen we een wereldmodel met 350M parameters erop. We identificeren drie verschillende hallucinatiemodi: perceptueel, actie-gemarginaliseerd en scène-afwijkend — elk verankerd in een andere fase van de pijplijn, en ontwikkelen drie signalen die nauwkeurig voorspellen waar het model zal falen. Om dekkingsgaten tijdens de training te dichten, ontwikkelen we een dekkingsbewuste samplingtechniek; om ze online te dichten, dienen onze hallucinatievoorspellers als nieuwsgierigheidsbeloningen voor gerichte dataverzameling, wat leidt tot een data-efficiënte finetuning-receptuur die het voorgetrainde wereldmodel aanpast aan volledig onbekende omgevingen met slechts 50 echte omgevingstrajecten. Over het geheel genomen onthullen onze bevindingen dat hallucinatie in wereldmodellen inherent een probleem van datadekking is, en dat dezelfde signalen die gebruikt worden om het te detecteren ook gebruikt kunnen worden voor mitigatie. Een interactieve webversie van ons artikel is beschikbaar op https://www.nicklashansen.com/mmbench2

English

Modern generative world models render increasingly realistic action-controllable futures, yet they frequently hallucinate: rollouts remain visually fluent while drifting from the ground-truth dynamics. We hypothesize that hallucination concentrates in low-coverage regions of the state-action space, where lightweight data-centric signals can both detect it and guide mitigation. To test this, we introduce MMBench2, a 427-hour, 210-task dataset for visual world modeling with ground-truth actions, rewards, and live simulators, and train a 350M-parameter world model on it. We identify three distinct hallucination modes: perceptual, action-marginalized, and scene-diverging -- each anchored to a different stage of the pipeline, and develop three signals that accurately predict where the model will fail. To close coverage gaps at training time, we develop a coverage-aware sampling technique; to close them online, our hallucination predictors serve as curiosity rewards for targeted data collection, yielding a data-efficient finetuning recipe that adapts the pretrained world model to entirely unseen environments with as few as 50 real environment trajectories. Overall, our findings reveal that hallucination in world models is inherently a data coverage issue, and that the same signals used to detect it can also be used for mitigation. An interactive web version of our paper is available at https://www.nicklashansen.com/mmbench2