視覚的世界モデリング評価におけるロングテールの剪定
Trimming the Long-Tail of Visual World Modeling Evaluation
June 23, 2026
著者: Bingxuan Li, Yining Hong, Cheng Qian, Hyeonjeong Ha, Jiateng Liu, Zhenhailong Wang, Yue Guo, Yunzhu Li, Heng Ji
cs.AI
要旨
物理的な相互作用は長尾分布に従う。すなわち、一般的で規則的な相互作用の集合が人間の経験や視覚データの大部分を占める一方で、広範囲にわたる稀で不規則な相互作用は十分に表現されない。近年の画像や動画生成モデルを含む視覚世界モデルは、既存のベンチマークにおいて顕著なリアリズムを達成しているものの、主に一般的な物理的相互作用のシミュレーションに焦点を当てている。このことは、中心的な疑問を提起する:現在の視覚世界モデルは物理原理を内在化し、一般化しているのか?本研究では、不規則な物理的相互作用のシミュレーションを課題とするベンチマーク「Tailor-Bench」を導入する。体系的な評価を可能にするため、モデルの推論を段階的に難しくする3つのシナリオモードを設計した。Regularシナリオは一般的な道具とタスクの組合せを反映し、Unconventionalシナリオは従来の道具を属性互換性のある代替物に置き換えてアフォーダンスの一般化をテストし、Impossibleシナリオは属性に反する道具を導入して制約認識を探る。さらに、統一評価プロトコルの下で2つの補完的な設定を設計した。予測生成はガイダンスなしで結果を推論することを要求し、記述生成は忠実な実現のために目標結果を指定する。実験結果は、物理的世界モデルにおける明確な長尾ギャップを明らかにした。性能はRegularからUnconventional、Impossibleシナリオへと低下し、一般的な相互作用を超えた一般化が限定的であることを示す。失敗分析はさらに、モデルが表面的な視覚パターンに依存することを示す。画像モデルは正しい状態変化を実現できず、動画モデルは時間的一貫性の欠如にさらに悩まされる。
English
Physical interactions follow a long-tailed distribution: a set of common and regular interactions dominates human experience and visual data, while a broad spectrum of rare and irregular interactions remains underrepresented. Although recent visual world models, including image and video generation models, achieve impressive realism on existing benchmarks, they primarily focus on simulating common physical interactions. This raises a central question: Do current visual world models internalize and generalize physical principles? In this work, we introduce Tailor-Bench, a benchmark that challenges world models to simulate irregular physical interactions. To enable systematic evaluation, we design three scenario modes that progressively challenge model reasoning: Regular scenarios reflect common tool-task pairs, Unconventional scenarios replace conventional tools with attribute-compatible substitutes to test affordance generalization, and Impossible scenarios introduce attribute-violating tools to probe constraint awareness. Additionally, we design two complementary settings under a unified evaluation protocol: predictive generation requires inferring outcomes without guidance, while descriptive generation specifies the target outcome for faithful realization. Our experimental results reveal a clear long-tail gap in physical world modeling: performance degrades from Regular to Unconventional and Impossible scenarios, indicating limited generalization beyond common interactions. Failure analysis further shows that models rely on superficial visual patterns: image models fail to realize correct state changes, while video models further suffer from temporal inconsistencies.