現在の観測を超えて:制御可能な非マルコフゲームにおけるマルチモーダル大規模言語モデルの評価
Beyond the Current Observation: Evaluating Multimodal Large Language Models in Controllable Non-Markov Games
June 17, 2026
著者: Shengyuan Ding, Xilin Wei, Xinyu Fang, Haodong Duan, Dahua Lin, Jiaqi Wang, Yuhang Zang
cs.AI
要旨
マルチモーダル基盤モデルを閉ループポリシーとして展開する際、すでに視認できなくなった観測に基づいて行動を条件付ける必要性が高まっている。しかし、既存のベンチマークは、完全な状態を公開するか、隠れ状態の再構成を他のエージェントスキルと混同するか、エピソード終了後にのみ想起をテストするかのいずれかである。本稿では、ベースモデルが過去の観測を再構成し、マルチステップの相互作用中にそれに基づいて行動する能力を分離評価するために設計されたベンチマークスイートであるRNG-Bench(Reconstructive Non-Markov Games)を紹介する。RNG-Benchには、相補的な二つのゲームが含まれる:特定の位置で一時的に公開されたカードの同一性を後で想起しなければならないMatching Pairs と、自己中心的な視点を空間マップに統合しなければならない3D Mazeである。両ゲームは、グリッドサイズ、視覚パターン、観測モダリティという3つの制御された難易度軸を持つ統一されたフレームワークで評価される。さらに本ベンチマークは、インスタンスレベルのばらつきを制御するための対決プロトコルと、忘却と不適切な行動選択を分離するMemory Gap指標を導入する。最も難しい設定では、1エピソードあたり約128Kトークンと350の画像入力を必要とし、最先端のMLLMによって飽和状態には程遠い。Memory Gap分析により、残差誤差の大部分は、最適でない意思決定ではなく、初期の観測の忘却に起因することが示された。最後に、最適ポリシーのロールアウトとフィルタリングされたモデルのデモンストレーションでQwen3.5-9Bをファインチューニングすることで、RNG-Benchの性能が向上し、既存のベンチマークへの転移が可能となり、一般的なマルチモーダル能力を損なわない。
English
Deploying multimodal foundation models as closed-loop policies increasingly requires conditioning actions on observations that are no longer visible. However, existing benchmarks either expose the full state, conflate hidden-state reconstruction with other agent skills, or test recall only after an episode has ended. We introduce RNG-Bench (Reconstructive Non-Markov Games), a benchmark suite designed to isolate a base model's ability to reconstruct past observations and act on them during multi-step interaction. RNG-Bench includes two complementary games: Matching Pairs, where card identities briefly revealed at specific locations must later be recalled, and 3D Maze, where egocentric views must be integrated into a spatial map. Both games are evaluated under a unified harness with three controlled difficulty axes: grid size, visual pattern, and observation modality. The benchmark further introduces a head-to-head duel protocol to control for instance-level variance and a Memory Gap metric that disentangles forgetting from poor action selection. The hardest configurations require contexts of roughly 128K tokens and 350 image inputs per episode, and remain far from saturated by frontier MLLMs. Memory Gap analysis shows that most residual errors stem from forgetting earlier observations rather than from suboptimal decision making. Finally, fine-tuning Qwen3.5-9B on optimal-policy rollouts and filtered model demonstrations improves performance on RNG-Bench and transfers to existing benchmarks without degrading general multimodal capability.