Jenseits der aktuellen Beobachtung: Bewertung multimodaler großer Sprachmodelle in kontrollierbaren Nicht-Markov-Spielen

Zusammenfassung

Der Einsatz von multimodalen Fundamentmodellen als Closed-Loop-Strategien erfordert zunehmend, dass Handlungen auf Beobachtungen konditioniert werden, die nicht mehr sichtbar sind. Bestehende Benchmarks legen jedoch entweder den vollständigen Zustand offen, vermischen die Rekonstruktion verborgener Zustände mit anderen Agentenfähigkeiten oder testen das Abrufen erst nach Beendigung einer Episode. Wir stellen RNG-Bench (Rekonstruktive Nicht-Markov-Spiele) vor, eine Benchmark-Suite, die darauf ausgelegt ist, die Fähigkeit eines Basismodells zu isolieren, vergangene Beobachtungen zu rekonstruieren und während mehrschrittiger Interaktion auf diese zu reagieren. RNG-Bench enthält zwei komplementäre Spiele: Matching Pairs, bei dem kurzzeitig an bestimmten Positionen aufgedeckte Kartenidentitäten später erinnert werden müssen, und 3D Maze, bei dem ego-zentrische Ansichten in eine räumliche Karte integriert werden müssen. Beide Spiele werden unter einer einheitlichen Testumgebung mit drei kontrollierten Schwierigkeitsachsen ausgewertet: Gittergröße, visuelles Muster und Beobachtungsmodalität. Die Benchmark führt zudem ein Eins-gegen-Eins-Duell-Protokoll ein, um die Varianz auf Instanzebene zu kontrollieren, sowie eine Memory-Gap-Metrik, die Vergessen von schlechter Aktionsauswahl trennt. Die schwierigsten Konfigurationen erfordern Kontexte von etwa 128.000 Token und 350 Bildeingaben pro Episode und sind für führende MLLMs noch weitgehend ungesättigt. Die Memory-Gap-Analyse zeigt, dass die meisten verbleibenden Fehler auf das Vergessen früherer Beobachtungen zurückzuführen sind und nicht auf eine suboptimale Entscheidungsfindung. Schließlich verbessert die Feinabstimmung von Qwen3.5-9B auf Optimal-Policy-Rollouts und gefilterte Modelldemonstrationen die Leistung auf RNG-Bench und überträgt sich auf bestehende Benchmarks, ohne die allgemeinen multimodalen Fähigkeiten zu beeinträchtigen.

English

Deploying multimodal foundation models as closed-loop policies increasingly requires conditioning actions on observations that are no longer visible. However, existing benchmarks either expose the full state, conflate hidden-state reconstruction with other agent skills, or test recall only after an episode has ended. We introduce RNG-Bench (Reconstructive Non-Markov Games), a benchmark suite designed to isolate a base model's ability to reconstruct past observations and act on them during multi-step interaction. RNG-Bench includes two complementary games: Matching Pairs, where card identities briefly revealed at specific locations must later be recalled, and 3D Maze, where egocentric views must be integrated into a spatial map. Both games are evaluated under a unified harness with three controlled difficulty axes: grid size, visual pattern, and observation modality. The benchmark further introduces a head-to-head duel protocol to control for instance-level variance and a Memory Gap metric that disentangles forgetting from poor action selection. The hardest configurations require contexts of roughly 128K tokens and 350 image inputs per episode, and remain far from saturated by frontier MLLMs. Memory Gap analysis shows that most residual errors stem from forgetting earlier observations rather than from suboptimal decision making. Finally, fine-tuning Qwen3.5-9B on optimal-policy rollouts and filtered model demonstrations improves performance on RNG-Bench and transfers to existing benchmarks without degrading general multimodal capability.