Voorbij de huidige observatie: Evaluatie van multimodale grote taalmodellen in controleerbare niet-Markov-spellen

Samenvatting

Het inzetten van multimodale funderingsmodellen als gesloten-lusbeleid vereist in toenemende mate dat acties worden gebaseerd op waarnemingen die niet langer zichtbaar zijn. Bestaande benchmarks geven echter ofwel de volledige toestand prijs, verwarren reconstructie van verborgen toestanden met andere agentvaardigheden, of testen herinnering alleen nadat een episode is afgelopen. Wij introduceren RNG-Bench (Reconstructieve Non-Markov Spellen), een benchmarksuite die is ontworpen om het vermogen van een basismodel om eerdere waarnemingen te reconstrueren en erop te handelen tijdens interactie in meerdere stappen te isoleren. RNG-Bench omvat twee complementaire spellen: Matching Pairs, waarbij kaartidentiteiten die kortstondig op specifieke locaties worden getoond later moeten worden herinnerd, en 3D Doolhof, waarbij egocentrische aanzichten moeten worden geïntegreerd in een ruimtelijke kaart. Beide spellen worden geëvalueerd onder een uniform testraamwerk met drie gecontroleerde moeilijkheidsassen: rastergrootte, visueel patroon en observatiemodaliteit. De benchmark introduceert verder een head-to-head duelprotocol om variantie op instantieniveau te controleren en een Memory Gap-maatstaf die vergeten loskoppelt van slechte actiekeuze. De moeilijkste configuraties vereisen contexten van ruwweg 128K tokens en 350 beeldinvoeren per episode, en blijven verre van verzadigd door geavanceerde MLLM's. Memory Gap-analyse toont aan dat de meeste residuele fouten voortkomen uit het vergeten van eerdere waarnemingen in plaats van uit suboptimale besluitvorming. Ten slotte verbetert fijnafstemming van Qwen3.5-9B op optimaal-beleidrollouts en gefilterde modeldemonstraties de prestaties op RNG-Bench en draagt het over naar bestaande benchmarks zonder de algemene multimodale capaciteit aan te tasten.

English

Deploying multimodal foundation models as closed-loop policies increasingly requires conditioning actions on observations that are no longer visible. However, existing benchmarks either expose the full state, conflate hidden-state reconstruction with other agent skills, or test recall only after an episode has ended. We introduce RNG-Bench (Reconstructive Non-Markov Games), a benchmark suite designed to isolate a base model's ability to reconstruct past observations and act on them during multi-step interaction. RNG-Bench includes two complementary games: Matching Pairs, where card identities briefly revealed at specific locations must later be recalled, and 3D Maze, where egocentric views must be integrated into a spatial map. Both games are evaluated under a unified harness with three controlled difficulty axes: grid size, visual pattern, and observation modality. The benchmark further introduces a head-to-head duel protocol to control for instance-level variance and a Memory Gap metric that disentangles forgetting from poor action selection. The hardest configurations require contexts of roughly 128K tokens and 350 image inputs per episode, and remain far from saturated by frontier MLLMs. Memory Gap analysis shows that most residual errors stem from forgetting earlier observations rather than from suboptimal decision making. Finally, fine-tuning Qwen3.5-9B on optimal-policy rollouts and filtered model demonstrations improves performance on RNG-Bench and transfers to existing benchmarks without degrading general multimodal capability.