Au-delà de l'observation actuelle : Évaluation des grands modèles de langage multimodaux dans les jeux non-markoviens contrôlables

Résumé

Le déploiement de modèles fondation multimodaux en tant que politiques en boucle fermée nécessite de plus en plus de conditionner les actions sur des observations qui ne sont plus visibles. Cependant, les bancs d'essai existants soit exposent l'état complet, confondent la reconstruction de l'état caché avec d'autres compétences de l'agent, soit ne testent la mémoire qu'après la fin d'un épisode. Nous introduisons RNG-Bench (Reconstructive Non-Markov Games), une suite de bancs d'essai conçue pour isoler la capacité d'un modèle de base à reconstruire des observations passées et à agir en fonction de celles-ci lors d'une interaction multi-étapes. RNG-Bench comprend deux jeux complémentaires : Matching Pairs, où les identités de cartes brièvement révélées à des emplacements spécifiques doivent être rappelées ultérieurement, et 3D Maze, où les vues égocentriques doivent être intégrées dans une carte spatiale. Les deux jeux sont évalués sous un cadre unifié avec trois axes de difficulté contrôlés : la taille de la grille, le motif visuel et la modalité d'observation. Le banc d'essai introduit en outre un protocole de duel face à face pour contrôler la variance au niveau des instances et une métrique d'écart de mémoire (Memory Gap) qui dissocie l'oubli d'une mauvaise sélection d'actions. Les configurations les plus difficiles exigent des contextes d'environ 128 000 tokens et 350 entrées d'image par épisode, et restent loin d'être saturées par les MLLM de pointe. L'analyse de l'écart de mémoire montre que la plupart des erreurs résiduelles proviennent de l'oubli d'observations antérieures plutôt que d'une prise de décision sous-optimale. Enfin, le fine-tuning de Qwen3.5-9B sur des déploiements de politiques optimales et des démonstrations de modèles filtrées améliore les performances sur RNG-Bench et se transfère aux bancs d'essai existants sans dégrader la capacité multimodale générale.

English

Deploying multimodal foundation models as closed-loop policies increasingly requires conditioning actions on observations that are no longer visible. However, existing benchmarks either expose the full state, conflate hidden-state reconstruction with other agent skills, or test recall only after an episode has ended. We introduce RNG-Bench (Reconstructive Non-Markov Games), a benchmark suite designed to isolate a base model's ability to reconstruct past observations and act on them during multi-step interaction. RNG-Bench includes two complementary games: Matching Pairs, where card identities briefly revealed at specific locations must later be recalled, and 3D Maze, where egocentric views must be integrated into a spatial map. Both games are evaluated under a unified harness with three controlled difficulty axes: grid size, visual pattern, and observation modality. The benchmark further introduces a head-to-head duel protocol to control for instance-level variance and a Memory Gap metric that disentangles forgetting from poor action selection. The hardest configurations require contexts of roughly 128K tokens and 350 image inputs per episode, and remain far from saturated by frontier MLLMs. Memory Gap analysis shows that most residual errors stem from forgetting earlier observations rather than from suboptimal decision making. Finally, fine-tuning Qwen3.5-9B on optimal-policy rollouts and filtered model demonstrations improves performance on RNG-Bench and transfers to existing benchmarks without degrading general multimodal capability.