За пределами текущего наблюдения: оценка мультимодальных больших языковых моделей в управляемых немарковских играх

Аннотация

Применение мультимодальных фундаментальных моделей в качестве политик замкнутого цикла всё чаще требует обусловливания действий наблюдениями, которые более недоступны. Однако существующие эталонные тесты либо раскрывают полное состояние, объединяют восстановление скрытого состояния с другими навыками агента, либо проверяют запоминание только после завершения эпизода. Мы представляем RNG-Bench (Реконструктивные немарковские игры) — набор эталонных тестов, предназначенный для изолированной оценки способности базовой модели восстанавливать прошлые наблюдения и действовать на их основе в ходе многошагового взаимодействия. RNG-Bench включает две взаимодополняющие игры: «Пары сопоставления», где идентификаторы карт, кратко показанные в определённых местах, должны быть впоследствии запомнены, и «3D-лабиринт», где эгоцентрические обзоры необходимо интегрировать в пространственную карту. Обе игры оцениваются в унифицированной среде с тремя контролируемыми осями сложности: размер сетки, визуальный паттерн и модальность наблюдения. Эталонный тест также вводит протокол дуэльного противостояния для контроля дисперсии на уровне экземпляров и метрику пробела памяти, которая разделяет забывание и неоптимальный выбор действий. Самые сложные конфигурации требуют контекстов примерно из 128 тысяч токенов и 350 изображений на эпизод и остаются далеки от насыщения передовыми MLLM. Анализ пробела памяти показывает, что большинство остаточных ошибок обусловлено забыванием более ранних наблюдений, а не неоптимальным принятием решений. Наконец, тонкая настройка Qwen3.5-9B на прогонах оптимальной политики и отфильтрованных демонстрациях модели повышает производительность на RNG-Bench и переносится на существующие эталонные тесты без ухудшения общих мультимодальных способностей.

English

Deploying multimodal foundation models as closed-loop policies increasingly requires conditioning actions on observations that are no longer visible. However, existing benchmarks either expose the full state, conflate hidden-state reconstruction with other agent skills, or test recall only after an episode has ended. We introduce RNG-Bench (Reconstructive Non-Markov Games), a benchmark suite designed to isolate a base model's ability to reconstruct past observations and act on them during multi-step interaction. RNG-Bench includes two complementary games: Matching Pairs, where card identities briefly revealed at specific locations must later be recalled, and 3D Maze, where egocentric views must be integrated into a spatial map. Both games are evaluated under a unified harness with three controlled difficulty axes: grid size, visual pattern, and observation modality. The benchmark further introduces a head-to-head duel protocol to control for instance-level variance and a Memory Gap metric that disentangles forgetting from poor action selection. The hardest configurations require contexts of roughly 128K tokens and 350 image inputs per episode, and remain far from saturated by frontier MLLMs. Memory Gap analysis shows that most residual errors stem from forgetting earlier observations rather than from suboptimal decision making. Finally, fine-tuning Qwen3.5-9B on optimal-policy rollouts and filtered model demonstrations improves performance on RNG-Bench and transfers to existing benchmarks without degrading general multimodal capability.