Além da Observação Atual: Avaliando Grandes Modelos de Linguagem Multimodais em Jogos Não Markovianos Controláveis

Resumo

Implementar modelos fundamentais multimodais como políticas de malha fechada exige, cada vez mais, condicionar ações em observações que já não estão mais visíveis. No entanto, os benchmarks existentes ou expõem todo o estado, fundem a reconstrução de estado oculto com outras habilidades do agente, ou testam a recordação apenas após o término de um episódio. Apresentamos o RNG-Bench (Reconstructive Non-Markov Games), um conjunto de benchmarks projetado para isolar a capacidade de um modelo base de reconstruir observações passadas e agir com base nelas durante interações de múltiplos passos. O RNG-Bench inclui dois jogos complementares: Matching Pairs, onde identidades de cartas brevemente reveladas em locais específicos devem ser lembradas posteriormente, e 3D Maze, onde visões egocêntricas devem ser integradas em um mapa espacial. Ambos os jogos são avaliados sob uma estrutura unificada com três eixos de dificuldade controlados: tamanho da grade, padrão visual e modalidade de observação. O benchmark também introduz um protocolo de duelo direto (head-to-head) para controlar a variância no nível de instância e uma métrica de Lacuna de Memória (Memory Gap) que separa o esquecimento da má seleção de ações. As configurações mais difíceis exigem contextos de aproximadamente 128 mil tokens e 350 entradas de imagem por episódio, e permanecem longe de serem saturadas pelos MLLMs de fronteira. A análise da Lacuna de Memória mostra que a maioria dos erros residuais decorre do esquecimento de observações anteriores, e não de tomadas de decisão subótimas. Por fim, o ajuste fino do Qwen3.5-9B em rollouts de política ótima e demonstrações filtradas do modelo melhora o desempenho no RNG-Bench e se transfere para benchmarks existentes sem degradar a capacidade multimodal geral.

English

Deploying multimodal foundation models as closed-loop policies increasingly requires conditioning actions on observations that are no longer visible. However, existing benchmarks either expose the full state, conflate hidden-state reconstruction with other agent skills, or test recall only after an episode has ended. We introduce RNG-Bench (Reconstructive Non-Markov Games), a benchmark suite designed to isolate a base model's ability to reconstruct past observations and act on them during multi-step interaction. RNG-Bench includes two complementary games: Matching Pairs, where card identities briefly revealed at specific locations must later be recalled, and 3D Maze, where egocentric views must be integrated into a spatial map. Both games are evaluated under a unified harness with three controlled difficulty axes: grid size, visual pattern, and observation modality. The benchmark further introduces a head-to-head duel protocol to control for instance-level variance and a Memory Gap metric that disentangles forgetting from poor action selection. The hardest configurations require contexts of roughly 128K tokens and 350 image inputs per episode, and remain far from saturated by frontier MLLMs. Memory Gap analysis shows that most residual errors stem from forgetting earlier observations rather than from suboptimal decision making. Finally, fine-tuning Qwen3.5-9B on optimal-policy rollouts and filtered model demonstrations improves performance on RNG-Bench and transfers to existing benchmarks without degrading general multimodal capability.