Más Allá de la Observación Actual: Evaluación de Modelos de Lenguaje Grandes Multimodales en Juegos No-Markovianos Controlables

Resumen

Desplegar modelos fundacionales multimodales como políticas de lazo cerrado requiere cada vez más condicionar las acciones en observaciones que ya no son visibles. Sin embargo, los puntos de referencia existentes exponen el estado completo, combinan la reconstrucción del estado oculto con otras habilidades del agente, o evalúan el recuerdo solo después de que un episodio ha finalizado. Presentamos RNG-Bench (Reconstructive Non-Markov Games), una suite de pruebas diseñada para aislar la capacidad de un modelo base de reconstruir observaciones pasadas y actuar sobre ellas durante una interacción de múltiples pasos. RNG-Bench incluye dos juegos complementarios: Matching Pairs, donde se deben recordar identidades de cartas brevemente reveladas en ubicaciones específicas, y 3D Maze, donde las vistas egocéntricas deben integrarse en un mapa espacial. Ambos juegos se evalúan bajo un sistema unificado con tres ejes de dificultad controlados: tamaño de la cuadrícula, patrón visual y modalidad de observación. El punto de referencia introduce además un protocolo de duelo cara a cara para controlar la varianza a nivel de instancia y una métrica de Brecha de Memoria que separa el olvido de una mala selección de acciones. Las configuraciones más difíciles requieren contextos de aproximadamente 128K tokens y 350 entradas de imagen por episodio, y permanecen lejos de estar saturadas por los MLLMs de frontera. El análisis de la Brecha de Memoria muestra que la mayoría de los errores residuales provienen del olvido de observaciones anteriores, más que de una toma de decisiones subóptima. Finalmente, el ajuste fino de Qwen3.5-9B en despliegues de política óptima y demostraciones de modelo filtradas mejora el rendimiento en RNG-Bench y se transfiere a benchmarks existentes sin degradar la capacidad multimodal general.

English

Deploying multimodal foundation models as closed-loop policies increasingly requires conditioning actions on observations that are no longer visible. However, existing benchmarks either expose the full state, conflate hidden-state reconstruction with other agent skills, or test recall only after an episode has ended. We introduce RNG-Bench (Reconstructive Non-Markov Games), a benchmark suite designed to isolate a base model's ability to reconstruct past observations and act on them during multi-step interaction. RNG-Bench includes two complementary games: Matching Pairs, where card identities briefly revealed at specific locations must later be recalled, and 3D Maze, where egocentric views must be integrated into a spatial map. Both games are evaluated under a unified harness with three controlled difficulty axes: grid size, visual pattern, and observation modality. The benchmark further introduces a head-to-head duel protocol to control for instance-level variance and a Memory Gap metric that disentangles forgetting from poor action selection. The hardest configurations require contexts of roughly 128K tokens and 350 image inputs per episode, and remain far from saturated by frontier MLLMs. Memory Gap analysis shows that most residual errors stem from forgetting earlier observations rather than from suboptimal decision making. Finally, fine-tuning Qwen3.5-9B on optimal-policy rollouts and filtered model demonstrations improves performance on RNG-Bench and transfers to existing benchmarks without degrading general multimodal capability.