Pensare per cornici: come il contesto visivo e il ridimensionamento al momento del test potenziano il ragionamento video

Abstract

I modelli visione-linguaggio hanno eccelso nel ragionamento testuale, ma spesso faticano nella comprensione spaziale fine e nella pianificazione di azioni continue, fallendo nel simulare le dinamiche necessarie per il ragionamento visivo complesso. In questo lavoro, formuliamo il ragionamento visivo mediante modelli di generazione video, postulando che i fotogrammi generati possano fungere da passaggi intermedi di ragionamento tra stati iniziali e soluzioni. Valutiamo la loro capacità in due regimi distinti: Navigazione Labirinti per la pianificazione sequenziale discreta con basso cambiamento visivo e Puzzle Tangram per la manipolazione continua con alto cambiamento visivo. I nostri esperimenti rivelano tre intuizioni critiche: (1) Generalizzazione Zero-Shot Robusta: in entrambi i compiti, il modello dimostra prestazioni solide su distribuzioni di dati non viste senza fine-tuning specifico. (2) Contesto Visivo: il modello utilizza efficacemente il contesto visivo come controllo esplicito, come icone dell'agente e forme tangram, permettendogli di mantenere un'elevata coerenza visiva e di adattare robustamente la sua capacità di pianificazione a pattern non visti. (3) Scalabilità al Test-Time Visivo: osserviamo una legge di scalabilità al test-time nella pianificazione sequenziale; aumentare la lunghezza del video generato (budget di inferenza visiva) potenzia una migliore generalizzazione zero-shot verso percorsi spazialmente e temporalmente complessi. Questi risultati suggeriscono che la generazione video non è meramente uno strumento mediatico, ma un paradigma scalabile e generalizzabile per il ragionamento visivo.

English

Vision-Language Models have excelled at textual reasoning, but they often struggle with fine-grained spatial understanding and continuous action planning, failing to simulate the dynamics required for complex visual reasoning. In this work, we formulate visual reasoning by means of video generation models, positing that generated frames can act as intermediate reasoning steps between initial states and solutions. We evaluate their capacity in two distinct regimes: Maze Navigation for sequential discrete planning with low visual change and Tangram Puzzle for continuous manipulation with high visual change. Our experiments reveal three critical insights: (1) Robust Zero-Shot Generalization: In both tasks, the model demonstrates strong performance on unseen data distributions without specific finetuning. (2) Visual Context: The model effectively uses visual context as explicit control, such as agent icons and tangram shapes, enabling it to maintain high visual consistency and adapt its planning capability robustly to unseen patterns. (3) Visual Test-Time Scaling: We observe a test-time scaling law in sequential planning; increasing the generated video length (visual inference budget) empowers better zero-shot generalization to spatially and temporally complex paths. These findings suggest that video generation is not merely a media tool, but a scalable, generalizable paradigm for visual reasoning.

Pensare per cornici: come il contesto visivo e il ridimensionamento al momento del test potenziano il ragionamento video

Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning

Abstract

Support