ChatPaper.aiChatPaper

Spatial-SSRL: Aprimorando a Compreensão Espacial por meio de Aprendizagem por Reforço Autossupervisionada

Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning

October 31, 2025
Autores: Yuhong Liu, Beichen Zhang, Yuhang Zang, Yuhang Cao, Long Xing, Xiaoyi Dong, Haodong Duan, Dahua Lin, Jiaqi Wang
cs.AI

Resumo

A compreensão espacial continua a ser uma fraqueza dos Grandes Modelos de Visão e Linguagem (LVLMs). Os atuais pipelines de ajuste fino supervisionado (SFT) e os recentes métodos de aprendizagem por reforço com recompensas verificáveis (RLVR) dependem de supervisão dispendiosa, ferramentas especializadas ou ambientes restritos que limitam a escala. Apresentamos o Spatial-SSRL, um paradigma de aprendizagem por reforço auto supervisionado que deriva sinais verificáveis diretamente de imagens RGB ou RGB-D comuns. O Spatial-SSRL formula automaticamente cinco tarefas de pretexto que capturam a estrutura espacial 2D e 3D: reordenação de *patches* embaralhados, reconhecimento de *patches* invertidos, preenchimento de *patches* recortados, ordenação de profundidade regional e previsão de posição relativa 3D. Estas tarefas fornecem respostas com veracidade garantida que são fáceis de verificar e não requerem anotação humana ou por LVLM. O treino nas nossas tarefas melhora substancialmente o raciocínio espacial, preservando as capacidades visuais gerais. Em sete *benchmarks* de compreensão espacial, tanto em contexto de imagem como de vídeo, o Spatial-SSRL proporciona ganhos médios de precisão de 4,63% (modelo de 3B) e 3,89% (modelo de 7B) face às linhas de base do Qwen2.5-VL. Os nossos resultados mostram que uma supervisão intrínseca e simples permite a RLVR em escala e fornece um caminho prático para uma inteligência espacial mais robusta em LVLMs.
English
Spatial understanding remains a weakness of Large Vision-Language Models (LVLMs). Existing supervised fine-tuning (SFT) and recent reinforcement learning with verifiable rewards (RLVR) pipelines depend on costly supervision, specialized tools, or constrained environments that limit scale. We introduce Spatial-SSRL, a self-supervised RL paradigm that derives verifiable signals directly from ordinary RGB or RGB-D images. Spatial-SSRL automatically formulates five pretext tasks that capture 2D and 3D spatial structure: shuffled patch reordering, flipped patch recognition, cropped patch inpainting, regional depth ordering, and relative 3D position prediction. These tasks provide ground-truth answers that are easy to verify and require no human or LVLM annotation. Training on our tasks substantially improves spatial reasoning while preserving general visual capabilities. On seven spatial understanding benchmarks in both image and video settings, Spatial-SSRL delivers average accuracy gains of 4.63% (3B) and 3.89% (7B) over the Qwen2.5-VL baselines. Our results show that simple, intrinsic supervision enables RLVR at scale and provides a practical route to stronger spatial intelligence in LVLMs.
PDF291February 7, 2026