ChatPaper.aiChatPaper

Síntese Multimodal Orientada por Grafos de Conhecimento Espacial

Spatial Knowledge Graph-Guided Multimodal Synthesis

May 28, 2025
Autores: Yida Xue, Zhen Bi, Jinnan Yang, Jungang Lou, Huajun Chen, Ningyu Zhang
cs.AI

Resumo

Os recentes avanços em modelos de linguagem multimodal de grande escala (MLLMs) têm aprimorado significativamente suas capacidades; no entanto, suas habilidades de percepção espacial continuam sendo uma limitação notável. Para enfrentar esse desafio, a síntese de dados multimodal oferece uma solução promissora. Contudo, garantir que os dados sintetizados estejam alinhados com o senso comum espacial é uma tarefa não trivial. Neste trabalho, apresentamos o SKG2Data, uma nova abordagem de síntese multimodal guiada por grafos de conhecimento espacial, fundamentada no conceito de geração de conhecimento para dados. O SKG2Data constrói automaticamente um Grafo de Conhecimento Espacial (SKG) para emular a percepção humana de direções e distâncias espaciais, que é subsequentemente utilizado para orientar a síntese de dados multimodal. Experimentos extensivos demonstram que os dados sintetizados a partir de diversos tipos de conhecimento espacial, incluindo direção e distância, não apenas aprimoram as habilidades de percepção e raciocínio espacial dos MLLMs, mas também exibem fortes capacidades de generalização. Esperamos que a ideia de síntese de dados baseada em conhecimento possa impulsionar o desenvolvimento da inteligência espacial.
English
Recent advances in multimodal large language models (MLLMs) have significantly enhanced their capabilities; however, their spatial perception abilities remain a notable limitation. To address this challenge, multimodal data synthesis offers a promising solution. Yet, ensuring that synthesized data adhere to spatial common sense is a non-trivial task. In this work, we introduce SKG2Data, a novel multimodal synthesis approach guided by spatial knowledge graphs, grounded in the concept of knowledge-to-data generation. SKG2Data automatically constructs a Spatial Knowledge Graph (SKG) to emulate human-like perception of spatial directions and distances, which is subsequently utilized to guide multimodal data synthesis. Extensive experiments demonstrate that data synthesized from diverse types of spatial knowledge, including direction and distance, not only enhance the spatial perception and reasoning abilities of MLLMs but also exhibit strong generalization capabilities. We hope that the idea of knowledge-based data synthesis can advance the development of spatial intelligence.
PDF31December 4, 2025