Sintesi Multimodale Guidata da Grafi di Conoscenza Spaziale
Spatial Knowledge Graph-Guided Multimodal Synthesis
May 28, 2025
Autori: Yida Xue, Zhen Bi, Jinnan Yang, Jungang Lou, Huajun Chen, Ningyu Zhang
cs.AI
Abstract
I recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLM) hanno notevolmente migliorato le loro capacità; tuttavia, le loro abilità di percezione spaziale rimangono una limitazione significativa. Per affrontare questa sfida, la sintesi di dati multimodali offre una soluzione promettente. Tuttavia, garantire che i dati sintetizzati rispettino il senso comune spaziale è un compito non banale. In questo lavoro, introduciamo SKG2Data, un nuovo approccio di sintesi multimodale guidato da grafi di conoscenza spaziale, basato sul concetto di generazione da conoscenza a dati. SKG2Data costruisce automaticamente un Grafo di Conoscenza Spaziale (SKG) per emulare la percezione umana delle direzioni e delle distanze spaziali, che viene successivamente utilizzato per guidare la sintesi di dati multimodali. Esperimenti estensivi dimostrano che i dati sintetizzati da diversi tipi di conoscenza spaziale, inclusi direzione e distanza, non solo migliorano le capacità di percezione e ragionamento spaziale degli MLLM, ma mostrano anche forti capacità di generalizzazione. Speriamo che l'idea della sintesi di dati basata sulla conoscenza possa avanzare lo sviluppo dell'intelligenza spaziale.
English
Recent advances in multimodal large language models (MLLMs) have
significantly enhanced their capabilities; however, their spatial perception
abilities remain a notable limitation. To address this challenge, multimodal
data synthesis offers a promising solution. Yet, ensuring that synthesized data
adhere to spatial common sense is a non-trivial task. In this work, we
introduce SKG2Data, a novel multimodal synthesis approach guided by spatial
knowledge graphs, grounded in the concept of knowledge-to-data generation.
SKG2Data automatically constructs a Spatial Knowledge Graph (SKG) to emulate
human-like perception of spatial directions and distances, which is
subsequently utilized to guide multimodal data synthesis. Extensive experiments
demonstrate that data synthesized from diverse types of spatial knowledge,
including direction and distance, not only enhance the spatial perception and
reasoning abilities of MLLMs but also exhibit strong generalization
capabilities. We hope that the idea of knowledge-based data synthesis can
advance the development of spatial intelligence.