ChatPaper.aiChatPaper

Synthèse multimodale guidée par un graphe de connaissances spatiales

Spatial Knowledge Graph-Guided Multimodal Synthesis

May 28, 2025
Auteurs: Yida Xue, Zhen Bi, Jinnan Yang, Jungang Lou, Huajun Chen, Ningyu Zhang
cs.AI

Résumé

Les récents progrès des modèles de langage multimodal à grande échelle (MLLMs) ont considérablement amélioré leurs capacités ; cependant, leurs aptitudes de perception spatiale restent une limitation notable. Pour relever ce défi, la synthèse de données multimodales offre une solution prometteuse. Pourtant, garantir que les données synthétisées respectent le bon sens spatial est une tâche non triviale. Dans ce travail, nous présentons SKG2Data, une nouvelle approche de synthèse multimodale guidée par des graphes de connaissances spatiales, fondée sur le concept de génération de connaissances à données. SKG2Data construit automatiquement un Graphe de Connaissances Spatiales (SKG) pour imiter la perception humaine des directions et distances spatiales, qui est ensuite utilisé pour guider la synthèse de données multimodales. Des expériences approfondies démontrent que les données synthétisées à partir de divers types de connaissances spatiales, incluant la direction et la distance, améliorent non seulement les capacités de perception et de raisonnement spatial des MLLMs, mais présentent également de fortes capacités de généralisation. Nous espérons que l'idée de synthèse de données basée sur les connaissances puisse faire progresser le développement de l'intelligence spatiale.
English
Recent advances in multimodal large language models (MLLMs) have significantly enhanced their capabilities; however, their spatial perception abilities remain a notable limitation. To address this challenge, multimodal data synthesis offers a promising solution. Yet, ensuring that synthesized data adhere to spatial common sense is a non-trivial task. In this work, we introduce SKG2Data, a novel multimodal synthesis approach guided by spatial knowledge graphs, grounded in the concept of knowledge-to-data generation. SKG2Data automatically constructs a Spatial Knowledge Graph (SKG) to emulate human-like perception of spatial directions and distances, which is subsequently utilized to guide multimodal data synthesis. Extensive experiments demonstrate that data synthesized from diverse types of spatial knowledge, including direction and distance, not only enhance the spatial perception and reasoning abilities of MLLMs but also exhibit strong generalization capabilities. We hope that the idea of knowledge-based data synthesis can advance the development of spatial intelligence.

Summary

AI-Generated Summary

PDF31May 29, 2025