Räumliches Wissensgraph-gesteuerte multimodale Synthese
Spatial Knowledge Graph-Guided Multimodal Synthesis
May 28, 2025
Autoren: Yida Xue, Zhen Bi, Jinnan Yang, Jungang Lou, Huajun Chen, Ningyu Zhang
cs.AI
Zusammenfassung
Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben deren Fähigkeiten erheblich verbessert; dennoch bleibt ihre räumliche Wahrnehmungsfähigkeit eine bemerkenswerte Einschränkung. Um diese Herausforderung zu bewältigen, bietet die multimodale Datensynthese eine vielversprechende Lösung. Es ist jedoch keine triviale Aufgabe, sicherzustellen, dass synthetisierte Daten räumlichem Common Sense entsprechen. In dieser Arbeit stellen wir SKG2Data vor, einen neuartigen multimodalen Syntheseansatz, der durch räumliche Wissensgraphen geleitet wird und auf dem Konzept der Wissens-zu-Daten-Generierung basiert. SKG2Data konstruiert automatisch einen Spatial Knowledge Graph (SKG), um die menschliche Wahrnehmung von räumlichen Richtungen und Entfernungen nachzuahmen, der anschließend zur Steuerung der multimodalen Datensynthese verwendet wird. Umfangreiche Experimente zeigen, dass Daten, die aus verschiedenen Arten von räumlichem Wissen, einschließlich Richtung und Entfernung, synthetisiert werden, nicht nur die räumliche Wahrnehmungs- und Schlussfolgerungsfähigkeiten von MLLMs verbessern, sondern auch starke Generalisierungsfähigkeiten aufweisen. Wir hoffen, dass die Idee der wissensbasierten Datensynthese die Entwicklung der räumlichen Intelligenz vorantreiben kann.
English
Recent advances in multimodal large language models (MLLMs) have
significantly enhanced their capabilities; however, their spatial perception
abilities remain a notable limitation. To address this challenge, multimodal
data synthesis offers a promising solution. Yet, ensuring that synthesized data
adhere to spatial common sense is a non-trivial task. In this work, we
introduce SKG2Data, a novel multimodal synthesis approach guided by spatial
knowledge graphs, grounded in the concept of knowledge-to-data generation.
SKG2Data automatically constructs a Spatial Knowledge Graph (SKG) to emulate
human-like perception of spatial directions and distances, which is
subsequently utilized to guide multimodal data synthesis. Extensive experiments
demonstrate that data synthesized from diverse types of spatial knowledge,
including direction and distance, not only enhance the spatial perception and
reasoning abilities of MLLMs but also exhibit strong generalization
capabilities. We hope that the idea of knowledge-based data synthesis can
advance the development of spatial intelligence.Summary
AI-Generated Summary