ChatPaper.aiChatPaper

Räumliches Wissensgraph-gesteuerte multimodale Synthese

Spatial Knowledge Graph-Guided Multimodal Synthesis

May 28, 2025
Autoren: Yida Xue, Zhen Bi, Jinnan Yang, Jungang Lou, Huajun Chen, Ningyu Zhang
cs.AI

Zusammenfassung

Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben deren Fähigkeiten erheblich verbessert; dennoch bleibt ihre räumliche Wahrnehmungsfähigkeit eine bemerkenswerte Einschränkung. Um diese Herausforderung zu bewältigen, bietet die multimodale Datensynthese eine vielversprechende Lösung. Es ist jedoch keine triviale Aufgabe, sicherzustellen, dass synthetisierte Daten räumlichem Common Sense entsprechen. In dieser Arbeit stellen wir SKG2Data vor, einen neuartigen multimodalen Syntheseansatz, der durch räumliche Wissensgraphen geleitet wird und auf dem Konzept der Wissens-zu-Daten-Generierung basiert. SKG2Data konstruiert automatisch einen Spatial Knowledge Graph (SKG), um die menschliche Wahrnehmung von räumlichen Richtungen und Entfernungen nachzuahmen, der anschließend zur Steuerung der multimodalen Datensynthese verwendet wird. Umfangreiche Experimente zeigen, dass Daten, die aus verschiedenen Arten von räumlichem Wissen, einschließlich Richtung und Entfernung, synthetisiert werden, nicht nur die räumliche Wahrnehmungs- und Schlussfolgerungsfähigkeiten von MLLMs verbessern, sondern auch starke Generalisierungsfähigkeiten aufweisen. Wir hoffen, dass die Idee der wissensbasierten Datensynthese die Entwicklung der räumlichen Intelligenz vorantreiben kann.
English
Recent advances in multimodal large language models (MLLMs) have significantly enhanced their capabilities; however, their spatial perception abilities remain a notable limitation. To address this challenge, multimodal data synthesis offers a promising solution. Yet, ensuring that synthesized data adhere to spatial common sense is a non-trivial task. In this work, we introduce SKG2Data, a novel multimodal synthesis approach guided by spatial knowledge graphs, grounded in the concept of knowledge-to-data generation. SKG2Data automatically constructs a Spatial Knowledge Graph (SKG) to emulate human-like perception of spatial directions and distances, which is subsequently utilized to guide multimodal data synthesis. Extensive experiments demonstrate that data synthesized from diverse types of spatial knowledge, including direction and distance, not only enhance the spatial perception and reasoning abilities of MLLMs but also exhibit strong generalization capabilities. We hope that the idea of knowledge-based data synthesis can advance the development of spatial intelligence.

Summary

AI-Generated Summary

PDF31May 29, 2025