Ruimtelijk Kennisgrafiek-Gestuurde Multimodale Synthese
Spatial Knowledge Graph-Guided Multimodal Synthesis
May 28, 2025
Auteurs: Yida Xue, Zhen Bi, Jinnan Yang, Jungang Lou, Huajun Chen, Ningyu Zhang
cs.AI
Samenvatting
Recente vooruitgang in multimodale grote taalmodellen (MLLMs) heeft hun mogelijkheden aanzienlijk verbeterd; echter, hun ruimtelijke waarnemingsvermogen blijft een opvallende beperking. Om deze uitdaging aan te pakken, biedt multimodale datasynthese een veelbelovende oplossing. Toch is het waarborgen dat gesynthetiseerde data voldoen aan ruimtelijk gezond verstand geen eenvoudige taak. In dit werk introduceren we SKG2Data, een nieuwe multimodale synthesebenadering die wordt geleid door ruimtelijke kennisgrafieken, gebaseerd op het concept van kennis-naar-data-generatie. SKG2Data construeert automatisch een Ruimtelijke Kennisgraaf (SKG) om de menselijke perceptie van ruimtelijke richtingen en afstanden na te bootsen, die vervolgens wordt gebruikt om multimodale datasynthese te sturen. Uitgebreide experimenten tonen aan dat data gesynthetiseerd uit diverse soorten ruimtelijke kennis, waaronder richting en afstand, niet alleen het ruimtelijk waarnemings- en redeneervermogen van MLLMs verbeteren, maar ook sterke generalisatiecapaciteiten vertonen. We hopen dat het idee van kennisgebaseerde datasynthese de ontwikkeling van ruimtelijke intelligentie kan bevorderen.
English
Recent advances in multimodal large language models (MLLMs) have
significantly enhanced their capabilities; however, their spatial perception
abilities remain a notable limitation. To address this challenge, multimodal
data synthesis offers a promising solution. Yet, ensuring that synthesized data
adhere to spatial common sense is a non-trivial task. In this work, we
introduce SKG2Data, a novel multimodal synthesis approach guided by spatial
knowledge graphs, grounded in the concept of knowledge-to-data generation.
SKG2Data automatically constructs a Spatial Knowledge Graph (SKG) to emulate
human-like perception of spatial directions and distances, which is
subsequently utilized to guide multimodal data synthesis. Extensive experiments
demonstrate that data synthesized from diverse types of spatial knowledge,
including direction and distance, not only enhance the spatial perception and
reasoning abilities of MLLMs but also exhibit strong generalization
capabilities. We hope that the idea of knowledge-based data synthesis can
advance the development of spatial intelligence.