ChatPaper.aiChatPaper

Ruimtelijk Kennisgrafiek-Gestuurde Multimodale Synthese

Spatial Knowledge Graph-Guided Multimodal Synthesis

May 28, 2025
Auteurs: Yida Xue, Zhen Bi, Jinnan Yang, Jungang Lou, Huajun Chen, Ningyu Zhang
cs.AI

Samenvatting

Recente vooruitgang in multimodale grote taalmodellen (MLLMs) heeft hun mogelijkheden aanzienlijk verbeterd; echter, hun ruimtelijke waarnemingsvermogen blijft een opvallende beperking. Om deze uitdaging aan te pakken, biedt multimodale datasynthese een veelbelovende oplossing. Toch is het waarborgen dat gesynthetiseerde data voldoen aan ruimtelijk gezond verstand geen eenvoudige taak. In dit werk introduceren we SKG2Data, een nieuwe multimodale synthesebenadering die wordt geleid door ruimtelijke kennisgrafieken, gebaseerd op het concept van kennis-naar-data-generatie. SKG2Data construeert automatisch een Ruimtelijke Kennisgraaf (SKG) om de menselijke perceptie van ruimtelijke richtingen en afstanden na te bootsen, die vervolgens wordt gebruikt om multimodale datasynthese te sturen. Uitgebreide experimenten tonen aan dat data gesynthetiseerd uit diverse soorten ruimtelijke kennis, waaronder richting en afstand, niet alleen het ruimtelijk waarnemings- en redeneervermogen van MLLMs verbeteren, maar ook sterke generalisatiecapaciteiten vertonen. We hopen dat het idee van kennisgebaseerde datasynthese de ontwikkeling van ruimtelijke intelligentie kan bevorderen.
English
Recent advances in multimodal large language models (MLLMs) have significantly enhanced their capabilities; however, their spatial perception abilities remain a notable limitation. To address this challenge, multimodal data synthesis offers a promising solution. Yet, ensuring that synthesized data adhere to spatial common sense is a non-trivial task. In this work, we introduce SKG2Data, a novel multimodal synthesis approach guided by spatial knowledge graphs, grounded in the concept of knowledge-to-data generation. SKG2Data automatically constructs a Spatial Knowledge Graph (SKG) to emulate human-like perception of spatial directions and distances, which is subsequently utilized to guide multimodal data synthesis. Extensive experiments demonstrate that data synthesized from diverse types of spatial knowledge, including direction and distance, not only enhance the spatial perception and reasoning abilities of MLLMs but also exhibit strong generalization capabilities. We hope that the idea of knowledge-based data synthesis can advance the development of spatial intelligence.
PDF31May 29, 2025