Синтез мультимодальных данных с использованием пространственного графа знаний
Spatial Knowledge Graph-Guided Multimodal Synthesis
May 28, 2025
Авторы: Yida Xue, Zhen Bi, Jinnan Yang, Jungang Lou, Huajun Chen, Ningyu Zhang
cs.AI
Аннотация
Последние достижения в области мультимодальных больших языковых моделей (MLLMs) значительно расширили их возможности; однако их способности к пространственному восприятию остаются заметным ограничением. Для решения этой задачи синтез мультимодальных данных предлагает перспективное решение. Тем не менее, обеспечение того, чтобы синтезированные данные соответствовали пространственной логике, является нетривиальной задачей. В данной работе мы представляем SKG2Data — новый подход к мультимодальному синтезу, основанный на пространственных графах знаний и концепции генерации данных на основе знаний. SKG2Data автоматически строит Пространственный Граф Знаний (SKG), имитирующий человеческое восприятие направлений и расстояний, который затем используется для управления синтезом мультимодальных данных. Многочисленные эксперименты показывают, что данные, синтезированные на основе различных типов пространственных знаний, включая направление и расстояние, не только улучшают способности MLLMs к пространственному восприятию и рассуждению, но также демонстрируют сильные обобщающие способности. Мы надеемся, что идея синтеза данных на основе знаний сможет способствовать развитию пространственного интеллекта.
English
Recent advances in multimodal large language models (MLLMs) have
significantly enhanced their capabilities; however, their spatial perception
abilities remain a notable limitation. To address this challenge, multimodal
data synthesis offers a promising solution. Yet, ensuring that synthesized data
adhere to spatial common sense is a non-trivial task. In this work, we
introduce SKG2Data, a novel multimodal synthesis approach guided by spatial
knowledge graphs, grounded in the concept of knowledge-to-data generation.
SKG2Data automatically constructs a Spatial Knowledge Graph (SKG) to emulate
human-like perception of spatial directions and distances, which is
subsequently utilized to guide multimodal data synthesis. Extensive experiments
demonstrate that data synthesized from diverse types of spatial knowledge,
including direction and distance, not only enhance the spatial perception and
reasoning abilities of MLLMs but also exhibit strong generalization
capabilities. We hope that the idea of knowledge-based data synthesis can
advance the development of spatial intelligence.Summary
AI-Generated Summary