ChatPaper.aiChatPaper

Síntesis Multimodal Guiada por Grafos de Conocimiento Espacial

Spatial Knowledge Graph-Guided Multimodal Synthesis

May 28, 2025
Autores: Yida Xue, Zhen Bi, Jinnan Yang, Jungang Lou, Huajun Chen, Ningyu Zhang
cs.AI

Resumen

Los recientes avances en los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han mejorado significativamente sus capacidades; sin embargo, sus habilidades de percepción espacial siguen siendo una limitación notable. Para abordar este desafío, la síntesis de datos multimodales ofrece una solución prometedora. No obstante, garantizar que los datos sintetizados se ajusten al sentido común espacial es una tarea no trivial. En este trabajo, presentamos SKG2Data, un novedoso enfoque de síntesis multimodal guiado por grafos de conocimiento espacial, basado en el concepto de generación de conocimiento a datos. SKG2Data construye automáticamente un Grafo de Conocimiento Espacial (SKG, por sus siglas en inglés) para emular la percepción humana de direcciones y distancias espaciales, el cual se utiliza posteriormente para guiar la síntesis de datos multimodales. Experimentos exhaustivos demuestran que los datos sintetizados a partir de diversos tipos de conocimiento espacial, incluyendo dirección y distancia, no solo mejoran las habilidades de percepción y razonamiento espacial de los MLLMs, sino que también exhiben fuertes capacidades de generalización. Esperamos que la idea de la síntesis de datos basada en conocimiento pueda impulsar el desarrollo de la inteligencia espacial.
English
Recent advances in multimodal large language models (MLLMs) have significantly enhanced their capabilities; however, their spatial perception abilities remain a notable limitation. To address this challenge, multimodal data synthesis offers a promising solution. Yet, ensuring that synthesized data adhere to spatial common sense is a non-trivial task. In this work, we introduce SKG2Data, a novel multimodal synthesis approach guided by spatial knowledge graphs, grounded in the concept of knowledge-to-data generation. SKG2Data automatically constructs a Spatial Knowledge Graph (SKG) to emulate human-like perception of spatial directions and distances, which is subsequently utilized to guide multimodal data synthesis. Extensive experiments demonstrate that data synthesized from diverse types of spatial knowledge, including direction and distance, not only enhance the spatial perception and reasoning abilities of MLLMs but also exhibit strong generalization capabilities. We hope that the idea of knowledge-based data synthesis can advance the development of spatial intelligence.

Summary

AI-Generated Summary

PDF31May 29, 2025