STAR-Bench : Exploration du raisonnement spatio-temporel profond comme intelligence audio 4D
STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence
October 28, 2025
papers.authors: Zihan Liu, Zhikang Niu, Qiuyang Xiao, Zhisheng Zheng, Ruoqi Yuan, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Jianze Liang, Xie Chen, Leilei Sun, Dahua Lin, Jiaqi Wang
cs.AI
papers.abstract
Malgré les progrès rapides des modèles de langage multimodaux et des grands modèles audio-langage, les benchmarks audio existants testent principalement une sémantique pouvant être inférée à partir de légendes textuelles, occultant ainsi les déficits en raisonnement perceptif fin. Nous formalisons l'intelligence audio 4D, définie comme le raisonnement sur la dynamique sonore dans le temps et l'espace 3D, et nous introduisons STAR-Bench pour la mesurer. STAR-Bench combine un cadre de Perception Acoustique Fondamentale (six attributs sous régimes absolu et relatif) avec un cadre de Raisonnement Spatio-Temporel Holistique incluant le réordonnancement de segments pour des processus continus et discrets, ainsi que des tâches spatiales couvrant la localisation statique, les relations multi-sources et les trajectoires dynamiques. Notre pipeline de curation des données utilise deux méthodes pour garantir des échantillons de haute qualité. Pour les tâches fondamentales, nous utilisons de l'audio synthétisé de manière procédurale et simulé par physique. Pour les données holistiques, nous suivons un processus en quatre étapes incluant l'annotation humaine et une sélection finale basée sur les performances humaines. Contrairement aux benchmarks antérieurs où une réponse basée uniquement sur la légende réduit légèrement la précision, STAR-Bench induit des baisses bien plus importantes (-31,5 % pour le temporel, -35,2 % pour le spatial), prouvant son accent sur des indices difficilement descriptibles linguistiquement. L'évaluation de 19 modèles révèle des écarts substantiels par rapport aux humains et une hiérarchie des capacités : les modèles propriétaires sont limités par la perception fine, tandis que les modèles open-source sont à la traîne en perception, connaissances et raisonnement. Notre benchmark STAR-Bench offre des insights critiques et une voie claire pour développer des modèles futurs dotés d'une compréhension plus robuste du monde physique.
English
Despite rapid progress in Multi-modal Large Language Models and Large
Audio-Language Models, existing audio benchmarks largely test semantics that
can be recovered from text captions, masking deficits in fine-grained
perceptual reasoning. We formalize audio 4D intelligence that is defined as
reasoning over sound dynamics in time and 3D space, and introduce STAR-Bench to
measure it. STAR-Bench combines a Foundational Acoustic Perception setting (six
attributes under absolute and relative regimes) with a Holistic Spatio-Temporal
Reasoning setting that includes segment reordering for continuous and discrete
processes and spatial tasks spanning static localization, multi-source
relations, and dynamic trajectories. Our data curation pipeline uses two
methods to ensure high-quality samples. For foundational tasks, we use
procedurally synthesized and physics-simulated audio. For holistic data, we
follow a four-stage process that includes human annotation and final selection
based on human performance. Unlike prior benchmarks where caption-only
answering reduces accuracy slightly, STAR-Bench induces far larger drops
(-31.5\% temporal, -35.2\% spatial), evidencing its focus on linguistically
hard-to-describe cues. Evaluating 19 models reveals substantial gaps compared
with humans and a capability hierarchy: closed-source models are bottlenecked
by fine-grained perception, while open-source models lag across perception,
knowledge, and reasoning. Our STAR-Bench provides critical insights and a clear
path forward for developing future models with a more robust understanding of
the physical world.