STAR-Bench : Exploration du raisonnement spatio-temporel profond comme intelligence audio 4D

papers.abstract

Malgré les progrès rapides des modèles de langage multimodaux et des grands modèles audio-langage, les benchmarks audio existants testent principalement une sémantique pouvant être inférée à partir de légendes textuelles, occultant ainsi les déficits en raisonnement perceptif fin. Nous formalisons l'intelligence audio 4D, définie comme le raisonnement sur la dynamique sonore dans le temps et l'espace 3D, et nous introduisons STAR-Bench pour la mesurer. STAR-Bench combine un cadre de Perception Acoustique Fondamentale (six attributs sous régimes absolu et relatif) avec un cadre de Raisonnement Spatio-Temporel Holistique incluant le réordonnancement de segments pour des processus continus et discrets, ainsi que des tâches spatiales couvrant la localisation statique, les relations multi-sources et les trajectoires dynamiques. Notre pipeline de curation des données utilise deux méthodes pour garantir des échantillons de haute qualité. Pour les tâches fondamentales, nous utilisons de l'audio synthétisé de manière procédurale et simulé par physique. Pour les données holistiques, nous suivons un processus en quatre étapes incluant l'annotation humaine et une sélection finale basée sur les performances humaines. Contrairement aux benchmarks antérieurs où une réponse basée uniquement sur la légende réduit légèrement la précision, STAR-Bench induit des baisses bien plus importantes (-31,5 % pour le temporel, -35,2 % pour le spatial), prouvant son accent sur des indices difficilement descriptibles linguistiquement. L'évaluation de 19 modèles révèle des écarts substantiels par rapport aux humains et une hiérarchie des capacités : les modèles propriétaires sont limités par la perception fine, tandis que les modèles open-source sont à la traîne en perception, connaissances et raisonnement. Notre benchmark STAR-Bench offre des insights critiques et une voie claire pour développer des modèles futurs dotés d'une compréhension plus robuste du monde physique.

English

Despite rapid progress in Multi-modal Large Language Models and Large Audio-Language Models, existing audio benchmarks largely test semantics that can be recovered from text captions, masking deficits in fine-grained perceptual reasoning. We formalize audio 4D intelligence that is defined as reasoning over sound dynamics in time and 3D space, and introduce STAR-Bench to measure it. STAR-Bench combines a Foundational Acoustic Perception setting (six attributes under absolute and relative regimes) with a Holistic Spatio-Temporal Reasoning setting that includes segment reordering for continuous and discrete processes and spatial tasks spanning static localization, multi-source relations, and dynamic trajectories. Our data curation pipeline uses two methods to ensure high-quality samples. For foundational tasks, we use procedurally synthesized and physics-simulated audio. For holistic data, we follow a four-stage process that includes human annotation and final selection based on human performance. Unlike prior benchmarks where caption-only answering reduces accuracy slightly, STAR-Bench induces far larger drops (-31.5\% temporal, -35.2\% spatial), evidencing its focus on linguistically hard-to-describe cues. Evaluating 19 models reveals substantial gaps compared with humans and a capability hierarchy: closed-source models are bottlenecked by fine-grained perception, while open-source models lag across perception, knowledge, and reasoning. Our STAR-Bench provides critical insights and a clear path forward for developing future models with a more robust understanding of the physical world.

STAR-Bench : Exploration du raisonnement spatio-temporel profond comme intelligence audio 4D

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

papers.abstract

Support