STAR-Bench: Het Onderzoeken van Diep Ruimtelijk-Tijdelijk Redeneren als Auditieve 4D-Intelligentie
STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence
October 28, 2025
Auteurs: Zihan Liu, Zhikang Niu, Qiuyang Xiao, Zhisheng Zheng, Ruoqi Yuan, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Jianze Liang, Xie Chen, Leilei Sun, Dahua Lin, Jiaqi Wang
cs.AI
Samenvatting
Ondanks snelle vooruitgang in Multimodale Grote Taalmodellen en Grote Audio-Taalmodellen, testen bestaande audiobenchmarks grotendeels semantiek die kan worden herleid uit tekstbeschrijvingen, wat tekortkomingen in fijnmazige perceptuele redeneervaardigheden maskeert. Wij formaliseren audio 4D-intelligentie, gedefinieerd als redeneren over geluidsdynamiek in tijd en 3D-ruimte, en introduceren STAR-Bench om dit te meten. STAR-Bench combineert een Fundamentaal Akoestisch Perceptie-setting (zes attributen onder absolute en relatieve regimes) met een Holistische Spatio-temporele Redeneer-setting die segmentherordening omvat voor continue en discrete processen, en ruimtelijke taken die statische lokalisatie, multi-bronrelaties en dynamische trajecten omvatten. Onze datacuratiepijplijn gebruikt twee methoden om hoogwaardige samples te garanderen. Voor fundamentele taken gebruiken we procedureel gesynthetiseerde en via natuurkundesimulaties gegenereerde audio. Voor holistische data volgen we een vierfasenproces dat menselijke annotatie en een finale selectie op basis van menselijke prestaties omvat. In tegenstelling tot eerdere benchmarks, waar antwoorden op basis van enkel bijschriften de nauwkeurigheid licht verlagen, veroorzaakt STAR-Bench veel grotere dalingen (-31,5% temporeel, -35,2% ruimtelijk), wat bewijst dat de focus ligt op linguïstisch moeilijk te beschrijven aanwijzingen. Evaluatie van 19 modellen onthult aanzienlijke hiaten vergeleken met mensen en een capaciteitenhiërarchie: closed-source modellen hebben een bottleneck in fijnmazige perceptie, terwijl open-source modellen achterlopen op perceptie, kennis en redeneren. Onze STAR-Bench biedt cruciale inzichten en een duidelijke weg voorwaarts voor de ontwikkeling van toekomstige modellen met een robuuster begrip van de fysieke wereld.
English
Despite rapid progress in Multi-modal Large Language Models and Large
Audio-Language Models, existing audio benchmarks largely test semantics that
can be recovered from text captions, masking deficits in fine-grained
perceptual reasoning. We formalize audio 4D intelligence that is defined as
reasoning over sound dynamics in time and 3D space, and introduce STAR-Bench to
measure it. STAR-Bench combines a Foundational Acoustic Perception setting (six
attributes under absolute and relative regimes) with a Holistic Spatio-Temporal
Reasoning setting that includes segment reordering for continuous and discrete
processes and spatial tasks spanning static localization, multi-source
relations, and dynamic trajectories. Our data curation pipeline uses two
methods to ensure high-quality samples. For foundational tasks, we use
procedurally synthesized and physics-simulated audio. For holistic data, we
follow a four-stage process that includes human annotation and final selection
based on human performance. Unlike prior benchmarks where caption-only
answering reduces accuracy slightly, STAR-Bench induces far larger drops
(-31.5\% temporal, -35.2\% spatial), evidencing its focus on linguistically
hard-to-describe cues. Evaluating 19 models reveals substantial gaps compared
with humans and a capability hierarchy: closed-source models are bottlenecked
by fine-grained perception, while open-source models lag across perception,
knowledge, and reasoning. Our STAR-Bench provides critical insights and a clear
path forward for developing future models with a more robust understanding of
the physical world.