STAR-Bench: Analisi del Ragionamento Spazio-Temporale Profondo come Intelligenza Audio 4D
STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence
October 28, 2025
Autori: Zihan Liu, Zhikang Niu, Qiuyang Xiao, Zhisheng Zheng, Ruoqi Yuan, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Jianze Liang, Xie Chen, Leilei Sun, Dahua Lin, Jiaqi Wang
cs.AI
Abstract
Nonostante i rapidi progressi nei Modelli Linguistici Multimodali di grandi dimensioni e nei Modelli Audio-Linguistici di grandi dimensioni, i benchmark audio esistenti testano prevalentemente aspetti semantici recuperabili dai testi delle didascalie, mascherando così i deficit nel ragionamento percettivo di tipo fine-granular. Noi formalizziamo l'intelligenza audio 4D, definita come la capacità di ragionare sulla dinamica del suono nel tempo e nello spazio 3D, e introduciamo STAR-Bench per misurarla. STAR-Bench combina un contesto di Percezione Acustica Fondamentale (sei attributi valutati secondo regimi assoluti e relativi) con un contesto di Ragionamento Spazio-Temporale Olistico che include il riordinamento di segmenti per processi continui e discreti, e compiti spaziali che spaziano dalla localizzazione statica, alle relazioni tra sorgenti multiple, fino alle traiettorie dinamiche. La nostra pipeline di creazione dei dati utilizza due metodi per garantire campioni di alta qualità. Per i compiti fondamentali, utilizziamo audio sintetizzato proceduralmente e generato tramite simulazioni fisiche. Per i dati olistici, seguiamo un processo in quattro fasi che include l'annotazione umana e una selezione finale basata sulle prestazioni umane. A differenza dei benchmark precedenti, in cui la risposta basata solo sulla didascalia riduce leggermente l'accuratezza, STAR-Bench induce cali di prestazione molto più ampi (-31.5% temporale, -35.2% spaziale), evidenziando la sua focalizzazione su indizi di difficile descrizione linguistica. La valutazione di 19 modelli rivela divari sostanziali rispetto agli esseri umani e una gerarchia delle capacità: i modelli closed-source sono limitati dalla percezione fine-granular, mentre i modelli open-source sono in ritardo su percezione, conoscenza e ragionamento. Il nostro STAR-Bench fornisce insight critici e un percorso chiaro per lo sviluppo di futuri modelli con una comprensione più robusta del mondo fisico.
English
Despite rapid progress in Multi-modal Large Language Models and Large
Audio-Language Models, existing audio benchmarks largely test semantics that
can be recovered from text captions, masking deficits in fine-grained
perceptual reasoning. We formalize audio 4D intelligence that is defined as
reasoning over sound dynamics in time and 3D space, and introduce STAR-Bench to
measure it. STAR-Bench combines a Foundational Acoustic Perception setting (six
attributes under absolute and relative regimes) with a Holistic Spatio-Temporal
Reasoning setting that includes segment reordering for continuous and discrete
processes and spatial tasks spanning static localization, multi-source
relations, and dynamic trajectories. Our data curation pipeline uses two
methods to ensure high-quality samples. For foundational tasks, we use
procedurally synthesized and physics-simulated audio. For holistic data, we
follow a four-stage process that includes human annotation and final selection
based on human performance. Unlike prior benchmarks where caption-only
answering reduces accuracy slightly, STAR-Bench induces far larger drops
(-31.5\% temporal, -35.2\% spatial), evidencing its focus on linguistically
hard-to-describe cues. Evaluating 19 models reveals substantial gaps compared
with humans and a capability hierarchy: closed-source models are bottlenecked
by fine-grained perception, while open-source models lag across perception,
knowledge, and reasoning. Our STAR-Bench provides critical insights and a clear
path forward for developing future models with a more robust understanding of
the physical world.