ChatPaper.aiChatPaper

STAR-Bench: Untersuchung von tiefgründigem räumlich-zeitlichem Schließen als auditive 4D-Intelligenz

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

October 28, 2025
papers.authors: Zihan Liu, Zhikang Niu, Qiuyang Xiao, Zhisheng Zheng, Ruoqi Yuan, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Jianze Liang, Xie Chen, Leilei Sun, Dahua Lin, Jiaqi Wang
cs.AI

papers.abstract

Trotz rascher Fortschritte bei multimodalen großen Sprachmodellen und großen Audio-Sprach-Modellen testen bestehende Audio-Benchmarks größtenteils Semantik, die aus Textbeschreibungen abgeleitet werden kann, was Defizite in der feinkörnigen perzeptuellen Reasoning-Fähigkeit verschleiert. Wir formalisieren eine auditive 4D-Intelligenz, die als das Reasoning über Schalldynamiken in Zeit und 3D-Raum definiert wird, und stellen STAR-Bench zu deren Messung vor. STAR-Bench kombiniert eine Grundlegende Akustische Wahrnehmung (sechs Attribute unter absoluten und relativen Regimen) mit einem Holistischen Räumlich-Zeitlichen Reasoning, das Segment-Neuanordnung für kontinuierliche und diskrete Prozesse sowie räumliche Aufgaben umfasst, die von statischer Lokalisierung über Mehrquellen-Beziehungen bis hin zu dynamischen Trajektorien reichen. Unsere Datenkuratierungs-Pipeline nutzt zwei Methoden, um hochwertige Samples sicherzustellen. Für grundlegende Aufgaben verwenden wir prozedural synthetisierte und physikalisch simulierte Audiodaten. Für holistische Daten folgen wir einem vierstufigen Prozess, der menschliche Annotation und eine finale Auswahl basierend auf menschlicher Leistung beinhaltet. Im Gegensatz zu früheren Benchmarks, bei denen das Beantworten nur mit Beschreibungen die Genauigkeit leicht reduziert, führt STAR-Bench zu wesentlich größeren Einbrüchen (-31,5 % temporal, -35,2 % räumlich), was seinen Fokus auf sprachlich schwer beschreibbare Hinweise belegt. Die Auswertung von 19 Modellen zeigt erhebliche Lücken im Vergleich zum Menschen und eine Fähigkeitshierarchie: Closed-Source-Modelle werden durch feinkörnige Wahrnehmung limitiert, während Open-Source-Modelle in Wahrnehmung, Wissen und Reasoning zurückliegen. Unser STAR-Bench liefert entscheidende Erkenntnisse und einen klaren Weg für die Entwicklung zukünftiger Modelle mit einem robusteren Verständnis der physischen Welt.
English
Despite rapid progress in Multi-modal Large Language Models and Large Audio-Language Models, existing audio benchmarks largely test semantics that can be recovered from text captions, masking deficits in fine-grained perceptual reasoning. We formalize audio 4D intelligence that is defined as reasoning over sound dynamics in time and 3D space, and introduce STAR-Bench to measure it. STAR-Bench combines a Foundational Acoustic Perception setting (six attributes under absolute and relative regimes) with a Holistic Spatio-Temporal Reasoning setting that includes segment reordering for continuous and discrete processes and spatial tasks spanning static localization, multi-source relations, and dynamic trajectories. Our data curation pipeline uses two methods to ensure high-quality samples. For foundational tasks, we use procedurally synthesized and physics-simulated audio. For holistic data, we follow a four-stage process that includes human annotation and final selection based on human performance. Unlike prior benchmarks where caption-only answering reduces accuracy slightly, STAR-Bench induces far larger drops (-31.5\% temporal, -35.2\% spatial), evidencing its focus on linguistically hard-to-describe cues. Evaluating 19 models reveals substantial gaps compared with humans and a capability hierarchy: closed-source models are bottlenecked by fine-grained perception, while open-source models lag across perception, knowledge, and reasoning. Our STAR-Bench provides critical insights and a clear path forward for developing future models with a more robust understanding of the physical world.
PDF181December 1, 2025