ChatPaper.aiChatPaper

STAR-Bench:音声4D知能としての深層時空間推論能力の評価

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

October 28, 2025
著者: Zihan Liu, Zhikang Niu, Qiuyang Xiao, Zhisheng Zheng, Ruoqi Yuan, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Jianze Liang, Xie Chen, Leilei Sun, Dahua Lin, Jiaqi Wang
cs.AI

要旨

マルチモーダル大規模言語モデルや大規模音声言語モデルの急速な進展にもかかわらず、既存の音声ベンチマークの多くは、テキストキャプションから復元可能な意味論のテストに留まっており、細粒度の知覚的推論における欠陥を隠蔽している。本論文では、時間および3次元空間における音のダイナミクスに対する推論として定義される「音声4D知能」を定式化し、それを測定するためのSTAR-Benchを提案する。STAR-Benchは、基礎的な聴覚知覚設定(絶対的・相対的体制下の6属性)と、連続的・離散的なプロセスに対するセグメント再順序付け、および静的定位、複数音源関係、動的軌道にわたる空間的タスクを含む全体的な時空間推論設定を組み合わせている。我々のデータキュレーションパイプラインは、高品質なサンプルを確保するために2つの方法を採用している。基礎的タスクには、手続き的に合成された音声および物理シミュレーションによる音声を使用する。全体的なデータについては、人間による注釈と人間のパフォーマンスに基づく最終選定を含む4段階のプロセスを経る。従来のベンチマークではキャプションのみの回答でも精度がわずかに低下する程度であったが、STAR-Benchでははるかに大きな低下(時間的-31.5%、空間的-35.2%)を引き起こし、言語的に記述が困難な手がかりに焦点を当てていることを示唆している。19のモデルを評価した結果、人間との間には大きな隔たりが存在し、能力階層が明らかになった。クローズドソースモデルは細粒度の知覚によってボトルネックが生じている一方、オープンソースモデルは知覚、知識、推論の全般にわたって遅れをとっている。我々のSTAR-Benchは、物理世界をより頑健に理解する将来のモデルを開発するための重要な知見と明確な道筋を提供する。
English
Despite rapid progress in Multi-modal Large Language Models and Large Audio-Language Models, existing audio benchmarks largely test semantics that can be recovered from text captions, masking deficits in fine-grained perceptual reasoning. We formalize audio 4D intelligence that is defined as reasoning over sound dynamics in time and 3D space, and introduce STAR-Bench to measure it. STAR-Bench combines a Foundational Acoustic Perception setting (six attributes under absolute and relative regimes) with a Holistic Spatio-Temporal Reasoning setting that includes segment reordering for continuous and discrete processes and spatial tasks spanning static localization, multi-source relations, and dynamic trajectories. Our data curation pipeline uses two methods to ensure high-quality samples. For foundational tasks, we use procedurally synthesized and physics-simulated audio. For holistic data, we follow a four-stage process that includes human annotation and final selection based on human performance. Unlike prior benchmarks where caption-only answering reduces accuracy slightly, STAR-Bench induces far larger drops (-31.5\% temporal, -35.2\% spatial), evidencing its focus on linguistically hard-to-describe cues. Evaluating 19 models reveals substantial gaps compared with humans and a capability hierarchy: closed-source models are bottlenecked by fine-grained perception, while open-source models lag across perception, knowledge, and reasoning. Our STAR-Bench provides critical insights and a clear path forward for developing future models with a more robust understanding of the physical world.
PDF181December 1, 2025