ChatPaper.aiChatPaper

STAR-Bench: 오디오 4D 지능으로서의 심층 시공간 추론 능력 평가

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

October 28, 2025
저자: Zihan Liu, Zhikang Niu, Qiuyang Xiao, Zhisheng Zheng, Ruoqi Yuan, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Jianze Liang, Xie Chen, Leilei Sun, Dahua Lin, Jiaqi Wang
cs.AI

초록

멀티모달 대규모 언어 모델과 대규모 오디오-언어 모델의 빠른 발전에도 불구하고, 기존 오디오 벤치마크는 텍스트 캡션에서 복원 가능한 의미론을 주로 테스트하여 세밀한 지각 추론의 결함을 가립니다. 우리는 시간과 3차원 공간에서의 음향 역학에 대한 추론으로 정의되는 오디오 4D 지능을 공식화하고, 이를 측정하기 위한 STAR-Bench를 소개합니다. STAR-Bench는 기초 음향 인지 설정(절대 및 상대 체계 하의 여섯 가지 속성)과 종합적 시공간 추론 설정을 결합합니다. 종합적 설정에는 연속 및 이산 프로세스에 대한 세그먼트 재정렬과 정적 위치 파악, 다중 소스 관계, 동적 궤적을 아우르는 공간 과제가 포함됩니다. 우리의 데이터 선별 파이프라인은 고품질 샘플을 보장하기 위해 두 가지 방법을 사용합니다. 기초 과제에는 절차적 합성 및 물리 시뮬레이션 오디오를 활용합니다. 종합적 데이터의 경우 인간 주석과 인간 수행 능력을 기반으로 한 최종 선택을 포함하는 4단계 프로세스를 따릅니다. 캡션만으로 답변 시 정확도가 약간 하락하는 기존 벤치마크와 달리, STAR-Bench는 훨씬 더 큰 성능 하락(시간 -31.5%, 공간 -35.2%)을 유발하여 언어적으로 설명하기 어려운 단서에 초점을 맞추고 있음을 입증합니다. 19개 모델을 평가한 결과, 인간 대비 상당한 격차와 능력 계층 구조가 드러났습니다: 독점 모델은 세밀한 지각에 의해 병목 현상이 발생하는 반면, 오픈소스 모델은 지각, 지식, 추론 전반에서 뒤처집니다. 우리의 STAR-Bench는 물리 세계를 더욱 견고하게 이해하는 미래 모델 개발을 위한 중요한 통찰과 명확한 방향을 제시합니다.
English
Despite rapid progress in Multi-modal Large Language Models and Large Audio-Language Models, existing audio benchmarks largely test semantics that can be recovered from text captions, masking deficits in fine-grained perceptual reasoning. We formalize audio 4D intelligence that is defined as reasoning over sound dynamics in time and 3D space, and introduce STAR-Bench to measure it. STAR-Bench combines a Foundational Acoustic Perception setting (six attributes under absolute and relative regimes) with a Holistic Spatio-Temporal Reasoning setting that includes segment reordering for continuous and discrete processes and spatial tasks spanning static localization, multi-source relations, and dynamic trajectories. Our data curation pipeline uses two methods to ensure high-quality samples. For foundational tasks, we use procedurally synthesized and physics-simulated audio. For holistic data, we follow a four-stage process that includes human annotation and final selection based on human performance. Unlike prior benchmarks where caption-only answering reduces accuracy slightly, STAR-Bench induces far larger drops (-31.5\% temporal, -35.2\% spatial), evidencing its focus on linguistically hard-to-describe cues. Evaluating 19 models reveals substantial gaps compared with humans and a capability hierarchy: closed-source models are bottlenecked by fine-grained perception, while open-source models lag across perception, knowledge, and reasoning. Our STAR-Bench provides critical insights and a clear path forward for developing future models with a more robust understanding of the physical world.
PDF181December 1, 2025