STAR-Bench: Investigando o Raciocínio Espaço-Temporal Profundo como Inteligência 4D de Áudio
STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence
October 28, 2025
Autores: Zihan Liu, Zhikang Niu, Qiuyang Xiao, Zhisheng Zheng, Ruoqi Yuan, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Jianze Liang, Xie Chen, Leilei Sun, Dahua Lin, Jiaqi Wang
cs.AI
Resumo
Apesar do rápido progresso nos Modelos de Linguagem Grande Multimodais e nos Modelos Grande Áudio-Linguagem, os benchmarks de áudio existentes testam principalmente semântica que pode ser recuperada a partir de legendas de texto, mascarando deficiências no raciocínio perceptual de granularidade fina. Nós formalizamos a inteligência 4D de áudio, definida como o raciocínio sobre a dinâmica do som no tempo e no espaço 3D, e introduzimos o STAR-Bench para medi-la. O STAR-Bench combina uma configuração de Percepção Acústica Fundamental (seis atributos sob regimes absoluto e relativo) com uma configuração de Raciocínio Espaço-Temporal Holístico que inclui reordenação de segmentos para processos contínuos e discretos e tarefas espaciais abrangendo localização estática, relações multi-fonte e trajetórias dinâmicas.
Nosso pipeline de curadoria de dados usa dois métodos para garantir amostras de alta qualidade. Para tarefas fundamentais, usamos áudio sintetizado proceduralmente e simulado por física. Para dados holísticos, seguimos um processo de quatro estágios que inclui anotação humana e seleção final baseada no desempenho humano. Diferente de benchmarks anteriores, onde responder apenas com legendas reduz ligeiramente a precisão, o STAR-Bench induz quedas muito maiores (-31,5% temporal, -35,2% espacial), evidenciando seu foco em pistas linguisticamente difíceis de descrever.
A avaliação de 19 modelos revela lacunas substanciais em comparação com humanos e uma hierarquia de capacidades: modelos de código fechado têm como gargalo a percepção de granularidade fina, enquanto modelos de código aberto ficam para trás em percepção, conhecimento e raciocínio. Nosso STAR-Bench fornece insights críticos e um caminho claro para o desenvolvimento de modelos futuros com uma compreensão mais robusta do mundo físico.
English
Despite rapid progress in Multi-modal Large Language Models and Large
Audio-Language Models, existing audio benchmarks largely test semantics that
can be recovered from text captions, masking deficits in fine-grained
perceptual reasoning. We formalize audio 4D intelligence that is defined as
reasoning over sound dynamics in time and 3D space, and introduce STAR-Bench to
measure it. STAR-Bench combines a Foundational Acoustic Perception setting (six
attributes under absolute and relative regimes) with a Holistic Spatio-Temporal
Reasoning setting that includes segment reordering for continuous and discrete
processes and spatial tasks spanning static localization, multi-source
relations, and dynamic trajectories. Our data curation pipeline uses two
methods to ensure high-quality samples. For foundational tasks, we use
procedurally synthesized and physics-simulated audio. For holistic data, we
follow a four-stage process that includes human annotation and final selection
based on human performance. Unlike prior benchmarks where caption-only
answering reduces accuracy slightly, STAR-Bench induces far larger drops
(-31.5\% temporal, -35.2\% spatial), evidencing its focus on linguistically
hard-to-describe cues. Evaluating 19 models reveals substantial gaps compared
with humans and a capability hierarchy: closed-source models are bottlenecked
by fine-grained perception, while open-source models lag across perception,
knowledge, and reasoning. Our STAR-Bench provides critical insights and a clear
path forward for developing future models with a more robust understanding of
the physical world.