STAR-Bench: Investigando o Raciocínio Espaço-Temporal Profundo como Inteligência 4D de Áudio

Resumo

Apesar do rápido progresso nos Modelos de Linguagem Grande Multimodais e nos Modelos Grande Áudio-Linguagem, os benchmarks de áudio existentes testam principalmente semântica que pode ser recuperada a partir de legendas de texto, mascarando deficiências no raciocínio perceptual de granularidade fina. Nós formalizamos a inteligência 4D de áudio, definida como o raciocínio sobre a dinâmica do som no tempo e no espaço 3D, e introduzimos o STAR-Bench para medi-la. O STAR-Bench combina uma configuração de Percepção Acústica Fundamental (seis atributos sob regimes absoluto e relativo) com uma configuração de Raciocínio Espaço-Temporal Holístico que inclui reordenação de segmentos para processos contínuos e discretos e tarefas espaciais abrangendo localização estática, relações multi-fonte e trajetórias dinâmicas. Nosso pipeline de curadoria de dados usa dois métodos para garantir amostras de alta qualidade. Para tarefas fundamentais, usamos áudio sintetizado proceduralmente e simulado por física. Para dados holísticos, seguimos um processo de quatro estágios que inclui anotação humana e seleção final baseada no desempenho humano. Diferente de benchmarks anteriores, onde responder apenas com legendas reduz ligeiramente a precisão, o STAR-Bench induz quedas muito maiores (-31,5% temporal, -35,2% espacial), evidenciando seu foco em pistas linguisticamente difíceis de descrever. A avaliação de 19 modelos revela lacunas substanciais em comparação com humanos e uma hierarquia de capacidades: modelos de código fechado têm como gargalo a percepção de granularidade fina, enquanto modelos de código aberto ficam para trás em percepção, conhecimento e raciocínio. Nosso STAR-Bench fornece insights críticos e um caminho claro para o desenvolvimento de modelos futuros com uma compreensão mais robusta do mundo físico.

English

Despite rapid progress in Multi-modal Large Language Models and Large Audio-Language Models, existing audio benchmarks largely test semantics that can be recovered from text captions, masking deficits in fine-grained perceptual reasoning. We formalize audio 4D intelligence that is defined as reasoning over sound dynamics in time and 3D space, and introduce STAR-Bench to measure it. STAR-Bench combines a Foundational Acoustic Perception setting (six attributes under absolute and relative regimes) with a Holistic Spatio-Temporal Reasoning setting that includes segment reordering for continuous and discrete processes and spatial tasks spanning static localization, multi-source relations, and dynamic trajectories. Our data curation pipeline uses two methods to ensure high-quality samples. For foundational tasks, we use procedurally synthesized and physics-simulated audio. For holistic data, we follow a four-stage process that includes human annotation and final selection based on human performance. Unlike prior benchmarks where caption-only answering reduces accuracy slightly, STAR-Bench induces far larger drops (-31.5\% temporal, -35.2\% spatial), evidencing its focus on linguistically hard-to-describe cues. Evaluating 19 models reveals substantial gaps compared with humans and a capability hierarchy: closed-source models are bottlenecked by fine-grained perception, while open-source models lag across perception, knowledge, and reasoning. Our STAR-Bench provides critical insights and a clear path forward for developing future models with a more robust understanding of the physical world.

STAR-Bench: Investigando o Raciocínio Espaço-Temporal Profundo como Inteligência 4D de Áudio

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

Resumo

Support