ChatPaper.aiChatPaper

STAR-Bench: Evaluación del Razonamiento Espacio-Temporal Profundo como Inteligencia 4D de Audio

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

October 28, 2025
Autores: Zihan Liu, Zhikang Niu, Qiuyang Xiao, Zhisheng Zheng, Ruoqi Yuan, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Jianze Liang, Xie Chen, Leilei Sun, Dahua Lin, Jiaqi Wang
cs.AI

Resumen

A pesar del rápido progreso en los Modelos de Lenguaje Grandes Multimodales y los Modelos Grandes de Audio-Lenguaje, los puntos de referencia de audio existentes evalúan principalmente semántica que puede recuperarse a partir de textos descriptivos, enmascarando déficits en el razonamiento perceptual de grano fino. Formalizamos la inteligencia 4D del audio, definida como el razonamiento sobre la dinámica del sonido en el tiempo y el espacio 3D, e introducimos STAR-Bench para medirla. STAR-Bench combina un entorno de Percepción Acústica Fundamental (seis atributos bajo regímenes absoluto y relativo) con un entorno de Razonamiento Espacio-Temporal Holístico que incluye reordenamiento de segmentos para procesos continuos y discretos, y tareas espaciales que abarcan localización estática, relaciones de múltiples fuentes y trayectorias dinámicas. Nuestro pipeline de curación de datos utiliza dos métodos para garantizar muestras de alta calidad. Para las tareas fundamentales, utilizamos audio sintetizado proceduralmente y simulado mediante física. Para los datos holísticos, seguimos un proceso de cuatro etapas que incluye anotación humana y selección final basada en el rendimiento humano. A diferencia de benchmarks anteriores, donde responder solo con el texto descriptivo reduce ligeramente la precisión, STAR-Bench induce caídas mucho mayores (-31.5% temporal, -35.2% espacial), evidenciando su enfoque en pistas difíciles de describir lingüísticamente. La evaluación de 19 modelos revela brechas sustanciales en comparación con los humanos y una jerarquía de capacidades: los modelos de código cerrado tienen como cuello de botella la percepción de grano fino, mientras que los modelos de código abierto se retrasan en percepción, conocimiento y razonamiento. Nuestro STAR-Bench proporciona información crítica y un camino claro para desarrollar futuros modelos con una comprensión más robusta del mundo físico.
English
Despite rapid progress in Multi-modal Large Language Models and Large Audio-Language Models, existing audio benchmarks largely test semantics that can be recovered from text captions, masking deficits in fine-grained perceptual reasoning. We formalize audio 4D intelligence that is defined as reasoning over sound dynamics in time and 3D space, and introduce STAR-Bench to measure it. STAR-Bench combines a Foundational Acoustic Perception setting (six attributes under absolute and relative regimes) with a Holistic Spatio-Temporal Reasoning setting that includes segment reordering for continuous and discrete processes and spatial tasks spanning static localization, multi-source relations, and dynamic trajectories. Our data curation pipeline uses two methods to ensure high-quality samples. For foundational tasks, we use procedurally synthesized and physics-simulated audio. For holistic data, we follow a four-stage process that includes human annotation and final selection based on human performance. Unlike prior benchmarks where caption-only answering reduces accuracy slightly, STAR-Bench induces far larger drops (-31.5\% temporal, -35.2\% spatial), evidencing its focus on linguistically hard-to-describe cues. Evaluating 19 models reveals substantial gaps compared with humans and a capability hierarchy: closed-source models are bottlenecked by fine-grained perception, while open-source models lag across perception, knowledge, and reasoning. Our STAR-Bench provides critical insights and a clear path forward for developing future models with a more robust understanding of the physical world.
PDF181December 1, 2025