Selección de tokens adaptativa por etapas para LLMs omni-modales eficientes

Resumen

Los modelos de lenguaje grandes omni-modales (om-LLM) logran una comprensión audiovisual unificada al codificar video y audio en secuencias de tokens alineadas temporalmente, intercaladas a nivel de ventana. Sin embargo, procesar estos tokens densos no textuales a lo largo del LLM implica un costo computacional sustancial. Aunque la selección de tokens sin entrenamiento puede reducir este costo, los métodos existentes o bien se centran en entradas exclusivamente visuales, o bien podan los tokens de los om-LLM solo antes del LLM con proporciones fijas por modalidad, sin capturar cómo la importancia de los tokens entre modalidades evoluciona a través de las capas. Para abordar esta limitación, primero analizamos la dependencia de tokens por capas en los om-LLM. Encontramos que las dependencias visuales y de audio siguen un patrón a nivel de bloques y se debilitan gradualmente con la profundidad, lo que indica que muchos tokens no textuales de capas tardías se vuelven redundantes después de la fusión entre modalidades. Motivados por esta observación, proponemos SEATS, un método de selección de tokens sin entrenamiento y adaptativo por etapas para la inferencia eficiente de om-LLM. Antes del LLM, SEATS elimina la redundancia espacio-temporal mediante selección de diversidad ponderada por atención. Dentro del LLM, poda progresivamente los tokens a través de los bloques y asigna dinámicamente el presupuesto de retención desde las ventanas temporales a las modalidades utilizando puntuaciones de relevancia de consulta. En las capas tardías, elimina todos los tokens no textuales restantes una vez que la fusión entre modalidades está completa. Los experimentos en Qwen2.5-Omni y Qwen3-Omni demuestran que SEATS mejora efectivamente la eficiencia de inferencia. Al retener solo el 10% de los tokens visuales y de audio, logra una reducción de 9.3x en FLOPs y una aceleración de 4.8x en el prellenado, mientras preserva el 96.3% del rendimiento original.

English

Omni-modal large language models (om-LLMs) achieve unified audio-visual understanding by encoding video and audio into temporally aligned token sequences interleaved at the window level. However, processing these dense non-textual tokens throughout the LLM incurs substantial computational overhead. Although training-free token selection can reduce this cost, existing methods either focus on visual-only inputs or prune om-LLM tokens only before the LLM with fixed per-modality ratios, failing to capture how cross-modal token importance evolves across layers. To address this limitation, we first analyze the layer-wise token dependency of om-LLMs. We find that visual and audio dependencies follow a block-wise pattern and gradually weaken with depth, indicating that many late-layer non-textual tokens become redundant after cross-modal fusion. Motivated by this observation, we propose SEATS, a training-free, stage-adaptive token selection method for efficient om-LLM inference. Before the LLM, SEATS removes spatiotemporal redundancy via attention-weighted diversity selection. Inside the LLM, it progressively prunes tokens across blocks and dynamically allocates the retention budget from temporal windows to modalities using query relevance scores. In late layers, it removes all remaining non-textual tokens once cross-modal fusion is complete. Experiments on Qwen2.5-Omni and Qwen3-Omni demonstrate that SEATS effectively improves inference efficiency. Retaining only 10% of visual and audio tokens, it achieves a 9.3x FLOPs reduction and a 4.8x prefill speedup while preserving 96.3% of the original performance.