Artículos de investigación en IA seleccionados diariamente con traducciones
Las evaluaciones recientes de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se han centrado en probar sus capacidades zero-shot/few-shot para tareas básicas de procesamiento de lenguaje natural y su habilidad para traducir instrucciones en APIs de herramientas. Sin embargo, la evaluación de LLMs que utilizan herramientas complejas para completar instrucciones multimodales y de múltiples turnos en un entorno multimodal complejo no ha sido investigada. Para abordar esta brecha, presentamos el benchmark de Finalización de Tareas en PowerPoint (PPTC, por sus siglas en inglés) para evaluar la capacidad de los LLMs de crear y editar archivos PPT basados en instrucciones de usuario. Este contiene 279 sesiones de múltiples turnos que cubren diversos temas y cientos de instrucciones que involucran operaciones multimodales. También proponemos el Sistema de Evaluación PPTX-Match, que evalúa si los LLMs completan la instrucción basándose en el archivo de predicción en lugar de la secuencia de API etiquetada, lo que permite soportar diversas secuencias de API generadas por LLMs. Medimos 3 LLMs cerrados y 6 LLMs de código abierto. Los resultados muestran que GPT-4 supera a otros LLMs con un 75.1\% de precisión en pruebas de diálogo de un solo turno, pero enfrenta desafíos al completar sesiones completas, logrando solo un 6\% de precisión en sesiones. Identificamos tres causas principales de error en nuestro benchmark: acumulación de errores en sesiones de múltiples turnos, procesamiento de plantillas largas de PPT y percepción multimodal. Estos aspectos representan grandes desafíos para futuros sistemas de LLMs y agentes. Publicamos los datos, código y sistema de evaluación de PPTC en https://github.com/gydpku/PPTC.
Proponemos Fast Language-Audio Pre-training (FLAP), un enfoque auto-supervisado que aprende de manera eficiente y efectiva representaciones alineadas de audio y lenguaje mediante enmascaramiento, aprendizaje contrastivo y reconstrucción. Para mejorar la eficiencia, FLAP descarta aleatoriamente tokens del espectrograma de audio, centrándose únicamente en los restantes para la auto-supervisión. A través del aprendizaje contrastivo intermodal, FLAP aprende a alinear representaciones emparejadas de audio y texto en un espacio latente compartido. Destacablemente, FLAP aprovecha múltiples vistas aumentadas mediante enmascaramiento para el contraste intermodal y aprende a reconstruir la porción enmascarada de los tokens de audio. Además, FLAP utiliza modelos de lenguaje de gran escala (LLMs) para aumentar las entradas de texto, lo que contribuye a un mejor rendimiento. Estos enfoques conducen a representaciones audio-texto más robustas e informativas, permitiendo que FLAP alcance un rendimiento de vanguardia (SoTA) en tareas de recuperación audio-texto en AudioCaps (logrando un 53.0% en R@1) y Clotho (logrando un 25.5% en R@1).
Presentamos EmerNeRF, un enfoque simple pero poderoso para aprender representaciones espacio-temporales de escenas dinámicas de conducción. Basado en campos neuronales, EmerNeRF captura simultáneamente la geometría, apariencia, movimiento y semántica de la escena mediante auto-arranque. EmerNeRF se sustenta en dos componentes principales: primero, estratifica las escenas en campos estáticos y dinámicos. Esta descomposición surge puramente de la auto-supervisión, permitiendo que nuestro modelo aprenda de fuentes de datos generales y en entornos reales. Segundo, EmerNeRF parametriza un campo de flujo inducido a partir del campo dinámico y utiliza este campo de flujo para agregar características multi-fotograma, amplificando la precisión de renderizado de objetos dinámicos. La combinación de estos tres campos (estático, dinámico y flujo) permite a EmerNeRF representar escenas altamente dinámicas de manera autosuficiente, sin depender de anotaciones de objetos de verdad terreno o modelos preentrenados para segmentación de objetos dinámicos o estimación de flujo óptico. Nuestro método logra un rendimiento de vanguardia en simulación de sensores, superando significativamente a métodos anteriores en la reconstrucción de escenas estáticas (+2.93 PSNR) y dinámicas (+3.70 PSNR). Además, para fortalecer la generalización semántica de EmerNeRF, elevamos características de modelos visuales fundacionales 2D al espacio-tiempo 4D y abordamos un sesgo posicional general en los Transformers modernos, mejorando significativamente el rendimiento de percepción 3D (por ejemplo, un 37.50% de mejora relativa en la precisión de predicción de ocupación en promedio). Finalmente, construimos un conjunto de datos diverso y desafiante de 120 secuencias para evaluar campos neuronales en configuraciones extremas y altamente dinámicas.