Artículos de investigación en IA seleccionados diariamente con traducciones
Modelos como GPT-4o permiten la interacción en tiempo real con grandes modelos de lenguaje (LLMs) a través del habla, mejorando significativamente la experiencia del usuario en comparación con la interacción tradicional basada en texto. Sin embargo, todavía existe una falta de exploración sobre cómo construir modelos de interacción por voz basados en LLMs de código abierto. Para abordar esto, proponemos LLaMA-Omni, una arquitectura de modelo novedosa diseñada para una interacción por voz de baja latencia y alta calidad con LLMs. LLaMA-Omni integra un codificador de habla preentrenado, un adaptador de habla, un LLM y un decodificador de habla en continuo. Elimina la necesidad de transcripción de habla y puede generar simultáneamente respuestas de texto y habla directamente a partir de instrucciones de habla con una latencia extremadamente baja. Construimos nuestro modelo basado en el último modelo Llama-3.1-8B-Instruct. Para alinear el modelo con escenarios de interacción por voz, creamos un conjunto de datos llamado InstructS2S-200K, que incluye 200K instrucciones de habla y respuestas de habla correspondientes. Los resultados experimentales muestran que en comparación con modelos previos de habla-lenguaje, LLaMA-Omni proporciona mejores respuestas tanto en contenido como en estilo, con una latencia de respuesta tan baja como 226 ms. Además, el entrenamiento de LLaMA-Omni lleva menos de 3 días con solo 4 GPUs, allanando el camino para el desarrollo eficiente de modelos de habla-lenguaje en el futuro.
La Generación con Recuperación Aumentada (RAG) ha surgido como un paradigma común para utilizar Modelos de Lenguaje Grandes (LLMs) junto con bases de conocimiento privadas y actualizadas. En este trabajo, abordamos los desafíos de utilizar LLM-como-Juez al evaluar respuestas fundamentadas generadas por sistemas RAG. Para evaluar las capacidades de calibración y discriminación de los modelos de juez, identificamos 7 modos de falla del generador e introducimos GroUSE (Puntuación Unitaria de Evaluadores de Preguntas y Respuestas Fundamentadas), un banco de pruebas de metaevaluación de 144 pruebas unitarias. Este banco de pruebas revela que los marcos de evaluación automatizados de RAG existentes a menudo pasan por alto modos de falla importantes, incluso al utilizar GPT-4 como juez. Para mejorar el diseño actual de los marcos de evaluación automatizados de RAG, proponemos un nuevo proceso y descubrimos que si bien los modelos cerrados tienen un buen desempeño en GroUSE, los jueces de código abierto de vanguardia no se generalizan a nuestros criterios propuestos, a pesar de la fuerte correlación con el juicio de GPT-4. Nuestros hallazgos sugieren que la correlación con GPT-4 es un proxy incompleto para el rendimiento práctico de los modelos de juez y debe complementarse con evaluaciones en pruebas unitarias para una detección precisa de modos de falla. Además, demostramos que el ajuste fino de Llama-3 en las trazas de razonamiento de GPT-4 aumenta significativamente sus capacidades de evaluación, mejorando tanto la correlación con las evaluaciones de GPT-4 como la calibración en situaciones de referencia.
La affordance denota las interacciones potenciales inherentes en los objetos. La percepción de la affordance puede permitir a agentes inteligentes navegar e interactuar con nuevos entornos de manera eficiente. El anclaje de affordance débilmente supervisado enseña a los agentes el concepto de affordance sin costosas anotaciones a nivel de píxeles, pero con imágenes exocéntricas. Aunque los avances recientes en el anclaje de affordance débilmente supervisado han dado resultados prometedores, aún existen desafíos, incluida la necesidad de un conjunto de datos de imágenes exocéntricas y egocéntricas emparejadas, y la complejidad en anclar diversas affordances para un solo objeto. Para abordarlos, proponemos INTRA (Anclaje de Affordance débilmente supervisado con Conciencia de Relación de Interacción). A diferencia de los trabajos anteriores, INTRA redefine este problema como aprendizaje de representaciones para identificar características únicas de las interacciones a través de aprendizaje contrastivo solo con imágenes exocéntricas, eliminando la necesidad de conjuntos de datos emparejados. Además, aprovechamos los modelos de visión y lenguaje para realizar el anclaje de affordance de manera flexible con cualquier texto, diseñando la generación de mapas de affordance condicionados por texto para reflejar la relación de interacción para el aprendizaje contrastivo y mejorar la robustez con nuestra ampliación de sinónimos de texto. Nuestro método superó a los trabajos anteriores en diversos conjuntos de datos como AGD20K, IIT-AFF, CAD y UMD. Además, los resultados experimentales demuestran que nuestro método tiene una notable escalabilidad de dominio para imágenes / ilustraciones sintetizadas y es capaz de realizar el anclaje de affordance para interacciones y objetos novedosos.
La música es una parte integral de la cultura humana, encarnando la inteligencia y creatividad humanas, de las cuales las canciones componen una parte esencial. Aunque varios aspectos de la generación de canciones han sido explorados por trabajos anteriores, como la voz cantada, la composición vocal y el arreglo instrumental, generar canciones con tanto voz como acompañamiento dados los letras sigue siendo un desafío significativo, obstaculizando la aplicación de modelos de generación musical en el mundo real. En este sentido, proponemos SongCreator, un sistema de generación de canciones diseñado para abordar este desafío. El modelo presenta dos diseños novedosos: un modelo de lenguaje de doble secuencia (DSLM) meticulosamente diseñado para capturar la información de la voz y el acompañamiento para la generación de canciones, y una estrategia adicional de máscara de atención para DSLM, que permite a nuestro modelo comprender, generar y editar canciones, haciéndolo adecuado para diversas tareas de generación relacionadas con canciones. Experimentos extensos demuestran la efectividad de SongCreator al lograr un rendimiento de vanguardia o competitivo en las ocho tareas. Destacadamente, supera ampliamente los trabajos anteriores en letras-a-canción y letras-a-voz. Además, es capaz de controlar de forma independiente las condiciones acústicas de la voz y el acompañamiento en la canción generada a través de diferentes indicaciones, mostrando su aplicabilidad potencial. Nuestras muestras están disponibles en https://songcreator.github.io/.
Foley es un término comúnmente utilizado en la producción cinematográfica, que se refiere a la adición de efectos de sonido diarios a películas mudas o videos para mejorar la experiencia auditiva. Video-to-Audio (V2A), como un tipo particular de tarea automática de foley, presenta desafíos inherentes relacionados con la sincronización audiovisual. Estos desafíos abarcan mantener la consistencia del contenido entre el video de entrada y el audio generado, así como la alineación de las propiedades temporales y de volumen dentro del video. Para abordar estos problemas, construimos un modelo de síntesis de video a audio controlable, denominado Draw an Audio, que admite múltiples instrucciones de entrada a través de máscaras dibujadas y señales de volumen. Para garantizar la consistencia del contenido entre el audio sintetizado y el video objetivo, introducimos el Módulo de Atención de Máscara (MAM), que emplea instrucciones de video enmascaradas para permitir que el modelo se enfoque en regiones de interés. Además, implementamos el Módulo de Tiempo-Volumen (TLM), que utiliza una señal de volumen auxiliar para garantizar la síntesis de sonido que se alinea con el video en dimensiones tanto de volumen como temporales. Además, hemos ampliado un conjunto de datos V2A a gran escala, denominado VGGSound-Caption, mediante la anotación de indicaciones de subtítulos. Experimentos extensos en desafiantes referencias a través de dos conjuntos de datos V2A a gran escala verifican que Draw an Audio logra el estado del arte. Página del proyecto: https://yannqi.github.io/Draw-an-Audio/.
En los últimos años, el desarrollo de modelos de difusión ha conducido a avances significativos en tareas de generación de imágenes y videos, con modelos pre-entrenados como la serie Stable Diffusion desempeñando un papel crucial. Inspirados en la poda de modelos que aligera modelos pre-entrenados grandes al eliminar parámetros no importantes, proponemos un novedoso método de ajuste fino de modelos para aprovechar al máximo estos parámetros ineficaces y habilitar al modelo pre-entrenado con nuevas capacidades especificadas para una tarea. En este trabajo, investigamos primero la importancia de los parámetros en los modelos de difusión pre-entrenados, y descubrimos que el 10% al 20% más pequeño de los parámetros por valores absolutos no contribuyen al proceso de generación. Basándonos en esta observación, proponemos un método denominado SaRA que reutiliza estos parámetros temporalmente ineficaces, optimizando una matriz de pesos dispersos para aprender el conocimiento específico de la tarea. Para mitigar el sobreajuste, proponemos un esquema de entrenamiento disperso de rango bajo basado en la norma nuclear para un ajuste fino eficiente. Además, diseñamos una nueva estrategia de ajuste progresivo de parámetros para aprovechar al máximo los parámetros re-entrenados/ajustados finamente. Finalmente, proponemos una novedosa estrategia de retropropagación no estructurada, que reduce significativamente los costos de memoria durante el ajuste fino. Nuestro método mejora las capacidades generativas de los modelos pre-entrenados en aplicaciones posteriores y supera a métodos tradicionales de ajuste fino como LoRA en mantener la capacidad de generalización del modelo. Validamos nuestro enfoque a través de experimentos de ajuste fino en modelos SD, demostrando mejoras significativas. SaRA también ofrece una ventaja práctica que requiere solo una modificación de una línea de código para una implementación eficiente y es compatible de manera transparente con métodos existentes.
Los Campos de Radiancia Neurales (NeRFs) han revolucionado la reconstrucción de escenas y objetos estáticos en 3D, ofreciendo una calidad sin precedentes. Sin embargo, extender los NeRFs para modelar objetos dinámicos o articulaciones de objetos sigue siendo un problema desafiante. Trabajos previos han abordado este problema centrándose en la reconstrucción a nivel de partes y la estimación de movimiento para objetos, pero a menudo se basan en heurísticas respecto al número de partes móviles o categorías de objetos, lo que puede limitar su uso práctico. En este trabajo, presentamos LEIA, un enfoque novedoso para representar objetos dinámicos en 3D. Nuestro método implica observar el objeto en distintos pasos de tiempo o "estados" y condicionar una hiperrred en el estado actual, utilizando esto para parametrizar nuestro NeRF. Este enfoque nos permite aprender una representación latente invariante a la vista para cada estado. Además, demostramos que al interpolar entre estos estados, podemos generar nuevas configuraciones de articulación en el espacio 3D que no se habían visto previamente. Nuestros resultados experimentales resaltan la efectividad de nuestro método en articular objetos de una manera independiente del ángulo de visión y la configuración de las articulaciones. Notablemente, nuestro enfoque supera a métodos previos que se basan en información de movimiento para el registro de articulaciones.