Artículos de investigación en IA seleccionados diariamente con traducciones
La generación de música ha atraído un interés creciente con el avance de los modelos generativos profundos. Sin embargo, generar música condicionada por descripciones textuales, conocido como texto-a-música, sigue siendo un desafío debido a la complejidad de las estructuras musicales y los altos requisitos de tasa de muestreo. A pesar de la importancia de esta tarea, los modelos generativos predominantes muestran limitaciones en la calidad de la música, la eficiencia computacional y la generalización. Este artículo presenta JEN-1, un modelo universal de alta fidelidad para la generación de texto-a-música. JEN-1 es un modelo de difusión que incorpora entrenamiento tanto autorregresivo como no autorregresivo. A través del aprendizaje en contexto, JEN-1 realiza diversas tareas de generación, incluyendo la generación de música guiada por texto, la restauración de música y la continuación. Las evaluaciones demuestran que JEN-1 supera a los métodos más avanzados en la alineación texto-música y la calidad de la música, manteniendo la eficiencia computacional. Nuestras demostraciones están disponibles en http://futureverse.com/research/jen/demos/jen1.
A medida que los modelos de lenguaje grandes mejoran, existe un creciente interés en técnicas que aprovechen las capacidades de estos modelos para refinar sus propias salidas. En este trabajo, presentamos Shepherd, un modelo de lenguaje específicamente ajustado para criticar respuestas y sugerir refinamientos, yendo más allá de las capacidades de un modelo no ajustado para identificar errores diversos y proporcionar sugerencias para remediarlos. En el núcleo de nuestro enfoque se encuentra un conjunto de datos de retroalimentación de alta calidad, que hemos seleccionado a partir de comentarios de la comunidad y anotaciones humanas. Aunque Shepherd es pequeño (7B parámetros), sus críticas son equivalentes o preferidas en comparación con las de modelos establecidos como ChatGPT. Utilizando GPT-4 para la evaluación, Shepherd alcanza una tasa promedio de preferencia del 53-87% frente a alternativas competitivas. En evaluaciones humanas, Shepherd supera estrictamente a otros modelos y, en promedio, se equipara estrechamente con ChatGPT.
Los avances recientes con los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) ilustran sus diversas capacidades. Proponemos un algoritmo novedoso, el decodificado especulativo por etapas, para acelerar la inferencia de LLM en escenarios de pequeños lotes y en dispositivos locales. Abordamos la baja intensidad aritmética de la inferencia en pequeños lotes mejorando trabajos previos en decodificado especulativo. Primero, reestructuramos el lote especulativo como un árbol, lo que reduce los costos de generación y aumenta el número esperado de tokens por lote. Segundo, añadimos una segunda etapa de decodificado especulativo. En conjunto, reducimos la latencia de decodificación de un solo lote en 3.16x con un modelo GPT-2-L de 762 millones de parámetros, preservando perfectamente la calidad de la salida.
Los falsos negativos (FN) en la detección de objetos 3D, {\em por ejemplo}, predicciones fallidas de peatones, vehículos u otros obstáculos, pueden llevar a situaciones potencialmente peligrosas en la conducción autónoma. Aunque este problema es crítico, está poco estudiado en muchos de los métodos actuales de detección 3D. En este trabajo, proponemos Hard Instance Probing (HIP), una pipeline general que identifica FN de manera multi-etapa y guía a los modelos a enfocarse en descubrir instancias difíciles. Para la detección de objetos 3D, implementamos este método como FocalFormer3D, un detector simple pero efectivo que sobresale en la identificación de objetos complejos y mejora el recall de las predicciones. FocalFormer3D incluye una generación de consultas multi-etapa para descubrir objetos difíciles y un decodificador transformer a nivel de caja para distinguir eficientemente objetos entre un gran número de candidatos. Los resultados experimentales en los conjuntos de datos nuScenes y Waymo validan el rendimiento superior de FocalFormer3D. Esta ventaja se traduce en un fuerte desempeño tanto en detección como en seguimiento, tanto en configuraciones LiDAR como multi-modales. Destacablemente, FocalFormer3D alcanza un 70.5 mAP y 73.9 NDS en el benchmark de detección de nuScenes, mientras que el benchmark de seguimiento de nuScenes muestra un 72.1 AMOTA, ocupando ambos el primer lugar en la tabla de clasificación LiDAR de nuScenes. Nuestro código está disponible en https://github.com/NVlabs/FocalFormer3D.