Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Drivable 3D Gaussian Avatars (D3GA), el primer modelo 3D controlable para cuerpos humanos renderizado con splats gaussianos. Los avatares fotorealistas controlables actuales requieren ya sea registros 3D precisos durante el entrenamiento, imágenes de entrada densas durante las pruebas, o ambos. Aquellos basados en campos de radiancia neural también tienden a ser prohibitivamente lentos para aplicaciones de telepresencia. Este trabajo utiliza la técnica recientemente presentada de 3D Gaussian Splatting (3DGS) para renderizar humanos realistas a velocidades de fotogramas en tiempo real, utilizando videos multivista calibrados y densos como entrada. Para deformar esos primitivos, nos apartamos del método comúnmente utilizado de deformación de puntos mediante skinning por mezcla lineal (LBS) y empleamos un método clásico de deformación volumétrica: deformaciones mediante jaulas. Dado su menor tamaño, impulsamos estas deformaciones con ángulos articulares y puntos clave, que son más adecuados para aplicaciones de comunicación. Nuestros experimentos en nueve sujetos con diversas formas corporales, ropa y movimientos obtienen resultados de mayor calidad que los métodos más avanzados cuando se utilizan los mismos datos de entrenamiento y prueba.
Presentamos un enfoque para generar una vista de 360 grados de una persona con una apariencia consistente y de alta resolución a partir de una única imagen de entrada. NeRF y sus variantes suelen requerir videos o imágenes desde diferentes puntos de vista. La mayoría de los enfoques existentes que utilizan entradas monoculares dependen de escaneos 3D de referencia para supervisión o carecen de consistencia 3D. Si bien los modelos generativos 3D recientes muestran potencial para la digitalización humana con consistencia 3D, estos enfoques no generalizan bien a diversas apariencias de ropa, y los resultados carecen de fotorrealismo. A diferencia del trabajo existente, utilizamos modelos de difusión 2D de alta capacidad preentrenados para tareas generales de síntesis de imágenes como un prior de apariencia para humanos vestidos. Para lograr una mejor consistencia 3D mientras se conserva la identidad de la entrada, sintetizamos progresivamente múltiples vistas del humano en la imagen de entrada mediante la reconstrucción de regiones faltantes con difusión guiada por la forma, condicionada en la silueta y la normal de la superficie. Luego, fusionamos estas imágenes sintetizadas de múltiples vistas mediante renderizado inverso para obtener una malla 3D completamente texturizada y de alta resolución de la persona dada. Los experimentos muestran que nuestro enfoque supera a los métodos anteriores y logra una síntesis fotorrealista de 360 grados de una amplia gama de humanos vestidos con texturas complejas a partir de una sola imagen.
Proponemos DMV3D, un novedoso enfoque de generación 3D que utiliza un modelo de reconstrucción 3D a gran escala basado en transformadores para eliminar el ruido en la difusión multi-vista. Nuestro modelo de reconstrucción incorpora una representación NeRF en triplano y puede eliminar el ruido de imágenes multi-vista mediante la reconstrucción y renderización NeRF, logrando una generación 3D en una sola etapa en aproximadamente 30 segundos en una única GPU A100. Entrenamos DMV3D en conjuntos de datos de imágenes multi-vista a gran escala de objetos altamente diversos utilizando únicamente pérdidas de reconstrucción de imágenes, sin acceso a activos 3D. Demostramos resultados de vanguardia en el problema de reconstrucción a partir de una sola imagen, donde se requiere un modelado probabilístico de partes no vistas del objeto para generar reconstrucciones diversas con texturas nítidas. También mostramos resultados de alta calidad en la generación de texto a 3D, superando a modelos de difusión 3D anteriores. Nuestro sitio web del proyecto se encuentra en: https://justimyhxu.github.io/projects/dmv3d/.
Los modelos de difusión de audio pueden sintetizar una amplia variedad de sonidos. Los modelos existentes suelen operar en el dominio latente con módulos en cascada para la recuperación de fase, con el fin de reconstruir la forma de onda. Esto plantea desafíos al generar audio de alta fidelidad. En este artículo, proponemos EDMSound, un modelo generativo basado en difusión en el dominio del espectrograma bajo el marco de los modelos de difusión elucidados (EDM, por sus siglas en inglés). Combinado con un muestreador determinista eficiente, logramos un puntaje similar en la distancia de audio de Fréchet (FAD) al de los mejores modelos de referencia con solo 10 pasos, y alcanzamos un rendimiento de vanguardia con 50 pasos en el benchmark de generación de sonido foley de DCASE2023. También revelamos una preocupación potencial respecto a los modelos de generación de audio basados en difusión: tienden a generar muestras con una alta similitud perceptual con los datos de entrenamiento. Página del proyecto: https://agentcooper2002.github.io/EDMSound/
Los juegos de rol basados en diálogo (RPGs) requieren narrativas poderosas. Las historias de estos juegos pueden tardar años en escribirse y generalmente involucran a un amplio equipo creativo. En este trabajo, demostramos el potencial de los modelos generativos de texto a gran escala para asistir en este proceso. GRIM, un prototipo de sistema de visualización interactiva de narrativas basado en grafos para juegos, genera un grafo narrativo rico con líneas argumentales ramificadas que se ajustan a una descripción narrativa de alto nivel y a las restricciones proporcionadas por el diseñador. Los diseñadores de juegos pueden editar el grafo de manera interactiva, generando automáticamente nuevos subgrafos que encajan con las modificaciones dentro de la narrativa original y sus restricciones. Ilustramos el uso de GRIM en conjunto con GPT-4, generando narrativas ramificadas para cuatro historias bien conocidas con diferentes restricciones contextuales.
El potencial complementario de los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) asume que los LLM disponibles tienen experiencia heterogénea en una amplia gama de dominios y tareas, de modo que un conjunto de LLM puede lograr un rendimiento consistentemente mejor. Los métodos de ensamblaje existentes para LLM se centran principalmente en la clasificación de salidas mediante modelos de recompensa, lo que genera un sobrecarga computacional significativa. Para abordar este problema, revisamos el potencial complementario de los LLM y lo elaboramos aún más mediante la extracción de experiencia latente utilizando modelos de recompensa disponibles. Proponemos Zooter, un método de enrutamiento guiado por recompensas que destila las recompensas en consultas de entrenamiento para entrenar una función de enrutamiento, la cual puede distribuir con precisión cada consulta al LLM con experiencia en ese tema. También integramos una mejora de etiquetas basada en tags para mitigar el ruido causado por la incertidumbre al utilizar las recompensas como supervisión plateada. Zooter demuestra eficiencia computacional en la inferencia, ya que introduce solo una sobrecarga computacional menor de una función de enrutamiento en comparación con los métodos de clasificación basados en modelos de recompensa. Evaluamos Zooter en una colección integral de benchmarks con 26 subconjuntos en diferentes dominios y tareas. Zooter supera al mejor modelo individual en promedio y ocupa el primer lugar en el 44% de las tareas, incluso superando a múltiples métodos de clasificación basados en modelos de recompensa.
Las tecnologías del lenguaje que modelan con precisión la dinámica de los eventos deben realizar razonamiento de sentido común. Los trabajos existentes que evalúan el razonamiento de sentido común se centran en hacer inferencias sobre situaciones cotidianas y comunes. Para investigar, en cambio, la capacidad de modelar situaciones inusuales, inesperadas e improbables, exploramos la tarea de razonamiento abductivo de no-sentido común. Dado un contexto con un resultado inesperado, esta tarea requiere razonar de manera abductiva para generar una explicación en lenguaje natural que haga más probable el resultado inesperado en dicho contexto. Con este fin, recopilamos y publicamos un nuevo corpus en inglés llamado UNcommonsense. Caracterizamos las diferencias entre el desempeño de explicadores humanos y los mejores modelos de lenguaje de gran escala, encontrando que las explicaciones escritas por humanos mejoradas por modelos logran la mayor calidad al equilibrar especificidad y diversidad. Finalmente, experimentamos con varios algoritmos de aprendizaje por imitación en línea para entrenar modelos de lenguaje abiertos y accesibles en esta tarea. En comparación con el enfoque de ajuste fino supervisado convencional, estos métodos reducen consistentemente las tasas de pérdida tanto en el razonamiento abductivo común como en el de no-sentido común, según la evaluación de jueces humanos.
El ajuste eficiente de parámetros ha sido un enfoque destacado para adaptar los modelos de lenguaje de gran escala a tareas específicas. La mayoría de los trabajos anteriores consideran agregar parámetros entrenables densos, donde todos los parámetros se utilizan para adaptarse a una tarea determinada. Empíricamente, encontramos que esto es menos efectivo utilizando el ejemplo de LoRA, donde introducir más parámetros entrenables no resulta útil. Motivados por esto, investigamos la importancia de aprovechar el cómputo "disperso" y proponemos SiRA: una mezcla dispersa de adaptación de bajo rango. SiRA aprovecha la Mezcla Dispersa de Expertos (SMoE) para mejorar el rendimiento de LoRA. Específicamente, aplica un enrutamiento de los k expertos principales con un límite de capacidad que restringe el número máximo de tokens que cada experto puede procesar. Proponemos un novedoso y simple descarte de expertos sobre la red de compuertas para reducir el problema de sobreajuste. A través de extensos experimentos, verificamos que SiRA supera a LoRA y otros enfoques de mezcla de expertos en diferentes configuraciones de tareas únicas y multitarea.
Los potentes modelos de lenguaje de gran escala han facilitado el desarrollo de asistentes de escritura que prometen mejorar significativamente la calidad y eficiencia de la composición y comunicación. Sin embargo, un obstáculo para una asistencia efectiva es la falta de personalización en las salidas de los LLM para adaptarse al estilo de comunicación y al conocimiento especializado del autor. En este artículo, abordamos este desafío proponiendo PEARL, un asistente de escritura basado en LLM aumentado con recuperación y personalizado mediante un recuperador calibrado para generación. Nuestro recuperador está entrenado para seleccionar documentos históricos escritos por el usuario y aumentar las indicaciones, de modo que sea más probable que personalicen las generaciones del LLM para una solicitud del usuario. Proponemos dos novedades clave para entrenar nuestro recuperador: 1) Un método de selección de datos de entrenamiento que identifica solicitudes de usuario que probablemente se beneficien de la personalización y documentos que proporcionan ese beneficio; y 2) Un objetivo de divergencia KL con calibración de escala que asegura que nuestro recuperador siga de cerca el beneficio de un documento para la generación personalizada. Demostramos la efectividad de PEARL en la generación de publicaciones personalizadas en redes sociales laborales y comentarios en Reddit. Finalmente, mostramos el potencial de un recuperador calibrado para generación para funcionar también como predictor de rendimiento y mejorar aún más las generaciones de baja calidad mediante encadenamiento de LLM.
Los recientes avances en los modelos de lenguaje grande basados en Transformers han logrado grandes progresos en la generación de lenguaje natural. Sin embargo, para decodificar K tokens, un modelo autoregresivo necesita K pasos hacia adelante secuenciales, lo que puede representar un cuello de botella en el rendimiento para los modelos de lenguaje grande. Muchas investigaciones sobre modelos no autoregresivos (NAR) buscan abordar este cuello de botella de secuencialidad, aunque muchas se han centrado en arquitecturas dedicadas en benchmarks supervisados. En este trabajo, estudiamos el preentrenamiento no supervisado para modelos T5 no autoregresivos mediante desenrollado de denoising y demostramos sus resultados de vanguardia en tareas de generación posteriores, como la generación de preguntas en SQuAD y XSum.
Para mantener la confianza del usuario, los modelos de lenguaje de gran escala (LLMs) deberían indicar baja confianza en los ejemplos donde son incorrectos, en lugar de engañar al usuario. El enfoque estándar para estimar la confianza es utilizar las probabilidades softmax de estos modelos, pero, a noviembre de 2023, los LLMs de vanguardia como GPT-4 y Claude-v1.3 no proporcionan acceso a estas probabilidades. Primero estudiamos la elicitación de confianza de manera lingüística —preguntando a un LLM por su confianza en su respuesta—, lo cual funciona razonablemente bien (80.5% de AUC en GPT-4 promediado en 12 conjuntos de datos de preguntas y respuestas —7% por encima de una línea base aleatoria—), pero deja margen de mejora. Luego exploramos el uso de un modelo de confianza sustituto —utilizando un modelo del cual sí tenemos probabilidades para evaluar la confianza del modelo original en una pregunta dada. Sorprendentemente, aunque estas probabilidades provienen de un modelo diferente y a menudo más débil, este método conduce a un AUC más alto que las confianzas lingüísticas en 9 de los 12 conjuntos de datos. Nuestro mejor método, que combina confianzas lingüísticas y probabilidades del modelo sustituto, proporciona estimaciones de confianza de vanguardia en los 12 conjuntos de datos (84.6% de AUC promedio en GPT-4).
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han marcado el inicio de una era transformadora en el campo del procesamiento del lenguaje natural, destacándose en tareas relacionadas con la comprensión y generación de texto. Sin embargo, enfrentan dificultades cuando se encuentran con contextos caóticos (por ejemplo, distractores en lugar de contextos irrelevantes extensos), lo que lleva a la omisión involuntaria de ciertos detalles dentro de dicho contexto caótico. Para abordar estos desafíos, presentamos la estrategia "Hilo de Pensamiento" (ThoT, por sus siglas en inglés), que se inspira en los procesos cognitivos humanos. ThoT segmenta y analiza sistemáticamente contextos extensos mientras selecciona hábilmente la información relevante. Esta estrategia funciona como un módulo versátil "plug-and-play", integrándose sin problemas con diversos LLMs y técnicas de prompting. En los experimentos, utilizamos los conjuntos de datos PopQA y EntityQ, así como un conjunto de datos de Respuestas en Conversaciones de Múltiples Turnos (MTCR) que recopilamos, para demostrar que ThoT mejora significativamente el rendimiento del razonamiento en comparación con otras técnicas de prompting.
Evaluar los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) es una tarea compleja, especialmente considerando las complejidades de la comprensión del lenguaje natural y las expectativas de razonamiento de alto nivel. Las evaluaciones tradicionales suelen basarse en paradigmas centrados en humanos, en modelos o en métricas automáticas, cada uno con sus propias ventajas y limitaciones. Presentamos "Fusion-Eval", un sistema que emplea LLMs no solo para evaluaciones directas, sino para integrar de manera hábil las perspectivas de diversos evaluadores. Esto otorga a Fusion-Eval flexibilidad, permitiéndole funcionar de manera efectiva en diversas tareas y aprovechar óptimamente múltiples referencias. En pruebas realizadas con el conjunto de datos SummEval, Fusion-Eval logró una correlación de Spearman de 0.96, superando a otros evaluadores. El éxito de Fusion-Eval subraya el potencial de los LLMs para producir evaluaciones que se alinean estrechamente con las perspectivas humanas, estableciendo un nuevo estándar en el campo de la evaluación de LLMs.