Artículos de investigación en IA seleccionados diariamente con traducciones
A pesar de sus capacidades notables, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) a menudo producen respuestas que contienen inexactitudes factuales debido a su dependencia exclusiva del conocimiento paramétrico que encapsulan. La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés), un enfoque ad hoc que aumenta los modelos de lenguaje con la recuperación de conocimiento relevante, reduce estos problemas. Sin embargo, recuperar e incorporar indiscriminadamente un número fijo de pasajes, independientemente de si la recuperación es necesaria o si los pasajes son relevantes, disminuye la versatilidad del modelo de lenguaje o puede llevar a la generación de respuestas poco útiles. Introducimos un nuevo marco llamado Generación Aumentada por Recuperación con Autorreflexión (Self-RAG, por sus siglas en inglés) que mejora la calidad y la factualidad de un modelo de lenguaje mediante la recuperación y la autorreflexión. Nuestro marco entrena un único modelo de lenguaje arbitrario que recupera pasajes de manera adaptativa según la demanda, y genera y reflexiona sobre los pasajes recuperados y sus propias generaciones utilizando tokens especiales, llamados tokens de reflexión. La generación de tokens de reflexión hace que el modelo de lenguaje sea controlable durante la fase de inferencia, permitiéndole adaptar su comportamiento a diversos requisitos de tareas. Los experimentos muestran que Self-RAG (con 7B y 13B parámetros) supera significativamente a los modelos de lenguaje de última generación y a los modelos aumentados por recuperación en un conjunto diverso de tareas. Específicamente, Self-RAG supera a ChatGPT y a Llama2-chat aumentado por recuperación en tareas de preguntas y respuestas de dominio abierto, razonamiento y verificación de hechos, y muestra mejoras significativas en la factualidad y la precisión de las citas para generaciones de texto largo en comparación con estos modelos.
El procesamiento de música potenciado por IA es un campo diverso que abarca docenas de tareas, desde tareas de generación (por ejemplo, síntesis de timbre) hasta tareas de comprensión (por ejemplo, clasificación de música). Para desarrolladores y aficionados, es muy difícil dominar todas estas tareas para satisfacer sus necesidades en el procesamiento de música, especialmente considerando las enormes diferencias en las representaciones de los datos musicales y la aplicabilidad de los modelos entre plataformas en diversas tareas. En consecuencia, es necesario construir un sistema para organizar e integrar estas tareas, y así ayudar a los profesionales a analizar automáticamente sus demandas y llamar a las herramientas adecuadas como soluciones para cumplir con sus requisitos. Inspirados por el reciente éxito de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) en la automatización de tareas, desarrollamos un sistema, llamado MusicAgent, que integra numerosas herramientas relacionadas con la música y un flujo de trabajo autónomo para abordar las necesidades de los usuarios. Más específicamente, construimos 1) un conjunto de herramientas que recopila herramientas de diversas fuentes, incluyendo Hugging Face, GitHub y API web, entre otras. 2) un flujo de trabajo autónomo potenciado por LLMs (por ejemplo, ChatGPT) para organizar estas herramientas y descomponer automáticamente las solicitudes de los usuarios en múltiples subtareas e invocar las herramientas musicales correspondientes. El objetivo principal de este sistema es liberar a los usuarios de las complejidades de las herramientas de IA musical, permitiéndoles concentrarse en el aspecto creativo. Al otorgar a los usuarios la libertad de combinar herramientas sin esfuerzo, el sistema ofrece una experiencia musical fluida y enriquecedora.
Los métodos recientes de generación de texto a 3D logran una capacidad impresionante para la creación de contenido 3D gracias a los avances en los modelos de difusión de imágenes y las estrategias de optimización. Sin embargo, los métodos actuales tienen dificultades para generar contenido 3D correcto para un mensaje complejo en términos semánticos, es decir, un mensaje que describe múltiples objetos interactuando con diferentes atributos. En este trabajo, proponemos un marco general denominado Progressive3D, que descompone la generación completa en una serie de pasos de edición localmente progresivos para crear contenido 3D preciso para mensajes complejos, y restringimos el cambio de contenido a ocurrir solo en regiones determinadas por mensajes de región definidos por el usuario en cada paso de edición. Además, proponemos una técnica de supresión de componentes semánticos superpuestos para fomentar que el proceso de optimización se enfoque más en las diferencias semánticas entre los mensajes. Experimentos extensivos demuestran que el marco Progressive3D propuesto genera contenido 3D preciso para mensajes con semántica compleja y es generalizable para diversos métodos de texto a 3D impulsados por diferentes representaciones 3D.