Artículos de investigación en IA seleccionados diariamente con traducciones
En la búsqueda de una creación automatizada y eficiente de contenido, la generación procedural, que aprovecha parámetros modificables y sistemas basados en reglas, surge como un enfoque prometedor. Sin embargo, puede ser una tarea exigente, dada su naturaleza intrincada que requiere un profundo entendimiento de reglas, algoritmos y parámetros. Para reducir la carga de trabajo, presentamos 3D-GPT, un marco que utiliza modelos de lenguaje grandes (LLMs, por sus siglas en inglés) para el modelado 3D guiado por instrucciones. 3D-GPT posiciona a los LLMs como solucionadores de problemas competentes, desglosando las tareas de modelado 3D procedural en segmentos accesibles y asignando el agente adecuado para cada tarea. 3D-GPT integra tres agentes principales: el agente de despacho de tareas, el agente de conceptualización y el agente de modelado. Estos colaboran para lograr dos objetivos. Primero, mejora las descripciones iniciales concisas de las escenas, evolucionándolas hacia formas detalladas mientras adapta dinámicamente el texto basado en instrucciones posteriores. Segundo, integra la generación procedural, extrayendo valores de parámetros del texto enriquecido para interactuar sin esfuerzo con software 3D en la creación de activos. Nuestras investigaciones empíricas confirman que 3D-GPT no solo interpreta y ejecuta instrucciones, entregando resultados confiables, sino que también colabora efectivamente con diseñadores humanos. Además, se integra perfectamente con Blender, desbloqueando posibilidades expandidas de manipulación. Nuestro trabajo destaca el potencial de los LLMs en el modelado 3D, ofreciendo un marco básico para futuros avances en la generación de escenas y animación.
Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) de código abierto con un rendimiento destacado en diversas tareas han impulsado significativamente el desarrollo de los LLMs. Sin embargo, son muy inferiores a modelos comerciales como ChatGPT y GPT-4 cuando actúan como agentes para abordar tareas complejas en el mundo real. Estas tareas de agente utilizan los LLMs como controladores centrales responsables de la planificación, la memorización y la utilización de herramientas, lo que requiere tanto métodos de indicación detallados como LLMs robustos para lograr un rendimiento satisfactorio. Aunque se han propuesto muchos métodos de indicación para completar tareas de agente específicas, falta investigación centrada en mejorar las capacidades de agente de los LLMs sin comprometer sus habilidades generales. En este trabajo, presentamos AgentTuning, un método simple y general para mejorar las habilidades de agente de los LLMs mientras se mantienen sus capacidades generales como LLM. Construimos AgentInstruct, un conjunto de datos ligero para ajuste por instrucciones que contiene trayectorias de interacción de alta calidad. Empleamos una estrategia híbrida de ajuste por instrucciones combinando AgentInstruct con instrucciones de código abierto de dominios generales. AgentTuning se utiliza para ajustar por instrucciones la serie Llama 2, dando como resultado AgentLM. Nuestras evaluaciones muestran que AgentTuning permite las capacidades de agente de los LLMs sin comprometer sus habilidades generales. El AgentLM-70B es comparable a GPT-3.5-turbo en tareas de agente no vistas, demostrando capacidades de agente generalizadas. Hemos liberado el código de AgentInstruct y los modelos AgentLM-7B, 13B y 70B en https://github.com/THUDM/AgentTuning, ofreciendo alternativas abiertas y potentes a los LLMs comerciales para tareas de agente.
Con el desarrollo de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), lograr un equilibrio entre el rendimiento y la seguridad de los sistemas de IA nunca ha sido más crucial. Sin embargo, la tensión inherente entre los objetivos de utilidad y seguridad representa un desafío significativo durante el entrenamiento de los LLMs. Para abordar este problema, proponemos el Aprendizaje por Refuerzo Seguro a partir de Retroalimentación Humana (Safe RLHF, por sus siglas en inglés), un algoritmo novedoso para la alineación de valores humanos. Safe RLHF desacopla explícitamente las preferencias humanas en cuanto a utilidad y seguridad, evitando eficazmente la confusión de los trabajadores sobre esta tensión y permitiéndonos entrenar modelos de recompensa y costo por separado. Formalizamos la preocupación por la seguridad de los LLMs como una tarea de optimización que maximiza la función de recompensa mientras satisface restricciones de costo específicas. Al aprovechar el método Lagrangiano para resolver este problema restringido, Safe RLHF ajusta dinámicamente el equilibrio entre los dos objetivos durante el ajuste fino. Mediante un ajuste fino en tres rondas utilizando Safe RLHF, demostramos una capacidad superior para mitigar respuestas dañinas mientras mejoramos el rendimiento del modelo en comparación con los algoritmos existentes de alineación de valores. Experimentalmente, ajustamos el modelo Alpaca-7B utilizando Safe RLHF y lo alineamos con las preferencias humanas recopiladas, mejorando significativamente su utilidad y seguridad según las evaluaciones humanas.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han destacado como planificadores semánticos de alto nivel para tareas de toma de decisiones secuenciales. Sin embargo, aprovecharlos para aprender tareas complejas de manipulación de bajo nivel, como hacer girar un bolígrafo con destreza, sigue siendo un problema abierto. Cerramos esta brecha fundamental y presentamos Eureka, un algoritmo de diseño de recompensas a nivel humano impulsado por LLMs. Eureka aprovecha las capacidades notables de generación en cero-shot, escritura de código y mejora en contexto de los LLMs más avanzados, como GPT-4, para realizar optimización evolutiva sobre el código de recompensas. Las recompensas resultantes pueden luego utilizarse para adquirir habilidades complejas mediante aprendizaje por refuerzo. Sin indicaciones específicas de tareas ni plantillas de recompensas predefinidas, Eureka genera funciones de recompensa que superan a las diseñadas por expertos humanos. En un conjunto diverso de 29 entornos de aprendizaje por refuerzo de código abierto que incluyen 10 morfologías de robots distintas, Eureka supera a los expertos humanos en el 83% de las tareas, logrando una mejora normalizada promedio del 52%. La generalidad de Eureka también permite un nuevo enfoque de aprendizaje en contexto sin gradientes para el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés), incorporando fácilmente entradas humanas para mejorar la calidad y la seguridad de las recompensas generadas sin necesidad de actualizar el modelo. Finalmente, utilizando recompensas de Eureka en un entorno de aprendizaje curricular, demostramos por primera vez una mano simulada Shadow Hand capaz de realizar trucos de giro de bolígrafo, manipulando hábilmente un bolígrafo en círculos a gran velocidad.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) requiere especificar manualmente una función de recompensa, lo cual a menudo no es factible, o aprender un modelo de recompensa a partir de una gran cantidad de retroalimentación humana, lo cual suele ser muy costoso. Estudiamos una alternativa más eficiente en términos de muestras: utilizar modelos preentrenados de visión y lenguaje (VLMs, por sus siglas en inglés) como modelos de recompensa de cero disparos (RMs, por sus siglas en inglés) para especificar tareas mediante lenguaje natural. Proponemos un enfoque natural y general para usar VLMs como modelos de recompensa, al que llamamos VLM-RMs. Utilizamos VLM-RMs basados en CLIP para entrenar un humanoide en MuJoCo para aprender tareas complejas sin una función de recompensa especificada manualmente, como arrodillarse, hacer el splits y sentarse en posición de loto. Para cada una de estas tareas, solo proporcionamos una única frase de texto que describe la tarea deseada con una ingeniería de prompts mínima. Proporcionamos videos de los agentes entrenados en: https://sites.google.com/view/vlm-rm. Podemos mejorar el rendimiento proporcionando un segundo prompt de "línea base" y proyectando partes del espacio de incrustación de CLIP irrelevantes para distinguir entre el objetivo y la línea base. Además, encontramos un fuerte efecto de escalabilidad para los VLM-RMs: los VLMs más grandes entrenados con más recursos computacionales y datos son mejores modelos de recompensa. Los modos de fallo de los VLM-RMs que encontramos están relacionados con limitaciones conocidas de los VLMs actuales, como la capacidad limitada de razonamiento espacial o entornos visualmente poco realistas que están muy fuera de distribución para el VLM. Encontramos que los VLM-RMs son notablemente robustos siempre que el VLM sea lo suficientemente grande. Esto sugiere que los VLMs futuros serán cada vez más útiles como modelos de recompensa para una amplia gama de aplicaciones de RL.
La creación de música es un proceso iterativo que requiere métodos variados en cada etapa. Sin embargo, los sistemas de IA musical existentes no logran orquestar múltiples subsistemas para cubrir diversas necesidades. Para abordar esta brecha, presentamos Loop Copilot, un sistema novedoso que permite a los usuarios generar y refinar música de manera iterativa a través de una interfaz de diálogo interactiva y de múltiples rondas. El sistema utiliza un modelo de lenguaje grande para interpretar las intenciones del usuario y seleccionar los modelos de IA adecuados para la ejecución de tareas. Cada modelo en el backend está especializado para una tarea específica, y sus salidas se agregan para satisfacer los requisitos del usuario. Para garantizar la coherencia musical, se mantienen atributos esenciales en una tabla centralizada. Evaluamos la efectividad del sistema propuesto mediante entrevistas semiestructuradas y cuestionarios, destacando su utilidad no solo para facilitar la creación musical, sino también su potencial para aplicaciones más amplias.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) están ahora disponibles en diversos tamaños y configuraciones a través de proveedores de API en la nube. Si bien esta diversidad ofrece un amplio espectro de opciones, aprovechar eficazmente estas alternativas para optimizar el costo computacional y el rendimiento sigue siendo un desafío. En este trabajo, presentamos AutoMix, un enfoque que enruta estratégicamente las consultas a modelos de lenguaje más grandes, basándose en la corrección aproximada de las salidas generadas por un modelo más pequeño. El núcleo de AutoMix es un mecanismo de autoverificación few-shot, que estima la confiabilidad de sus propias salidas sin requerir entrenamiento. Dado que las verificaciones pueden ser ruidosas, empleamos un meta verificador en AutoMix para refinar la precisión de estas evaluaciones. Nuestros experimentos utilizando LLAMA2-13/70B, en cinco conjuntos de datos de razonamiento contextualizado, demuestran que AutoMix supera a los métodos de referencia establecidos, mejorando el beneficio incremental por costo hasta en un 89%. Nuestro código y datos están disponibles en https://github.com/automix-llm/automix.
Los modelos de lenguaje (LM) ampliamente utilizados suelen construirse mediante la ampliación de un pipeline de entrenamiento de dos etapas: una etapa de pre-entrenamiento que utiliza un conjunto de datos de texto muy grande y diverso, y una etapa de ajuste fino (a veces denominada 'alineación') que utiliza ejemplos específicos u otras especificaciones de comportamientos deseados. Aunque se ha hipotetizado que el conocimiento y las habilidades provienen del pre-entrenamiento, y que el ajuste fino principalmente filtra este conocimiento y conjunto de habilidades, esta intuición no ha sido ampliamente probada. Para ayudar en este proceso, introducimos una técnica novedosa para desacoplar el conocimiento y las habilidades adquiridas en estas dos etapas, permitiendo una respuesta directa a la pregunta: "¿Qué pasaría si combináramos el conocimiento aprendido por un modelo grande durante el pre-entrenamiento con el conocimiento aprendido por un modelo pequeño durante el ajuste fino (o viceversa)?" Utilizando un marco basado en RL derivado de desarrollos recientes en el aprendizaje a partir de preferencias humanas, introducimos el ajuste fino emulado (EFT), un método práctico y fundamentado para muestrear a partir de una distribución que aproxima (o 'emula') el resultado del pre-entrenamiento y el ajuste fino a diferentes escalas. Nuestros experimentos con EFT muestran que ampliar el ajuste fino tiende a mejorar la utilidad, mientras que ampliar el pre-entrenamiento tiende a mejorar la factualidad. Más allá de desacoplar la escala, demostramos que EFT permite el ajuste en tiempo de prueba de rasgos conductuales en competencia, como la utilidad y la inocuidad, sin necesidad de entrenamiento adicional. Finalmente, un caso especial de ajuste fino emulado, que denominamos escalado de LM, evita el ajuste fino intensivo en recursos de modelos grandes pre-entrenados al ensamblarlos con modelos pequeños ajustados, esencialmente emulando el resultado de ajustar el modelo grande pre-entrenado. El escalado mejora consistentemente la utilidad y la factualidad de los modelos que siguen instrucciones en las familias Llama, Llama-2 y Falcon, sin necesidad de hiperparámetros o entrenamiento adicional.
Textural Inversion, un método de aprendizaje basado en prompts, aprende una única incrustación para una nueva "palabra" que representa el estilo y la apariencia de una imagen, permitiendo que se integre en oraciones de lenguaje natural para generar imágenes sintetizadas novedosas. Sin embargo, identificar e integrar múltiples conceptos a nivel de objeto dentro de una misma escena presenta desafíos significativos, incluso cuando se pueden obtener incrustaciones para conceptos individuales. Esto se confirma aún más mediante nuestras pruebas empíricas. Para abordar este desafío, presentamos un marco para el Aprendizaje de Prompts Multi-Concepto (MCPL, por sus siglas en inglés), donde múltiples "palabras" nuevas se aprenden simultáneamente a partir de un único par oración-imagen. Para mejorar la precisión de la correlación palabra-concepto, proponemos tres técnicas de regularización: Enmascaramiento de Atención (AttnMask) para concentrar el aprendizaje en áreas relevantes; Pérdida Contrastiva de Prompts (PromptCL) para separar las incrustaciones de diferentes conceptos; y Asociación de Adjetivos (Bind adj.) para vincular nuevas "palabras" con palabras conocidas. Evaluamos mediante generación de imágenes, edición y visualización de atención con imágenes diversas. Comparaciones cuantitativas exhaustivas demuestran que nuestro método puede aprender conceptos más semánticamente desenredados con una correlación palabra-concepto mejorada. Además, presentamos un nuevo conjunto de datos y un protocolo de evaluación diseñados específicamente para esta nueva tarea de aprendizaje de conceptos a nivel de objeto.
La generación de objetos 3D de alta resolución sigue siendo una tarea desafiante, principalmente debido a la disponibilidad limitada de datos de entrenamiento anotados y completos. Los avances recientes han buscado superar esta limitación aprovechando modelos generativos de imágenes, preentrenados en extensos conjuntos de datos web curados, utilizando técnicas de transferencia de conocimiento como el Muestreo de Distilación de Puntajes (SDS). Abordar eficientemente los requisitos de renderizado de alta resolución a menudo requiere la adopción de modelos basados en representaciones latentes, como el Modelo de Difusión Latente (LDM). En este marco, surge un desafío significativo: para calcular gradientes para píxeles individuales de la imagen, es necesario propagar los gradientes desde el espacio latente designado a través de los componentes congelados del modelo de imagen, como el codificador VAE utilizado dentro del LDM. Sin embargo, esta ruta de propagación de gradientes nunca ha sido optimizada, permaneciendo sin control durante el entrenamiento. Descubrimos que los gradientes no regulados afectan negativamente la capacidad del modelo 3D para adquirir información relacionada con la textura del modelo generativo de imágenes, lo que resulta en una síntesis de apariencia de baja calidad. Para abordar este desafío general, proponemos una operación innovadora denominada Recorte de Gradiente por Píxel (PGC), diseñada para integrarse sin problemas en los modelos generativos 3D existentes, mejorando así su calidad de síntesis. Específicamente, controlamos la magnitud de los gradientes estocásticos recortando eficientemente los gradientes por píxel, mientras preservamos las direcciones cruciales de los gradientes relacionados con la textura. A pesar de su simplicidad y costo adicional mínimo, experimentos extensos demuestran la eficacia de nuestro PGC para mejorar el rendimiento de los modelos generativos 3D existentes en la representación de objetos de alta resolución.