Artículos de investigación en IA seleccionados diariamente con traducciones
La edición de imágenes guiada por texto es ampliamente necesaria en la vida diaria, desde el uso personal hasta aplicaciones profesionales como Photoshop. Sin embargo, los métodos existentes son de tipo zero-shot o están entrenados en un conjunto de datos sintetizado automáticamente, el cual contiene un alto volumen de ruido. Por lo tanto, aún requieren mucho ajuste manual para producir resultados deseables en la práctica. Para abordar este problema, presentamos MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), el primer conjunto de datos a gran escala y anotado manualmente para la edición de imágenes reales guiada por instrucciones, que cubre diversos escenarios: edición de un solo paso, de múltiples pasos, con máscara proporcionada y sin máscara. MagicBrush comprende más de 10K tripletes anotados manualmente (imagen fuente, instrucción, imagen objetivo), lo que permite entrenar modelos de edición de imágenes guiada por texto a gran escala. Ajustamos InstructPix2Pix en MagicBrush y demostramos que el nuevo modelo puede producir imágenes mucho mejores según la evaluación humana. Además, realizamos experimentos exhaustivos para evaluar los métodos actuales de edición de imágenes desde múltiples dimensiones, incluyendo evaluaciones cuantitativas, cualitativas y humanas. Los resultados revelan la naturaleza desafiante de nuestro conjunto de datos y la brecha entre los métodos actuales y las necesidades de edición del mundo real.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han revolucionado el Procesamiento del Lenguaje Natural (NLP), pero requieren enormes recursos de GPU para su entrenamiento. Reducir el umbral para el entrenamiento de LLMs fomentaría una mayor participación de los investigadores, beneficiando tanto a la academia como a la sociedad. Si bien los enfoques existentes se han centrado en el ajuste fino eficiente en parámetros, que ajusta o añade un número reducido de parámetros, pocos han abordado el desafío de ajustar todos los parámetros de los LLMs con recursos limitados. En este trabajo, proponemos un nuevo optimizador, LOw-Memory Optimization (LOMO), que fusiona el cálculo del gradiente y la actualización de los parámetros en un solo paso para reducir el uso de memoria. Al integrar LOMO con técnicas existentes de ahorro de memoria, reducimos el uso de memoria al 10.8% en comparación con el enfoque estándar (solución DeepSpeed). Como resultado, nuestro enfoque permite el ajuste fino de todos los parámetros de un modelo de 65B en una sola máquina con 8 RTX 3090, cada una con 24GB de memoria.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado una notable aptitud en la generación de código, pero aún enfrentan dificultades en tareas de programación desafiantes. La autorreparación —en la que el modelo depura y corrige errores en su propio código— se ha convertido recientemente en un enfoque popular para mejorar el rendimiento en estos escenarios. Sin embargo, existen estudios muy limitados en la literatura sobre cómo y cuándo la autorreparación funciona de manera efectiva, y uno podría preguntarse hasta qué punto un modelo es realmente capaz de proporcionar retroalimentación precisa sobre por qué el código está incorrecto cuando ese código fue generado por el mismo modelo. En este artículo, analizamos la capacidad de GPT-3.5 y GPT-4 para realizar autorreparación en APPS, un conjunto de datos desafiante que consiste en diversos problemas de programación. Para ello, primero establecemos una nueva estrategia de evaluación denominada pass@t, que mide la tasa de aprobación de las tareas en relación con el número total de tokens muestreados del modelo, permitiendo una comparación justa con enfoques basados únicamente en muestreo. Con esta estrategia de evaluación, encontramos que la efectividad de la autorreparación solo se observa en GPT-4. También observamos que la autorreparación está limitada por la etapa de retroalimentación; al utilizar GPT-4 para proporcionar retroalimentación sobre los programas generados por GPT-3.5 y al emplear programadores humanos expertos para dar retroalimentación sobre los programas generados por GPT-4, desbloqueamos mejoras significativas en el rendimiento.
Presentamos AvatarBooth, un método novedoso para generar avatares 3D de alta calidad utilizando indicaciones de texto o imágenes específicas. A diferencia de enfoques anteriores que solo pueden sintetizar avatares basados en descripciones de texto simples, nuestro método permite la creación de avatares personalizados a partir de imágenes de rostros o cuerpos capturadas de manera casual, al mismo tiempo que sigue admitiendo la generación y edición de modelos basados en texto. Nuestra contribución clave es el control preciso en la generación de avatares mediante el uso de dos modelos de difusión ajustados por separado para el rostro y el cuerpo humano. Esto nos permite capturar detalles intrincados de la apariencia facial, la ropa y los accesorios, lo que resulta en generaciones de avatares altamente realistas. Además, introducimos una restricción de consistencia de pose en el proceso de optimización para mejorar la coherencia multi-vista de las imágenes de cabeza sintetizadas por el modelo de difusión y, por lo tanto, eliminar la interferencia de poses humanas no controladas. Adicionalmente, presentamos una estrategia de renderizado multi-resolución que facilita la supervisión de grueso a fino en la generación de avatares 3D, mejorando así el rendimiento del sistema propuesto. El modelo de avatar resultante puede ser editado aún más utilizando descripciones de texto adicionales y animado mediante secuencias de movimiento. Los experimentos muestran que AvatarBooth supera a los métodos anteriores de texto a 3D en términos de calidad de renderizado y geometría, ya sea a partir de indicaciones de texto o imágenes específicas. Por favor, visite nuestro sitio web del proyecto en https://zeng-yifei.github.io/avatarbooth_page/.
Presentamos un enfoque de preentrenamiento sensorimotor autosupervisado para robótica. Nuestro modelo, denominado RPT, es un Transformer que opera sobre secuencias de tokens sensorimotores. Dada una secuencia de imágenes de cámara, estados propios del robot y acciones pasadas, codificamos la secuencia intercalada en tokens, enmascaramos un subconjunto aleatorio y entrenamos un modelo para predecir el contenido enmascarado. Planteamos la hipótesis de que si el robot puede predecir el contenido faltante, ha adquirido un buen modelo del mundo físico que le permitirá actuar. RPT está diseñado para operar sobre representaciones visuales latentes, lo que hace que la predicción sea manejable, permite escalar a modelos 10 veces más grandes y realizar inferencias a 10 Hz en un robot real. Para evaluar nuestro enfoque, recopilamos un conjunto de datos de 20,000 trayectorias del mundo real durante 9 meses utilizando una combinación de algoritmos de planificación de movimiento y agarre basados en modelos. Encontramos que el preentrenamiento con estos datos supera consistentemente al entrenamiento desde cero, conduce a mejoras de 2x en la tarea de apilamiento de bloques y presenta propiedades de escalabilidad favorables.
La detección de objetos de vocabulario abierto se ha beneficiado enormemente de los modelos preentrenados de visión y lenguaje, pero aún está limitada por la cantidad de datos de entrenamiento de detección disponibles. Si bien los datos de entrenamiento de detección pueden ampliarse utilizando pares de imágenes y texto de la web como supervisión débil, esto no se ha hecho a escalas comparables al preentrenamiento a nivel de imagen. Aquí, ampliamos los datos de detección con autoentrenamiento, que utiliza un detector existente para generar anotaciones de pseudo-cajas en pares de imágenes y texto. Los principales desafíos al escalar el autoentrenamiento son la elección del espacio de etiquetas, el filtrado de pseudo-anotaciones y la eficiencia del entrenamiento. Presentamos el modelo OWLv2 y la receta de autoentrenamiento OWL-ST, que abordan estos desafíos. OWLv2 supera el rendimiento de los detectores de vocabulario abierto de última generación ya en escalas de entrenamiento comparables (~10M ejemplos). Sin embargo, con OWL-ST, podemos escalar a más de 1B ejemplos, obteniendo una mejora aún mayor: Con una arquitectura L/14, OWL-ST mejora el AP en las clases raras de LVIS, para las cuales el modelo no ha visto anotaciones de cajas humanas, del 31.2% al 44.6% (una mejora relativa del 43%). OWL-ST desbloquea el entrenamiento a escala web para la localización en mundo abierto, similar a lo que se ha visto en la clasificación de imágenes y el modelado de lenguaje.
Los modelos de espacio de estados (SSMs, por sus siglas en inglés) han demostrado resultados impresionantes en tareas que requieren modelar dependencias de largo alcance y escalar eficientemente a secuencias largas, gracias a su complejidad de tiempo de ejecución subcuadrática. Originalmente diseñados para señales continuas, los SSMs han mostrado un rendimiento superior en una amplia variedad de tareas, tanto en visión como en audio; sin embargo, aún se quedan atrás en comparación con los Transformers en tareas de modelado de lenguaje. En este trabajo, proponemos una capa híbrida llamada Block-State Transformer (BST), que combina internamente una subcapa SSM para la contextualización de largo alcance y una subcapa Block Transformer para la representación a corto plazo de secuencias. Estudiamos tres variantes diferentes y completamente paralelizables que integran SSMs y atención por bloques. Demostramos que nuestro modelo supera a arquitecturas basadas en Transformers similares en términos de perplejidad en modelado de lenguaje y generaliza mejor a secuencias más largas. Además, el Block-State Transformer muestra un aumento de más de diez veces en velocidad a nivel de capa en comparación con el Block-Recurrent Transformer cuando se emplea paralelización de modelos.
La investigación sobre las leyes de escalamiento ha encontrado que los modelos de lenguaje (LM, por sus siglas en inglés) muestran mejoras predecibles en la pérdida general con un aumento de escala (tamaño del modelo, datos de entrenamiento y capacidad computacional). Aquí, presentamos evidencia que respalda la afirmación de que los LM pueden mostrar un escalamiento inverso, es decir, un peor rendimiento en tareas con un aumento de escala, por ejemplo, debido a fallas en el objetivo de entrenamiento y los datos. Presentamos evidencia empírica de escalamiento inverso en 11 conjuntos de datos recopilados mediante la realización de un concurso público, el Premio de Escalamiento Inverso, con un premio sustancial. A través del análisis de los conjuntos de datos, junto con otros ejemplos encontrados en la literatura, identificamos cuatro causas potenciales del escalamiento inverso: (i) preferencia por repetir secuencias memorizadas en lugar de seguir instrucciones en contexto, (ii) imitación de patrones indeseables en los datos de entrenamiento, (iii) tareas que contienen una tarea distractora fácil en la que los LM podrían enfocarse, en lugar de la tarea real más difícil, y (iv) demostraciones pocos ejemplos correctas pero engañosas de la tarea. Publicamos los conjuntos de datos ganadores en https://inversescaling.com/data para permitir una mayor investigación sobre el escalamiento inverso. Nuestras tareas han contribuido al descubrimiento de tendencias de escalamiento en forma de U y U invertida, donde una tendencia inicial se revierte, lo que sugiere que las tendencias de escalamiento son menos confiables para predecir el comportamiento de modelos a mayor escala de lo que se entendía anteriormente. En general, nuestros resultados sugieren que existen tareas para las cuales el aumento de escala del modelo por sí solo puede no conducir a mejoras, y que se necesita una reflexión más cuidadosa sobre los datos y los objetivos para entrenar modelos de lenguaje.
Trabajos recientes han estudiado la síntesis de texto a audio utilizando grandes cantidades de datos emparejados de texto y audio. Sin embargo, las grabaciones de audio con anotaciones de texto de alta calidad pueden ser difíciles de adquirir. En este trabajo, abordamos la síntesis de texto a audio utilizando videos no etiquetados y modelos preentrenados de lenguaje-visión. Proponemos aprender la correspondencia deseada entre texto y audio aprovechando la modalidad visual como puente. Entrenamos un modelo de difusión condicional para generar la pista de audio de un video, dado un fotograma del video codificado por un modelo preentrenado de aprendizaje contrastivo de lenguaje-imagen (CLIP). En la fase de prueba, primero exploramos realizar una transferencia de modalidad zero-shot y condicionamos el modelo de difusión con una consulta de texto codificada por CLIP. Sin embargo, observamos una caída notable en el rendimiento en comparación con las consultas de imagen. Para cerrar esta brecha, adoptamos además un modelo de difusión previa preentrenado para generar una incrustación de imagen CLIP dada una incrustación de texto CLIP. Nuestros resultados muestran la efectividad del método propuesto y que el modelo de difusión previa preentrenado puede reducir la brecha de transferencia de modalidad. Si bien nos enfocamos en la síntesis de texto a audio, el modelo propuesto también puede generar audio a partir de consultas de imagen y muestra un rendimiento competitivo frente a un modelo de última generación de síntesis de imagen a audio en una prueba de escucha subjetiva. Este estudio ofrece una nueva dirección para abordar la síntesis de texto a audio que aprovecha la correspondencia audio-visual naturalmente presente en los videos y el poder de los modelos preentrenados de lenguaje-visión.
El despliegue de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) puede presentar riesgos debido a la generación de salidas dañinas, como discursos tóxicos o deshonestos. Trabajos previos han introducido herramientas que provocan salidas dañinas con el fin de identificar y mitigar estos riesgos. Si bien este es un paso valioso para asegurar los modelos de lenguaje, estos enfoques suelen depender de un clasificador preexistente para identificar salidas no deseadas. Esto limita su aplicación a situaciones en las que el tipo de comportamiento dañino se conoce con precisión de antemano. Sin embargo, esto omite un desafío central de las pruebas de red teaming: desarrollar una comprensión contextual de los comportamientos que un modelo puede exhibir. Además, cuando ya existe un clasificador de este tipo, el red teaming tiene un valor marginal limitado, ya que el clasificador podría simplemente usarse para filtrar datos de entrenamiento o salidas del modelo. En este trabajo, consideramos el red teaming bajo el supuesto de que el adversario opera a partir de una especificación abstracta y de alto nivel de comportamiento no deseado. Se espera que el equipo de red teaming refine/extienda esta especificación e identifique métodos para provocar este comportamiento en el modelo. Nuestro marco de red teaming consta de tres pasos: 1) Explorar el comportamiento del modelo en el contexto deseado; 2) Establecer una medida del comportamiento no deseado (por ejemplo, un clasificador entrenado para reflejar evaluaciones humanas); y 3) Explotar las fallas del modelo utilizando esta medida y una metodología de red teaming establecida. Aplicamos este enfoque para realizar pruebas de red teaming en los modelos GPT-2 y GPT-3, descubriendo sistemáticamente clases de indicaciones que provocan declaraciones tóxicas y deshonestas. Al hacerlo, también construimos y publicamos el conjunto de datos CommonClaim, que contiene 20,000 declaraciones etiquetadas por sujetos humanos como verdades de conocimiento común, falsedades de conocimiento común o ninguna de las dos. El código está disponible en https://github.com/thestephencasper/explore_establish_exploit_llms. CommonClaim está disponible en https://github.com/thestephencasper/common_claim.
Los seres humanos poseen la capacidad cognitiva de comprender escenas de manera composicional. Para dotar a los sistemas de IA con habilidades similares, el aprendizaje de representaciones centradas en objetos tiene como objetivo adquirir representaciones de objetos individuales a partir de escenas visuales sin supervisión alguna. Aunque los avances recientes en el aprendizaje de representaciones centradas en objetos han logrado un progreso notable en conjuntos de datos de síntesis complejos, existe un gran desafío para su aplicación en escenas del mundo real complejas. Una de las razones esenciales es la escasez de conjuntos de datos del mundo real específicamente diseñados para métodos de aprendizaje de representaciones centradas en objetos. Para resolver este problema, proponemos un conjunto de datos versátil de escenas de mesas para el aprendizaje centrado en objetos llamado OCTScenes, que está meticulosamente diseñado para servir como un punto de referencia para comparar, evaluar y analizar métodos de aprendizaje de representaciones centradas en objetos. OCTScenes contiene 5000 escenas de mesas con un total de 15 objetos cotidianos. Cada escena se captura en 60 fotogramas que cubren una perspectiva de 360 grados. En consecuencia, OCTScenes es un conjunto de datos de referencia versátil que puede satisfacer simultáneamente la evaluación de métodos de aprendizaje de representaciones centradas en objetos en tareas de escenas estáticas, dinámicas y de múltiples vistas. Se realizaron experimentos extensos de métodos de aprendizaje de representaciones centradas en objetos para escenas estáticas, dinámicas y de múltiples vistas en OCTScenes. Los resultados demuestran las deficiencias de los métodos más avanzados para aprender representaciones significativas a partir de datos del mundo real, a pesar de su impresionante rendimiento en conjuntos de datos de síntesis complejos. Además, OCTScenes puede servir como un catalizador para avanzar en los métodos más avanzados existentes, inspirándolos a adaptarse a escenas del mundo real. El conjunto de datos y el código están disponibles en https://huggingface.co/datasets/Yinxuan/OCTScenes.
Presentamos CAJun, un novedoso marco jerárquico de aprendizaje y control que permite a los robots con patas saltar de manera continua con distancias de salto adaptativas. CAJun consta de una política de alto nivel centrada en el centroide y un controlador de bajo nivel para las patas. En particular, utilizamos aprendizaje por refuerzo (RL) para entrenar la política centrada en el centroide, la cual especifica el tiempo de la zancada, la velocidad de la base y la posición del pie en oscilación para el controlador de patas. El controlador de patas optimiza los comandos de los motores para las patas en oscilación y en apoyo, según el tiempo de la zancada, para seguir el objetivo del pie en oscilación y los comandos de velocidad de la base utilizando control óptimo. Además, reformulamos el optimizador de la pata en apoyo dentro del controlador de patas para acelerar el entrenamiento de la política en un orden de magnitud. Nuestro sistema combina la versatilidad del aprendizaje con la robustez del control óptimo. Al combinar RL con métodos de control óptimo, nuestro sistema logra la versatilidad del aprendizaje mientras aprovecha la robustez de los métodos de control, lo que facilita su transferencia a robots reales. Demostramos que, después de 20 minutos de entrenamiento en una sola GPU, CAJun puede lograr saltos continuos y largos con distancias adaptativas en un robot Go1, con pequeñas brechas de simulación a realidad. Además, el robot puede saltar sobre huecos con un ancho máximo de 70 cm, lo que supera en más del 40% a los métodos existentes.