Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos SDXL, un modelo de difusión latente para la síntesis de texto a imagen. En comparación con versiones anteriores de Stable Diffusion, SDXL aprovecha una arquitectura UNet tres veces más grande: el aumento de parámetros del modelo se debe principalmente a más bloques de atención y un contexto de atención cruzada más amplio, ya que SDXL utiliza un segundo codificador de texto. Diseñamos múltiples esquemas de condicionamiento novedosos y entrenamos SDXL en múltiples relaciones de aspecto. También introducimos un modelo de refinamiento que se utiliza para mejorar la fidelidad visual de las muestras generadas por SDXL mediante una técnica de imagen a imagen post-hoc. Demostramos que SDXL muestra un rendimiento drásticamente mejorado en comparación con las versiones anteriores de Stable Diffusion y logra resultados competitivos con los de los generadores de imágenes de última generación de caja negra. En el espíritu de promover la investigación abierta y fomentar la transparencia en el entrenamiento y evaluación de modelos grandes, proporcionamos acceso al código y los pesos del modelo en https://github.com/Stability-AI/generative-models.
La escalabilidad de la longitud de secuencias se ha convertido en una demanda crítica en la era de los modelos de lenguaje a gran escala. Sin embargo, los métodos existentes enfrentan dificultades ya sea con la complejidad computacional o con la expresividad del modelo, lo que restringe la longitud máxima de las secuencias. En este trabajo, presentamos LongNet, una variante del Transformer que puede escalar la longitud de secuencias a más de mil millones de tokens, sin sacrificar el rendimiento en secuencias más cortas. Específicamente, proponemos la atención dilatada, que expande el campo de atención de manera exponencial a medida que aumenta la distancia. LongNet ofrece ventajas significativas: 1) tiene una complejidad computacional lineal y una dependencia logarítmica entre tokens; 2) puede funcionar como un entrenador distribuido para secuencias extremadamente largas; 3) su atención dilatada es un reemplazo directo de la atención estándar, lo que permite su integración sin problemas con las optimizaciones existentes basadas en Transformer. Los resultados experimentales demuestran que LongNet ofrece un rendimiento sólido tanto en el modelado de secuencias largas como en tareas generales de lenguaje. Nuestro trabajo abre nuevas posibilidades para modelar secuencias muy largas, por ejemplo, tratando un corpus completo o incluso toda la Internet como una secuencia.
A pesar de la capacidad de los modelos existentes de texto a imagen (T2I) a gran escala para generar imágenes de alta calidad a partir de descripciones textuales detalladas, a menudo carecen de la capacidad para editar con precisión las imágenes generadas o reales. En este artículo, proponemos un novedoso método de edición de imágenes, DragonDiffusion, que permite la manipulación de estilo "Drag" en modelos de difusión. Específicamente, construimos una guía de clasificador basada en la fuerte correspondencia de características intermedias en el modelo de difusión. Esto puede transformar las señales de edición en gradientes mediante una pérdida de correspondencia de características para modificar la representación intermedia del modelo de difusión. Basándonos en esta estrategia de guía, también construimos una guía multiescala para considerar tanto la alineación semántica como la geométrica. Además, se añade una auto-atención entre ramas para mantener la consistencia entre la imagen original y el resultado de la edición. Nuestro método, a través de un diseño eficiente, logra varios modos de edición para imágenes generadas o reales, como el movimiento de objetos, el cambio de tamaño de objetos, la sustitución de la apariencia de objetos y el arrastre de contenido. Es importante destacar que todas las señales de edición y preservación de contenido provienen de la imagen misma, y el modelo no requiere ajustes finos ni módulos adicionales. Nuestro código fuente estará disponible en https://github.com/MC-E/DragonDiffusion.
Recientemente, el lanzamiento de INSTRUCTEVAL ha proporcionado información valiosa sobre el rendimiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) que utilizan arquitecturas de codificador-decodificador o solo decodificador. Curiosamente, a pesar de haber sido introducidos hace cuatro años, los LLMs basados en T5, como FLAN-T5, continúan superando a los últimos LLMs basados en decodificador, como LLAMA y VICUNA, en tareas que requieren habilidades generales de resolución de problemas. Esta discrepancia en el rendimiento puede atribuirse a tres factores clave: (1) Datos de preentrenamiento, (2) Arquitectura de la red principal y (3) Conjunto de datos de instrucciones. En este informe técnico, nuestro enfoque principal es investigar el impacto del tercer factor utilizando VICUNA, un modelo de lenguaje grande basado en LLAMA, que ha sido ajustado mediante conversaciones de ChatGPT. Para lograr este objetivo, ajustamos VICUNA utilizando una colección personalizada de conjuntos de datos de instrucciones llamada FLANMINI. Esta colección incluye un subconjunto del conjunto de datos de instrucciones a gran escala conocido como FLAN, así como varios conjuntos de datos relacionados con código y conjuntos de datos conversacionales derivados de ChatGPT/GPT-4. Este conjunto de datos comprende una gran cantidad de tareas que exigen habilidades de resolución de problemas. Nuestros hallazgos experimentales indican firmemente que las habilidades mejoradas de resolución de problemas de nuestro modelo, FLACUNA, se obtienen mediante el ajuste fino de VICUNA en el conjunto de datos FLAN, lo que conduce a mejoras significativas en numerosos conjuntos de datos de referencia en INSTRUCTEVAL. FLACUNA está disponible públicamente en https://huggingface.co/declare-lab/flacuna-13b-v1.0.
La comprensión de documentos se refiere a la extracción, análisis y comprensión automática de información a partir de diversos tipos de documentos digitales, como una página web. Los modelos de lenguaje multimodal de gran escala (MLLMs) existentes, incluido mPLUG-Owl, han demostrado capacidades prometedoras en el reconocimiento de texto sin OCR (reconocimiento óptico de caracteres) en modo zero-shot, lo que indica su potencial para la comprensión de documentos sin OCR. Sin embargo, sin un entrenamiento específico en el dominio, estos modelos tienden a ignorar características detalladas de OCR, como tablas complejas o bloques extensos de texto, que son esenciales para la comprensión de documentos sin OCR. En este artículo, proponemos mPLUG-DocOwl, basado en mPLUG-Owl, para la comprensión de documentos sin OCR. Específicamente, primero construimos un conjunto de datos de ajuste por instrucciones que incluye una amplia gama de tareas de comprensión de texto visual. Luego, reforzamos la capacidad de comprensión de documentos sin OCR entrenando conjuntamente el modelo con datos de solo lenguaje, visión y lenguaje general, y un conjunto de datos de ajuste por instrucciones de documentos, utilizando nuestra estrategia unificada de ajuste por instrucciones. También creamos un conjunto de evaluación de comprensión de instrucciones de documentos sin OCR, llamado LLMDoc, para comparar mejor las capacidades de los modelos en el cumplimiento de instrucciones y la comprensión de documentos. Los resultados experimentales muestran que nuestro modelo supera a los modelos multimodales existentes, demostrando su fuerte capacidad de comprensión de documentos. Además, sin un ajuste fino específico, mPLUG-DocOwl se generaliza bien en diversas tareas posteriores. Nuestro código, modelos, datos de entrenamiento y conjunto de evaluación están disponibles en https://github.com/X-PLUG/mPLUG-DocOwl.
Los grandes modelos de lenguaje entrenados para la seguridad y la inocuidad siguen siendo susceptibles al uso adversario, como lo demuestra la prevalencia de ataques de "jailbreak" en las primeras versiones de ChatGPT que provocan comportamientos no deseados. Más allá de reconocer el problema, investigamos por qué estos ataques tienen éxito y cómo pueden crearse. Planteamos dos modos de fallo en el entrenamiento de seguridad: objetivos en competencia y generalización desajustada. Los objetivos en competencia surgen cuando las capacidades del modelo y sus metas de seguridad entran en conflicto, mientras que la generalización desajustada ocurre cuando el entrenamiento de seguridad no logra generalizarse a un dominio para el cual existen capacidades. Utilizamos estos modos de fallo para guiar el diseño de jailbreaks y luego evaluamos modelos de última generación, incluidos GPT-4 de OpenAI y Claude v1.3 de Anthropic, frente a ataques existentes y recién diseñados. Descubrimos que las vulnerabilidades persisten a pesar de los extensos esfuerzos de red-teaming y entrenamiento de seguridad detrás de estos modelos. En particular, los nuevos ataques que utilizan nuestros modos de fallo tienen éxito en cada solicitud de una colección de peticiones inseguras de los conjuntos de evaluación de red-teaming de los modelos y superan a los jailbreaks ad hoc existentes. Nuestro análisis enfatiza la necesidad de paridad entre seguridad y capacidades —que los mecanismos de seguridad sean tan sofisticados como el modelo subyacente— y argumenta en contra de la idea de que el escalamiento por sí solo pueda resolver estos modos de fallo de seguridad.
Los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), como GPT4, han demostrado capacidades multimodales excepcionales para seguir instrucciones abiertas basadas en imágenes. Sin embargo, el rendimiento de estos modelos depende en gran medida de decisiones de diseño, como las estructuras de red, los datos de entrenamiento y las estrategias de entrenamiento, y estas decisiones no han sido ampliamente discutidas en la literatura, lo que dificulta cuantificar el progreso en este campo. Para abordar este problema, este artículo presenta un estudio sistemático y exhaustivo, tanto cuantitativo como cualitativo, sobre el entrenamiento de dichos modelos. Implementamos más de 20 variantes con configuraciones controladas. Concretamente, para las estructuras de red, comparamos diferentes arquitecturas principales de LLMs y diseños de modelos. Para los datos de entrenamiento, investigamos el impacto de los datos y las estrategias de muestreo. Para las instrucciones, exploramos la influencia de indicaciones diversificadas en la capacidad de seguimiento de instrucciones de los modelos entrenados. En cuanto a los puntos de referencia, contribuimos con el primer conjunto de evaluación exhaustivo, que incluye tareas tanto de imágenes como de videos, obtenido mediante crowdsourcing, según nuestro conocimiento. Basándonos en nuestros hallazgos, presentamos Lynx, que realiza la comprensión multimodal más precisa mientras mantiene la mejor capacidad de generación multimodal en comparación con los modelos de estilo GPT4 de código abierto existentes.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades impresionantes de planificación en tareas encarnadas de un solo agente en diversos dominios. Sin embargo, su capacidad para planificar y comunicarse en la cooperación multiagente sigue siendo poco clara, a pesar de que estas son habilidades cruciales para los agentes encarnados inteligentes. En este artículo, presentamos un marco novedoso que utiliza LLMs para la cooperación multiagente y lo probamos en diversos entornos encarnados. Nuestro marco permite a los agentes encarnados planificar, comunicarse y cooperar con otros agentes encarnados o con humanos para realizar tareas de largo alcance de manera eficiente. Demostramos que LLMs recientes, como GPT-4, pueden superar métodos basados en planificación robustos y exhibir una comunicación efectiva emergente utilizando nuestro marco sin necesidad de ajuste fino o indicaciones de pocos ejemplos. También descubrimos que los agentes basados en LLMs que se comunican en lenguaje natural pueden ganar más confianza y cooperar de manera más efectiva con los humanos. Nuestra investigación subraya el potencial de los LLMs para la IA encarnada y sienta las bases para futuras investigaciones en cooperación multiagente. Los videos pueden encontrarse en el sitio web del proyecto https://vis-www.cs.umass.edu/Co-LLM-Agents/.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) exhiben una amplia gama de capacidades prometedoras —desde la planificación paso a paso hasta el razonamiento de sentido común— que podrían ser útiles para los robots, pero siguen siendo propensos a generar predicciones confiadas pero erróneas. En este trabajo, presentamos KnowNo, un marco para medir y alinear la incertidumbre de los planificadores basados en LLMs, de modo que sepan cuándo no saben y soliciten ayuda cuando sea necesario. KnowNo se basa en la teoría de la predicción conformal para ofrecer garantías estadísticas en la finalización de tareas, al tiempo que minimiza la intervención humana en entornos de planificación complejos y de múltiples pasos. Los experimentos en una variedad de configuraciones simuladas y con robots reales, que involucran tareas con diferentes modos de ambigüedad (por ejemplo, desde incertidumbres espaciales hasta numéricas, desde preferencias humanas hasta esquemas de Winograd), muestran que KnowNo supera favorablemente a los enfoques modernos de referencia (que pueden incluir conjuntos de modelos o ajustes extensivos de prompts) en términos de mejorar la eficiencia y la autonomía, al tiempo que ofrece garantías formales. KnowNo puede utilizarse con LLMs sin necesidad de ajuste fino del modelo y sugiere un enfoque ligero y prometedor para modelar la incertidumbre que puede complementar y escalar junto con las crecientes capacidades de los modelos fundacionales. Sitio web: https://robot-help.github.io.
Los Transformadores de Difusión recientes (por ejemplo, DiT) han demostrado su potente eficacia en la generación de imágenes 2D de alta calidad. Sin embargo, aún no está claro si la arquitectura Transformer funciona igual de bien en la generación de formas 3D, ya que los métodos anteriores de difusión 3D adoptaron principalmente la arquitectura U-Net. Para cerrar esta brecha, proponemos un nuevo Transformador de Difusión para la generación de formas 3D, denominado DiT-3D, que puede operar directamente el proceso de eliminación de ruido en nubes de puntos voxelizadas utilizando Transformers estándar. En comparación con los enfoques U-Net existentes, nuestro DiT-3D es más escalable en tamaño de modelo y produce generaciones de mucha mayor calidad. Específicamente, el DiT-3D adopta la filosofía de diseño de DiT pero lo modifica incorporando embeddings posicionales y de parches 3D para agregar de manera adaptativa la entrada de nubes de puntos voxelizadas. Para reducir el costo computacional de la autoatención en la generación de formas 3D, incorporamos la atención por ventanas 3D en los bloques Transformer, ya que la longitud adicional de tokens 3D resultante de la dimensión adicional de los vóxeles puede llevar a un alto costo computacional. Finalmente, se utilizan capas lineales y de devoxelización para predecir las nubes de puntos sin ruido. Además, nuestra arquitectura Transformer permite un ajuste fino eficiente de 2D a 3D, donde el punto de control preentrenado DiT-2D en ImageNet puede mejorar significativamente el DiT-3D en ShapeNet. Los resultados experimentales en el conjunto de datos ShapeNet demuestran que el DiT-3D propuesto alcanza un rendimiento de vanguardia en la generación de nubes de puntos 3D de alta fidelidad y diversidad. En particular, nuestro DiT-3D reduce la precisión del Vecino Más Cercano (1-NN) del método más avanzado en 4.59 y aumenta la métrica de Cobertura en 3.51 cuando se evalúa con la Distancia de Chamfer.
Los tokens de entrada en los Transformers de Visión (ViT) tienen poco significado semántico, ya que se definen como parches regulares de tamaño fijo de la imagen de entrada, independientemente de su contenido. Sin embargo, procesar áreas de fondo uniformes de una imagen no debería requerir tanto cómputo como áreas densas y desordenadas. Para abordar este problema, proponemos un esquema de tokenización dinámica de escala mixta para ViT, denominado MSViT. Nuestro método introduce un mecanismo de compuerta condicional que selecciona la escala óptima de tokens para cada región de la imagen, de modo que el número de tokens se determina dinámicamente por entrada. El módulo de compuerta propuesto es ligero, independiente de la elección del backbone del transformer, y se entrena en pocas épocas (por ejemplo, 20 épocas en ImageNet) con un mínimo sobrecosto de entrenamiento. Además, para mejorar el comportamiento condicional de la compuerta durante el entrenamiento, introducimos una generalización novedosa de la función de pérdida de conformación por lotes (batch-shaping loss). Demostramos que nuestro módulo de compuerta es capaz de aprender semántica significativa a pesar de operar localmente a nivel de parches gruesos. Validamos MSViT en tareas de clasificación y segmentación, donde logra un mejor equilibrio entre precisión y complejidad.
Este estudio examina el rendimiento de los modelos de lenguaje de gran escala (LLMs) de código abierto en tareas de anotación de texto y lo compara con modelos propietarios como ChatGPT y servicios basados en humanos como MTurk. Si bien investigaciones previas demostraron el alto rendimiento de ChatGPT en numerosas tareas de procesamiento del lenguaje natural (NLP), los LLMs de código abierto como HugginChat y FLAN están ganando atención por su rentabilidad, transparencia, reproducibilidad y superior protección de datos. Evaluamos estos modelos utilizando enfoques tanto de zero-shot como de few-shot, así como diferentes parámetros de temperatura en una variedad de tareas de anotación de texto. Nuestros hallazgos muestran que, aunque ChatGPT logra el mejor rendimiento en la mayoría de las tareas, los LLMs de código abierto no solo superan a MTurk, sino que también demuestran un potencial competitivo frente a ChatGPT en tareas específicas.
Los avatares son importantes para crear experiencias interactivas e inmersivas en mundos virtuales. Uno de los desafíos al animar estos personajes para imitar los movimientos de un usuario es que los productos comerciales de AR/VR consisten únicamente en un visor y controladores, proporcionando datos de sensores muy limitados sobre la postura del usuario. Otro desafío es que un avatar puede tener una estructura esquelética diferente a la de un humano, y la correspondencia entre ambas no está clara. En este trabajo abordamos ambos desafíos. Introducimos un método para retargetear movimientos en tiempo real a partir de datos de sensores humanos escasos hacia personajes de diversas morfologías. Nuestro método utiliza aprendizaje por refuerzo para entrenar una política que controle a los personajes en un simulador de física. Solo requerimos datos de captura de movimiento humano para el entrenamiento, sin depender de animaciones generadas por artistas para cada avatar. Esto nos permite utilizar grandes conjuntos de datos de captura de movimiento para entrenar políticas generales que puedan seguir a usuarios no vistos a partir de datos reales y escasos en tiempo real. Demostramos la viabilidad de nuestro enfoque en tres personajes con estructuras esqueléticas diferentes: un dinosaurio, una criatura similar a un ratón y un humano. Mostramos que las posturas de los avatares a menudo coinciden sorprendentemente bien con las del usuario, a pesar de no contar con información de sensores de la parte inferior del cuerpo. Discutimos y analizamos los componentes importantes de nuestro marco de trabajo, específicamente el paso de retargeting cinemático, la imitación, las recompensas de contacto y acción, así como nuestras observaciones asimétricas de actor-crítico. Además, exploramos la robustez de nuestro método en una variedad de escenarios, incluyendo movimientos de desequilibrio, baile y deportes.
Este artículo presenta el Transformador de Decisión Elástica (EDT, por sus siglas en inglés), un avance significativo sobre el Transformador de Decisión (DT) existente y sus variantes. Aunque el DT pretende generar una trayectoria óptima, la evidencia empírica sugiere que tiene dificultades con la unión de trayectorias, un proceso que implica la generación de una trayectoria óptima o casi óptima a partir de las mejores partes de un conjunto de trayectorias subóptimas. El EDT propuesto se distingue al facilitar la unión de trayectorias durante la inferencia de acciones en el momento de prueba, logrado mediante el ajuste de la longitud del historial mantenido en el DT. Además, el EDT optimiza la trayectoria al conservar un historial más largo cuando la trayectoria previa es óptima y uno más corto cuando es subóptima, lo que le permite "unirse" con una trayectoria más óptima. Experimentos extensivos demuestran la capacidad del EDT para cerrar la brecha de rendimiento entre los enfoques basados en DT y los basados en Aprendizaje Q. En particular, el EDT supera a los métodos basados en Aprendizaje Q en un régimen de múltiples tareas en el benchmark de locomoción D4RL y en los juegos de Atari. Los videos están disponibles en: https://kristery.github.io/edt/.
Dotar a los agentes corporizados de sentido común es fundamental para que los robots completen con éxito instrucciones humanas complejas en entornos generales. Los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) recientes pueden incorporar un conocimiento semántico rico para los agentes en la generación de planes para tareas complejas, aunque carecen de información sobre el mundo real y suelen producir secuencias de acciones inviables. En este artículo, proponemos un Agente de Planificación de Tareas (TaPA, por sus siglas en inglés) en tareas corporizadas para la planificación fundamentada con restricciones de escenas físicas, donde el agente genera planes ejecutables según los objetos existentes en la escena, alineando los LLM con los modelos de percepción visual. Específicamente, primero construimos un conjunto de datos multimodal que contiene tríos de escenas interiores, instrucciones y planes de acción, donde proporcionamos los indicadores diseñados y la lista de objetos existentes en la escena para que GPT-3.5 genere un gran número de instrucciones y las acciones planificadas correspondientes. Los datos generados se utilizan para el ajuste de planes fundamentados de LLM preentrenados. Durante la inferencia, descubrimos los objetos en la escena extendiendo detectores de objetos de vocabulario abierto a imágenes RGB de múltiples vistas recopiladas en diferentes ubicaciones alcanzables. Los resultados experimentales muestran que el plan generado por nuestro marco TaPA puede lograr una tasa de éxito más alta que LLaVA y GPT-3.5 por un margen considerable, lo que indica la practicidad de la planificación de tareas corporizadas en entornos generales y complejos.
La música se utiliza para transmitir emociones, por lo que generar música emocional es importante en la generación automática de música. Trabajos previos sobre la generación de música emocional utilizan directamente etiquetas de emociones anotadas como señales de control, lo que sufre de un sesgo subjetivo: diferentes personas pueden anotar diferentes emociones en la misma música, y una misma persona puede sentir diferentes emociones en distintas situaciones. Por lo tanto, mapear directamente las etiquetas de emociones a secuencias musicales de manera end-to-end confundiría el proceso de aprendizaje y dificultaría que el modelo genere música con emociones generales. En este artículo, proponemos EmoGen, un sistema de generación de música emocional que aprovecha un conjunto de atributos musicales relacionados con las emociones como puente entre la emoción y la música, y divide la generación en dos etapas: mapeo de emoción a atributo con agrupamiento supervisado, y generación de atributo a música con aprendizaje auto-supervisado. Ambas etapas son beneficiosas: en la primera etapa, los valores de los atributos alrededor del centro de agrupamiento representan las emociones generales de estas muestras, lo que ayuda a eliminar los impactos del sesgo subjetivo de las etiquetas de emociones; en la segunda etapa, la generación está completamente desvinculada de las etiquetas de emociones y, por lo tanto, libre del sesgo subjetivo. Tanto las evaluaciones subjetivas como las objetivas muestran que EmoGen supera a los métodos anteriores en precisión de control emocional y calidad musical respectivamente, lo que demuestra nuestra superioridad en la generación de música emocional. Las muestras de música generadas por EmoGen están disponibles en este enlace: https://ai-muzic.github.io/emogen/, y el código está disponible en este enlace: https://github.com/microsoft/muzic/.