Artículos de investigación en IA seleccionados diariamente con traducciones
Aunque los modelos de texto a imagen como DALLE-3 y Stable Diffusion están proliferando rápidamente, a menudo enfrentan desafíos como la alucinación, el sesgo y la producción de salidas inseguras y de baja calidad. Para abordar eficazmente estos problemas, es crucial alinear estos modelos con comportamientos deseados basados en retroalimentación de un juez multimodal. A pesar de su importancia, los jueces multimodales actuales a menudo no son evaluados adecuadamente en cuanto a sus capacidades y limitaciones, lo que potencialmente puede llevar a desalineaciones y resultados inseguros en el ajuste fino. Para abordar este problema, presentamos MJ-Bench, un nuevo conjunto de pruebas que incorpora un conjunto de datos de preferencias exhaustivo para evaluar jueces multimodales en la provisión de retroalimentación para modelos de generación de imágenes desde cuatro perspectivas clave: alineación, seguridad, calidad de imagen y sesgo. Específicamente, evaluamos una amplia variedad de jueces multimodales, incluidos modelos de puntuación basados en CLIP de menor tamaño, VLM de código abierto (por ejemplo, familia LLaVA) y VLM de código cerrado (por ejemplo, GPT-4o, Claude 3) en cada subcategoría descompuesta de nuestro conjunto de datos de preferencias. Los experimentos revelan que los VLM de código cerrado generalmente brindan una mejor retroalimentación, destacándose GPT-4o sobre otros jueces en promedio. En comparación con los VLM de código abierto, los modelos de puntuación de menor tamaño pueden ofrecer una mejor retroalimentación en cuanto a la alineación texto-imagen y la calidad de imagen, mientras que los VLM brindan una retroalimentación más precisa en cuanto a seguridad y sesgo de generación debido a sus capacidades de razonamiento más sólidas. Estudios adicionales en la escala de retroalimentación revelan que los jueces VLM generalmente pueden proporcionar retroalimentación más precisa y estable en lenguaje natural (escala Likert) que en escalas numéricas. Es importante destacar que las evaluaciones humanas en modelos ajustados de extremo a extremo utilizando retroalimentación separada de estos jueces multimodales arrojan conclusiones similares, confirmando aún más la efectividad de MJ-Bench. Todos los datos, código y modelos están disponibles en https://huggingface.co/MJ-Bench.
Los Modelos de Lenguaje Grandes (LLMs) demuestran capacidades de traducción notables en tareas de lenguajes de alto recurso, sin embargo, su rendimiento en lenguajes de bajo recurso se ve obstaculizado por la insuficiencia de datos multilingües durante el pre-entrenamiento. Para abordar esto, dedicamos 35,000 horas de GPU A100-SXM4-80GB en llevar a cabo un extenso pre-entrenamiento continuo multilingüe en los modelos de la serie LLaMA, permitiendo soporte de traducción en más de 100 idiomas. A través de un análisis exhaustivo de estrategias de entrenamiento, como la expansión de vocabulario y la aumentación de datos, desarrollamos LLaMAX. Notablemente, sin sacrificar su capacidad de generalización, LLaMAX logra un rendimiento de traducción significativamente mayor en comparación con LLMs de código abierto existentes (por más de 10 puntos spBLEU) y se desempeña al nivel del modelo de traducción especializado (M2M-100-12B) en el benchmark Flores-101. Experimentos extensos indican que LLaMAX puede servir como un modelo base multilingüe robusto. El código \url{https://github.com/CONE-MT/LLaMAX/.} y los modelos \url{https://huggingface.co/LLaMAX/.} están disponibles públicamente.
Este documento aborda el desafío de crear una arquitectura neuronal para secuencias muy largas que requiere tiempo constante para procesar nueva información en cada paso de tiempo. Nuestro enfoque, el Transformador de Memoria Recurrente Asociativa (ARMT), se basa en la autoatención del transformador para contexto local y recurrencia a nivel de segmento para el almacenamiento de información específica de la tarea distribuida en un contexto largo. Demostramos que ARMT supera a las alternativas existentes en tareas de recuperación asociativa y establece un nuevo récord de rendimiento en el reciente banco de pruebas multi-tarea de largo contexto BABILong al responder preguntas de un solo hecho sobre más de 50 millones de tokens con una precisión del 79.9%. El código fuente para entrenamiento y evaluación está disponible en github.
Un modelo de edición de imágenes debe ser capaz de realizar ediciones diversas, que van desde la sustitución de objetos, cambios de atributos o estilo, hasta la realización de acciones o movimientos, que requieren múltiples formas de razonamiento. Los modelos actuales de edición guiada por instrucciones generales presentan deficiencias significativas con ediciones centradas en acciones y razonamiento. Los cambios de objeto, atributo o estilo pueden aprenderse a partir de conjuntos de datos visualmente estáticos. Por otro lado, los datos de alta calidad para ediciones centradas en acciones y razonamiento son escasos y deben provenir de fuentes completamente diferentes que abarquen, por ejemplo, dinámicas físicas, temporalidad y razonamiento espacial. Con este fin, curamos meticulosamente el Conjunto de Datos AURORA (Acción-Razonamiento-Objeto-Atributo), una colección de datos de entrenamiento de alta calidad, anotada por humanos y seleccionada de videos y motores de simulación. Nos enfocamos en un aspecto clave de los datos de entrenamiento de calidad: los tríos (imagen fuente, indicación, imagen objetivo) contienen un único cambio visual significativo descrito por la indicación, es decir, cambios verdaderamente mínimos entre las imágenes fuente y objetivo. Para demostrar el valor de nuestro conjunto de datos, evaluamos un modelo afinado con AURORA en un nuevo banco de pruebas curado por expertos (AURORA-Bench) que cubre 8 tareas de edición diversas. Nuestro modelo supera significativamente a modelos de edición anteriores según evaluadores humanos. Para evaluaciones automáticas, encontramos fallas importantes en métricas anteriores y advertimos sobre su uso para tareas de edición semánticamente difíciles. En su lugar, proponemos una nueva métrica automática que se centra en la comprensión discriminativa. Esperamos que nuestros esfuerzos: (1) curar un conjunto de datos de entrenamiento de calidad y un banco de pruebas de evaluación, (2) desarrollar evaluaciones críticas y (3) lanzar un modelo de vanguardia, impulsen un mayor progreso en la edición general de imágenes.
Los modelos grandes multimodales de código abierto (LMM) anteriores han enfrentado varias limitaciones: (1) a menudo carecen de integración nativa, requiriendo adaptadores para alinear representaciones visuales con modelos de lenguaje grandes pre-entrenados (LLM); (2) muchos están restringidos a generación unimodal; (3) mientras que algunos admiten generación multimodal, dependen de modelos de difusión separados para modelado visual y generación. Para mitigar estas limitaciones, presentamos Anole, un modelo grande multimodal nativo, abierto y autoregresivo para generación de imágenes y texto entrelazados. Construimos Anole a partir de Chameleon de Meta AI, adoptando una estrategia innovadora de ajuste fino que es tanto eficiente en datos como en parámetros. Anole demuestra capacidades de generación multimodal de alta calidad y coherentes. Hemos hecho de código abierto nuestro modelo, marco de entrenamiento y datos de ajuste de instrucciones.
Los modelos de lenguaje grandes se utilizan prominentemente en aplicaciones del mundo real, a menudo encargados de razonar sobre grandes volúmenes de documentos. Un desarrollo emocionante en este ámbito son los modelos que presumen de capacidades de contexto extendido, con algunos que pueden manejar más de 2 millones de tokens. Estas capacidades de modelos de largo contexto siguen siendo inciertas en sistemas de producción, lo que motiva la necesidad de evaluar su rendimiento en casos de uso del mundo real. Abordamos este desafío proponiendo SWiM, un marco de evaluación que aborda las limitaciones de las pruebas estándar. Al probar el marco en ocho modelos de largo contexto, descubrimos que incluso modelos sólidos como GPT-4 y Claude 3 Opus disminuyen su rendimiento cuando la información se encuentra en el medio de la ventana de contexto (efecto de pérdida en el medio). A continuación, además de nuestra evaluación, proponemos el voto de medoides, un enfoque simple pero efectivo sin entrenamiento que ayuda a aliviar este efecto, generando respuestas varias veces, cada vez permutando aleatoriamente los documentos en el contexto y seleccionando la respuesta medoide. Evaluamos el voto de medoides en tareas de preguntas y respuestas de un solo documento, logrando hasta un aumento del 24% en precisión.
Este documento presenta UltraEdit, un conjunto de datos generado automáticamente a gran escala (aproximadamente 4 millones de muestras de edición) para la edición de imágenes basada en instrucciones. Nuestra idea clave es abordar las desventajas en los conjuntos de datos de edición de imágenes existentes como InstructPix2Pix y MagicBrush, y proporcionar un enfoque sistemático para producir muestras de edición de imágenes masivas y de alta calidad. UltraEdit ofrece varias ventajas distintas: 1) Presenta una gama más amplia de instrucciones de edición al aprovechar la creatividad de los grandes modelos de lenguaje (LLMs) junto con ejemplos de edición en contexto de evaluadores humanos; 2) Sus fuentes de datos se basan en imágenes reales, incluidas fotografías y obras de arte, lo que proporciona una mayor diversidad y reduce el sesgo en comparación con conjuntos de datos generados únicamente por modelos de texto a imagen; 3) También admite la edición basada en regiones, mejorada por anotaciones de regiones de alta calidad producidas automáticamente. Nuestros experimentos muestran que los baselines de edición basados en difusión canónica entrenados en el conjunto de datos UltraEdit establecen nuevos récords en los benchmarks de MagicBrush y Emu-Edit. Nuestro análisis confirma además el papel crucial de los anclajes de imágenes reales y los datos de edición basados en regiones. El conjunto de datos, código y modelos se pueden encontrar en https://ultra-editing.github.io.
Los avances recientes en AIGC 3D han demostrado promesa en la creación directa de objetos 3D a partir de texto e imágenes, ofreciendo ahorros significativos en costos en animación y diseño de productos. Sin embargo, la edición detallada y personalización de activos 3D sigue siendo un desafío de larga data. Específicamente, los métodos de Generación 3D carecen de la capacidad de seguir instrucciones detalladas de manera tan precisa como sus contrapartes de creación de imágenes 2D. Imagina que puedes obtener un juguete a través de AIGC 3D pero con accesorios y vestimenta no deseados. Para abordar este desafío, proponemos un nuevo proceso llamado Tailor3D, que crea rápidamente activos 3D personalizados a partir de imágenes editables de doble cara. Nuestro objetivo es emular la capacidad de un sastre para cambiar localmente objetos o realizar transferencia de estilo general. A diferencia de la creación de activos 3D a partir de múltiples vistas, el uso de imágenes de doble cara elimina conflictos en áreas superpuestas que ocurren al editar vistas individuales. Específicamente, comienza editando la vista frontal, luego genera la vista trasera del objeto a través de difusión de múltiples vistas. Posteriormente, procede a editar las vistas traseras. Finalmente, se propone un LRM de doble cara para unir sin problemas las características 3D frontales y traseras, similar a un sastre que cose juntas la parte delantera y trasera de una prenda. El LRM de doble cara corrige inconsistencias imperfectas entre las vistas frontal y trasera, mejorando las capacidades de edición y reduciendo las cargas de memoria mientras las integra sin problemas en una representación 3D unificada con el Transformador Triplano LoRA. Los resultados experimentales demuestran la efectividad de Tailor3D en diversas tareas de generación y edición 3D, incluyendo relleno generativo 3D y transferencia de estilo. Proporciona una solución amigable y eficiente para la edición de activos 3D, con cada paso de edición que solo tarda segundos en completarse.
Los recientes avances en modelos de lenguaje de código abierto de gran tamaño (LLMs) han demostrado habilidades de codificación notables al ajustarse mediante el uso de datos generados a partir de potentes LLMs de código cerrado como GPT-3.5 y GPT-4 para el ajuste de instrucciones. Este artículo explora cómo mejorar aún más un LLM de código ajustado a instrucciones generando datos a partir de sí mismo en lugar de consultar LLMs de código cerrado. Nuestra observación clave es el desajuste entre la traducción de lenguajes formales e informales: traducir un lenguaje formal (es decir, código) a un lenguaje informal (es decir, lenguaje natural) es más sencillo que a la inversa. Basándonos en esta observación, proponemos INVERSE-INSTRUCT, que resume instrucciones a partir de fragmentos de código en lugar de lo contrario. Específicamente, dado un corpus de ajuste de instrucciones para código y el LLM de código ajustado resultante, pedimos al LLM de código que genere instrucciones adicionales de alta calidad para el corpus original mediante la sumarización de código y la autoevaluación. Luego, ajustamos finamente el LLM base con la combinación del corpus original y el autogenerado, lo que produce un LLM de código ajustado a instrucciones más sólido. Presentamos una serie de LLMs de código llamados InverseCoder, que superan el rendimiento de los LLMs de código originales en una amplia gama de pruebas, incluida la generación de código de texto a código en Python, codificación multilingüe y generación de código para ciencia de datos.
Los modelos de difusión de Texto-a-Video (T2V) a gran escala han demostrado recientemente una capacidad sin precedentes para transformar descripciones en lenguaje natural en videos impresionantes y fotorrealistas. A pesar de los resultados prometedores, un desafío significativo persiste: estos modelos tienen dificultades para comprender completamente las complejas interacciones compositivas entre múltiples conceptos y acciones. Este problema surge cuando algunas palabras influyen predominantemente en el video final, eclipsando otros conceptos. Para abordar este problema, presentamos Vico, un marco genérico para la generación de videos compositivos que garantiza explícitamente que todos los conceptos estén representados adecuadamente. En su núcleo, Vico analiza cómo los tokens de entrada influyen en el video generado y ajusta el modelo para evitar que un solo concepto domine. Específicamente, Vico extrae pesos de atención de todas las capas para construir un grafo de atención espacial-temporal, y luego estima la influencia como el flujo máximo desde el token de texto fuente hasta el token de video objetivo. Aunque el cálculo directo del flujo de atención en modelos de difusión suele ser inviable, ideamos una aproximación eficiente basada en flujos de subgráficos y empleamos una implementación rápida y vectorizada, lo que a su vez hace que el cálculo del flujo sea manejable y diferenciable. Al actualizar el latente ruidoso para equilibrar estos flujos, Vico captura interacciones complejas y, en consecuencia, produce videos que se adhieren estrechamente a las descripciones textuales. Aplicamos nuestro método a múltiples modelos de video basados en difusión para T2V compositivo y edición de video. Los resultados empíricos demuestran que nuestro marco mejora significativamente la riqueza compositiva y la precisión de los videos generados. Visite nuestro sitio web en https://adamdad.github.io/vico/.
Los modelos de lenguaje de visión a gran escala (LVLMs) a menudo sufren de alucinaciones de objetos, produciendo objetos no presentes en las imágenes dadas. Mientras que los puntos de referencia actuales para la alucinación de objetos se concentran principalmente en la presencia de una sola clase de objeto en lugar de entidades individuales, este trabajo investiga sistemáticamente la alucinación de múltiples objetos, examinando cómo los modelos perciben erróneamente (por ejemplo, inventan objetos inexistentes o se distraen) al intentar enfocarse en varios objetos simultáneamente. Introducimos ROPE (Evaluación de Sondeo de Objetos basada en el Reconocimiento), un protocolo de evaluación automatizado que considera la distribución de clases de objetos dentro de una sola imagen durante las pruebas y utiliza indicaciones visuales para eliminar la ambigüedad. Con estudios empíricos exhaustivos y análisis de los posibles factores que llevan a la alucinación de múltiples objetos, encontramos que (1) los LVLMs sufren más alucinaciones al enfocarse en múltiples objetos en comparación con un solo objeto. (2) La distribución de clases de objetos probada afecta los comportamientos de alucinación, lo que indica que los LVLMs pueden seguir atajos y correlaciones espurias. (3) Los comportamientos alucinatorios son influenciados por factores específicos de los datos, saliencia y frecuencia, y comportamientos intrínsecos del modelo. Esperamos permitir que los LVLMs reconozcan y razonen sobre múltiples objetos que a menudo aparecen en escenas visuales realistas, proporcionar ideas y cuantificar nuestro progreso hacia la mitigación de los problemas.
En los últimos años, el auge de los Modelos de Lenguaje Grandes (LLMs) ha impulsado una creciente demanda de sistemas de inteligencia artificial plug-and-play. Entre las diversas técnicas de IA, el diseño de indicaciones destaca como particularmente significativo. Sin embargo, los usuarios a menudo enfrentan desafíos al redactar indicaciones debido a la pronunciada curva de aprendizaje y la considerable inversión de tiempo, y los modelos existentes de diseño automático de indicaciones (APE) pueden ser difíciles de usar. Para abordar este problema, proponemos PAS, un sistema de diseño automático de indicaciones plug-and-play basado en LLM. PAS utiliza LLMs entrenados en conjuntos de datos complementarios de indicaciones de alta calidad generados automáticamente, lo que resulta en un rendimiento excepcional. En evaluaciones exhaustivas, PAS logra resultados de vanguardia en comparación con modelos anteriores de APE, con una mejora promedio de 6.09 puntos. Además, PAS es altamente eficiente, logrando un rendimiento de vanguardia con solo 9000 puntos de datos. Además, PAS puede generar datos de aumento de indicaciones de forma autónoma sin requerir trabajo humano adicional. Su flexibilidad también le permite ser compatible con todos los LLMs existentes y aplicable a una amplia gama de tareas. PAS destaca en evaluaciones humanas, subrayando su idoneidad como complemento para los usuarios. Esta combinación de alto rendimiento, eficiencia y flexibilidad hace de PAS un sistema valioso para mejorar la usabilidad y efectividad de los LLM a través de un diseño de indicaciones mejorado.
Una de las formas más confiables de crear modelos desplegables para tareas especializadas es obtener una cantidad adecuada de datos específicos de alta calidad para la tarea. Sin embargo, para tareas especializadas, a menudo no existen conjuntos de datos de este tipo. Los métodos existentes abordan esto creando tales datos a partir de grandes modelos de lenguaje (LLMs) y luego destilando ese conocimiento en modelos más pequeños. Sin embargo, estos métodos están limitados por la calidad de la salida de los LLMs y tienden a generar datos repetitivos o incorrectos. En este trabajo, presentamos Distilación Basada en Recuperación (ReBase), un método que primero recupera datos de fuentes en línea ricas y luego los transforma en datos específicos del dominio. Este método mejora en gran medida la diversidad de datos. Además, ReBase genera razonamiento en Cadena de Pensamiento y destila la capacidad de razonamiento de los LLMs. Probamos nuestro método en 4 conjuntos de pruebas y los resultados muestran que nuestro método mejora significativamente el rendimiento hasta un 7.8% en SQuAD, 1.37% en MNLI y 1.94% en BigBench-Hard.
Estudios recientes sugieren que el sesgo inductivo de los modelos de aprendizaje profundo hacia favorecer características más simples puede ser una de las fuentes de aprendizaje de atajos. Sin embargo, ha habido un enfoque limitado en comprender la complejidad de las numerosas características que los modelos aprenden. En este trabajo, introducimos una nueva métrica para cuantificar la complejidad de las características, basada en la información V y que captura si una característica requiere transformaciones computacionales complejas para ser extraída. Utilizando esta métrica de información V, analizamos las complejidades de 10,000 características, representadas como direcciones en la capa penúltima, que fueron extraídas de un modelo de visión estándar entrenado en ImageNet. Nuestro estudio aborda cuatro preguntas clave: Primero, preguntamos cómo lucen las características en función de la complejidad y encontramos un espectro de características simples a complejas presentes dentro del modelo. Segundo, preguntamos cuándo se aprenden las características durante el entrenamiento. Descubrimos que las características más simples dominan al principio del entrenamiento, y las características más complejas emergen gradualmente. Tercero, investigamos dónde dentro de la red fluyen las características simples y complejas, y encontramos que las características más simples tienden a pasar por alto la jerarquía visual a través de conexiones residuales. Cuarto, exploramos la conexión entre la complejidad de las características y su importancia en la toma de decisiones de las redes. Descubrimos que las características complejas tienden a ser menos importantes. Sorprendentemente, las características importantes se vuelven accesibles en capas más tempranas durante el entrenamiento, como un proceso de sedimentación, lo que permite al modelo construir sobre estos elementos fundamentales.
Este documento impulsa el control creativo en la inteligencia artificial visual generativa al permitir a los usuarios "seleccionar". Alejándonos de los métodos tradicionales basados en texto o bocetos, por primera vez permitimos a los usuarios elegir conceptos visuales por partes para sus emprendimientos creativos. El resultado es una generación detallada que captura precisamente los conceptos visuales seleccionados, garantizando un resultado fiel y plausible de manera holística. Para lograr esto, primero dividimos los objetos en partes a través de agrupaciones de características no supervisadas. Luego, codificamos las partes en tokens de texto e introducimos una pérdida de atención normalizada basada en entropía que opera sobre ellas. Este diseño de pérdida permite que nuestro modelo aprenda conocimientos topológicos genéricos previos sobre la composición de partes del objeto, y generalice a composiciones de partes novedosas para garantizar que la generación luzca fiel de manera holística. Por último, empleamos un codificador de cuello de botella para proyectar los tokens de partes. Esto no solo mejora la fidelidad, sino que también acelera el aprendizaje, aprovechando el conocimiento compartido y facilitando el intercambio de información entre instancias. Los resultados visuales en el documento y el material suplementario muestran el poder convincente de PartCraft en la creación altamente personalizada e innovadora, ejemplificada por los pájaros "encantadores" y creativos. El código está disponible en https://github.com/kamwoh/partcraft.
Los modelos de Vinculación de Entidades (EL) están bien entrenados en mapear menciones a sus entidades correspondientes según un contexto dado. Sin embargo, los modelos de EL tienen dificultades para desambiguar entidades de larga cola debido a su limitado conjunto de datos de entrenamiento. Mientras tanto, los modelos de lenguaje grandes (LLMs) son más robustos en la interpretación de menciones poco comunes. Sin embargo, debido a la falta de entrenamiento especializado, los LLMs tienen dificultades para generar identificadores de entidades correctos. Además, el entrenamiento de un LLM para realizar EL es costoso. Basándonos en estas percepciones, presentamos la Vinculación de Entidades Aumentada por LLM (LLMAEL), un enfoque plug-and-play para mejorar la vinculación de entidades a través de la ampliación de datos con LLM. Aprovechamos los LLMs como ampliadores de contexto expertos, generando descripciones centradas en menciones como entrada adicional, mientras mantenemos los modelos de EL tradicionales para el procesamiento específico de la tarea. Experimentos en 6 conjuntos de datos estándar muestran que el LLMAEL básico supera a los modelos de EL de referencia en la mayoría de los casos, mientras que el LLMAEL afinado establece nuevos resultados de vanguardia en los 6 benchmarks.
Los modelos de lenguaje grandes (LLMs) presentan alucinaciones en tareas de pregunta-respuesta de larga extensión en diversos dominios y amplias aplicaciones. Los conjuntos de datos actuales para la detección y mitigación de alucinaciones son limitados en dominios y tamaños, lo que dificulta su escalabilidad debido a los costos laborales prohibitivos y la insuficiente fiabilidad de los anotadores de alucinaciones existentes. Para facilitar la supervisión escalable de las alucinaciones de los LLMs, este artículo presenta un marco de autoaprendizaje iterativo que escala simultánea y progresivamente el conjunto de datos de anotación de alucinaciones y mejora la precisión del anotador de alucinaciones. Basado en el algoritmo de Expectation Maximization (EM), en cada iteración, el marco primero aplica un pipeline de anotación de alucinaciones para anotar un conjunto de datos escalado y luego entrena un anotador de alucinaciones más preciso en el conjunto de datos. Este nuevo anotador de alucinaciones se adopta en el pipeline de anotación de alucinaciones utilizado para la siguiente iteración. Los extensos resultados experimentales demuestran que el anotador de alucinaciones finalmente obtenido con solo 7 mil millones de parámetros supera el rendimiento de GPT-4 y logra nuevos resultados de detección de alucinaciones de vanguardia en HaluEval y HalluQA mediante inferencia de cero disparos. Dicho anotador no solo puede evaluar los niveles de alucinación de varios LLMs en el conjunto de datos a gran escala, sino que también ayuda a mitigar la alucinación de las generaciones de LLMs, con la métrica de Inferencia de Lenguaje Natural (NLI) aumentando del 25% al 37% en HaluEval.