Artículos de investigación en IA seleccionados diariamente con traducciones
La generación de imágenes a partir de texto ha experimentado logros notables recientemente. Presentamos un modelo de difusión de imágenes condicionado por texto, denominado RAPHAEL, para generar imágenes altamente artísticas que representan con precisión las indicaciones textuales, abarcando múltiples sustantivos, adjetivos y verbos. Esto se logra mediante la disposición en capas de decenas de módulos de mezcla de expertos (MoE), es decir, capas de espacio-MoE y tiempo-MoE, lo que permite miles de millones de rutas de difusión desde la entrada hasta la salida de la red. Cada ruta funciona intuitivamente como un "pintor" que describe un concepto textual particular en una región específica de la imagen en un paso de tiempo de difusión. Experimentos exhaustivos revelan que RAPHAEL supera a modelos recientes de vanguardia, como Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd y DALL-E 2, tanto en calidad de imagen como en atractivo estético. En primer lugar, RAPHAEL muestra un rendimiento superior al cambiar imágenes entre diversos estilos, como cómics japoneses, realismo, cyberpunk e ilustración en tinta. En segundo lugar, un único modelo con tres mil millones de parámetros, entrenado en 1,000 GPUs A100 durante dos meses, alcanza un puntaje FID de cero-shot de 6.61 en el conjunto de datos COCO, estableciendo un nuevo estado del arte. Además, RAPHAEL supera significativamente a sus contrapartes en evaluaciones humanas en el benchmark ViLG-300. Creemos que RAPHAEL tiene el potencial de impulsar las fronteras de la investigación en generación de imágenes tanto en el ámbito académico como industrial, allanando el camino para futuros avances en este campo en rápida evolución. Más detalles pueden encontrarse en la página web del proyecto: https://raphael-painter.github.io/.
Proponemos un método para fusionar modelos de lenguaje grandes (LLM) congelados y exclusivamente de texto con modelos preentrenados de codificación y decodificación de imágenes, mediante el mapeo entre sus espacios de incrustación. Nuestro modelo demuestra una amplia gama de capacidades multimodales: recuperación de imágenes, generación de imágenes novedosas y diálogo multimodal. Este es el primer enfoque capaz de condicionar entradas intercaladas arbitrariamente de imágenes y texto para generar salidas coherentes de imágenes (y texto). Para lograr un rendimiento sólido en la generación de imágenes, proponemos una red de mapeo eficiente que conecta el LLM con un modelo de generación de texto a imagen estándar. Esta red de mapeo traduce las representaciones ocultas del texto al espacio de incrustación de los modelos visuales, permitiéndonos aprovechar las fuertes representaciones textuales del LLM para salidas visuales. Nuestro enfoque supera a los modelos de generación de referencia en tareas con lenguaje más largo y complejo. Además de la generación de imágenes novedosas, nuestro modelo también es capaz de recuperar imágenes de un conjunto de datos predefinido y decide si recuperar o generar en tiempo de inferencia. Esto se logra con un módulo de decisión aprendido que se condiciona en las representaciones ocultas del LLM. Nuestro modelo exhibe un rango más amplio de capacidades en comparación con modelos de lenguaje multimodal anteriores. Puede procesar entradas de imagen y texto, y producir imágenes recuperadas, imágenes generadas y texto generado, superando a los modelos de generación no basados en LLM en varias tareas de texto a imagen que miden la dependencia del contexto.
Los modelos públicos de difusión de texto a imagen a gran escala, como Stable Diffusion, han captado una atención significativa por parte de la comunidad. Estos modelos pueden personalizarse fácilmente para nuevos conceptos mediante adaptaciones de bajo rango (LoRAs). Sin embargo, la utilización de múltiples LoRAs de conceptos para respaldar conjuntamente múltiples conceptos personalizados presenta un desafío. Nos referimos a este escenario como personalización descentralizada de múltiples conceptos, que implica el ajuste de conceptos en un solo cliente y la fusión de conceptos en un nodo central. En este artículo, proponemos un nuevo marco llamado Mix-of-Show que aborda los desafíos de la personalización descentralizada de múltiples conceptos, incluyendo conflictos de conceptos resultantes del ajuste de LoRA en un solo cliente y la pérdida de identidad durante la fusión de modelos. Mix-of-Show adopta una LoRA de descomposición de incrustaciones (ED-LoRA) para el ajuste en un solo cliente y fusión de gradientes para el nodo central, con el fin de preservar la esencia en el dominio de los conceptos individuales y respaldar una fusión teóricamente ilimitada de conceptos. Además, introducimos un muestreo regionalmente controlable, que extiende el muestreo espacialmente controlable (por ejemplo, ControlNet y T2I-Adaptor) para abordar problemas de vinculación de atributos y objetos faltantes en el muestreo de múltiples conceptos. Experimentos exhaustivos demuestran que Mix-of-Show es capaz de componer múltiples conceptos personalizados con alta fidelidad, incluyendo personajes, objetos y escenas.
Stable Diffusion revolucionó la creación de imágenes a partir de texto descriptivo. GPT-2, GPT-3(.5) y GPT-4 demostraron un rendimiento asombroso en una variedad de tareas lingüísticas. ChatGPT introdujo estos modelos de lenguaje al público general. Ahora está claro que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han llegado para quedarse y provocarán cambios drásticos en todo el ecosistema de texto e imágenes en línea. En este artículo, consideramos lo que el futuro podría deparar. ¿Qué le sucederá a GPT-{n} una vez que los LLMs contribuyan con gran parte del lenguaje encontrado en línea? Descubrimos que el uso de contenido generado por modelos en el entrenamiento causa defectos irreversibles en los modelos resultantes, donde las colas de la distribución original del contenido desaparecen. Llamamos a este efecto "demencia de modelos" y demostramos que puede ocurrir en Autoencoders Variacionales (VAEs), Modelos de Mezcla Gaussiana (GMMs) y LLMs. Construimos una intuición teórica detrás de este fenómeno y mostramos su ubicuidad entre todos los modelos generativos aprendidos. Demostramos que debe tomarse en serio si queremos mantener los beneficios del entrenamiento a partir de datos a gran escala extraídos de la web. De hecho, el valor de los datos recopilados sobre interacciones genuinas de los humanos con los sistemas será cada vez más valioso en presencia de contenido generado por LLMs en datos rastreados de Internet.
Este artículo tiene como objetivo permitir de manera eficiente que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) utilicen herramientas multimodales. Los LLMs avanzados de propiedad privada, como ChatGPT y GPT-4, han demostrado un gran potencial para el uso de herramientas mediante ingeniería de prompts sofisticada. Sin embargo, estos modelos suelen depender de costos computacionales prohibitivos y datos inaccesibles al público. Para abordar estos desafíos, proponemos GPT4Tools basado en auto-instrucción para permitir que LLMs de código abierto, como LLaMA y OPT, utilicen herramientas. Este método genera un conjunto de datos de seguimiento de instrucciones al solicitar a un modelo avanzado (teacher) diversos contextos multimodales. Mediante el uso de la optimización Low-Rank Adaptation (LoRA), nuestro enfoque facilita que los LLMs de código abierto resuelvan una variedad de problemas visuales, incluyendo comprensión visual y generación de imágenes. Además, proporcionamos un benchmark para evaluar la capacidad de los LLMs para utilizar herramientas, que se realiza tanto en modo zero-shot como mediante fine-tuning. Experimentos extensos demuestran la efectividad de nuestro método en varios modelos de lenguaje, lo que no solo mejora significativamente la precisión al invocar herramientas conocidas, sino que también habilita la capacidad zero-shot para herramientas no vistas. El código y la demo están disponibles en https://github.com/StevenGrove/GPT4Tools.
Presentamos MindEye, un novedoso enfoque de fMRI-a-imagen para recuperar y reconstruir imágenes vistas a partir de la actividad cerebral. Nuestro modelo consta de dos submódulos paralelos especializados en recuperación (utilizando aprendizaje contrastivo) y reconstrucción (utilizando un prior de difusión). MindEye puede mapear la actividad cerebral de fMRI a cualquier espacio latente multimodal de alta dimensión, como el espacio de imágenes CLIP, permitiendo la reconstrucción de imágenes mediante modelos generativos que aceptan incrustaciones de este espacio latente. Comparamos exhaustivamente nuestro enfoque con otros métodos existentes, utilizando tanto comparaciones cualitativas lado a lado como evaluaciones cuantitativas, y demostramos que MindEye alcanza un rendimiento de vanguardia tanto en tareas de reconstrucción como de recuperación. En particular, MindEye puede recuperar la imagen original exacta incluso entre candidatos muy similares, lo que indica que sus incrustaciones cerebrales retienen información específica de la imagen a nivel detallado. Esto nos permite recuperar imágenes con precisión incluso de bases de datos a gran escala como LAION-5B. Demostramos mediante ablaciones que las mejoras de rendimiento de MindEye sobre métodos anteriores se deben a submódulos especializados para recuperación y reconstrucción, técnicas de entrenamiento mejoradas y el entrenamiento de modelos con órdenes de magnitud más parámetros. Además, mostramos que MindEye puede preservar mejor las características de bajo nivel de las imágenes en las reconstrucciones utilizando img2img, con salidas de un autoencoder separado. Todo el código está disponible en GitHub.
La visualización precisa de historias requiere varios elementos necesarios, como la consistencia de identidad entre los fotogramas, la alineación entre el texto plano y el contenido visual, y una disposición razonable de los objetos en las imágenes. La mayoría de los trabajos anteriores se esfuerzan por cumplir estos requisitos ajustando un modelo de texto a imagen (T2I) en un conjunto de videos con el mismo estilo y los mismos personajes, por ejemplo, el conjunto de datos FlintstonesSV. Sin embargo, los modelos T2I aprendidos suelen tener dificultades para adaptarse a nuevos personajes, escenas y estilos, y a menudo carecen de la flexibilidad para revisar la disposición de las imágenes sintetizadas. Este artículo propone un sistema para la visualización interactiva genérica de historias, capaz de manejar múltiples personajes nuevos y admitir la edición de la disposición y la estructura local. Se desarrolla aprovechando el conocimiento previo de modelos de lenguaje grande y T2I, entrenados en corpus masivos. El sistema consta de cuatro componentes interconectados: generación de historia a prompt (S2P), generación de texto a disposición (T2L), generación controlable de texto a imagen (C-T2I) y animación de imagen a video (I2V). Primero, el módulo S2P convierte la información concisa de la historia en prompts detallados requeridos para las etapas posteriores. A continuación, T2L genera disposiciones diversas y razonables basadas en los prompts, ofreciendo a los usuarios la capacidad de ajustar y refinar la disposición según su preferencia. El componente central, C-T2I, permite la creación de imágenes guiadas por disposiciones, bocetos e identificadores específicos de actores para mantener la consistencia y el detalle en las visualizaciones. Finalmente, I2V enriquece el proceso de visualización animando las imágenes generadas. Se realizan experimentos extensos y un estudio de usuario para validar la efectividad y flexibilidad de la edición interactiva del sistema propuesto.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) demuestran un rendimiento prometedor en la traducción entre diversos idiomas naturales. Sin embargo, muchos LLMs, especialmente los de código abierto como BLOOM y LLaMA, están dominados por el inglés y solo admiten docenas de idiomas naturales, lo que hace que el potencial de los LLMs en la traducción de idiomas esté menos explorado. En este trabajo, presentamos BigTrans, que adapta LLaMA, que cubre solo 20 idiomas, y lo mejora con capacidad de traducción multilingüe en más de 100 idiomas. BigTrans se construye sobre LLaMA-13B y se optimiza en tres pasos. Primero, continuamos entrenando LLaMA con una gran cantidad de datos monolingües en chino. Segundo, continuamos entrenando el modelo con un conjunto de datos paralelos a gran escala que cubre 102 idiomas naturales. Tercero, ajustamos el modelo base mediante instrucciones de traducción multilingüe, lo que da lugar a nuestro modelo BigTrans. Los experimentos preliminares en traducción multilingüe muestran que BigTrans tiene un rendimiento comparable con ChatGPT y Google Translate en muchos idiomas e incluso supera a ChatGPT en 8 pares de idiomas. Publicamos el modelo BigTrans con la esperanza de que pueda impulsar el progreso de la investigación.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) con fuertes capacidades en tareas de procesamiento de lenguaje natural han surgido y se han aplicado rápidamente en diversas áreas como la ciencia, las finanzas y la ingeniería de software. Sin embargo, la capacidad de los LLMs para avanzar en el campo de la química sigue siendo incierta. En este artículo, establecemos un punto de referencia integral que contiene 8 tareas prácticas de química, incluyendo 1) predicción de nombres, 2) predicción de propiedades, 3) predicción de rendimiento, 4) predicción de reacciones, 5) retrosíntesis (predicción de reactivos a partir de productos), 6) diseño de moléculas basado en texto, 7) descripción de moléculas y 8) selección de reactivos. Nuestro análisis se basa en conjuntos de datos ampliamente reconocidos como BBBP, Tox21, PubChem, USPTO y ChEBI, lo que facilita una exploración amplia de las capacidades de los LLMs en el contexto de la química práctica. Se evalúan tres modelos GPT (GPT-4, GPT-3.5 y Davinci-003) para cada tarea de química en configuraciones de aprendizaje en contexto de cero disparos y pocos disparos, con ejemplos de demostración cuidadosamente seleccionados y mensajes especialmente diseñados. Los resultados clave de nuestra investigación son: 1) GPT-4 supera a los otros dos modelos entre los tres evaluados; 2) los modelos GPT muestran un rendimiento menos competitivo en tareas que requieren una comprensión precisa de la representación SMILES de moléculas, como la predicción de reacciones y la retrosíntesis; 3) los modelos GPT demuestran fuertes capacidades en tareas de explicación relacionadas con texto, como la descripción de moléculas; y 4) los modelos GPT muestran un rendimiento comparable o mejor que los modelos clásicos de aprendizaje automático cuando se aplican a problemas químicos que pueden transformarse en tareas de clasificación o clasificación, como la predicción de propiedades y la predicción de rendimiento.
Los modelos actuales de generación de texto a imagen a menudo tienen dificultades para seguir instrucciones textuales, especialmente aquellas que requieren razonamiento espacial. Por otro lado, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), como GPT-4, han demostrado una precisión notable en la generación de fragmentos de código para representar gráficamente entradas de texto, por ejemplo, mediante TikZ. En este trabajo, presentamos Control-GPT para guiar las canalizaciones de texto a imagen basadas en difusión con bosquejos programáticos generados por GPT-4, mejorando su capacidad para seguir instrucciones. Control-GPT funciona consultando a GPT-4 para que escriba código TikZ, y los bosquejos generados se utilizan como referencias junto con las instrucciones textuales para que los modelos de difusión (por ejemplo, ControlNet) generen imágenes fotorrealistas. Un desafío importante para entrenar nuestra canalización es la falta de un conjunto de datos que contenga texto, imágenes y bosquejos alineados. Abordamos este problema convirtiendo las máscaras de instancia en conjuntos de datos existentes en polígonos para imitar los bosquejos utilizados en el momento de la prueba. Como resultado, Control-GPT aumenta significativamente la controlabilidad de la generación de imágenes. Establece un nuevo estado del arte en la generación de disposición espacial y posicionamiento de objetos y mejora el control de los usuarios sobre las posiciones, tamaños, etc., de los objetos, casi duplicando la precisión de los modelos anteriores. Nuestro trabajo, como un primer intento, muestra el potencial de emplear LLMs para mejorar el rendimiento en tareas de visión por computadora.
En una era donde las imágenes y el contenido visual dominan nuestro panorama digital, la capacidad de manipular y personalizar estas imágenes se ha convertido en una necesidad. Imagina sustituir sin esfuerzo un gato atigrado recostado en el alféizar de una ventana bañada por el sol en una fotografía con tu propio cachorro juguetón, todo mientras se preserva el encanto y la composición original de la imagen. Presentamos Photoswap, un enfoque novedoso que permite esta experiencia inmersiva de edición de imágenes mediante el intercambio personalizado de sujetos en imágenes existentes. Photoswap primero aprende el concepto visual del sujeto a partir de imágenes de referencia y luego lo intercambia en la imagen objetivo utilizando modelos de difusión preentrenados de manera libre de entrenamiento. Demostramos que un sujeto visual bien conceptualizado puede transferirse sin problemas a cualquier imagen mediante una manipulación adecuada de la autoatención y la atención cruzada, manteniendo la pose del sujeto intercambiado y la coherencia general de la imagen. Experimentos exhaustivos subrayan la eficacia y controlabilidad de Photoswap en el intercambio personalizado de sujetos. Además, Photoswap supera significativamente a los métodos de referencia en las evaluaciones humanas en cuanto a intercambio de sujetos, preservación del fondo y calidad general, revelando su vasto potencial de aplicación, desde el entretenimiento hasta la edición profesional.
Aprovechando conjuntos de datos a gran escala de imágenes y texto, junto con avances en modelos de difusión, los modelos generativos impulsados por texto han logrado avances notables en el campo de la generación y edición de imágenes. Este estudio explora el potencial de extender la capacidad impulsada por texto a la generación y edición de videos largos condicionados por múltiples textos. Las metodologías actuales para la generación y edición de videos, aunque innovadoras, suelen limitarse a videos extremadamente cortos (generalmente menos de 24 fotogramas) y están restringidas a una única condición de texto. Estas limitaciones restringen significativamente sus aplicaciones, dado que los videos del mundo real suelen consistir en múltiples segmentos, cada uno con información semántica diferente. Para abordar este desafío, presentamos un nuevo paradigma denominado Gen-L-Video, capaz de extender modelos de difusión de videos cortos disponibles para generar y editar videos compuestos por cientos de fotogramas con segmentos semánticos diversos sin necesidad de entrenamiento adicional, manteniendo la consistencia del contenido. Hemos implementado tres metodologías principales de generación y edición de videos impulsadas por texto y las hemos extendido para adaptarlas a videos más largos con una variedad de segmentos semánticos utilizando nuestro paradigma propuesto. Los resultados experimentales revelan que nuestro enfoque amplía significativamente las capacidades generativas y de edición de los modelos de difusión de videos, ofreciendo nuevas posibilidades para futuras investigaciones y aplicaciones. El código está disponible en https://github.com/G-U-N/Gen-L-Video.
Presentamos SwiftSage, un novedoso marco de agente inspirado en la teoría de doble proceso de la cognición humana, diseñado para sobresalir en la planificación de acciones para tareas complejas de razonamiento interactivo. SwiftSage integra las fortalezas de la clonación de comportamiento y el uso de modelos de lenguaje grandes (LLMs) para mejorar el rendimiento en la finalización de tareas. El marco consta de dos módulos principales: el módulo Swift, que representa el pensamiento rápido e intuitivo, y el módulo Sage, que emula los procesos de pensamiento deliberado. El módulo Swift es un pequeño modelo de lenguaje codificador-decodificador ajustado en las trayectorias de acción del agente oráculo, mientras que el módulo Sage emplea LLMs como GPT-4 para la planificación y fundamentación de subobjetivos. Desarrollamos un método heurístico para integrar armoniosamente los dos módulos, resultando en un proceso de resolución de problemas más eficiente y robusto. En 30 tareas del benchmark ScienceWorld, SwiftSage supera significativamente a otros métodos como SayCan, ReAct y Reflexion, demostrando su eficacia en la resolución de tareas complejas del mundo real.
El ajuste fino de modelos de lenguaje (LMs) ha demostrado éxito en diversas tareas posteriores, pero a medida que los LMs aumentan en tamaño, la retropropagación requiere una cantidad prohibitivamente grande de memoria. Los métodos de orden cero (ZO) pueden, en principio, estimar gradientes utilizando solo dos pasadas hacia adelante, pero se teoriza que son catastróficamente lentos para optimizar modelos grandes. En este trabajo, proponemos un optimizador de orden cero eficiente en memoria (MeZO), adaptando el método clásico ZO-SGD para operar in situ, permitiendo así ajustar finamente LMs con la misma huella de memoria que la inferencia. Por ejemplo, con una sola GPU A100 de 80GB, MeZO puede entrenar un modelo de 30 mil millones de parámetros, mientras que el ajuste fino con retropropagación solo puede entrenar un LM de 2.7B con el mismo presupuesto. Realizamos experimentos exhaustivos en diversos tipos de modelos (LMs enmascarados y autoregresivos), escalas de modelos (hasta 66B) y tareas posteriores (clasificación, opción múltiple y generación). Nuestros resultados demuestran que (1) MeZO supera significativamente el aprendizaje en contexto y el sondeo lineal; (2) MeZO logra un rendimiento comparable al ajuste fino con retropropagación en múltiples tareas, con una reducción de memoria de hasta 12x; (3) MeZO es compatible tanto con técnicas de ajuste de parámetros completos como con técnicas de ajuste eficiente de parámetros como LoRA y ajuste de prefijo; (4) MeZO puede optimizar efectivamente objetivos no diferenciables (por ejemplo, maximizar la precisión o F1). Apoyamos nuestros hallazgos empíricos con perspectivas teóricas, destacando cómo un preentrenamiento adecuado y las indicaciones de tareas permiten a MeZO ajustar finamente modelos enormes, a pesar de que los análisis clásicos de ZO sugieran lo contrario.
Recientemente, ha habido un creciente interés en desarrollar modelos generativos de texto a imagen basados en difusión capaces de generar texto visual coherente y bien formado. En este artículo, proponemos un enfoque novedoso y eficiente llamado GlyphControl para abordar esta tarea. A diferencia de los métodos existentes que dependen de codificadores de texto conscientes de caracteres como ByT5 y requieren el reentrenamiento de modelos de texto a imagen, nuestro enfoque aprovecha información condicional adicional de glifos para mejorar el rendimiento del modelo Stable-Diffusion listo para usar en la generación de texto visual preciso. Al incorporar instrucciones de glifos, los usuarios pueden personalizar el contenido, la ubicación y el tamaño del texto generado según sus requisitos específicos. Para facilitar investigaciones futuras en la generación de texto visual, construimos un conjunto de datos de referencia para entrenamiento llamado LAION-Glyph. Evaluamos la efectividad de nuestro enfoque midiendo métricas basadas en OCR y puntuaciones CLIP del texto visual generado. Nuestras evaluaciones empíricas demuestran que GlyphControl supera al reciente enfoque DeepFloyd IF en términos de precisión OCR y puntuaciones CLIP, destacando la eficacia de nuestro método.
A medida que los modelos de lenguaje de gran escala (LLMs) continúan desarrollándose, su evaluación se vuelve cada vez más importante pero también más desafiante. Este trabajo propone Chain-of-Thought Hub, un conjunto de evaluación de código abierto centrado en las capacidades de razonamiento multi-paso de los modelos de lenguaje de gran escala. Nos interesa este enfoque por dos razones: (1) a partir del comportamiento de la familia de modelos GPT y PaLM, observamos que el razonamiento complejo probablemente sea un diferenciador clave entre LLMs más débiles y más fuertes; (2) prevemos que los modelos de lenguaje de gran escala se conviertan en la próxima generación de plataformas computacionales y fomenten un ecosistema de nuevas aplicaciones basadas en LLMs, lo que naturalmente requiere que los modelos base realicen tareas complejas que a menudo implican la composición de operaciones lingüísticas y lógicas. Nuestro enfoque consiste en compilar un conjunto de puntos de referencia desafiantes para el razonamiento con el fin de rastrear el progreso de los LLMs. Nuestros resultados actuales muestran que: (1) la escala del modelo claramente se correlaciona con las capacidades de razonamiento; (2) Hasta mayo de 2023, Claude-v1.3 y PaLM-2 son los únicos dos modelos comparables con GPT-4, mientras que los modelos de código abierto aún están rezagados; (3) LLaMA-65B tiene un rendimiento cercano a code-davinci-002, lo que indica que, con un desarrollo adicional exitoso, como el aprendizaje por refuerzo con retroalimentación humana (RLHF), tiene un gran potencial para acercarse a GPT-3.5-Turbo. Nuestros resultados también sugieren que, para que los esfuerzos de código abierto alcancen a los modelos líderes, la comunidad podría enfocarse más en construir mejores modelos base y explorar RLHF.
El fascinante mundo de Minecraft ha atraído un interés de investigación considerable en los últimos años, sirviendo como una plataforma rica para desarrollar agentes inteligentes capaces de funcionar en entornos de mundo abierto. Sin embargo, el panorama actual de la investigación se centra predominantemente en objetivos específicos, como la popular tarea "ObtainDiamond", y aún no ha demostrado una generalización efectiva hacia un espectro más amplio de tareas. Además, la tasa de éxito líder actual para la tarea "ObtainDiamond" se sitúa en torno al 20%, lo que resalta las limitaciones de los controladores basados en Aprendizaje por Refuerzo (RL) utilizados en los métodos existentes. Para abordar estos desafíos, presentamos Ghost in the Minecraft (GITM), un marco novedoso que integra Modelos de Lenguaje de Gran Escala (LLMs) con conocimiento y memoria basados en texto, con el objetivo de crear Agentes Generalmente Capaces (GCAs) en Minecraft. Estos agentes, equipados con las capacidades de lógica y sentido común de los LLMs, pueden navegar hábilmente entornos complejos y de recompensas dispersas mediante interacciones basadas en texto. Desarrollamos un conjunto de acciones estructuradas y aprovechamos los LLMs para generar planes de acción que los agentes ejecutan. El agente basado en LLM resultante supera notablemente los métodos anteriores, logrando una mejora impresionante del +47.5% en la tasa de éxito en la tarea "ObtainDiamond", demostrando una robustez superior en comparación con los controladores tradicionales basados en RL. Cabe destacar que nuestro agente es el primero en obtener todos los elementos del árbol tecnológico del Overworld de Minecraft, demostrando sus amplias capacidades. GITM no requiere ninguna GPU para el entrenamiento, sino que un solo nodo de CPU con 32 núcleos es suficiente. Esta investigación muestra el potencial de los LLMs en el desarrollo de agentes capaces para manejar tareas complejas de largo alcance y adaptarse a las incertidumbres en entornos de mundo abierto. Consulte el sitio web del proyecto en https://github.com/OpenGVLab/GITM.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mejorado notablemente la fluidez y diversidad del texto generado por máquinas. Sin embargo, este avance también presenta un desafío significativo en la detección del origen de un texto dado, y la investigación actual sobre métodos de detección se queda rezagada frente a la rápida evolución de los LLMs. Los métodos convencionales basados en entrenamiento tienen limitaciones en cuanto a flexibilidad, particularmente al adaptarse a nuevos dominios, y a menudo carecen de poder explicativo. Para abordar esta brecha, proponemos una novedosa estrategia de detección sin entrenamiento llamada Análisis Divergente de N-Gramas (DNA-GPT). Dado un texto, primero lo truncamos por la mitad y luego utilizamos solo la parte precedente como entrada para los LLMs, con el fin de regenerar las nuevas partes restantes. Al analizar las diferencias entre las partes originales y las nuevas restantes mediante análisis de N-gramas en caja negra o divergencia de probabilidad en caja blanca, podemos ilustrar claramente las discrepancias significativas entre el texto generado por máquinas y el escrito por humanos. Realizamos experimentos extensivos en los LLMs más avanzados de OpenAI, incluyendo text-davinci-003, GPT-3.5-turbo y GPT-4, así como en modelos de código abierto como GPT-NeoX-20B y LLaMa-13B. Los resultados muestran que nuestro enfoque de cero disparos exhibe un rendimiento de vanguardia en la distinción entre texto humano y generado por GPT en cuatro conjuntos de datos en inglés y uno en alemán, superando al propio clasificador de OpenAI, que está entrenado en millones de textos. Además, nuestros métodos proporcionan explicaciones razonables y evidencias para respaldar nuestra afirmación, lo cual es una característica única de la detección explicable. Nuestro método también es robusto frente a ataques de texto revisado y puede resolver adicionalmente la identificación del modelo de origen. Los códigos están disponibles en https://github.com/Xianjun-Yang/DNA-GPT.
A pesar del enorme éxito de los modelos generativos de difusión en la generación de texto a imagen, replicar este éxito en el dominio de la compresión de imágenes ha resultado difícil. En este artículo, demostramos que la difusión puede mejorar significativamente la calidad perceptual a una tasa de bits dada, superando a los enfoques más avanzados PO-ELIC y HiFiC según la métrica FID. Esto se logra mediante un enfoque simple pero teóricamente fundamentado en dos etapas que combina un autocodificador orientado al MSE seguido de un decodificador basado en puntuaciones. Sin embargo, como mostraremos, los detalles de implementación son cruciales y las decisiones de diseño óptimas pueden diferir considerablemente de los modelos típicos de texto a imagen.