Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos SUPIR (Scaling-UP Image Restoration), un método revolucionario de restauración de imágenes que aprovecha el conocimiento generativo y el poder del escalado de modelos. Utilizando técnicas multimodales y conocimiento generativo avanzado, SUPIR representa un avance significativo en la restauración de imágenes inteligente y realista. Como catalizador clave dentro de SUPIR, el escalado de modelos mejora drásticamente sus capacidades y demuestra un nuevo potencial para la restauración de imágenes. Hemos recopilado un conjunto de datos que comprende 20 millones de imágenes de alta resolución y calidad para el entrenamiento del modelo, cada una enriquecida con anotaciones de texto descriptivas. SUPIR ofrece la capacidad de restaurar imágenes guiadas por indicaciones textuales, ampliando su alcance de aplicación y potencial. Además, introducimos indicaciones de calidad negativa para mejorar aún más la calidad perceptual. También desarrollamos un método de muestreo guiado por restauración para suprimir el problema de fidelidad encontrado en la restauración basada en generación. Los experimentos demuestran los efectos excepcionales de restauración de SUPIR y su novedosa capacidad para manipular la restauración a través de indicaciones textuales.
Los modelos de lenguaje sin tokens aprenden directamente de bytes crudos y eliminan el sesgo de la tokenización por subpalabras. Sin embargo, operar con bytes resulta en secuencias significativamente más largas, y los Transformers autorregresivos estándar escalan pobremente en tales configuraciones. Experimentamos con MambaByte, una adaptación sin tokens del modelo de espacio de estados Mamba, entrenado autorregresivamente en secuencias de bytes. Nuestros experimentos indican la eficiencia computacional de MambaByte en comparación con otros modelos a nivel de byte. También encontramos que MambaByte es competitivo e incluso supera a los Transformers de subpalabras más avanzados. Además, debido a su escalado lineal en longitud, MambaByte se beneficia de una inferencia rápida en comparación con los Transformers. Nuestros hallazgos establecen la viabilidad de MambaByte para habilitar el modelado de lenguaje sin tokens.
En el último año, los Modelos de Lenguaje Multimodales de Gran Escala (MM-LLMs, por sus siglas en inglés) han experimentado avances significativos, ampliando las capacidades de los LLMs estándar para admitir entradas o salidas multimodales mediante estrategias de entrenamiento rentables. Los modelos resultantes no solo conservan las capacidades inherentes de razonamiento y toma de decisiones de los LLMs, sino que también potencian una amplia gama de tareas multimodales. En este artículo, presentamos una encuesta exhaustiva con el objetivo de facilitar futuras investigaciones sobre los MM-LLMs. Específicamente, primero delineamos formulaciones generales de diseño para la arquitectura del modelo y el pipeline de entrenamiento. Posteriormente, ofrecemos breves introducciones de 26 MM-LLMs existentes, cada uno caracterizado por sus formulaciones específicas. Además, revisamos el rendimiento de los MM-LLMs en benchmarks principales y resumimos recetas clave de entrenamiento para mejorar la eficacia de estos modelos. Por último, exploramos direcciones prometedoras para los MM-LLMs mientras mantenemos un sitio web de seguimiento en tiempo real con los últimos avances en el campo. Esperamos que esta encuesta contribuya al avance continuo del dominio de los MM-LLMs.
El avance de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) marca el inicio de una nueva era caracterizada por el desarrollo de aplicaciones autónomas en el mundo real, lo que impulsa la innovación en la creación de agentes web avanzados. Los agentes web existentes suelen manejar solo una modalidad de entrada y se evalúan únicamente en simuladores web simplificados o instantáneas estáticas de páginas web, lo que limita considerablemente su aplicabilidad en escenarios del mundo real. Para cerrar esta brecha, presentamos WebVoyager, un innovador agente web basado en un Modelo Multimodal de Gran Escala (LMM, por sus siglas en inglés) que puede completar instrucciones de los usuarios de extremo a extremo mediante la interacción con sitios web reales. Además, proponemos un nuevo protocolo de evaluación para agentes web que aborda los desafíos de la evaluación automática de tareas abiertas de agentes web, aprovechando las robustas capacidades de comprensión multimodal de GPT-4V. Creamos un nuevo punto de referencia al recopilar tareas del mundo real de 15 sitios web ampliamente utilizados para evaluar nuestros agentes. Demostramos que WebVoyager alcanza una tasa de éxito en tareas del 55.7%, superando significativamente el rendimiento tanto de GPT-4 (con todas las herramientas) como de la configuración de WebVoyager (solo texto), lo que subraya la capacidad excepcional de WebVoyager en aplicaciones prácticas. Descubrimos que nuestra evaluación automática propuesta alcanza un 85.3% de concordancia con el juicio humano, allanando el camino para el desarrollo futuro de agentes web en entornos del mundo real.
Los modelos recientes de generación de texto a imagen han demostrado un éxito increíble en la creación de imágenes que siguen fielmente las indicaciones de entrada. Sin embargo, el requisito de usar palabras para describir un concepto deseado ofrece un control limitado sobre la apariencia de los conceptos generados. En este trabajo, abordamos esta limitación proponiendo un enfoque para habilitar capacidades de personalización en modelos de difusión de texto a imagen existentes. Proponemos una arquitectura novedosa (BootPIG) que permite a un usuario proporcionar imágenes de referencia de un objeto para guiar la apariencia de un concepto en las imágenes generadas. La arquitectura BootPIG propuesta realiza modificaciones mínimas a un modelo de difusión de texto a imagen preentrenado y utiliza un modelo UNet separado para dirigir las generaciones hacia la apariencia deseada. Introducimos un procedimiento de entrenamiento que nos permite impulsar las capacidades de personalización en la arquitectura BootPIG utilizando datos generados a partir de modelos preentrenados de texto a imagen, agentes de chat basados en LLM y modelos de segmentación de imágenes. A diferencia de los métodos existentes que requieren varios días de preentrenamiento, la arquitectura BootPIG puede entrenarse en aproximadamente 1 hora. Los experimentos en el conjunto de datos DreamBooth demuestran que BootPIG supera a los métodos de cero disparos existentes, siendo comparable con los enfoques de ajuste fino en tiempo de prueba. A través de un estudio de usuario, validamos la preferencia por las generaciones de BootPIG sobre los métodos existentes, tanto en la fidelidad a la apariencia del objeto de referencia como en la alineación con las indicaciones textuales.
Los modelos de lenguaje de gran escala han avanzado el estado del arte en el procesamiento del lenguaje natural. Sin embargo, su diseño predominante para el inglés o un conjunto limitado de idiomas crea una brecha sustancial en su efectividad para lenguajes de bajos recursos. Para cerrar esta brecha, presentamos MaLA-500, un novedoso modelo de lenguaje de gran escala diseñado para cubrir un amplio rango de 534 idiomas. Para entrenar MaLA-500, empleamos extensión de vocabulario y preentrenamiento continuo en LLaMA 2 con Glot500-c. Nuestros experimentos en SIB-200 muestran que MaLA-500 logra resultados de última generación en aprendizaje en contexto. Publicamos MaLA-500 en https://huggingface.co/MaLA-LM.
El preentrenamiento de modelos de lenguaje grandes es conocido por ser extremadamente intensivo en recursos y, en muchas ocasiones, ineficiente, subutilizando la información encapsulada en las secuencias de texto de entrenamiento. En este artículo, presentamos SpacTor, un nuevo procedimiento de entrenamiento que consiste en (1) un objetivo híbrido que combina la corrupción de segmentos (SC, por sus siglas en inglés) y la detección de reemplazo de tokens (RTD), y (2) un currículo de dos etapas que optimiza el objetivo híbrido durante las primeras iteraciones tau, para luego transicionar a la pérdida estándar de SC. Demostramos empíricamente que la efectividad del objetivo híbrido está ligada al esquema de preentrenamiento de dos etapas, y proporcionamos un análisis extenso sobre las razones detrás de este fenómeno. En nuestros experimentos con arquitecturas de codificador-decodificador (T5) en una variedad de tareas de procesamiento de lenguaje natural (NLP), SpacTor-T5 logra el mismo rendimiento en tareas posteriores que el preentrenamiento estándar con SC, mientras permite una reducción del 50% en las iteraciones de preentrenamiento y un 40% en el total de operaciones de punto flotante (FLOPs). Alternativamente, dado el mismo presupuesto computacional, encontramos que SpacTor resulta en un rendimiento significativamente mejorado en los puntos de referencia posteriores.
Recientemente, los enfoques de texto a 3D han logrado la generación de contenido 3D de alta fidelidad utilizando descripciones textuales. Sin embargo, los objetos generados son estocásticos y carecen de control detallado. Los bocetos proporcionan un enfoque económico para introducir dicho control detallado. No obstante, es un desafío lograr un control flexible a partir de estos bocetos debido a su abstracción y ambigüedad. En este artículo, presentamos un marco de generación de texto a 3D guiado por bocetos multi-vista (denominado Sketch2NeRF) para añadir control de bocetos a la generación 3D. Específicamente, nuestro método aprovecha modelos de difusión 2D preentrenados (por ejemplo, Stable Diffusion y ControlNet) para supervisar la optimización de una escena 3D representada por un campo de radiancia neural (NeRF). Proponemos un novedoso método de generación y reconstrucción sincronizada para optimizar eficazmente el NeRF. En los experimentos, recopilamos dos tipos de conjuntos de datos de bocetos multi-vista para evaluar el método propuesto. Demostramos que nuestro método puede sintetizar contenidos 3D consistentes con control detallado de bocetos, manteniendo una alta fidelidad a las indicaciones textuales. Resultados extensos muestran que nuestro método alcanza un rendimiento de vanguardia en términos de similitud de bocetos y alineación con el texto.
Los modelos de difusión de texto a imagen existentes generan principalmente imágenes a partir de indicaciones textuales. Sin embargo, la inherente concisión de las descripciones textuales plantea desafíos para sintetizar fielmente imágenes con detalles intrincados, como entidades o escenas específicas. Este artículo presenta UNIMO-G, un marco simple de difusión condicional multimodal que opera con indicaciones multimodales que combinan entradas textuales y visuales, demostrando una capacidad unificada tanto para la generación de imágenes impulsada por texto como por sujetos. UNIMO-G consta de dos componentes principales: un Modelo de Lenguaje Multimodal de Gran Escala (MLLM) para codificar indicaciones multimodales, y una red de difusión de eliminación de ruido condicional para generar imágenes basadas en la entrada multimodal codificada. Aprovechamos una estrategia de entrenamiento en dos etapas para entrenar eficazmente el marco: primero, preentrenamiento en pares de texto-imagen a gran escala para desarrollar capacidades de generación de imágenes condicionales, y luego ajuste por instrucciones con indicaciones multimodales para lograr una competencia unificada en la generación de imágenes. Se emplea una canalización de procesamiento de datos bien diseñada que incluye anclaje lingüístico y segmentación de imágenes para construir indicaciones multimodales. UNIMO-G sobresale tanto en la generación de texto a imagen como en la síntesis impulsada por sujetos en modo cero-shot, y es notablemente efectivo en la generación de imágenes de alta fidelidad a partir de indicaciones multimodales complejas que involucran múltiples entidades de imagen.
Los recientes avances en IA han llevado al desarrollo de modelos multimodales grandes (LMMs, por sus siglas en inglés) capaces de procesar tareas complejas que implican razonamiento conjunto sobre texto y contenido visual en imágenes (por ejemplo, navegar mapas en lugares públicos). Este artículo presenta ConTextual, un nuevo benchmark que comprende instrucciones diseñadas explícitamente para evaluar la capacidad de los LMMs para realizar razonamiento visual sensible al contexto en escenarios ricos en texto. ConTextual enfatiza diversos escenarios del mundo real (por ejemplo, lectura de la hora, navegación, compras y más) que exigen una comprensión más profunda de las interacciones entre elementos textuales y visuales. Nuestros hallazgos revelan una brecha de rendimiento significativa del 30.8% entre el mejor LMM, GPT-4V(isión), y las capacidades humanas, según evaluaciones humanas, lo que indica un amplio margen de mejora en el razonamiento visual sensible al contexto en escenarios ricos en texto. Cabe destacar que, aunque GPT-4V destacó en categorías abstractas como la interpretación de memes y citas, su rendimiento general aún se quedó por detrás del de los humanos. Además de las evaluaciones humanas, también empleamos métricas de evaluación automática utilizando GPT-4, descubriendo tendencias similares en las disparidades de rendimiento. También realizamos una evaluación detallada en diversos contextos visuales y proporcionamos un análisis cualitativo que ofrece un marco robusto para futuros avances en el diseño de LMMs. https://con-textual.github.io/
Los modelos generativos de texto a imagen a gran escala han logrado avances impresionantes, demostrando su capacidad para sintetizar una amplia gama de imágenes de alta calidad. Sin embargo, adaptar estos modelos para la edición artística de imágenes presenta dos desafíos significativos. En primer lugar, los usuarios tienen dificultades para elaborar indicaciones textuales que detallen meticulosamente los elementos visuales de la imagen de entrada. En segundo lugar, los modelos predominantes, al efectuar modificaciones en zonas específicas, frecuentemente alteran el estilo artístico general, lo que complica la obtención de obras cohesivas y estéticamente unificadas. Para superar estos obstáculos, hemos desarrollado el innovador marco unificado CreativeSynth, basado en un modelo de difusión con la capacidad de coordinar entradas multimodales y realizar múltiples tareas en el ámbito de la generación de imágenes artísticas. Al integrar características multimodales con mecanismos de atención personalizados, CreativeSynth facilita la importación de contenido semántico del mundo real al dominio del arte mediante inversión y transferencia de estilo en tiempo real. Esto permite la manipulación precisa del estilo y el contenido de la imagen mientras se mantiene la integridad de los parámetros originales del modelo. Evaluaciones cualitativas y cuantitativas rigurosas destacan que CreativeSynth sobresale en la mejora de la fidelidad de las imágenes artísticas y preserva su esencia estética innata. Al cerrar la brecha entre los modelos generativos y el refinamiento artístico, CreativeSynth se convierte en una paleta digital personalizada.