Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de difusión son el enfoque de facto para generar imágenes y videos de alta calidad, pero el aprendizaje de modelos de alta dimensión sigue siendo una tarea formidable debido a los desafíos computacionales y de optimización. Los métodos existentes suelen recurrir al entrenamiento de modelos en cascada en el espacio de píxeles o al uso de un espacio latente reducido de un auto-codificador entrenado por separado. En este artículo, presentamos Matryoshka Diffusion Models (MDM), un marco de trabajo integral para la síntesis de imágenes y videos de alta resolución. Proponemos un proceso de difusión que elimina el ruido de las entradas en múltiples resoluciones de manera conjunta y utiliza una arquitectura NestedUNet, donde las características y parámetros para entradas a pequeña escala están anidados dentro de los de escalas grandes. Además, MDM permite un programa de entrenamiento progresivo desde resoluciones bajas hasta altas, lo que conduce a mejoras significativas en la optimización para la generación de alta resolución. Demostramos la efectividad de nuestro enfoque en varios puntos de referencia, incluyendo la generación de imágenes condicionadas por clase, la generación de imágenes de alta resolución a partir de texto y aplicaciones de texto a video. Notablemente, podemos entrenar un único modelo en el espacio de píxeles a resoluciones de hasta 1024x1024 píxeles, demostrando una fuerte generalización en cero-shot utilizando el conjunto de datos CC12M, que contiene solo 12 millones de imágenes.
Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés), una vez alineados con modelos de visión e integrados en modelos de lenguaje-visión (VLMs), pueden aportar mejoras impresionantes en tareas de razonamiento sobre imágenes. Esto ha sido demostrado por los recientemente lanzados GPT-4V(ison), LLaVA-1.5, entre otros. Sin embargo, el fuerte sesgo lingüístico presente en estos VLMs de última generación puede ser un arma de doble filo: pueden ignorar el contexto de la imagen y basarse únicamente en el sesgo lingüístico (incluso cuando es contradictorio) para realizar el razonamiento. Por otro lado, los módulos de visión en los VLMs son más débiles que los LLMs y pueden generar representaciones visuales engañosas, que luego son traducidas en errores confiados por los LLMs. Para estudiar estos dos tipos de errores en los VLMs, es decir, la alucinación lingüística y la ilusión visual, hemos creado HallusionBench, un benchmark de razonamiento en contexto de imágenes que sigue siendo un desafío incluso para GPT-4V y LLaVA-1.5. Ofrecemos un análisis detallado de ejemplos en HallusionBench, lo cual arroja nuevas perspectivas sobre las ilusiones o alucinaciones de los VLMs y cómo mejorarlos en el futuro. El benchmark y el código base serán publicados en https://github.com/tianyi-lab/HallusionBench.
Presentamos DEsignBench, un benchmark de generación de texto a imagen (T2I) diseñado específicamente para escenarios de diseño visual. Modelos recientes de T2I, como DALL-E 3 y otros, han demostrado capacidades notables para generar imágenes fotorrealistas que se alinean estrechamente con las entradas textuales. Si bien el atractivo de crear imágenes visualmente cautivadoras es innegable, nuestro énfasis va más allá del mero placer estético. Nuestro objetivo es investigar el potencial de utilizar estos modelos poderosos en contextos de diseño auténticos. En pos de este objetivo, desarrollamos DEsignBench, que incorpora muestras de prueba diseñadas para evaluar modelos T2I tanto en la "capacidad técnica de diseño" como en el "escenario de aplicación de diseño". Cada una de estas dos dimensiones está respaldada por un conjunto diverso de categorías de diseño específicas. Exploramos DALL-E 3 junto con otros modelos líderes de T2I en DEsignBench, lo que resulta en una galería visual exhaustiva para comparaciones lado a lado. Para la evaluación de DEsignBench, realizamos evaluaciones humanas de las imágenes generadas en la galería de DEsignBench, en función de los criterios de alineación texto-imagen, estética visual y creatividad de diseño. Nuestra evaluación también considera otras capacidades de diseño especializadas, como la representación de texto, la composición de diseño, la armonía de colores, el diseño 3D y el estilo de medio. Además de las evaluaciones humanas, introducimos el primer evaluador automático de generación de imágenes impulsado por GPT-4V. Este evaluador proporciona calificaciones que se alinean bien con los juicios humanos, al tiempo que es fácilmente replicable y rentable. Una versión de alta resolución está disponible en https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=.
Con la disponibilidad de grandes conjuntos de datos de video y los avances en los modelos de difusión, la generación de videos impulsada por texto ha logrado un progreso sustancial. Sin embargo, los modelos existentes de generación de video suelen entrenarse con un número limitado de fotogramas, lo que resulta en la incapacidad de generar videos largos de alta fidelidad durante la inferencia. Además, estos modelos solo admiten condiciones de texto único, mientras que los escenarios de la vida real a menudo requieren condiciones de múltiples textos a medida que el contenido del video cambia con el tiempo. Para abordar estos desafíos, este estudio explora el potencial de extender la capacidad impulsada por texto para generar videos más largos condicionados por múltiples textos. 1) Primero analizamos el impacto del ruido inicial en los modelos de difusión de video. Luego, basándonos en la observación del ruido, proponemos FreeNoise, un paradigma sin ajustes y eficiente en tiempo para mejorar las capacidades generativas de los modelos de difusión de video preentrenados mientras se preserva la consistencia del contenido. Específicamente, en lugar de inicializar ruidos para todos los fotogramas, reprogramamos una secuencia de ruidos para la correlación a largo plazo y realizamos atención temporal sobre ellos mediante una función basada en ventanas. 2) Además, diseñamos un novedoso método de inyección de movimiento para apoyar la generación de videos condicionados por múltiples indicaciones de texto. Experimentos extensos validan la superioridad de nuestro paradigma en la extensión de las capacidades generativas de los modelos de difusión de video. Es notable que, en comparación con el método de mejor rendimiento anterior que implicaba un costo de tiempo adicional del 255%, nuestro método incurre en un costo de tiempo insignificante de aproximadamente el 17%. Las muestras de video generadas están disponibles en nuestro sitio web: http://haonanqiu.com/projects/FreeNoise.html.
El reciente éxito de los modelos de lenguaje de gran escala (LLMs) de dominio general ha cambiado significativamente el paradigma del procesamiento del lenguaje natural hacia un modelo base unificado que abarca múltiples dominios y aplicaciones. En este artículo, nos centramos en evaluar el rendimiento de GPT-4, el LLM más avanzado hasta la fecha, en aplicaciones basadas en texto para informes de radiología, comparándolo con modelos específicos de radiología de última generación (SOTA). Explorando diversas estrategias de prompting, evaluamos GPT-4 en una amplia gama de tareas comunes en radiología y encontramos que GPT-4 supera o iguala el rendimiento de los modelos SOTA actuales en radiología. Con prompting de cero disparos (zero-shot), GPT-4 ya obtiene mejoras sustanciales (aproximadamente un 10% de mejora absoluta) sobre los modelos de radiología en la clasificación de similitud de oraciones temporales (precisión) e inferencia en lenguaje natural (F_1). Para tareas que requieren aprender el estilo o esquema específico de un conjunto de datos (por ejemplo, la síntesis de hallazgos), GPT-4 mejora con prompting basado en ejemplos y alcanza el nivel SOTA supervisado. Nuestro extenso análisis de errores realizado con un radiólogo certificado muestra que GPT-4 posee un nivel suficiente de conocimiento en radiología, cometiendo errores ocasionales en contextos complejos que requieren un conocimiento profundo del dominio. En la síntesis de hallazgos, las salidas de GPT-4 resultan ser, en general, comparables con las impresiones escritas manualmente existentes.
Presentamos Habitat 3.0: una plataforma de simulación para estudiar tareas colaborativas entre humanos y robots en entornos domésticos. Habitat 3.0 ofrece contribuciones en tres dimensiones: (1) Simulación precisa de humanoides: abordando los desafíos en el modelado de cuerpos deformables complejos y la diversidad en apariencia y movimiento, todo mientras se garantiza una alta velocidad de simulación. (2) Infraestructura de humano-en-el-bucle: permitiendo la interacción en tiempo real de humanos con robots simulados mediante teclado/ratón o una interfaz de realidad virtual, facilitando la evaluación de políticas de robots con entrada humana. (3) Tareas colaborativas: estudiando dos tareas colaborativas, Navegación Social y Reorganización Social. La Navegación Social investiga la capacidad de un robot para localizar y seguir avatares humanoides en entornos no vistos, mientras que la Reorganización Social aborda la colaboración entre un humanoide y un robot al reorganizar una escena. Estas contribuciones nos permiten estudiar en profundidad líneas base aprendidas de extremo a extremo y heurísticas para la colaboración humano-robot, así como evaluarlas con humanos en el bucle. Nuestros experimentos demuestran que las políticas de robots aprendidas conducen a una finalización eficiente de tareas al colaborar con agentes humanoides no vistos y socios humanos que podrían exhibir comportamientos que el robot no ha visto antes. Además, observamos comportamientos emergentes durante la ejecución de tareas colaborativas, como el robot cediendo espacio cuando obstruye a un agente humanoide, permitiendo así la finalización efectiva de la tarea por parte del agente humanoide. Asimismo, nuestros experimentos utilizando la herramienta de humano-en-el-bucle demuestran que nuestra evaluación automatizada con humanoides puede proporcionar una indicación del orden relativo de diferentes políticas cuando se evalúan con colaboradores humanos reales. Habitat 3.0 desbloquea características interesantes en simuladores para IA Embebida, y esperamos que allane el camino para una nueva frontera de capacidades de interacción humano-IA embebida.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se utilizan frecuentemente para tareas de generación y evaluación de lenguaje multifacéticas que implican satisfacer restricciones complejas del usuario o considerar múltiples aspectos y criterios. Sin embargo, su rendimiento puede ser insuficiente debido a la falta de coherencia del modelo y su incapacidad para planificar y descomponer el problema. Proponemos Branch-Solve-Merge (BSM), un programa de Modelo de Lenguaje de Gran Escala (Schlag et al., 2023) para abordar tareas desafiantes de lenguaje natural. Este consta de módulos de ramificación, resolución y fusión que están parametrizados con indicaciones específicas para el LLM base. Estos tres módulos planifican una descomposición de la tarea en múltiples sub-tareas paralelas, las resuelven de manera independiente y fusionan las soluciones de las sub-tareas. Aplicamos nuestro método a las tareas de evaluación de respuestas de LLMs y generación de texto con restricciones, y evaluamos su efectividad con múltiples LLMs, incluyendo Vicuna, LLaMA-2-chat y GPT-4. BSM mejora la corrección y consistencia de la evaluación para cada LLM al aumentar la concordancia humano-LLM hasta en un 26%, reducir los sesgos de longitud y posición por pares hasta en un 50%, y permitir que LLaMA-2-chat iguale o supere a GPT-4 en la mayoría de los dominios. En la tarea de generación de historias con restricciones, BSM mejora la coherencia de las historias mientras también aumenta la satisfacción de las restricciones en un 12%.
Presentamos TexFusion (Difusión de Texturas), un nuevo método para sintetizar texturas en geometrías 3D dadas, utilizando modelos de difusión de imágenes guiados por texto a gran escala. A diferencia de trabajos recientes que aprovechan modelos de difusión de texto a imagen en 2D para destilar objetos 3D mediante un proceso de optimización lento y frágil, TexFusion introduce una nueva técnica de generación consistente en 3D diseñada específicamente para la síntesis de texturas, que emplea muestreo regular del modelo de difusión en diferentes vistas renderizadas en 2D. Específicamente, aprovechamos modelos de difusión latente, aplicamos el desruidor del modelo de difusión en un conjunto de renders 2D del objeto 3D y agregamos las diferentes predicciones de desruido en un mapa de textura latente compartido. Las texturas RGB finales se producen optimizando un campo de color neural intermedio en las decodificaciones de renders 2D de la textura latente. Validamos exhaustivamente TexFusion y demostramos que podemos generar de manera eficiente texturas diversas, de alta calidad y globalmente coherentes. Logramos un rendimiento de vanguardia en la síntesis de texturas guiada por texto utilizando únicamente modelos de difusión de imágenes, evitando los inconvenientes de los métodos anteriores basados en destilación. El condicionamiento por texto ofrece un control detallado y tampoco dependemos de texturas 3D de referencia para el entrenamiento. Esto hace que nuestro método sea versátil y aplicable a una amplia gama de geometrías y tipos de textura. Esperamos que TexFusion impulse el texturizado basado en IA de activos 3D para aplicaciones en realidad virtual, diseño de juegos, simulación y más.
Los modelos de difusión de texto a imagen, como Stable-Diffusion e Imagen, han logrado una calidad fotorealista sin precedentes, alcanzando puntuaciones FID de vanguardia en MS-COCO y otros benchmarks de generación. Dada una descripción, la generación de imágenes requiere un conocimiento detallado sobre atributos como la estructura de los objetos, el estilo, el punto de vista, entre otros. ¿Dónde reside esta información en los modelos generativos de texto a imagen? En nuestro artículo, abordamos esta pregunta y entendemos cómo el conocimiento correspondiente a distintos atributos visuales se almacena en modelos de difusión de texto a imagen a gran escala. Adaptamos el Análisis de Mediación Causal para modelos de texto a imagen y rastreamos el conocimiento sobre distintos atributos visuales hasta varios componentes (causales) en (i) la UNet y (ii) el codificador de texto del modelo de difusión. En particular, demostramos que, a diferencia de los modelos generativos de lenguaje a gran escala, el conocimiento sobre diferentes atributos no está localizado en componentes aislados, sino que se distribuye entre un conjunto de componentes en la UNet condicional. Estos conjuntos de componentes suelen ser distintos para diferentes atributos visuales. Sorprendentemente, encontramos que el codificador de texto CLIP en modelos públicos de texto a imagen, como Stable-Diffusion, contiene solo un estado causal en diferentes atributos visuales, y este es la primera capa de autoatención correspondiente al último token del sujeto del atributo en la descripción. Esto contrasta marcadamente con los estados causales en otros modelos de lenguaje, que suelen ser las capas MLP intermedias. Basándonos en esta observación de solo un estado causal en el codificador de texto, introducimos un método rápido y sin datos para la edición de modelos, Diff-QuickFix, que puede editar conceptos en modelos de texto a imagen de manera efectiva. DiffQuickFix puede editar (ablacionar) conceptos en menos de un segundo con una actualización de forma cerrada, proporcionando una aceleración significativa de 1000x y un rendimiento de edición comparable a los métodos de edición basados en ajuste fino existentes.
Utilizando el aprendizaje en contexto (ICL, por sus siglas en inglés) para la generación de datos, técnicas como Self-Instruct (Wang et al., 2023) o su sucesor Alpaca (Taori et al., 2023) pueden entrenar agentes conversacionales robustos con solo una pequeña cantidad de supervisión humana. Una limitación de estos enfoques es que recurren a modelos de lenguaje extremadamente grandes (alrededor de 175 mil millones de parámetros) que también son propietarios y no públicos. Aquí exploramos la aplicación de dichas técnicas a modelos de lenguaje mucho más pequeños (alrededor de 10 a 40 mil millones de parámetros) y con licencias permisivas. Encontramos que el enfoque Self-Instruct es menos efectivo en estos tamaños y proponemos nuevos métodos de ICL que se basan en dos ideas principales: (a) Categorización y simplificación de las plantillas de ICL para facilitar el aprendizaje de instrucciones al modelo de lenguaje, y (b) Ensamblaje de múltiples salidas del modelo de lenguaje para ayudar a seleccionar ejemplos sintéticos de alta calidad. Nuestro algoritmo aprovecha las 175 tareas semilla de Self-Instruct y emplea pipelines separados para instrucciones que requieren una entrada y aquellas que no. Investigaciones empíricas con diferentes modelos de lenguaje muestran que: (1) Nuestro método propuesto genera datos de ajuste de instrucciones de mayor calidad que Self-Instruct, (2) Mejora significativamente el rendimiento tanto de modelos de lenguaje básicos como de aquellos ajustados con instrucciones, y (3) Los modelos de lenguaje más pequeños ajustados con instrucciones generan salidas más útiles que sus contrapartes más grandes sin ajustar. Nuestro código está disponible en https://github.com/IBM/ensemble-instruct.
La retroalimentación humana puede prevenir expresiones abiertamente dañinas en modelos conversacionales, pero no mitiga automáticamente comportamientos problemáticos sutiles, como el deseo declarado de autopreservación o poder. La IA Constitucional ofrece una alternativa, reemplazando la retroalimentación humana con retroalimentación de modelos de IA condicionados únicamente en una lista de principios escritos. Encontramos que este enfoque previene efectivamente la expresión de tales comportamientos. El éxito de principios simples nos motiva a preguntar: ¿pueden los modelos aprender comportamientos éticos generales a partir de un solo principio escrito? Para probar esto, realizamos experimentos utilizando un principio expresado aproximadamente como "haz lo que sea mejor para la humanidad". Descubrimos que los modelos de diálogo más grandes pueden generalizar a partir de esta constitución breve, resultando en asistentes inofensivos sin interés declarado en motivaciones específicas como el poder. Un principio general puede así evitar parcialmente la necesidad de una larga lista de constituciones dirigidas a comportamientos potencialmente dañinos. Sin embargo, constituciones más detalladas aún mejoran el control preciso sobre tipos específicos de daños. Esto sugiere que tanto los principios generales como los específicos tienen valor para guiar la IA de manera segura.
Con la evolución de los Modelos de Lenguaje a Gran Escala (LLMs), podemos resolver tareas de Procesamiento de Lenguaje Natural (NLP) cada vez más complejas en diversos dominios, incluyendo hojas de cálculo. Este trabajo investiga si los LLMs pueden generar código (Excel OfficeScripts, una API de TypeScript para ejecutar múltiples tareas en Excel) que resuelva tareas específicas de Excel proporcionadas mediante instrucciones en lenguaje natural. Para ello, presentamos un nuevo benchmark a gran escala, InstructExcel, creado aprovechando la función 'Automatizar' de Excel para generar automáticamente OfficeScripts a partir de las acciones de los usuarios. Nuestro benchmark incluye más de 10k muestras que abarcan más de 170 operaciones de Excel en 2,000 hojas de cálculo disponibles públicamente. Los experimentos en diversos escenarios de zero-shot y few-shot muestran que InstructExcel es un benchmark desafiante para modelos de última generación como GPT-4. Observamos que (1) utilizar GPT-4 en lugar de GPT-3.5, (2) proporcionar más ejemplos en contexto, y (3) el uso de indicaciones dinámicas pueden ayudar a mejorar el rendimiento en este benchmark.