Artículos de investigación en IA seleccionados diariamente con traducciones
La IA generativa conversacional ha demostrado un potencial notable para empoderar a los profesionales biomédicos, pero las investigaciones actuales se centran en texto unimodal. La IA conversacional multimodal ha experimentado un rápido progreso al aprovechar miles de millones de pares de imagen-texto de la web pública, pero estos modelos generales de visión y lenguaje aún carecen de sofisticación para comprender y conversar sobre imágenes biomédicas. En este artículo, proponemos un enfoque rentable para entrenar un asistente conversacional de visión y lenguaje que pueda responder preguntas de investigación abiertas sobre imágenes biomédicas. La idea clave es aprovechar un conjunto de datos a gran escala y de amplia cobertura de figuras y leyendas biomédicas extraídas de PubMed Central, utilizar GPT-4 para auto-instruir datos de seguimiento de instrucciones abiertas a partir de las leyendas, y luego ajustar un modelo general de visión y lenguaje utilizando un novedoso método de aprendizaje curricular. Específicamente, el modelo primero aprende a alinear el vocabulario biomédico utilizando los pares de figura-leyenda tal cual, luego aprende a dominar la semántica conversacional abierta utilizando datos de seguimiento de instrucciones generados por GPT-4, imitando ampliamente cómo una persona sin conocimientos especializados adquiere gradualmente conocimiento biomédico. Esto nos permite entrenar un Asistente de Lenguaje y Visión a Gran Escala para Biomedicina (LLaVA-Med) en menos de 15 horas (con ocho A100). LLaVA-Med exhibe una excelente capacidad conversacional multimodal y puede seguir instrucciones abiertas para asistir en consultas sobre una imagen biomédica. En tres conjuntos de datos estándar de respuesta a preguntas visuales biomédicas, LLaVA-Med supera a los anteriores modelos supervisados de última generación en ciertas métricas. Para facilitar la investigación multimodal en biomedicina, liberaremos nuestros datos de seguimiento de instrucciones y el modelo LLaVA-Med.
Los modelos preentrenados de texto a imagen de gran escala sintetizan imágenes impresionantes con un uso adecuado de indicaciones textuales. Sin embargo, las ambigüedades inherentes al lenguaje natural y los efectos fuera de distribución dificultan la síntesis de estilos de imagen que aprovechen un patrón de diseño, textura o material específico. En este artículo, presentamos StyleDrop, un método que permite la síntesis de imágenes que siguen fielmente un estilo específico utilizando un modelo de texto a imagen. El método propuesto es extremadamente versátil y captura matices y detalles de un estilo proporcionado por el usuario, como esquemas de color, sombreado, patrones de diseño, y efectos locales y globales. Aprende eficientemente un nuevo estilo mediante el ajuste fino de muy pocos parámetros entrenables (menos del 1% del total de parámetros del modelo) y mejora la calidad a través de entrenamiento iterativo con retroalimentación humana o automatizada. Aún mejor, StyleDrop es capaz de ofrecer resultados impresionantes incluso cuando el usuario proporciona solo una única imagen que especifica el estilo deseado. Un estudio extenso muestra que, para la tarea de ajuste de estilo en modelos de texto a imagen, StyleDrop implementado en Muse supera convincentemente a otros métodos, incluyendo DreamBooth e inversión textual en Imagen o Stable Diffusion. Más resultados están disponibles en nuestro sitio web del proyecto: https://styledrop.github.io.
Presentamos un agente de RL basado en valores, al que llamamos BBF, que logra un rendimiento sobrehumano en el benchmark Atari 100K. BBF se basa en escalar las redes neuronales utilizadas para la estimación de valores, así como en una serie de decisiones de diseño que permiten este escalado de manera eficiente en términos de muestras. Realizamos análisis exhaustivos de estas decisiones de diseño y ofrecemos ideas para trabajos futuros. Concluimos con una discusión sobre la actualización de los objetivos para la investigación de RL eficiente en muestras en el ALE. Ponemos nuestro código y datos a disposición del público en https://github.com/google-research/google-research/tree/master/bigger_better_faster.
Las imágenes generadas por modelos de difusión como Stable Diffusion son cada vez más comunes. Trabajos recientes e incluso demandas legales han demostrado que estos modelos tienden a replicar sus datos de entrenamiento, sin que el usuario lo sepa. En este artículo, primero analizamos este problema de memorización en los modelos de difusión de texto a imagen. Si bien se cree ampliamente que las imágenes duplicadas en el conjunto de entrenamiento son responsables de la replicación de contenido durante la inferencia, observamos que el condicionamiento textual del modelo juega un papel igualmente importante. De hecho, en nuestros experimentos vemos que la replicación de datos a menudo no ocurre en modelos no condicionados, mientras que es común en el caso condicionado por texto. Motivados por nuestros hallazgos, proponemos varias técnicas para reducir la replicación de datos tanto en el entrenamiento como en la inferencia, mediante la aleatorización y el aumento de los textos descriptivos de las imágenes en el conjunto de entrenamiento.
Los Transformers han surgido como la piedra angular de los modelos de procesamiento de lenguaje natural más avanzados, mostrando un rendimiento excepcional en una amplia gama de aplicaciones de IA. Sin embargo, las demandas de memoria impuestas por el mecanismo de autoatención y la gran red feedforward en los Transformers limitan su capacidad para manejar secuencias largas, lo que crea desafíos para tareas que involucran múltiples secuencias largas o dependencias a largo plazo. Presentamos un enfoque distintivo, el Transformer de Paralelismo por Bloques (BPT), que aprovecha el cálculo por bloques de la autoatención y la fusión de la red feedforward para minimizar los costos de memoria. Al procesar secuencias de entrada más largas mientras se mantiene la eficiencia de memoria, BPT permite entrenar secuencias hasta 32 veces más largas que los Transformers convencionales y de 2 a 4 veces más largas que los métodos anteriores eficientes en memoria. Experimentos exhaustivos en tareas de modelado de lenguaje y aprendizaje por refuerzo demuestran la efectividad de BPT en la reducción de los requisitos de memoria y la mejora del rendimiento.
Dado el rápido ascenso de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés), estudiamos la siguiente pregunta: ¿(Cómo) pueden los modelos de lenguaje grandes ayudar en la revisión de artículos científicos o propuestas? Primero, realizamos algunos estudios piloto en los que encontramos que (i) GPT-4 supera a otros LLMs (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM), y (ii) el uso de indicaciones con preguntas específicas (por ejemplo, para identificar errores) supera a las indicaciones que simplemente solicitan escribir una revisión. Con estos hallazgos, estudiamos el uso de LLMs (específicamente, GPT-4) para tres tareas: 1. Identificación de errores: Construimos 13 artículos cortos de informática, cada uno con un error insertado deliberadamente, y pedimos al LLM que verificara la corrección de estos artículos. Observamos que el LLM encontró errores en 7 de ellos, abarcando tanto errores matemáticos como conceptuales. 2. Verificación de listas de verificación: Encargamos al LLM verificar 16 preguntas cerradas de listas de verificación en las secciones respectivas de 15 artículos de NeurIPS 2022. Encontramos que, en 119 pares {pregunta de lista de verificación, artículo}, el LLM tuvo una precisión del 86.6%. 3. Elección del artículo "mejor": Generamos 10 pares de resúmenes, diseñando deliberadamente cada par de manera que un resumen fuera claramente superior al otro. Sin embargo, el LLM tuvo dificultades para discernir estas distinciones relativamente sencillas con precisión, cometiendo errores en sus evaluaciones en 6 de los 10 pares. Basándonos en estos experimentos, consideramos que los LLMs tienen un uso prometedor como asistentes de revisión para tareas específicas, pero no (aún) para evaluaciones completas de artículos o propuestas.
El preentrenamiento de lenguaje e imagen contrastivo (CLIP, por sus siglas en inglés) se posiciona como uno de los métodos más efectivos y escalables para entrenar modelos de visión transferibles utilizando datos emparejados de imágenes y texto. Los modelos CLIP se entrenan utilizando una función de pérdida contrastiva, que normalmente depende de aumentos de datos para evitar el sobreajuste y atajos. Sin embargo, en el paradigma de entrenamiento de CLIP, los aumentos de datos se aplican exclusivamente a las entradas de imágenes, mientras que las entradas de texto permanecen sin cambios durante todo el proceso de entrenamiento, lo que limita la exposición de textos diversos a la misma imagen. En este artículo, presentamos CLIP aumentado con lenguaje (LaCLIP), un enfoque simple pero altamente efectivo para mejorar el entrenamiento de CLIP mediante reescrituras de texto. Aprovechando la capacidad de aprendizaje en contexto de los modelos de lenguaje grandes, reescribimos las descripciones de texto asociadas a cada imagen. Estos textos reescritos exhiben diversidad en la estructura de las oraciones y el vocabulario, mientras conservan los conceptos y significados clave originales. Durante el entrenamiento, LaCLIP selecciona aleatoriamente entre los textos originales o las versiones reescritas como aumentos de texto para cada imagen. Experimentos exhaustivos en los conjuntos de datos CC3M, CC12M, RedCaps y LAION-400M muestran que el preentrenamiento de CLIP con reescrituras de texto mejora significativamente el rendimiento de transferencia sin incurrir en sobrecargas de cómputo o memoria durante el entrenamiento. Específicamente, en la precisión de clasificación sin entrenamiento previo (zero-shot) en ImageNet, LaCLIP supera a CLIP en un 8.2% en CC12M y en un 2.4% en LAION-400M. El código está disponible en https://github.com/LijieFan/LaCLIP.
En los últimos años, se han logrado avances considerables en la edición de imágenes mediante instrucciones de texto. Sin embargo, al aplicar estos editores a la edición de escenas dinámicas, la nueva escena tiende a ser temporalmente inconsistente debido a la naturaleza cuadro por cuadro de estos editores 2D. Para abordar este problema, proponemos Control4D, un enfoque novedoso para la edición de retratos 4D de alta fidelidad y consistencia temporal. Control4D se basa en una representación 4D eficiente junto con un editor basado en difusión 2D. En lugar de utilizar supervisiones directas del editor, nuestro método aprende un GAN 4D a partir de él y evita las señales de supervisión inconsistentes. Específicamente, empleamos un discriminador para aprender la distribución de generación basada en las imágenes editadas y luego actualizamos el generador con las señales de discriminación. Para un entrenamiento más estable, se extrae información multinivel de las imágenes editadas y se utiliza para facilitar el aprendizaje del generador. Los resultados experimentales muestran que Control4D supera a los enfoques anteriores y logra ediciones 4D más fotorrealistas y consistentes. El enlace a nuestro sitio web del proyecto es https://control4darxiv.github.io.
El aprendizaje por refuerzo (RL) offline tiene como objetivo aprender políticas óptimas a partir de conjuntos de datos offline, donde la parametrización de las políticas es crucial pero a menudo pasada por alto. Recientemente, Diffusion-QL ha mejorado significativamente el rendimiento del RL offline al representar una política con un modelo de difusión, cuyo éxito depende de una cadena de Markov parametrizada con cientos de pasos para el muestreo. Sin embargo, Diffusion-QL presenta dos limitaciones críticas: 1) Es computacionalmente ineficiente avanzar y retroceder a través de toda la cadena de Markov durante el entrenamiento. 2) Es incompatible con algoritmos de RL basados en máxima verosimilitud (por ejemplo, métodos de gradiente de políticas), ya que la verosimilitud de los modelos de difusión es intratable. Por lo tanto, proponemos la política de difusión eficiente (EDP, por sus siglas en inglés) para superar estos dos desafíos. EDP construye aproximadamente acciones a partir de acciones corrompidas durante el entrenamiento para evitar ejecutar la cadena de muestreo. Realizamos experimentos extensivos en el benchmark D4RL. Los resultados muestran que EDP puede reducir el tiempo de entrenamiento de la política de difusión de 5 días a 5 horas en tareas de locomoción en gym. Además, demostramos que EDP es compatible con varios algoritmos de RL offline (TD3, CRR e IQL) y alcanza un nuevo estado del arte en D4RL, superando ampliamente a métodos anteriores. Nuestro código está disponible en https://github.com/sail-sg/edp.
Presentamos un enfoque para reconstruir humanos y rastrearlos a lo largo del tiempo. En el núcleo de nuestro enfoque, proponemos una versión completamente "transformada" de una red para la recuperación de mallas humanas. Esta red, HMR 2.0, avanza el estado del arte y muestra la capacidad de analizar poses inusuales que en el pasado han sido difíciles de reconstruir a partir de imágenes individuales. Para analizar video, utilizamos reconstrucciones 3D de HMR 2.0 como entrada a un sistema de seguimiento que opera en 3D. Esto nos permite manejar múltiples personas y mantener identidades a través de eventos de oclusión. Nuestro enfoque completo, 4DHumans, logra resultados de vanguardia en el seguimiento de personas a partir de video monocular. Además, demostramos la efectividad de HMR 2.0 en la tarea secundaria de reconocimiento de acciones, logrando mejoras significativas sobre enfoques previos de reconocimiento de acciones basados en poses. Nuestro código y modelos están disponibles en el sitio web del proyecto: https://shubham-goel.github.io/4dhumans/.
Presentamos "¿Humano o no?", un juego en línea inspirado en la prueba de Turing, que mide la capacidad de los chatbots de IA para imitar a los humanos en el diálogo, y la habilidad de los humanos para distinguir a los bots de otros humanos. Durante el transcurso de un mes, el juego fue jugado por más de 1.5 millones de usuarios que participaron en sesiones de chat anónimas de dos minutos con otro humano o con un modelo de lenguaje de IA programado para comportarse como humanos. La tarea de los jugadores era adivinar correctamente si estaban hablando con una persona o con una IA. Esta prueba de estilo Turing a mayor escala realizada hasta la fecha reveló algunos hechos interesantes. Por ejemplo, en general, los usuarios adivinaron correctamente la identidad de sus interlocutores en solo el 68% de los juegos. En el subconjunto de juegos en los que los usuarios se enfrentaron a un bot de IA, las tasas de acierto fueron aún más bajas, del 60% (es decir, no mucho más altas que el azar). Este documento detalla el desarrollo, la implementación y los resultados de este experimento único. Si bien este experimento requiere muchas extensiones y refinamientos, estos hallazgos ya comienzan a arrojar luz sobre el inevitable futuro cercano en el que humanos e IA coexistirán.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un éxito notable en una amplia gama de tareas de generación de lenguaje natural, donde los diseños adecuados de prompts tienen un gran impacto. Si bien los métodos de prompting existentes normalmente se limitan a proporcionar información correcta, en este artículo, incentivamos al modelo a deliberar proponiendo un nuevo marco de trabajo llamado Deliberate then Generate (DTG), que consiste en instrucciones de detección de errores y candidatos que pueden contener errores. DTG es una técnica simple pero efectiva que puede aplicarse a diversas tareas de generación de texto con modificaciones mínimas. Realizamos experimentos exhaustivos en más de 20 conjuntos de datos que abarcan 7 tareas de generación de texto, incluyendo resumen, traducción, diálogo y más. Demostramos que DTG supera consistentemente los métodos de prompting existentes y alcanza un rendimiento de vanguardia en múltiples tareas de generación de texto. También proporcionamos análisis en profundidad para revelar los mecanismos subyacentes de DTG, lo que podría inspirar futuras investigaciones sobre prompting para LLMs.
La planificación procedural, que implica descomponer un objetivo de alto nivel en una secuencia de pasos ordenados temporalmente, es una tarea importante pero compleja para las máquinas. Requiere integrar conocimiento de sentido común para razonar sobre situaciones contextualizadas complejas que a menudo son contrafactuales, como "programar una cita médica sin un teléfono". Aunque los enfoques actuales muestran resultados alentadores utilizando modelos de lenguaje grandes (LLMs), se ven limitados por inconvenientes como llamadas API costosas y problemas de reproducibilidad. En este artículo, abogamos por la planificación utilizando modelos de lenguaje más pequeños. Presentamos PlaSma, un enfoque novedoso de dos vertientes para dotar a los modelos de lenguaje pequeños de conocimiento procedural y capacidades de planificación (contrafactual). Más concretamente, desarrollamos una destilación simbólica de conocimiento procedural para mejorar el conocimiento implícito en modelos de lenguaje pequeños y un algoritmo de inferencia en tiempo real para facilitar un razonamiento más estructurado y preciso. Además, introducimos una nueva tarea, Planificación Contrafactual, que requiere la revisión de un plan para adaptarse a una situación contrafactual. Tanto en el escenario original como en el contrafactual, demostramos que modelos órdenes de magnitud más pequeños (770M-11B parámetros) pueden competir y, a menudo, superar las capacidades de sus modelos maestros más grandes.