Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos GAIA, un punto de referencia para Asistentes de IA General que, de ser resuelto, representaría un hito en la investigación de IA. GAIA propone preguntas del mundo real que requieren un conjunto de habilidades fundamentales como razonamiento, manejo de multimodalidad, navegación web y, en general, competencia en el uso de herramientas. Las preguntas de GAIA son conceptualmente simples para los humanos, pero desafiantes para la mayoría de las IA avanzadas: demostramos que los encuestados humanos obtienen un 92\% frente a un 15\% para GPT-4 equipado con complementos. Esta notable disparidad de rendimiento contrasta con la tendencia reciente de que los modelos de lenguaje grandes (LLM) superen a los humanos en tareas que requieren habilidades profesionales, como en derecho o química. La filosofía de GAIA se aparta de la tendencia actual en los puntos de referencia de IA, que sugieren enfocarse en tareas cada vez más difíciles para los humanos. Postulamos que el advenimiento de la Inteligencia Artificial General (AGI) depende de la capacidad de un sistema para exhibir una robustez similar a la del humano promedio en este tipo de preguntas. Utilizando la metodología de GAIA, diseñamos 466 preguntas y sus respuestas. Publicamos nuestras preguntas mientras retenemos las respuestas de 300 de ellas para alimentar un tablero de clasificación disponible en https://huggingface.co/gaia-benchmark.
Los enfoques de generación multimedia ocupan un lugar destacado en la investigación de inteligencia artificial. Los modelos de texto a imagen han logrado resultados de alta calidad en los últimos años. Sin embargo, los métodos de síntesis de video han comenzado a desarrollarse recientemente. Este artículo presenta una nueva arquitectura de generación de texto a video basada en difusión latente en dos etapas, construida sobre el modelo de difusión de texto a imagen. La primera etapa se enfoca en la síntesis de fotogramas clave para definir la narrativa del video, mientras que la segunda está dedicada a la generación de fotogramas de interpolación para suavizar los movimientos de la escena y los objetos. Comparamos varios enfoques de condicionamiento temporal para la generación de fotogramas clave. Los resultados muestran la ventaja de utilizar bloques temporales separados sobre capas temporales en términos de métricas que reflejan aspectos de calidad en la generación de video y la preferencia humana. El diseño de nuestro modelo de interpolación reduce significativamente los costos computacionales en comparación con otros enfoques de interpolación de fotogramas enmascarados. Además, evaluamos diferentes configuraciones del esquema de decodificación de video basado en MoVQ para mejorar la consistencia y lograr puntuaciones más altas en PSNR, SSIM, MSE y LPIPS. Finalmente, comparamos nuestra pipeline con soluciones existentes y alcanzamos los puntajes top-2 en general y top-1 entre las soluciones de código abierto: CLIPSIM = 0.2976 y FVD = 433.054. Página del proyecto: https://ai-forever.github.io/kandinsky-video/
Con el uso generalizado de dispositivos y contenidos de realidad virtual, las demandas de técnicas de generación de escenas 3D se han vuelto más populares. Sin embargo, los modelos existentes de generación de escenas 3D limitan la escena objetivo a dominios específicos, principalmente debido a sus estrategias de entrenamiento que utilizan conjuntos de datos de escaneos 3D que distan mucho de representar el mundo real. Para abordar esta limitación, proponemos LucidDreamer, una pipeline de generación de escenas sin restricciones de dominio que aprovecha al máximo el poder de los modelos generativos basados en difusión a gran escala existentes. Nuestro LucidDreamer consta de dos pasos alternos: Sueño y Alineación. Primero, para generar imágenes consistentes desde múltiples vistas a partir de entradas, utilizamos una nube de puntos como guía geométrica para la generación de cada imagen. Específicamente, proyectamos una porción de la nube de puntos en la vista deseada y proporcionamos la proyección como guía para la reconstrucción de imágenes utilizando el modelo generativo. Las imágenes reconstruidas se elevan al espacio 3D con mapas de profundidad estimados, componiendo nuevos puntos. Segundo, para agregar los nuevos puntos a la escena 3D, proponemos un algoritmo de alineación que integra armoniosamente las porciones de las escenas 3D recién generadas. La escena 3D finalmente obtenida sirve como puntos iniciales para optimizar los splats gaussianos. LucidDreamer produce splats gaussianos altamente detallados en comparación con los métodos anteriores de generación de escenas 3D, sin restricciones en el dominio de la escena objetivo.
Los modelos de lenguaje de gran escala (LLMs) se ajustan utilizando datos de comparación humana con métodos de Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) para alinearlos mejor con las preferencias de los usuarios. En contraste con los LLMs, el aprendizaje de preferencias humanas no ha sido ampliamente explorado en los modelos de difusión de texto a imagen; el mejor enfoque existente es ajustar un modelo preentrenado utilizando imágenes y descripciones cuidadosamente seleccionadas de alta calidad para mejorar el atractivo visual y la alineación con el texto. Proponemos Diffusion-DPO, un método para alinear modelos de difusión a las preferencias humanas optimizando directamente sobre datos de comparación humana. Diffusion-DPO se adapta del recientemente desarrollado Optimización Directa de Preferencias (DPO), una alternativa más simple a RLHF que optimiza directamente una política que mejor satisface las preferencias humanas bajo un objetivo de clasificación. Reformulamos DPO para tener en cuenta una noción de verosimilitud en modelos de difusión, utilizando el límite inferior de la evidencia para derivar un objetivo diferenciable. Utilizando el conjunto de datos Pick-a-Pic de 851K preferencias pareadas obtenidas mediante crowdsourcing, ajustamos el modelo base del estado del arte Stable Diffusion XL (SDXL)-1.0 con Diffusion-DPO. Nuestro modelo base ajustado supera significativamente tanto al modelo base SDXL-1.0 como al modelo más grande SDXL-1.0 que incluye un modelo adicional de refinamiento en evaluaciones humanas, mejorando el atractivo visual y la alineación con el prompt. También desarrollamos una variante que utiliza retroalimentación de IA y tiene un rendimiento comparable al entrenamiento con preferencias humanas, abriendo la puerta para la escalabilidad de los métodos de alineación de modelos de difusión.
Los métodos para ajustar modelos generativos con fines de personalización basada en conceptos generalmente logran resultados sólidos en la generación orientada a sujetos o estilos. Recientemente, se han propuesto adaptaciones de bajo rango (LoRA) como una forma eficiente en parámetros para lograr la personalización basada en conceptos. Aunque trabajos recientes exploran la combinación de LoRAs separados para lograr la generación conjunta de estilos y sujetos aprendidos, las técnicas existentes no abordan de manera confiable el problema; a menudo comprometen la fidelidad del sujeto o la fidelidad del estilo. Proponemos ZipLoRA, un método para fusionar de manera económica y efectiva LoRAs de estilo y sujeto entrenados de forma independiente, con el fin de lograr la generación de cualquier sujeto proporcionado por el usuario en cualquier estilo proporcionado por el usuario. Los experimentos en una amplia gama de combinaciones de sujetos y estilos muestran que ZipLoRA puede generar resultados convincentes con mejoras significativas respecto a los baselines en la fidelidad del sujeto y el estilo, al tiempo que preserva la capacidad de recontextualizar. Página del proyecto: https://ziplora.github.io.
El uso de aprendizaje por refuerzo con retroalimentación humana (RLHF, por sus siglas en inglés) ha mostrado un potencial significativo en el ajuste fino de modelos de difusión. Métodos anteriores comienzan entrenando un modelo de recompensa que se alinea con las preferencias humanas, para luego aprovechar técnicas de RL en el ajuste fino de los modelos subyacentes. Sin embargo, diseñar un modelo de recompensa eficiente requiere conjuntos de datos extensos, una arquitectura óptima y un ajuste manual de hiperparámetros, lo que convierte el proceso en algo intensivo tanto en tiempo como en costos. El método de optimización directa de preferencias (DPO, por sus siglas en inglés), efectivo en el ajuste fino de modelos de lenguaje grandes, elimina la necesidad de un modelo de recompensa. No obstante, el alto requerimiento de memoria GPU en el proceso de eliminación de ruido de los modelos de difusión dificulta la aplicación directa del método DPO. Para abordar este problema, presentamos el método de Optimización Directa de Preferencias para la Política de Difusión de Eliminación de Ruido (D3PO, por sus siglas en inglés), que permite ajustar directamente los modelos de difusión. El análisis teórico demuestra que, aunque D3PO omite el entrenamiento de un modelo de recompensa, funciona de manera efectiva como el modelo de recompensa óptimo entrenado con datos de retroalimentación humana para guiar el proceso de aprendizaje. Este enfoque no requiere el entrenamiento de un modelo de recompensa, resultando más directo, rentable y minimizando la sobrecarga computacional. En los experimentos, nuestro método utiliza la escala relativa de los objetivos como un proxy para las preferencias humanas, entregando resultados comparables a los métodos que emplean recompensas de referencia. Además, D3PO demuestra la capacidad de reducir las tasas de distorsión de imágenes y generar imágenes más seguras, superando los desafíos asociados a la falta de modelos de recompensa robustos.
El uso de indicaciones en contexto (in-context prompting) en modelos de lenguaje de gran escala (LLMs) se ha convertido en un enfoque predominante para mejorar las capacidades de cero disparos (zero-shot), pero esta idea ha sido menos explorada en el dominio visual. Los métodos existentes de indicación visual se centran en la segmentación referencial para segmentar el objeto más relevante, quedándose cortos al abordar muchas tareas genéricas de visión, como la segmentación y detección en conjuntos abiertos (open-set). En este artículo, presentamos un marco universal de indicación visual en contexto para ambas tareas. En particular, nos basamos en una arquitectura de codificador-decodificador y desarrollamos un codificador de indicaciones versátil para admitir una variedad de indicaciones, como trazos, cuadros y puntos. Además, lo mejoramos para que acepte un número arbitrario de segmentos de imágenes de referencia como contexto. Nuestras extensas exploraciones muestran que la indicación visual en contexto propuesta despierta capacidades extraordinarias de segmentación referencial y genérica para referenciar y detectar, logrando un rendimiento competitivo en conjuntos de datos cerrados dentro del dominio y mostrando resultados prometedores en muchos conjuntos de datos de segmentación en conjuntos abiertos. Mediante el entrenamiento conjunto en COCO y SA-1B, nuestro modelo alcanza 57.7 PQ en COCO y 23.2 PQ en ADE20K. El código estará disponible en https://github.com/UX-Decoder/DINOv.
Extender los modelos multimodales grandes (LMM) basados en imágenes a videos es un desafío debido a la complejidad inherente de los datos de video. Los enfoques recientes que extienden los LMM basados en imágenes a videos carecen de capacidades de anclaje (por ejemplo, VideoChat, Video-ChatGPT, Video-LLaMA) o no utilizan las señales de audio para una mejor comprensión del video (por ejemplo, Video-ChatGPT). Para abordar estas limitaciones, proponemos Video-LLaVA, el primer LMM con capacidad de anclaje a nivel de píxeles, que integra señales de audio transcribiéndolas en texto para enriquecer la comprensión del contexto del video. Nuestro marco utiliza un rastreador estándar y un nuevo módulo de anclaje, permitiéndole localizar objetos en videos de manera espacial y temporal siguiendo las instrucciones del usuario. Evaluamos Video-LLaVA utilizando benchmarks generativos y de preguntas y respuestas basados en video, e introducimos nuevos benchmarks diseñados específicamente para medir el rendimiento del anclaje de objetos basado en instrucciones en videos. Además, proponemos el uso de Vicuna en lugar de GPT-3.5, como se utiliza en Video-ChatGPT, para la evaluación de conversaciones basadas en video, asegurando la reproducibilidad de los resultados, lo cual es una preocupación debido a la naturaleza propietaria de GPT-3.5. Nuestro marco se basa en el modelo LLaVA basado en imágenes de última generación y extiende sus ventajas al dominio del video, logrando avances prometedores en tareas de conversación y anclaje basadas en video. Página del proyecto: https://github.com/mbzuai-oryx/Video-LLaVA
Este es un informe técnico sobre la tarea de generación de imágenes panorámicas de 360 grados basada en modelos de difusión. A diferencia de las imágenes 2D convencionales, las imágenes panorámicas de 360 grados capturan un campo de visión completo de 360^circtimes 180^circ. Por lo tanto, los lados más a la derecha y a la izquierda de la imagen panorámica de 360 grados deben estar conectados, lo cual representa el principal desafío en este campo. Sin embargo, la pipeline de difusión actual no es adecuada para generar una imagen panorámica de 360 grados sin costuras. Para abordar este problema, proponemos una estrategia de mezcla circular en las etapas de eliminación de ruido y decodificación VAE para mantener la continuidad geométrica. Basándonos en esto, presentamos dos modelos para las tareas de Texto-a-Panorámicas-360 y Imagen-Única-a-Panorámicas-360. El código ha sido publicado como un proyecto de código abierto en https://github.com/ArcherFMY/SD-T2I-360PanoImage{https://github.com/ArcherFMY/SD-T2I-360PanoImage} y https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary{ModelScope}.