Artículos de investigación en IA seleccionados diariamente con traducciones
Si bien los mapas de texturas de alta calidad son esenciales para la renderización realista de activos 3D, pocos estudios han explorado el aprendizaje directamente en el espacio de texturas, especialmente en conjuntos de datos a gran escala. En este trabajo, nos apartamos del enfoque convencional de depender de modelos de difusión 2D pre-entrenados para la optimización en tiempo de prueba de texturas 3D. En su lugar, nos centramos en el problema fundamental de aprender en el espacio de textura UV en sí mismo. Por primera vez, entrenamos un gran modelo de difusión capaz de generar directamente mapas de texturas de alta resolución de manera feed-forward. Para facilitar un aprendizaje eficiente en espacios UV de alta resolución, proponemos una arquitectura de red escalable que entrelaza convoluciones en mapas UV con capas de atención en nubes de puntos. Aprovechando este diseño arquitectónico, entrenamos un modelo de difusión con 700 millones de parámetros que puede generar mapas de texturas UV guiados por indicaciones de texto e imágenes de una sola vista. Una vez entrenado, nuestro modelo admite naturalmente varias aplicaciones extendidas, incluyendo el relleno de texturas guiado por texto, la completación de texturas de vista escasa y la síntesis de texturas impulsada por texto. La página del proyecto se encuentra en http://cvmi-lab.github.io/TEXGen/.
El relleno de imágenes impulsado por el sujeto ha surgido como una tarea popular en la edición de imágenes junto con los avances recientes en modelos de difusión. Los métodos previos se centran principalmente en la preservación de la identidad pero luchan por mantener la capacidad de edición de los objetos insertados. En respuesta, este artículo presenta DreamMix, un modelo generativo basado en difusión capaz de insertar objetos objetivo en escenas dadas en ubicaciones especificadas por el usuario, al mismo tiempo que permite modificaciones arbitrarias impulsadas por texto en sus atributos. En particular, aprovechamos modelos avanzados de relleno de imágenes fundamentales e introducimos un marco de relleno local-global desentrelazado para equilibrar la precisa inserción local de objetos con una coherencia visual global efectiva. Además, proponemos un Mecanismo de Desacoplamiento de Atributos (ADM) y un módulo de Sustitución de Atributos Textuales (TAS) para mejorar la diversidad y la capacidad discriminativa de la orientación de atributos basada en texto, respectivamente. Experimentos extensos demuestran que DreamMix equilibra eficazmente la preservación de la identidad y la capacidad de edición de atributos en diversos escenarios de aplicación, incluyendo la inserción de objetos, la edición de atributos y el relleno de pequeños objetos. Nuestro código está disponible públicamente en https://github.com/mycfhs/DreamMix.
La inferencia con Modelos de Lenguaje Grandes (LLMs) basados en Transformadores en secuencias largas es costosa y lenta debido a la complejidad cuadrática del mecanismo de auto-atención. Introducimos Star Attention, una aproximación dispersa en bloques de dos fases que mejora la eficiencia computacional al dividir la atención entre múltiples nodos mientras se minimiza la sobrecarga de comunicación. En la primera fase, el contexto se procesa utilizando atención local en bloques entre nodos, en paralelo. En la segunda fase, los tokens de consulta y respuesta atienden a todos los tokens previamente almacenados a través de una atención global a la secuencia. Star Attention se integra perfectamente con la mayoría de los LLMs basados en Transformadores entrenados con atención global, reduciendo los requisitos de memoria y el tiempo de inferencia hasta en 11 veces mientras se preserva el 95-100% de precisión.
La construcción de asistentes de Interfaz Gráfica de Usuario (GUI) tiene un gran potencial para mejorar la productividad del flujo de trabajo humano. Aunque la mayoría de los agentes se basan en lenguaje, dependiendo de API de código cerrado con meta-información rica en texto (por ejemplo, HTML o árbol de accesibilidad), muestran limitaciones en la percepción de elementos visuales de la interfaz de usuario como lo hacen los humanos, resaltando la necesidad de agentes visuales de GUI. En este trabajo, desarrollamos un modelo visión-lenguaje-acción en el mundo digital, llamado ShowUI, que presenta las siguientes innovaciones: (i) Selección de Tokens Visuales Guiada por la Interfaz de Usuario para reducir costos computacionales formulando capturas de pantalla como un grafo conectado de la interfaz de usuario, identificando de manera adaptativa sus relaciones redundantes y sirviendo como criterio para la selección de tokens durante bloques de autoatención; (ii) Transmisión Interleada de Visión-Lenguaje-Acción que unifica de manera flexible diversas necesidades dentro de tareas de GUI, permitiendo la gestión efectiva del historial visual-acción en la navegación o emparejando secuencias de consulta-acción de múltiples turnos por captura de pantalla para mejorar la eficiencia del entrenamiento; (iii) Conjuntos de Datos de Instrucciones de GUI de Alta Calidad a Pequeña Escala mediante una cuidadosa curación de datos y empleando una estrategia de remuestreo para abordar desequilibrios significativos en los tipos de datos. Con los componentes mencionados, ShowUI, un modelo 2B ligero que utiliza 256K datos, logra una sólida precisión del 75.1% en la localización de capturas de pantalla sin entrenamiento previo. Su selección de tokens guiada por la interfaz de usuario reduce adicionalmente el 33% de tokens visuales redundantes durante el entrenamiento y acelera el rendimiento en un 1.4x. Experimentos de navegación en los entornos web Mind2Web, móvil AITW y en línea MiniWob subrayan aún más la efectividad y potencial de nuestro modelo en el avance de agentes visuales de GUI. Los modelos están disponibles en https://github.com/showlab/ShowUI.
Los avances recientes en edición de imágenes, impulsados por modelos de difusión de imágenes, han mostrado un progreso notable. Sin embargo, aún existen desafíos significativos, ya que estos modelos a menudo tienen dificultades para seguir instrucciones de edición complejas con precisión y comprometen frecuentemente la fidelidad al alterar elementos clave de la imagen original. Simultáneamente, la generación de videos ha avanzado notablemente, con modelos que funcionan efectivamente como simuladores de mundo consistentes y continuos. En este artículo, proponemos fusionar estos dos campos utilizando modelos de imagen a video para la edición de imágenes. Reformulamos la edición de imágenes como un proceso temporal, utilizando modelos de video preentrenados para crear transiciones suaves desde la imagen original hasta la edición deseada. Este enfoque recorre continuamente el espacio de imágenes, asegurando ediciones consistentes al tiempo que preserva los aspectos clave de la imagen original. Nuestro enfoque logra resultados de vanguardia en la edición de imágenes basada en texto, demostrando mejoras significativas tanto en la precisión de la edición como en la preservación de la imagen.
Como una dirección destacada de la Inteligencia Artificial General (IAG), los Modelos de Lenguaje Multimodales a Gran Escala (MLLMs) han captado una atención creciente tanto de la industria como de la academia. Basándose en LLMs pre-entrenados, esta familia de modelos desarrolla aún más capacidades de percepción y razonamiento multimodales impresionantes, como escribir código dado un diagrama de flujo o crear historias basadas en una imagen. En el proceso de desarrollo, la evaluación es crítica ya que proporciona retroalimentación intuitiva y orientación sobre cómo mejorar los modelos. Distinto del paradigma tradicional de entrenamiento-evaluación-prueba que solo favorece una única tarea como la clasificación de imágenes, la versatilidad de los MLLMs ha impulsado la aparición de varios nuevos puntos de referencia y métodos de evaluación. En este documento, nuestro objetivo es presentar un estudio exhaustivo de la evaluación de MLLM, discutiendo cuatro aspectos clave: 1) los tipos de puntos de referencia resumidos divididos por las capacidades de evaluación, incluyendo capacidades fundamentales, autoanálisis del modelo y aplicaciones extendidas; 2) el proceso típico de construcción de puntos de referencia, que consiste en la recopilación de datos, la anotación y precauciones; 3) la forma sistemática de evaluación compuesta por juez, métrica y herramientas; 4) la perspectiva para el próximo punto de referencia. Este trabajo tiene como objetivo ofrecer a los investigadores una comprensión sencilla de cómo evaluar efectivamente los MLLMs según diferentes necesidades e inspirar mejores métodos de evaluación, impulsando así el progreso de la investigación en MLLM.
Para acelerar la inferencia de Modelos de Lenguaje Multimodales Grandes y Pesados (MLLMs), este estudio reconsidera el panorama actual de la investigación de reducción de tokens sin entrenamiento. Lamentamos encontrar que los componentes críticos de los métodos existentes están estrechamente entrelazados, con sus interconexiones y efectos aún no claros para la comparación, transferencia y expansión. Por lo tanto, proponemos un paradigma unificado de ''filtrar-correlacionar-comprimir'' que descompone la reducción de tokens en tres etapas distintas dentro de un proceso en serie, manteniendo objetivos y elementos de diseño consistentes y permitiendo implementaciones únicas. Además, desmitificamos los trabajos populares y los subsumimos en nuestro paradigma para mostrar su universalidad. Finalmente, ofrecemos una serie de métodos fundamentados en el paradigma, logrando un equilibrio entre velocidad y precisión a lo largo de diferentes fases de la inferencia. Los resultados experimentales en 10 pruebas indican que nuestros métodos pueden lograr una reducción de hasta un 82.4% en FLOPs con un impacto mínimo en el rendimiento, superando simultáneamente los métodos actuales sin entrenamiento. Nuestra página del proyecto se encuentra en https://ficoco-accelerate.github.io/.
El bocetaje sirve como una herramienta versátil para externalizar ideas, permitiendo una exploración rápida y comunicación visual que abarca diversas disciplinas. Si bien los sistemas artificiales han impulsado avances sustanciales en la creación de contenido y la interacción humano-computadora, capturar la naturaleza dinámica y abstracta del bocetaje humano sigue siendo un desafío. En este trabajo, presentamos SketchAgent, un método de generación de bocetos secuencial impulsado por lenguaje que permite a los usuarios crear, modificar y refinar bocetos a través de interacciones dinámicas y conversacionales. Nuestro enfoque no requiere entrenamiento ni ajuste fino. En su lugar, aprovechamos la naturaleza secuencial y el rico conocimiento previo de modelos de lenguaje multimodales grandes (LLMs) listos para usar. Presentamos un lenguaje de bocetaje intuitivo, introducido al modelo a través de ejemplos en contexto, permitiéndole "dibujar" utilizando acciones basadas en cadenas. Estas acciones se procesan en gráficos vectoriales y luego se representan para crear un boceto en un lienzo de píxeles, que puede ser accedido nuevamente para tareas adicionales. Al dibujar trazo a trazo, nuestro agente captura las cualidades evolutivas y dinámicas intrínsecas al bocetaje. Demostramos que SketchAgent puede generar bocetos a partir de diversos estímulos, participar en dibujos impulsados por diálogo y colaborar significativamente con usuarios humanos.
Revelamos que la cuantificación de bajo número de bits favorece a los modelos de lenguaje grandes insuficientemente entrenados (LLMs) al observar que los modelos con tamaños más grandes o menos tokens de entrenamiento experimentan menos degradación inducida por la cuantificación (QiD) al aplicar la cuantificación de bajo número de bits, mientras que los modelos más pequeños con extensos tokens de entrenamiento sufren una degradación significativa de QiD. Para obtener una comprensión más profunda de esta tendencia, estudiamos más de 1500 puntos de control de LLM cuantificados de varios tamaños y en diferentes niveles de entrenamiento (insuficientemente entrenados o completamente entrenados) en un entorno controlado, derivando leyes de escala para comprender la relación entre QiD y factores como el número de tokens de entrenamiento, tamaño del modelo y ancho de bits. Con las leyes de escala derivadas, proponemos una nueva perspectiva en la que podemos utilizar QiD para medir los niveles de entrenamiento de un LLM y determinar el número de tokens de entrenamiento requeridos para entrenar completamente LLMs de varios tamaños. Además, utilizamos las leyes de escala para predecir el rendimiento de cuantificación de diferentes LLMs de tamaños variados entrenados con 100 billones de tokens. Nuestra proyección muestra que el rendimiento de cuantificación de bajo número de bits de los modelos futuros, que se espera que sean entrenados con más de 100 billones de tokens, puede NO ser deseable. Esto plantea un desafío potencial para la cuantificación de bajo número de bits en el futuro y destaca la necesidad de ser conscientes del nivel de entrenamiento de un modelo al evaluar la investigación de cuantificación de bajo número de bits. Para facilitar la investigación futura sobre este problema, liberamos todos los más de 1500 puntos de control cuantificados utilizados en este trabajo en https://huggingface.co/Xu-Ouyang.
Los modelos autoregresivos han demostrado un éxito notable en diversos campos, desde grandes modelos de lenguaje (LLMs) hasta grandes modelos multimodales (LMMs) y generación de contenido 2D, acercándose cada vez más a la inteligencia artificial general (AGI). A pesar de estos avances, la aplicación de enfoques autoregresivos a la generación y comprensión de objetos 3D sigue siendo en gran medida inexplorada. Este artículo presenta Scale AutoRegressive 3D (SAR3D), un marco novedoso que aprovecha un autoencoder variacional vector cuantificado en 3D a múltiples escalas (VQVAE) para tokenizar objetos 3D para una generación autoregresiva eficiente y una comprensión detallada. Al predecir la siguiente escala en una representación latente a múltiples escalas en lugar del siguiente token individual, SAR3D reduce significativamente el tiempo de generación, logrando una generación rápida de objetos 3D en tan solo 0.82 segundos en una GPU A6000. Además, dado que los tokens están enriquecidos con información jerárquica 3D, ajustamos finamente un LLM preentrenado en ellos, lo que permite la comprensión multimodal del contenido 3D. Nuestros experimentos muestran que SAR3D supera a los métodos actuales de generación 3D tanto en velocidad como en calidad, y permite a los LLM interpretar y describir modelos 3D de manera exhaustiva.
Los modelos generativos de recompensa visión-lenguaje (VL-GenRMs) desempeñan un papel crucial en la alineación y evaluación de sistemas de IA multimodales, sin embargo, su propia evaluación sigue siendo poco explorada. Los métodos de evaluación actuales se basan principalmente en etiquetas de preferencia anotadas por IA de tareas VL tradicionales, lo cual puede introducir sesgos y a menudo no desafía de manera efectiva a los modelos de vanguardia. Para abordar estas limitaciones, presentamos VL-RewardBench, un banco de pruebas integral que abarca consultas multimodales generales, detección de alucinaciones visuales y tareas de razonamiento complejas. A través de nuestro pipeline de anotación asistido por IA que combina la selección de muestras con verificación humana, curamos 1,250 ejemplos de alta calidad diseñados específicamente para sondear las limitaciones del modelo. La evaluación exhaustiva en 16 principales modelos grandes de visión-lenguaje, demuestra la efectividad de VL-RewardBench como un banco de pruebas desafiante, donde incluso GPT-4o logra solo un 65.4% de precisión, y modelos de código abierto de vanguardia como Qwen2-VL-72B, luchan por superar el azar. Es importante destacar que el rendimiento en VL-RewardBench se correlaciona fuertemente (r de Pearson > 0.9) con la precisión de MMMU-Pro utilizando muestreo Best-of-N con VL-GenRMs. Los experimentos de análisis revelan tres ideas críticas para mejorar los VL-GenRMs: (i) los modelos fallan predominantemente en tareas básicas de percepción visual en lugar de tareas de razonamiento; (ii) los beneficios de escalar en tiempo de inferencia varían drásticamente según la capacidad del modelo; y (iii) entrenar VL-GenRMs para aprender a juzgar aumenta sustancialmente la capacidad de juicio (+14.7% de precisión para un VL-GenRM de 7B). Creemos que VL-RewardBench junto con las ideas experimentales se convertirán en un recurso valioso para avanzar en los VL-GenRMs.
A pesar de los avances en los Modelos Multimodales Grandes, aplicarlos a contenido de video largo y sin recortar sigue siendo un desafío debido a limitaciones en la longitud del contexto y la sobrecarga de memoria sustancial. Estas restricciones a menudo resultan en una pérdida significativa de información y una reducción de la relevancia en las respuestas del modelo. Con el crecimiento exponencial de datos de video en plataformas web, comprender videos de formato largo es crucial para avanzar en la inteligencia generalizada. En este documento, presentamos SALOVA: Asistente de Video Largo con Segmentos Aumentados, un marco de trabajo de video-LLM novedoso diseñado para mejorar la comprensión de contenido de video extenso a través de un proceso de recuperación dirigido. Abordamos dos desafíos principales para lograrlo: (i) Presentamos el conjunto de datos SceneWalk, una colección de alta calidad de 87.8K videos largos, cada uno densamente subtitulado a nivel de segmento para permitir que los modelos capturen la continuidad de escenas y mantengan un contexto descriptivo rico. (ii) Desarrollamos diseños arquitectónicos robustos que integran un mecanismo de enrutamiento dinámico y un proyector espacio-temporal para recuperar y procesar eficientemente segmentos de video relevantes basados en consultas de usuario. Nuestro marco de trabajo mitiga las limitaciones de los video-LMM actuales al permitir la identificación precisa y recuperación de segmentos de video relevantes en respuesta a consultas, mejorando así la relevancia contextual de las respuestas generadas. A través de experimentos extensos, SALOVA demuestra una capacidad mejorada en el procesamiento de videos complejos de formato largo, mostrando una capacidad significativa para mantener la integridad contextual a lo largo de secuencias extendidas.
El aprendizaje auto-supervisado ha surgido como un enfoque prometedor para adquirir representaciones 3D transferibles a partir de nubes de puntos 3D no etiquetadas. A diferencia de las imágenes 2D, que son ampliamente accesibles, adquirir activos 3D requiere experiencia especializada o equipos de escaneo 3D profesionales, lo que dificulta la escalabilidad y plantea preocupaciones de derechos de autor. Para abordar estos desafíos, proponemos aprender representaciones 3D a partir de programas 3D procedurales que generan automáticamente formas 3D utilizando primitivas simples y aumentaciones. Notablemente, a pesar de carecer de contenido semántico, las representaciones 3D aprendidas a partir de este conjunto de datos sintetizado tienen un rendimiento comparable con representaciones de vanguardia aprendidas a partir de modelos 3D reconocibles semánticamente (por ejemplo, aviones) en diversas tareas 3D posteriores, incluida la clasificación de formas, segmentación de partes y completado de nubes de puntos enmascaradas. Nuestro análisis sugiere además que los métodos actuales de aprendizaje auto-supervisado capturan principalmente estructuras geométricas en lugar de semántica de alto nivel.
La llegada de los Modelos de Visión-Lenguaje Grandes (VLMs, por sus siglas en inglés) ha avanzado significativamente las tareas multimodales, permitiendo un razonamiento más sofisticado y preciso en diversas aplicaciones, incluyendo la descripción de imágenes y videos, la respuesta a preguntas visuales y la recuperación cruzada de modalidades. A pesar de sus capacidades superiores, los VLMs enfrentan dificultades con la percepción de información detallada sobre la composición regional de imágenes. Específicamente, tienen problemas para alinear con precisión las máscaras de segmentación con las semánticas correspondientes y describir de manera precisa los aspectos compositivos de las regiones referidas. Sin embargo, la composicionalidad - la capacidad de entender y generar nuevas combinaciones de componentes visuales y textuales conocidos - es fundamental para facilitar un razonamiento coherente y una comprensión entre modalidades por parte de los VLMs. Para abordar este problema, proponemos FINECAPTION, un nuevo VLM que puede reconocer máscaras arbitrarias como entradas referenciales y procesar imágenes de alta resolución para la descripción de imágenes de manera compositiva en diferentes niveles de granularidad. Para respaldar este esfuerzo, presentamos COMPOSITIONCAP, un nuevo conjunto de datos para la descripción de imágenes regionales compuestas a múltiples niveles, que introduce la tarea de descripción de imágenes regionales consciente de atributos compositivos. Los resultados empíricos demuestran la efectividad de nuestro modelo propuesto en comparación con otros VLMs de última generación. Además, analizamos las capacidades de los VLMs actuales en el reconocimiento de diversos estímulos visuales para la descripción de imágenes regionales compuestas, resaltando áreas para mejorar en el diseño y entrenamiento de los VLMs.
La generación automática de videos de promoción de productos en estilo ancla presenta oportunidades prometedoras en el comercio en línea, la publicidad y la participación del consumidor. Sin embargo, esto sigue siendo una tarea desafiante a pesar de los avances significativos en la generación de videos humanos guiados por poses. Al abordar este desafío, identificamos la integración de interacciones humano-objeto (HOI) en la generación de videos humanos guiados por poses como un problema central. Con este fin, presentamos AnchorCrafter, un novedoso sistema basado en difusión diseñado para generar videos 2D con un humano objetivo y un objeto personalizado, logrando una alta fidelidad visual e interacciones controlables. Específicamente, proponemos dos innovaciones clave: la percepción de apariencia HOI, que mejora el reconocimiento de la apariencia del objeto desde perspectivas arbitrarias de múltiples vistas y desvincula la apariencia del objeto y del humano, y la inyección de movimiento HOI, que permite interacciones humano-objeto complejas al superar los desafíos en la condicionamiento de la trayectoria del objeto y la gestión de la inter-oclusión. Además, introducimos la pérdida de reponderación de región HOI, un objetivo de entrenamiento que mejora el aprendizaje de los detalles del objeto. Experimentos extensos demuestran que nuestro sistema propuesto supera a los métodos existentes en la preservación de la apariencia y la conciencia de la forma del objeto, al mismo tiempo que mantiene la consistencia en la apariencia y el movimiento humanos. Página del proyecto: https://cangcz.github.io/Anchor-Crafter/
Para la implementación de redes neuronales en entornos con recursos limitados, trabajos previos han construido arquitecturas ligeras con convolución y atención para capturar dependencias locales y globales, respectivamente. Recientemente, el modelo de espacio de estados ha surgido como una interacción de tokens globales efectiva con su favorable costo computacional lineal en el número de tokens. Sin embargo, se ha explorado menos el uso de espinazos visuales eficientes construidos con SSM. En este documento, presentamos Vision Mamba Eficiente (EfficientViM), una arquitectura novedosa construida sobre la dualidad de espacio de estados basada en mezclador de estados ocultos (HSM-SSD) que captura eficientemente dependencias globales con un costo computacional reducido. En la capa HSM-SSD, rediseñamos la capa SSD anterior para habilitar la operación de mezcla de canales dentro de los estados ocultos. Además, proponemos una fusión de estados ocultos en múltiples etapas para reforzar aún más el poder de representación de los estados ocultos, y proporcionamos el diseño que alivia el cuello de botella causado por las operaciones limitadas por la memoria. Como resultado, la familia EfficientViM logra un nuevo equilibrio entre velocidad y precisión de vanguardia en ImageNet-1k, ofreciendo hasta un 0.7% de mejora en el rendimiento sobre el segundo mejor modelo SHViT con una velocidad más rápida. Además, observamos mejoras significativas en el rendimiento y la precisión en comparación con trabajos anteriores al escalar imágenes o al emplear entrenamiento por destilación. El código está disponible en https://github.com/mlvlab/EfficientViM.
El descubrimiento de moléculas es un campo de investigación fundamental que impacta desde los medicamentos que tomamos hasta los materiales que utilizamos. Recientemente, los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) han sido ampliamente adoptados en la comprensión y generación de moléculas, sin embargo, las alineaciones entre las moléculas y sus correspondientes leyendas siguen siendo un desafío significativo. Esfuerzos previos a menudo tratan a la molécula como una cadena SMILES general o un grafo molecular, descuidando las alineaciones detalladas entre las subestructuras moleculares y las frases textuales descriptivas, las cuales son cruciales para predicciones precisas y explicables. En este caso, presentamos MolReFlect, un novedoso marco de trabajo profesor-alumno diseñado para realizar las alineaciones molécula-leyenda de manera detallada y contextual. Nuestro enfoque aprovecha inicialmente un profesor LLM más grande para etiquetar las alineaciones detalladas extrayendo directamente frases críticas de leyendas de moléculas o cadenas SMILES e implicándolas en las subestructuras o características correspondientes. Para refinar estas alineaciones, proponemos Reflexión Selectiva en Contexto, que recupera resultados de extracciones previas como ejemplos de contexto para que el profesor LLM reflexione y permite que un alumno LLM más pequeño seleccione entre la reflexión en contexto y los resultados de extracciones previas. Finalmente, mejoramos el proceso de aprendizaje del alumno LLM a través de Ajuste de Molécula en Contexto de Cadena de Pensamiento, integrando las alineaciones detalladas y los procesos de razonamiento dentro del formato de Cadena de Pensamiento. Nuestros resultados experimentales demuestran que MolReFlect permite a LLMs como Mistral-7B superar significativamente los baselines anteriores, logrando un rendimiento de última generación en el conjunto de datos ChEBI-20. Este avance no solo mejora las capacidades generativas de los LLMs en la tarea de traducción molécula-leyenda, sino que también contribuye a un marco de trabajo más explicativo.
Presentamos BootComp, un nuevo marco basado en modelos de difusión de texto a imagen para la generación de imágenes humanas controlables con múltiples prendas de referencia. Aquí, el principal cuello de botella es la adquisición de datos para el entrenamiento: recolectar un conjunto de datos a gran escala de imágenes de alta calidad de prendas de referencia por sujeto humano es bastante desafiante, es decir, idealmente, se necesita recopilar manualmente cada fotografía de prenda usada por cada humano. Para abordar esto, proponemos un pipeline de generación de datos para construir un amplio conjunto de datos sintéticos, que consiste en pares de humanos y múltiples prendas, mediante la introducción de un modelo para extraer cualquier imagen de prenda de referencia de cada imagen humana. Para garantizar la calidad de los datos, también proponemos una estrategia de filtrado para eliminar datos generados no deseados basados en la medición de similitudes perceptuales entre la prenda presentada en la imagen humana y la prenda extraída. Finalmente, mediante la utilización del conjunto de datos sintéticos construido, entrenamos un modelo de difusión que tiene dos rutas de eliminación de ruido paralelas que utilizan múltiples imágenes de prendas como condiciones para generar imágenes humanas mientras se preservan sus detalles detallados. Además, demostramos la amplia aplicabilidad de nuestro marco adaptándolo a diferentes tipos de generación basada en referencia en el dominio de la moda, incluyendo la prueba virtual de prendas y la generación de imágenes humanas controlables con otras condiciones, como la pose, el rostro, etc.
La proliferación de técnicas de IA para la generación de imágenes, junto con su creciente accesibilidad, ha suscitado preocupaciones significativas sobre el posible uso indebido de estas imágenes para difundir desinformación. Los recientes métodos de detección de imágenes generadas por IA (AGID) incluyen CNNDetection, NPR, Detección de Imágenes DM, Detección de Imágenes Falsas, DIRE, LASTED, Detección de Imágenes GAN, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake y Detección de Deep Fakes. Sin embargo, sostenemos que las técnicas AGID de vanguardia actuales son insuficientes para detectar eficazmente las imágenes generadas por IA contemporáneas y abogamos por una reevaluación integral de estos métodos. Presentamos el Test de Turing Visual Contrarreloj (VCT^2), un banco de pruebas que comprende ~130K imágenes generadas por modelos de texto a imagen contemporáneos (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3 y Midjourney 6). VCT^2 incluye dos conjuntos de estímulos obtenidos de tweets de la cuenta de Twitter de New York Times y subtítulos del conjunto de datos MS COCO. También evaluamos el rendimiento de las técnicas AGID mencionadas anteriormente en el banco de pruebas VCT^2, resaltando su falta de efectividad en la detección de imágenes generadas por IA. A medida que los modelos de IA generativos de imágenes continúan evolucionando, la necesidad de un marco cuantificable para evaluar estos modelos se vuelve cada vez más crítica. Para satisfacer esta necesidad, proponemos el Índice de IA Visual (V_AI), que evalúa imágenes generadas desde diversas perspectivas visuales, incluida la complejidad de textura y la coherencia de objetos, estableciendo un nuevo estándar para evaluar modelos de IA generativos de imágenes. Para fomentar la investigación en este ámbito, ponemos a disposición públicamente nuestros conjuntos de datos COCO_AI y Twitter_AI en https://huggingface.co/datasets/anonymous1233/COCO_AI y https://huggingface.co/datasets/anonymous1233/twitter_AI.