Artículos de investigación en IA seleccionados diariamente con traducciones
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han llevado a la creación de agentes inteligentes capaces de realizar tareas complejas. Este artículo presenta un novedoso marco de agente multimodal basado en LLMs diseñado para operar aplicaciones de smartphones. Nuestro marco permite que el agente opere aplicaciones de smartphones a través de un espacio de acciones simplificado, imitando interacciones humanas como toques y deslizamientos. Este enfoque innovador elimina la necesidad de acceso al back-end del sistema, ampliando así su aplicabilidad en diversas aplicaciones. El núcleo de la funcionalidad de nuestro agente es su método de aprendizaje innovador. El agente aprende a navegar y usar nuevas aplicaciones ya sea mediante exploración autónoma o mediante la observación de demostraciones humanas. Este proceso genera una base de conocimientos a la que el agente recurre para ejecutar tareas complejas en diferentes aplicaciones. Para demostrar la practicidad de nuestro agente, realizamos pruebas exhaustivas en 50 tareas en 10 aplicaciones diferentes, incluyendo redes sociales, correo electrónico, mapas, compras y herramientas sofisticadas de edición de imágenes. Los resultados confirman la competencia de nuestro agente en el manejo de una amplia variedad de tareas de alto nivel.
Este artículo presenta Paint3D, un novedoso marco generativo de enfoque grueso a fino capaz de producir mapas de texturas UV 2K de alta resolución, sin iluminación y diversos, para mallas 3D sin textura condicionadas por entradas de texto o imágenes. El desafío principal abordado es la generación de texturas de alta calidad sin información de iluminación integrada, lo que permite que las texturas sean reiluminadas o reeditadas dentro de pipelines gráficos modernos. Para lograrlo, nuestro método primero aprovecha un modelo de difusión 2D preentrenado con conciencia de profundidad para generar imágenes condicionadas por la vista y realizar una fusión de texturas multi-vista, produciendo un mapa de textura inicial grueso. Sin embargo, como los modelos 2D no pueden representar completamente formas 3D ni deshabilitar efectos de iluminación, el mapa de textura grueso presenta áreas incompletas y artefactos de iluminación. Para resolver esto, entrenamos modelos de difusión UV Inpainting y UVHD especializados en el refinamiento consciente de la forma de áreas incompletas y la eliminación de artefactos de iluminación. A través de este proceso de grueso a fino, Paint3D puede producir texturas UV 2K de alta calidad que mantienen la consistencia semántica mientras están libres de iluminación, avanzando significativamente el estado del arte en la texturización de objetos 3D.
Presentamos los vectores temporales, una herramienta sencilla para adaptar modelos de lenguaje a nuevos períodos de tiempo. Los vectores temporales se crean ajustando un modelo de lenguaje con datos de un único período (por ejemplo, un año o un mes) y luego restando los pesos del modelo preentrenado original. Este vector especifica una dirección en el espacio de pesos que, como muestran nuestros experimentos, mejora el rendimiento en textos de ese período temporal. Los vectores temporales especializados en períodos adyacentes parecen estar posicionados más cerca entre sí en una variedad. Utilizando esta estructura, interpolamos entre vectores temporales para inducir nuevos modelos que funcionan mejor en períodos intermedios y futuros, sin necesidad de entrenamiento adicional. Demostramos la consistencia de nuestros hallazgos en diferentes tareas, dominios, tamaños de modelos y escalas temporales. Nuestros resultados sugieren que el tiempo está codificado en el espacio de pesos de los modelos ajustados.
Los recientes avances en los modelos personalizados de texto a imagen (T2I) han revolucionado la creación de contenido, permitiendo que no expertos generen imágenes impresionantes con estilos únicos. Aunque prometedor, añadir movimientos realistas a estas imágenes personalizadas mediante texto presenta desafíos significativos para preservar estilos distintivos, detalles de alta fidelidad y lograr controlabilidad del movimiento mediante texto. En este artículo, presentamos PIA, un Animador de Imágenes Personalizado que destaca en la alineación con imágenes de condición, logrando controlabilidad del movimiento mediante texto y compatibilidad con varios modelos personalizados de T2I sin ajustes específicos. Para alcanzar estos objetivos, PIA se basa en un modelo base de T2I con capas de alineación temporal bien entrenadas, permitiendo la transformación fluida de cualquier modelo personalizado de T2I en un modelo de animación de imágenes. Un componente clave de PIA es la introducción del módulo de condición, que utiliza el marco de condición y la afinidad entre marcos como entrada para transferir información de apariencia guiada por la pista de afinidad para la síntesis de marcos individuales en el espacio latente. Este diseño mitiga los desafíos de la alineación de imágenes relacionada con la apariencia y permite un enfoque más fuerte en la alineación con la guía relacionada con el movimiento.
Los recientes avances en la restauración de imágenes guiada por texto, basados en el éxito sin precedentes de los modelos de difusión de texto a imagen, han dado lugar a resultados excepcionalmente realistas y visualmente plausibles. Sin embargo, aún existe un potencial significativo de mejora en los modelos actuales de restauración de texto a imagen, particularmente en una mejor alineación del área restaurada con las indicaciones del usuario y en la realización de restauraciones de alta resolución. Por lo tanto, en este artículo presentamos HD-Painter, un enfoque completamente libre de entrenamiento que sigue con precisión las indicaciones y escala coherentemente a la restauración de imágenes de alta resolución. Para ello, diseñamos la capa de Atención Introvertida Consciente del Prompt (PAIntA), que mejora las puntuaciones de auto-atención mediante la información del prompt, lo que resulta en generaciones con mejor alineación de texto. Para mejorar aún más la coherencia del prompt, introducimos el mecanismo de Guía de Puntuación de Atención Reponderada (RASG), que integra sin problemas una estrategia de muestreo post-hoc en la forma general de DDIM para evitar desplazamientos latentes fuera de distribución. Además, HD-Painter permite la extensión a escalas más grandes mediante la introducción de una técnica de super-resolución especializada y personalizada para la restauración, lo que permite completar regiones faltantes en imágenes de hasta 2K de resolución. Nuestros experimentos demuestran que HD-Painter supera cualitativa y cuantitativamente a los enfoques más avanzados existentes, logrando una impresionante mejora en la precisión de generación del 61.4% frente al 51.9%. Haremos los códigos públicamente disponibles en: https://github.com/Picsart-AI-Research/HD-Painter
Los avances recientes en la tarea de texto-a-3D aprovechan modelos de difusión texto-a-imagen ajustados para generar imágenes multivista, seguidas de una reconstrucción mediante NeRF. Sin embargo, los modelos de difusión ajustados de manera supervisada (SFT) aún presentan inconsistencias multivista y artefactos en la reconstrucción NeRF resultante. Aunque entrenar más tiempo con SFT mejora la consistencia, también provoca un desplazamiento en la distribución, lo que reduce la diversidad y los detalles realistas. Argumentamos que el ajuste SFT de los modelos de difusión multivista se asemeja a la etapa de ajuste por instrucciones en la alineación de modelos de lenguaje (LLM) y puede beneficiarse de métodos de ajuste por refuerzo (RLFT). En esencia, los métodos RLFT optimizan los modelos más allá de su distribución de datos SFT utilizando sus propias salidas, mitigando efectivamente el desplazamiento de distribución. Para ello, presentamos Carve3D, un método RLFT combinado con la métrica de Consistencia en la Reconstrucción Multivista (MRC), para mejorar la consistencia de los modelos de difusión multivista. Para calcular MRC en un conjunto de imágenes multivista, las comparamos con sus representaciones correspondientes del NeRF reconstruido en los mismos puntos de vista. Validamos la robustez de MRC con extensos experimentos realizados bajo niveles controlados de inconsistencia. Mejoramos el algoritmo base RLFT para estabilizar el proceso de entrenamiento, reducir el desplazamiento de distribución e identificar leyes de escalado. A través de experimentos cualitativos y cuantitativos, junto con un estudio de usuarios, demostramos que Carve3D mejora la consistencia multivista, la calidad superior de la reconstrucción NeRF resultante y un desplazamiento de distribución mínimo en comparación con un SFT más prolongado. Página del proyecto: https://desaixie.github.io/carve-3d.
Presentamos ShowRoom3D, un enfoque de tres etapas para generar escenas 3D de alta calidad a escala de habitación a partir de textos. Métodos anteriores que utilizan priores de difusión 2D para optimizar campos de radiancia neural (NeRF) en la generación de escenas a escala de habitación han mostrado una calidad insatisfactoria. Esto se atribuye principalmente a las limitaciones de los priores 2D, que carecen de conciencia 3D, y a las restricciones en la metodología de entrenamiento. En este trabajo, utilizamos un prior de difusión 3D, MVDiffusion, para optimizar la escena 3D a escala de habitación. Nuestras contribuciones se centran en dos aspectos. En primer lugar, proponemos un proceso de selección de vistas progresivo para optimizar NeRF. Esto implica dividir el proceso de entrenamiento en tres etapas, expandiendo gradualmente el alcance del muestreo de cámaras. En segundo lugar, proponemos un método de transformación de poses en la segunda etapa, que garantiza que MVDiffusion proporcione una guía de vistas precisa. Como resultado, ShowRoom3D permite la generación de habitaciones con una integridad estructural mejorada, mayor claridad desde cualquier vista, reducción de la repetición de contenido y una mayor coherencia entre diferentes perspectivas. Experimentos exhaustivos demuestran que nuestro método supera significativamente a los enfoques más avanzados en términos de estudios de usuario.
La síntesis semántica de imágenes, es decir, la generación de imágenes a partir de mapas de etiquetas semánticas proporcionados por el usuario, es una tarea importante de generación condicional de imágenes, ya que permite controlar tanto el contenido como la disposición espacial de las imágenes generadas. Aunque los modelos de difusión han llevado el estado del arte en la modelización generativa de imágenes, la naturaleza iterativa de su proceso de inferencia los hace computacionalmente demandantes. Otros enfoques, como las GAN, son más eficientes, ya que solo requieren un único paso de propagación hacia adelante para la generación, pero la calidad de la imagen tiende a verse afectada en conjuntos de datos grandes y diversos. En este trabajo, proponemos una nueva clase de discriminadores GAN para la síntesis semántica de imágenes que genera imágenes altamente realistas aprovechando redes de características preentrenadas para tareas como la clasificación de imágenes. También introducimos una nueva arquitectura de generador con un mejor modelado de contexto y utilizando atención cruzada para inyectar ruido en variables latentes, lo que resulta en imágenes generadas más diversas. Nuestro modelo, al que denominamos DP-SIMS, logra resultados de vanguardia en términos de calidad de imagen y coherencia con los mapas de etiquetas de entrada en ADE-20K, COCO-Stuff y Cityscapes, superando a los recientes modelos de difusión mientras requiere dos órdenes de magnitud menos de cómputo para la inferencia.
Los avances actuales en el modelado de cabezas humanas permiten generar modelos 3D de cabezas con apariencia realista mediante representaciones neuronales. Sin embargo, la construcción de modelos completos de cabezas de alta fidelidad con animación controlada explícitamente sigue siendo un desafío. Además, completar la geometría de la cabeza basándose en una observación parcial, por ejemplo, proveniente de un sensor de profundidad, mientras se preservan los detalles, suele ser problemático para los métodos existentes. Introducimos un modelo generativo para mallas 3D detalladas de cabezas sobre un 3DMM articulado que permite tanto la animación explícita como la preservación de detalles de alta calidad al mismo tiempo. Nuestro método se entrena en dos etapas. Primero, registramos un modelo paramétrico de cabeza con desplazamientos de vértices en cada malla del recientemente introducido conjunto de datos NPHM, que contiene escaneos 3D precisos de cabezas. Los desplazamientos estimados se integran en un diseño UV creado manualmente. Segundo, entrenamos un modelo StyleGAN para generalizar sobre los mapas UV de desplazamientos. La descomposición del modelo paramétrico y los desplazamientos de vértices de alta calidad nos permiten animar el modelo y modificarlo semánticamente. Demostramos los resultados de la generación incondicional y el ajuste a observaciones completas o parciales. La página del proyecto está disponible en https://seva100.github.io/headcraft.
La síntesis de vistas de video, que permite la creación de fotogramas visualmente atractivos desde puntos de vista y momentos arbitrarios, ofrece experiencias de visualización inmersivas. Los campos de radiancia neural, particularmente NeRF, desarrollados inicialmente para escenas estáticas, han impulsado la creación de diversos métodos para la síntesis de vistas de video. Sin embargo, el desafío para la síntesis de vistas de video surge del desenfoque de movimiento, una consecuencia del movimiento del objeto o de la cámara durante la exposición, lo que dificulta la síntesis precisa de vistas espacio-temporales nítidas. En respuesta, proponemos un novedoso marco de NeRF dinámico para el desenfoque de video monocromático, llamado DyBluRF, que consta de una etapa de Refinamiento de Rayos Intercalados (IRR) y una etapa de Desenfoque basado en Descomposición de Movimiento (MDD). Nuestro DyBluRF es el primero que aborda y maneja la síntesis de nuevas vistas para video monocromático con desenfoque. La etapa IRR reconstruye conjuntamente escenas 3D dinámicas y refina la información imprecisa de la pose de la cámara para combatir la información de pose inexacta extraída de los fotogramas desenfocados dados. La etapa MDD es un enfoque novedoso de predicción incremental de rayos nítidos latentes (ILSP) para los fotogramas de video monocromático desenfocados, descomponiendo los rayos nítidos latentes en componentes de movimiento global de la cámara y movimiento local del objeto. Los resultados experimentales extensos demuestran que nuestro DyBluRF supera cualitativa y cuantitativamente a los métodos más recientes del estado del arte. Nuestra página del proyecto, que incluye códigos fuente y modelos preentrenados, está disponible públicamente en https://kaist-viclab.github.io/dyblurf-site/.