Artículos de investigación en IA seleccionados diariamente con traducciones
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han llevado a la creación de agentes inteligentes capaces de realizar tareas complejas. Este artículo presenta un novedoso marco de agente multimodal basado en LLMs diseñado para operar aplicaciones de smartphones. Nuestro marco permite que el agente opere aplicaciones de smartphones a través de un espacio de acciones simplificado, imitando interacciones humanas como toques y deslizamientos. Este enfoque innovador elimina la necesidad de acceso al back-end del sistema, ampliando así su aplicabilidad en diversas aplicaciones. El núcleo de la funcionalidad de nuestro agente es su método de aprendizaje innovador. El agente aprende a navegar y usar nuevas aplicaciones ya sea mediante exploración autónoma o mediante la observación de demostraciones humanas. Este proceso genera una base de conocimientos a la que el agente recurre para ejecutar tareas complejas en diferentes aplicaciones. Para demostrar la practicidad de nuestro agente, realizamos pruebas exhaustivas en 50 tareas en 10 aplicaciones diferentes, incluyendo redes sociales, correo electrónico, mapas, compras y herramientas sofisticadas de edición de imágenes. Los resultados confirman la competencia de nuestro agente en el manejo de una amplia variedad de tareas de alto nivel.
Este artículo presenta Paint3D, un novedoso marco generativo de enfoque grueso a fino capaz de producir mapas de texturas UV 2K de alta resolución, sin iluminación y diversos, para mallas 3D sin textura condicionadas por entradas de texto o imágenes. El desafío principal abordado es la generación de texturas de alta calidad sin información de iluminación integrada, lo que permite que las texturas sean reiluminadas o reeditadas dentro de pipelines gráficos modernos. Para lograrlo, nuestro método primero aprovecha un modelo de difusión 2D preentrenado con conciencia de profundidad para generar imágenes condicionadas por la vista y realizar una fusión de texturas multi-vista, produciendo un mapa de textura inicial grueso. Sin embargo, como los modelos 2D no pueden representar completamente formas 3D ni deshabilitar efectos de iluminación, el mapa de textura grueso presenta áreas incompletas y artefactos de iluminación. Para resolver esto, entrenamos modelos de difusión UV Inpainting y UVHD especializados en el refinamiento consciente de la forma de áreas incompletas y la eliminación de artefactos de iluminación. A través de este proceso de grueso a fino, Paint3D puede producir texturas UV 2K de alta calidad que mantienen la consistencia semántica mientras están libres de iluminación, avanzando significativamente el estado del arte en la texturización de objetos 3D.
Los recientes avances en los modelos personalizados de texto a imagen (T2I) han revolucionado la creación de contenido, permitiendo que no expertos generen imágenes impresionantes con estilos únicos. Aunque prometedor, añadir movimientos realistas a estas imágenes personalizadas mediante texto presenta desafíos significativos para preservar estilos distintivos, detalles de alta fidelidad y lograr controlabilidad del movimiento mediante texto. En este artículo, presentamos PIA, un Animador de Imágenes Personalizado que destaca en la alineación con imágenes de condición, logrando controlabilidad del movimiento mediante texto y compatibilidad con varios modelos personalizados de T2I sin ajustes específicos. Para alcanzar estos objetivos, PIA se basa en un modelo base de T2I con capas de alineación temporal bien entrenadas, permitiendo la transformación fluida de cualquier modelo personalizado de T2I en un modelo de animación de imágenes. Un componente clave de PIA es la introducción del módulo de condición, que utiliza el marco de condición y la afinidad entre marcos como entrada para transferir información de apariencia guiada por la pista de afinidad para la síntesis de marcos individuales en el espacio latente. Este diseño mitiga los desafíos de la alineación de imágenes relacionada con la apariencia y permite un enfoque más fuerte en la alineación con la guía relacionada con el movimiento.
La síntesis semántica de imágenes, es decir, la generación de imágenes a partir de mapas de etiquetas semánticas proporcionados por el usuario, es una tarea importante de generación condicional de imágenes, ya que permite controlar tanto el contenido como la disposición espacial de las imágenes generadas. Aunque los modelos de difusión han llevado el estado del arte en la modelización generativa de imágenes, la naturaleza iterativa de su proceso de inferencia los hace computacionalmente demandantes. Otros enfoques, como las GAN, son más eficientes, ya que solo requieren un único paso de propagación hacia adelante para la generación, pero la calidad de la imagen tiende a verse afectada en conjuntos de datos grandes y diversos. En este trabajo, proponemos una nueva clase de discriminadores GAN para la síntesis semántica de imágenes que genera imágenes altamente realistas aprovechando redes de características preentrenadas para tareas como la clasificación de imágenes. También introducimos una nueva arquitectura de generador con un mejor modelado de contexto y utilizando atención cruzada para inyectar ruido en variables latentes, lo que resulta en imágenes generadas más diversas. Nuestro modelo, al que denominamos DP-SIMS, logra resultados de vanguardia en términos de calidad de imagen y coherencia con los mapas de etiquetas de entrada en ADE-20K, COCO-Stuff y Cityscapes, superando a los recientes modelos de difusión mientras requiere dos órdenes de magnitud menos de cómputo para la inferencia.
La síntesis de vistas de video, que permite la creación de fotogramas visualmente atractivos desde puntos de vista y momentos arbitrarios, ofrece experiencias de visualización inmersivas. Los campos de radiancia neural, particularmente NeRF, desarrollados inicialmente para escenas estáticas, han impulsado la creación de diversos métodos para la síntesis de vistas de video. Sin embargo, el desafío para la síntesis de vistas de video surge del desenfoque de movimiento, una consecuencia del movimiento del objeto o de la cámara durante la exposición, lo que dificulta la síntesis precisa de vistas espacio-temporales nítidas. En respuesta, proponemos un novedoso marco de NeRF dinámico para el desenfoque de video monocromático, llamado DyBluRF, que consta de una etapa de Refinamiento de Rayos Intercalados (IRR) y una etapa de Desenfoque basado en Descomposición de Movimiento (MDD). Nuestro DyBluRF es el primero que aborda y maneja la síntesis de nuevas vistas para video monocromático con desenfoque. La etapa IRR reconstruye conjuntamente escenas 3D dinámicas y refina la información imprecisa de la pose de la cámara para combatir la información de pose inexacta extraída de los fotogramas desenfocados dados. La etapa MDD es un enfoque novedoso de predicción incremental de rayos nítidos latentes (ILSP) para los fotogramas de video monocromático desenfocados, descomponiendo los rayos nítidos latentes en componentes de movimiento global de la cámara y movimiento local del objeto. Los resultados experimentales extensos demuestran que nuestro DyBluRF supera cualitativa y cuantitativamente a los métodos más recientes del estado del arte. Nuestra página del proyecto, que incluye códigos fuente y modelos preentrenados, está disponible públicamente en https://kaist-viclab.github.io/dyblurf-site/.