Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos los vectores temporales, una herramienta sencilla para adaptar modelos de lenguaje a nuevos períodos de tiempo. Los vectores temporales se crean ajustando un modelo de lenguaje con datos de un único período (por ejemplo, un año o un mes) y luego restando los pesos del modelo preentrenado original. Este vector especifica una dirección en el espacio de pesos que, como muestran nuestros experimentos, mejora el rendimiento en textos de ese período temporal. Los vectores temporales especializados en períodos adyacentes parecen estar posicionados más cerca entre sí en una variedad. Utilizando esta estructura, interpolamos entre vectores temporales para inducir nuevos modelos que funcionan mejor en períodos intermedios y futuros, sin necesidad de entrenamiento adicional. Demostramos la consistencia de nuestros hallazgos en diferentes tareas, dominios, tamaños de modelos y escalas temporales. Nuestros resultados sugieren que el tiempo está codificado en el espacio de pesos de los modelos ajustados.
Los recientes avances en la restauración de imágenes guiada por texto, basados en el éxito sin precedentes de los modelos de difusión de texto a imagen, han dado lugar a resultados excepcionalmente realistas y visualmente plausibles. Sin embargo, aún existe un potencial significativo de mejora en los modelos actuales de restauración de texto a imagen, particularmente en una mejor alineación del área restaurada con las indicaciones del usuario y en la realización de restauraciones de alta resolución. Por lo tanto, en este artículo presentamos HD-Painter, un enfoque completamente libre de entrenamiento que sigue con precisión las indicaciones y escala coherentemente a la restauración de imágenes de alta resolución. Para ello, diseñamos la capa de Atención Introvertida Consciente del Prompt (PAIntA), que mejora las puntuaciones de auto-atención mediante la información del prompt, lo que resulta en generaciones con mejor alineación de texto. Para mejorar aún más la coherencia del prompt, introducimos el mecanismo de Guía de Puntuación de Atención Reponderada (RASG), que integra sin problemas una estrategia de muestreo post-hoc en la forma general de DDIM para evitar desplazamientos latentes fuera de distribución. Además, HD-Painter permite la extensión a escalas más grandes mediante la introducción de una técnica de super-resolución especializada y personalizada para la restauración, lo que permite completar regiones faltantes en imágenes de hasta 2K de resolución. Nuestros experimentos demuestran que HD-Painter supera cualitativa y cuantitativamente a los enfoques más avanzados existentes, logrando una impresionante mejora en la precisión de generación del 61.4% frente al 51.9%. Haremos los códigos públicamente disponibles en: https://github.com/Picsart-AI-Research/HD-Painter
Los avances recientes en la tarea de texto-a-3D aprovechan modelos de difusión texto-a-imagen ajustados para generar imágenes multivista, seguidas de una reconstrucción mediante NeRF. Sin embargo, los modelos de difusión ajustados de manera supervisada (SFT) aún presentan inconsistencias multivista y artefactos en la reconstrucción NeRF resultante. Aunque entrenar más tiempo con SFT mejora la consistencia, también provoca un desplazamiento en la distribución, lo que reduce la diversidad y los detalles realistas. Argumentamos que el ajuste SFT de los modelos de difusión multivista se asemeja a la etapa de ajuste por instrucciones en la alineación de modelos de lenguaje (LLM) y puede beneficiarse de métodos de ajuste por refuerzo (RLFT). En esencia, los métodos RLFT optimizan los modelos más allá de su distribución de datos SFT utilizando sus propias salidas, mitigando efectivamente el desplazamiento de distribución. Para ello, presentamos Carve3D, un método RLFT combinado con la métrica de Consistencia en la Reconstrucción Multivista (MRC), para mejorar la consistencia de los modelos de difusión multivista. Para calcular MRC en un conjunto de imágenes multivista, las comparamos con sus representaciones correspondientes del NeRF reconstruido en los mismos puntos de vista. Validamos la robustez de MRC con extensos experimentos realizados bajo niveles controlados de inconsistencia. Mejoramos el algoritmo base RLFT para estabilizar el proceso de entrenamiento, reducir el desplazamiento de distribución e identificar leyes de escalado. A través de experimentos cualitativos y cuantitativos, junto con un estudio de usuarios, demostramos que Carve3D mejora la consistencia multivista, la calidad superior de la reconstrucción NeRF resultante y un desplazamiento de distribución mínimo en comparación con un SFT más prolongado. Página del proyecto: https://desaixie.github.io/carve-3d.
Presentamos ShowRoom3D, un enfoque de tres etapas para generar escenas 3D de alta calidad a escala de habitación a partir de textos. Métodos anteriores que utilizan priores de difusión 2D para optimizar campos de radiancia neural (NeRF) en la generación de escenas a escala de habitación han mostrado una calidad insatisfactoria. Esto se atribuye principalmente a las limitaciones de los priores 2D, que carecen de conciencia 3D, y a las restricciones en la metodología de entrenamiento. En este trabajo, utilizamos un prior de difusión 3D, MVDiffusion, para optimizar la escena 3D a escala de habitación. Nuestras contribuciones se centran en dos aspectos. En primer lugar, proponemos un proceso de selección de vistas progresivo para optimizar NeRF. Esto implica dividir el proceso de entrenamiento en tres etapas, expandiendo gradualmente el alcance del muestreo de cámaras. En segundo lugar, proponemos un método de transformación de poses en la segunda etapa, que garantiza que MVDiffusion proporcione una guía de vistas precisa. Como resultado, ShowRoom3D permite la generación de habitaciones con una integridad estructural mejorada, mayor claridad desde cualquier vista, reducción de la repetición de contenido y una mayor coherencia entre diferentes perspectivas. Experimentos exhaustivos demuestran que nuestro método supera significativamente a los enfoques más avanzados en términos de estudios de usuario.
Los avances actuales en el modelado de cabezas humanas permiten generar modelos 3D de cabezas con apariencia realista mediante representaciones neuronales. Sin embargo, la construcción de modelos completos de cabezas de alta fidelidad con animación controlada explícitamente sigue siendo un desafío. Además, completar la geometría de la cabeza basándose en una observación parcial, por ejemplo, proveniente de un sensor de profundidad, mientras se preservan los detalles, suele ser problemático para los métodos existentes. Introducimos un modelo generativo para mallas 3D detalladas de cabezas sobre un 3DMM articulado que permite tanto la animación explícita como la preservación de detalles de alta calidad al mismo tiempo. Nuestro método se entrena en dos etapas. Primero, registramos un modelo paramétrico de cabeza con desplazamientos de vértices en cada malla del recientemente introducido conjunto de datos NPHM, que contiene escaneos 3D precisos de cabezas. Los desplazamientos estimados se integran en un diseño UV creado manualmente. Segundo, entrenamos un modelo StyleGAN para generalizar sobre los mapas UV de desplazamientos. La descomposición del modelo paramétrico y los desplazamientos de vértices de alta calidad nos permiten animar el modelo y modificarlo semánticamente. Demostramos los resultados de la generación incondicional y el ajuste a observaciones completas o parciales. La página del proyecto está disponible en https://seva100.github.io/headcraft.