Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Kandinsky 3.0, un modelo de generación de imágenes a partir de texto a gran escala basado en difusión latente, que continúa la serie de modelos Kandinsky de texto a imagen y refleja nuestro progreso para lograr una mayor calidad y realismo en la generación de imágenes. En comparación con las versiones anteriores de Kandinsky 2.x, Kandinsky 3.0 utiliza una arquitectura U-Net dos veces más grande, un codificador de texto diez veces más grande y elimina el mapeo de difusión. Describimos la arquitectura del modelo, el procedimiento de recopilación de datos, la técnica de entrenamiento y el sistema de producción para la interacción del usuario. Nos enfocamos en los componentes clave que, como hemos identificado a partir de una gran cantidad de experimentos, tuvieron el impacto más significativo en la mejora de la calidad de nuestro modelo en comparación con otros. Según nuestras comparaciones lado a lado, Kandinsky mejora en la comprensión del texto y funciona mejor en dominios específicos. Página del proyecto: https://ai-forever.github.io/Kandinsky-3
En la síntesis de texto a voz (TTS, por sus siglas en inglés), los modelos de difusión han logrado una calidad de generación prometedora. Sin embargo, debido al proceso predefinido de difusión de datos a ruido, su distribución previa está restringida a una representación ruidosa, la cual proporciona poca información sobre el objetivo de generación. En este trabajo, presentamos un novedoso sistema TTS, Bridge-TTS, que realiza el primer intento de sustituir el previo gaussiano ruidoso en los métodos establecidos de TTS basados en difusión por uno limpio y determinista, el cual ofrece una fuerte información estructural del objetivo. Específicamente, aprovechamos la representación latente obtenida a partir de la entrada de texto como nuestro previo, y construimos un puente de Schrödinger completamente trazable entre esta y el mel-espectrograma de referencia, lo que conduce a un proceso de datos a datos. Además, la trazabilidad y flexibilidad de nuestra formulación nos permiten estudiar empíricamente los espacios de diseño, como los esquemas de ruido, así como desarrollar muestreadores estocásticos y deterministas. Los resultados experimentales en el conjunto de datos LJ-Speech ilustran la efectividad de nuestro método en términos de calidad de síntesis y eficiencia de muestreo, superando significativamente a nuestro homólogo basado en difusión, Grad-TTS, en síntesis de 50 pasos/1000 pasos, y a modelos TTS rápidos y robustos en escenarios de pocos pasos. Página del proyecto: https://bridge-tts.github.io/
El preentrenamiento de lenguaje e imagen contrastivo (CLIP) desempeña un papel esencial en la extracción de información valiosa de contenido en imágenes para diversas tareas. Alinea las modalidades textual y visual para comprender la imagen completa, incluyendo todos los detalles, incluso aquellos irrelevantes para tareas específicas. Sin embargo, para un entendimiento más fino y una edición controlada de imágenes, resulta crucial enfocarse en regiones de interés específicas, las cuales pueden ser indicadas como puntos, máscaras o cuadros delimitadores por humanos o modelos de percepción. Para cumplir con estos requisitos, presentamos Alpha-CLIP, una versión mejorada de CLIP con un canal alfa auxiliar para sugerir regiones atentivas y ajustada con millones de pares de región-texto RGBA construidos. Alpha-CLIP no solo preserva la capacidad de reconocimiento visual de CLIP, sino que también permite un control preciso sobre el énfasis del contenido de las imágenes. Demuestra su eficacia en diversas tareas, incluyendo, pero no limitándose a, reconocimiento en mundo abierto, modelos de lenguaje multimodal de gran escala y generación condicional 2D/3D. Tiene un fuerte potencial para servir como una herramienta versátil en tareas relacionadas con imágenes.
El código proporciona una estructura sintáctica general para construir programas complejos y realizar cálculos precisos cuando se combina con un intérprete de código. Planteamos la hipótesis de que los modelos de lenguaje (LMs) pueden aprovechar la escritura de código para mejorar el razonamiento de Cadena de Pensamiento (Chain of Thought, CoT), no solo en tareas de lógica y aritmética, sino también en tareas lingüísticas (y en particular, aquellas que son una mezcla de ambas). Por ejemplo, considere solicitar a un LM que escriba código que cuente el número de veces que detecta sarcasmo en un ensayo: el LM podría tener dificultades para escribir una implementación de "detect_sarcasm(string)" que pueda ser ejecutada por el intérprete (manejar los casos extremos sería insuperable). Sin embargo, los LMs aún podrían producir una solución válida si se utilizan no solo para escribir el código, sino también para "emular" selectivamente el intérprete generando la salida esperada de "detect_sarcasm(string)" y otras líneas de código (por ejemplo, que el intérprete no pudo compilar). En este trabajo, proponemos Cadena de Código (Chain of Code, CoC), una extensión simple pero sorprendentemente efectiva que mejora el razonamiento impulsado por código en los LMs. La idea clave es alentar a los LMs a formatear sub-tareas lingüísticas en un programa como pseudocódigo flexible, de modo que el compilador pueda detectar explícitamente comportamientos indefinidos y delegarlos para simular con un LM (como un "LMulator"). Los experimentos demuestran que Cadena de Código supera a Cadena de Pensamiento y otras líneas base en una variedad de benchmarks; en BIG-Bench Hard, Cadena de Código alcanza un 84%, una mejora del 12% sobre Cadena de Pensamiento. CoC escala bien tanto con modelos grandes como pequeños, y amplía el alcance de las preguntas de razonamiento que los LMs pueden responder correctamente al "pensar en código". Página web del proyecto: https://chain-of-code.github.io/.
La creación de avatares 3D de cabezas de alta fidelidad siempre ha sido un foco de investigación, pero sigue siendo un gran desafío en configuraciones ligeras con vistas escasas. En este artículo, proponemos Gaussian Head Avatar, representado por gaussianos 3D controlables para el modelado de avatares de cabezas de alta fidelidad. Optimizamos los gaussianos 3D neutros y un campo de deformación basado en MLP completamente aprendido para capturar expresiones complejas. Ambas partes se benefician mutuamente, lo que permite que nuestro método modele detalles dinámicos de gran precisión mientras garantiza la exactitud de las expresiones. Además, diseñamos una estrategia de inicialización guiada por geometría bien estructurada, basada en SDF implícito y Deep Marching Tetrahedra, para garantizar la estabilidad y convergencia del proceso de entrenamiento. Los experimentos muestran que nuestro enfoque supera a otros métodos de última generación con vistas escasas, logrando una calidad de renderizado ultra alta fidelidad en resolución 2K incluso bajo expresiones exageradas.
Los movimientos en un video consisten principalmente en el movimiento de la cámara, inducido por el desplazamiento de la cámara, y el movimiento de los objetos, resultante del desplazamiento de estos. Un control preciso tanto del movimiento de la cámara como de los objetos es esencial para la generación de videos. Sin embargo, los trabajos existentes se centran principalmente en un tipo de movimiento o no distinguen claramente entre ambos, lo que limita sus capacidades de control y diversidad. Por lo tanto, este artículo presenta MotionCtrl, un controlador de movimiento unificado y flexible para la generación de videos, diseñado para controlar de manera efectiva e independiente el movimiento de la cámara y de los objetos. La arquitectura y la estrategia de entrenamiento de MotionCtrl han sido cuidadosamente diseñadas, teniendo en cuenta las propiedades inherentes del movimiento de la cámara, el movimiento de los objetos y los datos de entrenamiento imperfectos. En comparación con métodos anteriores, MotionCtrl ofrece tres ventajas principales: 1) Controla de manera efectiva e independiente el movimiento de la cámara y de los objetos, permitiendo un control más granular del movimiento y facilitando combinaciones flexibles y diversas de ambos tipos de movimiento. 2) Sus condiciones de movimiento están determinadas por las poses y trayectorias de la cámara, que están libres de apariencia y tienen un impacto mínimo en la apariencia o forma de los objetos en los videos generados. 3) Es un modelo relativamente generalizable que puede adaptarse a una amplia gama de poses y trayectorias de la cámara una vez entrenado. Se han realizado extensos experimentos cualitativos y cuantitativos para demostrar la superioridad de MotionCtrl sobre los métodos existentes.
Este artículo presenta un análisis en profundidad de los Modelos de Lenguaje de Gran Escala (LLMs), centrándose en LLaMA, un destacado modelo fundacional de código abierto en el procesamiento del lenguaje natural. En lugar de evaluar LLaMA a través de su capacidad generativa, diseñamos tareas de opción múltiple para sondear su comprensión intrínseca en tareas de alto orden, como el razonamiento y la computación. Examinamos el modelo horizontalmente, comparando diferentes tamaños, y verticalmente, evaluando diferentes capas. Revelamos varios hallazgos clave e inusuales basados en las tareas de sondeo diseñadas: (1) Horizontalmente, aumentar el tamaño del modelo casi no puede impartir automáticamente conocimiento adicional o destreza computacional. En cambio, puede mejorar las habilidades de razonamiento, especialmente en la resolución de problemas matemáticos, y ayuda a reducir las alucinaciones, pero solo más allá de ciertos umbrales de tamaño; (2) En el análisis vertical, las capas inferiores de LLaMA carecen de conocimiento aritmético y factual sustancial, mostrando pensamiento lógico, habilidades multilingües y de reconocimiento, mientras que las capas superiores albergan la mayor parte del poder computacional y el conocimiento del mundo real.
Recientemente hemos presenciado avances significativos en el modelado y renderizado foto-realista de humanos. Sin embargo, renderizar de manera eficiente actuaciones humanas realistas e integrarlas en el pipeline de rasterización sigue siendo un desafío. En este artículo, presentamos HiFi4G, un enfoque explícito y compacto basado en Gaussianas para el renderizado de alta fidelidad de actuaciones humanas a partir de secuencias densas. Nuestra intuición central es combinar la representación de Gaussianas 3D con el seguimiento no rígido, logrando una representación compacta y amigable para la compresión. Primero, proponemos un mecanismo de doble grafo para obtener priores de movimiento, con un grafo de deformación gruesa para una inicialización efectiva y un grafo de Gaussianas de grano fino para imponer restricciones posteriores. Luego, utilizamos un esquema de optimización de Gaussianas 4D con regularizadores espacio-temporales adaptativos para equilibrar de manera efectiva el prior no rígido y la actualización de las Gaussianas. También presentamos un esquema de compresión complementario con compensación residual para experiencias inmersivas en diversas plataformas. Este logra una tasa de compresión sustancial de aproximadamente 25 veces, con menos de 2MB de almacenamiento por fotograma. Experimentos extensos demuestran la efectividad de nuestro enfoque, el cual supera significativamente a los métodos existentes en términos de velocidad de optimización, calidad de renderizado y sobrecarga de almacenamiento.
Proponemos Context Diffusion, un marco basado en difusión que permite a los modelos de generación de imágenes aprender a partir de ejemplos visuales presentados en contexto. Trabajos recientes abordan este aprendizaje en contexto para la generación de imágenes, donde se proporciona una imagen de consulta junto con ejemplos de contexto y prompts de texto. Sin embargo, la calidad y fidelidad de las imágenes generadas se deterioran cuando el prompt no está presente, lo que demuestra que estos modelos no son capaces de aprender verdaderamente del contexto visual. Para abordar esto, proponemos un marco novedoso que separa la codificación del contexto visual y la preservación de la estructura de las imágenes de consulta. Esto resulta en la capacidad de aprender tanto del contexto visual como de los prompts de texto, pero también de cualquiera de ellos por separado. Además, habilitamos a nuestro modelo para manejar configuraciones de pocos ejemplos, abordando efectivamente diversos escenarios de aprendizaje en contexto. Nuestros experimentos y estudio de usuarios demuestran que Context Diffusion sobresale tanto en tareas dentro del dominio como fuera de él, resultando en una mejora general en la calidad y fidelidad de las imágenes en comparación con modelos equivalentes.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), como ChatGPT, han generado un enorme interés debido a su capacidad de comprensión general del lenguaje y, en particular, a su habilidad para generar texto o código informático de alta calidad. Para muchas profesiones, los LLMs representan una herramienta invaluable que puede acelerar y mejorar la calidad del trabajo. En esta nota, analizamos hasta qué punto pueden ayudar a los matemáticos profesionales. Primero, proporcionamos una descripción matemática del modelo de transformador utilizado en todos los modelos de lenguaje modernos. Basándonos en estudios recientes, luego delineamos las mejores prácticas y los posibles problemas, e informamos sobre las habilidades matemáticas de los modelos de lenguaje. Finalmente, exploramos el potencial de los LLMs para transformar la forma en que trabajan los matemáticos.
La edición de vídeo basada en texto ha atraído recientemente un interés considerable para cambiar el estilo o reemplazar objetos con una estructura similar. Más allá de esto, demostramos que propiedades como la forma, el tamaño, la ubicación, el movimiento, etc., también pueden editarse en vídeos. Nuestra idea clave es que las transformaciones de fotogramas clave de características internas específicas (por ejemplo, mapas de bordes de objetos o la pose humana) pueden propagarse fácilmente a otros fotogramas para proporcionar una guía de generación. Por lo tanto, proponemos MagicStick, un método de edición de vídeo controlable que edita las propiedades del vídeo utilizando la transformación de las señales de control internas extraídas. En detalle, para mantener la apariencia, expandimos tanto el modelo de difusión de imágenes preentrenado como ControlNet a la dimensión temporal y entrenamos capas de adaptación de bajo rango (LORA) para ajustarse a escenas específicas. Luego, durante la edición, implementamos un marco de inversión y edición. De manera diferente, se introduce un ControlNet ajustado tanto en la inversión como en la generación para guiar la atención con la propuesta de mezcla de atención entre los mapas de atención espacial de la inversión y la edición. Aunque sucinto, nuestro método es el primero en demostrar la capacidad de edición de propiedades de vídeo a partir de un modelo preentrenado de texto a imagen. Presentamos experimentos en numerosos ejemplos dentro de nuestro marco unificado. También comparamos con la edición basada en texto consciente de la forma y la generación de vídeo con movimiento manual, demostrando nuestra superior consistencia temporal y capacidad de edición en comparación con trabajos anteriores. El código y los modelos estarán disponibles públicamente.
Introducimos la nueva tarea de generar Instrucciones Ilustradas, es decir, instrucciones visuales personalizadas según las necesidades del usuario. Identificamos requisitos únicos para esta tarea y la formalizamos mediante un conjunto de métricas de evaluación automática y humana, diseñadas para medir la validez, consistencia y eficacia de las generaciones. Combinamos el poder de los modelos de lenguaje de gran escala (LLMs) junto con modelos de difusión de generación de texto a imagen de alto rendimiento para proponer un enfoque simple llamado StackedDiffusion, que genera dichas instrucciones ilustradas a partir de texto como entrada. El modelo resultante supera ampliamente los enfoques de referencia y los modelos multimodales LLMs de última generación; y en el 30% de los casos, los usuarios incluso lo prefieren frente a artículos generados por humanos. Más notablemente, permite diversas aplicaciones nuevas y emocionantes que van más allá de lo que los artículos estáticos en la web pueden ofrecer, como instrucciones personalizadas que incluyen pasos intermedios e imágenes en respuesta a la situación individual del usuario.
Este artículo presenta Generación de Imágenes Condicionada por Representaciones (RCG, por sus siglas en inglés), un marco de generación de imágenes simple pero efectivo que establece un nuevo referente en la generación de imágenes sin condicionamiento de clase. RCG no se condiciona a anotaciones humanas. En su lugar, se condiciona a una distribución de representaciones auto-supervisadas que se mapea a partir de la distribución de imágenes utilizando un codificador preentrenado. Durante la generación, RCG muestrea de dicha distribución de representaciones utilizando un modelo de difusión de representaciones (RDM, por sus siglas en inglés) y emplea un generador de píxeles para crear los píxeles de la imagen condicionados por la representación muestreada. Este diseño proporciona una guía sustancial durante el proceso generativo, lo que resulta en una generación de imágenes de alta calidad. Evaluado en ImageNet 256×256, RCG logra una Distancia de Fréchet Inception (FID) de 3.31 y un Puntaje Inception (IS) de 253.4. Estos resultados no solo mejoran significativamente el estado del arte en la generación de imágenes sin condicionamiento de clase, sino que también rivalizan con los métodos líderes actuales en la generación de imágenes condicionadas por clase, cerrando la brecha de rendimiento que ha existido durante mucho tiempo entre estas dos tareas. El código está disponible en https://github.com/LTH14/rcg.
Utilizando modelos generativos 2D preentrenados a gran escala, trabajos recientes son capaces de generar vistas novedosas de alta calidad a partir de una única imagen en condiciones naturales. Sin embargo, debido a la falta de información de múltiples vistas, estos trabajos encuentran dificultades para generar vistas novedosas controlables. En este artículo, presentamos DreamComposer, un marco flexible y escalable que puede mejorar los modelos de difusión conscientes de la vista existentes mediante la inyección de condiciones de múltiples vistas. Específicamente, DreamComposer primero utiliza un módulo de elevación 3D consciente de la vista para obtener representaciones 3D de un objeto desde múltiples vistas. Luego, renderiza las características latentes de la vista objetivo a partir de las representaciones 3D con el módulo de fusión de características de múltiples vistas. Finalmente, las características de la vista objetivo extraídas de las entradas de múltiples vistas se inyectan en un modelo de difusión preentrenado. Los experimentos muestran que DreamComposer es compatible con los modelos de difusión más avanzados para la síntesis de vistas novedosas en modo zero-shot, mejorándolos aún más para generar imágenes de vistas novedosas de alta fidelidad con condiciones de múltiples vistas, listas para la reconstrucción controlable de objetos 3D y diversas otras aplicaciones.
Presentamos la Atención Monótona Multi-Cabeza Eficiente (EMMA, por sus siglas en inglés), un modelo de traducción simultánea de vanguardia con estimación de alineación monótona numéricamente estable y sin sesgo. Además, presentamos estrategias mejoradas de entrenamiento e inferencia, que incluyen el ajuste fino simultáneo a partir de un modelo de traducción fuera de línea y la reducción de la varianza en la alineación monótona. Los resultados experimentales demuestran que el modelo propuesto alcanza un rendimiento de vanguardia en la traducción simultánea de voz a texto en la tarea de traducción entre español e inglés.
La generación de imágenes instructivas de acciones humanas cotidianas desde una perspectiva egocéntrica representa un paso clave hacia la transferencia eficiente de habilidades. En este artículo, presentamos un problema novedoso: la generación de marcos de acción egocéntricos. El objetivo es sintetizar el marco de acción condicionado por una pregunta de indicación del usuario y una imagen egocéntrica de entrada que capture el entorno del usuario. Cabe destacar que los conjuntos de datos egocéntricos existentes carecen de anotaciones detalladas que describan la ejecución de las acciones. Además, los modelos de manipulación de imágenes basados en difusión no logran controlar el cambio de estado de una acción dentro del espacio de píxeles correspondiente a la imagen egocéntrica. Para abordar este problema, ajustamos un modelo de lenguaje visual de gran escala (VLLM, por sus siglas en inglés) mediante la sintonización de instrucciones visuales para recopilar descripciones enriquecidas de las acciones. Además, proponemos Aprender la Generación de marcos de acción EGOcéntricos (LEGO, por sus siglas en inglés) utilizando incrustaciones de imágenes y texto del VLLM como condiciones adicionales. Validamos nuestro modelo propuesto en dos conjuntos de datos egocéntricos: Ego4D y Epic-Kitchens. Nuestros experimentos muestran una mejora notable en comparación con los modelos de manipulación de imágenes anteriores, tanto en la evaluación cuantitativa como cualitativa. También realizamos estudios de ablación detallados y análisis para ofrecer información sobre nuestro método.
Los campos de radiancia neural ofrecen una calidad de síntesis de vistas de vanguardia, pero tienden a ser lentos en la renderización. Una razón es que utilizan renderización volumétrica, lo que requiere muchas muestras (y consultas al modelo) por rayo durante la renderización. Aunque esta representación es flexible y fácil de optimizar, la mayoría de los objetos del mundo real pueden modelarse de manera más eficiente con superficies en lugar de volúmenes, requiriendo muchas menos muestras por rayo. Esta observación ha impulsado un progreso considerable en representaciones de superficie, como las funciones de distancia con signo, pero estas pueden tener dificultades para modelar estructuras semitransparentes y delgadas. Proponemos un método, HybridNeRF, que aprovecha las fortalezas de ambas representaciones al renderizar la mayoría de los objetos como superficies mientras modela volumétricamente la (típicamente) pequeña fracción de regiones desafiantes. Evaluamos HybridNeRF en el desafiante conjunto de datos Eyeful Tower junto con otros conjuntos de datos comúnmente utilizados para la síntesis de vistas. Al compararlo con los métodos de referencia más avanzados, incluidos enfoques recientes basados en rasterización, mejoramos las tasas de error en un 15-30% mientras alcanzamos tasas de cuadros en tiempo real (al menos 36 FPS) para resoluciones de realidad virtual (2Kx2K).