Artículos de investigación en IA seleccionados diariamente con traducciones
La marca de agua en las salidas de los modelos generativos es una técnica crucial para rastrear derechos de autor y prevenir posibles daños causados por contenido generado por IA. En este artículo, presentamos una técnica novedosa llamada Marca de Agua de Anillos de Árbol que robustamente identifica las salidas de los modelos de difusión. A diferencia de los métodos existentes que realizan modificaciones posteriores a las imágenes después del muestreo, la Marca de Agua de Anillos de Árbol influye sutilmente en todo el proceso de muestreo, resultando en una huella del modelo que es invisible para los humanos. La marca de agua incrusta un patrón en el vector de ruido inicial utilizado para el muestreo. Estos patrones están estructurados en el espacio de Fourier para que sean invariantes a convoluciones, recortes, dilataciones, volteos y rotaciones. Después de la generación de la imagen, la señal de la marca de agua se detecta invirtiendo el proceso de difusión para recuperar el vector de ruido, el cual luego se verifica en busca de la señal incrustada. Demostramos que esta técnica puede aplicarse fácilmente a modelos de difusión arbitrarios, incluyendo Stable Diffusion condicionado por texto, como un complemento con una pérdida insignificante en FID. Nuestra marca de agua está semánticamente oculta en el espacio de la imagen y es mucho más robusta que las alternativas de marca de agua actualmente implementadas. El código está disponible en github.com/YuxinWenRick/tree-ring-watermark.
Los modelos de lenguaje grandes (LLMs) basados en Transformers han generado admiración por su desempeño excepcional en tareas que requieren razonamiento complejo de múltiples pasos. Sin embargo, estos modelos también muestran fallos en problemas sorprendentemente triviales. Esto plantea la pregunta: ¿Son estos errores incidentales, o indican limitaciones más sustanciales? En un intento por desmitificar los Transformers, investigamos los límites de estos modelos en tres tareas composicionales representativas: multiplicación de múltiples dígitos, rompecabezas de lógica en cuadrícula y un problema clásico de programación dinámica. Estas tareas requieren descomponer problemas en subpasos y sintetizar estos pasos en una respuesta precisa. Formulamos las tareas composicionales como grafos de cálculo para cuantificar sistemáticamente el nivel de complejidad y desglosamos los pasos de razonamiento en subprocedimientos intermedios. Nuestros hallazgos empíricos sugieren que los Transformers resuelven tareas composicionales reduciendo el razonamiento composicional de múltiples pasos a una coincidencia linealizada de subgrafos, sin necesariamente desarrollar habilidades sistemáticas de resolución de problemas. Para complementar nuestro estudio empírico, proporcionamos argumentos teóricos sobre problemas abstractos de razonamiento de múltiples pasos que destacan cómo el desempeño de los Transformers decae rápidamente con el aumento de la complejidad de la tarea.
La síntesis automática de texto a 3D ha logrado avances notables a través de la optimización de modelos 3D. Los métodos existentes comúnmente dependen de modelos generativos de texto a imagen preentrenados, como los modelos de difusión, que proporcionan puntuaciones para representaciones 2D de Campos de Radiancia Neural (NeRFs) y se utilizan para optimizar NeRFs. Sin embargo, estos métodos a menudo encuentran artefactos e inconsistencias en múltiples vistas debido a su comprensión limitada de la geometría 3D. Para abordar estas limitaciones, proponemos una reformulación de la pérdida de optimización utilizando el prior de difusión. Además, introducimos un enfoque de entrenamiento novedoso que desbloquea el potencial del prior de difusión. Para mejorar la representación de la geometría 3D, aplicamos supervisión auxiliar de profundidad para imágenes renderizadas por NeRF y regularizamos el campo de densidad de los NeRFs. Experimentos extensivos demuestran la superioridad de nuestro método sobre trabajos anteriores, resultando en un fotorrealismo avanzado y una mejor consistencia multi-vista.
Los recientes avances en los modelos de difusión de imagen-texto han estimulado el interés en la investigación de modelos generativos 3D a gran escala. Sin embargo, la disponibilidad limitada de recursos 3D diversos presenta desafíos significativos para el aprendizaje. En este artículo, presentamos un método novedoso para generar avatares 3D estilizados de alta calidad que utiliza modelos de difusión de imagen-texto preentrenados para la generación de datos y una red generativa adversarial (GAN) para la generación 3D durante el entrenamiento. Nuestro método aprovecha los conocimientos previos integrales de apariencia y geometría ofrecidos por los modelos de difusión de imagen-texto para generar imágenes multi-vista de avatares en varios estilos. Durante la generación de datos, empleamos poses extraídas de modelos 3D existentes para guiar la generación de imágenes multi-vista. Para abordar la desalineación entre poses e imágenes en los datos, investigamos indicaciones específicas de vista y desarrollamos un discriminador de entrenamiento GAN de grueso a fino. También profundizamos en indicaciones relacionadas con atributos para aumentar la diversidad de los avatares generados. Además, desarrollamos un modelo de difusión latente dentro del espacio de estilo de StyleGAN para permitir la generación de avatares basados en entradas de imagen. Nuestro enfoque demuestra un rendimiento superior sobre los métodos actuales más avanzados en términos de calidad visual y diversidad de los avatares producidos.
Este artículo presenta un nuevo conjunto de datos de voz llamado ``LibriTTS-R'' diseñado para su uso en síntesis de voz (TTS, por sus siglas en inglés). Se deriva aplicando técnicas de restauración de voz al corpus LibriTTS, que consta de 585 horas de datos de voz muestreados a 24 kHz provenientes de 2,456 hablantes y sus textos correspondientes. Las muestras que componen LibriTTS-R son idénticas a las de LibriTTS, con la única diferencia de que la calidad del sonido ha sido mejorada. Los resultados experimentales muestran que las muestras de referencia de LibriTTS-R presentaron una calidad de sonido significativamente mejorada en comparación con las de LibriTTS. Además, los sistemas de TTS neuronal de extremo a extremo entrenados con LibriTTS-R lograron una naturalidad del habla comparable a la de las muestras de referencia. El corpus está disponible gratuitamente para su descarga en http://www.openslr.org/141/.
Los recientes avances en los modelos de difusión han permitido generar imágenes de alta fidelidad utilizando indicaciones de texto. Sin embargo, existe una brecha de dominio entre las imágenes generadas y las imágenes del mundo real, lo que plantea un desafío para generar variaciones de alta calidad de imágenes del mundo real. Nuestra investigación revela que esta brecha de dominio se origina en una diferencia en la distribución de los latentes en diferentes procesos de difusión. Para abordar este problema, proponemos una novedosa canalización de inferencia llamada Variación de Imágenes del Mundo Real mediante Alineación (RIVAL, por sus siglas en inglés), que utiliza modelos de difusión para generar variaciones de imágenes a partir de un único ejemplar de imagen. Nuestra canalización mejora la calidad de la generación de variaciones de imágenes al alinear el proceso de generación de imágenes con la cadena de inversión de la imagen de origen. Específicamente, demostramos que la alineación paso a paso de la distribución de los latentes es esencial para generar variaciones de alta calidad. Para lograrlo, diseñamos una inyección de auto-atención entre imágenes para la interacción de características y una normalización de distribución paso a paso para alinear las características latentes. La incorporación de estos procesos de alineación en un modelo de difusión permite que RIVAL genere variaciones de imágenes de alta calidad sin necesidad de una optimización adicional de parámetros. Nuestros resultados experimentales demuestran que nuestro enfoque propuesto supera a los métodos existentes en cuanto a similitud de condición semántica y calidad perceptual. Además, esta canalización de inferencia generalizada puede aplicarse fácilmente a otras tareas de generación basadas en difusión, como la generación de texto a imagen condicionada por imagen y la restauración de imágenes basada en ejemplos.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) pueden aprender a realizar una amplia gama de tareas de lenguaje natural a partir de solo un puñado de ejemplos en contexto. Sin embargo, para generar cadenas de lenguajes altamente estructurados (por ejemplo, análisis semántico hacia lenguajes específicos de dominio complejos), es un desafío para el LLM generalizar a partir de solo unos pocos ejemplos. Exploramos el "grammar prompting" (sugerencia gramatical) como un enfoque simple para permitir que los LLMs utilicen conocimiento externo y restricciones específicas de dominio, expresadas a través de una gramática en Forma de Backus-Naur (BNF), durante el aprendizaje en contexto. El "grammar prompting" complementa cada ejemplo de demostración con una gramática especializada que es mínimamente suficiente para generar el ejemplo de salida particular, donde la gramática especializada es un subconjunto de la gramática completa del DSL. Para la inferencia, el LLM primero predice una gramática BNF dado una entrada de prueba, y luego genera la salida de acuerdo con las reglas de la gramática. Los experimentos demuestran que el "grammar prompting" puede permitir que los LLMs se desempeñen de manera competitiva en un conjunto diverso de tareas de generación de DSL, incluyendo análisis semántico (SMCalFlow, Overnight, GeoQuery), planificación PDDL e incluso generación de moléculas (SMILES).
Presentamos la receta de entrenamiento y los resultados de escalar PaLI-X, un modelo multilingüe de visión y lenguaje, tanto en términos del tamaño de sus componentes como de la amplitud de su mezcla de tareas de entrenamiento. Nuestro modelo alcanza nuevos niveles de rendimiento en una amplia gama de tareas variadas y complejas, que incluyen múltiples tareas de generación de descripciones y respuesta a preguntas basadas en imágenes, comprensión de documentos basados en imágenes y aprendizaje de pocos ejemplos (en contexto), así como detección de objetos, respuesta a preguntas en videos y generación de descripciones de videos. PaLI-X avanza el estado del arte en la mayoría de los benchmarks de visión y lenguaje considerados (más de 25). Finalmente, observamos capacidades emergentes, como conteo complejo y detección de objetos multilingüe, tareas que no están explícitamente en la mezcla de entrenamiento.
Los grandes modelos de difusión han tenido éxito en tareas de síntesis de texto a audio (T2A), pero a menudo presentan problemas comunes como la desalineación semántica y la inconsistencia temporal debido a una comprensión limitada del lenguaje natural y a la escasez de datos. Además, las estructuras espaciales 2D ampliamente utilizadas en trabajos de T2A resultan en una calidad de audio insatisfactoria al generar muestras de audio de longitud variable, ya que no priorizan adecuadamente la información temporal. Para abordar estos desafíos, proponemos Make-an-Audio 2, un método T2A basado en difusión latente que se basa en el éxito de Make-an-Audio. Nuestro enfoque incluye varias técnicas para mejorar la alineación semántica y la consistencia temporal: En primer lugar, utilizamos modelos de lenguaje grandes (LLMs) preentrenados para analizar el texto en pares estructurados <evento & orden> con el fin de capturar mejor la información temporal. También introducimos otro codificador de texto estructurado para ayudar en el aprendizaje de la alineación semántica durante el proceso de desruido por difusión. Para mejorar el rendimiento en la generación de longitud variable y potenciar la extracción de información temporal, diseñamos un desruidor de difusión basado en un Transformer de avance. Finalmente, utilizamos LLMs para aumentar y transformar una gran cantidad de datos de etiquetas de audio en conjuntos de datos de audio-texto, con el fin de mitigar el problema de la escasez de datos temporales. Experimentos exhaustivos muestran que nuestro método supera a los modelos de referencia tanto en métricas objetivas como subjetivas, y logra avances significativos en la comprensión de la información temporal, la consistencia semántica y la calidad del sonido.
Este artículo presenta un método que puede adaptar rápidamente avatares 3D dinámicos a descripciones textuales arbitrarias de estilos novedosos. Entre los enfoques existentes para la estilización de avatares, los métodos de optimización directa pueden producir resultados excelentes para estilos arbitrarios, pero son desagradablemente lentos. Además, requieren repetir el proceso de optimización desde cero para cada nueva entrada. Los métodos de aproximación rápida que utilizan redes de avance entrenadas en un gran conjunto de datos de imágenes de estilo pueden generar resultados para nuevas entradas rápidamente, pero tienden a no generalizar bien a estilos novedosos y se quedan cortos en calidad. Por lo tanto, investigamos un nuevo enfoque, AlteredAvatar, que combina esos dos métodos utilizando el marco de metaaprendizaje. En el bucle interno, el modelo aprende a optimizar para coincidir bien con un solo estilo objetivo; mientras que en el bucle externo, el modelo aprende a estilizar de manera eficiente en muchos estilos. Después del entrenamiento, AlteredAvatar aprende una inicialización que puede adaptarse rápidamente en un pequeño número de pasos de actualización a un estilo novedoso, que puede darse mediante textos, una imagen de referencia o una combinación de ambos. Mostramos que AlteredAvatar puede lograr un buen equilibrio entre velocidad, flexibilidad y calidad, manteniendo la coherencia en una amplia gama de vistas novedosas y expresiones faciales.
Proponemos un algoritmo automatizado para realizar pruebas de estrés a un modelo visual entrenado mediante la generación de imágenes de prueba contrafactuales guiadas por lenguaje (LANCE). Nuestro método aprovecha los avances recientes en el modelado de lenguaje a gran escala y la edición de imágenes basada en texto para ampliar un conjunto de pruebas IID con una serie de imágenes de prueba diversas, realistas y desafiantes sin alterar los pesos del modelo. Evaluamos el rendimiento de un conjunto diverso de modelos preentrenados en nuestros datos generados y observamos caídas significativas y consistentes en el rendimiento. Además, analizamos la sensibilidad del modelo frente a diferentes tipos de ediciones y demostramos su aplicabilidad para revelar sesgos a nivel de clase previamente desconocidos en ImageNet.
Los problemas que involucran datos geométricos surgen en diversos campos, como la visión por computadora, la robótica, la química y la física. Estos datos pueden adoptar múltiples formas, como puntos, vectores de dirección, planos o transformaciones, pero hasta la fecha no existe una arquitectura única que pueda aplicarse a una variedad tan amplia de tipos geométricos respetando sus simetrías. En este artículo presentamos el Geometric Algebra Transformer (GATr), una arquitectura de propósito general para datos geométricos. GATr representa las entradas, salidas y estados ocultos en el álgebra geométrica proyectiva, la cual ofrece una representación eficiente en un espacio vectorial de 16 dimensiones para objetos geométricos comunes, así como para operadores que actúan sobre ellos. GATr es equivariante respecto a E(3), el grupo de simetría del espacio euclidiano tridimensional. Como transformador, GATr es escalable, expresivo y versátil. En experimentos de modelado de sistemas de n cuerpos y planificación robótica, GATr muestra mejoras significativas frente a líneas base no geométricas.
Los modelos de difusión representan el estado del arte actual en generación de imágenes, sintetizando imágenes de alta calidad al descomponer el proceso de generación en muchos pasos de eliminación de ruido de grano fino. A pesar de su buen rendimiento, los modelos de difusión son computacionalmente costosos, requiriendo muchas evaluaciones de funciones neuronales (NFEs, por sus siglas en inglés). En este trabajo, proponemos un método basado en difusión que puede generar imágenes viables cuando se detiene en tiempos arbitrarios antes de su finalización. Utilizando modelos de difusión preentrenados existentes, demostramos que el esquema de generación puede recomponerse como dos procesos de difusión anidados, permitiendo un refinamiento iterativo rápido de una imagen generada. Usamos este enfoque de Difusión Anidada para observar el proceso de generación y permitir una programación flexible basada en la preferencia instantánea del usuario. En experimentos con ImageNet y generación de imágenes a partir de texto basada en Stable Diffusion, mostramos, tanto cualitativa como cuantitativamente, que la calidad de generación intermedia de nuestro método supera ampliamente la del modelo de difusión original, mientras que el resultado final de generación lenta sigue siendo comparable.
La comprensión de anuncios visuales es una tarea crucial con amplias aplicaciones en el mundo real. Aunque es altamente desafiante debido a la presencia de escenas atípicas diversas, entidades del mundo real y el razonamiento sobre textos en las escenas, la interpretación de anuncios visuales ha sido relativamente poco explorada, especialmente en la era de los modelos fundacionales de visión y lenguaje (VLMs) que destacan por su impresionante generalización y adaptabilidad. En este artículo, realizamos el primer estudio empírico sobre la comprensión de anuncios visuales a través del lente de VLMs preentrenados. Evaluamos y revelamos los desafíos prácticos de adaptar estos VLMs a la comprensión de anuncios visuales. Proponemos una estrategia simple de adaptación de características para fusionar efectivamente la información multimodal en anuncios visuales y la potenciamos aún más con conocimiento de entidades del mundo real. Esperamos que nuestro estudio atraiga más atención hacia la comprensión de anuncios visuales, un área de gran relevancia para la industria publicitaria.