Artículos de investigación en IA seleccionados diariamente con traducciones
Los grandes modelos de difusión de texto a imagen han demostrado una impresionante capacidad para generar imágenes de alta calidad. Sin embargo, al aplicar estos modelos al dominio del video, garantizar la consistencia temporal entre los fotogramas sigue siendo un desafío formidable. Este artículo propone un novedoso marco de trabajo de traducción de video a video guiado por texto en modo zero-shot para adaptar los modelos de imagen a videos. El marco de trabajo consta de dos partes: traducción de fotogramas clave y traducción de video completo. La primera parte utiliza un modelo de difusión adaptado para generar fotogramas clave, aplicando restricciones jerárquicas entre fotogramas para garantizar coherencia en formas, texturas y colores. La segunda parte propaga los fotogramas clave a otros fotogramas mediante emparejamiento de parches con conciencia temporal y fusión de fotogramas. Nuestro marco de trabajo logra consistencia temporal tanto en el estilo global como en la textura local a un bajo costo (sin necesidad de reentrenamiento u optimización). La adaptación es compatible con las técnicas existentes de difusión de imágenes, permitiendo que nuestro marco de trabajo aproveche sus ventajas, como personalizar un sujeto específico con LoRA e introducir guías espaciales adicionales con ControlNet. Los extensos resultados experimentales demuestran la eficacia de nuestro marco de trabajo propuesto frente a los métodos existentes en la generación de videos de alta calidad y temporalmente coherentes.
Presentamos Generalized LoRA (GLoRA), un enfoque avanzado para tareas universales de ajuste fino eficiente en parámetros. Mejorando la Adaptación de Bajo Rango (LoRA), GLoRA emplea un módulo de prompt generalizado para optimizar los pesos de modelos preentrenados y ajustar las activaciones intermedias, proporcionando mayor flexibilidad y capacidad en diversas tareas y conjuntos de datos. Además, GLoRA facilita la adaptación eficiente de parámetros mediante una búsqueda escalable, modular y por capas que aprende adaptadores individuales para cada capa. Originado a partir de una formulación matemática unificada, GLoRA exhibe fuertes habilidades de aprendizaje por transferencia, aprendizaje con pocos ejemplos y generalización de dominio, ya que se adapta a nuevas tareas a través de dimensiones adicionales en pesos y activaciones. Experimentos exhaustivos demuestran que GLoRA supera a todos los métodos anteriores en benchmarks naturales, especializados y estructurados, logrando una precisión superior con menos parámetros y cálculos en varios conjuntos de datos. Además, nuestro diseño de re-parametrización estructural garantiza que GLoRA no incurra en costos adicionales de inferencia, convirtiéndolo en una solución práctica para aplicaciones con recursos limitados. El código está disponible en: https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRA.
En este artículo, nos centramos en cómo la inteligencia artificial (IA) puede utilizarse para asistir a los usuarios en la creación de retratos anime, es decir, convertir bocetos aproximados en retratos anime durante su proceso de dibujo. La entrada es una secuencia de bocetos a mano alzada incompletos que se refinan gradualmente trazo a trazo, mientras que la salida es una secuencia de retratos anime de alta calidad que corresponden a los bocetos de entrada como guía. Aunque los GANs recientes pueden generar imágenes de alta calidad, es un problema desafiante mantener la alta calidad de las imágenes generadas a partir de bocetos con un bajo grado de finalización debido a problemas mal planteados en la generación condicional de imágenes. Incluso con la última tecnología de boceto a imagen (S2I), sigue siendo difícil crear imágenes de alta calidad a partir de bocetos aproximados incompletos para retratos anime, ya que el estilo anime tiende a ser más abstracto que el estilo realista. Para abordar este problema, adoptamos una exploración del espacio latente de StyleGAN con una estrategia de entrenamiento en dos etapas. Consideramos que los trazos de entrada de un boceto a mano alzada corresponden a atributos relacionados con la información de bordes en el código estructural latente de StyleGAN, y denominamos a la correspondencia entre trazos y estos atributos como desentrelazamiento a nivel de trazo. En la primera etapa, entrenamos un codificador de imágenes con el modelo preentrenado de StyleGAN como codificador maestro. En la segunda etapa, simulamos el proceso de dibujo de las imágenes generadas sin datos adicionales (etiquetas) y entrenamos el codificador de bocetos para bocetos progresivos incompletos, con el fin de generar imágenes de retrato de alta calidad con alineación de características a las representaciones desentrelazadas en el codificador maestro. Verificamos el sistema progresivo S2I propuesto con evaluaciones cualitativas y cuantitativas, logrando retratos anime de alta calidad a partir de bocetos progresivos incompletos. Nuestro estudio de usuarios demostró su efectividad en la asistencia para la creación artística en el estilo anime.
Presentamos WebGLM, un sistema de respuesta a preguntas mejorado para la web basado en el Modelo de Lenguaje General (GLM). Su objetivo es aumentar un modelo de lenguaje grande (LLM) preentrenado con capacidades de búsqueda y recuperación web, manteniendo la eficiencia para implementaciones en el mundo real. Para lograrlo, desarrollamos WebGLM con estrategias para el recuperador aumentado por LLM, el generador bootstrapped y el evaluador consciente de preferencias humanas. Específicamente, identificamos y abordamos las limitaciones de WebGPT (OpenAI), lo que permite a WebGLM ventajas en precisión, eficiencia y rentabilidad. Además, proponemos criterios sistemáticos para evaluar sistemas de respuesta a preguntas mejorados para la web. Realizamos evaluaciones humanas multidimensionales y estudios de ablación cuantitativos, que sugieren que los diseños propuestos de WebGLM superan a los sistemas existentes. WebGLM con el GLM de 10 mil millones de parámetros (10B) demuestra un mejor rendimiento que WebGPT de tamaño similar (13B) e incluso comparable a WebGPT (175B) en la evaluación humana. El código, la demostración y los datos están disponibles en https://github.com/THUDM/WebGLM.
El preentrenamiento contrastivo en pares de imagen-texto de la web es una de las estrategias de preentrenamiento a gran escala más populares para backbones de visión, especialmente en el contexto de modelos multimodales grandes. Al mismo tiempo, la generación de descripciones de imágenes (image captioning) con este tipo de datos se considera comúnmente una estrategia de preentrenamiento inferior. En este artículo, realizamos una comparación justa de estas dos estrategias de preentrenamiento, igualando cuidadosamente los datos de entrenamiento, el cómputo y la capacidad del modelo. Utilizando un transformador estándar de codificador-decodificador, encontramos que la generación de descripciones por sí sola es sorprendentemente efectiva: en tareas de clasificación, esta estrategia produce codificadores de visión competitivos con los preentrenados de manera contrastiva, superándolos en tareas de visión y lenguaje. Además, analizamos el efecto de la arquitectura y la escala del modelo, así como de los datos de preentrenamiento en la calidad de las representaciones, y encontramos que la generación de descripciones exhibe el mismo o mejor comportamiento de escalabilidad en estos ejes. En general, nuestros resultados muestran que la simple generación de descripciones de imágenes es una estrategia de preentrenamiento más poderosa de lo que se creía anteriormente.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) exhiben habilidades de aprendizaje en contexto que permiten que el mismo modelo realice varias tareas sin necesidad de entrenamiento específico para cada una. En contraste, los enfoques tradicionales de adaptación, como el ajuste fino, modifican los modelos subyacentes para cada tarea específica. Sin embargo, el aprendizaje en contexto consistentemente tiene un rendimiento inferior a los enfoques de ajuste específico, incluso cuando se presentan los mismos ejemplos. Mientras que la mayoría de los enfoques existentes (por ejemplo, la ingeniería de prompts) se centran en las representaciones aprendidas por los LLMs para cerrar esta brecha de rendimiento, nuestro análisis revela que las representaciones de los LLMs contienen suficiente información para hacer buenas predicciones. Por ello, nos enfocamos en las habilidades de razonamiento de los LLMs y demostramos que esta brecha de rendimiento existe debido a su incapacidad para realizar tareas simples de razonamiento probabilístico. Esto plantea una pregunta intrigante: ¿Son los LLMs realmente capaces de aprender a razonar de manera independiente de la tarea? Respondemos afirmativamente a esta pregunta y proponemos TART, que mejora genéricamente las habilidades de razonamiento de un LLM utilizando un módulo de razonamiento basado en Transformers entrenado sintéticamente. TART entrena este módulo de razonamiento de manera independiente de la tarea utilizando únicamente tareas sintéticas de regresión logística y lo combina con un modelo preentrenado del mundo real sin necesidad de entrenamiento adicional. Con un único módulo de inferencia, TART mejora el rendimiento en diferentes familias de modelos (GPT-Neo, Pythia, BLOOM), tamaños de modelos (100M - 6B), tareas (14 tareas de clasificación binaria en NLP) e incluso en diferentes modalidades (audio y visión). Además, en el Benchmark RAFT, TART mejora el rendimiento de GPT-Neo (125M) de tal manera que supera a BLOOM (176B) y se encuentra dentro del 4% de GPT-3 (175B). Nuestro código y modelos están disponibles en https://github.com/HazyResearch/TART.
El modelado de texto a 3D ha experimentado avances emocionantes al combinar modelos generativos de texto a imagen con métodos de imagen a 3D como los Campos de Radiancia Neural. DreamFusion logró recientemente resultados de alta calidad, pero requiere una optimización prolongada por cada indicación (prompt) para crear objetos 3D. Para abordar esto, amortiguamos la optimización sobre las indicaciones de texto entrenando con muchas indicaciones simultáneamente utilizando un modelo unificado, en lugar de hacerlo por separado. Con este enfoque, compartimos el cálculo a través de un conjunto de indicaciones, entrenando en menos tiempo que la optimización por indicación. Nuestro marco, denominado Amortized Text-to-3D (ATT3D), permite el intercambio de conocimiento entre indicaciones para generalizar a configuraciones no vistas y realizar interpolaciones suaves entre textos para crear nuevos activos y animaciones simples.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado el potencial para realizar planificación de alto nivel. Sin embargo, sigue siendo un desafío para estos modelos comprender comandos de bajo nivel, como objetivos de ángulos articulares o pares motores. Este artículo propone un enfoque que utiliza patrones de contacto de las patas como interfaz para conectar comandos humanos en lenguaje natural con un controlador de locomoción que genera estos comandos de bajo nivel. Esto da como resultado un sistema interactivo para robots cuadrúpedos que permite a los usuarios diseñar comportamientos de locomoción diversos de manera flexible. Contribuimos con un diseño de instrucción para el LLM, una función de recompensa y un método para exponer el controlador a la distribución factible de patrones de contacto. Los resultados incluyen un controlador capaz de lograr patrones de locomoción diversos que pueden transferirse a hardware robótico real. En comparación con otras opciones de diseño, el enfoque propuesto supera una tasa de éxito del 50% en la predicción de patrones de contacto correctos y puede resolver 10 tareas adicionales de un total de 30. Nuestro sitio del proyecto es: https://saytap.github.io.
En este trabajo, nuestro objetivo es reconstruir un modelo 3D variable en el tiempo, capaz de generar representaciones fotorrealistas con control independiente del punto de vista, la iluminación y el tiempo, a partir de fotografías de Internet de monumentos a gran escala. Los desafíos principales son dos. Primero, diferentes tipos de cambios temporales, como la iluminación y las modificaciones en la escena subyacente (por ejemplo, reemplazar una obra de graffiti por otra), están entrelazados en las imágenes. Segundo, los cambios temporales a nivel de escena suelen ser discretos y esporádicos en el tiempo, en lugar de continuos. Para abordar estos problemas, proponemos una nueva representación de la escena equipada con un método novedoso de codificación mediante funciones escalonadas temporales, que puede modelar cambios discretos en el contenido de la escena como funciones constantes por partes en el tiempo. Específicamente, representamos la escena como un campo de radiancia espacio-temporal con una incrustación de iluminación por imagen, donde los cambios temporales en la escena se codifican utilizando un conjunto de funciones escalonadas aprendidas. Para facilitar nuestra tarea de reconstrucción cronológica a partir de imágenes de Internet, también recopilamos un nuevo conjunto de datos de cuatro escenas que exhiben diversos cambios a lo largo del tiempo. Demostramos que nuestro método obtiene resultados de síntesis de vistas de vanguardia en este conjunto de datos, logrando un control independiente del punto de vista, el tiempo y la iluminación.
Sin una transcripción precisa de los datos numéricos en documentos científicos, un investigador no puede llegar a conclusiones exactas. Lamentablemente, el proceso de copiar datos numéricos de un artículo a otro es propenso a errores humanos. En este artículo, proponemos abordar este desafío mediante la novedosa tarea de verificación automática de tablas (AutoTV), cuyo objetivo es verificar la precisión de los datos numéricos en tablas mediante la consulta cruzada de fuentes citadas. Para respaldar esta tarea, presentamos un nuevo punto de referencia, arXiVeri, que incluye datos tabulares extraídos de artículos académicos de acceso abierto en arXiv. Introducimos métricas para evaluar el rendimiento de un verificador de tablas en dos áreas clave: (i) la coincidencia de tablas, que busca identificar la tabla fuente en un documento citado que corresponde a una tabla objetivo, y (ii) la coincidencia de celdas, que tiene como objetivo localizar celdas compartidas entre una tabla objetivo y una fuente, identificando con precisión sus índices de fila y columna. Al aprovechar las capacidades flexibles de los modelos de lenguaje grandes (LLMs) modernos, proponemos líneas base simples para la verificación de tablas. Nuestros hallazgos resaltan la complejidad de esta tarea, incluso para LLMs de última generación como GPT-4 de OpenAI. El código y el punto de referencia estarán disponibles públicamente.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se han aplicado en el dominio del habla, aunque a menudo experimentan una caída en el rendimiento debido a la desalineación entre las representaciones del habla y el lenguaje. Para cerrar esta brecha, proponemos un modelo conjunto de habla y lenguaje (SLM, por sus siglas en inglés) que utiliza un adaptador Speech2Text, el cual mapea el habla al espacio de incrustación de tokens de texto sin pérdida de información del habla. Además, mediante un filtrado de espacios en blanco basado en CTC, podemos reducir la longitud de la secuencia de habla a la del texto. En el conjunto de datos MultiWoz de habla (desafío DSTC11), el SLM mejora significativamente el rendimiento del seguimiento del estado del diálogo (DST, por sus siglas en inglés), pasando de un 24.7% a un 28.4% de precisión. Para abordar errores en entidades raras, aumentamos el SLM con un recuperador Speech2Entity, que utiliza el habla para recuperar entidades relevantes y luego las añade como prefijo a la entrada original del SLM. Con este SLM aumentado por recuperación (ReSLM), el rendimiento del DST aumenta hasta un 34.6% de precisión. Además, al combinar la tarea de reconocimiento automático del habla (ASR, por sus siglas en inglés) con la tarea de comprensión del diálogo, se mejora el rendimiento del ASR, reduciendo la tasa de error de palabras (WER, por sus siglas en inglés) del 9.4% al 8.5%.
Proponemos un nuevo enfoque basado en puntuaciones para generar moléculas 3D representadas como densidades atómicas en mallas regulares. Primero, entrenamos una red neuronal de eliminación de ruido que aprende a mapear desde una distribución suave de moléculas ruidosas hacia la distribución de moléculas reales. Luego, seguimos el marco de Bayes empírico neuronal [Saremi y Hyvarinen, 2019] y generamos moléculas en dos pasos: (i) muestreamos mallas de densidad ruidosas de una distribución suave mediante una cadena de Markov Monte Carlo de Langevin subamortiguada, y (ii) recuperamos la molécula "limpia" eliminando el ruido de la malla ruidosa en un solo paso. Nuestro método, VoxMol, genera moléculas de una manera fundamentalmente diferente al estado del arte actual (es decir, modelos de difusión aplicados a nubes de puntos atómicos). Difiere en términos de la representación de los datos, el modelo de ruido, la arquitectura de la red y el algoritmo de modelado generativo. VoxMol logra resultados comparables al estado del arte en la generación incondicional de moléculas 3D, siendo más sencillo de entrenar y más rápido para generar moléculas.
Argumentamos que existen múltiples nociones de 'similitud' y que los modelos, al igual que los humanos, deberían poder adaptarse a estas de manera dinámica. Esto contrasta con la mayoría de los métodos de aprendizaje de representaciones, ya sean supervisados o auto-supervisados, que aprenden una función de embedding fija y, por lo tanto, asumen implícitamente una única noción de similitud. Por ejemplo, los modelos entrenados en ImageNet están sesgados hacia categorías de objetos, mientras que un usuario podría preferir que el modelo se enfoque en colores, texturas o elementos específicos de la escena. En este artículo, proponemos el benchmark GeneCIS ('génesis'), que mide la capacidad de los modelos para adaptarse a un rango de condiciones de similitud. Extendiendo trabajos previos, nuestro benchmark está diseñado únicamente para evaluación zero-shot y, por lo tanto, considera un conjunto abierto de condiciones de similitud. Encontramos que los modelos base de CLIP, aunque potentes, tienen dificultades en GeneCIS y que el rendimiento en este benchmark está solo débilmente correlacionado con la precisión en ImageNet, lo que sugiere que simplemente escalar los métodos existentes no es fructífero. Además, proponemos una solución simple y escalable basada en la extracción automática de información de conjuntos de datos existentes de imágenes y descripciones. Descubrimos que nuestro método ofrece una mejora sustancial sobre los modelos base en GeneCIS y además mejora el rendimiento zero-shot en benchmarks relacionados de recuperación de imágenes. De hecho, aunque evaluado en zero-shot, nuestro modelo supera a los modelos supervisados más avanzados en MIT-States. Página del proyecto en https://sgvaze.github.io/genecis/.
Presentamos Galactic, un marco de simulación a gran escala y aprendizaje por refuerzo (RL) para la manipulación móvil robótica en entornos interiores. Específicamente, un robot Fetch (equipado con una base móvil, brazo de 7 grados de libertad, cámara RGBD, egomoción y sensores integrados) es generado en un entorno doméstico y se le solicita reorganizar objetos: navegando hacia un objeto, recogiéndolo, navegando hacia una ubicación objetivo y luego colocando el objeto en dicha ubicación. Galactic es rápido. En términos de velocidad de simulación (renderizado + física), Galactic alcanza más de 421,000 pasos por segundo (SPS) en un nodo con 8 GPUs, lo que es 54 veces más rápido que Habitat 2.0 (7699 SPS). Más importante aún, Galactic fue diseñado para optimizar la interacción completa entre renderizado, física y RL, ya que cualquier cuello de botella en esta interacción ralentiza el entrenamiento. En términos de velocidad de simulación+RL (renderizado + física + inferencia + aprendizaje), Galactic logra más de 108,000 SPS, lo que es 88 veces más rápido que Habitat 2.0 (1243 SPS). Estas mejoras masivas en velocidad no solo reducen drásticamente el tiempo de entrenamiento en reloj de los experimentos existentes, sino que también permiten una escala sin precedentes para nuevos experimentos. Primero, Galactic puede entrenar una habilidad de recogida móvil con una precisión >80% en menos de 16 minutos, una aceleración de 100x en comparación con las más de 24 horas que toma entrenar la misma habilidad en Habitat 2.0. Segundo, utilizamos Galactic para realizar el experimento a mayor escala hasta la fecha en reorganización, utilizando 5 mil millones de pasos de experiencia en 46 horas, lo que equivale a 20 años de experiencia robótica. Este escalamiento resulta en una única red neuronal compuesta por componentes agnósticos a la tarea que logra un 85% de éxito en la reorganización GeometricGoal, en comparación con el 0% de éxito reportado en Habitat 2.0 para el mismo enfoque. El código está disponible en github.com/facebookresearch/galactic.
Los métodos existentes para capturar conjuntos de datos de cabezas 3D en correspondencia semántica densa son lentos y comúnmente abordan el problema en dos pasos separados: reconstrucción estereoscópica multivista (MVS) seguida de registro no rígido. Para simplificar este proceso, presentamos TEMPEH (Towards Estimation of 3D Meshes from Performances of Expressive Heads) para inferir directamente cabezas 3D en correspondencia densa a partir de imágenes multivista calibradas. Registrar conjuntos de datos de escaneos 3D generalmente requiere ajuste manual de parámetros para encontrar el equilibrio adecuado entre ajustar con precisión las superficies de los escaneos y ser robusto frente al ruido de escaneo y valores atípicos. En su lugar, proponemos registrar conjuntamente un conjunto de datos de cabezas 3D mientras entrenamos TEMPEH. Específicamente, durante el entrenamiento minimizamos una pérdida geométrica comúnmente utilizada para el registro de superficies, aprovechando efectivamente TEMPEH como un regularizador. Nuestra inferencia de cabezas multivista se basa en una representación volumétrica de características que muestrea y fusiona características de cada vista utilizando información de calibración de la cámara. Para tener en cuenta oclusiones parciales y un volumen de captura amplio que permite movimientos de la cabeza, utilizamos fusión de características consciente de la vista y la superficie, y un módulo de localización de cabeza basado en transformadores espaciales, respectivamente. Utilizamos escaneos MVS crudos como supervisión durante el entrenamiento, pero, una vez entrenado, TEMPEH predice directamente cabezas 3D en correspondencia densa sin requerir escaneos. Predecir una cabeza toma aproximadamente 0.3 segundos con un error de reconstrucción mediano de 0.26 mm, un 64% menor que el estado del arte actual. Esto permite la captura eficiente de grandes conjuntos de datos que contienen múltiples personas y diversos movimientos faciales. El código, el modelo y los datos están disponibles públicamente en https://tempeh.is.tue.mpg.de.
Las transcripciones de llamadas telefónicas tienen un valor significativo en diversos campos, como ventas, servicio al cliente, atención médica y aplicación de la ley. Sin embargo, el análisis de estas conversaciones grabadas puede ser un proceso arduo y que consume mucho tiempo, especialmente cuando se trata de diálogos extensos o multifacéticos. En este trabajo, proponemos un método novedoso, Segmentación y Etiquetado de Llamadas Destilado por GPT (GPT-Calls), para una segmentación y extracción de temas eficiente y precisa. GPT-Calls se compone de fases en línea y fuera de línea. La fase fuera de línea se aplica una vez a una lista determinada de temas e implica generar una distribución de oraciones sintéticas para cada tema utilizando un modelo GPT y extraer vectores de anclaje. La fase en línea se aplica a cada llamada por separado y califica la similitud entre la conversación transcrita y los anclajes de temas encontrados en la fase fuera de línea. Luego, se aplica un análisis en el dominio del tiempo a las puntuaciones de similitud para agrupar las expresiones en segmentos y etiquetarlas con temas. El paradigma propuesto ofrece un método preciso y eficiente para la segmentación de llamadas y la extracción de temas que no requiere datos etiquetados, lo que lo convierte en un enfoque versátil aplicable a diversos dominios. Nuestro algoritmo opera en producción bajo Dynamics 365 Sales Conversation Intelligence, y nuestra investigación se basa en conversaciones de ventas reales recopiladas de varios inquilinos de Dynamics 365 Sales.
Con la abrumadora cantidad de datos disponibles tanto en línea como fuera de línea hoy en día, los sistemas de recomendación se han vuelto esenciales para ayudar a los usuarios a encontrar elementos adaptados a sus intereses. Cuando existe información de redes sociales, hay métodos que utilizan esta información para hacer mejores recomendaciones; sin embargo, estos métodos suelen ser engorrosos, con arquitecturas complejas y procedimientos de entrenamiento complicados. Además, muchos de los métodos existentes utilizan redes neuronales de grafos, que son notoriamente difíciles de entrenar. Para abordar esto, proponemos los sistemas de recomendación Socially-aware Temporally caUsal Decoder (STUDY). STUDY realiza inferencia conjunta sobre grupos de usuarios adyacentes en el grafo de la red social utilizando un único paso hacia adelante de una red decodificadora de transformadores modificada. Probamos nuestro método en un entorno educativo basado en escuelas, utilizando la estructura del aula para definir las redes sociales. Nuestro método supera tanto a los métodos sociales como a los secuenciales, manteniendo la simplicidad de diseño de una única red homogénea que modela todas las interacciones en los datos. También llevamos a cabo estudios de ablación para comprender los factores que impulsan nuestras mejoras de rendimiento y encontramos que nuestro modelo depende de aprovechar una estructura de red social que modela eficazmente las similitudes en el comportamiento del usuario.