Artículos de investigación en IA seleccionados diariamente con traducciones
La arquitectura Transformer tiene dos componentes principales no relacionados con los embeddings: la Atención y la Red de Alimentación Directa (FFN, por sus siglas en inglés). La Atención captura interdependencias entre palabras independientemente de su posición, mientras que la FFN transforma de manera no lineal cada token de entrada de forma independiente. En este trabajo exploramos el papel de la FFN y descubrimos que, a pesar de ocupar una fracción significativa de los parámetros del modelo, es altamente redundante. Concretamente, logramos reducir sustancialmente el número de parámetros con solo una modesta caída en la precisión al eliminar la FFN en las capas del decodificador y compartir una única FFN en el codificador. Finalmente, escalamos esta arquitectura de vuelta a su tamaño original aumentando la dimensión oculta de la FFN compartida, logrando mejoras significativas tanto en precisión como en latencia con respecto al Transformer Big original.
Los GANs 3D animables anteriores para la generación de humanos se han centrado principalmente en la cabeza o en el cuerpo completo. Sin embargo, los videos que solo muestran la cabeza son relativamente poco comunes en la vida real, y la generación del cuerpo completo generalmente no aborda el control de las expresiones faciales y aún enfrenta desafíos para producir resultados de alta calidad. Hacia la creación de avatares de video aplicables, presentamos un GAN 3D animable que genera imágenes de retrato con control sobre las expresiones faciales, la pose de la cabeza y los movimientos de los hombros. Se trata de un modelo generativo entrenado en colecciones de imágenes 2D no estructuradas sin utilizar datos 3D o de video. Para esta nueva tarea, basamos nuestro método en la representación de la variedad de radiancia generativa y lo equipamos con deformaciones aprendibles para la cara y la cabeza-hombros. Se propone un esquema de renderizado con cámara dual y aprendizaje adversarial para mejorar la calidad de las caras generadas, lo cual es crítico para las imágenes de retrato. Se desarrolla una red de procesamiento de deformaciones de pose para generar deformaciones plausibles en regiones desafiantes como el cabello largo. Los experimentos muestran que nuestro método, entrenado con imágenes 2D no estructuradas, puede generar retratos 3D diversos y de alta calidad con el control deseado sobre diferentes propiedades.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado recientemente capacidades notables para comprender las intenciones humanas, participar en razonamientos y diseñar comportamientos similares a la planificación. Para liberar aún más el poder de los LLMs y permitirles realizar tareas complejas, existe una tendencia creciente en la creación de marcos de agentes que equipan a los LLMs, como ChatGPT, con habilidades de uso de herramientas para conectarse con una gran cantidad de APIs externas. En este trabajo, presentamos ModelScope-Agent, un marco de agente general y personalizable para aplicaciones del mundo real, basado en LLMs de código abierto como controladores. Ofrece una biblioteca de sistema fácil de usar, con un diseño de motor personalizable para apoyar el entrenamiento de modelos en múltiples LLMs de código abierto, al mismo tiempo que permite una integración fluida tanto con APIs de modelos como con APIs comunes de manera unificada. Para dotar a los LLMs de habilidades de uso de herramientas, se ha propuesto un marco integral que abarca la recopilación de datos de uso de herramientas, la recuperación de herramientas, el registro de herramientas, el control de memoria, el entrenamiento personalizado de modelos y la evaluación para aplicaciones prácticas del mundo real. Finalmente, presentamos ModelScopeGPT, un asistente inteligente del mundo real para la Comunidad ModelScope basado en el marco ModelScope-Agent, capaz de conectar LLMs de código abierto con más de 1000 modelos públicos de IA y conocimiento localizado de la comunidad en ModelScope. La biblioteca ModelScope-Agent https://github.com/modelscope/modelscope-agent y la demostración en línea https://modelscope.cn/studios/damo/ModelScopeGPT/summary están ahora disponibles públicamente.
La reconstrucción de materiales a partir de una fotografía es un componente clave en la democratización de la creación de contenido 3D. Proponemos formular este problema mal definido como uno de síntesis controlada, aprovechando los avances recientes en redes neuronales profundas generativas. Presentamos ControlMat, un método que, dada una única fotografía con iluminación no controlada como entrada, condiciona un modelo de difusión para generar materiales digitales plausibles, repetibles y de alta resolución basados en física. Analizamos cuidadosamente el comportamiento de los modelos de difusión para salidas multicanal, adaptamos el proceso de muestreo para fusionar información a múltiples escalas e introducimos la difusión enrollada para permitir tanto la repetibilidad como la difusión por parches para salidas de alta resolución. Nuestro enfoque generativo permite además explorar una variedad de materiales que podrían corresponder a la imagen de entrada, mitigando las condiciones de iluminación desconocidas. Demostramos que nuestro método supera a los enfoques recientes de inferencia y optimización en el espacio latente, y validamos cuidadosamente las decisiones de diseño de nuestro proceso de difusión. Los materiales complementarios y detalles adicionales están disponibles en: https://gvecchio.com/controlmat/.
El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) ha revolucionado el modelado del lenguaje al alinear los modelos con las preferencias humanas. Sin embargo, la etapa de RL, Optimización de Políticas Proximales (PPO), requiere más de 3 veces la memoria del Ajuste Supervisado (SFT), lo que hace inviable su uso para la mayoría de los profesionales. Para abordar este problema, presentamos un análisis exhaustivo del uso de memoria, el rendimiento y el tiempo de entrenamiento de técnicas de ahorro de memoria para PPO. Introducimos Hydra-RLHF integrando primero los modelos SFT y de Recompensa y luego desactivando dinámicamente LoRA durante el entrenamiento. Nuestros experimentos muestran: 1. El uso de LoRA durante PPO reduce su uso de memoria a un nivel menor que SFT mientras mejora la alineación en cuatro puntos de referencia públicos, y 2. Hydra-PPO reduce la latencia por muestra de LoRA-PPO hasta en un 65% manteniendo su rendimiento. Nuestros resultados demuestran que Hydra-PPO es una solución simple y prometedora para permitir un uso más generalizado de RLHF.
El habla transmite más información que solo el texto, ya que una misma palabra puede pronunciarse con diferentes voces para expresar información diversa. En comparación con los métodos tradicionales de conversión de texto a voz (TTS) que dependen de indicaciones de voz (voz de referencia) para la variabilidad vocal, el uso de indicaciones de texto (descripciones) es más amigable para el usuario, ya que las indicaciones de voz pueden ser difíciles de encontrar o incluso no existir. Los enfoques de TTS basados en indicaciones de texto enfrentan dos desafíos: 1) el problema de uno a muchos, donde no todos los detalles sobre la variabilidad vocal pueden describirse en la indicación de texto, y 2) la disponibilidad limitada de conjuntos de datos de indicaciones de texto, que requieren proveedores y un alto costo de etiquetado de datos para redactar indicaciones de texto para el habla. En este trabajo, presentamos PromptTTS 2 para abordar estos desafíos con una red de variación que proporciona información sobre la variabilidad vocal no capturada por las indicaciones de texto, y una canalización de generación de indicaciones que utiliza modelos de lenguaje grandes (LLM) para componer indicaciones de texto de alta calidad. Específicamente, la red de variación predice la representación extraída de la voz de referencia (que contiene toda la información sobre la voz) basándose en la representación de la indicación de texto. Para la canalización de generación de indicaciones, esta genera indicaciones de texto para el habla con un modelo de comprensión del habla que reconoce atributos vocales (por ejemplo, género, velocidad) a partir del habla y un modelo de lenguaje grande que formula la indicación de texto basándose en los resultados del reconocimiento. Los experimentos en un conjunto de datos de habla a gran escala (44K horas) demuestran que, en comparación con trabajos anteriores, PromptTTS 2 genera voces más consistentes con las indicaciones de texto y permite el muestreo de una diversa variabilidad vocal, ofreciendo así a los usuarios más opciones en la generación de voces. Además, la canalización de generación de indicaciones produce indicaciones de alta calidad, eliminando el alto costo de etiquetado. La página de demostración de PromptTTS 2 está disponible en línea en https://speechresearch.github.io/prompttts2.
El video outpainting tiene como objetivo completar adecuadamente las áreas faltantes en los bordes de los fotogramas de video. En comparación con el outpainting de imágenes, presenta un desafío adicional, ya que el modelo debe mantener la consistencia temporal del área rellenada. En este artículo, presentamos un modelo de difusión 3D enmascarado para video outpainting. Utilizamos la técnica de modelado de máscaras para entrenar el modelo de difusión 3D. Esto nos permite utilizar múltiples fotogramas guía para conectar los resultados de múltiples inferencias de clips de video, asegurando así la consistencia temporal y reduciendo el temblor entre fotogramas adyacentes. Al mismo tiempo, extraemos los fotogramas globales del video como indicaciones y guiamos al modelo para obtener información más allá del clip de video actual utilizando atención cruzada. También introducimos una canalización de inferencia híbrida de grueso a fino para aliviar el problema de acumulación de artefactos. La canalización existente de grueso a fino solo utiliza la estrategia de relleno, lo que provoca degradación debido a que el intervalo de tiempo de los fotogramas dispersos es demasiado grande. Nuestra canalización se beneficia del aprendizaje bidireccional del modelado de máscaras y, por lo tanto, puede emplear una estrategia híbrida de relleno e interpolación al generar fotogramas dispersos. Los experimentos muestran que nuestro método logra resultados de vanguardia en tareas de video outpainting. Se proporcionan más resultados en nuestro https://fanfanda.github.io/M3DDM/.
Este artículo presenta un método sin LoRA para la generación de imágenes estilizadas que toma un texto de entrada y imágenes de referencia de estilo como entradas y produce una imagen de salida en un solo paso. A diferencia de los métodos existentes que dependen del entrenamiento de un LoRA separado para cada estilo, nuestro método puede adaptarse a diversos estilos con un modelo unificado. Sin embargo, esto plantea dos desafíos: 1) el texto de entrada pierde controlabilidad sobre el contenido generado, y 2) la imagen de salida hereda tanto las características semánticas como de estilo de la imagen de referencia, comprometiendo su fidelidad de contenido. Para abordar estos desafíos, introducimos StyleAdapter, un modelo que consta de dos componentes: un módulo de atención cruzada de dos vías (TPCA) y tres estrategias de desacoplamiento. Estos componentes permiten que nuestro modelo procese las características del texto de entrada y las referencias de estilo por separado, reduciendo el fuerte acoplamiento entre la información semántica y de estilo en las referencias de estilo. StyleAdapter puede generar imágenes de alta calidad que coinciden con el contenido de los textos de entrada y adoptan el estilo de las referencias (incluso para estilos no vistos) en un solo paso, lo que resulta más flexible y eficiente que los métodos anteriores. Se han realizado experimentos para demostrar la superioridad de nuestro método sobre trabajos previos.
Consideramos la tarea de desambiguación visual de determinar si un par de imágenes visualmente similares representan las mismas o distintas superficies 3D (por ejemplo, el mismo o el lado opuesto de un edificio simétrico). Las coincidencias ilusorias de imágenes, donde dos imágenes observan superficies 3D distintas pero visualmente similares, pueden ser difíciles de diferenciar para los humanos y también pueden llevar a los algoritmos de reconstrucción 3D a producir resultados erróneos. Proponemos un enfoque basado en aprendizaje para la desambiguación visual, formulándolo como una tarea de clasificación binaria en pares de imágenes. Para ello, introducimos un nuevo conjunto de datos para este problema, Doppelgangers, que incluye pares de imágenes de estructuras similares con etiquetas de verdad fundamental. También diseñamos una arquitectura de red que toma como entrada la distribución espacial de puntos clave locales y coincidencias, permitiendo un mejor razonamiento tanto sobre pistas locales como globales. Nuestra evaluación muestra que nuestro método puede distinguir coincidencias ilusorias en casos difíciles y puede integrarse en pipelines de SfM para producir reconstrucciones 3D correctas y desambiguadas. Consulte nuestra página del proyecto para obtener nuestro código, conjuntos de datos y más resultados: http://doppelgangers-3d.github.io/.
Los recientes avances arquitectónicos han permitido que las redes neuronales recurrentes (RNN, por sus siglas en inglés) alcancen e incluso superen el rendimiento de los Transformers en ciertas tareas de modelado de secuencias. Estas RNN modernas presentan un patrón de diseño destacado: capas recurrentes lineales interconectadas mediante rutas de avance con compuertas multiplicativas. Aquí, demostramos cómo las RNN equipadas con estos dos elementos de diseño pueden implementar exactamente la autoatención (lineal), el bloque principal de los Transformers. Al realizar ingeniería inversa sobre un conjunto de RNN entrenadas, descubrimos que el descenso de gradiente, en la práctica, encuentra nuestra construcción. En particular, examinamos RNN entrenadas para resolver tareas simples de aprendizaje en contexto en las que los Transformers son conocidos por destacar, y encontramos que el descenso de gradiente instila en nuestras RNN el mismo algoritmo de aprendizaje en contexto basado en atención que utilizan los Transformers. Nuestros hallazgos resaltan la importancia de las interacciones multiplicativas en las redes neuronales y sugieren que ciertas RNN podrían estar implementando, de manera inesperada, mecanismos de atención en su funcionamiento interno.
Presentamos Contrastive Feature Masking Vision Transformer (CFM-ViT), una metodología de preentrenamiento imagen-texto que logra el aprendizaje simultáneo de representaciones a nivel de imagen y región para la detección de objetos de vocabulario abierto (OVD). Nuestro enfoque combina el objetivo del autoencoder enmascarado (MAE) con el objetivo de aprendizaje contrastivo para mejorar la representación en tareas de localización. A diferencia del MAE estándar, realizamos la reconstrucción en el espacio de incrustación conjunto imagen-texto, en lugar del espacio de píxeles como es habitual en el método MAE clásico, lo que permite al modelo aprender mejor la semántica a nivel de región. Además, introducimos Positional Embedding Dropout (PED) para abordar la variación de escala entre el preentrenamiento imagen-texto y el ajuste fino de detección, eliminando aleatoriamente las incrustaciones posicionales durante el preentrenamiento. PED mejora el rendimiento en detección y permite el uso de un backbone ViT congelado como clasificador de regiones, evitando el olvido del conocimiento de vocabulario abierto durante el ajuste fino de detección. En el benchmark de detección de vocabulario abierto LVIS, CFM-ViT alcanza un estado del arte de 33.9 APr, superando al mejor enfoque por 7.6 puntos y logrando una mejor transferencia de detección zero-shot. Finalmente, CFM-ViT adquiere una representación sólida a nivel de imagen, superando al estado del arte en 8 de 12 métricas en benchmarks de recuperación imagen-texto zero-shot.
Este artículo presenta un enfoque para aprender a resolver problemas de satisfacción de restricciones continuas (CCSP, por sus siglas en inglés) en el razonamiento y planificación robótica. Los métodos anteriores se basan principalmente en la ingeniería manual o en el aprendizaje de generadores para tipos específicos de restricciones, descartando luego las asignaciones de valores cuando se violan otras restricciones. En contraste, nuestro modelo, el solucionador de restricciones continuas con difusión composicional (Diffusion-CCSP), obtiene soluciones globales para los CCSP representándolos como grafos de factores y combinando las energías de modelos de difusión entrenados para muestrear tipos individuales de restricciones. Diffusion-CCSP muestra una fuerte generalización a combinaciones novedosas de restricciones conocidas y puede integrarse en un planificador de tareas y movimiento para diseñar planes a largo plazo que incluyen acciones con parámetros tanto discretos como continuos. Sitio del proyecto: https://diffusion-ccsp.github.io/
Este artículo aborda el problema de modificar la apariencia visual de videos mientras se preserva su movimiento. Se propone un nuevo marco, denominado MagicProp, que descompone el proceso de edición de videos en dos etapas: edición de apariencia y propagación de apariencia consciente del movimiento. En la primera etapa, MagicProp selecciona un único fotograma del video de entrada y aplica técnicas de edición de imágenes para modificar el contenido y/o el estilo del fotograma. La flexibilidad de estas técnicas permite la edición de regiones arbitrarias dentro del fotograma. En la segunda etapa, MagicProp utiliza el fotograma editado como referencia de apariencia y genera los fotogramas restantes mediante un enfoque de renderizado autorregresivo. Para lograr esto, se desarrolla un modelo de generación condicional basado en difusión, llamado PropDPM, que sintetiza el fotograma objetivo condicionándolo a la apariencia de referencia, el movimiento objetivo y su apariencia previa. El enfoque de edición autorregresivo garantiza la consistencia temporal en los videos resultantes. En general, MagicProp combina la flexibilidad de las técnicas de edición de imágenes con la superior consistencia temporal del modelado autorregresivo, permitiendo la edición flexible de tipos de objetos y estilos estéticos en regiones arbitrarias de videos de entrada mientras se mantiene una buena consistencia temporal entre fotogramas. Experimentos extensos en diversos escenarios de edición de videos demuestran la efectividad de MagicProp.
El diseño inverso se refiere al problema de optimizar la entrada de una función objetivo para lograr un resultado deseado. En muchos problemas de ingeniería del mundo real, la función objetivo toma la forma de un simulador que predice cómo evolucionará el estado del sistema a lo largo del tiempo, y el desafío de diseño consiste en optimizar las condiciones iniciales que conducen a un resultado objetivo. Avances recientes en simulación aprendida han demostrado que las redes neuronales de grafos (GNNs) pueden utilizarse para estimaciones precisas, eficientes y diferenciables de la dinámica del simulador, y permiten optimizaciones de diseño de alta calidad mediante procedimientos basados en gradientes o muestreo. Sin embargo, optimizar diseños desde cero requiere muchas consultas costosas al modelo, y estos procedimientos presentan fallos básicos en problemas no convexos o de alta dimensionalidad. En este trabajo, mostramos cómo los modelos de difusión de eliminación de ruido (DDMs) pueden utilizarse para resolver problemas de diseño inverso de manera eficiente y proponemos un algoritmo de muestreo de partículas para mejorar aún más su eficiencia. Realizamos experimentos en varios desafíos de diseño en dinámica de fluidos y encontramos que nuestro enfoque reduce sustancialmente el número de llamadas al simulador en comparación con técnicas estándar.
Muchas tareas de manipulación en el mundo real consisten en una serie de subtareas que son significativamente diferentes entre sí. Estas tareas complejas y de largo horizonte resaltan el potencial de las manos diestras, que poseen adaptabilidad y versatilidad, capaces de transitar sin problemas entre diferentes modos de funcionalidad sin necesidad de re-agarres o herramientas externas. Sin embargo, los desafíos surgen debido al espacio de acción de alta dimensionalidad de la mano diestra y a la dinámica composicional compleja de las tareas de largo horizonte. Presentamos Sequential Dexterity, un sistema general basado en aprendizaje por refuerzo (RL) que encadena múltiples políticas diestras para alcanzar objetivos de tareas de largo horizonte. El núcleo del sistema es una función de viabilidad de transición que ajusta progresivamente las subpolíticas para mejorar la tasa de éxito en el encadenamiento, al mismo tiempo que permite el cambio autónomo de políticas para recuperarse de fallos y omitir etapas redundantes. A pesar de haber sido entrenado únicamente en simulación con unos pocos objetos de tarea, nuestro sistema demuestra capacidad de generalización a formas de objetos novedosas y es capaz de transferir de manera zero-shot a un robot del mundo real equipado con una mano diestra. Más detalles y resultados en video pueden encontrarse en https://sequential-dexterity.github.io.