Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

Generación de música simple y controlable
Simple and Controllable Music Generation

Jun 8, 2023

Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi, Alexandre Défossez

15725

Abordamos la tarea de generación musical condicional. Presentamos MusicGen, un Modelo de Lenguaje (LM) único que opera sobre múltiples flujos de representación discreta comprimida de música, es decir, tokens. A diferencia de trabajos previos, MusicGen está compuesto por un transformer LM de una sola etapa junto con patrones eficientes de intercalación de tokens, lo que elimina la necesidad de encadenar varios modelos, por ejemplo, de manera jerárquica o mediante upsampling. Siguiendo este enfoque, demostramos cómo MusicGen puede generar muestras de alta calidad, mientras se condiciona en descripciones textuales o características melódicas, permitiendo un mejor control sobre la salida generada. Realizamos una evaluación empírica exhaustiva, considerando tanto estudios automáticos como humanos, mostrando que el enfoque propuesto es superior a las líneas base evaluadas en un benchmark estándar de texto a música. A través de estudios de ablación, arrojamos luz sobre la importancia de cada uno de los componentes que conforman MusicGen. Las muestras de música, el código y los modelos están disponibles en https://github.com/facebookresearch/audiocraft.

MIMIC-IT: Ajuste de Instrucciones en Contexto Multimodal
MIMIC-IT: Multi-Modal In-Context Instruction Tuning

Jun 8, 2023

Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Fanyi Pu, Jingkang Yang, Chunyuan Li, Ziwei Liu

110

Las instrucciones y respuestas de alta calidad son esenciales para el rendimiento zero-shot de los modelos de lenguaje grandes en tareas interactivas de lenguaje natural. Para tareas interactivas de visión y lenguaje que involucran escenas visuales complejas, es imperativo contar con una gran cantidad de pares de instrucción-respuesta diversos y creativos para ajustar los modelos de visión y lenguaje (VLMs). Sin embargo, la disponibilidad actual de pares de instrucción-respuesta en visión y lenguaje, en términos de cantidad, diversidad y creatividad, sigue siendo limitada, lo que plantea desafíos para la generalización de los VLMs interactivos. Aquí presentamos MultI-Modal In-Context Instruction Tuning (MIMIC-IT), un conjunto de datos que comprende 2.8 millones de pares de instrucción-respuesta multimodales, con 2.2 millones de instrucciones únicas derivadas de imágenes y videos. Cada par está acompañado de información multimodal en contexto, formando contextos conversacionales destinados a potenciar los VLMs en percepción, razonamiento y planificación. El proceso de recopilación de instrucciones y respuestas, denominado Syphus, se escala utilizando una canalización de anotación automática que combina la experiencia humana con las capacidades de GPT. Utilizando el conjunto de datos MIMIC-IT, entrenamos un gran VLM llamado Otter. Basado en evaluaciones extensas realizadas en benchmarks de visión y lenguaje, se ha observado que Otter demuestra una notable competencia en percepción multimodal, razonamiento y aprendizaje en contexto. La evaluación humana revela que se alinea efectivamente con las intenciones del usuario. Publicamos el conjunto de datos MIMIC-IT, la canalización de recopilación de instrucciones y respuestas, los benchmarks y el modelo Otter.

Rastrear Todo en Todas Partes al Mismo Tiempo
Tracking Everything Everywhere All at Once

Jun 8, 2023

Qianqian Wang, Yen-Yu Chang, Ruojin Cai, Zhengqi Li, Bharath Hariharan, Aleksander Holynski, Noah Snavely

102

Presentamos un nuevo método de optimización en tiempo de prueba para estimar movimiento denso y de largo alcance a partir de una secuencia de video. Los algoritmos previos de flujo óptico o seguimiento de partículas en video suelen operar dentro de ventanas temporales limitadas, enfrentando dificultades para rastrear a través de oclusiones y mantener la consistencia global de las trayectorias de movimiento estimadas. Proponemos una representación de movimiento completa y globalmente consistente, denominada OmniMotion, que permite una estimación precisa y completa del movimiento de cada píxel en un video. OmniMotion representa un video utilizando un volumen canónico cuasi-3D y realiza un seguimiento píxel a píxel mediante biyecciones entre el espacio local y el canónico. Esta representación nos permite garantizar la consistencia global, rastrear a través de oclusiones y modelar cualquier combinación de movimiento de cámara y objetos. Evaluaciones exhaustivas en el benchmark TAP-Vid y en material de video del mundo real muestran que nuestro enfoque supera por un amplio margen a los métodos más avanzados anteriores, tanto cuantitativa como cualitativamente. Consulte nuestra página del proyecto para más resultados: http://omnimotion.github.io/

Video-ChatGPT: Hacia una comprensión detallada de videos mediante modelos grandes de visión y lenguaje
Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models

Jun 8, 2023

Muhammad Maaz, Hanoona Rasheed, Salman Khan, Fahad Shahbaz Khan

Los agentes conversacionales impulsados por modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) están ofreciendo una nueva forma de interactuar con datos visuales. Si bien ha habido intentos iniciales de desarrollar modelos conversacionales basados en imágenes, este trabajo aborda el campo poco explorado de las conversaciones basadas en videos mediante la introducción de Video-ChatGPT. Se trata de un modelo multimodal que combina un codificador visual adaptado para videos con un LLM. El modelo es capaz de comprender y generar conversaciones similares a las humanas sobre videos. Presentamos un nuevo conjunto de datos de 100,000 pares de video-instrucción utilizados para entrenar Video-ChatGPT, adquiridos mediante un proceso manual y semiautomatizado que es fácilmente escalable y robusto ante el ruido en las etiquetas. También desarrollamos un marco de evaluación cuantitativa para modelos de diálogo basados en videos, con el fin de analizar objetivamente las fortalezas y debilidades de los modelos propuestos. Nuestro código, modelos, conjuntos de instrucciones y demostración están disponibles en https://github.com/mbzuai-oryx/Video-ChatGPT.

SyncDiffusion: Montaje Coherente mediante Difusiones Conjuntas Sincronizadas
SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions

Jun 8, 2023

Yuseung Lee, Kunho Kim, Hyunjin Kim, Minhyuk Sung

Las notables capacidades de los modelos de difusión de imágenes preentrenados se han utilizado no solo para generar imágenes de tamaño fijo, sino también para crear panoramas. Sin embargo, la unión ingenua de múltiples imágenes a menudo resulta en costuras visibles. Técnicas recientes han intentado abordar este problema realizando difusiones conjuntas en múltiples ventanas y promediando características latentes en regiones superpuestas. No obstante, estos enfoques, que se centran en la generación de montajes sin costuras, a menudo producen resultados incoherentes al mezclar diferentes escenas dentro de una sola imagen. Para superar esta limitación, proponemos SyncDiffusion, un módulo plug-and-play que sincroniza múltiples difusiones mediante el descenso de gradiente a partir de una pérdida de similitud perceptual. Específicamente, calculamos el gradiente de la pérdida perceptual utilizando las imágenes desruidosas predichas en cada paso de desruido, proporcionando una guía significativa para lograr montajes coherentes. Nuestros resultados experimentales demuestran que nuestro método produce resultados significativamente más coherentes en comparación con métodos anteriores (66.35% vs. 33.65% en nuestro estudio de usuarios), manteniendo al mismo tiempo la fidelidad (evaluada por GIQA) y la compatibilidad con la entrada de texto (medida por el puntaje CLIP).

Matting Anything
Matting Anything

Jun 8, 2023

Jiachen Li, Jitesh Jain, Humphrey Shi

En este artículo, proponemos el Modelo de Matting para Cualquier Cosa (MAM, por sus siglas en inglés), un marco eficiente y versátil para estimar el alfa matte de cualquier instancia en una imagen con guía flexible e interactiva mediante indicaciones visuales o lingüísticas del usuario. MAM ofrece varias ventajas significativas sobre las redes especializadas de matting de imágenes anteriores: (i) MAM es capaz de manejar diversos tipos de matting de imágenes, incluyendo matting semántico, de instancia y de referencia, utilizando un solo modelo; (ii) MAM aprovecha los mapas de características del Modelo de Segmentación para Cualquier Cosa (SAM, por sus siglas en inglés) y adopta un módulo ligero de Máscara a Matte (M2M, por sus siglas en inglés) para predecir el alfa matte mediante refinamiento iterativo, el cual tiene solo 2.7 millones de parámetros entrenables; (iii) Al incorporar SAM, MAM simplifica la intervención del usuario requerida para el uso interactivo del matting de imágenes, pasando del trimap a indicaciones de caja, punto o texto. Evaluamos el rendimiento de MAM en varios benchmarks de matting de imágenes, y los resultados experimentales demuestran que MAM alcanza un rendimiento comparable al de los modelos especializados de matting de imágenes más avanzados bajo diferentes métricas en cada benchmark. En general, MAM muestra una capacidad de generalización superior y puede manejar eficazmente diversas tareas de matting de imágenes con menos parámetros, convirtiéndolo en una solución práctica para el matting de imágenes unificado. Nuestro código y modelos están disponibles en código abierto en https://github.com/SHI-Labs/Matting-Anything.

Mezcla-de-Superredes: Mejorando el Entrenamiento de Superredes con Compartición de Peso mediante Mezcla de Expertos con Enrutamiento Arquitectónico
Mixture-of-Supernets: Improving Weight-Sharing Supernet Training with Architecture-Routed Mixture-of-Experts

Jun 8, 2023

Ganesh Jawahar, Haichuan Yang, Yunyang Xiong, Zechun Liu, Dilin Wang, Fei Sun, Meng Li, Aasish Pappu, Barlas Oguz, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, Raghuraman Krishnamoorthi, Vikas Chandra

La superred con compartición de pesos se ha convertido en un componente esencial para la estimación de rendimiento en los marcos de búsqueda de arquitecturas neuronales (NAS) más avanzados (SOTA). Aunque la superred puede generar directamente diferentes subredes sin necesidad de reentrenamiento, no hay garantía de la calidad de estas subredes debido a la compartición de pesos. En tareas de PLN como la traducción automática y el modelado de lenguaje preentrenado, observamos que, dada la misma arquitectura de modelo, existe una gran brecha de rendimiento entre la superred y el entrenamiento desde cero. Por lo tanto, la superred no puede usarse directamente y es necesario reentrenar después de encontrar las arquitecturas óptimas. En este trabajo, proponemos una mezcla de superredes, una formulación generalizada de superred en la que se adopta la mezcla de expertos (MoE) para mejorar el poder expresivo del modelo de superred, con un costo de entrenamiento insignificante. De esta manera, las diferentes subredes no comparten directamente los pesos del modelo, sino a través de un mecanismo de enrutamiento basado en la arquitectura. Como resultado, los pesos del modelo de diferentes subredes se personalizan según sus arquitecturas específicas y la generación de pesos se aprende mediante descenso de gradiente. En comparación con las superredes con compartición de pesos existentes para PLN, nuestro método puede minimizar el tiempo de reentrenamiento, mejorando significativamente la eficiencia del entrenamiento. Además, el método propuesto logra el rendimiento SOTA en NAS para construir modelos de traducción automática rápidos, obteniendo un mejor equilibrio entre latencia y BLEU en comparación con HAT, el NAS SOTA para MT. También alcanzamos el rendimiento SOTA en NAS para construir modelos BERT eficientes en memoria y agnósticos a la tarea, superando a NAS-BERT y AutoDistil en varios tamaños de modelo.

Prompting de Fondo para Mejorar la Profundidad de Objetos
Background Prompting for Improved Object Depth

Jun 8, 2023

Manel Baradad, Yuanzhen Li, Forrester Cole, Michael Rubinstein, Antonio Torralba, William T. Freeman, Varun Jampani

Estimar la profundidad de objetos a partir de una sola imagen es una tarea valiosa para muchas aplicaciones de visión, robótica y gráficos. Sin embargo, los métodos actuales a menudo no logran producir profundidades precisas para objetos en escenas diversas. En este trabajo, proponemos una estrategia simple pero efectiva llamada *Background Prompting* que adapta la imagen del objeto de entrada con un fondo aprendido. Aprendemos los *prompts* de fondo utilizando únicamente conjuntos de datos sintéticos de objetos a pequeña escala. Para inferir la profundidad del objeto en una imagen real, colocamos el objeto segmentado en el *prompt* de fondo aprendido y ejecutamos redes de profundidad estándar. *Background Prompting* ayuda a las redes de profundidad a enfocarse en el objeto en primer plano, ya que se vuelven invariantes a las variaciones del fondo. Además, *Background Prompting* minimiza la brecha de dominio entre imágenes sintéticas y reales de objetos, lo que lleva a una mejor generalización *sim2real* que el simple ajuste fino (*finetuning*). Los resultados en múltiples conjuntos de datos sintéticos y reales demuestran mejoras consistentes en las profundidades de objetos reales para una variedad de redes de profundidad existentes. El código y los *prompts* de fondo optimizados se pueden encontrar en: https://mbaradad.github.io/depth_prompt.

Síntesis de Texto a Imagen Fundamentada con Reenfoque de Atención
Grounded Text-to-Image Synthesis with Attention Refocusing

Jun 8, 2023

Quynh Phung, Songwei Ge, Jia-Bin Huang

Impulsados por modelos de difusión escalables entrenados en grandes conjuntos de datos de pares texto-imagen, los métodos de síntesis de texto a imagen han mostrado resultados convincentes. Sin embargo, estos modelos aún fallan en seguir con precisión las indicaciones del texto cuando se involucran múltiples objetos, atributos y composiciones espaciales en la indicación. En este artículo, identificamos las posibles razones tanto en las capas de atención cruzada como en las de auto-atención del modelo de difusión. Proponemos dos nuevas funciones de pérdida para reenfocar los mapas de atención según un diseño dado durante el proceso de muestreo. Realizamos experimentos exhaustivos en los puntos de referencia DrawBench y HRS utilizando diseños sintetizados por Modelos de Lenguaje de Gran Escala, demostrando que nuestras funciones de pérdida propuestas pueden integrarse de manera fácil y efectiva en los métodos existentes de texto a imagen y mejorar consistentemente la alineación entre las imágenes generadas y las indicaciones de texto.

Descubrimiento de Conceptos Composicionales No Supervisados con Modelos Generativos de Texto a Imagen
Unsupervised Compositional Concepts Discovery with Text-to-Image Generative Models

Jun 8, 2023

Nan Liu, Yilun Du, Shuang Li, Joshua B. Tenenbaum, Antonio Torralba

Los modelos generativos de texto a imagen han permitido la síntesis de imágenes de alta resolución en diferentes dominios, pero requieren que los usuarios especifiquen el contenido que desean generar. En este artículo, consideramos el problema inverso: dada una colección de imágenes diferentes, ¿podemos descubrir los conceptos generativos que representan cada imagen? Presentamos un enfoque no supervisado para descubrir conceptos generativos a partir de una colección de imágenes, desentrañando diferentes estilos artísticos en pinturas, objetos e iluminación en escenas de cocina, y descubriendo clases de imágenes dadas imágenes de ImageNet. Mostramos cómo dichos conceptos generativos pueden representar con precisión el contenido de las imágenes, recombinarse y componerse para generar nuevas imágenes artísticas e híbridas, y utilizarse además como una representación para tareas de clasificación posteriores.

Mejorando los modelos de lenguaje abierto mediante el aprendizaje de interacciones orgánicas
Improving Open Language Models by Learning from Organic Interactions

Jun 7, 2023

Jing Xu, Da Ju, Joshua Lane, Mojtaba Komeili, Eric Michael Smith, Megan Ung, Morteza Behrooz, William Ngan, Rashel Moritz, Sainbayar Sukhbaatar, Y-Lan Boureau, Jason Weston, Kurt Shuster

Presentamos BlenderBot 3x, una actualización del modelo conversacional BlenderBot 3, que ahora se entrena utilizando conversaciones orgánicas y datos de retroalimentación de usuarios participantes del sistema para mejorar tanto sus habilidades como su seguridad. Estamos liberando públicamente los datos de interacción desidentificados de los participantes para su uso por parte de la comunidad investigadora, con el fin de impulsar nuevos avances. Entrenar modelos con datos orgánicos es un desafío porque las interacciones con personas "en el mundo real" incluyen tanto conversaciones y retroalimentación de alta calidad, como comportamientos adversarios y tóxicos. Estudiamos técnicas que permiten aprender de instructores útiles mientras evitamos aprender de personas que intentan engañar al modelo para generar respuestas inútiles o tóxicas. BlenderBot 3x no solo es preferido en conversación frente a BlenderBot 3, sino que también demuestra producir respuestas más seguras en situaciones desafiantes. Aunque nuestros modelos actuales aún están lejos de ser perfectos, creemos que se pueden lograr mejoras adicionales mediante el uso continuo de las técnicas exploradas en este trabajo.

R-MAE: Regiones Encuentran Autoencoders Enmascarados
R-MAE: Regions Meet Masked Autoencoders

Jun 8, 2023

Duy-Kien Nguyen, Vaibhav Aggarwal, Yanghao Li, Martin R. Oswald, Alexander Kirillov, Cees G. M. Snoek, Xinlei Chen

Los conceptos específicos de visión, como "región", han desempeñado un papel clave en la extensión de los marcos generales de aprendizaje automático a tareas como la detección de objetos. Dado el éxito de los detectores basados en regiones para el aprendizaje supervisado y los avances de los métodos intra-imagen para el aprendizaje contrastivo, exploramos el uso de regiones para el pre-entrenamiento reconstructivo. Partiendo del Autoencoding Enmascarado (MAE) tanto como referencia e inspiración, proponemos una tarea de pre-texto paralela diseñada para abordar el mapeo uno-a-muchos entre imágenes y regiones. Dado que estas regiones pueden generarse de manera no supervisada, nuestro enfoque (R-MAE) hereda la amplia aplicabilidad de MAE, al mismo tiempo que es más "consciente de las regiones". Realizamos análisis exhaustivos durante el desarrollo de R-MAE y convergemos en una variante que es tanto efectiva como eficiente (un 1.3% de sobrecarga sobre MAE). Además, muestra mejoras cuantitativas consistentes cuando se generaliza a diversos datos de pre-entrenamiento y benchmarks de detección y segmentación aguas abajo. Finalmente, proporcionamos visualizaciones cualitativas extensas para mejorar la comprensión del comportamiento y el potencial de R-MAE. El código estará disponible en https://github.com/facebookresearch/r-mae.

LU-NeRF: Estimación de escenas y poses mediante la sincronización de NeRFs locales sin pose
LU-NeRF: Scene and Pose Estimation by Synchronizing Local Unposed NeRFs

Jun 8, 2023

Zezhou Cheng, Carlos Esteves, Varun Jampani, Abhishek Kar, Subhransu Maji, Ameesh Makadia

Un obstáculo crítico que impide el despliegue generalizado de los modelos NeRF en entornos reales es su dependencia de poses de cámara precisas. En consecuencia, existe un creciente interés en extender los modelos NeRF para optimizar conjuntamente las poses de la cámara y la representación de la escena, lo que ofrece una alternativa a las pipelines de SfM predefinidas que tienen modos de fallo bien conocidos. Los enfoques existentes para NeRF sin poses operan bajo supuestos limitados, como una distribución previa de poses o una inicialización aproximada de las mismas, lo que los hace menos efectivos en un entorno general. En este trabajo, proponemos un enfoque novedoso, LU-NeRF, que estima conjuntamente las poses de la cámara y los campos de radiancia neural con supuestos relajados sobre la configuración de las poses. Nuestro enfoque opera de manera local a global, donde primero optimizamos subconjuntos locales de los datos, denominados mini-escenas. LU-NeRF estima la pose y la geometría local para esta tarea desafiante de pocas muestras. Las poses de las mini-escenas se integran en un marco de referencia global mediante un paso robusto de sincronización de poses, donde se puede realizar una optimización global final de la pose y la escena. Demostramos que nuestra pipeline LU-NeRF supera los intentos previos de NeRF sin poses sin hacer supuestos restrictivos sobre la distribución previa de poses. Esto nos permite operar en el entorno general de poses SE(3), a diferencia de las líneas base. Nuestros resultados también indican que nuestro modelo puede ser complementario a las pipelines de SfM basadas en características, ya que se compara favorablemente con COLMAP en imágenes de baja textura y baja resolución.

Respuesta Visual Modular a Preguntas mediante Generación de Código
Modular Visual Question Answering via Code Generation

Jun 8, 2023

Sanjay Subramanian, Medhini Narasimhan, Kushal Khangaonkar, Kevin Yang, Arsha Nagrani, Cordelia Schmid, Andy Zeng, Trevor Darrell, Dan Klein

Presentamos un marco de trabajo que formula la respuesta a preguntas visuales como generación de código modular. A diferencia de trabajos previos sobre enfoques modulares para VQA, nuestro método no requiere entrenamiento adicional y se basa en modelos de lenguaje preentrenados (LMs), modelos visuales preentrenados con pares de imagen-texto, y cincuenta ejemplos de VQA utilizados para aprendizaje en contexto. Los programas Python generados invocan y combinan las salidas de los modelos visuales utilizando lógica aritmética y condicional. Nuestro enfoque mejora la precisión en el conjunto de datos COVR en al menos un 3% y en el conjunto de datos GQA en aproximadamente un 2% en comparación con la línea base de pocos ejemplos que no emplea generación de código.

Optimización del entrenamiento de ViViT: Reducción de tiempo y memoria para el reconocimiento de acciones
Optimizing ViViT Training: Time and Memory Reduction for Action Recognition

Jun 7, 2023

Shreyank N Gowda, Anurag Arnab, Jonathan Huang

En este artículo, abordamos los desafíos planteados por el tiempo de entrenamiento sustancial y el consumo de memoria asociados con los transformadores de video, centrándonos en el modelo ViViT (Video Vision Transformer), en particular la versión de Codificador Factorizado, como nuestra línea base para tareas de reconocimiento de acciones. La variante del codificador factorizado sigue el enfoque de fusión tardía que adoptan muchos de los métodos más avanzados. A pesar de destacarse por sus favorables compensaciones entre velocidad y precisión entre las diferentes variantes de ViViT, su considerable tiempo de entrenamiento y requisitos de memoria siguen representando una barrera significativa. Nuestro método está diseñado para reducir esta barrera y se basa en la idea de congelar el transformador espacial durante el entrenamiento. Esto conduce a un modelo de baja precisión si se hace de manera ingenua. Sin embargo, demostramos que (1) inicializando adecuadamente el transformador temporal (un módulo responsable de procesar la información temporal) y (2) introduciendo un modelo adaptador compacto que conecta las representaciones espaciales congeladas (un módulo que se enfoca selectivamente en regiones de la imagen de entrada) con el transformador temporal, podemos disfrutar de los beneficios de congelar el transformador espacial sin sacrificar la precisión. A través de una extensa experimentación en 6 puntos de referencia, demostramos que nuestra estrategia de entrenamiento propuesta reduce significativamente los costos de entrenamiento (en aproximadamente un 50%) y el consumo de memoria, al mismo tiempo que mantiene o mejora ligeramente el rendimiento hasta en un 1,79% en comparación con el modelo base. Nuestro enfoque además desbloquea la capacidad de utilizar modelos de transformadores de imagen más grandes como nuestro transformador espacial y acceder a más fotogramas con el mismo consumo de memoria.

Escalado de Redes Neuronales Convolucionales Esféricas
Scaling Spherical CNNs

Jun 8, 2023

Carlos Esteves, Jean-Jacques Slotine, Ameesh Makadia

Las CNNs esféricas generalizan las CNNs a funciones sobre la esfera, utilizando convoluciones esféricas como la operación lineal principal. La forma más precisa y eficiente de calcular convoluciones esféricas es en el dominio espectral (a través del teorema de convolución), lo cual sigue siendo más costoso que las convoluciones planas habituales. Por esta razón, las aplicaciones de las CNNs esféricas hasta ahora se han limitado a problemas pequeños que pueden abordarse con una capacidad de modelo reducida. En este trabajo, mostramos cómo las CNNs esféricas pueden escalarse para problemas mucho más grandes. Para lograrlo, realizamos mejoras críticas que incluyen variantes novedosas de componentes comunes del modelo, una implementación de operaciones centrales para aprovechar las características de los aceleradores de hardware y representaciones de entrada específicas para la aplicación que explotan las propiedades de nuestro modelo. Los experimentos muestran que nuestras CNNs esféricas más grandes alcanzan el estado del arte en varios objetivos del benchmark molecular QM9, que anteriormente estaba dominado por redes neuronales de grafos equivariantes, y logran un rendimiento competitivo en múltiples tareas de pronóstico del tiempo. Nuestro código está disponible en https://github.com/google-research/spherical-cnn.

Mezcla-de-Superredes: Mejorando el Entrenamiento de Superredes con Compartición de Peso mediante Mezcla de Expertos con Enrutamiento Arquitectónico
Mixture-of-Supernets: Improving Weight-Sharing Supernet Training with Architecture-Routed Mixture-of-Experts

Jun 8, 2023

Papers Diarios

Generación de música simple y controlable
Simple and Controllable Music Generation

MIMIC-IT: Ajuste de Instrucciones en Contexto Multimodal
MIMIC-IT: Multi-Modal In-Context Instruction Tuning

Rastrear Todo en Todas Partes al Mismo Tiempo
Tracking Everything Everywhere All at Once

Video-ChatGPT: Hacia una comprensión detallada de videos mediante modelos grandes de visión y lenguaje
Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models

SyncDiffusion: Montaje Coherente mediante Difusiones Conjuntas Sincronizadas
SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions

Matting Anything
Matting Anything

Mezcla-de-Superredes: Mejorando el Entrenamiento de Superredes con Compartición de Peso mediante Mezcla de Expertos con Enrutamiento Arquitectónico
Mixture-of-Supernets: Improving Weight-Sharing Supernet Training with Architecture-Routed Mixture-of-Experts

Prompting de Fondo para Mejorar la Profundidad de Objetos
Background Prompting for Improved Object Depth

Síntesis de Texto a Imagen Fundamentada con Reenfoque de Atención
Grounded Text-to-Image Synthesis with Attention Refocusing

Descubrimiento de Conceptos Composicionales No Supervisados con Modelos Generativos de Texto a Imagen
Unsupervised Compositional Concepts Discovery with Text-to-Image Generative Models

Mejorando los modelos de lenguaje abierto mediante el aprendizaje de interacciones orgánicas
Improving Open Language Models by Learning from Organic Interactions

R-MAE: Regiones Encuentran Autoencoders Enmascarados
R-MAE: Regions Meet Masked Autoencoders

LU-NeRF: Estimación de escenas y poses mediante la sincronización de NeRFs locales sin pose
LU-NeRF: Scene and Pose Estimation by Synchronizing Local Unposed NeRFs

Respuesta Visual Modular a Preguntas mediante Generación de Código
Modular Visual Question Answering via Code Generation

Optimización del entrenamiento de ViViT: Reducción de tiempo y memoria para el reconocimiento de acciones
Optimizing ViViT Training: Time and Memory Reduction for Action Recognition

Escalado de Redes Neuronales Convolucionales Esféricas
Scaling Spherical CNNs

Support

Support

Papers Diarios

Generación de música simple y controlable
Simple and Controllable Music Generation

MIMIC-IT: Ajuste de Instrucciones en Contexto Multimodal
MIMIC-IT: Multi-Modal In-Context Instruction Tuning

Rastrear Todo en Todas Partes al Mismo Tiempo
Tracking Everything Everywhere All at Once

Video-ChatGPT: Hacia una comprensión detallada de videos mediante modelos grandes de visión y lenguaje
Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models

SyncDiffusion: Montaje Coherente mediante Difusiones Conjuntas Sincronizadas
SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions

Matting Anything
Matting Anything

Mezcla-de-Superredes: Mejorando el Entrenamiento de Superredes con Compartición de Peso mediante Mezcla de Expertos con Enrutamiento Arquitectónico
Mixture-of-Supernets: Improving Weight-Sharing Supernet Training with Architecture-Routed Mixture-of-Experts

Prompting de Fondo para Mejorar la Profundidad de Objetos
Background Prompting for Improved Object Depth

Síntesis de Texto a Imagen Fundamentada con Reenfoque de Atención
Grounded Text-to-Image Synthesis with Attention Refocusing

Descubrimiento de Conceptos Composicionales No Supervisados con Modelos Generativos de Texto a Imagen
Unsupervised Compositional Concepts Discovery with Text-to-Image Generative Models

Mejorando los modelos de lenguaje abierto mediante el aprendizaje de interacciones orgánicas
Improving Open Language Models by Learning from Organic Interactions

R-MAE: Regiones Encuentran Autoencoders Enmascarados
R-MAE: Regions Meet Masked Autoencoders

LU-NeRF: Estimación de escenas y poses mediante la sincronización de NeRFs locales sin pose
LU-NeRF: Scene and Pose Estimation by Synchronizing Local Unposed NeRFs

Respuesta Visual Modular a Preguntas mediante Generación de Código
Modular Visual Question Answering via Code Generation

Optimización del entrenamiento de ViViT: Reducción de tiempo y memoria para el reconocimiento de acciones
Optimizing ViViT Training: Time and Memory Reduction for Action Recognition

Escalado de Redes Neuronales Convolucionales Esféricas
Scaling Spherical CNNs