Artículos de investigación en IA seleccionados diariamente con traducciones
Los transformadores de visión basados en autoatención (ViTs) han surgido como una arquitectura altamente competitiva en visión por computadora. A diferencia de las redes neuronales convolucionales (CNNs), los ViTs son capaces de compartir información global. Con el desarrollo de diversas estructuras de ViTs, estos son cada vez más ventajosos para muchas tareas de visión. Sin embargo, la complejidad cuadrática de la autoatención hace que los ViTs sean computacionalmente intensivos, y su falta de sesgos inductivos de localidad y equivarianza traslacional exige tamaños de modelo más grandes en comparación con las CNNs para aprender eficazmente características visuales. En este artículo, proponemos un modelo ligero y eficiente de transformador de visión llamado DualToken-ViT que aprovecha las ventajas de las CNNs y los ViTs. DualToken-ViT fusiona eficazmente el token con información local obtenida por una estructura basada en convolución y el token con información global obtenida por una estructura basada en autoatención para lograr una estructura de atención eficiente. Además, utilizamos tokens globales conscientes de la posición en todas las etapas para enriquecer la información global, lo que refuerza aún más el efecto de DualToken-ViT. Los tokens globales conscientes de la posición también contienen la información de posición de la imagen, lo que hace que nuestro modelo sea mejor para tareas de visión. Realizamos extensos experimentos en tareas de clasificación de imágenes, detección de objetos y segmentación semántica para demostrar la eficacia de DualToken-ViT. En el conjunto de datos ImageNet-1K, nuestros modelos de diferentes escalas alcanzan precisiones de 75.4% y 79.4% con solo 0.5G y 1.0G FLOPs, respectivamente, y nuestro modelo con 1.0G FLOPs supera a LightViT-T que utiliza tokens globales en un 0.7%.
Presentamos MosaicFusion, un enfoque simple pero efectivo de aumento de datos basado en difusión para la segmentación de instancias con vocabulario extenso. Nuestro método no requiere entrenamiento y no depende de supervisión de etiquetas. Dos diseños clave nos permiten emplear un modelo de difusión de texto a imagen estándar como un generador útil de conjuntos de datos para instancias de objetos y anotaciones de máscaras. Primero, dividimos un lienzo de imagen en varias regiones y realizamos una única ronda de proceso de difusión para generar múltiples instancias simultáneamente, condicionando con diferentes indicaciones de texto. Segundo, obtenemos las máscaras de instancia correspondientes agregando mapas de atención cruzada asociados con las indicaciones de objetos a través de capas y pasos de difusión, seguidos de un umbralizado simple y un procesamiento de refinamiento consciente de bordes. Sin elementos adicionales, nuestro MosaicFusion puede producir una cantidad significativa de datos sintéticos etiquetados tanto para categorías raras como novedosas. Los resultados experimentales en los desafiantes benchmarks LVIS de cola larga y vocabulario abierto demuestran que MosaicFusion puede mejorar significativamente el rendimiento de los modelos existentes de segmentación de instancias, especialmente para categorías raras y novedosas. El código se publicará en https://github.com/Jiahao000/MosaicFusion.
La poda de redes neuronales ofrece un método efectivo para comprimir un modelo multilingüe de reconocimiento automático del habla (ASR) con una pérdida mínima de rendimiento. Sin embargo, implica varias rondas de poda y reentrenamiento que deben ejecutarse para cada idioma. En este trabajo, proponemos el uso de un enfoque de enmascaramiento adaptativo en dos escenarios para podar eficientemente un modelo multilingüe de ASR, lo que resulta en modelos monolingües dispersos o en un modelo multilingüe disperso (denominado como Dynamic ASR Pathways). Nuestro enfoque adapta dinámicamente la subred, evitando decisiones prematuras sobre una estructura fija de subred. Demostramos que nuestro enfoque supera a los métodos de poda existentes cuando se apunta a modelos monolingües dispersos. Además, ilustramos que Dynamic ASR Pathways descubre y entrena conjuntamente mejores subredes (rutas) de un único modelo multilingüe al adaptarse a diferentes inicializaciones de subred, reduciendo así la necesidad de una poda específica por idioma.
El preentrenamiento con datos de Internet ha demostrado ser un ingrediente clave para la generalización amplia en muchos sistemas modernos de aprendizaje automático (ML). ¿Qué se necesitaría para habilitar tales capacidades en el aprendizaje por refuerzo (RL) robótico? Los métodos de RL fuera de línea, que aprenden de conjuntos de datos de experiencia robótica, ofrecen una forma de aprovechar datos previos en la canalización de aprendizaje robótico. Sin embargo, estos métodos tienen un "desajuste de tipo" con los datos de video (como Ego4D), los conjuntos de datos previos más grandes disponibles para robótica, ya que el video ofrece experiencia solo de observación sin las anotaciones de acción o recompensa necesarias para los métodos de RL. En este artículo, desarrollamos un sistema para aprovechar grandes conjuntos de datos de video humano en RL robótico fuera de línea, basado completamente en el aprendizaje de funciones de valor mediante aprendizaje por diferencias temporales. Mostramos que el aprendizaje de valor en conjuntos de datos de video aprende representaciones que son más propicias para el RL robótico fuera de línea que otros enfoques para aprender de datos de video. Nuestro sistema, llamado V-PTR, combina los beneficios del preentrenamiento con datos de video con enfoques de RL robótico fuera de línea que entrenan con datos robóticos diversos, lo que resulta en funciones de valor y políticas para tareas de manipulación que funcionan mejor, actúan de manera robusta y generalizan ampliamente. En varias tareas de manipulación en un robot WidowX real, nuestro marco produce políticas que mejoran significativamente sobre métodos anteriores. Nuestro video y detalles adicionales se pueden encontrar en https://dibyaghosh.com/vptr/.