Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'objectif de l'adaptation de domaine en ligne pour la segmentation sémantique est de gérer les changements de domaine imprévisibles qui surviennent lors du déploiement, comme des événements météorologiques soudains. Cependant, les coûts de calcul élevés associés à une adaptation par force brute rendent ce paradigme irréalisable pour des applications réelles. Dans cet article, nous proposons HAMLET, un cadre de formation modulaire et peu coûteux conscient du matériel pour l'adaptation de domaine en temps réel. Notre approche inclut un agent d'orchestration de rétropropagation conscient du matériel (HAMT) et un détecteur dédié de changement de domaine qui permet un contrôle actif sur quand et comment le modèle est adapté (LT). Grâce à ces avancées, notre approche est capable d'effectuer une segmentation sémantique tout en s'adaptant simultanément à plus de 29 images par seconde sur une seule GPU grand public. Le compromis encourageant entre précision et vitesse de notre cadre est démontré sur les benchmarks OnDA et SHIFT à travers des résultats expérimentaux.
Nous présentons NeRF-Det, une méthode novatrice pour la détection 3D en intérieur utilisant des images RGB posées en entrée. Contrairement aux méthodes existantes de détection 3D en intérieur qui peinent à modéliser la géométrie des scènes, notre méthode exploite de manière inédite NeRF de bout en bout pour estimer explicitement la géométrie 3D, améliorant ainsi les performances de détection 3D. Plus précisément, pour éviter la latence supplémentaire importante associée à l'optimisation par scène de NeRF, nous introduisons des préconceptions géométriques suffisantes pour améliorer la généralisabilité du MLP de NeRF. De plus, nous connectons subtilement les branches de détection et de NeRF via un MLP partagé, permettant une adaptation efficace de NeRF à la détection et produisant des représentations volumétriques conscientes de la géométrie pour la détection 3D. Notre méthode surpasse l'état de l'art avec des gains de 3,9 mAP et 3,1 mAP sur les benchmarks ScanNet et ARKITScenes, respectivement. Nous fournissons une analyse approfondie pour éclairer le fonctionnement de NeRF-Det. Grâce à notre conception d'entraînement conjoint, NeRF-Det est capable de bien généraliser à des scènes non vues pour les tâches de détection d'objets, de synthèse de vues et d'estimation de profondeur sans nécessiter d'optimisation par scène. Le code est disponible à l'adresse https://github.com/facebookresearch/NeRF-Det.
Nous publions MiDaS v3.1 pour l'estimation de profondeur monoculaire, proposant une variété de nouveaux modèles basés sur différentes architectures d'encodeurs. Cette version est motivée par le succès des transformers en vision par ordinateur, avec une large gamme de transformers visuels pré-entraînés désormais disponibles. Nous explorons comment l'utilisation des transformers visuels les plus prometteurs en tant qu'encodeurs d'images influence la qualité de l'estimation de profondeur et le temps d'exécution de l'architecture MiDaS. Notre investigation inclut également des approches convolutionnelles récentes qui atteignent une qualité comparable à celle des transformers visuels dans les tâches de classification d'images. Alors que la version précédente MiDaS v3.0 s'appuyait uniquement sur le transformer visuel standard ViT, MiDaS v3.1 propose des modèles supplémentaires basés sur BEiT, Swin, SwinV2, Next-ViT et LeViT. Ces modèles offrent différents compromis entre performance et temps d'exécution. Le meilleur modèle améliore la qualité de l'estimation de profondeur de 28 %, tandis que les modèles efficaces permettent des tâches en aval nécessitant des taux de rafraîchissement élevés. Nous décrivons également le processus général pour intégrer de nouvelles architectures d'encodeurs. Une vidéo résumant ce travail est disponible à l'adresse https://youtu.be/UjaeNNFf9sE et le code est accessible sur https://github.com/isl-org/MiDaS.
Préserver la dynamique d'entraînement pour différentes tailles de lot est un outil essentiel en apprentissage automatique pratique, car il permet de faire un compromis entre la taille du lot et le temps d'exécution réel. Ce compromis est généralement rendu possible par une règle de mise à l'échelle. Par exemple, dans la descente de gradient stochastique, il convient de mettre à l'échelle le taux d'apprentissage linéairement avec la taille du lot. Un autre outil important en apprentissage automatique pratique est la moyenne mobile exponentielle (EMA) du modèle, qui est une copie du modèle ne recevant pas d'informations de gradient, mais suivant plutôt son modèle cible avec une certaine inertie. Cette EMA du modèle peut améliorer la robustesse et les propriétés de généralisation en apprentissage supervisé, stabiliser l'étiquetage pseudo-supervisé et fournir un signal d'apprentissage pour l'apprentissage auto-supervisé (SSL). Les travaux antérieurs ont traité la EMA du modèle séparément de l'optimisation, entraînant des dynamiques d'entraînement différentes selon les tailles de lot et une performance moindre du modèle. Dans ce travail, nous proposons une règle de mise à l'échelle pour l'optimisation en présence de EMA de modèle et démontrons sa validité sur une gamme d'architectures, d'optimiseurs et de modalités de données. Nous montrons également la validité de cette règle lorsque la EMA du modèle contribue à l'optimisation du modèle cible, nous permettant d'entraîner des méthodes d'étiquetage pseudo-supervisé et de SSL basées sur la EMA pour des tailles de lot petites et grandes. Pour le SSL, nous permettons l'entraînement de BYOL jusqu'à une taille de lot de 24 576 sans sacrifier les performances, ce qui réduit optimalement le temps d'exécution réel d'un facteur 6.
La nature progressive d'un processus de diffusion qui synthétise des échantillons par petits incréments constitue un élément clé des Modèles de Diffusion Probabiliste de Débruitage (Denoising Diffusion Probabilistic Models, DDPM), qui ont démontré une qualité sans précédent en synthèse d'images et ont récemment été explorés dans le domaine du mouvement. Dans ce travail, nous proposons d'adapter le concept de diffusion progressive (opérant le long d'un axe temporel de diffusion) à l'axe temporel de la séquence de mouvement. Notre idée principale est d'étendre le cadre des DDPM pour supporter un débruitage variant temporellement, entrelaçant ainsi les deux axes. Grâce à notre formulation spéciale, nous débruitons itérativement un tampon de mouvement contenant un ensemble de poses de plus en plus bruitées, produisant de manière auto-régressive un flux de frames arbitrairement long. Avec un axe temporel de diffusion stationnaire, à chaque étape de diffusion, nous incrémentons uniquement l'axe temporel du mouvement, de sorte que le cadre produit une nouvelle frame propre qui est retirée du début du tampon, suivie d'un nouveau vecteur de bruit qui y est ajouté. Ce nouveau mécanisme ouvre la voie à un cadre innovant pour la synthèse de mouvement à long terme, avec des applications dans l'animation de personnages et d'autres domaines.