Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Lumiere -- un modèle de diffusion texte-à-vidéo conçu pour synthétiser des vidéos représentant des mouvements réalistes, diversifiés et cohérents -- un défi majeur dans la synthèse vidéo. Pour ce faire, nous introduisons une architecture Space-Time U-Net qui génère l'intégralité de la durée temporelle de la vidéo en une seule passe dans le modèle. Cela contraste avec les modèles vidéo existants qui synthétisent des images clés distantes suivies d'une super-résolution temporelle -- une approche qui rend intrinsèquement difficile l'obtention d'une cohérence temporelle globale. En déployant un sous-échantillonnage et un sur-échantillonnage à la fois spatial et (surtout) temporel, et en exploitant un modèle de diffusion texte-à-image pré-entraîné, notre modèle apprend à générer directement une vidéo à pleine fréquence d'images et à basse résolution en la traitant à plusieurs échelles spatio-temporelles. Nous démontrons des résultats de pointe en génération texte-à-vidéo et montrons que notre conception facilite aisément une large gamme de tâches de création de contenu et d'applications de montage vidéo, y compris la génération image-à-vidéo, l'inpainting vidéo et la génération stylisée.
L'utilisation des grands modèles de langage visuel (LVLMs) en 2023 est très en vogue dans la communauté de l'intelligence artificielle. Cependant, le nombre relativement élevé de paramètres (plus de 7 milliards) des LVLMs populaires rend leur entraînement et leur déploiement difficiles sur les GPU grand public, décourageant de nombreux chercheurs disposant de ressources limitées. Imaginez à quel point il serait impressionnant de pouvoir expérimenter toutes les fonctionnalités des LVLMs actuels sur une ancienne GTX 1080 Ti (notre seule carte graphique). Par conséquent, nous présentons dans ce rapport Vary-toy, une version réduite de Vary utilisant Qwen-1.8B comme modèle de langage de base « grand ». Dans Vary-toy, nous introduisons un vocabulaire visuel amélioré, permettant au modèle non seulement de posséder toutes les fonctionnalités de Vary, mais aussi d'acquérir une plus grande généralité. Plus précisément, nous remplaçons les échantillons négatifs d'images naturelles par des données d'échantillons positifs guidées par la détection d'objets dans le processus de génération du vocabulaire visuel, exploitant ainsi plus efficacement la capacité du réseau de vocabulaire et lui permettant d'encoder de manière efficiente les informations visuelles correspondant aux objets naturels. Pour les expériences, Vary-toy atteint 65,6 % d'ANLS sur DocVQA, 59,1 % de précision sur ChartQA, 88,1 % de précision sur RefCOCO et 29 % sur MMVet. Le code sera rendu public sur la page d'accueil.
Les modèles de base qui intègrent le langage, la vision et, plus récemment, les actions ont révolutionné la capacité à exploiter des données à l'échelle d'Internet pour raisonner sur des tâches utiles. Cependant, l'un des principaux défis de l'entraînement de modèles de base incarnés est le manque de données ancrées dans le monde physique. Dans cet article, nous proposons AutoRT, un système qui exploite les modèles de base existants pour intensifier le déploiement de robots opérationnels dans des scénarios totalement inédits avec un minimum de supervision humaine. AutoRT utilise des modèles vision-langage (VLMs) pour la compréhension et l'ancrage des scènes, et exploite en outre des modèles de langage de grande taille (LLMs) pour proposer des instructions diverses et novatrices à exécuter par une flotte de robots. Guider la collecte de données en puisant dans les connaissances des modèles de base permet à AutoRT de raisonner efficacement sur les compromis d'autonomie et de sécurité tout en augmentant considérablement la collecte de données pour l'apprentissage des robots. Nous démontrons qu'AutoRT propose des instructions à plus de 20 robots répartis dans plusieurs bâtiments et collecte 77 000 épisodes réels de robots via à la fois la téléopération et des politiques de robots autonomes. Nous montrons expérimentalement que ces données "en conditions réelles" collectées par AutoRT sont nettement plus diversifiées, et que l'utilisation des LLMs par AutoRT permet une collecte de données par des robots suivant des instructions qui s'alignent sur les préférences humaines.
Les grands modèles de langage (LLMs) utilisent couramment la génération autorégressive lors de l'inférence, ce qui entraîne une forte demande en bande passante mémoire et, par conséquent, une latence prolongée. Pour atténuer cette inefficacité, nous présentons Bi-directional Tuning for lossless Acceleration (BiTA), une méthode innovante qui accélère les LLMs via une génération semi-autorégressive simplifiée et une vérification de brouillon. Inspirés par le concept de prompt tuning, nous améliorons les LLMs avec une conception paramétriquement efficace appelée bi-directional tuning pour leur capacité à générer de manière semi-autorégressive. En utilisant un décodage basé sur des arbres efficace, les modèles effectuent la génération de candidats brouillons et leur vérification en parallèle, garantissant des résultats identiques à leurs homologues autorégressifs sous échantillonnage glouton. BiTA sert de module d'extension léger, augmentant de manière transparente l'efficacité de l'inférence des LLMs existants sans nécessiter de modèles d'assistance supplémentaires ni engendrer de coûts mémoire significatifs. En appliquant la méthode BiTA proposée, LLaMA-2-70B-Chat atteint une accélération de 2,7 fois sur le benchmark MT-Bench. Des expériences approfondies confirment que notre méthode surpasse les techniques d'accélération de pointe.
Nous présentons GALA, un cadre qui prend en entrée un maillage 3D habillé d'un humain à une seule couche et le décompose en actifs 3D multicouches complets. Les sorties peuvent ensuite être combinées avec d'autres actifs pour créer de nouveaux avatars humains habillés dans n'importe quelle pose. Les approches de reconstruction existantes traitent souvent les humains habillés comme une géométrie à une seule couche et négligent la compositionnalité inhérente des humains avec leurs coiffures, vêtements et accessoires, limitant ainsi l'utilité des maillages pour les applications en aval. Décomposer un maillage à une seule couche en couches séparées est une tâche complexe car elle nécessite la synthèse d'une géométrie et d'une texture plausibles pour les régions fortement occluses. De plus, même avec une décomposition réussie, les maillages ne sont pas normalisés en termes de poses et de formes corporelles, ce qui empêche une composition cohérente avec de nouvelles identités et poses. Pour relever ces défis, nous proposons d'exploiter les connaissances générales d'un modèle de diffusion 2D préentraîné comme a priori de géométrie et d'apparence pour les humains et autres actifs. Nous séparons d'abord le maillage d'entrée en utilisant la segmentation de surface 3D extraite à partir de segmentations 2D multivues. Ensuite, nous synthétisons la géométrie manquante des différentes couches dans les espaces posés et canoniques en utilisant une nouvelle fonction de perte de Score Distillation Sampling (SDS) guidée par la pose. Une fois la géométrie 3D haute fidélité complétée par inpainting, nous appliquons également la même perte SDS à sa texture pour obtenir l'apparence complète, y compris les régions initialement occluses. À travers une série d'étapes de décomposition, nous obtenons plusieurs couches d'actifs 3D dans un espace canonique partagé, normalisé en termes de poses et de formes humaines, permettant ainsi une composition aisée avec de nouvelles identités et une réanimation avec de nouvelles poses. Nos expériences démontrent l'efficacité de notre approche pour les tâches de décomposition, de canonicalisation et de composition par rapport aux solutions existantes.
À l'ère des grands modèles, la nature autorégressive du décodage entraîne souvent une latence qui constitue un goulot d'étranglement significatif. Nous proposons un système de reconnaissance automatique de la parole (ASR) non autorégressif fusionné avec un modèle de langage (LM) qui exploite efficacement les capacités de parallélisation des accélérateurs matériels. Notre approche combine le modèle universel de parole (USM) et le modèle de langage PaLM 2 en mode de scoring par segment, obtenant une amélioration relative moyenne du taux d'erreur de mots (WER) de 10,8 % sur FLEURS et de 3,6 % sur les sous-titres YouTube pour toutes les langues. De plus, notre étude d'ablation approfondie analyse des paramètres clés tels que la taille du LLM, la longueur du contexte, la taille du vocabulaire et la méthodologie de fusion. Par exemple, nous explorons l'impact de la taille du LLM, allant de 128 millions à 340 milliards de paramètres, sur les performances de l'ASR. Cette étude offre des insights précieux sur les facteurs influençant l'efficacité des systèmes pratiques de reconnaissance vocale à grande échelle fusionnés avec des modèles de langage.