Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage génératifs (LLMs) ont ouvert de nombreuses possibilités inédites, mais en raison de leurs exigences computationnelles importantes, leur utilisation omniprésente reste un défi. Certaines des applications les plus utiles nécessitent de traiter un grand nombre d'échantillons simultanément et d'utiliser des contextes longs, ce qui augmente considérablement la charge de communication mémoire des modèles. Nous présentons SparQ Attention, une technique pour augmenter le débit d'inférence des LLMs en réduisant les besoins en bande passante mémoire au sein des blocs d'attention grâce à une récupération sélective de l'historique mis en cache. Notre technique proposée peut être appliquée directement aux LLMs disponibles sur le marché pendant l'inférence, sans nécessiter de modification de la configuration de pré-entraînement ni de réglage supplémentaire. Nous montrons comment SparQ Attention peut réduire les besoins en bande passante mémoire de l'attention jusqu'à huit fois sans perte de précision, en évaluant les modèles Llama 2 et Pythia sur un large éventail de tâches en aval.
Dans cet article, nous présentons DreaMoving, un cadre de génération de vidéos contrôlable basé sur la diffusion pour produire des vidéos de danse humaine personnalisées de haute qualité. Plus précisément, étant donné une séquence de postures et une identité cible, DreaMoving peut générer une vidéo de l'identité cible dansant n'importe où, guidée par les séquences de postures. Pour ce faire, nous proposons un Video ControlNet pour le contrôle du mouvement et un Content Guider pour la préservation de l'identité. Le modèle proposé est facile à utiliser et peut être adapté à la plupart des modèles de diffusion stylisés pour générer des résultats diversifiés. La page du projet est disponible à l'adresse suivante : https://dreamoving.github.io/dreamoving.
La majorité des recherches sur la génération 3D se concentrent sur la projection ascendante de modèles de base 2D dans l'espace 3D, soit en minimisant la perte de distillation de score 2D (SDS), soit en affinant les modèles sur des ensembles de données multi-vues. Sans a priori 3D explicites, ces méthodes entraînent souvent des anomalies géométriques et des incohérences multi-vues. Récemment, les chercheurs ont tenté d'améliorer l'authenticité des objets 3D en les entraînant directement sur des ensembles de données 3D, bien que cela se fasse au détriment de la qualité de la génération de textures, en raison de la diversité limitée des textures dans les ensembles de données 3D. Pour exploiter les avantages des deux approches, nous proposons Bidirectional Diffusion (BiDiff), un cadre unifié qui intègre à la fois un processus de diffusion 3D et 2D, afin de préserver respectivement la fidélité 3D et la richesse des textures 2D. De plus, comme une simple combinaison peut produire des résultats de génération incohérents, nous les relions avec un nouveau guidage bidirectionnel. Par ailleurs, notre méthode peut être utilisée comme initialisation de modèles basés sur l'optimisation pour améliorer davantage la qualité des modèles 3D et l'efficacité de l'optimisation, réduisant ainsi le processus de génération de 3,4 heures à 20 minutes. Les résultats expérimentaux montrent que notre modèle permet une génération 3D de haute qualité, diversifiée et évolutive. Site du projet : https://bidiff.github.io/.
Nous présentons une approche pour enrichir les modèles de génération de texte-à-vidéo avec des mouvements personnalisés, étendant ainsi leurs capacités au-delà des mouvements représentés dans les données d'entraînement originales. En exploitant quelques échantillons vidéo démontrant des mouvements spécifiques comme entrée, notre méthode apprend et généralise les motifs de mouvement pour divers scénarios spécifiés par du texte. Nos contributions sont triples. Premièrement, pour obtenir nos résultats, nous affinons un modèle texte-à-vidéo existant pour apprendre une nouvelle correspondance entre le mouvement représenté dans les exemples d'entrée et un nouveau token unique. Pour éviter le surajustement au nouveau mouvement personnalisé, nous introduisons une approche de régularisation sur les vidéos. Deuxièmement, en exploitant les connaissances préalables sur le mouvement dans un modèle pré-entraîné, notre méthode peut produire de nouvelles vidéos mettant en scène plusieurs personnes effectuant le mouvement personnalisé, et peut invoquer ce mouvement en combinaison avec d'autres mouvements. De plus, notre approche s'étend à la personnalisation multimodale du mouvement et de l'apparence de sujets individualisés, permettant la génération de vidéos mettant en scène des personnages uniques et des mouvements distincts. Troisièmement, pour valider notre méthode, nous introduisons une approche pour évaluer quantitativement le mouvement personnalisé appris et réalisons une étude d'ablation systématique. Nous montrons que notre méthode surpasse significativement les approches de personnalisation basées sur l'apparence lorsqu'elles sont étendues à la tâche de personnalisation du mouvement.
Avec les récents progrès des grands modèles de langage, des méthodes comme l'incitation en chaîne de pensée pour susciter des chaînes de raisonnement ont démontré leur efficacité pour améliorer les résultats sur des tâches de raisonnement. Cependant, les tâches nécessitant plusieurs étapes de raisonnement continuent de poser des défis importants aux modèles de pointe. S'inspirant de l'algorithme de recherche en faisceau, nous proposons PathFinder, une approche de génération de chemins de raisonnement basée sur la recherche arborescente. Elle améliore la diversité des branches et le raisonnement multi-sauts grâce à l'intégration d'un décodage dynamique, rendu possible par des méthodes et paramètres d'échantillonnage variés. En utilisant un raisonnement contraint, PathFinder intègre de nouvelles contraintes de qualité, des méthodes d'élagage et d'exploration pour améliorer l'efficacité et la qualité de la génération. De plus, il inclut des fonctionnalités de notation et de classement pour améliorer la sélection des candidats. Notre approche surpasse les bases de référence concurrentes sur trois tâches complexes de raisonnement arithmétique et de bon sens, avec une amélioration moyenne de 6 %. Notre modèle généralise bien à des chaînes de raisonnement plus longues et inédites, reflétant des complexités similaires à celles de la recherche en faisceau avec de grands facteurs de branchement.
Les modèles de diffusion débruiteurs ont démontré des résultats exceptionnels dans la génération d'images 2D, mais reproduire ce succès dans la génération de formes 3D reste un défi. Dans cet article, nous proposons d'exploiter la profondeur multi-vues, qui représente des formes 3D complexes dans un format de données 2D facile à débruiter. Nous associons cette représentation à un modèle de diffusion, MVDD, capable de générer des nuages de points denses de haute qualité avec plus de 20 000 points et des détails fins. Pour garantir la cohérence 3D dans la profondeur multi-vues, nous introduisons une attention par segment de ligne épipolaire qui conditionne l'étape de débruitage d'une vue sur ses vues voisines. De plus, un module de fusion de profondeur est intégré aux étapes de diffusion pour assurer davantage l'alignement des cartes de profondeur. Lorsqu'il est augmenté par une reconstruction de surface, MVDD peut également produire des maillages 3D de haute qualité. Par ailleurs, MVDD se distingue dans d'autres tâches telles que la complétion de profondeur et peut servir de prior 3D, améliorant significativement de nombreuses tâches en aval, comme l'inversion de GAN. Les résultats de pointe obtenus lors d'expériences approfondies démontrent l'excellente capacité de MVDD dans la génération de formes 3D, la complétion de profondeur, et son potentiel en tant que prior 3D pour les tâches en aval.
Nous présentons EE-LLM, un cadre pour l'entraînement à grande échelle et l'inférence de modèles de langage massifs (LLMs) à sortie précoce. Alors que des travaux récents ont montré des preuves préliminaires de l'efficacité de la sortie précoce pour accélérer l'inférence des LLMs, EE-LLM représente une étape fondamentale vers la mise à l'échelle des LLMs à sortie précoce en supportant leur entraînement et leur inférence avec un parallélisme 3D massif. Basé sur Megatron-LM, EE-LLM met en œuvre diverses innovations algorithmiques et optimisations de performance spécifiquement adaptées à la sortie précoce, incluant une méthode légère qui facilite la rétropropagation pour l'objectif d'entraînement à sortie précoce avec parallélisme en pipeline, des techniques pour exploiter les ressources inactives dans le plan de pipeline original pour les calculs liés aux couches de sortie précoce, et deux approches d'inférence à sortie précoce compatibles avec la mise en cache KV pour la génération autoregressive. Notre étude analytique et empirique montre qu'EE-LLM atteint une grande efficacité d'entraînement avec un surcoût computationnel négligeable par rapport à l'entraînement standard des LLMs, ainsi qu'une accélération remarquable de l'inférence sans compromettre la qualité des sorties. Pour faciliter la recherche et l'adoption ultérieures, nous publions EE-LLM à l'adresse https://github.com/pan-x-c/EE-LLM.
Les modèles vision-langage (VL) suivant des instructions offrent une interface flexible qui prend en charge un large éventail de tâches multimodales de manière zero-shot. Cependant, les interfaces opérant sur des images complètes ne permettent pas directement à l'utilisateur de "pointer" et d'accéder à des régions spécifiques au sein des images. Cette capacité est importante non seulement pour soutenir les benchmarks VL basés sur des références, mais aussi pour des applications pratiques nécessitant un raisonnement précis au sein des images. Nous construisons des modèles de bon sens visuel localisé, qui permettent aux utilisateurs de spécifier (plusieurs) régions en entrée. Nous entraînons notre modèle en échantillonnant des connaissances de bon sens localisées à partir d'un grand modèle de langage (LLM) : plus précisément, nous incitons un LLM à collecter des connaissances de bon sens à partir d'une description littérale globale de l'image et d'une description littérale locale d'une région, générées automatiquement par un ensemble de modèles VL. Avec un modèle critique entraîné séparément pour sélectionner des exemples de haute qualité, nous constatons que l'entraînement sur le corpus de bon sens localisé peut distiller avec succès les modèles VL existants pour prendre en charge une interface utilisant des références en entrée. Les résultats empiriques et les évaluations humaines dans un cadre zero-shot montrent que notre méthode de distillation produit des modèles VL de raisonnement plus précis par rapport à une base de référence consistant à passer une expression référentielle générée à un LLM.