Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le modèle de cohérence (Consistency Model, CM) a récemment réalisé des progrès significatifs dans l'accélération de la génération des modèles de diffusion. Cependant, son application à la génération d'images haute résolution conditionnées par du texte dans l'espace latent (appelé LCM) reste insatisfaisante. Dans cet article, nous identifions trois défauts majeurs dans la conception actuelle du LCM. Nous examinons les raisons de ces limitations et proposons le Modèle de Cohérence Phasé (Phased Consistency Model, PCM), qui généralise l'espace de conception et résout toutes les limitations identifiées. Nos évaluations démontrent que le PCM surpasse significativement le LCM dans des configurations de génération de 1 à 16 étapes. Bien que le PCM soit spécifiquement conçu pour un raffinement multi-étapes, il atteint des résultats de génération en une étape supérieurs ou comparables aux méthodes précédemment considérées comme état de l'art et spécialement conçues pour une seule étape. De plus, nous montrons que la méthodologie du PCM est polyvalente et applicable à la génération de vidéos, nous permettant d'entraîner un générateur texte-à-vidéo en quelques étapes, actuellement considéré comme état de l'art. Plus de détails sont disponibles à l'adresse suivante : https://g-u-n.github.io/projects/pcm/.
À mesure que les réseaux de neurones profonds (DNN) gagnent en taille et en complexité, ils dépassent souvent la capacité mémoire d'un seul accélérateur, nécessitant ainsi la fragmentation des paramètres du modèle sur plusieurs accélérateurs. Le parallélisme par pipeline est une stratégie de fragmentation couramment utilisée pour entraîner de grands DNN. Cependant, les implémentations actuelles du parallélisme par pipeline sont involontairement limitées par les outils de différenciation automatique fournis par les frameworks de machine learning. Cet article présente la rétropropagation en deux étapes (2BP). En divisant l'étape de rétropropagation en deux phases distinctes, nous pouvons réduire le temps d'inactivité des calculs. Nous avons testé 2BP sur diverses architectures de modèles et plans de pipelining, obtenant des augmentations de débit dans tous les cas. Grâce à 2BP, nous avons pu atteindre une augmentation de débit de 1,70x par rapport aux méthodes traditionnelles lors de l'entraînement d'un transformeur de type LLaMa avec 7 milliards de paramètres sur 4 GPU.
Les récents progrès dans l'édition de texte-à-musique, qui utilisent des requêtes textuelles pour modifier la musique (par exemple en changeant son style ou en ajustant les composants instrumentaux), présentent des défis et des opportunités uniques pour la création musicale assistée par l'IA. Les approches précédentes dans ce domaine ont été limitées par la nécessité d'entraîner des modèles d'édition spécifiques à partir de zéro, ce qui est à la fois coûteux en ressources et inefficace ; d'autres recherches utilisent des modèles de langage de grande taille pour prédire la musique éditée, ce qui entraîne une reconstruction audio imprécise. Pour combiner les forces et surmonter ces limitations, nous introduisons Instruct-MusicGen, une nouvelle approche qui affine un modèle MusicGen pré-entraîné pour suivre efficacement des instructions d'édition telles que l'ajout, la suppression ou la séparation de pistes. Notre approche implique une modification de l'architecture originale de MusicGen en incorporant un module de fusion de texte et un module de fusion audio, qui permettent au modèle de traiter simultanément les textes d'instructions et les entrées audio pour produire la musique éditée souhaitée. Remarquablement, Instruct-MusicGen n'introduit que 8 % de nouveaux paramètres au modèle MusicGen original et n'est entraîné que pour 5 000 étapes, tout en obtenant des performances supérieures à toutes les tâches par rapport aux modèles de référence existants, et en démontrant des performances comparables aux modèles entraînés pour des tâches spécifiques. Cette avancée améliore non seulement l'efficacité de l'édition de texte-à-musique, mais élargit également l'applicabilité des modèles de langage musical dans des environnements de production musicale dynamiques.
Yuan 2.0-M32, partageant une architecture de base similaire à Yuan-2.0 2B, utilise une architecture de mélange d'experts (Mixture of Experts) composée de 32 experts, dont 2 sont actifs. Un nouveau réseau de routage, appelé Attention Router, est proposé et adopté pour une sélection plus efficace des experts, ce qui améliore la précision de 3,8 % par rapport au modèle utilisant un réseau de routage classique. Yuan 2.0-M32 est entraîné à partir de zéro sur 2000 milliards de tokens, et la consommation de calcul lors de l'entraînement ne représente que 9,25 % de celle d'un modèle dense de la même échelle de paramètres. Yuan 2.0-M32 démontre des capacités compétitives dans les domaines du codage, des mathématiques et de divers autres domaines spécialisés, avec seulement 3,7 milliards de paramètres actifs sur un total de 40 milliards, et un calcul avant (forward computation) de 7,4 GFlops par token, ce qui représente seulement 1/19 de celui de Llama3-70B. Yuan 2.0-M32 surpasse Llama3-70B sur les benchmarks MATH et ARC-Challenge, avec des précisions respectives de 55,89 et 95,8. Les modèles et codes sources de Yuan 2.0-M32 sont disponibles sur Github.
Les capacités des modèles de langage de grande taille (LLMs) modernes à résoudre des tâches de traitement du langage naturel, de raisonnement complexe, d'analyse de sentiments et autres sont extraordinaires, ce qui a conduit à leur adoption extensive. Malheureusement, ces capacités s'accompagnent de coûts mémoire et de calcul très élevés, ce qui empêche l'utilisation des LLMs sur la plupart des plateformes matérielles. Pour remédier à cela, nous proposons une méthode efficace pour trouver des architectures de réseau Pareto-optimales basées sur LLaMA2-7B en utilisant le NAS en une seule étape. En particulier, nous affinons LLaMA2-7B une seule fois, puis appliquons une recherche basée sur un algorithme génétique pour trouver des architectures de réseau plus petites et moins complexes sur le plan computationnel. Nous montrons que, pour certaines tâches de référence standard, le réseau pré-entraîné LLaMA2-7B est inutilement grand et complexe. Plus précisément, nous démontrons une réduction de 1,5x de la taille du modèle et une accélération de 1,3x du débit pour certaines tâches, avec une baisse négligeable de la précision. En plus de trouver des architectures de réseau plus petites et plus performantes, notre méthode le fait de manière plus efficace et efficiente que certaines techniques d'élagage ou de sparsification. Enfin, nous démontrons comment la quantification est complémentaire à notre méthode et que la taille et la complexité des réseaux que nous trouvons peuvent être encore réduites grâce à la quantification. Nous pensons que notre travail offre un moyen de créer automatiquement des LLMs qui peuvent être utilisés sur des plateformes matérielles moins coûteuses et plus facilement disponibles.
La reconstruction de scènes 4D à partir de vidéos est une tâche cruciale mais complexe. Les méthodes conventionnelles reposent généralement sur des hypothèses telles que des entrées vidéo multi-vues, des paramètres de caméra connus ou des scènes statiques, qui sont généralement absentes dans des scénarios réels. Dans cet article, nous relâchons toutes ces contraintes et abordons une tâche ambitieuse mais pratique, que nous avons nommée AnyV4D : nous supposons qu'une seule vidéo monoculaire est disponible sans aucun paramètre de caméra en entrée, et nous visons à reconstruire le monde dynamique 4D ainsi que les poses de la caméra. Pour ce faire, nous introduisons GFlow, un nouveau cadre qui utilise uniquement des informations 2D (profondeur et flux optique) pour transformer une vidéo (3D) en une représentation explicite 4D, impliquant un flux de splatting gaussien à travers l'espace et le temps. GFlow commence par segmenter la scène en parties statiques et mobiles, puis applique un processus d'optimisation séquentielle qui ajuste les poses de la caméra et la dynamique des points gaussiens 3D en fonction des informations 2D et de la segmentation de la scène, garantissant la fidélité entre les points voisins et un mouvement fluide entre les images. Comme les scènes dynamiques introduisent toujours de nouveaux contenus, nous proposons également une nouvelle stratégie de densification pixel par pixel pour les points gaussiens afin d'intégrer de nouveaux contenus visuels. De plus, GFlow transcende les limites de la simple reconstruction 4D ; il permet également de suivre n'importe quel point à travers les images sans nécessiter d'apprentissage préalable et de segmenter les objets mobiles de la scène de manière non supervisée. En outre, les poses de la caméra pour chaque image peuvent être déduites de GFlow, permettant de générer de nouvelles vues d'une scène vidéo en modifiant la pose de la caméra. En utilisant cette représentation explicite, nous pouvons facilement effectuer des modifications au niveau de la scène ou des objets selon les besoins, soulignant ainsi sa polyvalence et sa puissance. Visitez notre site web de projet à : https://littlepure2333.github.io/GFlow
Les grands modèles de langage (LLMs) sont récemment apparus comme des outils puissants pour aborder de nombreuses tâches de traitement du langage. Malgré leur succès, l'entraînement et le réglage fin de ces modèles restent encore trop coûteux en termes de calcul et de mémoire. Dans cet article, nous identifions et caractérisons les composants importants nécessaires à une convergence efficace des modèles en utilisant la descente de gradient. Ce faisant, nous constatons que les activations intermédiaires utilisées pour implémenter la rétropropagation peuvent être excessivement compressées sans entraîner de dégradation des performances. Ce résultat nous conduit à un algorithme peu coûteux et économe en mémoire pour le réglage fin et le pré-entraînement des LLMs. L'algorithme proposé divise simplement les tokens en sous-tokens plus petits avant de les projeter sur un sous-espace fixe à une dimension lors de la passe avant. Ces caractéristiques sont ensuite reconstruites de manière approximative lors de la passe arrière pour implémenter les règles de mise à jour. Nous confirmons l'efficacité de notre algorithme comme étant complémentaire à de nombreuses méthodes PEFT de pointe sur le benchmark de réglage fin VTAB-1k. De plus, nous surpassons QLoRA pour le réglage fin de LLaMA et montrons des performances compétitives par rapport à d'autres méthodes de pré-entraînement économes en mémoire sur le jeu de données à grande échelle C4.
L'édition d'images de scènes est essentielle pour le divertissement, la photographie et la conception publicitaire. Les méthodes existantes se concentrent uniquement sur l'édition d'objets individuels en 2D ou de scènes globales en 3D. Cela entraîne un manque d'approche unifiée pour contrôler et manipuler efficacement les scènes au niveau 3D avec différents niveaux de granularité. Dans ce travail, nous proposons 3DitScene, un nouveau cadre d'édition de scènes unifié exploitant le dégroupage guidé par le langage de splatting Gaussien, permettant une édition fluide du 2D au 3D et un contrôle précis de la composition de la scène et des objets individuels. Nous intégrons d'abord des Gaussiennes 3D affinées grâce à des a priori génératifs et des techniques d'optimisation. Les caractéristiques linguistiques de CLIP introduisent ensuite la sémantique dans la géométrie 3D pour le dégroupage des objets. Avec les Gaussiennes dégroupées, 3DitScene permet une manipulation à la fois globale et individuelle, révolutionnant l'expression créative et offrant un contrôle accru sur les scènes et les objets. Les résultats expérimentaux démontrent l'efficacité et la polyvalence de 3DitScene dans l'édition d'images de scènes. Le code et une démonstration en ligne sont disponibles sur notre page de projet : https://zqh0253.github.io/3DitScene/.