Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons SELF-DISCOVER, un cadre général permettant aux LLM de découvrir par eux-mêmes les structures de raisonnement intrinsèques aux tâches pour résoudre des problèmes de raisonnement complexes qui s'avèrent difficiles pour les méthodes d’incitation classiques. Au cœur de ce cadre se trouve un processus d’auto-découverte où les LLM sélectionnent plusieurs modules de raisonnement atomiques, tels que la pensée critique et la pensée étape par étape, et les composent en une structure de raisonnement explicite que les LLM suivent lors du décodage. SELF-DISCOVER améliore considérablement les performances de GPT-4 et de PaLM 2 sur des benchmarks de raisonnement exigeants tels que BigBench-Hard, le raisonnement d’agents ancrés et MATH, avec des gains allant jusqu’à 32 % par rapport à la méthode Chain of Thought (CoT). De plus, SELF-DISCOVER surpasse des méthodes intensives en inférence comme CoT-Self-Consistency de plus de 20 %, tout en nécessitant 10 à 40 fois moins de calculs d’inférence. Enfin, nous montrons que les structures de raisonnement auto-découvertes sont universellement applicables à travers les familles de modèles : de PaLM 2-L à GPT-4, et de GPT-4 à Llama2, et partagent des similitudes avec les schémas de raisonnement humains.
Les grands modèles de langage pré-entraînés (LLMs) présentent des capacités exceptionnelles de traitement général du langage, mais nécessitent des ressources importantes en mémoire et en calcul. En tant que technologie de compression puissante, la binarisation permet de réduire extrêmement les poids du modèle à seulement 1 bit, diminuant ainsi les coûteuses exigences en calcul et en mémoire. Cependant, les techniques de quantification existantes ne parviennent pas à maintenir les performances des LLMs avec des largeurs de bits ultra-faibles. Face à ce défi, nous présentons BiLLM, un schéma de quantification post-entraînement révolutionnaire à 1 bit, spécialement conçu pour les LLMs pré-entraînés. En se basant sur la distribution des poids des LLMs, BiLLM identifie et sélectionne structurellement les poids saillants, et minimise la perte de compression grâce à une stratégie efficace d'approximation résiduelle binaire. De plus, en considérant la distribution en forme de cloche des poids non saillants, nous proposons une recherche de division optimale pour les regrouper et les binariser avec précision. BiLLM atteint pour la première fois une inférence de haute précision (par exemple, une perplexité de 8,41 sur LLaMA2-70B) avec seulement 1,08 bit de poids, surpassant de manière significative les méthodes de quantification SOTA pour les LLMs sur diverses familles de modèles et métriques d'évaluation. Par ailleurs, BiLLM permet le processus de binarisation d'un LLM avec 7 milliards de poids en moins de 0,5 heure sur un seul GPU, démontrant une efficacité temporelle satisfaisante.
Les modèles d'espace d'états (SSMs), tels que Mamba Gu & Dao (2034), ont été proposés comme alternatives aux réseaux Transformer dans la modélisation du langage, en intégrant des mécanismes de gating, des convolutions et une sélection de tokens dépendante de l'entrée pour atténuer le coût quadratique de l'attention multi-têtes. Bien que les SSMs affichent des performances compétitives, leurs capacités d'apprentissage en contexte (ICL), une propriété émergente remarquable des modèles de langage modernes permettant l'exécution de tâches sans optimisation des paramètres, restent moins explorées par rapport aux Transformers. Dans cette étude, nous évaluons les performances ICL des SSMs, en nous concentrant sur Mamba, par rapport aux modèles Transformer sur diverses tâches. Nos résultats montrent que les SSMs se comportent de manière comparable aux Transformers dans les tâches ICL de régression standard, tout en les surpassant dans des tâches comme l'apprentissage de parité sparse. Cependant, les SSMs sont moins performants dans les tâches impliquant une fonctionnalité de récupération non standard. Pour pallier ces limitations, nous introduisons un modèle hybride, \variant, qui combine Mamba avec des blocs d'attention, surpassant les modèles individuels dans les tâches où ils peinent indépendamment. Nos résultats suggèrent que les architectures hybrides offrent des perspectives prometteuses pour améliorer l'ICL dans les modèles de langage.
L'augmentation de l'échelle du pré-entraînement contrastif langage-image (CLIP) est essentielle pour renforcer à la fois les modèles de vision et les modèles multimodaux. Nous présentons EVA-CLIP-18B, le plus grand et le plus puissant modèle CLIP open-source à ce jour, avec 18 milliards de paramètres. Avec seulement 6 milliards d'échantillons d'entraînement utilisés, EVA-CLIP-18B atteint une précision top-1 en zero-shot exceptionnelle de 80,7 % en moyenne sur 27 benchmarks largement reconnus en classification d'images, surpassant son prédécesseur EVA-CLIP (5 milliards de paramètres) et d'autres modèles CLIP open-source de manière significative. Fait remarquable, nous observons une amélioration constante des performances avec l'augmentation de la taille du modèle EVA-CLIP, malgré l'utilisation d'un jeu de données d'entraînement constant de 2 milliards de paires image-texte provenant de LAION-2B et COYO-700M. Ce jeu de données est ouvertement accessible et bien plus petit que les jeux de données internes (par exemple, DFN-5B, WebLI-10B) utilisés dans d'autres modèles CLIP de pointe. EVA-CLIP-18B démontre le potentiel de la mise à l'échelle visuelle faible-à-forte de style EVA. Avec la mise à disposition publique des poids de notre modèle, nous espérons faciliter les recherches futures sur les modèles de base en vision et multimodaux.
La génération d'image-à-vidéo (I2V) vise à utiliser l'image initiale (ainsi qu'une invite textuelle) pour créer une séquence vidéo. Un défi majeur dans la génération I2V est de maintenir une cohérence visuelle tout au long de la vidéo : les méthodes existantes peinent souvent à préserver l'intégrité du sujet, de l'arrière-plan et du style de la première image, ainsi qu'à assurer une progression fluide et logique dans la narration vidéo. Pour atténuer ces problèmes, nous proposons ConsistI2V, une méthode basée sur la diffusion pour améliorer la cohérence visuelle dans la génération I2V. Plus précisément, nous introduisons (1) une attention spatiotemporelle sur la première image pour maintenir une cohérence spatiale et de mouvement, et (2) une initialisation du bruit à partir de la bande de basse fréquence de la première image pour renforcer la cohérence de la mise en page. Ces deux approches permettent à ConsistI2V de générer des vidéos hautement cohérentes. Nous étendons également les approches proposées pour montrer leur potentiel à améliorer la cohérence dans la génération de vidéos longues auto-régressives et le contrôle des mouvements de caméra. Pour vérifier l'efficacité de notre méthode, nous proposons I2V-Bench, un benchmark d'évaluation complet pour la génération I2V. Nos résultats d'évaluation automatique et humaine démontrent la supériorité de ConsistI2V par rapport aux méthodes existantes.
Les lois d'échelle fournissent des insights importants qui peuvent guider la conception des grands modèles de langage (LLMs). Les travaux existants se sont principalement concentrés sur l'étude des lois d'échelle pour la perte en phase de pré-entraînement (amont). Cependant, dans les contextes d'apprentissage par transfert, où les LLMs sont pré-entraînés sur un ensemble de données non supervisé puis affinés pour une tâche en aval, nous nous intéressons souvent également à la performance en aval. Dans ce travail, nous étudions le comportement d'échelle dans un cadre d'apprentissage par transfert, où les LLMs sont affinés pour des tâches de traduction automatique. Plus précisément, nous examinons comment le choix des données de pré-entraînement et leur taille affectent la performance en aval (qualité de traduction), évaluée par deux métriques : l'entropie croisée en aval et le score BLEU. Nos expériences indiquent que la taille de l'ensemble de données d'affinage et l'alignement de distribution entre les données de pré-entraînement et les données en aval influencent significativement le comportement d'échelle. Avec un alignement suffisant, à la fois l'entropie croisée en aval et le score BLEU s'améliorent de manière monotone avec davantage de données de pré-entraînement. Dans de tels cas, nous montrons qu'il est possible de prédire le score BLEU en aval avec une bonne précision en utilisant une loi logarithmique. Cependant, il existe également des cas où un désalignement modéré entraîne des fluctuations ou une détérioration du score BLEU avec plus de pré-entraînement, tandis que l'entropie croisée en aval s'améliore de manière monotone. En analysant ces observations, nous fournissons de nouveaux insights pratiques pour choisir des données de pré-entraînement appropriées.
Nous proposons MusicRL, le premier système de génération musicale affiné à partir de retours humains. L'appréciation des modèles de texte-à-musique est particulièrement subjective, car la notion de musicalité ainsi que l'intention spécifique derrière une description dépendent de l'utilisateur (par exemple, une description telle que "musique entraînante pour le sport" peut correspondre à un solo de guitare rétro ou à un rythme techno pop). Non seulement cela rend l'entraînement supervisé de tels modèles complexe, mais cela nécessite également l'intégration de retours humains continus dans leur affinage post-déploiement. MusicRL est un modèle autoregressif pré-entraîné MusicLM (Agostinelli et al., 2023) de tokens audio discrets, affiné par apprentissage par renforcement pour maximiser les récompenses au niveau de la séquence. Nous concevons des fonctions de récompense spécifiquement liées à l'adhésion au texte et à la qualité audio avec l'aide de juges sélectionnés, et les utilisons pour affiner MusicLM en MusicRL-R. Nous déployons MusicLM auprès des utilisateurs et collectons un ensemble de données substantiel comprenant 300 000 préférences par paires. En utilisant l'apprentissage par renforcement à partir de retours humains (RLHF), nous entraînons MusicRL-U, le premier modèle texte-à-musique intégrant des retours humains à grande échelle. Les évaluations humaines montrent que MusicRL-R et MusicRL-U sont préférés au modèle de référence. Enfin, MusicRL-RU combine les deux approches et aboutit au meilleur modèle selon les juges humains. Des études d'ablation mettent en lumière les attributs musicaux influençant les préférences humaines, indiquant que l'adhésion au texte et la qualité n'en représentent qu'une partie. Cela souligne la prévalence de la subjectivité dans l'appréciation musicale et appelle à une implication accrue des auditeurs humains dans l'affinage des modèles de génération musicale.
Nous présentons MobileVLM V2, une famille de modèles de langage visuel considérablement améliorés par rapport à MobileVLM, démontrant qu'une orchestration minutieuse d'une nouvelle conception architecturale, d'un schéma de formation amélioré adapté aux VLMs mobiles, et d'une curation riche et de haute qualité de jeux de données peut substantiellement améliorer les performances des VLMs. Plus précisément, MobileVLM V2 1.7B atteint des performances égales ou supérieures sur les benchmarks standards de VLMs par rapport à des VLMs beaucoup plus grands à l'échelle de 3B. Notamment, notre modèle de 3B surpasse une grande variété de VLMs à l'échelle de 7B+. Nos modèles seront disponibles sur https://github.com/Meituan-AutoML/MobileVLM.
Les récents progrès dans les modèles de langage de grande envergure ont suscité un intérêt croissant pour leurs capacités extraordinaires et quasi surhumaines, incitant les chercheurs à explorer des méthodes pour évaluer et optimiser ces aptitudes, un domaine désigné sous le terme de superalignement. Dans ce contexte, notre article plonge dans le domaine des modèles de base en vision, en se concentrant sur le concept de généralisation faible-à-fort, qui consiste à utiliser un modèle plus faible pour superviser un modèle plus puissant, dans le but d'améliorer les capacités de ce dernier au-delà des limites du premier. Nous introduisons une nouvelle fonction de perte ajustable de manière adaptative pour la supervision faible-à-fort. Nos expériences approfondies couvrent divers scénarios, notamment l'apprentissage en few-shot, le transfer learning, l'apprentissage avec des étiquettes bruitées et les configurations classiques de distillation de connaissances. Les résultats sont frappants : notre approche dépasse non seulement les références de performance établies par la généralisation fort-à-fort, mais surpasse également les résultats obtenus par le fine-tuning de modèles puissants avec des ensembles de données complets. Ces preuves convaincantes soulignent le potentiel significatif de la généralisation faible-à-fort, démontrant sa capacité à améliorer considérablement les performances des modèles de base en vision. Le code est disponible à l'adresse suivante : https://github.com/ggjy/vision_weak_to_strong.
CodeCompose est un outil de rédaction de code assisté par l'intelligence artificielle, alimenté par des modèles de langage de grande taille (LLMs), qui propose des suggestions en ligne à des dizaines de milliers de développeurs chez Meta. Dans cet article, nous présentons comment nous avons fait évoluer le produit pour passer de suggestions sur une seule ligne à des suggestions sur plusieurs lignes. Cette évolution nous a obligés à surmonter plusieurs défis uniques afin d'améliorer l'utilisabilité de ces suggestions pour les développeurs. Premièrement, nous discutons de l'effet « déstabilisant » que peuvent avoir les suggestions multi-lignes, car les propositions du LLM déplacent constamment le code existant du développeur, ce qui pourrait autrement entraîner une baisse de productivité et de satisfaction. Deuxièmement, les suggestions multi-lignes prennent significativement plus de temps à générer ; nous présentons donc plusieurs innovations que nous avons mises en œuvre pour réduire la latence perçue par les utilisateurs. Ces optimisations d'hébergement des modèles ont permis de réduire la latence des suggestions multi-lignes par un facteur de 2,5. Enfin, nous avons mené des expériences auprès de dizaines de milliers d'ingénieurs pour comprendre comment les suggestions multi-lignes impactent l'expérience utilisateur et les comparer aux suggestions sur une seule ligne. Nos expériences révèlent que (i) les suggestions multi-lignes représentent 42 % des caractères acceptés au total (bien qu'elles ne représentent que 16 % des suggestions affichées) et (ii) les suggestions multi-lignes ont presque doublé le pourcentage de frappes économisées pour les utilisateurs, passant de 9 % à 17 %. CodeCompose avec suggestions multi-lignes a été déployé auprès de tous les ingénieurs de Meta, et moins de 1 % des ingénieurs ont choisi de désactiver cette fonctionnalité.
Pour la capture et l'analyse des mouvements faciaux, les solutions dominantes reposent généralement sur des indices visuels, qui ne protègent pas la vie privée et sont vulnérables aux occlusions. Les unités de mesure inertielles (IMU) constituent une solution potentielle, mais sont principalement utilisées pour la capture des mouvements du corps entier. Dans cet article, nous proposons IMUSIC pour combler cette lacune, une nouvelle approche pour la capture des expressions faciales utilisant uniquement des signaux IMU, s'éloignant significativement des solutions visuelles précédentes. La conception clé de notre IMUSIC repose sur une trilogie. Nous concevons d'abord des micro-IMU adaptés à la capture faciale, accompagnés d'un schéma de placement des IMU guidé par l'anatomie. Ensuite, nous contribuons avec un nouveau jeu de données IMU-ARKit, qui fournit des signaux IMU/visuels appariés pour diverses expressions et performances faciales. Cette multimodalité unique ouvre de vastes perspectives pour des directions futures comme l'analyse des comportements faciaux basée sur les IMU. De plus, en utilisant IMU-ARKit, nous introduisons une approche de référence robuste pour prédire avec précision les paramètres de blendshape faciaux à partir de signaux IMU purs. Plus précisément, nous adaptons un modèle de diffusion Transformer avec une stratégie d'entraînement en deux étapes pour cette nouvelle tâche de suivi. Le cadre IMUSIC nous permet d'effectuer une capture faciale précise dans des scénarios où les méthodes visuelles échouent, tout en protégeant la vie privée des utilisateurs. Nous menons des expériences approfondies sur la configuration des IMU et les composants techniques pour valider l'efficacité de notre approche IMUSIC. Notamment, IMUSIC permet diverses applications potentielles et novatrices, comme la capture faciale respectueuse de la vie privée, la capture hybride contre les occlusions, ou la détection de mouvements faciaux subtils souvent invisibles par les indices visuels. Nous publierons notre jeu de données et nos implémentations pour enrichir les possibilités de capture et d'analyse faciales dans notre communauté.
Nous proposons d'affiner des modèles de langage de grande taille pour la génération de matériaux stables. Bien que non conventionnel, l'affinage de ces modèles sur des données atomistiques encodées en texte est simple à mettre en œuvre tout en étant fiable, avec environ 90 % des structures échantillonnées respectant les contraintes physiques sur les positions des atomes et les charges. En utilisant des calculs d'énergie au-dessus du diagramme de phases issus à la fois de potentiels appris par apprentissage automatique et de calculs DFT de référence, nous montrons que notre modèle le plus performant (LLaMA-2 70B affiné) peut générer des matériaux prédits comme métastables à un taux environ deux fois supérieur (49 % contre 28 %) à celui de CDVAE, un modèle de diffusion concurrent. Grâce à la flexibilité inhérente à l'utilisation de prompts textuels, nos modèles peuvent simultanément être utilisés pour la génération inconditionnelle de matériaux stables, le remplissage de structures partielles et la génération conditionnée par du texte. Enfin, nous montrons que la capacité des modèles de langage à capturer les symétries clés des structures cristallines s'améliore avec l'échelle du modèle, suggérant que les biais des modèles de langage pré-entraînés sont étonnamment bien adaptés aux données atomistiques.
Les modèles vision-langage (VLMs) ont démontré leur viabilité généralisée grâce à un entraînement approfondi dans l'alignement des instructions visuelles avec des réponses. Cependant, cet alignement concluant amène les modèles à ignorer un raisonnement visuel critique, entraînant des échecs sur des problèmes visuels minutieux et des réponses infidèles. Dans cet article, nous proposons la Chaîne de Manipulations, un mécanisme permettant aux VLMs de résoudre des problèmes grâce à une série de manipulations, où chaque manipulation se réfère à une opération sur l'entrée visuelle, soit à partir de capacités intrinsèques (par exemple, l'ancrage) acquises lors d'un entraînement préalable, soit en imitant des comportements humains (par exemple, un zoom avant). Ce mécanisme encourage les VLMs à générer des réponses fidèles avec un raisonnement visuel probant, et permet aux utilisateurs de retracer les causes d'erreur dans des chemins interprétables. Nous avons ainsi entraîné CogCoM, un VLM général de 17 milliards de paramètres doté d'une architecture compatible basée sur la mémoire et équipée de ce mécanisme de raisonnement. Les expériences montrent que notre modèle atteint des performances de pointe sur 8 benchmarks issus de 3 catégories, et qu'un nombre limité d'étapes d'entraînement avec les données permet d'obtenir rapidement une performance compétitive. Le code et les données sont disponibles publiquement à l'adresse https://github.com/THUDM/CogCoM.
Nous présentons EscherNet, un modèle de diffusion conditionné multi-vues pour la synthèse de vues. EscherNet apprend des représentations 3D implicites et génératives couplées à un encodage spécialisé de la position de la caméra, permettant un contrôle précis et continu de la transformation de la caméra entre un nombre arbitraire de vues de référence et de vues cibles. EscherNet offre une généralité, une flexibilité et une scalabilité exceptionnelles dans la synthèse de vues — il peut générer simultanément plus de 100 vues cibles cohérentes sur un seul GPU de qualité grand public, bien qu'il ait été entraîné avec un nombre fixe de 3 vues de référence vers 3 vues cibles. En conséquence, EscherNet aborde non seulement la synthèse de nouvelles vues en zéro-shot, mais unifie également naturellement la reconstruction 3D à partir d'une seule image et de plusieurs images, combinant ces tâches diverses en un cadre unique et cohérent. Nos expériences approfondies démontrent qu'EscherNet atteint des performances de pointe dans plusieurs benchmarks, même comparé à des méthodes spécifiquement conçues pour chaque problème individuel. Cette polyvalence remarquable ouvre de nouvelles directions pour la conception d'architectures neuronales scalables pour la vision 3D. Page du projet : https://kxhit.github.io/EscherNet.
Nous présentons le Diffusion World Model (DWM), un modèle de diffusion conditionnelle capable de prédire simultanément les états futurs multi-étapes et les récompenses. Contrairement aux modèles dynamiques traditionnels à un seul pas, DWM offre des prédictions à long horizon en une seule passe avant, éliminant ainsi le besoin de requêtes récursives. Nous intégrons DWM dans l'estimation de valeur basée sur un modèle, où le rendement à court terme est simulé par des trajectoires futures échantillonnées à partir de DWM. Dans le contexte de l'apprentissage par renforcement hors ligne, DWM peut être vu comme une régularisation conservatrice de la valeur à travers la modélisation générative. Alternativement, il peut être considéré comme une source de données permettant l'apprentissage Q hors ligne avec des données synthétiques. Nos expériences sur le jeu de données D4RL confirment la robustesse de DWM à la simulation à long horizon. En termes de performance absolue, DWM surpasse significativement les modèles dynamiques à un seul pas avec un gain de performance de 44 %, et atteint des performances de pointe.