Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons l'Interpolation de Position (Position Interpolation, PI) qui étend la taille des fenêtres contextuelles des modèles de langage pré-entraînés basés sur RoPE, tels que les modèles LLaMA, jusqu'à 32768 avec un ajustement fin minimal (en moins de 1000 étapes), tout en démontrant des résultats empiriques solides sur diverses tâches nécessitant un contexte long, notamment la récupération de clés, la modélisation du langage et la synthèse de documents longs, des modèles LLaMA 7B à 65B. Par ailleurs, les modèles étendus par l'Interpolation de Position conservent relativement bien leur qualité sur les tâches situées dans leur fenêtre contextuelle d'origine. Pour atteindre cet objectif, l'Interpolation de Position réduit linéairement les indices de position d'entrée pour correspondre à la taille de la fenêtre contextuelle d'origine, plutôt que d'extrapoler au-delà de la longueur de contexte entraînée, ce qui pourrait entraîner des scores d'attention catastrophiquement élevés, ruinant complètement le mécanisme d'auto-attention. Notre étude théorique montre que la borne supérieure de l'interpolation est au moins ∼600 fois plus petite que celle de l'extrapolation, démontrant ainsi sa stabilité. Les modèles étendus via l'Interpolation de Position conservent leur architecture d'origine et peuvent réutiliser la plupart des optimisations et infrastructures préexistantes.
Les grands modèles de langage (LLM) ont montré des résultats prometteurs dans la démonstration de théorèmes formels en utilisant des assistants de preuve tels que Lean. Cependant, les méthodes existantes sont difficiles à reproduire ou à développer, en raison de code privé, de données et de besoins importants en calcul. Cela a créé des obstacles substantiels à la recherche sur les méthodes d'apprentissage automatique pour la démonstration de théorèmes. Cet article élimine ces obstacles en introduisant LeanDojo : un environnement de jeu open-source pour Lean comprenant des boîtes à outils, des données, des modèles et des benchmarks. LeanDojo extrait des données de Lean et permet d'interagir programmatiquement avec l'environnement de preuve. Il contient des annotations granulaires des prémisses dans les preuves, fournissant des données précieuses pour la sélection de prémisses : un goulot d'étranglement clé dans la démonstration de théorèmes. En utilisant ces données, nous développons ReProver (Retrieval-Augmented Prover) : le premier démonstrateur basé sur LLM qui est augmenté par un système de récupération pour sélectionner des prémisses dans une vaste bibliothèque mathématique. Il est peu coûteux et nécessite seulement une semaine d'entraînement sur un GPU. Notre système de récupération tire parti de la capacité d'analyse de programme de LeanDojo pour identifier les prémisses accessibles et des exemples négatifs difficiles, ce qui rend la récupération beaucoup plus efficace. De plus, nous construisons un nouveau benchmark composé de 96 962 théorèmes et preuves extraits de la bibliothèque mathématique de Lean. Il présente une division des données exigeante, nécessitant que le démonstrateur généralise à des théorèmes reposant sur des prémisses nouvelles qui ne sont jamais utilisées lors de l'entraînement. Nous utilisons ce benchmark pour l'entraînement et l'évaluation, et les résultats expérimentaux démontrent l'efficacité de ReProver par rapport aux baselines sans récupération et à GPT-4. Nous fournissons ainsi le premier ensemble de démonstrateurs de théorèmes basés sur LLM open-source sans aucun ensemble de données propriétaire, et le publions sous une licence MIT permissive pour faciliter la recherche future.
Le travail récent CLIPA présente une loi d'échelle inverse pour l'entraînement de CLIP -- selon laquelle plus les encodeurs d'images/texte utilisés sont grands, plus la longueur des séquences de tokens d'images/texte pouvant être appliquées lors de l'entraînement est courte. Cette découverte nous permet d'entraîner des modèles CLIP à haute performance avec des calculs significativement réduits. En nous appuyant sur ce travail, nous présentons ici CLIPA-v2 avec deux contributions clés. Sur le plan technique, nous constatons que cette loi d'échelle inverse est également applicable lors de l'étape de fine-tuning, permettant une réduction supplémentaire des besoins en calcul. Sur le plan empirique, nous explorons CLIPA à grande échelle, étendant les expériences jusqu'au modèle H/14 avec environ 13 milliards de paires image-texte vues pendant l'entraînement. Nos résultats sont prometteurs -- en allouant seulement un budget de 10 000, notre modèle CLIP atteint une précision impressionnante de 81,1% en classification zero-shot sur ImageNet, surpassant le meilleur modèle CLIP précédent (d'OpenCLIP, 80,1%) de 1,0% tout en réduisant le coût de calcul d'environ 39 fois. De plus, avec un investissement supplémentaire de 4 000, nous pouvons encore augmenter la précision zero-shot sur ImageNet à 81,8%. Notre code et nos modèles sont disponibles à l'adresse https://github.com/UCSC-VLAA/CLIPA.
L'estimation de la pose de la caméra est un problème de vision par ordinateur de longue date qui repose souvent encore aujourd'hui sur des méthodes classiques, telles que l'appariement manuel de points clés, RANSAC et l'ajustement de faisceaux. Dans cet article, nous proposons de formuler le problème de Structure à partir du Mouvement (SfM) dans un cadre probabiliste de diffusion, en modélisant la distribution conditionnelle des poses de caméra étant donné les images d'entrée. Cette nouvelle perspective sur un ancien problème présente plusieurs avantages. (i) La nature du cadre de diffusion reflète la procédure itérative de l'ajustement de faisceaux. (ii) La formulation permet une intégration fluide des contraintes géométriques issues de la géométrie épipolaire. (iii) Elle excelle dans des scénarios typiquement difficiles, tels que des vues éparses avec de larges bases. (iv) La méthode peut prédire les paramètres intrinsèques et extrinsèques pour un nombre arbitraire d'images. Nous démontrons que notre méthode PoseDiffusion améliore significativement les pipelines SfM classiques et les approches apprises sur deux ensembles de données du monde réel. Enfin, il est observé que notre méthode peut généraliser à travers différents ensembles de données sans entraînement supplémentaire. Page du projet : https://posediffusion.github.io/
La séparation des informations non corrélées dans les énoncés vocaux constitue un sujet de recherche crucial au sein de la communauté de la parole. Différentes tâches liées à la parole visent à extraire des représentations vocales distinctes tout en minimisant l’impact des autres informations non corrélées. Nous présentons un corpus vocal à grande échelle pour faciliter la recherche sur la séparation des représentations vocales. 3D-Speaker contient plus de 10 000 locuteurs, chacun étant enregistré simultanément par plusieurs appareils, situés à différentes distances, et certains locuteurs parlent plusieurs dialectes. Les combinaisons contrôlées de données audio multidimensionnelles produisent une matrice de mélanges diversifiés d’enchevêtrement de représentations vocales, motivant ainsi des méthodes intrigantes pour les démêler. La nature multidomaine de 3D-Speaker en fait également une ressource adaptée pour évaluer des modèles vocaux universels de grande envergure et expérimenter des méthodes d’apprentissage hors domaine et d’apprentissage auto-supervisé. https://3dspeaker.github.io/
De nombreuses tâches de prédiction dense au niveau des pixels, telles que l'estimation de la profondeur et la segmentation sémantique en vision par ordinateur, reposent aujourd'hui sur des représentations d'images pré-entraînées. Par conséquent, la constitution de jeux de données de pré-entraînement efficaces est cruciale. Malheureusement, les jeux de données de pré-entraînement efficaces sont ceux qui contiennent des scènes multi-vues et n'ont été constitués qu'à l'aide de maillages 3D annotés, de nuages de points et de paramètres de caméra provenant d'environnements simulés. Nous proposons un mécanisme de constitution de jeux de données qui ne nécessite aucune annotation. Nous avons extrait deux jeux de données : MIMIC-1M avec 1,3 million et MIMIC-3M avec 3,1 millions de paires d'images multi-vues à partir de jeux de données vidéo open-source et d'environnements 3D synthétiques. Nous avons entraîné plusieurs modèles auto-supervisés avec différents objectifs de modélisation d'images masquées pour démontrer les résultats suivants : les représentations entraînées sur MIMIC-3M surpassent celles extraites à l'aide d'annotations sur plusieurs tâches en aval, notamment l'estimation de la profondeur, la segmentation sémantique, les normales de surface et l'estimation de la pose. Elles surpassent également les représentations figées et lorsque les données d'entraînement en aval sont limitées à quelques exemples. Un jeu de données plus large (MIMIC-3M) améliore significativement les performances, ce qui est prometteur puisque notre méthode de constitution peut être mise à l'échelle de manière arbitraire pour produire des jeux de données encore plus volumineux. Le code, les jeux de données et les modèles pré-entraînés de MIMIC sont open-source à l'adresse https://github.com/RAIVNLab/MIMIC.
L'apprentissage en contexte (ICL) améliore les performances des modèles de langage sur une variété de tâches de traitement du langage naturel (NLP) en présentant simplement quelques exemples au moment de l'inférence. La raison pour laquelle cette capacité émerge n'est pas bien comprise, car le modèle n'a jamais été spécifiquement entraîné sur de telles démonstrations. Contrairement aux travaux antérieurs qui explorent les mécanismes implicites derrière l'ICL, nous étudions l'ICL en examinant les données de pré-entraînement. Plus précisément, nous adaptons d'abord une approche itérative basée sur le gradient pour identifier un petit sous-ensemble de données de pré-entraînement qui soutient l'ICL. Nous observons qu'un pré-entraînement supplémentaire sur ce petit sous-ensemble améliore significativement la capacité d'ICL du modèle, jusqu'à 18 %. Nous comparons ensuite ce sous-ensemble de soutien de manière contrastive avec des sous-ensembles aléatoires de données de pré-entraînement et découvrons : (1) Les données de pré-entraînement favorables à l'ICL n'ont pas une pertinence de domaine plus élevée par rapport aux tâches en aval. (2) Les données de pré-entraînement favorables contiennent une plus grande proportion de tokens rares et de longue traîne. (3) Les données de pré-entraînement favorables sont des exemples difficiles où le gain d'information provenant du contexte à long terme est inférieur à la moyenne, indiquant que l'apprentissage pour intégrer un contexte à long terme difficile encourage l'ICL. Notre travail constitue une première étape vers la compréhension de l'ICL par l'analyse des données de pré-entraînement au niveau des instances. Nos insights ont le potentiel d'améliorer la capacité d'ICL des modèles de langage en guidant activement la construction des données de pré-entraînement à l'avenir.
Les grands modèles de langage sont désormais ajustés pour s'aligner sur les objectifs de leurs créateurs, à savoir être "utiles et inoffensifs". Ces modèles doivent répondre de manière utile aux questions des utilisateurs, mais refuser de répondre à des demandes qui pourraient causer des dommages. Cependant, des utilisateurs malveillants peuvent construire des entrées qui contournent les tentatives d'alignement. Dans ce travail, nous étudions dans quelle mesure ces modèles restent alignés, même lorsqu'ils interagissent avec un utilisateur malveillant qui construit des entrées de pire cas (exemples adverses). Ces entrées sont conçues pour amener le modèle à produire un contenu nocif qui serait autrement interdit. Nous montrons que les attaques d'optimisation basées sur le TAL existantes ne sont pas suffisamment puissantes pour attaquer de manière fiable les modèles de texte alignés : même lorsque les attaques actuelles basées sur le TAL échouent, nous pouvons trouver des entrées adverses par force brute. Par conséquent, l'échec des attaques actuelles ne doit pas être considéré comme une preuve que les modèles de texte alignés restent alignés face à des entrées adverses. Cependant, la tendance récente dans les modèles de ML à grande échelle est celle des modèles multimodaux qui permettent aux utilisateurs de fournir des images qui influencent le texte généré. Nous montrons que ces modèles peuvent être facilement attaqués, c'est-à-dire induits à adopter un comportement arbitraire non aligné par perturbation adverse de l'image d'entrée. Nous conjecturons que des attaques TAL améliorées pourraient démontrer ce même niveau de contrôle adverse sur les modèles de texte uniquement.
Nous examinons comment les transformateurs font face à deux défis : l'apprentissage de l'arithmétique de base sur les nombres entiers, et la généralisation à des séquences plus longues que celles rencontrées pendant l'entraînement. Nous constatons que les embeddings de position relative permettent la généralisation en longueur pour des tâches simples, comme l'addition : des modèles entraînés sur des nombres à 5 chiffres peuvent effectuer des sommes à 15 chiffres. Cependant, cette méthode échoue pour la multiplication, et nous proposons le priming de l'ensemble d'entraînement : l'ajout de quelques (10 à 50) longues séquences à l'ensemble d'entraînement. Nous montrons que le priming permet à des modèles entraînés sur des multiplications de nombres à 5 chiffres par 3 chiffres de généraliser à des exemples de 35 chiffres par 3 chiffres. Nous montrons également que les modèles peuvent être primés pour différentes longueurs de généralisation, et que la taille de l'échantillon de priming évolue comme le logarithme de la taille de l'ensemble d'entraînement. Enfin, nous discutons des applications potentielles du priming au-delà de l'arithmétique.