Articles de recherche en IA sélectionnés quotidiennement avec traductions
La distillation de connaissances (KD) est largement utilisée pour compresser un modèle enseignant afin de réduire ses coûts d'inférence et son empreinte mémoire, en entraînant un modèle étudiant plus petit. Cependant, les méthodes actuelles de KD pour les modèles de séquence auto-régressifs souffrent d'un décalage de distribution entre les séquences de sortie observées pendant l'entraînement et celles générées par l'étudiant lors de l'inférence. Pour résoudre ce problème, nous introduisons la Distillation de Connaissances Généralisée (GKD). Au lieu de s'appuyer uniquement sur un ensemble fixe de séquences de sortie, GKD entraîne l'étudiant sur ses propres séquences de sortie générées en exploitant les retours du modèle enseignant sur ces séquences. Contrairement aux approches supervisées de KD, GKD offre également la flexibilité d'utiliser des fonctions de perte alternatives entre l'étudiant et l'enseignant, ce qui peut être utile lorsque l'étudiant manque de la capacité expressive pour imiter la distribution de l'enseignant. De plus, GKD facilite l'intégration transparente de la distillation avec le réglage fin par apprentissage par renforcement (RLHF). Nous démontrons l'efficacité de GKD pour distiller des modèles de langage auto-régressifs sur des tâches de résumé, de traduction et de raisonnement arithmétique, ainsi que pour la distillation agnostique aux tâches dans le cadre de l'ajustement par instructions.
Les modèles de langage augmentés par recherche (Retrieval-augmented Language Models, LMs) ont récemment suscité un intérêt considérable. Cependant, le système de recherche (retriever) n'est généralement pas entraîné conjointement en tant que composant natif du modèle de langage, mais est ajouté à un LM déjà pré-entraîné, ce qui limite la capacité du LM et du retriever à s'adapter mutuellement. Dans ce travail, nous proposons le Retrieval-Pretrained Transformer (RPT), une architecture et une procédure d'entraînement permettant de co-entraîner un modèle de langage augmenté par recherche dès le départ pour la tâche de modélisation de textes longs. Étant donné un segment de texte récemment généré dans un document long, le LM calcule des représentations de requête, qui sont ensuite utilisées pour récupérer des segments antérieurs du document, potentiellement situés des dizaines de milliers de tokens en amont. Les informations des segments récupérés sont fusionnées dans les représentations du LM pour prédire le segment cible suivant. Nous entraînons le composant de recherche avec un objectif sémantique, où le but est de récupérer des segments qui augmentent la probabilité du segment suivant, selon un LM de référence. Nous évaluons RPT sur quatre tâches de modélisation de langage à long terme, couvrant des livres, du code et des écrits mathématiques, et démontrons que RPT améliore la qualité de la recherche et, par conséquent, réduit la perplexité de manière significative par rapport à des modèles de référence solides.
Avec l'essor des modèles de langage à grande échelle (LLMs) et leur déploiement omniprésent dans divers domaines, il est impératif de mesurer le comportement des modèles de langage sur des données réalistes. Par exemple, une entreprise déployant un chatbot client doit s'assurer que le modèle ne répondra pas aux demandes des clients par des propos injurieux. Les évaluations actuelles abordent ce problème en utilisant de petits ensembles de données spécifiques à un domaine, annotés manuellement. Ces ensembles d'évaluation sont souvent échantillonnés à partir d'une distribution étroite et simplifiée, et les sources de données peuvent involontairement fuiter dans l'ensemble d'entraînement, ce qui peut conduire à des évaluations trompeuses. Pour contourner ces inconvénients, nous proposons un cadre pour l'évaluation auto-supervisée des LLMs en analysant leur sensibilité ou invariance aux transformations appliquées au texte d'entrée. L'évaluation auto-supervisée permet de surveiller directement le comportement des LLMs sur des ensembles de données collectés en conditions réelles ou diffusés lors du déploiement en temps réel du modèle. Nous démontrons des stratégies d'évaluation auto-supervisée pour mesurer les connaissances en mode fermé, la toxicité, la dépendance au contexte à long terme, ainsi que la sensibilité à la structure grammaticale et aux erreurs de tokenisation. Lorsque des comparaisons avec des benchmarks similaires annotés par des humains sont disponibles, nous trouvons de fortes corrélations entre les évaluations auto-supervisées et supervisées par des humains. Le paradigme auto-supervisé complète les stratégies d'évaluation actuelles qui reposent sur des données annotées.
Dans ce travail, nous revisitons le bloc de construction le plus fondamental de l'apprentissage profond, le perceptron multicouche (MLP), et étudions les limites de ses performances sur des tâches de vision. Les insights empiriques sur les MLPs sont importants pour plusieurs raisons. (1) Compte tenu du récent récit "moins de biais inductif est meilleur", popularisé par le fait que les transformateurs ont éclipsé les modèles convolutifs, il est naturel d'explorer les limites de cette hypothèse. À cette fin, les MLPs offrent un terrain d'essai idéal, étant totalement exempts de tout biais inductif. (2) Les MLPs ont presque exclusivement été le protagoniste principal dans la littérature théorique de l'apprentissage profond en raison de leur simplicité mathématique, servant de proxy pour expliquer les phénomènes empiriques observés pour des architectures plus complexes. Étonnamment, les points de données expérimentaux pour les MLPs sont très difficiles à trouver dans la littérature, surtout lorsqu'ils sont couplés à des protocoles de pré-entraînement à grande échelle. Cette divergence entre la pratique et la théorie est préoccupante : les MLPs reflètent-ils les avancées empiriques exhibées par les modèles pratiques ? Ou les théoriciens doivent-ils repenser le rôle des MLPs en tant que proxy ? Nous apportons des éclairages sur ces deux aspects. Nous montrons que les performances des MLPs s'améliorent considérablement avec l'échelle (93% sur CIFAR10, 79% sur CIFAR100, 69% sur TinyImageNet), soulignant que le manque de biais inductif peut en effet être compensé. Nous observons que les MLPs imitent fidèlement le comportement de leurs homologues modernes, bien que certains composants dans le cadre d'apprentissage présentent des comportements plus forts ou inattendus de manière surprenante. En raison de leur efficacité computationnelle inhérente, les expériences de pré-entraînement à grande échelle deviennent plus accessibles pour les chercheurs académiques. Toutes nos expériences ont été réalisées sur un seul GPU.
Nous introduisons la tâche de segmentation d'instances 3D à vocabulaire ouvert. Les approches traditionnelles pour la segmentation d'instances 3D reposent largement sur des ensembles de données 3D annotées existants, qui sont limités à un ensemble fermé de catégories d'objets. Cela constitue une limitation importante pour les applications réelles où l'on pourrait avoir besoin d'effectuer des tâches guidées par des requêtes nouvelles et à vocabulaire ouvert, liées à des objets d'une grande variété. Récemment, des méthodes de compréhension de scènes 3D à vocabulaire ouvert ont émergé pour résoudre ce problème en apprenant des caractéristiques interrogeables pour chaque point de la scène. Bien qu'une telle représentation puisse être directement utilisée pour effectuer une segmentation sémantique, les méthodes existantes présentent des limitations dans leur capacité à identifier des instances d'objets. Dans ce travail, nous abordons cette limitation et proposons OpenMask3D, une approche zero-shot pour la segmentation d'instances 3D à vocabulaire ouvert. Guidé par des masques d'instances 3D agnostiques aux classes prédits, notre modèle agrège des caractéristiques par masque via une fusion multi-vues d'embeddings d'images basés sur CLIP. Nous menons des expériences et des études d'ablation sur le jeu de données ScanNet200 pour évaluer les performances d'OpenMask3D et fournir des insights sur la tâche de segmentation d'instances 3D à vocabulaire ouvert. Nous montrons que notre approche surpasse les autres méthodes à vocabulaire ouvert, en particulier sur la distribution de la longue traîne. De plus, OpenMask3D va au-delà des limitations des approches à vocabulaire fermé et permet la segmentation d'instances d'objets basée sur des requêtes libres décrivant des propriétés d'objets telles que la sémantique, la géométrie, les affordances et les propriétés matérielles.
Les retours en langage naturel (NL) contiennent des informations riches sur l'expérience utilisateur. Les études existantes se concentrent sur une approche au niveau des instances, où les retours sont utilisés pour affiner des exemples spécifiques, négligeant leur application à l'échelle du système. Cet article propose un cadre général pour exploiter les retours en NL au niveau système. Nous montrons comment utiliser ces retours pour formaliser les décisions de conception à l'échelle du système dans un processus impliquant l'humain (human-in-the-loop) afin de produire de meilleurs modèles. Cela se fait notamment par : (i) la conception de métriques pour les tâches ; et (ii) la conception d'invites (prompts) pour les modèles de langage afin d'affiner les réponses des modèles. Nous menons deux études de cas illustrant cette approche pour améliorer la génération de requêtes de recherche et la génération de réponses dialogiques, démontrant l'efficacité de l'utilisation des retours au niveau système. Nous montrons que la combinaison des retours au niveau système et au niveau des instances apporte des gains supplémentaires, et que les retours écrits par des humains au niveau des instances conduisent à des affinements plus ancrés que ceux écrits par GPT-3.5, soulignant l'importance des retours humains pour la construction de systèmes.
Les champs neuronaux ont réalisé des avancées impressionnantes dans la synthèse de vues et la reconstruction de scènes. Cependant, l'édition de ces champs neuronaux reste un défi en raison de l'encodage implicite des informations géométriques et texturales. Dans cet article, nous proposons DreamEditor, un nouveau cadre permettant aux utilisateurs d'effectuer des modifications contrôlées des champs neuronaux à l'aide de prompts textuels. En représentant les scènes sous forme de champs neuronaux basés sur des maillages, DreamEditor permet des modifications localisées dans des régions spécifiques. DreamEditor utilise l'encodeur de texte d'un modèle de diffusion texte-image pré-entraîné pour identifier automatiquement les régions à modifier en fonction de la sémantique des prompts textuels. Par la suite, DreamEditor optimise la région à modifier et aligne sa géométrie et sa texture avec les prompts textuels grâce à l'échantillonnage par distillation de score [29]. Des expériences approfondies ont démontré que DreamEditor peut modifier avec précision les champs neuronaux de scènes du monde réel selon les prompts textuels donnés, tout en garantissant la cohérence des zones non concernées. DreamEditor génère des textures et des géométries hautement réalistes, surpassant significativement les travaux précédents dans les évaluations quantitatives et qualitatives.