Articles de recherche en IA sélectionnés quotidiennement avec traductions
La personnalisation des modèles texte-image vise à intégrer un concept fourni par l'utilisateur au modèle, permettant sa synthèse dans divers contextes. Cependant, les méthodes actuelles se concentrent principalement sur l'apprentissage d'un seul concept à partir de plusieurs images présentant des variations d'arrière-plans et de poses, et rencontrent des difficultés lorsqu'elles sont adaptées à un scénario différent. Dans ce travail, nous introduisons la tâche de décomposition textuelle de scènes : étant donné une seule image d'une scène pouvant contenir plusieurs concepts, nous cherchons à extraire un jeton textuel distinct pour chaque concept, permettant un contrôle granulaire sur les scènes générées. Pour ce faire, nous proposons d'enrichir l'image d'entrée avec des masques indiquant la présence des concepts cibles. Ces masques peuvent être fournis par l'utilisateur ou générés automatiquement par un modèle de segmentation pré-entraîné. Nous présentons ensuite un processus de personnalisation en deux phases qui optimise un ensemble d'embeddings textuels dédiés (handles), ainsi que les poids du modèle, en trouvant un équilibre délicat entre la capture précise des concepts et l'évitement du surajustement. Nous utilisons une perte de diffusion masquée pour permettre aux handles de générer leurs concepts assignés, complétée par une nouvelle perte sur les cartes d'attention croisée pour éviter l'enchevêtrement. Nous introduisons également l'union-échantillonnage, une stratégie d'entraînement visant à améliorer la capacité de combiner plusieurs concepts dans les images générées. Nous utilisons plusieurs métriques automatiques pour comparer quantitativement notre méthode à plusieurs approches de référence, et confirmons les résultats par une étude utilisateur. Enfin, nous présentons plusieurs applications de notre méthode. La page du projet est disponible à l'adresse : https://omriavrahami.com/break-a-scene/
L'architecture Transformer a démontré des performances impressionnantes dans de multiples domaines de recherche et est devenue la pierre angulaire de nombreux modèles de réseaux neuronaux. Cependant, la compréhension de son fonctionnement reste limitée. En particulier, avec une simple fonction de perte prédictive, la manière dont la représentation émerge des dynamiques d'entraînement par gradient demeure un mystère. Dans cet article, pour un Transformer à une couche composé d'une couche d'auto-attention et d'une couche de décodage, nous analysons de manière mathématiquement rigoureuse ses dynamiques d'entraînement par descente de gradient stochastique (SGD) pour la tâche de prédiction du token suivant. Nous ouvrons la boîte noire du processus dynamique par lequel la couche d'auto-attention combine les tokens d'entrée, et révélons la nature du biais inductif sous-jacent. Plus précisément, en supposant (a) l'absence d'encodage positionnel, (b) des séquences d'entrée longues, et (c) que la couche de décodage apprend plus rapidement que la couche d'auto-attention, nous prouvons que l'auto-attention agit comme un algorithme de balayage discriminatif : partant d'une attention uniforme, elle se concentre progressivement davantage sur les tokens clés distincts pour un token spécifique à prédire, et accorde moins d'attention aux tokens clés communs qui apparaissent dans différents tokens suivants. Parmi les tokens distincts, elle réduit progressivement les poids d'attention, suivant l'ordre de faible à forte co-occurrence entre le token clé et le token de requête dans l'ensemble d'entraînement. Fait intéressant, ce processus ne conduit pas à une situation de type "le gagnant prend tout", mais ralentit en raison d'une transition de phase contrôlable par les taux d'apprentissage des deux couches, laissant une combinaison de tokens (presque) fixe. Nous vérifions cette dynamique de \emph{balayage et fixation} sur des données synthétiques et réelles (WikiText).
Des recherches récentes montrent le potentiel d'amélioration des capacités de résolution de problèmes des grands modèles de langage (LLMs) grâce à l'utilisation d'outils externes. Cependant, les travaux antérieurs dans ce domaine dépendent de la disponibilité d'outils existants. Dans cette étude, nous franchissons une première étape pour éliminer cette dépendance en proposant un cadre en boucle fermée, appelé LLMs As Tool Makers (LATM), où les LLMs créent leurs propres outils réutilisables pour la résolution de problèmes. Notre approche se compose de deux phases clés : 1) la création d'outils : un LLM agit en tant que créateur d'outils, concevant des outils pour des tâches données, où un outil est implémenté sous forme de fonction utilitaire en Python. 2) l'utilisation d'outils : un LLM agit en tant qu'utilisateur d'outils, appliquant l'outil construit par le créateur pour résoudre des problèmes. L'utilisateur d'outils peut être le même LLM ou un LLM différent du créateur. La création d'outils permet à un LLM de générer continuellement des outils qui peuvent être appliqués à différentes requêtes, de sorte que les requêtes futures peuvent appeler les API correspondantes lorsqu'elles sont bénéfiques pour résoudre les tâches. De plus, la division du travail entre les LLMs pour les phases de création et d'utilisation d'outils introduit l'opportunité d'atteindre une efficacité économique sans dégrader la qualité des outils générés et des solutions de problèmes. Par exemple, en reconnaissant que la création d'outils demande des capacités plus sophistiquées que leur utilisation, nous pouvons appliquer un modèle puissant mais gourmand en ressources en tant que créateur d'outils, et un modèle léger et économique en tant qu'utilisateur d'outils. Nous validons l'efficacité de notre approche sur une variété de tâches de raisonnement complexes, y compris les tâches Big-Bench. Avec GPT-4 en tant que créateur d'outils et GPT-3.5 en tant qu'utilisateur d'outils, LATM peut atteindre des performances comparables à l'utilisation de GPT-4 pour la création et l'utilisation d'outils, tout en réduisant considérablement le coût d'inférence.
Dans cet article, nous présentons ControlVideo, une méthode novatrice pour l'édition de vidéos pilotée par texte. En exploitant les capacités des modèles de diffusion texte-à-image et de ControlNet, ControlVideo vise à améliorer la fidélité et la cohérence temporelle des vidéos qui s'alignent sur un texte donné, tout en préservant la structure de la vidéo source. Cela est réalisé en incorporant des conditions supplémentaires telles que des cartes de contours, en affinant l'attention sur les images clés et temporelle pour la paire vidéo-source/texte grâce à des stratégies soigneusement conçues. Une exploration approfondie de la conception de ControlVideo est menée pour éclairer les recherches futures sur l'ajustement en une seule étape des modèles de diffusion vidéo. Quantitativement, ControlVideo surpasse une gamme de bases de référence compétitives en termes de fidélité et de cohérence tout en restant aligné avec l'invite textuelle. De plus, il produit des vidéos avec un réalisme visuel élevé et une grande fidélité par rapport au contenu source, démontrant une flexibilité dans l'utilisation de contrôles contenant divers degrés d'informations de la vidéo source, ainsi que le potentiel pour des combinaisons multiples de contrôles. La page du projet est disponible à l'adresse suivante : https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.
La "société de l'esprit" de Minsky et l'approche "apprendre à penser" de Schmidhuber inspirent des sociétés diversifiées de grands réseaux de neurones multimodaux (NN) qui résolvent des problèmes en s'interrogeant mutuellement lors d'une "tempête mentale". Les récentes implémentations de ces sociétés de l'esprit basées sur des NN consistent en des modèles de langage de grande taille (LLM) et d'autres experts basés sur des NN communiquant via une interface en langage naturel. Ce faisant, elles surmontent les limitations des LLM individuels, améliorant le raisonnement multimodal en zero-shot. Dans ces sociétés de l'esprit basées sur le langage naturel (NLSOM), de nouveaux agents — tous communiquant via le même langage symbolique universel — peuvent être facilement ajoutés de manière modulaire. Pour démontrer la puissance des NLSOM, nous assemblons et expérimentons avec plusieurs d'entre elles (comportant jusqu'à 129 membres), exploitant les tempêtes mentales pour résoudre certaines tâches pratiques en IA : réponse à des questions visuelles, génération de légendes d'images, synthèse de texte à image, génération 3D, récupération égocentrique, IA incarnée et résolution générale de tâches basées sur le langage. Nous considérons cela comme un point de départ vers des NLSOM bien plus vastes, comprenant des milliards d'agents — dont certains pourraient être humains. Avec l'émergence de ces grandes sociétés d'esprits hétérogènes, de nombreuses nouvelles questions de recherche sont soudainement devenues cruciales pour l'avenir de l'intelligence artificielle. Quelle devrait être la structure sociale d'une NLSOM ? Quels seraient les (dés)avantages d'une structure monarchique plutôt que démocratique ? Comment les principes des économies de NN peuvent-ils être utilisés pour maximiser la récompense totale d'une NLSOM en apprentissage par renforcement ? Dans ce travail, nous identifions, discutons et tentons de répondre à certaines de ces questions.
L'alignement social dans les systèmes d'IA vise à garantir que ces modèles se comportent conformément aux valeurs sociétales établies. Cependant, contrairement aux humains, qui parviennent à un consensus sur les jugements de valeur par le biais d'interactions sociales, les modèles de langage (LMs) actuels sont entraînés à reproduire de manière rigide leur corpus d'apprentissage en isolation, ce qui entraîne une généralisation médiocre dans des scénarios non familiers et une vulnérabilité aux attaques adverses. Ce travail présente un nouveau paradigme d'entraînement qui permet aux LMs d'apprendre à partir d'interactions sociales simulées. Par rapport aux méthodologies existantes, notre approche est considérablement plus évolutive et efficace, démontrant des performances supérieures dans les benchmarks d'alignement et les évaluations humaines. Ce changement de paradigme dans l'entraînement des LMs nous rapproche d'un pas vers le développement de systèmes d'IA capables de refléter de manière robuste et précise les normes et valeurs sociétales.
L'apprentissage à partir de retours humains a démontré son efficacité pour améliorer les modèles de génération d'images à partir de texte. Ces techniques apprennent d'abord une fonction de récompense qui capture ce qui importe aux humains dans la tâche, puis améliorent les modèles en se basant sur cette fonction de récompense apprise. Bien que des approches relativement simples (par exemple, l'échantillonnage par rejet basé sur les scores de récompense) aient été explorées, l'affinement des modèles de génération d'images à partir de texte à l'aide de la fonction de récompense reste un défi. Dans ce travail, nous proposons d'utiliser l'apprentissage par renforcement en ligne (RL) pour affiner ces modèles. Nous nous concentrons sur les modèles de diffusion, en définissant la tâche d'affinement comme un problème de RL, et en mettant à jour les modèles de diffusion pré-entraînés en utilisant la méthode du gradient de politique pour maximiser la récompense apprise à partir des retours. Notre approche, nommée DPOK, intègre l'optimisation de politique avec une régularisation KL. Nous menons une analyse de la régularisation KL pour l'affinement par RL ainsi que pour l'affinement supervisé. Nos expériences montrent que DPOK est généralement supérieur à l'affinement supervisé en termes d'alignement texte-image et de qualité d'image.
À mesure que les agents de dialogue deviennent de plus en plus humains dans leurs performances, il est impératif de développer des moyens efficaces pour décrire leur comportement en termes de haut niveau sans tomber dans le piège de l'anthropomorphisme. Dans cet article, nous mettons en avant le concept de jeu de rôle. Interpréter le comportement des agents de dialogue en termes de jeu de rôle nous permet de recourir à des termes familiers issus de la psychologie populaire, sans attribuer aux modèles de langage des caractéristiques humaines qu'ils ne possèdent en réalité pas. Deux cas importants de comportement des agents de dialogue sont ainsi abordés, à savoir la (pseudo) tromperie et la (pseudo) conscience de soi.
Nous présentons PandaGPT, une approche visant à doter les grands modèles de langage de capacités à suivre des instructions visuelles et auditives. Nos expériences pilotes montrent que PandaGPT peut accomplir des tâches complexes telles que la génération de descriptions détaillées d'images, l'écriture d'histoires inspirées par des vidéos, et la réponse à des questions concernant des audios. Plus intéressant encore, PandaGPT peut traiter simultanément des entrées multimodales et composer leurs sémantiques de manière naturelle. Par exemple, PandaGPT peut relier l'apparence des objets dans une image/vidéo et leur son dans un audio. Pour ce faire, PandaGPT combine les encodeurs multimodaux d'ImageBind et les grands modèles de langage de Vicuna. Il est à noter que seules des paires image-texte alignées sont nécessaires pour l'entraînement de PandaGPT. Grâce à la forte capacité d'ImageBind à intégrer des données de différentes modalités dans le même espace, PandaGPT présente des comportements émergents, c'est-à-dire zero-shot, pour des données autres que l'image et le texte (par exemple, vidéo, audio, profondeur, thermique et IMU). Nous espérons que PandaGPT constitue une première étape vers la construction d'une AGI capable de percevoir et de comprendre les entrées dans différentes modalités de manière holistique, comme nous le faisons en tant qu'humains. Notre page de projet est disponible à l'adresse https://panda-gpt.github.io/.
Les agents de décision basés sur des modèles de langage de grande taille (LLM) ont démontré une capacité à généraliser à travers plusieurs tâches. Cependant, leurs performances reposent sur des quantités massives de données et de calcul. Nous soutenons que cette inefficacité découle du phénomène d'oubli, dans lequel un modèle mémorise ses comportements dans ses paramètres tout au long de l'entraînement. Par conséquent, l'entraînement sur une nouvelle tâche peut détériorer les performances du modèle sur les tâches précédentes. Contrairement au mécanisme de mémoire implicite des LLM, le cerveau humain utilise un stockage de mémoire distribué, qui aide à gérer et organiser plusieurs compétences de manière efficace, atténuant ainsi le phénomène d'oubli. Inspirés par cela, nous proposons un module de mémoire de travail interne pour stocker, fusionner et récupérer des informations pour différentes tâches en aval. Les résultats d'évaluation montrent que la méthode proposée améliore l'efficacité de l'entraînement et la généralisation dans les jeux Atari et les tâches de manipulation d'objets dans le monde méta. De plus, nous démontrons que l'ajustement fin de la mémoire améliore encore l'adaptabilité de l'architecture proposée.
Nous présentons Three Towers (3T), une méthode flexible pour améliorer l'apprentissage contrastif des modèles vision-langage en intégrant des classificateurs d'images pré-entraînés. Alors que les modèles contrastifs sont généralement entraînés à partir de zéro, LiT (Zhai et al., 2022) a récemment démontré des gains de performance en utilisant des embeddings de classificateurs pré-entraînés. Cependant, LiT remplace directement la tour d'images par ces embeddings figés, excluant ainsi les bénéfices potentiels d'un entraînement contrastif de la tour d'images. Avec 3T, nous proposons une stratégie plus flexible qui permet à la tour d'images de bénéficier à la fois des embeddings pré-entraînés et de l'entraînement contrastif. Pour y parvenir, nous introduisons une troisième tour contenant les embeddings pré-entraînés figés, et nous encourageons l'alignement entre cette troisième tour et les tours principales image-texte. Empiriquement, 3T améliore systématiquement les performances par rapport à LiT et à la base de référence de type CLIP entraînée à partir de zéro pour les tâches de recherche. Pour la classification, 3T améliore de manière fiable les résultats par rapport à la base de référence entraînée à partir de zéro, et bien qu'il soit moins performant que LiT pour les modèles pré-entraînés sur JFT, il surpasse LiT pour les pré-entraînements sur ImageNet-21k et Places365.
Les modèles de langage autorégressifs sont entraînés en minimisant l'entropie croisée de la distribution du modèle Q par rapport à la distribution des données P — c'est-à-dire en minimisant l'entropie croisée directe, ce qui équivaut à l'estimation du maximum de vraisemblance (MLE). Nous avons observé que les modèles entraînés de cette manière peuvent "sur-généraliser", dans le sens où ils produisent du texte non conforme à celui généré par les humains. De plus, nous pensons que l'entropie croisée inverse, c'est-à-dire l'entropie croisée de P par rapport à Q, reflète mieux la manière dont un humain évaluerait le texte généré par un modèle. Par conséquent, nous proposons un apprentissage avec MixCE, un objectif qui combine les entropies croisées directe et inverse. Nous évaluons les modèles entraînés avec cet objectif sur des configurations de données synthétiques (où P est connue) et des données réelles, et montrons que les modèles résultants produisent un texte de meilleure qualité sans nécessiter de stratégies de décodage complexes. Notre code et nos modèles sont disponibles publiquement à l'adresse https://github.com/bloomberg/mixce-acl2023.
Les modèles de langage de grande taille (LLMs) transforment la société et s'intègrent dans des applications diverses. Par conséquent, les LLMs interagiront fréquemment avec nous et d'autres agents. Il est donc d'une grande valeur sociétale de comprendre comment les LLMs se comportent dans des contextes sociaux interactifs. Ici, nous proposons d'utiliser la théorie des jeux comportementale pour étudier le comportement de coopération et de coordination des LLMs. Pour ce faire, nous avons fait jouer différents LLMs (GPT-3, GPT-3.5 et GPT-4) à des jeux répétés de manière finie entre eux et avec d'autres stratégies de type humain. Nos résultats montrent que les LLMs performent généralement bien dans de telles tâches et révèlent également des signatures comportementales persistantes. Dans un large ensemble de jeux à deux joueurs et deux stratégies, nous constatons que les LLMs sont particulièrement performants dans les jeux où valoriser leur propre intérêt est payant, comme dans la famille du dilemme du prisonnier itéré. Cependant, ils se comportent de manière sous-optimale dans les jeux qui nécessitent de la coordination. Nous nous concentrons donc davantage sur deux jeux issus de ces familles distinctes. Dans le dilemme du prisonnier itéré canonique, nous constatons que GPT-4 agit de manière particulièrement impitoyable, en défaussant toujours après qu'un autre agent ait défaussé une seule fois. Dans la bataille des sexes, nous constatons que GPT-4 ne parvient pas à reproduire le comportement de la simple convention consistant à alterner entre les options. Nous vérifions que ces signatures comportementales sont stables à travers des tests de robustesse. Enfin, nous montrons comment le comportement de GPT-4 peut être modifié en fournissant des informations supplémentaires sur l'autre joueur ainsi qu'en lui demandant de prédire les actions de l'autre joueur avant de faire un choix. Ces résultats enrichissent notre compréhension du comportement social des LLMs et ouvrent la voie à une théorie des jeux comportementale pour les machines.
Les Transformers possèdent des capacités impressionnantes de généralisation sur des tâches avec une longueur de contexte fixe. Cependant, ils échouent à généraliser à des séquences de longueur arbitraire, même pour des tâches apparemment simples comme la duplication d'une chaîne de caractères. De plus, l'entraînement sur des séquences plus longues est inefficace en raison de la complexité computationnelle quadratique du mécanisme d'attention globale. Dans ce travail, nous démontrons que cet échec est lié au fait que les encodages positionnels sont hors distribution pour des séquences plus longues (même pour les encodages relatifs) et nous introduisons une nouvelle famille d'encodages positionnels capables de surmonter ce problème. Concrètement, notre schéma d'encodage positionnel randomisé simule les positions de séquences plus longues et sélectionne aléatoirement un sous-ensemble ordonné pour s'adapter à la longueur de la séquence. Notre évaluation empirique à grande échelle de 6000 modèles sur 15 tâches de raisonnement algorithmique montre que notre méthode permet aux Transformers de généraliser à des séquences de longueur inédite (augmentant la précision en test de 12,0 % en moyenne).
Les embeddings de tokens, qui consistent en une correspondance entre des symboles lexicaux discrets et des vecteurs continus, sont au cœur de tout modèle de langage (LM). Cependant, les significations des symboles lexicaux peuvent également être déterminées, voire redéfinies, par leur rôle structurel dans un contexte étendu. Dans cet article, nous posons la question suivante : est-il possible pour un modèle de langage d’être performant sans aucun embedding de token fixe ? Un tel modèle de langage devrait s’appuyer entièrement sur la co-occurrence et la répétition des tokens dans le contexte plutôt que sur l’identité a priori de tout token. Pour y répondre, nous étudions des modèles de langage lexinvariants, qui sont invariants aux symboles lexicaux et n’ont donc pas besoin d’embeddings de tokens fixes en pratique. Premièrement, nous prouvons qu’il est possible de construire un modèle de langage lexinvariant qui converge vers le vrai modèle de langage à un taux uniforme polynomial en fonction de la longueur du contexte, avec un facteur constant sous-linéaire par rapport à la taille du vocabulaire. Deuxièmement, pour construire un tel modèle, nous encodons simplement les tokens à l’aide de vecteurs gaussiens aléatoires, de sorte que chaque token soit mappé à la même représentation au sein d’une séquence donnée, mais à des représentations différentes entre les séquences. Empiriquement, nous démontrons qu’il peut effectivement atteindre une perplexité comparable à celle d’un modèle de langage standard, à condition d’un contexte suffisamment long. Nous explorons ensuite deux propriétés des modèles de langage lexinvariants : premièrement, face à un texte généré à partir d’un chiffrement par substitution de l’anglais, il implémente implicitement un déchiffrement bayésien en contexte et infère la correspondance avec les tokens réels sous-jacents avec une grande précision. Deuxièmement, il présente en moyenne une précision 4 fois supérieure sur des tâches de raisonnement en contexte synthétiques. Enfin, nous discutons de la régularisation des modèles de langage standards vers la lexinvariance et des applications pratiques potentielles.
Les grands modèles de langage (LLMs) tels que GPT-3 sont apparus comme des modèles de langage polyvalents capables de traiter de nombreuses tâches de génération ou de compréhension du langage naturel. Dans le domaine de la traduction automatique (MT), plusieurs travaux ont exploré des mécanismes d'incitation en few-shot pour obtenir de meilleures traductions à partir des LLMs. Cependant, il y a eu relativement peu d'investigations sur la manière dont ces traductions diffèrent qualitativement de celles générées par les modèles standards de traduction automatique neuronale (NMT). Dans ce travail, nous examinons ces différences en termes de littéralité des traductions produites par les deux systèmes. En utilisant des mesures de littéralité impliquant l'alignement de mots et la monotonie, nous constatons que les traductions de l'anglais vers d'autres langues (E-X) par les GPT ont tendance à être moins littérales, tout en affichant des scores similaires ou meilleurs sur les métriques de qualité de la traduction automatique. Nous démontrons que cette observation est également confirmée par des évaluations humaines. Nous montrons ensuite que ces différences sont particulièrement marquées lors de la traduction de phrases contenant des expressions idiomatiques.
Nous présentons Backpacks : une nouvelle architecture neuronale qui allie des performances de modélisation élevées à une interface pour l'interprétabilité et le contrôle. Les Backpacks apprennent plusieurs vecteurs de sens non contextuels pour chaque mot d'un vocabulaire, et représentent un mot dans une séquence comme une combinaison linéaire non négative et dépendante du contexte de ces vecteurs de sens. Nous constatons qu'après l'entraînement, les vecteurs de sens se spécialisent, chacun encodant un aspect différent d'un mot. Nous pouvons interpréter un vecteur de sens en examinant sa projection (non contextuelle et linéaire) sur l'espace de sortie, et intervenir sur ces points d'interprétabilité pour modifier le comportement du modèle de manière prévisible. Nous avons entraîné un modèle de langage Backpack de 170 millions de paramètres sur OpenWebText, atteignant une performance similaire à celle d'un petit Transformer GPT-2 (124 millions de paramètres). Sur des évaluations de similarité lexicale, nous observons que les vecteurs de sens des Backpacks surpassent même les embeddings de mots d'un Transformer LM de 6 milliards de paramètres. Enfin, nous présentons des algorithmes simples qui interviennent sur les vecteurs de sens pour réaliser une génération de texte contrôlée et une réduction des biais. Par exemple, nous pouvons modifier le vocabulaire de sens pour tendre davantage vers un sujet, ou localiser une source de biais de genre dans un vecteur de sens et supprimer globalement ce sens.
L'apprentissage en contexte, une capacité qui permet à un modèle d'apprendre à partir d'exemples d'entrée à la volée sans nécessiter de mise à jour des poids, est une caractéristique déterminante des grands modèles de langage. Dans ce travail, nous suivons le cadre proposé par (Garg et al., 2022) pour mieux comprendre la généralité et les limites de l'apprentissage en contexte à travers la tâche simple mais fondamentale de la régression linéaire. La question clé que nous cherchons à aborder est la suivante : les transformateurs sont-ils plus aptes que certaines architectures naturelles et plus simples à réaliser un apprentissage en contexte face à des variations de distribution ? Pour comparer les transformateurs, nous proposons d'utiliser une architecture simple basée sur des perceptrons multicouches (MLP) basés sur des ensembles. Nous constatons que les transformateurs et les MLP basés sur des ensembles montrent tous deux des capacités d'apprentissage en contexte lors d'évaluations en distribution, mais les transformateurs se rapprochent davantage des performances des moindres carrés ordinaires (OLS). Les transformateurs démontrent également une meilleure résilience face à des variations modérées de distribution, là où les MLP basés sur des ensembles échouent. Cependant, face à des variations sévères de distribution, les capacités d'apprentissage en contexte des deux modèles diminuent.
Il est communément admis que les modèles de langage (LMs) les plus performants s'appuient sur une combinaison d'échelle massive, de données d'instruction et de feedback humain pour accomplir des tâches spécialisées -- par exemple, la synthétisation et la paraphrase -- sans supervision. Dans cet article, nous proposons que les modèles de langage peuvent apprendre à synthétiser et à paraphraser des phrases, sans aucun de ces trois facteurs. Nous présentons Impossible Distillation, un cadre qui distille un ensemble de données spécifique à une tâche directement à partir d'un modèle de langage standard, même lorsque ce dernier est incapable de résoudre la tâche de manière fiable. En entraînant un modèle étudiant sur l'ensemble de données généré et en amplifiant ses capacités par auto-distillation, notre méthode produit un modèle et un ensemble de données de haute qualité à partir d'un modèle enseignant de faible qualité, sans nécessiter d'échelle massive ni de supervision. Grâce à Impossible Distillation, nous avons pu distiller un modèle d'un ordre de grandeur plus petit (avec seulement 770 millions de paramètres) qui surpasse GPT-3 avec 175 milliards de paramètres, tant en qualité qu'en contrôlabilité, comme le confirment les évaluations automatiques et humaines. De plus, en tant que sous-produit utile de notre approche, nous obtenons DIMSUM+, un ensemble de données de haute qualité contenant 3,4 millions de résumés et paraphrases de phrases. Nos analyses montrent que cet ensemble de données, en tant que corpus généré entièrement par un modèle de langage, est plus diversifié et plus efficace pour la généralisation à des domaines non vus que tous les ensembles de données rédigés par des humains -- y compris Gigaword avec 4 millions d'échantillons.
Les récentes avancées dans la génération d'images à partir de texte ont permis des progrès significatifs dans la génération de formes 3D en mode zero-shot. Cela est réalisé grâce à la distillation de scores, une méthodologie qui utilise des modèles de diffusion texte-image pré-entraînés pour optimiser les paramètres d'une représentation neuronale 3D, par exemple un champ de radiance neuronale (NeRF). Bien que prometteurs, les méthodes existantes peinent souvent à préserver la géométrie des formes complexes, telles que les corps humains. Pour relever ce défi, nous présentons ZeroAvatar, une méthode qui introduit un a priori explicite du corps humain 3D dans le processus d'optimisation. Plus précisément, nous estimons et affinons d'abord les paramètres d'un corps humain paramétrique à partir d'une seule image. Ensuite, lors de l'optimisation, nous utilisons le corps paramétrique posé comme contrainte géométrique supplémentaire pour régulariser le modèle de diffusion ainsi que le champ de densité sous-jacent. Enfin, nous proposons un terme de régularisation de texture guidé par les coordonnées UV pour mieux guider la complétion de la texture sur les parties invisibles du corps. Nous démontrons que ZeroAvatar améliore significativement la robustesse et la cohérence 3D de la génération d'avatars image-3D basée sur l'optimisation, surpassant les méthodes zero-shot image-3D existantes.
Dans la plupart des recherches actuelles, les grands modèles de langage (LLMs) sont capables d'effectuer des tâches de raisonnement en générant des chaînes de pensée grâce à l'orientation de prompts spécifiques. Cependant, il existe toujours un écart significatif entre leur capacité à résoudre des problèmes de raisonnement complexes et celle des humains. À l'heure actuelle, la plupart des approches se concentrent sur les chaînes de pensée (COT) et l'utilisation d'outils, sans considérer l'adoption et l'application de cadres cognitifs humains. Il est bien connu que lorsqu'ils sont confrontés à des défis de raisonnement complexes, les humains emploient généralement diverses capacités cognitives et nécessitent une interaction avec tous les aspects des outils, des connaissances et des informations de l'environnement externe pour accomplir des tâches complexes. Cet article introduit un nouveau cadre intelligent, appelé OlaGPT. OlaGPT a soigneusement étudié un cadre d'architecture cognitive et propose de simuler certains aspects de la cognition humaine. Le cadre implique l'approximation de différents modules cognitifs, y compris l'attention, la mémoire, le raisonnement, l'apprentissage, ainsi que les mécanismes de planification et de prise de décision correspondants. Inspiré par le mécanisme d'apprentissage actif des êtres humains, il propose une unité d'apprentissage pour enregistrer les erreurs précédentes et les opinions d'experts, et s'y référer dynamiquement pour renforcer leur capacité à résoudre des problèmes similaires. L'article décrit également des cadres de raisonnement efficaces courants pour la résolution de problèmes humains et conçoit des modèles de chaînes de pensée (COT) en conséquence. Un mécanisme de prise de décision complet est également proposé pour maximiser la précision du modèle. L'efficacité d'OlaGPT a été rigoureusement évaluée sur plusieurs ensembles de données de raisonnement, et les résultats expérimentaux révèlent qu'OlaGPT surpasse les références de pointe, démontrant ainsi sa performance supérieure. Notre implémentation d'OlaGPT est disponible sur GitHub : https://github.com/oladata-team/OlaGPT.