Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de langage (LMs) sont des outils puissants pour le traitement du langage naturel, mais ils peinent souvent à produire un texte cohérent et fluide lorsqu'ils sont de petite taille. Les modèles comportant environ 125 millions de paramètres, tels que GPT-Neo (petit) ou GPT-2 (petit), parviennent rarement à générer un texte anglais cohérent et consistant au-delà de quelques mots, même après un entraînement approfondi. Cela soulève la question de savoir si l'émergence de la capacité à produire un texte anglais cohérent ne se manifeste qu'à des échelles plus grandes (avec des centaines de millions de paramètres ou plus) et des architectures complexes (avec de nombreuses couches d'attention globale). Dans ce travail, nous introduisons TinyStories, un ensemble de données synthétiques de courtes histoires qui ne contiennent que des mots généralement compris par un enfant typique de 3 à 4 ans, générées par GPT-3.5 et GPT-4. Nous montrons que TinyStories peut être utilisé pour entraîner et évaluer des LMs bien plus petits que les modèles de pointe (moins de 10 millions de paramètres au total), ou dotés d'architectures beaucoup plus simples (avec un seul bloc de transformateur), mais qui produisent néanmoins des histoires fluides et cohérentes de plusieurs paragraphes, diversifiées et dotées d'une grammaire presque parfaite, tout en démontrant des capacités de raisonnement. Nous introduisons également un nouveau paradigme pour l'évaluation des modèles de langage : nous proposons un cadre qui utilise GPT-4 pour noter le contenu généré par ces modèles, comme s'il s'agissait d'histoires écrites par des élèves et notées par un enseignant (humain). Ce nouveau paradigme surmonte les défauts des benchmarks standards qui exigent souvent que la sortie du modèle soit très structurée, et fournit en outre un score multidimensionnel pour le modèle, attribuant des notes pour différentes capacités telles que la grammaire, la créativité et la cohérence. Nous espérons que TinyStories pourra faciliter le développement, l'analyse et la recherche sur les LMs, en particulier pour les domaines à faibles ressources ou spécialisés, et éclairer l'émergence des capacités linguistiques dans les LMs.
Nous présentons SoundStorm, un modèle pour la génération efficace et non autorégressive d'audio. SoundStorm prend en entrée les tokens sémantiques d'AudioLM et s'appuie sur une attention bidirectionnelle et un décodage parallèle basé sur la confiance pour générer les tokens d'un codec audio neuronal. Par rapport à l'approche de génération autorégressive d'AudioLM, notre modèle produit un audio de même qualité avec une plus grande cohérence dans la voix et les conditions acoustiques, tout en étant deux ordres de grandeur plus rapide. SoundStorm génère 30 secondes d'audio en 0,5 seconde sur un TPU-v4. Nous démontrons la capacité de notre modèle à étendre la génération d'audio à des séquences plus longues en synthétisant des segments de dialogue naturels et de haute qualité, à partir d'une transcription annotée avec les tours de parole et d'un court prompt contenant les voix des locuteurs.
Des recherches récentes ont suggéré qu'il existe des différences marquées entre le langage utilisé sur le Dark Web et celui du Surface Web. Étant donné que les études sur le Dark Web nécessitent couramment une analyse textuelle du domaine, des modèles de langage spécifiques au Dark Web pourraient offrir des perspectives précieuses aux chercheurs. Dans ce travail, nous présentons DarkBERT, un modèle de langage pré-entraîné sur des données du Dark Web. Nous décrivons les étapes suivies pour filtrer et compiler les données textuelles utilisées pour entraîner DarkBERT, afin de contrer l'extrême diversité lexicale et structurelle du Dark Web qui pourrait nuire à la construction d'une représentation adéquate du domaine. Nous évaluons DarkBERT ainsi que son équivalent standard, ainsi que d'autres modèles de langage largement utilisés, pour valider les avantages qu'un modèle spécifique au domaine du Dark Web offre dans divers cas d'utilisation. Nos évaluations montrent que DarkBERT surpasse les modèles de langage actuels et pourrait constituer une ressource précieuse pour les futures recherches sur le Dark Web.
Les systèmes récents d'intelligence artificielle (IA) ont atteint des étapes clés dans des "défis majeurs", allant du jeu de Go au repliement des protéines. La capacité à extraire des connaissances médicales, à raisonner dessus et à répondre à des questions médicales de manière comparable à des médecins a longtemps été considérée comme l'un de ces grands défis. Les grands modèles de langage (LLM) ont catalysé des progrès significatifs dans la réponse aux questions médicales ; Med-PaLM a été le premier modèle à dépasser un score "de passage" pour des questions de style US Medical Licensing Examination (USMLE) avec un score de 67,2 % sur le jeu de données MedQA. Cependant, ce travail et d'autres travaux antérieurs suggéraient une marge d'amélioration significative, en particulier lorsque les réponses des modèles étaient comparées à celles des cliniciens. Nous présentons ici Med-PaLM 2, qui comble ces lacunes en exploitant une combinaison d'améliorations du LLM de base (PaLM 2), d'ajustement fin dans le domaine médical et de stratégies d'incitation incluant une nouvelle approche de raffinement par ensemble. Med-PaLM 2 a obtenu jusqu'à 86,5 % sur le jeu de données MedQA, améliorant Med-PaLM de plus de 19 % et établissant un nouvel état de l'art. Nous avons également observé des performances approchant ou dépassant l'état de l'art sur les jeux de données MedMCQA, PubMedQA et MMLU sur des sujets cliniques. Nous avons effectué des évaluations humaines détaillées sur des questions à réponse longue selon plusieurs axes pertinents pour les applications cliniques. Dans un classement comparatif par paires de 1066 questions médicales grand public, les médecins ont préféré les réponses de Med-PaLM 2 à celles produites par des médecins sur huit des neuf axes relatifs à l'utilité clinique (p < 0,001). Nous avons également observé des améliorations significatives par rapport à Med-PaLM sur chaque axe d'évaluation (p < 0,001) sur de nouveaux jeux de données de 240 questions à réponse longue "adversariales" pour explorer les limites des LLM. Bien que des études supplémentaires soient nécessaires pour valider l'efficacité de ces modèles dans des contextes réels, ces résultats mettent en lumière des progrès rapides vers des performances de niveau médecin dans la réponse aux questions médicales.
Les grands modèles de langage (LLM) pré-entraînés sur de vastes corpus de code source ont réalisé des progrès significatifs en intelligence du code. Cependant, les LLM de code existants présentent deux limitations principales en termes d'architecture et de tâches de pré-entraînement. Premièrement, ils adoptent souvent une architecture spécifique (encodeur uniquement ou décodeur uniquement) ou s'appuient sur un réseau encodeur-décodeur unifié pour différentes tâches en aval. Le premier paradigme est limité par un manque de flexibilité dans les applications, tandis que dans le second, le modèle est traité comme un système unique pour toutes les tâches, conduisant à des performances sous-optimales sur un sous-ensemble de tâches. Deuxièmement, ils utilisent souvent un ensemble limité d'objectifs de pré-entraînement qui pourraient ne pas être pertinents pour certaines tâches en aval, entraînant ainsi une dégradation substantielle des performances. Pour résoudre ces limitations, nous proposons ``CodeT5+'', une famille de LLM encodeur-décodeur pour le code dans laquelle les modules composants peuvent être combinés de manière flexible pour s'adapter à un large éventail de tâches de code en aval. Cette flexibilité est rendue possible par notre proposition de mélange d'objectifs de pré-entraînement pour atténuer l'écart entre pré-entraînement et affinage. Ces objectifs couvrent le débruitage de segments, l'apprentissage contrastif, l'appariement texte-code, et les tâches de pré-entraînement de modèle de langage causal, sur des corpus de code unimodaux et bimodaux multilingues. De plus, nous proposons d'initialiser CodeT5+ avec des LLM prêts à l'emploi gelés sans entraînement à partir de zéro pour évoluer efficacement nos modèles, et explorons l'affinage par instruction pour s'aligner sur les instructions en langage naturel. Nous évaluons extensivement CodeT5+ sur plus de 20 benchmarks liés au code dans différents contextes, incluant le zero-shot, l'affinage, et l'affinage par instruction. Nous observons des performances de pointe (SoTA) sur diverses tâches liées au code, telles que la génération et la complétion de code, la programmation mathématique, et les tâches de recherche texte-code. En particulier, notre CodeT5+ 16B affiné par instruction atteint de nouveaux résultats SoTA sur la tâche de génération de code HumanEval par rapport à d'autres LLM de code ouverts.
Les grands modèles de langage (LLMs) tels que GPT-3 et GPT-4 sont puissants, mais leurs poids ne sont souvent pas disponibles publiquement et leurs tailles immenses rendent ces modèles difficiles à ajuster avec du matériel courant. Par conséquent, l'ajustement efficace de ces modèles avec des données supervisées à grande échelle peut s'avérer complexe. Comme alternative, l'apprentissage en contexte (In-Context Learning, ICL) ne peut utiliser qu'un petit nombre d'exemples supervisés en raison des limites de longueur de contexte. Dans cet article, nous proposons le Super In-Context Learning (SuperICL), qui permet aux LLMs en boîte noire de fonctionner avec des modèles plus petits ajustés localement, offrant ainsi des performances supérieures sur des tâches supervisées. Nos expériences démontrent que SuperICL peut améliorer les performances au-delà des modèles ajustés de pointe tout en résolvant le problème d'instabilité de l'apprentissage en contexte. De plus, SuperICL peut renforcer les capacités des modèles plus petits, telles que le multilinguisme et l'interprétabilité.
La génération de mouvements humains guidée par texte a suscité un intérêt considérable en raison de ses applications impactantes dans les domaines de l'animation et de la robotique. Récemment, l'utilisation de modèles de diffusion pour la génération de mouvements a permis d'améliorer la qualité des mouvements générés. Cependant, les approches existantes sont limitées par leur dépendance à des données de capture de mouvement relativement réduites, ce qui entraîne des performances médiocres sur des prompts plus diversifiés et réalistes. Dans cet article, nous présentons Make-An-Animation, un modèle de génération de mouvements humains conditionné par texte qui apprend des poses et des prompts plus variés à partir de vastes ensembles de données image-texte, permettant une amélioration significative des performances par rapport aux travaux précédents. Make-An-Animation est entraîné en deux étapes. Tout d'abord, nous entraînons le modèle sur un vaste ensemble de données soigneusement sélectionné de paires (texte, pseudo-pose statique) extraites de jeux de données image-texte. Ensuite, nous affinons le modèle sur des données de capture de mouvement, en ajoutant des couches supplémentaires pour modéliser la dimension temporelle. Contrairement aux modèles de diffusion précédents pour la génération de mouvements, Make-An-Animation utilise une architecture U-Net similaire aux récents modèles de génération de texte-à-vidéo. L'évaluation humaine du réalisme des mouvements et de leur alignement avec le texte d'entrée montre que notre modèle atteint des performances de pointe en matière de génération de texte-à-mouvement.
Les modèles de diffusion ont suscité un intérêt considérable dans le domaine de la génération d'images en raison de leurs performances exceptionnelles. Leur succès a récemment été étendu à la génération de texte via la production simultanée de tous les tokens d'une séquence. Cependant, le langage naturel présente une dépendance séquentielle bien plus marquée que les images, et la majorité des modèles de langage existants sont entraînés en utilisant une approche auto-régressive de gauche à droite. Pour tenir compte de la caractéristique séquentielle inhérente au langage naturel, nous introduisons la Diffusion Auto-Régressive (AR-Diffusion). AR-Diffusion garantit que la génération des tokens à droite dépend de ceux générés à gauche, un mécanisme réalisé en employant un nombre dynamique d'étapes de débruitage qui varient en fonction de la position du token. Il en résulte que les tokens à gauche subissent moins d'étapes de débruitage que ceux à droite, leur permettant ainsi d'être générés plus tôt et d'influencer ensuite la génération des tokens à droite. Dans une série d'expériences sur diverses tâches de génération de texte, incluant la synthèse de texte, la traduction automatique et la génération de bon sens, AR-Diffusion a clairement démontré sa supériorité par rapport aux modèles de diffusion de langage existants, et peut être de 100 à 600 fois plus rapide tout en atteignant des résultats comparables. Notre code sera rendu public.
Nous présentons le symbol tuning - une méthode de fine-tuning des modèles de langage sur des paires entrée-étiquette en contexte où les étiquettes en langage naturel (par exemple, "sentiment positif/négatif") sont remplacées par des symboles arbitraires (par exemple, "foo/bar"). Le symbol tuning s'appuie sur l'intuition que lorsqu'un modèle ne peut pas utiliser des instructions ou des étiquettes en langage naturel pour comprendre une tâche, il doit plutôt apprendre les correspondances entre les entrées et les étiquettes. Nous expérimentons le symbol tuning sur des modèles Flan-PaLM allant jusqu'à 540 milliards de paramètres et observons des avantages dans divers contextes. Premièrement, le symbol tuning améliore les performances sur des tâches d'apprentissage en contexte non vues auparavant et est beaucoup plus robuste face à des prompts sous-spécifiés, tels que ceux sans instructions ou sans étiquettes en langage naturel. Deuxièmement, les modèles ajustés par symbol tuning sont beaucoup plus performants dans les tâches de raisonnement algorithmique, avec jusqu'à 18,2 % de meilleures performances sur le benchmark List Functions et jusqu'à 15,3 % de meilleures performances sur le benchmark Simple Turing Concepts. Enfin, les modèles ajustés par symbol tuning montrent des améliorations significatives dans la capacité à suivre des étiquettes inversées présentées en contexte, ce qui signifie qu'ils sont plus aptes à utiliser l'information contextuelle pour surmonter les connaissances sémantiques antérieures.
Un système de recommandation conversationnel (CRS) offre une transparence et un contrôle accrus aux utilisateurs en leur permettant d'interagir avec le système via un dialogue en temps réel à plusieurs tours. Récemment, les modèles de langage de grande taille (LLMs) ont démontré une capacité sans précédent à converser naturellement et à intégrer des connaissances du monde réel ainsi que des raisonnements de bon sens dans la compréhension du langage, débloquant ainsi le potentiel de ce paradigme. Cependant, exploiter efficacement les LLMs dans un CRS introduit de nouveaux défis techniques, notamment la compréhension et le contrôle appropriés d'une conversation complexe et l'accès à des sources d'information externes. Ces problèmes sont exacerbés par un corpus d'éléments vaste et évolutif ainsi que par un manque de données conversationnelles pour l'entraînement. Dans cet article, nous proposons une feuille de route pour construire un CRS à grande échelle de bout en bout utilisant des LLMs. En particulier, nous proposons de nouvelles implémentations pour la compréhension des préférences utilisateur, la gestion flexible des dialogues et les recommandations explicites dans le cadre d'une architecture intégrée alimentée par des LLMs. Pour une meilleure personnalisation, nous décrivons comment un LLM peut consommer des profils utilisateur interprétables en langage naturel et les utiliser pour moduler le contexte au niveau de la session. Pour surmonter les limitations des données conversationnelles en l'absence d'un CRS de production existant, nous proposons des techniques pour construire un simulateur d'utilisateur basé sur un LLM contrôlable afin de générer des conversations synthétiques. En tant que preuve de concept, nous présentons RecLLM, un CRS à grande échelle pour les vidéos YouTube construit sur LaMDA, et démontrons sa fluidité et sa fonctionnalité diversifiée à travers quelques exemples de conversations illustratifs.
L'apprentissage en contexte, où les modèles de langage pré-entraînés apprennent à accomplir des tâches à partir d'exemples et d'instructions dans leur contexte, a suscité un vif intérêt dans la communauté du traitement automatique du langage naturel (TALN). Cependant, la capacité d'apprentissage en contexte n'est pas pleinement exploitée car les modèles de langage ne sont pas explicitement entraînés à apprendre dans ce cadre. Pour pallier cela, nous proposons PICL (Pre-training for In-Context Learning), un cadre visant à améliorer la capacité d'apprentissage en contexte des modèles de langage en les pré-entraînant sur un vaste ensemble de "tâches intrinsèques" issues d'un corpus de texte brut général, en utilisant l'objectif simple de modélisation du langage. PICL encourage le modèle à déduire et à exécuter des tâches en se basant sur les contextes, tout en préservant la généralisation des tâches des modèles pré-entraînés. Nous évaluons les performances d'apprentissage en contexte du modèle entraîné avec PICL sur sept ensembles de données de classification de texte couramment utilisés, ainsi que sur le benchmark Super-NaturalInstructions, qui contient plus de 100 tâches de TALN formulées pour la génération de texte. Nos expériences montrent que PICL est plus efficace et généralisable aux tâches qu'une gamme de modèles de référence, surpassant des modèles de langage plus volumineux avec près de 4 fois plus de paramètres. Le code est disponible publiquement à l'adresse suivante : https://github.com/thu-coai/PICL.
Un pipeline entièrement automatisé de reconstruction d'objets est essentiel pour la création de contenu numérique. Bien que le domaine de la reconstruction 3D ait connu des avancées significatives, l'élimination de l'arrière-plan pour obtenir un modèle d'objet propre repose encore sur différentes formes de travail manuel, telles que l'étiquetage de boîtes englobantes, les annotations de masques et les manipulations de maillages. Dans cet article, nous proposons un nouveau cadre nommé AutoRecon pour la découverte et la reconstruction automatisées d'un objet à partir d'images multi-vues. Nous démontrons que les objets au premier plan peuvent être localisés et segmentés de manière robuste à partir de nuages de points SfM en exploitant les caractéristiques auto-supervisées de transformateurs de vision 2D. Ensuite, nous reconstruisons des représentations de scène neuronales décomposées avec une supervision dense fournie par les nuages de points décomposés, aboutissant à une reconstruction et une segmentation précises de l'objet. Les expériences sur les ensembles de données DTU, BlendedMVS et CO3D-V2 démontrent l'efficacité et la robustesse d'AutoRecon.
Obtenir des explications interprétables par l'homme pour les grands modèles de langage à usage général est un objectif urgent pour la sécurité de l'IA. Cependant, il est tout aussi important que nos méthodes d'interprétabilité soient fidèles aux dynamiques causales sous-jacentes au comportement du modèle et capables de généraliser de manière robuste à des entrées non vues. La Recherche d'Alignement Distribué (DAS) est une méthode puissante de descente de gradient ancrée dans une théorie d'abstraction causale qui a révélé des alignements parfaits entre des algorithmes symboliques interprétables et de petits modèles d'apprentissage profond affinés pour des tâches spécifiques. Dans cet article, nous augmentons considérablement l'échelle de DAS en remplaçant les étapes restantes de recherche par force brute par des paramètres appris — une approche que nous appelons DAS. Cela nous permet de rechercher efficacement une structure causale interprétable dans les grands modèles de langage tout en suivant des instructions. Nous appliquons DAS au modèle Alpaca (7 milliards de paramètres), qui, tel quel, résout un problème simple de raisonnement numérique. Avec DAS, nous découvrons qu'Alpaca y parvient en implémentant un modèle causal avec deux variables booléennes interprétables. De plus, nous constatons que l'alignement des représentations neuronales avec ces variables est robuste aux changements d'entrées et d'instructions. Ces résultats marquent une première étape vers une compréhension approfondie du fonctionnement interne de nos plus grands et plus largement déployés modèles de langage.
Les interfaces en langage naturel nécessitent souvent des données supervisées pour traduire les requêtes des utilisateurs en programmes, requêtes de base de données ou autres représentations structurées d'intention. Lors de la collecte de données, il peut être difficile d'anticiper et de formaliser l'ensemble des besoins des utilisateurs. Par exemple, dans un système conçu pour gérer des requêtes simples (comme trouver mes réunions demain ou déplacer ma réunion avec mon manager à midi), les utilisateurs peuvent également exprimer des requêtes plus élaborées (comme échanger tous mes appels de lundi et mardi). Nous introduisons une approche pour équiper un modèle simple de conversion du langage en code afin de gérer des énoncés complexes via un processus de décomposition hiérarchique du langage naturel. Notre approche utilise un modèle de langage pré-entraîné pour décomposer un énoncé complexe en une séquence d'étapes plus petites en langage naturel, puis interprète chaque étape à l'aide du modèle de conversion du langage en code. Pour tester notre approche, nous collectons et publions DeCU -- un nouveau benchmark NL-to-program pour évaluer la Décomposition des Énoncés Complexes. Les expériences montrent que l'approche proposée permet l'interprétation d'énoncés complexes avec presque aucune donnée d'entraînement complexe, tout en surpassant les approches standard de prompting en few-shot.
L'apprentissage contrastif s'est imposé comme un cadre efficace pour l'apprentissage de représentations multimodales. CLIP, un travail fondateur dans ce domaine, a obtenu des résultats impressionnants en s'entraînant sur des données image-texte appariées en utilisant la fonction de perte contrastive. Des travaux récents affirment avoir amélioré CLIP en utilisant des pertes supplémentaires non contrastives inspirées de l'apprentissage auto-supervisé. Cependant, il est parfois difficile de dissocier la contribution de ces pertes supplémentaires d'autres détails d'implémentation, tels que les techniques d'augmentation de données ou de régularisation, utilisées pour entraîner le modèle. Pour éclaircir ce point, dans cet article, nous proposons, implémentons et évaluons d'abord plusieurs modèles de référence obtenus en combinant l'apprentissage contrastif avec des avancées récentes en apprentissage auto-supervisé. En particulier, nous utilisons les fonctions de perte qui se sont avérées efficaces pour l'apprentissage auto-supervisé visuel afin d'aligner les modalités image et texte. Nous constatons que ces modèles de référence surpassent une implémentation basique de CLIP. Cependant, lorsqu'une recette d'entraînement plus robuste est employée, cet avantage disparaît. En effet, nous observons qu'un simple modèle de référence CLIP peut également être considérablement amélioré, jusqu'à une amélioration relative de 25 % sur des tâches en zero-shot en aval, en utilisant des techniques d'entraînement bien connues et populaires dans d'autres sous-domaines. De plus, nous découvrons qu'il suffit d'appliquer des augmentations d'images et de textes pour compenser la majeure partie de l'amélioration obtenue par les travaux précédents. Avec notre recette d'entraînement améliorée pour CLIP, nous obtenons des performances de pointe sur quatre ensembles de données standard, et surpassons systématiquement les travaux antérieurs (jusqu'à +4 % sur le plus grand ensemble de données), tout en étant substantiellement plus simple.
Les récentes avancées dans les méthodes de pré-entraînement multimodal ont démontré une efficacité prometteuse dans l'apprentissage de représentations 3D en alignant les caractéristiques à travers la modalité 3D, sa modalité 2D correspondante et la modalité langagière associée. Cependant, les méthodes utilisées par les frameworks de pré-entraînement multimodal existants pour collecter des données multimodales pour les applications 3D manquent de scalabilité et d'exhaustivité, limitant potentiellement le plein potentiel de l'apprentissage multimodal. Le principal goulot d'étranglement réside dans la scalabilité et l'exhaustivité de la modalité langagière. Pour résoudre ce problème, nous introduisons ULIP-2, un framework de pré-entraînement multimodal qui exploite des modèles de langage multimodaux de pointe (LLMs) pré-entraînés sur des connaissances étendues pour générer automatiquement des descriptions langagières holistiques pour des objets 3D. Nous menons des expériences sur deux jeux de données à grande échelle, Objaverse et ShapeNet55, et publions nos jeux de données triplets à trois modalités (Nuage de points 3D - Image - Langage), nommés "ULIP-Objaverse Triplets" et "ULIP-ShapeNet Triplets". ULIP-2 ne nécessite que les données 3D elles-mêmes et élimine tout effort d'annotation manuelle, démontrant ainsi sa scalabilité ; et ULIP-2 obtient des améliorations remarquables dans la classification zero-shot en aval sur ModelNet40 (74% de précision Top1). De plus, ULIP-2 établit un nouveau record sur le benchmark ScanObjectNN en conditions réelles (91,5% de précision globale) tout en utilisant seulement 1,4 million de paramètres (~10 fois moins que l'état de l'art actuel), marquant une avancée majeure dans l'apprentissage de représentations 3D multimodal scalable sans annotations humaines. Le code et les jeux de données sont disponibles à l'adresse https://github.com/salesforce/ULIP.
Les grands modèles de langage (LLMs) ont réalisé des progrès significatifs dans le traitement du langage naturel, mais ils rencontrent des défis en termes de coût computationnel et d'inefficacité à mesure qu'ils augmentent en taille, en particulier pour les tâches spécifiques à un domaine. Les petits modèles de langage (SLMs), quant à eux, peinent souvent dans ces tâches en raison de leur capacité limitée et de données d'entraînement insuffisantes. Dans cet article, nous présentons Dr. LLaMA, une méthode visant à améliorer les SLMs grâce à l'augmentation générative de données utilisant des LLMs, en se concentrant sur les tâches de réponse à des questions médicales et le jeu de données PubMedQA. Nos résultats montrent que les LLMs affinent et diversifient efficacement les paires question-réponse existantes, ce qui améliore les performances d'un modèle beaucoup plus petit sur des ensembles de données spécifiques à un domaine après un ajustement fin. Cette étude met en lumière les difficultés liées à l'utilisation des LLMs pour la réponse à des questions spécifiques à un domaine et suggère des directions de recherche potentielles pour surmonter ces limitations, dans le but ultime de créer des modèles plus efficaces et performants pour des applications spécialisées. Nous avons également rendu notre code disponible pour les chercheurs intéressés.
Les modèles de langage masqué (MLM) se sont avérés efficaces pour le réétiquetage en deuxième passe dans les systèmes de reconnaissance automatique de la parole (ASR). Dans ce travail, nous proposons le Masked Audio Text Encoder (MATE), un modèle de langage masqué multimodal pour le réétiquetage qui intègre des représentations acoustiques dans l'espace d'entrée du MLM. Nous adoptons l'apprentissage contrastif pour aligner efficacement les modalités en apprenant des représentations partagées. Nous montrons qu'un réétiqueteur multimodal est bénéfique pour la généralisation de domaine du système ASR lorsque les données du domaine cible ne sont pas disponibles. MATE réduit le taux d'erreur sur les mots (WER) de 4 % à 16 % sur les données intra-domaine et de 3 % à 7 % sur les données hors domaine, par rapport à la base de référence textuelle uniquement. De plus, avec une quantité très limitée de données d'entraînement (0,8 heure), MATE obtient une réduction du WER de 8 % à 23 % par rapport à la base de référence en première passe.
Des études récentes ont montré que les modèles à double encodeur entraînés avec la tâche de classement de traductions au niveau de la phrase constituent des méthodes efficaces pour l'encodage de phrases multilingues. Cependant, nos recherches indiquent que l'alignement au niveau des tokens est également crucial dans les scénarios multilingues, un aspect qui n'a pas été pleinement exploré auparavant. Sur la base de nos découvertes, nous proposons un cadre de pré-entraînement à double alignement (DAP) pour l'encodage de phrases multilingues, intégrant à la fois l'alignement au niveau de la phrase et au niveau des tokens. Pour y parvenir, nous introduisons une nouvelle tâche d'apprentissage de traduction de représentations (RTL), où le modèle apprend à utiliser une représentation contextualisée unilatérale des tokens pour reconstruire son équivalent traduit. Cet objectif de reconstruction encourage le modèle à intégrer des informations de traduction dans la représentation des tokens. Comparée à d'autres méthodes d'alignement au niveau des tokens, telles que la modélisation de langage de traduction, la RTL est plus adaptée aux architectures à double encodeur et est plus efficace sur le plan computationnel. Des expériences approfondies sur trois benchmarks multilingues au niveau de la phrase démontrent que notre approche peut considérablement améliorer l'encodage de phrases. Notre code est disponible à l'adresse https://github.com/ChillingDream/DAP.
Malgré leur succès sans précédent, même les plus grands modèles de langage commettent des erreurs. De la même manière que les humains apprennent et s'améliorent grâce aux retours d'information, des travaux antérieurs ont proposé de fournir aux modèles de langage des critiques en langage naturel pour les guider dans la révision de leurs sorties. Étant donné que les critiques générées par des humains sont coûteuses à obtenir, les chercheurs ont conçu des générateurs de critiques appris pour remplacer les critiques humains, en supposant que l'on peut entraîner des modèles en aval à utiliser les retours générés. Cependant, cette approche ne s'applique pas aux modèles boîte noire ou à accès limité comme ChatGPT, car ils ne peuvent pas être affinés. De plus, à l'ère des agents de langage généralistes de grande taille, l'affinage n'est ni efficace sur le plan computationnel ni spatial, car il entraîne la création de multiples copies du réseau. Dans ce travail, nous introduisons RL4F (Reinforcement Learning for Feedback), un cadre collaboratif multi-agent où le générateur de critiques est entraîné pour maximiser la performance en tâche finale de GPT-3, un modèle fixe plus de 200 fois plus grand. RL4F produit des critiques qui aident GPT-3 à réviser ses sorties. Nous étudions trois ensembles de données pour la planification d'actions, la synthèse et l'alphabétisation, et montrons des améliorations (~5 % en moyenne) sur plusieurs métriques de similarité textuelle par rapport à des bases de référence solides pour les trois tâches.
Cet article présente une nouvelle approche pour détecter les textes générés par ChatGPT par rapport à ceux écrits par des humains, en utilisant des modèles de langage. À cette fin, nous avons d'abord collecté et publié un ensemble de données prétraité nommé OpenGPTText, qui contient des contenus reformulés générés à l'aide de ChatGPT. Nous avons ensuite conçu, implémenté et entraîné deux modèles différents pour la classification de texte, utilisant respectivement l'approche de prétraitement BERT optimisée de manière robuste (RoBERTa) et le transformeur de transfert texte-à-texte (T5). Nos modèles ont obtenu des résultats remarquables, avec une précision de plus de 97 % sur l'ensemble de données de test, évaluée à travers diverses métriques. De plus, nous avons mené une étude d'interprétabilité pour démontrer la capacité de notre modèle à extraire et à différencier les caractéristiques clés entre les textes écrits par des humains et ceux générés par ChatGPT. Nos résultats fournissent des insights importants sur l'utilisation efficace des modèles de langage pour détecter les textes générés.