Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les facteurs clés derrière le développement des grands modèles de langage (LLMs) dotés de capacités d'apprentissage impressionnantes sont leur taille colossale et leurs vastes ensembles de données d'entraînement. Parallèlement aux progrès en traitement du langage naturel, les LLMs sont fréquemment rendus accessibles au public pour favoriser des recherches approfondies et des applications variées. Cependant, en ce qui concerne les ensembles de données d'entraînement pour ces LLMs, en particulier les modèles récents les plus performants, ils ne sont souvent pas entièrement divulgués. La création de données d'entraînement pour des LLMs performants implique un nettoyage et une déduplication approfondis pour garantir un niveau de qualité nécessaire. Le manque de transparence concernant les données d'entraînement a ainsi entravé la recherche sur l'attribution et la résolution des problèmes d'hallucination et de biais dans les LLMs, freinant les efforts de réplication et les avancées supplémentaires dans la communauté. Ces défis deviennent encore plus prononcés dans les scénarios d'apprentissage multilingue, où les ensembles de données textuelles multilingues disponibles sont souvent insuffisamment collectés et nettoyés. Par conséquent, il manque un ensemble de données open-source et facilement utilisable pour entraîner efficacement les LLMs dans plusieurs langues. Pour surmonter ce problème, nous présentons CulturaX, un ensemble de données multilingue substantiel contenant 6,3 billions de tokens dans 167 langues, conçu pour le développement de LLMs. Notre ensemble de données subit un nettoyage et une déduplication méticuleux à travers un pipeline rigoureux en plusieurs étapes pour atteindre la meilleure qualité pour l'entraînement des modèles, incluant l'identification de la langue, le filtrage basé sur les URL, le nettoyage basé sur des métriques, le raffinement des documents et la déduplication des données. CulturaX est entièrement publié sur HuggingFace pour faciliter la recherche et les avancées dans les LLMs multilingues : https://huggingface.co/datasets/uonlp/CulturaX.
Nous explorons comment le pré-entraînement continu sur des corpus spécifiques à un domaine influence les grands modèles de langage, révélant que l'entraînement sur les corpus bruts confère au modèle des connaissances du domaine, mais nuit considérablement à sa capacité de réponse par incitation (prompting) pour les questions-réponses. Inspirés par l'apprentissage humain via la compréhension de lecture—la pratique après la lecture améliore la capacité à répondre à des questions basées sur les connaissances acquises—nous proposons une méthode simple pour transformer les corpus bruts en textes de compréhension de lecture. Chaque texte brut est enrichi d'une série de tâches liées à son contenu. Notre méthode, hautement scalable et applicable à tout corpus de pré-entraînement, améliore systématiquement les performances sur diverses tâches dans trois domaines différents : biomédecine, finance et droit. Notamment, notre modèle de langage de 7B atteint des performances compétitives avec des modèles spécifiques à un domaine de tailles bien plus importantes, tels que BloombergGPT-50B. De plus, nous démontrons que les textes de compréhension de lecture spécifiques à un domaine peuvent améliorer les performances du modèle même sur des benchmarks généraux, montrant le potentiel de développer un modèle généralisable à encore plus de domaines. Notre modèle, code et données seront disponibles à l'adresse https://github.com/microsoft/LMOps.
Les modèles de langage de grande taille (LLMs) rencontrent des difficultés dans les tâches de question-réponse (QA) sur des documents lorsque ceux-ci ne peuvent pas être intégrés dans la petite longueur de contexte d'un LLM. Pour surmonter ce problème, la plupart des travaux existants se concentrent sur la récupération du contexte pertinent à partir du document, en le représentant sous forme de texte brut. Cependant, les documents tels que les PDF, les pages web et les présentations sont naturellement structurés avec différentes pages, tableaux, sections, etc. Représenter de tels documents structurés sous forme de texte brut est en décalage avec le modèle mental que l'utilisateur a de ces documents riches en structure. Lorsqu'un système doit interroger le document pour en extraire le contexte, ce décalage devient évident, et des questions apparemment triviales peuvent déstabiliser le système de QA. Pour combler cette lacune fondamentale dans la gestion des documents structurés, nous proposons une approche appelée PDFTriage qui permet aux modèles de récupérer le contexte en se basant soit sur la structure, soit sur le contenu. Nos expériences démontrent l'efficacité des modèles augmentés par PDFTriage sur plusieurs classes de questions où les LLMs existants augmentés par récupération échouent. Pour faciliter les recherches ultérieures sur ce problème fondamental, nous publions notre ensemble de données de référence comprenant plus de 900 questions générées par des humains sur 80 documents structurés, couvrant 10 catégories différentes de types de questions pour la QA sur documents.
Cet article présente une étude approfondie de la taxonomie et de l'évolution des modèles de base multimodaux démontrant des capacités visuelles et vision-langage, en se concentrant sur la transition des modèles spécialisés vers des assistants à usage général. Le paysage de la recherche englobe cinq thèmes principaux, classés en deux catégories. (i) Nous commençons par un aperçu des domaines de recherche bien établis : les modèles de base multimodaux pré-entraînés pour des objectifs spécifiques, incluant deux sujets -- les méthodes d'apprentissage des architectures visuelles pour la compréhension visuelle et la génération d'images à partir de texte. (ii) Ensuite, nous présentons les avancées récentes dans des domaines de recherche exploratoires et ouverts : les modèles de base multimodaux visant à jouer le rôle d'assistants à usage général, incluant trois sujets -- les modèles visuels unifiés inspirés par les grands modèles de langage (LLMs), l'entraînement de bout en bout des LLMs multimodaux, et l'enchaînement d'outils multimodaux avec les LLMs. Les publics cibles de cet article sont les chercheurs, les étudiants diplômés et les professionnels des communautés de vision par ordinateur et de multimodalité vision-langage, désireux de découvrir les bases et les avancées récentes dans les modèles de base multimodaux.
Nous démontrons que le décodage contrastif -- une méthode simple, peu coûteuse en calcul et ne nécessitant pas d'entraînement pour la génération de texte, proposée par Li et al. en 2022 -- apporte des améliorations significatives immédiates par rapport au décodage glouton sur une variété de tâches de raisonnement. Initialement conçu pour améliorer la qualité perçue de la génération de texte long, le décodage contrastif recherche des séquences qui maximisent une différence pondérée en vraisemblance entre des modèles forts et faibles. Nous montrons que le décodage contrastif permet à LLaMA-65B de surpasser LLaMA 2, GPT-3.5 et PaLM 2-L sur le benchmark de raisonnement de bon sens HellaSwag, ainsi que de surpasser LLaMA 2, GPT-3.5 et PaLM-540B sur le benchmark de raisonnement mathématique GSM8K, en plus d'améliorations sur une collection d'autres tâches. L'analyse suggère que le décodage contrastif surpasse les méthodes existantes en prévenant certaines erreurs de raisonnement abstrait, ainsi qu'en évitant des modes plus simples tels que la copie de sections de l'entrée lors d'un raisonnement en chaîne. Globalement, le décodage contrastif surpasse l'échantillonnage par noyau pour la génération de texte long et le décodage glouton pour les tâches de raisonnement, en faisant une méthode polyvalente puissante pour générer du texte à partir de modèles de langage.
L'avancée rapide des grands modèles de langage (LLMs) a révolutionné le traitement du langage naturel (NLP). Bien que ces modèles excellent dans la compréhension et la génération de texte semblable à celui produit par l'homme, leur déploiement à grande échelle peut s'avérer prohibitivement coûteux. SortedNet est une technique d'entraînement récente permettant l'inférence dynamique pour les réseaux de neurones profonds. Elle exploite la modularité du réseau pour créer des sous-modèles avec des charges de calcul variables, en les triant de manière imbriquée selon leurs caractéristiques calcul/précision. Nous étendons SortedNet aux tâches génératives de NLP, rendant les grands modèles de langage dynamiques sans aucun pré-entraînement et en remplaçant simplement le réglage fin supervisé standard (SFT) par le réglage fin trié (SoFT) à coûts équivalents. Notre approche améliore l'efficacité du modèle, éliminant le besoin de multiples modèles pour divers scénarios lors de l'inférence. Nous montrons qu'en utilisant cette approche, nous sommes capables de débloquer le potentiel des couches intermédiaires des transformateurs dans la génération de la sortie cible. Nos sous-modèles restent des composants intégraux du modèle original, minimisant les besoins de stockage et les coûts de transition entre différents budgets de calcul/latence. En appliquant cette approche à LLaMa 2 13B pour le réglage sur le jeu de données Stanford Alpaca et en la comparant au réglage normal et à la sortie précoce via le benchmark PandaLM, nous montrons que le réglage fin trié peut produire des modèles deux fois plus rapides que le modèle original tout en maintenant ou en dépassant les performances.
Les grands modèles de langage (LLMs) ont démontré des performances remarquables sur une variété de tâches de traitement du langage naturel en se basant uniquement sur quelques exemples d'instructions en langage naturel, réduisant ainsi le besoin d'une ingénierie de caractéristiques extensive. Cependant, la plupart des LLMs les plus puissants sont propriétaires ou limités dans leurs capacités pour les langues autres que l'anglais. Dans ce rapport technique, nous présentons Baichuan 2, une série de grands modèles de langage multilingues contenant 7 milliards et 13 milliards de paramètres, entraînés à partir de zéro sur 2,6 billions de tokens. Baichuan 2 égale ou surpasse d'autres modèles open-source de taille similaire sur des benchmarks publics tels que MMLU, CMMLU, GSM8K et HumanEval. De plus, Baichuan 2 excelle dans des domaines spécialisés tels que la médecine et le droit. Nous publierons tous les points de contrôle des modèles de pré-entraînement afin de permettre à la communauté de recherche de mieux comprendre la dynamique d'entraînement de Baichuan 2.
Le réglage par instruction visuelle a récemment montré des progrès encourageants avec des modèles multimodaux de grande taille (LMM) open-source tels que LLaVA et MiniGPT-4. Cependant, la plupart des études existantes sur les LMM open-source sont réalisées avec des modèles de 13 milliards de paramètres ou moins. Dans cet article, nous présentons une étude empirique sur la mise à l'échelle de LLaVA jusqu'à 33 milliards et 65/70 milliards de paramètres, et partageons nos découvertes issues de nos explorations sur la résolution d'image, le mélange de données et les méthodes d'entraînement efficaces en paramètres comme LoRA/QLoRA. Ces aspects sont évalués en fonction de leur impact sur les capacités multimodales et linguistiques lors de l'exécution de tâches réelles dans des environnements variés. Nous constatons que la mise à l'échelle des LMM améliore systématiquement les performances du modèle et renforce les capacités linguistiques, et que les performances du réglage par LoRA/QLoRA des LMM sont comparables à celles du réglage fin complet du modèle. De plus, l'étude souligne l'importance des résolutions d'image plus élevées et du mélange de données multimodales-linguistiques pour améliorer les performances des LMM, et que le réglage par instruction visuelle peut parfois améliorer la capacité purement linguistique des LMM. Nous espérons que cette étude rendra la recherche sur les LMM de pointe à plus grande échelle plus accessible, contribuant ainsi à établir des références plus solides pour les recherches futures. Le code et les points de contrôle seront rendus publics.
La génération de mise en page graphique, un domaine de recherche en pleine expansion, joue un rôle significatif dans l'engagement des utilisateurs et la perception de l'information. Les méthodes existantes traitent principalement la génération de mise en page comme une tâche d'optimisation numérique, en se concentrant sur les aspects quantitatifs tout en négligeant les informations sémantiques de la mise en page, telles que la relation entre chaque élément de la mise en page. Dans cet article, nous proposons LayoutNUWA, le premier modèle qui traite la génération de mise en page comme une tâche de génération de code pour améliorer les informations sémantiques et exploiter l'expertise cachée en matière de mise en page des grands modèles de langage (LLMs). Plus concrètement, nous développons une approche de Code Instruct Tuning (CIT) comprenant trois modules interconnectés : 1) le module d'initialisation de code (CI) quantifie les conditions numériques et les initialise sous forme de code HTML avec des masques stratégiquement placés ; 2) le module de complétion de code (CC) utilise les connaissances de formatage des LLMs pour remplir les parties masquées dans le code HTML ; 3) le module de rendu de code (CR) transforme le code complété en la mise en page finale, garantissant une procédure de génération de mise en page hautement interprétable et transparente qui mappe directement le code à une mise en page visualisée. Nous obtenons des performances significativement à la pointe de l'état de l'art (même des améliorations de plus de 50 %) sur plusieurs ensembles de données, démontrant les fortes capacités de LayoutNUWA. Notre code est disponible à l'adresse https://github.com/ProjectNUWA/LayoutNUWA.
Les modèles de langage de grande taille (LLMs) possèdent la capacité d'effectuer une planification complexe dans un système multi-agents et peuvent coordonner ces agents pour accomplir des tâches sophistiquées nécessitant une collaboration étendue. Cependant, malgré l'introduction de nombreux frameworks de jeu, la communauté manque de benchmarks pour construire une infrastructure générale de collaboration multi-agents englobant à la fois les collaborations LLM et humains-PNJ. Dans ce travail, nous proposons une nouvelle infrastructure - MindAgent - pour évaluer les capacités émergentes de planification et de coordination dans les interactions de jeu. En particulier, notre infrastructure s'appuie sur des frameworks de jeu existants pour i) exiger une compréhension du coordinateur pour un système multi-agents, ii) collaborer avec des joueurs humains via des instructions appropriées non affinées, et iii) établir un apprentissage en contexte sur des prompts few-shot avec retour d'information. De plus, nous introduisons CUISINEWORLD, un nouveau scénario de jeu et un benchmark associé qui évalue l'efficacité de la collaboration multi-agents et supervise plusieurs agents jouant simultanément. Nous menons des évaluations complètes avec une nouvelle métrique automatique CoS pour calculer l'efficacité de la collaboration. Enfin, notre infrastructure peut être déployée dans des scénarios de jeu réels dans une version VR personnalisée de CUISINEWORLD et adaptée au domaine plus large du jeu Minecraft. Nous espérons que nos découvertes sur les LLMs et la nouvelle infrastructure pour la planification et la coordination à usage général pourront éclairer la manière dont ces compétences peuvent être acquises en apprenant à partir de grands corpus de langage.
Alors que la progression rapide des applications pratiques basées sur les grands modèles de langage (LLM) se poursuit, l'importance de l'extrapolation des performances a augmenté de manière exponentielle dans le domaine de la recherche. Dans notre étude, nous avons identifié un comportement anormal dans les modèles Transformer qui avait été précédemment négligé, entraînant un chaos autour des tokens les plus proches portant les informations les plus importantes. Nous avons baptisé cette découverte le "mal de tête des Transformers". Pour résoudre ce problème à sa racine, nous avons introduit une nouvelle structure d'auto-attention nommée Collinear Constrained Attention (CoCA). Cette structure peut être intégrée de manière transparente avec les méthodes d'extrapolation, d'interpolation existantes et d'autres stratégies d'optimisation conçues pour les modèles Transformer traditionnels. Nous avons obtenu d'excellentes performances d'extrapolation, même pour des longueurs de séquence de 16 à 24 fois supérieures lors de l'inférence, sans aucun réglage fin de notre modèle. Nous avons également amélioré l'efficacité computationnelle et spatiale de CoCA pour garantir sa praticabilité. Nous prévoyons de rendre CoCA open-source prochainement. En attendant, nous avons mis notre code à disposition dans l'annexe pour permettre la reproduction des expériences.
Les modèles de langage de grande taille (LLMs) ont révolutionné le traitement du langage naturel, mais l'alignement de ces modèles avec les valeurs et préférences humaines grâce à l'apprentissage par renforcement à partir de feedback humain (RLHF) reste un défi majeur. Ce défi se caractérise par diverses instabilités, telles que le détournement de récompense et l'oubli catastrophique. Dans ce rapport technique, nous proposons deux innovations pour stabiliser l'entraînement RLHF : 1) le Modèle d'Avantage, qui modélise directement le score d'avantage, c'est-à-dire la récompense supplémentaire par rapport aux récompenses attendues, et régule les distributions de scores entre les tâches pour prévenir le détournement de récompense. 2) la Répétition Sélective, qui atténue l'oubli catastrophique en sélectionnant stratégiquement les données pour l'entraînement PPO et la révision des connaissances. Notre analyse expérimentale sur des ensembles de données publics et propriétaires révèle que les méthodes proposées augmentent non seulement la stabilité de l'entraînement RLHF, mais améliorent également les scores de récompense et les taux de victoire.
Malgré la puissance des modèles de langage de grande taille (LLMs) comme GPT-4, ceux-ci rencontrent encore des difficultés pour les tâches nécessitant la génération de sorties complexes et structurées. Dans cette étude, nous évaluons la capacité des LLMs actuels à générer des données structurées complexes et proposons une approche de fine-tuning prenant en compte la structure comme solution pour améliorer cette capacité. Pour réaliser une évaluation complète, nous proposons Struc-Bench, incluant cinq LLMs représentatifs (à savoir GPT-NeoX 20B, GPT-3.5, GPT-4 et Vicuna) et les évaluons sur nos ensembles de données soigneusement construits, couvrant du texte brut, des tableaux HTML et LaTeX. Sur la base de notre analyse des performances actuelles des modèles, nous identifions des erreurs de formatage spécifiques et communes ainsi que des domaines d'amélioration potentiels. Pour répondre aux exigences de formatage complexes, nous utilisons FormatCoT (Chain-of-Thought) pour générer des instructions de formatage à partir des sorties cibles. Nos expériences montrent que notre méthode de fine-tuning prenant en compte la structure, appliquée à LLaMA-7B, améliore significativement le respect des contraintes de langage naturel, surpassant les autres LLMs évalués. Sur la base de ces résultats, nous présentons une carte des capacités des modèles selon six dimensions (à savoir la couverture, le formatage, le raisonnement, la compréhension, la pragmatique et l'hallucination). Cette carte met en lumière les faiblesses des LLMs dans la gestion des sorties structurées complexes et suggère des directions prometteuses pour les travaux futurs. Notre code et nos modèles sont disponibles à l'adresse suivante : https://github.com/gersteinlab/Struc-Bench.
Les grands modèles de langage dotés de capacités de suivi d'instructions ont révolutionné le domaine de l'intelligence artificielle. Ces modèles démontrent une généralisation exceptionnelle pour aborder diverses tâches du monde réel grâce à leurs interfaces en langage naturel. Cependant, leurs performances dépendent fortement de données exemplaires de haute qualité, souvent difficiles à obtenir. Ce défi est encore exacerbé lorsqu'il s'agit de suivi d'instructions multimodal. Nous présentons TextBind, un cadre quasi exempt d'annotations pour doter les grands modèles de langage de capacités de suivi d'instructions multimodales entrelacées sur plusieurs tours. Notre approche nécessite uniquement des paires image-légende et génère des conversations multimodales instruction-réponse sur plusieurs tours à partir d'un modèle de langage. Nous publions notre ensemble de données, notre modèle et une démonstration pour stimuler les recherches futures dans le domaine du suivi d'instructions multimodal.
Shampoo est un algorithme d'optimisation en ligne et stochastique appartenant à la famille des méthodes AdaGrad pour l'entraînement des réseaux de neurones. Il construit un préconditionneur en blocs diagonaux où chaque bloc consiste en une approximation grossière par produit de Kronecker de la version en matrice complète d'AdaGrad pour chaque paramètre du réseau de neurones. Dans ce travail, nous fournissons une description complète de l'algorithme ainsi que des optimisations de performance que notre implémentation exploite pour entraîner des réseaux profonds à grande échelle dans PyTorch. Notre implémentation permet un entraînement distribué parallèle sur plusieurs GPU en répartissant la mémoire et les calculs associés aux blocs de chaque paramètre via la structure de données DTensor de PyTorch et en effectuant une primitive AllGather sur les directions de recherche calculées à chaque itération. Cette amélioration majeure des performances nous permet d'obtenir au maximum une réduction de 10 % du temps d'exécution par étape par rapport aux méthodes de gradient adaptatif standard basées sur la mise à l'échelle diagonale. Nous validons notre implémentation en réalisant une étude d'ablation sur l'entraînement de ResNet50 sur ImageNet, démontrant la supériorité de Shampoo par rapport aux recettes d'entraînement standard avec un réglage minimal des hyperparamètres.
Le problème traditionnel de suivi de l'état du dialogue (Dialogue State Tracking, DST) vise à suivre les préférences et intentions des utilisateurs dans les conversations entre utilisateurs et agents. Bien que suffisant pour les systèmes de dialogue orientés tâches supportant des applications à domaine restreint, l'avènement des systèmes de chat basés sur des modèles de langage de grande taille (Large Language Models, LLM) a introduit de nombreuses complexités du monde réel dans les dialogues à domaine ouvert. Ces complexités se manifestent sous la forme d'une interaction contextuelle accrue, de sessions de dialogue prolongées englobant une diversité de sujets, et de changements contextuels plus fréquents. Pour gérer ces complexités découlant de l'évolution des systèmes de chat basés sur LLM, nous proposons une segmentation conjointe du dialogue et un suivi de l'état par segment dans les systèmes de dialogue à domaine ouvert. En supposant un cadre zero-shot adapté à un véritable système de dialogue à domaine ouvert, nous proposons S3-DST, une technique de prompting structuré qui exploite la Remémoration Pré-Analytique, un nouveau mécanisme d'ancrage que nous avons conçu pour améliorer le suivi de contexte long. Pour démontrer l'efficacité de notre approche proposée en segmentation conjointe et suivi de l'état, nous évaluons S3-DST sur un ensemble de données de dialogue à domaine ouvert anonymisé et propriétaire, ainsi que sur des ensembles de données DST et de segmentation disponibles publiquement. Sur tous les ensembles de données et dans tous les cadres, S3-DST surpasse systématiquement l'état de l'art, démontrant sa puissance et sa robustesse pour la prochaine génération de systèmes de chat basés sur LLM.
Dans la génération musicale basée sur la modélisation du langage, une onde générée est représentée par une séquence de piles de tokens hiérarchiques qui peuvent être décodées de manière auto-régressive ou en parallèle, selon les motifs des codebooks. En particulier, l'aplatissement des codebooks représente la stratégie de décodage de la plus haute qualité, tout en étant notoirement lent. À cette fin, nous proposons une nouvelle stratégie de décodage de type "empiler-et-retarder" pour améliorer le décodage par motif aplati, où la vitesse de génération est quatre fois plus rapide par rapport au décodage aplati classique. Cela rapproche le temps d'inférence de celui de la stratégie de décodage avec retard, et permet une inférence plus rapide sur GPU pour de petites tailles de lots. Pour un budget d'efficacité d'inférence équivalent à celui du motif avec retard, nous montrons que l'approche proposée obtient de meilleures performances dans les évaluations objectives, comblant presque l'écart de qualité avec le motif aplati. Les résultats sont corroborés par des évaluations subjectives qui montrent que les échantillons générés par le nouveau modèle sont légèrement plus souvent préférés aux échantillons générés par le modèle concurrent, pour les mêmes invites textuelles.
L'adaptation des modèles est cruciale pour gérer l'écart entre les données d'entraînement proxy et les données réelles des utilisateurs. Pour effectuer cette adaptation de manière efficace, les données textuelles des utilisateurs sont généralement stockées sur des serveurs ou leurs appareils locaux, où les modèles de traitement du langage naturel (NLP) en aval peuvent être directement entraînés en utilisant ces données spécifiques au domaine. Cependant, cela peut soulever des préoccupations en matière de confidentialité et de sécurité en raison des risques supplémentaires d'exposition des informations des utilisateurs à des adversaires. Le remplacement des informations d'identification dans les données textuelles par un marqueur générique a récemment été exploré. Dans ce travail, nous exploitons les grands modèles de langage (LLM) pour suggérer des substituts aux tokens masqués et évaluons leur efficacité sur des tâches de modélisation du langage en aval. Plus précisément, nous proposons plusieurs approches basées sur des LLM pré-entraînés et affinés, et réalisons des études empiriques sur divers ensembles de données pour comparer ces méthodes. Les résultats expérimentaux montrent que les modèles entraînés sur les corpus obfusqués sont capables d'atteindre des performances comparables à celles des modèles entraînés sur les données originales sans masquage préservant la confidentialité des tokens.
Cet article présente une approche innovante pour améliorer le contrôle de la génération audio en mettant l'accent sur l'alignement entre les représentations audio et textuelles lors de l'entraînement du modèle. Dans le contexte de la génération audio basée sur des modèles de langage, le modèle exploite à la fois des représentations textuelles et audio pour prédire les tokens audio suivants. Cependant, la configuration actuelle ne dispose pas de régularisation explicite pour garantir l'alignement entre la représentation textuelle choisie et les prédictions du modèle de langage. Notre proposition consiste à intégrer une régularisation des représentations audio et textuelles, en particulier pendant la phase de guidage sans classifieur (CFG), où la condition textuelle est exclue de l'attention croisée lors de l'entraînement du modèle de langage. L'objectif de cette régularisation des représentations est de minimiser les écarts de similarité entre l'audio et le texte par rapport aux autres échantillons du même lot d'entraînement. Les résultats expérimentaux sur des tâches de génération audio et musicale montrent que nos méthodes proposées améliorent les métriques objectives pour la génération audio et musicale, ainsi que la perception humaine pour la génération audio.
L'analyse sémantique de la parole (Spoken Semantic Parsing, SSP) consiste à générer des analyses compréhensibles par une machine à partir d'un signal vocal. Pour entraîner des modèles robustes dans des domaines d'application existants représentés dans les données d'entraînement ou pour étendre à de nouveaux domaines, il est nécessaire de disposer de triplets correspondants de données parole-transcription-analyse sémantique, dont l'obtention est coûteuse. Dans cet article, nous relevons ce défi en examinant des méthodes capables d'utiliser des données transcription-analyse sémantique (texte non apparié) sans le signal vocal correspondant. Premièrement, lorsque le texte non apparié est extrait de corpus textuels existants, nous comparons les approches Joint Audio Text (JAT) et Text-to-Speech (TTS) pour générer des représentations vocales à partir du texte non apparié. Les expériences sur le jeu de données STOP montrent que le texte non apparié provenant de domaines existants et nouveaux améliore les performances de 2 % et 30 % respectivement en termes de correspondance exacte (Exact Match, EM). Deuxièmement, nous considérons le cas où le texte non apparié n'est pas disponible dans les corpus textuels existants. Nous proposons d'utiliser des modèles de langage de grande taille (Large Language Models, LLMs) pour générer du texte non apparié pour des domaines existants et nouveaux. Les expériences montrent que des exemples et des mots co-occurrents avec des intentions peuvent être utilisés pour générer du texte non apparié avec Llama 2.0. L'utilisation du texte généré avec JAT et TTS pour l'analyse sémantique de la parole améliore l'EM sur STOP de 1,4 % et 2,6 % en valeur absolue pour les domaines existants et nouveaux respectivement.