Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons une méthode évolutive pour construire un modèle de langage de haute qualité capable de suivre des instructions, en annotant automatiquement des textes rédigés par des humains avec les instructions correspondantes. Notre approche, nommée rétro-traduction d'instructions, commence avec un modèle de langage affiné sur une petite quantité de données initiales, ainsi qu'un corpus web donné. Le modèle initial est utilisé pour construire des exemples d'entraînement en générant des invites d'instructions pour des documents web (auto-augmentation), puis en sélectionnant des exemples de haute qualité parmi ces candidats (auto-curation). Ces données sont ensuite utilisées pour affiner un modèle plus performant. L'affinement de LLaMa sur deux itérations de notre approche produit un modèle qui surpasse tous les autres modèles basés sur LLaMa dans le classement Alpaca sans recourir à des données de distillation, démontrant ainsi une auto-alignement hautement efficace.
Avec l'émergence de modèles de langage de plus en plus puissants, l'intérêt pour exploiter ces modèles dans des applications de conversation informelle et de jeu de rôle ne cesse de croître. Cependant, les ensembles de données conversationnels et de jeu de rôle existants échouent souvent à capturer la diversité et les nuances des interactions typiquement observées chez les participants à des jeux de rôle dans le monde réel. Pour pallier cette limitation et contribuer à ce domaine en pleine expansion, nous introduisons un ensemble de données partiellement synthétique nommé PIPPA (Personal Interaction Pairs between People and AI). PIPPA est le fruit d'un effort communautaire de crowdsourcing impliquant un groupe d'enthousiastes du jeu de rôle. L'ensemble de données comprend plus d'un million d'énoncés répartis sur 26 000 sessions de conversation, offrant ainsi une ressource riche pour les chercheurs et les développeurs en IA afin d'explorer et d'affiner les systèmes de conversation artificielle dans le contexte de scénarios de jeu de rôle.
L'entraînement de réseaux de neurones à la pointe de la technologie nécessite un coût élevé en termes de calcul et de temps. L'échelle des modèles est reconnue comme un facteur critique pour atteindre et améliorer l'état de l'art. Augmenter l'échelle d'un réseau de neurones nécessite généralement de repartir de zéro en initialisant aléatoirement tous les paramètres du modèle, car cela implique un changement des paramètres de l'architecture qui ne permet pas un transfert direct des connaissances des modèles de plus petite taille. Dans ce travail, nous proposons six transformations composables pour augmenter progressivement la taille des réseaux de neurones basés sur des transformateurs tout en préservant leur fonctionnalité, permettant ainsi d'étendre la capacité du modèle selon les besoins. Nous fournissons une preuve de préservation exacte de la fonction sous des contraintes d'initialisation minimales pour chaque transformation. Les méthodes proposées pourraient permettre des pipelines d'entraînement efficaces pour des modèles plus grands et plus puissants en élargissant progressivement l'architecture tout au long de l'entraînement.
Les succès massifs des grands modèles de langage (LLMs) encouragent l'exploration émergente des agents autonomes augmentés par LLM (LAAs). Un LAA est capable de générer des actions grâce à son LLM central et d'interagir avec des environnements, ce qui facilite la résolution de tâches complexes en se basant sur des interactions passées telles que des observations et des actions. Étant donné que l'étude des LAAs est encore très récente, les explorations disponibles sont limitées. Par conséquent, nous proposons une comparaison approfondie des LAAs en termes d'architectures d'agents et de modèles LLM de base. De plus, nous proposons une nouvelle stratégie pour orchestrer plusieurs LAAs de sorte que chaque LAA spécialisé se concentre sur un type d'action spécifique, c'est-à-dire BOLAA, où un contrôleur gère la communication entre plusieurs agents. Nous menons des simulations dans des environnements de prise de décision et de raisonnement multi-étapes, ce qui justifie de manière exhaustive les capacités des LAAs. Nos résultats de performance fournissent des suggestions quantitatives pour la conception des architectures de LAAs, le choix optimal des LLMs, ainsi que la compatibilité des deux. Nous rendons public notre code d'implémentation des LAAs à l'adresse suivante : https://github.com/salesforce/BOLAA.
L'année dernière a été marquée par des progrès impressionnants dans la génération d'images à partir de textes, reposant sur l'idée d'un espace de représentation intermodale où les domaines du texte et de l'image sont représentés conjointement. Dans le domaine de la reconnaissance automatique de la parole (ASR), cette idée a trouvé une application sous la forme d'encodeurs conjoints parole-texte, capables de s'adapter aux capacités des modèles à très grand nombre de paramètres grâce à un entraînement sur des données de parole et de texte non appariées. Bien que ces méthodes soient prometteuses, elles ont nécessité un traitement particulier du déséquilibre inhérent à la longueur des séquences entre la parole et le texte, que ce soit par des heuristiques de sur-échantillonnage ou par un modèle d'alignement explicite. Dans ce travail, nous apportons des preuves que les encodeurs conjoints parole-texte parviennent naturellement à des représentations cohérentes entre les modalités en ignorant la longueur des séquences, et nous soutenons que des fonctions de perte de cohérence pourraient tolérer les différences de longueur en supposant simplement le meilleur alignement. Nous montrons qu'une telle perte améliore le taux d'erreur mot (WER) en aval, aussi bien dans un système monolingue à grand nombre de paramètres que dans un système multilingue.
L'analyse des topologies de réseau et des graphes de communication joue un rôle crucial dans la gestion contemporaine des réseaux. Cependant, l'absence d'une approche cohérente entraîne une courbe d'apprentissage difficile, une augmentation des erreurs et des inefficacités. Dans cet article, nous présentons une nouvelle approche visant à faciliter une expérience de gestion de réseau basée sur le langage naturel, en utilisant des modèles de langage de grande taille (LLMs) pour générer du code spécifique à une tâche à partir de requêtes en langage naturel. Cette méthode aborde les défis de l'explicabilité, de l'évolutivité et de la confidentialité en permettant aux opérateurs de réseau d'inspecter le code généré, en éliminant le besoin de partager les données du réseau avec les LLMs, et en se concentrant sur des demandes spécifiques à l'application combinées avec des techniques générales de synthèse de programmes. Nous concevons et évaluons un système prototype à l'aide d'applications de référence, démontrant une grande précision, un bon rapport coût-efficacité et un potentiel d'amélioration grâce à des techniques complémentaires de synthèse de programmes.