Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'affinage des grands modèles de langage (LLM) sur des instructions entraîne des améliorations significatives des performances sur les tâches de traitement du langage naturel. Nous appliquons l'affinage par instruction en utilisant du code, en exploitant la structure naturelle des commits Git, qui associent des modifications de code à des instructions humaines. Nous compilons CommitPack : 4 téraoctets de commits Git couvrant 350 langages de programmation. Nous comparons CommitPack à d'autres instructions de code naturelles et synthétiques (xP3x, Self-Instruct, OASST) sur le modèle StarCoder de 16 milliards de paramètres, et obtenons des performances de pointe parmi les modèles non entraînés sur les sorties d'OpenAI, sur le benchmark HumanEval Python (46,2 % de réussite en pass@1). Nous introduisons également HumanEvalPack, qui étend le benchmark HumanEval à un total de 3 tâches de codage (Réparation de code, Explication de code, Synthèse de code) dans 6 langages (Python, JavaScript, Java, Go, C++, Rust). Nos modèles, OctoCoder et OctoGeeX, obtiennent les meilleures performances sur l'ensemble de HumanEvalPack parmi tous les modèles permissifs, démontrant les avantages de CommitPack pour généraliser à un plus large éventail de langages et de tâches de codage naturelles. Le code, les modèles et les données sont librement disponibles à l'adresse https://github.com/bigcode-project/octopack.
Ces dernières années ont démontré la puissance impressionnante des grands modèles de diffusion texte-image pour leur capacité générative à créer des images de haute fidélité. Cependant, il est très délicat de générer des images souhaitées en utilisant uniquement des invites textuelles, car cela implique souvent une ingénierie complexe des prompts. Une alternative aux invites textuelles est l'invite visuelle, comme le dit l'adage : "une image vaut mille mots". Bien que les méthodes existantes de fine-tuning direct à partir de modèles pré-entraînés soient efficaces, elles nécessitent d'importantes ressources de calcul et ne sont pas compatibles avec d'autres modèles de base, les invites textuelles et les contrôles structurels. Dans cet article, nous présentons IP-Adapter, un adaptateur efficace et léger pour doter les modèles de diffusion texte-image pré-entraînés de la capacité à utiliser des invites visuelles. La conception clé de notre IP-Adapter repose sur un mécanisme d'attention croisée découplé qui sépare les couches d'attention croisée pour les caractéristiques textuelles et visuelles. Malgré la simplicité de notre méthode, un IP-Adapter avec seulement 22M de paramètres peut atteindre des performances comparables, voire supérieures, à un modèle d'invite visuelle entièrement fine-tuné. Comme nous gelons le modèle de diffusion pré-entraîné, l'IP-Adapter proposé peut être généralisé non seulement à d'autres modèles personnalisés fine-tunés à partir du même modèle de base, mais aussi à la génération contrôlée en utilisant des outils de contrôle existants. Grâce à la stratégie d'attention croisée découplée, l'invite visuelle peut également fonctionner efficacement avec l'invite textuelle pour réaliser une génération d'images multimodales. La page du projet est disponible à l'adresse https://ip-adapter.github.io.
Les récentes avancées dans les modèles génératifs de parole basés sur des prompts audio-texte ont permis des innovations remarquables, telles que la synthèse vocale de haute qualité en zero-shot. Cependant, les modèles existants rencontrent encore des limites dans la gestion de diverses tâches de génération de parole audio-texte impliquant la transformation de la parole d'entrée et le traitement d'audio capturé dans des conditions acoustiques difficiles. Cet article présente SpeechX, un modèle polyvalent de génération de parole capable de réaliser la synthèse vocale en zero-shot ainsi que diverses tâches de transformation de la parole, traitant à la fois des signaux propres et bruités. SpeechX combine la modélisation de langage de codec neuronal avec l'apprentissage multi-tâches en utilisant des prompts dépendants de la tâche, permettant une modélisation unifiée et extensible, et offrant une méthode cohérente pour exploiter les entrées textuelles dans les tâches d'amélioration et de transformation de la parole. Les résultats expérimentaux montrent l'efficacité de SpeechX dans diverses tâches, incluant la synthèse vocale en zero-shot, la suppression de bruit, l'extraction de locuteur cible, la suppression de parole, et l'édition de parole avec ou sans bruit de fond, atteignant des performances comparables ou supérieures à celles des modèles spécialisés pour chaque tâche. Consultez https://aka.ms/speechx pour des exemples de démonstration.
Nous présentons Platypus, une famille de grands modèles de langage (LLM) affinés et fusionnés, qui atteint les performances les plus élevées et occupe actuellement la première place du classement Open LLM de HuggingFace à la date de publication de ce travail. Dans cet article, nous décrivons (1) notre ensemble de données soigneusement sélectionné Open-Platypus, qui est un sous-ensemble d'autres ensembles de données ouvertes et que nous rendons public, (2) notre processus d'affinage et de fusion de modules LoRA afin de préserver les fortes connaissances préalables des LLM pré-entraînés, tout en mettant en avant des connaissances spécifiques à un domaine, (3) nos efforts pour vérifier les fuites de données de test et la contamination des données d'entraînement, ce qui peut éclairer les recherches futures. Plus précisément, la famille Platypus obtient des performances solides sur les métriques quantitatives des LLM, quelle que soit la taille des modèles, en tête du classement mondial Open LLM tout en utilisant seulement une fraction des données d'affinage et de la puissance de calcul nécessaires pour d'autres LLM affinés de pointe. En particulier, un modèle Platypus de 13B peut être entraîné sur un seul GPU A100 en utilisant 25 000 questions en 5 heures. Cela témoigne de la qualité de notre ensemble de données Open-Platypus et ouvre des opportunités pour des améliorations supplémentaires dans le domaine. Page du projet : https://platypus-llm.github.io
Des preuves empiriques récentes indiquent que l'apprentissage en contexte basé sur les transformateurs fonctionne mieux lorsqu'on utilise un modèle de langage à préfixe (prefixLM), dans lequel les échantillons en contexte peuvent tous s'attendre mutuellement, par rapport aux modèles de langage causals (causalLM), qui utilisent une attention auto-régressive empêchant les échantillons en contexte de s'attendre aux échantillons futurs. Bien que ce résultat soit intuitif, il n'est pas compris d'un point de vue théorique. Dans cet article, nous adoptons une approche théorique et analysons le comportement de convergence des prefixLM et causalLM sous une certaine construction de paramètres. Notre analyse montre que les deux types de modèles convergent vers leurs points stationnaires à un taux linéaire, mais que tandis que le prefixLM converge vers la solution optimale de la régression linéaire, la dynamique de convergence du causalLM suit celle d'un algorithme de descente de gradient en ligne, qui n'est pas garanti d'être optimal même lorsque le nombre d'échantillons augmente à l'infini. Nous complétons nos affirmations théoriques par des expériences empiriques sur des tâches synthétiques et réelles, en utilisant divers types de transformateurs. Nos expériences confirment que le causalLM sous-performe systématiquement le prefixLM dans tous les contextes.
La restauration aveugle de visages vise à récupérer des images de visages de haute qualité à partir de celles présentant des dégradations inconnues. Les algorithmes actuels introduisent principalement des a priori pour compléter les détails de haute qualité et ont réalisé des progrès impressionnants. Cependant, la plupart de ces algorithmes ignorent les informations contextuelles abondantes dans le visage et leur interaction avec les a priori, ce qui conduit à des performances sous-optimales. De plus, ils accordent moins d'attention à l'écart entre les scénarios synthétiques et réels, limitant ainsi la robustesse et la généralisation pour les applications réelles. Dans ce travail, nous proposons RestoreFormer++, qui, d'une part, introduit des mécanismes d'attention spatiale complète pour modéliser les informations contextuelles et leur interaction avec les a priori, et d'autre part, explore un modèle de dégradation étendu pour aider à générer des images de visages dégradés plus réalistes afin de réduire l'écart entre le synthétique et le réel. Par rapport aux algorithmes actuels, RestoreFormer++ présente plusieurs avantages cruciaux. Premièrement, au lieu d'utiliser un mécanisme d'auto-attention multi-tête comme le transformeur visuel traditionnel, nous introduisons une attention croisée multi-tête sur des caractéristiques multi-échelles pour explorer pleinement les interactions spatiales entre les informations corrompues et les a priori de haute qualité. De cette manière, cela permet à RestoreFormer++ de restaurer des images de visages avec un réalisme et une fidélité accrus. Deuxièmement, contrairement au dictionnaire orienté reconnaissance, nous apprenons un dictionnaire orienté reconstruction comme a priori, qui contient des détails faciaux de haute qualité plus diversifiés et correspond mieux à l'objectif de restauration. Troisièmement, nous introduisons un modèle de dégradation étendu qui inclut des scénarios de dégradation plus réalistes pour la synthèse des données d'entraînement, aidant ainsi à améliorer la robustesse et la généralisation de notre modèle RestoreFormer++. Des expériences approfondies montrent que RestoreFormer++ surpasse les algorithmes de pointe sur des ensembles de données synthétiques et réels.
Avec une compréhension approfondie du domaine cible à partir du langage naturel, nous obtenons des résultats prometteurs dans la traduction à travers de grands écarts de domaines et dans la revitalisation de squelettes. Dans ce travail, nous utilisons des modèles de diffusion latente guidés par le texte pour la traduction d'image à image (I2I) en zero-shot à travers de grands écarts de domaines (longI2I), où de grandes quantités de nouvelles caractéristiques visuelles et de nouvelles géométries doivent être générées pour entrer dans le domaine cible. La capacité à effectuer des traductions à travers de grands écarts de domaines a une variété d'applications pratiques dans des domaines tels que la criminologie, l'astrologie, la conservation de l'environnement et la paléontologie. Dans ce travail, nous introduisons une nouvelle tâche, Skull2Animal, pour la traduction entre des crânes et des animaux vivants. Sur cette tâche, nous constatons que les réseaux antagonistes génératifs (GANs) non guidés ne sont pas capables de traduire à travers de grands écarts de domaines. Au lieu de ces méthodes traditionnelles d'I2I, nous explorons l'utilisation de modèles de diffusion guidée et d'édition d'images et proposons un nouveau modèle de référence, Revive-2I, capable d'effectuer une I2I en zero-shot via des modèles de diffusion latente guidés par des prompts textuels. Nous constatons que le guidage est nécessaire pour le longI2I car, pour combler le grand écart de domaine, des connaissances préalables sur le domaine cible sont requises. De plus, nous constatons que le prompting fournit les informations les plus précises et les plus évolutives sur le domaine cible, car les modèles de diffusion guidés par classifieur nécessitent un réentraînement pour des cas d'utilisation spécifiques et manquent de contraintes plus fortes sur le domaine cible en raison de la grande variété d'images sur lesquelles ils sont entraînés.
L'évaluation automatique de la traduction automatique (TA) est un outil essentiel qui stimule le développement itératif rapide des systèmes de TA. Bien que des progrès considérables aient été réalisés dans l'estimation d'un score de qualité unique, les métriques actuelles manquent d'informativité par rapport à des schémas plus détaillés qui annotent les erreurs individuelles, tels que les Métriques de Qualité Multidimensionnelles (MQM). Dans cet article, nous contribuons à combler cette lacune en proposant AutoMQM, une technique de prompting qui exploite les capacités de raisonnement et d'apprentissage en contexte des grands modèles de langage (LLM) et leur demande d'identifier et de catégoriser les erreurs dans les traductions. Nous commençons par évaluer les LLM récents, tels que PaLM et PaLM-2, à travers un prompting simple de prédiction de scores, et nous étudions l'impact des données annotées via l'apprentissage en contexte et le fine-tuning. Nous évaluons ensuite AutoMQM avec les modèles PaLM-2, et nous constatons qu'il améliore les performances par rapport au simple prompting pour les scores (avec des gains particulièrement importants pour les modèles plus grands) tout en offrant une interprétabilité grâce à des segments d'erreurs qui correspondent aux annotations humaines.
Nous présentons VisIT-Bench (Visual InsTruction Benchmark), un benchmark pour l'évaluation des modèles vision-langage ajustés aux instructions dans des contextes d'utilisation réels. Notre point de départ est la curation de 70 'familles d'instructions' que nous estimons que les modèles vision-langage ajustés aux instructions devraient être capables de traiter. Allant au-delà des évaluations comme VQAv2 et COCO, les tâches varient de la reconnaissance de base au jeu et à la génération créative. Après curation, notre ensemble de données comprend 592 requêtes de test, chacune accompagnée d'une légende conditionnée par une instruction rédigée par un humain. Ces descriptions mettent en lumière des facteurs spécifiques à l'instruction ; par exemple, pour une instruction demandant l'accessibilité d'une devanture de magasin pour les utilisateurs de fauteuils roulants, la légende conditionnée décrit les rampes ou les obstacles potentiels. Ces descriptions permettent 1) de collecter des sorties de référence vérifiées par des humains pour chaque instance ; et 2) d'évaluer automatiquement les générations multimodales candidates à l'aide d'un modèle de langage uniquement textuel, en alignement avec le jugement humain. Nous quantifions les écarts de qualité entre les modèles et les références à l'aide d'évaluations humaines et automatiques ; par exemple, le modèle le plus performant en termes de suivi d'instructions ne surpasse la référence GPT-4 que dans 27 % des comparaisons. VisIT-Bench est dynamique et facile à utiliser : les praticiens soumettent simplement la réponse de leur modèle sur le site web du projet ; les données, le code et le classement sont disponibles sur visit-bench.github.io.