Articles de recherche en IA sélectionnés quotidiennement avec traductions
Ce travail présente Weaver, notre première famille de grands modèles de langage (LLMs) dédiée à la création de contenu. Weaver est pré-entraîné sur un corpus soigneusement sélectionné visant à améliorer les capacités rédactionnelles des grands modèles de langage. Nous affinons ensuite Weaver pour des usages de rédaction créative et professionnelle, et l'alignons sur les préférences des écrivains professionnels en utilisant une série de méthodes novatrices pour la synthèse de données d'instruction et l'alignement des LLMs, lui permettant ainsi de produire des textes plus humains et de suivre des instructions plus variées pour la création de contenu. La famille Weaver comprend des modèles de différentes tailles : Weaver Mini (1,8B), Weaver Base (6B), Weaver Pro (14B) et Weaver Ultra (34B), adaptés à diverses applications et pouvant être dynamiquement dispatchés par un agent de routage en fonction de la complexité des requêtes pour équilibrer qualité de réponse et coût de calcul. L'évaluation sur un benchmark soigneusement conçu pour évaluer les capacités rédactionnelles des LLMs montre que les modèles Weaver de toutes tailles surpassent les LLMs généralistes plusieurs fois plus grands qu'eux. Notamment, notre modèle le plus performant, Weaver Ultra, surpasse GPT-4, un LLM généraliste de pointe, dans divers scénarios d'écriture, démontrant l'avantage d'entraîner des LLMs spécialisés pour des usages rédactionnels. De plus, Weaver prend nativement en charge la génération augmentée par récupération (RAG) et l'appel de fonctions (utilisation d'outils). Nous présentons divers cas d'utilisation de ces capacités pour améliorer les systèmes d'écriture assistée par IA, incluant l'intégration de bases de connaissances externes, d'outils ou d'APIs, et la fourniture d'une assistance rédactionnelle personnalisée. Enfin, nous discutons et résumons des lignes directrices et meilleures pratiques pour le pré-entraînement et l'affinage de LLMs spécifiques à un domaine.
La série de détecteurs You Only Look Once (YOLO) s'est imposée comme un ensemble d'outils efficaces et pratiques. Cependant, leur dépendance à des catégories d'objets prédéfinies et entraînées limite leur applicabilité dans des scénarios ouverts. Pour répondre à cette limitation, nous présentons YOLO-World, une approche innovante qui enrichit YOLO avec des capacités de détection en vocabulaire ouvert grâce à la modélisation vision-langage et à un pré-entraînement sur des jeux de données à grande échelle. Plus précisément, nous proposons un nouveau Réseau d'Aggrégation de Chemins Vision-Langage Re-paramétrisable (RepVL-PAN) et une fonction de perte de contraste région-texte pour faciliter l'interaction entre les informations visuelles et linguistiques. Notre méthode excelle dans la détection d'une large gamme d'objets de manière zero-shot avec une grande efficacité. Sur le jeu de données complexe LVIS, YOLO-World atteint 35,4 AP avec 52,0 FPS sur V100, surpassant de nombreuses méthodes de pointe en termes de précision et de vitesse. De plus, la version fine-tunée de YOLO-World obtient des performances remarquables sur plusieurs tâches en aval, notamment la détection d'objets et la segmentation d'instances en vocabulaire ouvert.
Nous présentons BlockFusion, un modèle basé sur la diffusion qui génère des scènes 3D sous forme de blocs unitaires et intègre de manière fluide de nouveaux blocs pour étendre la scène. BlockFusion est entraîné à l'aide de jeux de données de blocs 3D découpés aléatoirement à partir de maillages de scènes 3D complètes. Grâce à un ajustement par bloc, tous les blocs d'entraînement sont convertis en champs neuronaux hybrides : avec un tri-plan contenant les caractéristiques géométriques, suivi d'un Perceptron Multicouche (MLP) pour décoder les valeurs de distance signée. Un auto-encodeur variationnel est utilisé pour compresser les tri-plans dans l'espace latent des tri-plans, sur lequel le processus de diffusion de débruitage est appliqué. La diffusion appliquée aux représentations latentes permet une génération de scènes 3D de haute qualité et diversifiée. Pour étendre une scène lors de la génération, il suffit d'ajouter des blocs vides qui se superposent à la scène actuelle et d'extrapoler les tri-plans latents existants pour remplir les nouveaux blocs. L'extrapolation est réalisée en conditionnant le processus de génération avec les échantillons de caractéristiques des tri-plans superposés pendant les itérations de débruitage. L'extrapolation des tri-plans latents produit des transitions sémantiquement et géométriquement significatives qui s'harmonisent parfaitement avec la scène existante. Un mécanisme de conditionnement de mise en page 2D est utilisé pour contrôler le placement et l'agencement des éléments de la scène. Les résultats expérimentaux montrent que BlockFusion est capable de générer des scènes 3D grandes, diversifiées, géométriquement cohérentes et sans limites, avec des formes de qualité inégalée dans des scénarios intérieurs et extérieurs.
Pour exploiter les LLM dans la synthèse visuelle, les méthodes traditionnelles convertissent les informations d'images matricielles en tokens de grille discrets via des modules visuels spécialisés, tout en compromettant la capacité du modèle à capturer la véritable représentation sémantique des scènes visuelles. Cet article propose qu'une représentation alternative des images, les graphiques vectoriels, peut surmonter efficacement cette limitation en permettant une segmentation plus naturelle et sémantiquement cohérente des informations de l'image. Ainsi, nous présentons StrokeNUWA, un travail pionnier explorant une meilleure représentation visuelle appelée « stroke tokens » sur des graphiques vectoriels, intrinsèquement riches en sémantique visuelle, naturellement compatibles avec les LLM et hautement compressés. Doté de stroke tokens, StrokeNUWA surpasse significativement les méthodes traditionnelles basées sur les LLM et sur l'optimisation selon diverses métriques dans la tâche de génération de graphiques vectoriels. De plus, StrokeNUWA atteint une accélération de l'inférence jusqu'à 94 fois par rapport aux méthodes antérieures, avec un taux de compression exceptionnel du code SVG de 6,9 %.
Dans le domaine en rapide évolution des modèles génératifs de parole, il est urgent de garantir l'authenticité audio face aux risques de clonage vocal. Nous présentons AudioSeal, la première technique de tatouage audio conçue spécifiquement pour la détection localisée de la parole générée par IA. AudioSeal utilise une architecture générateur/détecteur entraînée conjointement avec une fonction de perte de localisation pour permettre une détection localisée du tatouage jusqu'au niveau de l'échantillon, ainsi qu'une nouvelle fonction de perte perceptuelle inspirée du masquage auditif, qui permet à AudioSeal d'atteindre une meilleure imperceptibilité. AudioSeal obtient des performances de pointe en termes de robustesse aux manipulations audio réelles et d'imperceptibilité, basées sur des métriques d'évaluation automatiques et humaines. De plus, AudioSeal est conçu avec un détecteur rapide et en une seule passe, surpassant significativement les modèles existants en vitesse - atteignant une détection jusqu'à deux ordres de grandeur plus rapide, ce qui le rend idéal pour les applications à grande échelle et en temps réel.
Nous présentons H2O-Danube-1.8B, un modèle de langage de 1,8 milliard de paramètres entraîné sur 1 000 milliards de tokens en suivant les principes fondamentaux de LLama 2 et Mistral. Nous exploitons et affinons diverses techniques pour le pré-entraînement de grands modèles de langage. Bien que notre modèle ait été entraîné sur un nombre total de tokens significativement inférieur par rapport aux modèles de référence de taille similaire, il affiche des métriques très compétitives sur une multitude de benchmarks. Nous publions également un modèle de chat entraîné par fine-tuning supervisé suivi d'une optimisation directe des préférences. Nous rendons H2O-Danube-1.8B librement disponible sous licence Apache 2.0, contribuant ainsi à démocratiser davantage les LLM pour un public plus large de manière économique.
Dans ce rapport, nous explorons le potentiel de la diffusion de texte pour remplacer le décodage autorégressif (AR) dans l'entraînement et le déploiement de grands modèles de langage (LLM). Nous cherchons notamment à déterminer si des modèles AR préentraînés peuvent être transformés en modèles de diffusion de texte grâce à une procédure d'adaptation légère que nous appelons « AR2Diff ». Nous commençons par établir une configuration de référence solide pour l'entraînement de modèles de diffusion de texte. En comparant plusieurs architectures et objectifs de préentraînement, nous constatons qu'un modèle à décodeur uniquement, entraîné avec un objectif de modèle de langage à préfixe, obtient les meilleurs résultats ou s'en approche sur plusieurs tâches. Sur la base de cette observation, nous testons diverses configurations de transfert d'apprentissage pour les modèles de diffusion de texte. En traduction automatique, nous constatons que la diffusion de texte est moins performante que l'approche AR standard. Cependant, en synthèse de code et en question-réponse extractive, les modèles de diffusion entraînés à partir de zéro surpassent souvent les modèles AR. Nous observons également des gains de qualité grâce à AR2Diff, qui adapte les modèles AR pour utiliser le décodage par diffusion. Ces résultats sont prometteurs, étant donné que la diffusion de texte est relativement peu explorée et peut être nettement plus rapide que le décodage AR pour la génération de textes longs.
Bien que des efforts significatifs aient été consacrés à l'alignement des grands modèles de langage (LLMs), les rapports de red-teaming suggèrent que ces LLMs soigneusement alignés pourraient encore être contournés via des prompts adversariaux, du réglage ou du décodage. En examinant la vulnérabilité au contournement des LLMs alignés, nous observons que les distributions de décodage des modèles contournés et alignés ne diffèrent que dans les premières générations. Cette observation nous motive à proposer l'attaque de contournement faible-vers-fort, où les adversaires peuvent utiliser des LLMs plus petits non sécurisés/alignés (par exemple, 7B) pour guider le contournement contre des LLMs alignés nettement plus grands (par exemple, 70B). Pour contourner, il suffit de décoder deux LLMs plus petits une seule fois, ce qui implique un calcul et une latence minimaux par rapport au décodage des LLMs plus grands. L'efficacité de cette attaque est démontrée par des expériences menées sur cinq modèles de trois organisations différentes. Notre étude révèle une méthode de contournement jusqu'alors inaperçue mais efficace, exposant un problème de sécurité urgent qui doit être pris en compte lors de l'alignement des LLMs. En tant que première tentative, nous proposons une stratégie de défense pour protéger contre de telles attaques, mais la création de défenses plus avancées reste un défi. Le code pour reproduire la méthode est disponible à l'adresse https://github.com/XuandongZhao/weak-to-strong.
La manipulation d'images actuelle se concentre principalement sur des modifications statiques, telles que le remplacement de régions spécifiques dans une image ou l'altération de son style global. Dans cet article, nous introduisons une tâche innovante de manipulation dynamique : le repositionnement de sujet. Cette tâche consiste à déplacer un sujet spécifié par l'utilisateur vers une position souhaitée tout en préservant la fidélité de l'image. Notre recherche révèle que les sous-tâches fondamentales du repositionnement de sujet, qui incluent le remplissage du vide laissé par le sujet repositionné, la reconstruction des parties obscurcies du sujet et l'intégration harmonieuse du sujet avec les zones environnantes, peuvent être efficacement reformulées comme une tâche unifiée de réparation guidée par des prompts. Par conséquent, nous pouvons utiliser un seul modèle génératif de diffusion pour traiter ces sous-tâches en utilisant divers prompts de tâche appris grâce à notre technique d'inversion de tâche proposée. De plus, nous intégrons des techniques de prétraitement et de post-traitement pour améliorer davantage la qualité du repositionnement de sujet. Ces éléments forment ensemble notre cadre SEgment-gEnerate-and-bLEnd (SEELE). Pour évaluer l'efficacité de SEELE dans le repositionnement de sujet, nous avons constitué un ensemble de données de repositionnement de sujet en situation réelle appelé ReS. Nos résultats sur ReS démontrent la qualité de la génération d'images repositionnées.
Les études récentes ont plaidé en faveur de modèles de base entièrement ouverts pour promouvoir la transparence et la science ouverte. Comme première étape, le modèle de parole de style Whisper ouvert (OWSM) a reproduit le Whisper d'OpenAI en utilisant des données publiquement disponibles et des boîtes à outils open-source. Dans le but de reproduire Whisper, les précédents modèles OWSM v1 à v3 étaient toujours basés sur le Transformer, ce qui pourrait entraîner des performances inférieures par rapport à d'autres encodeurs de parole de pointe. Dans ce travail, nous visons à améliorer les performances et l'efficacité de l'OWSM sans données d'entraînement supplémentaires. Nous présentons les modèles OWSM v3.1 basés sur E-Branchformer à deux échelles, c'est-à-dire 100M et 1B. Le modèle 1B est le plus grand modèle de parole basé sur E-Branchformer qui a été rendu public. Il surpasse le précédent OWSM v3 dans la grande majorité des benchmarks d'évaluation, tout en démontrant une vitesse d'inférence jusqu'à 25% plus rapide. Nous rendons publics les scripts de préparation des données, les modèles pré-entraînés et les journaux d'entraînement.
La restauration d'images est un problème fondamental qui consiste à récupérer une image propre de haute qualité à partir de son observation dégradée. Les modèles de restauration d'images tout-en-un peuvent restaurer efficacement des images à partir de divers types et niveaux de dégradation en utilisant des informations spécifiques à la dégradation comme prompts pour guider le modèle de restauration. Dans ce travail, nous présentons la première approche qui utilise des instructions écrites par des humains pour guider le modèle de restauration d'images. Étant donné des prompts en langage naturel, notre modèle peut récupérer des images de haute qualité à partir de leurs versions dégradées, en tenant compte de multiples types de dégradation. Notre méthode, InstructIR, obtient des résultats de pointe sur plusieurs tâches de restauration, notamment le débruitage d'images, la suppression de pluie, le débrouillage, la déhaze et l'amélioration d'images (en faible luminosité). InstructIR améliore de +1 dB les méthodes précédentes de restauration tout-en-un. De plus, notre ensemble de données et nos résultats représentent une nouvelle référence pour la recherche sur la restauration et l'amélioration d'images guidées par le texte. Notre code, ensembles de données et modèles sont disponibles à l'adresse suivante : https://github.com/mv-lab/InstructIR
Bien que les grands modèles de langage (LLM) soient de plus en plus utilisés pour la synthèse de programmes, ils manquent de la vision globale nécessaire pour développer des abstractions utiles ; ils prédisent généralement les programmes un par un, répétant souvent les mêmes fonctionnalités. Générer du code redondant à partir de zéro est à la fois inefficace et sujet aux erreurs. Pour remédier à cela, nous proposons Refactoring for Generalizable Abstraction Learning (ReGAL), une méthode sans gradient pour apprendre une bibliothèque de fonctions réutilisables via la refactorisation de code, c'est-à-dire la restructuration du code sans modifier son résultat d'exécution. ReGAL apprend à partir d'un petit ensemble de programmes existants, en vérifiant et en affinant itérativement ses abstractions via l'exécution. Nous constatons que les bibliothèques de fonctions partagées découvertes par ReGAL rendent les programmes plus faciles à prédire dans divers domaines. Sur trois ensembles de données (génération de graphiques LOGO, raisonnement sur les dates, et TextCraft, un jeu textuel basé sur Minecraft), les LLM open-source et propriétaires améliorent leur précision lors de la prédiction de programmes avec les fonctions ReGAL. Pour CodeLlama-13B, ReGAL entraîne des augmentations absolues de précision de 11,5 % sur les graphiques, 26,1 % sur la compréhension des dates, et 8,1 % sur TextCraft, surpassant GPT-3.5 dans deux des trois domaines. Notre analyse révèle que les abstractions de ReGAL encapsulent des sous-routines fréquemment utilisées ainsi que les dynamiques de l'environnement.
Les modèles actuels de vision et langage de grande envergure (VLMs) rencontrent souvent des défis tels que les capacités insuffisantes d'un seul composant visuel et des tokens visuels excessivement longs. Ces problèmes peuvent limiter l'efficacité du modèle dans l'interprétation précise d'informations visuelles complexes et de contextes trop étendus. Résoudre ces défis est crucial pour améliorer les performances et l'applicabilité des VLMs. Ce papier propose l'utilisation de la technique d'ensemble d'experts pour synergiser les capacités des encodeurs visuels individuels, y compris ceux spécialisés dans l'appariement image-texte, la reconnaissance optique de caractères (OCR), la segmentation d'images, etc. Cette technique introduit un réseau de fusion pour unifier le traitement des sorties de différents experts visuels, tout en comblant le fossé entre les encodeurs d'images et les modèles de langage pré-entraînés (LLMs). De plus, nous explorons différents schémas d'encodage positionnel pour atténuer le gaspillage d'encodage positionnel causé par des séquences de caractéristiques d'images trop longues, résolvant efficacement les problèmes de débordement de position et de limitations de longueur. Par exemple, dans notre implémentation, cette technique réduit significativement l'occupation positionnelle dans des modèles comme SAM, passant de 4096 à une valeur plus efficace et gérable de 64, voire jusqu'à 1. Les résultats expérimentaux montrent que les VLMs avec plusieurs experts présentent des performances constamment supérieures à celles des encodeurs visuels isolés et marquent une augmentation significative des performances à mesure que davantage d'experts sont intégrés. Nous avons ouvert le code d'entraînement utilisé dans ce rapport. Toutes ces ressources sont disponibles sur le site web de notre projet.
Les grands modèles de langage reposent de plus en plus sur des techniques distribuées pour leur entraînement et leur inférence. Ces techniques nécessitent une communication entre les dispositifs, ce qui peut réduire l'efficacité de la mise à l'échelle à mesure que le nombre de dispositifs augmente. Bien que certaines techniques distribuées puissent se chevaucher et ainsi masquer cette communication avec des calculs indépendants, des techniques telles que le parallélisme tensoriel (TP) sérialisent intrinsèquement la communication avec l'exécution du modèle. Une approche pour masquer cette communication sérialisée consiste à l'entrelacer de manière fine avec l'opération productrice (des données communiquées). Cependant, cet entrelacement fin entre communication et calcul dans le logiciel peut être difficile. De plus, comme pour toute exécution concurrente, il nécessite que les ressources de calcul et de mémoire soient partagées entre le calcul et la communication, ce qui entraîne une contention des ressources et réduit l'efficacité du chevauchement. Pour surmonter ces défis, nous proposons T3, qui applique une co-conception matérielle-logicielle pour chevaucher de manière transparente la communication sérialisée tout en minimisant la contention des ressources avec le calcul. T3 fusionne de manière transparente les opérations productrices avec la communication subséquente via une simple configuration de l'espace d'adressage de sortie du producteur et nécessite des modifications logicielles mineures. Au niveau matériel, T3 ajoute un mécanisme léger de suivi et de déclenchement pour orchestrer le calcul et la communication du producteur. Il utilise en outre des mémoires améliorées pour le calcul pour le calcul associé à la communication. En conséquence, T3 réduit la contention des ressources et chevauche efficacement la communication sérialisée avec le calcul. Pour des modèles de transformateurs importants comme T-NLG, T3 accélère les sous-couches intensives en communication de 30 % en moyenne géométrique (max 47 %) et réduit le mouvement des données de 22 % en moyenne géométrique (max 36 %). De plus, les avantages de T3 persistent à mesure que les modèles évoluent : une moyenne géométrique de 29 % pour les sous-couches dans des modèles de 500 milliards de paramètres simulés, PALM et MT-NLG.