Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les documents d'entreprise tels que les formulaires, factures, reçus, rapports, contrats et autres enregistrements similaires véhiculent souvent une sémantique riche à l'intersection des modalités textuelles et spatiales. Les indices visuels offerts par leurs mises en page complexes jouent un rôle crucial dans la compréhension efficace de ces documents. Dans cet article, nous présentons DocLLM, une extension légère des grands modèles de langage (LLM) traditionnels pour le raisonnement sur des documents visuels, prenant en compte à la fois la sémantique textuelle et la disposition spatiale. Notre modèle se distingue des LLM multimodaux existants en évitant les encodeurs d'images coûteux et se concentre exclusivement sur les informations de boîtes englobantes pour intégrer la structure de mise en page spatiale. Plus précisément, l'alignement croisé entre les modalités textuelles et spatiales est capturé en décomposant le mécanisme d'attention des transformateurs classiques en un ensemble de matrices désentrelacées. De plus, nous concevons un objectif de pré-entraînement qui apprend à remplir des segments de texte. Cette approche nous permet de traiter les mises en page irrégulières et le contenu hétérogène fréquemment rencontrés dans les documents visuels. Le modèle pré-entraîné est affiné à l'aide d'un vaste ensemble de données d'instructions, couvrant quatre tâches principales de l'intelligence documentaire. Nous démontrons que notre solution surpasse les LLM de pointe sur 14 des 16 ensembles de données pour toutes les tâches, et généralise bien à 4 des 5 ensembles de données précédemment invisibles.
Dans cet article, nous présentons une méthode nouvelle et simple pour obtenir des embeddings textuels de haute qualité en utilisant uniquement des données synthétiques et moins de 1 000 étapes d'entraînement. Contrairement aux méthodes existantes qui reposent souvent sur un pré-entraînement intermédiaire en plusieurs étapes avec des milliards de paires de textes faiblement supervisées, suivi d'un ajustement fin avec quelques ensembles de données étiquetés, notre méthode ne nécessite pas la construction de pipelines d'entraînement complexes ni le recours à des ensembles de données collectés manuellement, souvent limités par la diversité des tâches et la couverture linguistique. Nous exploitons des LLM propriétaires pour générer des données synthétiques diversifiées pour des centaines de milliers de tâches d'embedding textuel dans près de 100 langues. Nous ajustons ensuite des LLM open-source à décodeur uniquement sur les données synthétiques en utilisant une fonction de perte contrastive standard. Les expériences montrent que notre méthode obtient des performances solides sur des benchmarks d'embedding textuel très compétitifs sans utiliser aucune donnée étiquetée. De plus, lorsqu'elle est ajustée avec un mélange de données synthétiques et étiquetées, notre modèle établit de nouveaux résultats de pointe sur les benchmarks BEIR et MTEB.
Exploiter la puissance des données annotées par l'homme grâce au Fine-Tuning Supervisé (SFT) est essentiel pour faire progresser les Modèles de Langage à Grande Échelle (LLM). Dans cet article, nous explorons la perspective de transformer un LLM faible en un modèle robuste sans nécessiter l'acquisition de données supplémentaires annotées par l'homme. Nous proposons une nouvelle méthode de fine-tuning appelée Self-Play fIne-tuNing (SPIN), qui part d'un modèle préalablement fine-tuné de manière supervisée. Au cœur de SPIN se trouve un mécanisme de jeu autonome, où le LLM affine ses capacités en jouant contre des instances de lui-même. Plus précisément, le LLM génère ses propres données d'entraînement à partir de ses itérations précédentes, affinant sa politique en distinguant ces réponses auto-générées de celles obtenues à partir de données annotées par l'homme. Notre méthode élève progressivement le LLM d'un modèle naissant à un modèle performant, libérant ainsi tout le potentiel des données de démonstration annotées par l'homme pour le SFT. Théoriquement, nous prouvons que l'optimum global de la fonction objectif de notre méthode est atteint uniquement lorsque la politique du LLM s'aligne avec la distribution des données cibles. Empiriquement, nous évaluons notre méthode sur plusieurs ensembles de données de référence, notamment le HuggingFace Open LLM Leaderboard, MT-Bench, et des ensembles de données de Big-Bench. Nos résultats montrent que SPIN peut considérablement améliorer les performances du LLM sur une variété de benchmarks et même surpasser les modèles entraînés via l'optimisation directe des préférences (DPO) enrichie de données de préférences supplémentaires de GPT-4. Cela met en lumière la promesse du jeu autonome, permettant d'atteindre des performances de niveau humain dans les LLM sans nécessiter d'opposants experts.
Ces dernières années, des progrès significatifs ont été réalisés dans le domaine des grands modèles de langage (LLMs), illustrés par ChatGPT, qui démontrent une compétence remarquable dans une variété de tâches complexes. Cependant, de nombreux LLMs grand public (par exemple, LLaMA) sont pré-entraînés sur des corpus principalement en anglais, ce qui limite leurs performances dans d'autres langues non anglophones. Dans cet article, nous nous concentrons sur la manière de transférer efficacement les capacités de génération de langage et de suivi d'instructions à une langue non anglaise. Pour répondre à cette question, nous menons une vaste investigation empirique basée sur LLaMA, accumulant plus de 1440 heures de GPU. Nous analysons l'impact de facteurs clés tels que l'extension du vocabulaire, le pré-entraînement supplémentaire et l'ajustement des instructions sur le transfert. Pour évaluer avec précision le niveau de connaissances du modèle, nous utilisons quatre benchmarks de test standardisés largement utilisés : C-Eval, MMLU, AGI-Eval et GAOKAO-Bench. De plus, une évaluation complète de la qualité des réponses du modèle est réalisée, en tenant compte d'aspects tels que l'exactitude, la fluidité, l'informativité, la cohérence logique et l'innocuité, basée sur LLM-Eval, un ensemble de benchmarks comprenant des tâches d'instruction provenant de 17 catégories diverses. Nos résultats d'évaluation démontrent qu'une performance comparable aux modèles de transfert de pointe peut être atteinte avec moins de 1 % des données de pré-entraînement, tant en termes d'alignement des connaissances que de qualité des réponses. Par ailleurs, les résultats expérimentaux à travers les treize langues à ressources limitées montrent également des tendances similaires. Nous anticipons que les conclusions révélées par les expériences aideront la communauté à développer des LLMs non anglophones.
Les lois d'échelle des grands modèles de langage (LLM) sont des formules empiriques qui estiment les changements dans la qualité du modèle en fonction de l'augmentation du nombre de paramètres et des données d'entraînement. Cependant, ces formules, y compris les lois d'échelle Chinchilla de DeepMind, ne prennent pas en compte le coût de l'inférence. Nous modifions les lois d'échelle Chinchilla pour calculer le nombre optimal de paramètres d'un LLM et la taille des données de pré-entraînement nécessaires pour entraîner et déployer un modèle d'une qualité et d'une demande d'inférence données. Nous menons notre analyse à la fois en termes de budget de calcul et de coûts réels, et constatons que les chercheurs en LLM anticipant une demande d'inférence raisonnablement élevée (~1 milliard de requêtes) devraient entraîner des modèles plus petits et plus longtemps que ce que préconisent les lois Chinchilla optimales.
Ce travail met en évidence la capacité inhérente des LLMs à gérer des contextes longs sans nécessiter de fine-tuning. La longueur limitée des séquences d'entraînement peut restreindre l'application des modèles de langage de grande taille (LLMs) sur des séquences d'entrée longues lors de l'inférence. Dans ce travail, nous soutenons que les LLMs existants possèdent déjà des capacités intrinsèques pour traiter des contextes longs. Sur la base de cet argument, nous suggérons d'étendre la fenêtre contextuelle des LLMs par eux-mêmes afin d'exploiter pleinement cette capacité inhérente. Nous proposons Self-Extend pour stimuler le potentiel des LLMs à gérer des contextes longs. L'idée de base est de construire une information d'attention à deux niveaux : le niveau groupe et le niveau voisin. Ces deux niveaux sont calculés par l'auto-attention originale du modèle, ce qui signifie que la méthode proposée ne nécessite aucun entraînement supplémentaire. Avec seulement quatre lignes de code modifiées, la méthode proposée peut étendre sans effort la fenêtre contextuelle des LLMs existants sans aucun fine-tuning. Nous menons des expériences approfondies et les résultats montrent que la méthode proposée peut effectivement étendre la longueur de la fenêtre contextuelle des LLMs existants.
Le coût élevé du réglage fin des paramètres complets (FFT) des grands modèles de langage (LLMs) a conduit à une série de méthodes de réglage fin à paramètres efficaces (PEFT). Cependant, il reste incertain quelles méthodes offrent le meilleur compromis coût-performance à différentes échelles de modèles. Nous présentons Astraios, une suite de 28 modèles OctoCoder ajustés par instruction utilisant 7 méthodes de réglage et 4 tailles de modèles allant jusqu'à 16 milliards de paramètres. À travers des investigations sur 5 tâches et 8 ensembles de données différents englobant à la fois des tâches de compréhension et de génération de code, nous constatons que le FFT conduit généralement aux meilleures performances en aval à toutes les échelles, et que les méthodes PEFT diffèrent significativement dans leur efficacité en fonction de l'échelle du modèle. LoRA offre généralement le compromis le plus favorable entre coût et performance. Une investigation plus approfondie sur les effets de ces méthodes sur la robustesse et la sécurité du code révèle que les modèles plus grands tendent à démontrer une robustesse réduite et une sécurité moindre. Enfin, nous explorons les relations entre les paramètres mis à jour, la perte d'entropie croisée et la performance des tâches. Nous constatons que l'efficacité du réglage observée dans les petits modèles se généralise bien aux modèles plus grands, et que la perte de validation lors du réglage par instruction peut être un indicateur fiable de la performance globale en aval.
Les récentes innovations et avancées dans les modèles de diffusion ont considérablement élargi les possibilités de génération de vidéos de haute qualité à partir de prompts donnés. La plupart des travaux existants se concentrent sur des scénarios à scène unique, où un seul événement vidéo se déroule dans un arrière-plan unique. Cependant, étendre cette capacité à la génération de vidéos multi-scènes n'est pas trivial et nécessite de gérer habilement la logique entre les scènes tout en préservant l'apparence visuelle cohérente des éléments clés à travers les différentes scènes. Dans cet article, nous proposons un nouveau cadre, nommé VideoDrafter, pour la génération de vidéos multi-scènes avec une cohérence de contenu. Techniquement, VideoDrafter exploite les modèles de langage de grande taille (LLM) pour convertir le prompt d'entrée en un script multi-scènes détaillé, bénéficiant ainsi des connaissances logiques acquises par le LLM. Le script pour chaque scène comprend un prompt décrivant l'événement, les entités avant-plan/arrière-plan, ainsi que les mouvements de caméra. VideoDrafter identifie les entités communes à travers le script et demande au LLM de détailler chaque entité. La description résultante de chaque entité est ensuite utilisée par un modèle texte-à-image pour générer une image de référence pour chaque entité. Enfin, VideoDrafter produit une vidéo multi-scènes en générant chaque scène via un processus de diffusion qui prend en compte les images de référence, le prompt descriptif de l'événement et les mouvements de caméra. Le modèle de diffusion intègre les images de référence comme condition et alignement pour renforcer la cohérence de contenu des vidéos multi-scènes. Des expériences approfondies démontrent que VideoDrafter surpasse les modèles de génération de vidéos de l'état de l'art en termes de qualité visuelle, de cohérence de contenu et de préférence utilisateur.
Les modèles de langage de grande taille (LLMs) ont démontré des capacités extraordinaires dans la compréhension et la génération de texte qui reflète étroitement la communication humaine. Cependant, une limitation majeure réside dans les importantes demandes computationnelles lors de l'entraînement, découlant de leur paramétrisation extensive. Ce défi est encore accentué par la nature dynamique du monde, nécessitant des mises à jour fréquentes des LLMs pour corriger des informations obsolètes ou intégrer de nouvelles connaissances, assurant ainsi leur pertinence continue. Il est à noter que de nombreuses applications exigent des ajustements continus du modèle après l'entraînement pour remédier à des lacunes ou à des comportements indésirables. Il y a un intérêt croissant pour des méthodes efficaces et légères permettant des modifications du modèle à la volée. À cette fin, ces dernières années ont vu un essor des techniques d'édition de connaissances pour les LLMs, qui visent à modifier efficacement les comportements des LLMs dans des domaines spécifiques tout en préservant les performances globales sur diverses entrées. Dans cet article, nous définissons d'abord le problème de l'édition de connaissances, puis nous fournissons une revue complète des approches de pointe. En nous inspirant des théories de recherche en éducation et en cognition, nous proposons un critère de catégorisation unifié qui classe les méthodes d'édition de connaissances en trois groupes : recourir à des connaissances externes, fusionner des connaissances dans le modèle, et éditer les connaissances intrinsèques. De plus, nous introduisons un nouveau benchmark, KnowEdit, pour une évaluation empirique complète des approches représentatives d'édition de connaissances. Par ailleurs, nous fournissons une analyse approfondie de la localisation des connaissances, qui peut offrir une compréhension plus profonde des structures de connaissances inhérentes aux LLMs. Enfin, nous discutons de plusieurs applications potentielles de l'édition de connaissances, en soulignant ses implications vastes et impactantes.
Dans l'évolution du pré-entraînement vision-langage, le passage de la compréhension de textes courts à la prise en compte de contextes textuels étendus est crucial. Les modèles vision-langage autoregressifs récents comme Flamingo et PALM, exploitant la capacité des grands modèles de langage à gérer de longs contextes, ont excellé dans les tâches de génération de texte en few-shot mais rencontrent des difficultés dans les tâches d'alignement. Pour combler cette lacune, nous introduisons la fonction de perte contrastive dans les modèles de génération de texte, présentant le cadre multimodal rationalisé par contraste (\ModelName), qui partitionne stratégiquement le modèle de langage en composants dédiés au traitement unimodal du texte et à la gestion experte des données multimodales. \ModelName, notre cadre unifié, fusionne les éléments unimodaux et multimodaux, améliorant les performances du modèle pour les tâches impliquant des données textuelles et visuelles tout en réduisant notablement le nombre de paramètres apprenables. Cependant, ces modèles nécessitent des ensembles de données de textes longs, mais la disponibilité de jeux de données vidéo-textes de haute qualité reste limitée. Pour combler cette lacune, ce travail introduit \VideoDatasetName, un premier ensemble de données vidéo-textes entrelacés comportant des légendes complètes, marquant une avancée significative. Illustrant son impact, nous montrons comment \VideoDatasetName améliore les performances du modèle dans les tâches image-texte. Avec 34 % de paramètres apprenables et en utilisant 72 % des données disponibles, notre modèle démontre une supériorité significative par rapport à OpenFlamingo~openflamingo. Par exemple, dans la tâche de légendage Flickr en 4-shot, les performances passent de 57,2 % à 65,1 %. Les contributions de \ModelName et \VideoDatasetName sont mises en évidence par des gains de performances notables sur 14 ensembles de données en aval diversifiés, englobant à la fois des tâches image-texte et vidéo-texte.
Dans les approches récentes de génération de texte-à-vidéo (T2V), la maîtrise de la vidéo synthétisée constitue souvent un défi. Ce problème est généralement résolu en fournissant des indications de bas niveau par image, sous forme de cartes de contours, de cartes de profondeur ou d'une vidéo existante à modifier. Cependant, l'obtention de telles indications peut s'avérer laborieuse. Cet article se concentre sur l'amélioration de la maîtrise dans la synthèse vidéo en utilisant des boîtes englobantes simples pour guider le sujet de diverses manières, sans nécessiter d'entraînement de réseau neuronal, de réglage fin, d'optimisation au moment de l'inférence ou l'utilisation de vidéos préexistantes. Notre algorithme, TrailBlazer, est construit sur un modèle T2V pré-entraîné et facile à implémenter. Le sujet est dirigé par une boîte englobante grâce à la modification proposée des cartes d'attention spatiale et temporelle. De plus, nous introduisons le concept de keyframing, permettant de guider la trajectoire du sujet et son apparence globale à la fois par une boîte englobante mobile et des prompts correspondants, sans nécessiter de masque détaillé. La méthode est efficace, avec un calcul supplémentaire négligeable par rapport au modèle pré-entraîné sous-jacent. Malgré la simplicité de la guidance par boîte englobante, le mouvement résultant est étonnamment naturel, avec des effets émergents incluant la perspective et le mouvement vers la caméra virtuelle à mesure que la taille de la boîte augmente.
Les grands modèles de langage (LLMs) ont réalisé des avancées significatives dans le traitement du langage naturel et étendent simultanément les capacités linguistiques à d'autres modalités, telles que la parole et la vision. Néanmoins, la plupart des travaux précédents se concentrent sur l'utilisation des LLMs avec des capacités perceptives comme la compréhension auditive, et l'approche efficace pour doter les LLMs de capacités de synthèse vocale reste ambiguë. Dans cet article, nous menons une exploration empirique approfondie de l'amélioration des LLMs avec la capacité de générer de la parole, en combinant le LLM pré-entraîné LLaMA/OPT et le modèle de synthèse vocale VALL-E. Nous comparons trois méthodes d'intégration entre les LLMs et les modèles de synthèse vocale, incluant les LLMs directement affinés, les couches superposées des LLMs et VALL-E, et les LLMs couplés à VALL-E en utilisant les LLMs comme un puissant encodeur de texte. Les résultats expérimentaux montrent que l'utilisation de la méthode LoRA pour affiner directement les LLMs afin d'améliorer la capacité de synthèse vocale ne fonctionne pas bien, et que les LLMs superposés à VALL-E peuvent améliorer la qualité de la parole générée, tant en termes de similarité du locuteur que de taux d'erreur sur les mots (WER). Parmi ces trois méthodes, les méthodes couplées exploitant les LLMs comme encodeur de texte peuvent atteindre les meilleures performances, surpassant les modèles de synthèse vocale originaux avec une similarité du locuteur constamment meilleure et une réduction significative (10,9%) du WER.
L'entraînement de modèles de langage à grande échelle devient de plus en plus crucial dans divers domaines, mais il est entravé par des défaillances fréquentes, entraînant des coûts temporels et économiques significatifs. Les méthodes actuelles de récupération après défaillance dans les environnements basés sur le cloud ne parviennent pas à répondre adéquatement aux scénarios divers et complexes qui surviennent, se concentrant étroitement sur la réduction des temps d'arrêt pour des tâches individuelles sans tenir compte de l'impact global sur les coûts d'un cluster. Nous présentons Unicron, un gestionnaire de charge de travail conçu pour une auto-réparation efficace dans l'entraînement de modèles de langage à grande échelle. Unicron optimise le processus d'entraînement en minimisant les coûts liés aux défaillances pour plusieurs tâches concurrentes au sein d'un cluster. Ses caractéristiques clés incluent la détection d'erreurs en bande pour l'identification en temps réel des erreurs sans surcharge supplémentaire, un mécanisme de génération de plans dynamiques prenant en compte les coûts pour une reconfiguration optimale, et une stratégie de transition efficace pour réduire les temps d'arrêt lors des changements d'état. Déployé sur un cluster distribué de 128 GPU, Unicron démontre une amélioration allant jusqu'à 1,9x en efficacité d'entraînement par rapport aux méthodes de pointe, réduisant significativement les coûts de récupération après défaillance et améliorant la fiabilité de l'entraînement de modèles de langage à grande échelle.
Avec l'évolution rapide des modèles de génération de texte à image (Text-to-Image, T2I) ces dernières années, leurs résultats de génération insatisfaisants sont devenus un défi. Cependant, le raffinement uniforme des images générées par IA (AIGIs) de différentes qualités non seulement limite les capacités d'optimisation pour les AIGIs de faible qualité, mais entraîne également une optimisation négative pour les AIGIs de haute qualité. Pour résoudre ce problème, un raffineur basé sur la qualité, nommé Q-Refine, est proposé. En s'appuyant sur les préférences du système visuel humain (Human Visual System, HVS), Q-Refine utilise pour la première fois une métrique d'évaluation de la qualité d'image (Image Quality Assessment, IQA) pour guider le processus de raffinement et modifier les images de différentes qualités à travers trois pipelines adaptatifs. Les expériences montrent que, pour les modèles T2I dominants, Q-Refine peut effectuer une optimisation efficace des AIGIs de différentes qualités. Il peut servir de raffineur général pour optimiser les AIGIs à la fois en termes de fidélité et de qualité esthétique, élargissant ainsi les applications des modèles de génération T2I.
Les grands modèles de langage (LLMs) ont connu un immense succès grâce à leur connaissance générale et à leur capacité à résoudre un large éventail de tâches en traitement du langage naturel (NLP). En raison de leurs impressionnantes capacités, les LLMs ont mis en lumière des applications interdisciplinaires potentielles pour favoriser les découvertes scientifiques dans un domaine spécifique en utilisant l'intelligence artificielle (IA pour la science, AI4S). Parallèlement, l'utilisation des techniques de NLP dans la recherche et la pratique en géosciences est vaste et complexe, allant de l'extraction de connaissances et de la classification de documents à la réponse à des questions et à la découverte de connaissances. Dans ce travail, nous franchissons une première étape en exploitant un LLM pour la science, à travers une approche plutôt directe. Nous tentons de spécialiser un LLM dans le domaine des géosciences, en effectuant un pré-entraînement supplémentaire du modèle avec une grande quantité de textes en géosciences, ainsi qu'en affinant le modèle résultant par apprentissage supervisé (SFT) avec notre ensemble de données personnalisé pour l'ajustement des instructions. Ces efforts aboutissent à un modèle, GeoGalactica, composé de 30 milliards de paramètres. À notre connaissance, il s'agit du plus grand modèle de langage pour le domaine des géosciences. Plus précisément, GeoGalactica est issu d'un pré-entraînement supplémentaire de Galactica. Nous entraînons GeoGalactica sur un corpus de textes liés aux géosciences contenant 65 milliards de tokens, compilés à partir de sources de données étendues dans le projet de grande science Deep-time Digital Earth (DDE), constituant ainsi le plus grand corpus de textes spécifique aux géosciences. Ensuite, nous affinons le modèle avec 1 million de paires de données d'ajustement des instructions, composées de questions nécessitant des connaissances professionnelles en géosciences pour y répondre. Dans ce rapport technique, nous illustrerons en détail tous les aspects de GeoGalactica, y compris la collecte de données, le nettoyage des données, la sélection du modèle de base, le pré-entraînement, le SFT et l'évaluation. Nous mettons en open source nos outils de curation de données et les points de contrôle de GeoGalactica au cours des trois premiers quarts du pré-entraînement.
La distillation de score est devenue l'une des approches les plus répandues pour la synthèse d'actifs 3D à partir de texte. Fondamentalement, la distillation de score met à jour les paramètres 3D en projetant et en rétropropagant des scores moyennés sur différentes vues. Dans cet article, nous révélons que l'estimation du gradient dans la distillation de score est intrinsèquement sujette à une variance élevée. À travers le prisme de la réduction de variance, l'efficacité de SDS et de VSD peut être interprétée comme l'application de divers variateurs de contrôle à l'estimateur Monte Carlo du score distillé. Motivés par cette réflexion et basés sur l'identité de Stein, nous proposons une solution plus générale pour réduire la variance dans la distillation de score, appelée Stein Score Distillation (SSD). SSD intègre des variateurs de contrôle construits à partir de l'identité de Stein, permettant l'utilisation de fonctions de référence arbitraires. Cela nous permet d'inclure des priors de guidage flexibles et des architectures de réseau pour optimiser explicitement la réduction de variance. Dans nos expériences, le pipeline global, nommé SteinDreamer, est implémenté en instanciant le variateur de contrôle avec un estimateur de profondeur monoculaire. Les résultats suggèrent que SSD peut efficacement réduire la variance de distillation et améliorer de manière constante la qualité visuelle pour la génération à la fois d'objets et de scènes. De plus, nous démontrons que SteinDreamer atteint une convergence plus rapide que les méthodes existantes grâce à des mises à jour de gradient plus stables.