Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage (LLMs) sont censés répondre avec précision, mais ils présentent souvent des lacunes dans leur raisonnement ou génèrent du contenu hallucinatoire. Pour remédier à ces problèmes, des études préfixées par « Self- » telles que Self-Consistency, Self-Improve et Self-Refine ont été initiées. Elles partagent une caractéristique commune : impliquer les LLMs dans l'évaluation et la mise à jour d'eux-mêmes pour atténuer ces problèmes. Cependant, ces efforts manquent d'une perspective unifiée en matière de synthèse, car les études existantes se concentrent principalement sur la catégorisation sans examiner les motivations sous-jacentes à ces travaux. Dans cet article, nous résumons un cadre théorique, appelé Internal Consistency (cohérence interne), qui offre des explications unifiées pour des phénomènes tels que le manque de raisonnement et la présence d'hallucinations. Internal Consistency évalue la cohérence entre la couche latente, la couche de décodage et la couche de réponse des LLMs en s'appuyant sur des méthodologies d'échantillonnage. En développant ce cadre, nous introduisons un cadre théorique simplifié mais efficace, capable d'exploiter la Internal Consistency, nommé Self-Feedback (auto-feedback). Le cadre Self-Feedback se compose de deux modules : Self-Evaluation (auto-évaluation) et Self-Update (auto-mise à jour). Ce cadre a été utilisé dans de nombreuses études. Nous classons systématiquement ces études par tâches et axes de recherche ; résumons les méthodes d'évaluation et les benchmarks pertinents ; et explorons la question : « Le Self-Feedback fonctionne-t-il vraiment ? » Nous proposons plusieurs points de vue critiques, notamment l'« Évolution en sablier de la Internal Consistency », l'hypothèse « La cohérence est (presque) la justesse », et « Le paradoxe du raisonnement latent et explicite ». En outre, nous esquissons des directions prometteuses pour les recherches futures. Nous avons ouvert le code expérimental, la liste de références et les données statistiques, disponibles à l'adresse suivante : https://github.com/IAAR-Shanghai/ICSFSurvey.
L'inférence des grands modèles de langage basés sur des transformateurs se compose de deux étapes séquentielles : 1) une étape de préremplissage pour calculer le cache KV des prompts et générer le premier token, et 2) une étape de décodage pour générer les tokens suivants. Pour les prompts longs, le cache KV doit être calculé pour tous les tokens lors de l'étape de préremplissage, ce qui peut considérablement augmenter le temps nécessaire pour générer le premier token. Par conséquent, l'étape de préremplissage peut devenir un goulot d'étranglement dans le processus de génération. Une question ouverte demeure : tous les tokens du prompt sont-ils essentiels pour générer le premier token ? Pour y répondre, nous introduisons une nouvelle méthode, LazyLLM, qui calcule sélectivement le KV pour les tokens importants pour la prédiction du token suivant, à la fois lors des étapes de préremplissage et de décodage. Contrairement aux approches d'élagage statique qui élaguent le prompt en une seule fois, LazyLLM permet aux modèles de langage de sélectionner dynamiquement différents sous-ensembles de tokens du contexte à différentes étapes de génération, même s'ils ont pu être élagués lors des étapes précédentes. Des expériences approfondies sur des ensembles de données standard pour diverses tâches démontrent que LazyLLM est une méthode générique qui peut être intégrée de manière transparente avec les modèles de langage existants pour accélérer significativement la génération sans nécessiter de réglage fin. Par exemple, dans la tâche de réponse à des questions sur plusieurs documents, LazyLLM accélère l'étape de préremplissage du modèle LLama 2 7B par un facteur de 2,34 tout en maintenant la précision.
Dans le domaine des modèles de langage multi-modaux, la majorité des méthodes reposent sur une architecture similaire à LLaVA. Ces modèles utilisent une caractéristique ViT monocouche comme prompt visuel, l'intégrant directement dans les modèles de langage aux côtés des tokens textuels. Cependant, lorsqu'il s'agit de traiter des séquences longues de signaux visuels ou d'entrées telles que des vidéos, le mécanisme d'auto-attention des modèles de langage peut entraîner une surcharge computationnelle importante. De plus, l'utilisation de caractéristiques ViT monocouche rend difficile pour les grands modèles de langage la perception complète des signaux visuels. Cet article propose un modèle de langage multi-modal efficace pour minimiser les coûts computationnels tout en permettant au modèle de percevoir les signaux visuels de manière aussi exhaustive que possible. Notre méthode inclut principalement : (1) l'utilisation d'une attention croisée pour l'interaction image-texte, similaire à Flamingo. (2) l'exploitation de caractéristiques ViT hiérarchiques. (3) l'introduction du mécanisme de Mixture of Experts (MoE) pour améliorer l'efficacité du modèle. Notre modèle obtient des scores compétitifs sur les benchmarks multi-modaux publics et performe bien dans des tâches telles que la génération de légendes d'images et de vidéos.
Dans ce travail, nous présentons ChatQA 2, un modèle basé sur Llama3 conçu pour combler l'écart entre les modèles de langage à accès ouvert (LLMs) et les modèles propriétaires leaders (par exemple, GPT-4-Turbo) en matière de compréhension de contexte long et de génération augmentée par récupération (RAG). Ces deux capacités sont essentielles pour que les LLMs puissent traiter de grands volumes d'informations qui ne peuvent pas tenir dans un seul prompt et sont complémentaires l'une de l'autre, selon les tâches en aval et les budgets de calcul. Nous présentons une recette détaillée de formation continue pour étendre la fenêtre de contexte de Llama3-70B-base de 8K à 128K tokens, ainsi qu'un processus de réglage d'instructions en trois étapes pour améliorer les capacités du modèle à suivre les instructions, à performer en RAG et à comprendre les contextes longs. Nos résultats démontrent que le modèle Llama3-ChatQA-2-70B atteint une précision comparable à GPT-4-Turbo-2024-0409 sur de nombreuses tâches de compréhension de contexte long et le dépasse sur le benchmark RAG. Fait intéressant, nous constatons que le récupérateur de contexte long de pointe peut atténuer le problème de fragmentation du contexte top-k dans le RAG, améliorant ainsi les résultats basés sur le RAG pour les tâches de compréhension de contexte long. Nous fournissons également des comparaisons approfondies entre les solutions RAG et les solutions de contexte long utilisant des LLMs de contexte long de pointe.
Les modèles génératifs ouverts sont d'une importance cruciale pour la communauté, permettant des ajustements fins et servant de références lors de la présentation de nouveaux modèles. Cependant, la plupart des modèles actuels de conversion de texte en audio sont privés et inaccessibles pour les artistes et les chercheurs souhaitant les exploiter. Nous décrivons ici l'architecture et le processus d'entraînement d'un nouveau modèle de conversion de texte en audio à poids ouverts, entraîné avec des données sous licence Creative Commons. Notre évaluation montre que les performances du modèle sont compétitives par rapport à l'état de l'art sur diverses métriques. Notamment, les résultats rapportés pour FDopenl3 (mesurant le réalisme des générations) mettent en évidence son potentiel pour la synthèse de sons stéréo de haute qualité à 44,1 kHz.
Ces dernières années, des avancées notables ont été réalisées dans le domaine de la compréhension visuelle de documents, avec une architecture prédominante composée d'une cascade de modèles de vision et de langage. Le composant texte peut être extrait explicitement à l'aide de modèles OCR externes dans les approches basées sur l'OCR, ou, alternativement, le modèle de vision peut être doté de capacités de lecture dans les approches sans OCR. Typiquement, les requêtes au modèle sont introduites exclusivement dans le composant langage, nécessitant que les caractéristiques visuelles englobent l'intégralité du document. Dans cet article, nous présentons VisFocus, une méthode sans OCR conçue pour mieux exploiter la capacité de l'encodeur visuel en le couplant directement avec l'invite de langage. Pour ce faire, nous remplaçons les couches de sous-échantillonnage par des couches qui reçoivent l'invite d'entrée et permettent de mettre en évidence les parties pertinentes du document, tout en ignorant les autres. Nous associons ces améliorations architecturales à une nouvelle tâche de pré-entraînement, utilisant le masquage de langage sur un extrait du texte du document fourni à l'encodeur visuel à la place de l'invite, pour doter le modèle de capacités de focalisation. Par conséquent, VisFocus apprend à allouer son attention aux fragments de texte pertinents par rapport à l'invite fournie. Nos expériences démontrent que cette approche d'encodage visuel guidé par l'invite améliore significativement les performances, atteignant des résultats de pointe sur divers benchmarks.
La reconnaissance optique de caractères (OCR) et la reconnaissance d'écriture manuscrite (HWR) pour l'arabe présentent des défis uniques en raison de la nature cursive et contextuelle de l'écriture arabe. Cette étude présente Qalam, un nouveau modèle de fond conçu pour l'OCR et la HWR en arabe, basé sur une architecture d'encodeur SwinV2 et de décodeur RoBERTa. Notre modèle surpasse significativement les méthodes existantes, atteignant un taux d'erreur sur les mots (WER) de seulement 0,80 % pour les tâches de HWR et de 1,18 % pour les tâches d'OCR. Nous avons entraîné Qalam sur un ensemble de données diversifié, comprenant plus de 4,5 millions d'images provenant de manuscrits arabes et un ensemble de données synthétiques composé de 60 000 paires image-texte. Notamment, Qalam démontre une gestion exceptionnelle des diacritiques arabes, une caractéristique cruciale dans les scripts arabes. De plus, il montre une capacité remarquable à traiter des entrées haute résolution, répondant ainsi à une limitation courante des systèmes OCR actuels. Ces avancées soulignent le potentiel de Qalam en tant que solution de pointe pour la reconnaissance des scripts arabes, offrant un bond significatif en termes de précision et d'efficacité.
La Vision du Calcul Autonome (ACV), proposée il y a plus de deux décennies, envisage des systèmes informatiques capables de s'auto-gérer à l'instar des organismes biologiques, s'adaptant de manière fluide à des environnements changeants. Malgré des décennies de recherche, la réalisation de l'ACV reste un défi en raison de la nature dynamique et complexe des systèmes informatiques modernes. Les récents progrès des Modèles de Langage à Grande Échelle (LLMs) offrent des solutions prometteuses à ces défis en exploitant leur vaste connaissance, leur compréhension du langage et leurs capacités d'automatisation des tâches. Cet article explore la faisabilité de réaliser l'ACV à travers un cadre multi-agent basé sur les LLMs pour la gestion des microservices. Nous introduisons une taxonomie à cinq niveaux pour la maintenance autonome des services et présentons un benchmark d'évaluation en ligne basé sur le projet de démonstration de microservices Sock Shop pour évaluer la performance de notre cadre. Nos résultats démontrent des progrès significatifs vers l'atteinte de l'autonomie de niveau 3, mettant en lumière l'efficacité des LLMs dans la détection et la résolution des problèmes au sein des architectures de microservices. Cette étude contribue à l'avancement du calcul autonome en pionnière de l'intégration des LLMs dans les cadres de gestion des microservices, ouvrant la voie à des systèmes informatiques plus adaptatifs et auto-gérés. Le code sera disponible à l'adresse https://aka.ms/ACV-LLM.
Étant donné que les modèles de langage (LMs) surpassent désormais les humains moyens sur de nombreuses tâches complexes, il est devenu de plus en plus difficile de développer des évaluations exigeantes, de haute qualité et réalistes. Nous abordons cette problématique en examinant les capacités des LMs à générer du code pour résoudre des problèmes réels de recherche scientifique. En intégrant les contributions de scientifiques et de chercheurs en IA dans 16 sous-domaines variés des sciences naturelles, incluant les mathématiques, la physique, la chimie, la biologie et la science des matériaux, nous avons créé un benchmark de codage évalué par des scientifiques, SciCode. Les problèmes de SciCode se décomposent naturellement en plusieurs sous-problèmes, chacun impliquant la récupération de connaissances, le raisonnement et la synthèse de code. Au total, SciCode contient 338 sous-problèmes décomposés à partir de 80 problèmes principaux complexes. Il propose des descriptions optionnelles spécifiant des informations scientifiques utiles, ainsi que des solutions de référence annotées par des scientifiques et des cas de test pour l'évaluation. Claude3.5-Sonnet, le modèle le plus performant parmi ceux testés, ne parvient à résoudre que 4,6 % des problèmes dans le cadre le plus réaliste. Nous pensons que SciCode démontre à la fois les progrès actuels des LMs vers leur rôle d'assistants scientifiques utiles et éclaire le développement et l'évaluation de l'IA scientifique à l'avenir.
Les récentes innovations dans l'entraînement des modèles de langage ont démontré qu'il est possible de créer des modèles très performants et suffisamment compacts pour fonctionner sur un smartphone. Alors que ces modèles sont déployés dans un nombre croissant de domaines, il est crucial de s'assurer qu'ils sont alignés avec les préférences humaines et les considérations de sécurité. Dans ce rapport, nous présentons notre méthodologie pour aligner la série de modèles de langage Phi-3 sur des critères de sécurité. Nous avons utilisé un cycle "casser-réparer", en effectuant plusieurs itérations de curation de jeux de données, de post-entraînement axé sur la sécurité, d'évaluation comparative, de tests par équipe rouge et d'identification des vulnérabilités pour couvrir divers domaines de préjudice dans des scénarios à tour unique et à tours multiples. Nos résultats indiquent que cette approche a permis d'améliorer itérativement les performances des modèles Phi-3 sur un large éventail de benchmarks d'IA responsable.
Le déploiement des grands modèles de langage (LLMs) est souvent limité par la bande passante mémoire, où le principal goulot d'étranglement réside dans le coût de transfert des paramètres du modèle depuis la mémoire globale du GPU vers ses registres. Lorsqu'elle est couplée à des noyaux personnalisés qui fusionnent les opérations de déquantification et de multiplication matricielle (matmul), la quantification des poids uniquement peut ainsi permettre une inférence plus rapide en réduisant la quantité de mouvements de mémoire. Cependant, le développement de noyaux hautes performances pour les LLMs à poids quantifiés présente des défis substantiels, en particulier lorsque les poids sont compressés à des largeurs de bits non uniformément divisibles (par exemple, 3 bits) avec une quantification non uniforme basée sur des tables de correspondance (LUT). Cet article décrit FLUTE, un moteur de table de correspondance flexible pour les LLMs quantifiés par LUT, qui utilise une restructuration hors ligne de la matrice de poids quantifiée pour minimiser les manipulations de bits associées au dépaquetage, ainsi qu'une vectorisation et duplication de la table de correspondance pour atténuer les contraintes de bande passante de la mémoire partagée. Pour des tailles de lot inférieures à 32 et une taille de groupe de quantification de 128 (typique dans l'inférence des LLMs), le noyau FLUTE peut être 2 à 4 fois plus rapide que les noyaux GEMM existants. En tant qu'application de FLUTE, nous explorons une extension simple à la quantification NormalFloat basée sur des tables de correspondance et l'appliquons pour quantifier LLaMA3 à diverses configurations, obtenant des performances de quantification compétitives par rapport à des bases de référence solides tout en obtenant une augmentation du débit de bout en bout de 1,5 à 2 fois.
Récemment, avec les avancées rapides des modèles génératifs, le domaine de la génération de texte visuel a connu des progrès significatifs. Cependant, il reste difficile de produire des images de texte de haute qualité dans des scénarios réels, car trois critères essentiels doivent être satisfaits : (1) Fidélité : les images de texte générées doivent être photo-réalistes et leur contenu doit correspondre aux conditions spécifiées ; (2) Pertinence : les régions et le contenu du texte généré doivent s’intégrer de manière cohérente dans la scène ; (3) Utilité : les images de texte générées doivent faciliter les tâches associées (par exemple, la détection et la reconnaissance de texte). Après analyse, nous constatons que les méthodes existantes, qu’elles soient basées sur le rendu ou sur la diffusion, peinent à répondre simultanément à tous ces aspects, limitant ainsi leur champ d’application. Par conséquent, nous proposons dans cet article un générateur de texte visuel (nommé SceneVTG), capable de produire des images de texte de haute qualité dans des environnements variés. Suivant un paradigme en deux étapes, SceneVTG s’appuie sur un modèle de langage multimodal à grande échelle pour recommander des régions et des contenus de texte pertinents à plusieurs échelles et niveaux, qui sont ensuite utilisés comme conditions par un modèle de diffusion conditionnelle pour générer les images de texte. Des expériences approfondies démontrent que SceneVTG surpasse significativement les méthodes traditionnelles basées sur le rendu et les méthodes récentes basées sur la diffusion en termes de fidélité et de pertinence. De plus, les images générées offrent une utilité supérieure pour les tâches de détection et de reconnaissance de texte. Le code et les jeux de données sont disponibles sur AdvancedLiterateMachinery.
Les autoencodeurs parcimonieux (SAEs) constituent une approche non supervisée prometteuse pour identifier des caractéristiques linéaires causalement pertinentes et interprétables dans les activations d'un modèle de langage (LM). Pour être utiles dans des tâches en aval, les SAEs doivent décomposer fidèlement les activations du LM ; cependant, pour être interprétables, la décomposition doit être parcimonieuse — deux objectifs qui sont en tension. Dans cet article, nous introduisons les JumpReLU SAEs, qui atteignent une fidélité de reconstruction de pointe pour un niveau de parcimonie donné sur les activations de Gemma 2 9B, par rapport à d'autres avancées récentes telles que les SAEs à portes (Gated) et TopK. Nous montrons également que cette amélioration ne se fait pas au détriment de l'interprétabilité, grâce à des études manuelles et automatisées d'interprétabilité. Les JumpReLU SAEs sont une modification simple des SAEs classiques (ReLU) — où nous remplaçons la fonction d'activation ReLU par une fonction JumpReLU discontinue — et sont tout aussi efficaces à entraîner et à exécuter. En utilisant de manière raisonnée des estimateurs directs (STEs), nous montrons comment il est possible d'entraîner efficacement les JumpReLU SAEs malgré la fonction JumpReLU discontinue introduite dans la passe avant du SAE. De même, nous utilisons les STEs pour entraîner directement la norme L0 à être parcimonieuse, au lieu de s'appuyer sur des proxys comme L1, évitant ainsi des problèmes tels que le rétrécissement.
Des améliorations significatives ont été réalisées dans le domaine de la génération automatisée de légendes audio (AAC) grâce aux modèles récents. Cependant, ces modèles sont devenus de plus en plus volumineux à mesure que leurs performances s'améliorent. Dans ce travail, nous proposons un cadre de distillation de connaissances (KD) pour l'AAC. Notre analyse montre que, dans les modèles AAC basés sur une architecture encodeur-décodeur, il est plus efficace de distiller les connaissances dans l'encodeur plutôt que dans le décodeur. À cette fin, nous intégrons une perte de KD au niveau de l'encodeur dans l'entraînement, en plus de la perte supervisée standard et de la perte de KD au niveau de la séquence. Nous étudions deux méthodes de KD au niveau de l'encodeur, basées respectivement sur une perte d'erreur quadratique moyenne (MSE) et une perte contrastive. Les résultats expérimentaux démontrent que le KD contrastif est plus robuste que le KD MSE, affichant des performances supérieures dans des situations de données limitées. En exploitant des données audio uniquement dans le cadre de l'entraînement via le KD, notre modèle étudiant atteint des performances compétitives, avec une vitesse d'inférence 19 fois plus rapide. Une démonstration en ligne est disponible à l'adresse \url{https://huggingface.co/spaces/wsntxxn/efficient_audio_captioning}.
Nous présentons une nouvelle approche pour reconstruire la forme 3D et l'apparence dépendante de la vue à partir de quelques images colorées, permettant une reconstruction 3D efficace et la synthèse de nouvelles vues. Notre méthode apprend une représentation neuronale implicite sous la forme d'une fonction de distance signée (SDF) et d'un champ de radiance. Le modèle est entraîné progressivement grâce au rendu volumétrique activé par le ray marching, et régularisé à l'aide d'indices de stéréo multi-vues (MVS) sans apprentissage. L'élément clé de notre contribution est une nouvelle stratégie d'apprentissage de fonction de forme neuronale implicite qui encourage notre champ SDF à être aussi linéaire que possible près de l'ensemble de niveau, renforçant ainsi la robustesse de l'entraînement face au bruit provenant des signaux de supervision et de régularisation. Sans utiliser de pré-entraînements ou de connaissances préalables, notre méthode, appelée SparseCraft, atteint des performances de pointe à la fois en synthèse de nouvelles vues et en reconstruction à partir de vues éparses sur des benchmarks standard, tout en nécessitant moins de 10 minutes d'entraînement.
Récemment, la génération de texte-à-3D a suscité une attention considérable, conduisant à des améliorations notables des performances. Les méthodes précédentes utilisent des modèles de génération 3D de bout en bout pour initialiser des Gaussiennes 3D, des modèles de diffusion multi-vues pour renforcer la cohérence multi-vues, et des modèles de diffusion texte-à-image pour affiner les détails avec des algorithmes de distillation de score. Cependant, ces méthodes présentent deux limitations. Premièrement, elles rencontrent des conflits dans les directions de génération, car différents modèles visent à produire des actifs 3D variés. Deuxièmement, le problème de sursaturation dans la distillation de score n'a pas été approfondi et résolu. Pour pallier ces limitations, nous proposons PlacidDreamer, un framework texte-à-3D qui harmonise l'initialisation, la génération multi-vues et la génération conditionnée par le texte avec un seul modèle de diffusion multi-vues, tout en employant simultanément un nouvel algorithme de distillation de score pour atteindre une saturation équilibrée. Pour unifier la direction de génération, nous introduisons le module Latent-Plane, une extension plug-in adaptée à l'entraînement qui permet aux modèles de diffusion multi-vues de fournir une reconstruction géométrique rapide pour l'initialisation et des images multi-vues améliorées pour personnaliser le modèle de diffusion texte-à-image. Pour résoudre le problème de sursaturation, nous proposons de considérer la distillation de score comme un problème d'optimisation multi-objectif et introduisons l'algorithme de Distillation de Score Équilibrée, qui offre une solution Pareto Optimale permettant d'obtenir à la fois des détails riches et une saturation équilibrée. Des expériences approfondies valident les capacités exceptionnelles de notre PlacidDreamer. Le code est disponible à l'adresse https://github.com/HansenHuang0823/PlacidDreamer.