Articles de recherche en IA sélectionnés quotidiennement avec traductions
Malgré les capacités impressionnantes des grands modèles de langage (LLMs) sur diverses tâches, ils peinent encore dans des scénarios impliquant un raisonnement et une planification complexes. Des travaux récents ont proposé des techniques de prompting avancées et la nécessité d'un fine-tuning avec des données de haute qualité pour améliorer les capacités de raisonnement des LLMs. Cependant, ces approches sont intrinsèquement limitées par la disponibilité et la qualité des données. Dans ce contexte, l'auto-correction et l'auto-apprentissage émergent comme des solutions viables, employant des stratégies qui permettent aux LLMs d'affiner leurs sorties et d'apprendre à partir de récompenses auto-évaluées. Pourtant, l'efficacité des LLMs à auto-affiner leurs réponses, en particulier dans des tâches de raisonnement et de planification complexes, reste douteuse. Dans cet article, nous présentons AlphaLLM pour l'auto-amélioration des LLMs, qui intègre la recherche arborescente Monte Carlo (MCTS) avec les LLMs pour établir une boucle d'auto-amélioration, améliorant ainsi les capacités des LLMs sans annotations supplémentaires. S'inspirant du succès d'AlphaGo, AlphaLLM aborde les défis uniques de la combinaison de MCTS avec LLM pour l'auto-amélioration, notamment la rareté des données, l'immensité des espaces de recherche des tâches linguistiques et la nature subjective des retours dans les tâches linguistiques. AlphaLLM est composé d'un module de synthèse de prompts, d'une approche MCTS efficace adaptée aux tâches linguistiques et d'un trio de modèles critiques pour un retour précis. Nos résultats expérimentaux dans des tâches de raisonnement mathématique démontrent qu'AlphaLLM améliore significativement les performances des LLMs sans annotations supplémentaires, montrant le potentiel d'auto-amélioration des LLMs.
L'animation de texte constitue un médium expressif, transformant la communication statique en expériences dynamiques en insufflant du mouvement aux mots pour susciter des émotions, accentuer les significations et construire des récits captivants. La création d'animations sémantiquement conscientes présente des défis importants, nécessitant une expertise en design graphique et en animation. Nous présentons un schéma automatisé d'animation de texte, intitulé "Typographie Dynamique", qui combine deux tâches complexes. Il déforme les lettres pour transmettre une signification sémantique et les anime avec des mouvements vibrants basés sur les indications de l'utilisateur. Notre technique exploite des représentations graphiques vectorielles et un cadre d'optimisation de bout en bout. Ce cadre utilise des champs de déplacement neuronaux pour convertir les lettres en formes de base et applique un mouvement par image, favorisant la cohérence avec le concept textuel visé. Des techniques de préservation de la forme et une régularisation par perte perceptuelle sont employées pour maintenir la lisibilité et l'intégrité structurelle tout au long du processus d'animation. Nous démontrons la généralisabilité de notre approche à travers divers modèles texte-à-vidéo et mettons en avant la supériorité de notre méthodologie de bout en bout par rapport aux méthodes de base, qui pourraient comporter des tâches séparées. Grâce à des évaluations quantitatives et qualitatives, nous montrons l'efficacité de notre cadre dans la génération d'animations de texte cohérentes qui interprètent fidèlement les indications de l'utilisateur tout en préservant la lisibilité. Notre code est disponible à l'adresse : https://animate-your-word.github.io/demo/.
Nous proposons MeshLRM, une nouvelle approche basée sur les modèles de reconstruction à grande échelle (LRM) capable de reconstruire un maillage de haute qualité à partir de seulement quatre images d'entrée en moins d'une seconde. Contrairement aux précédents modèles de reconstruction à grande échelle (LRMs) qui se concentrent sur la reconstruction basée sur NeRF, MeshLRM intègre l'extraction de maillage différentiable et le rendu au sein du cadre LRM. Cela permet une reconstruction de maillage de bout en bout en affinant un LRM NeRF pré-entraîné avec le rendu de maillage. De plus, nous améliorons l'architecture LRM en simplifiant plusieurs conceptions complexes des précédents LRMs. L'initialisation NeRF de MeshLRM est entraînée séquentiellement avec des images de basse et haute résolution ; cette nouvelle stratégie d'entraînement LRM permet une convergence significativement plus rapide et conduit ainsi à une meilleure qualité avec moins de calcul. Notre approche atteint l'état de l'art en reconstruction de maillage à partir d'entrées à vues éparses et permet également de nombreuses applications en aval, y compris la génération de texte-à-3D et d'image unique-à-3D. Page du projet : https://sarahweiii.github.io/meshlrm/
La charge de calcul intensive de Stable Diffusion (SD) pour la génération d'images à partir de texte constitue un obstacle majeur à son application pratique. Pour relever ce défi, les recherches récentes se concentrent sur des méthodes visant à réduire les étapes d'échantillonnage, telles que le modèle de cohérence latente (LCM), ainsi que sur l'optimisation architecturale, incluant l'élagage et la distillation de connaissances. S'écartant des approches existantes, nous partons d'une variante compacte de SD, BK-SDM. Nous observons que l'application directe de LCM à BK-SDM avec des ensembles de données couramment utilisés donne des résultats insatisfaisants. Cela nous conduit à développer deux stratégies : (1) exploiter des paires image-texte de haute qualité provenant de modèles génératifs de pointe et (2) concevoir un processus de distillation avancé adapté à LCM. Grâce à notre exploration approfondie de la quantification, du profilage et du déploiement sur appareil, nous parvenons à générer rapidement des images photo-réalistes et alignées sur le texte en seulement deux étapes, avec une latence inférieure à une seconde sur des appareils périphériques aux ressources limitées.
Avec le déploiement massif des grands modèles de langage (LLMs) dans la génération de contenus longs récemment, une demande croissante pour une inférence efficace sur de longues séquences a émergé. Cependant, le cache clé-valeur (KV), stocké pour éviter les recalculs, est devenu un goulot d'étranglement critique en augmentant linéairement en taille avec la longueur de la séquence. En raison de la nature auto-régressive des LLMs, l'intégralité du cache KV est chargée pour chaque token généré, entraînant une faible utilisation des cœurs de calcul et une latence élevée. Bien que diverses méthodes de compression pour le cache KV aient été proposées pour atténuer ce problème, elles souffrent d'une dégradation de la qualité de génération. Nous présentons TriForce, un système hiérarchique de décodage spéculatif qui est évolutif pour la génération de longues séquences. Cette approche exploite les poids originaux du modèle et un cache KV dynamique et parcimonieux via la récupération comme modèle de brouillon, qui sert de couche intermédiaire dans la hiérarchie et est ensuite spéculé par un modèle plus petit pour réduire sa latence de brouillon. TriForce permet non seulement des accélérations impressionnantes pour Llama2-7B-128K, atteignant jusqu'à 2,31 fois sur un GPU A100, mais démontre également son évolutivité dans la gestion de contextes encore plus longs. Pour le paramétrage de déchargement sur deux GPU RTX 4090, TriForce atteint 0,108s/token—soit seulement la moitié de la lenteur de la base auto-régressive sur un A100, qui atteint 7,78 fois sur notre système de déchargement optimisé. De plus, TriForce performe 4,86 fois mieux que DeepSpeed-Zero-Inference sur un seul GPU RTX 4090. La robustesse de TriForce est mise en évidence par ses performances exceptionnelles et constantes à travers diverses températures. Le code est disponible à l'adresse suivante : https://github.com/Infini-AI-Lab/TriForce.
L'alignement des modèles de langage (LM) sur la base de données de préférences annotées par des humains constitue une étape cruciale pour obtenir des systèmes basés sur LM pratiques et performants. Cependant, les données de préférences humaines multilingues sont difficiles à obtenir à grande échelle, ce qui rend complexe l'extension de ce cadre à des langues diverses. Dans ce travail, nous évaluons une approche simple pour l'alignement cross-lingue en mode zero-shot, où un modèle de récompense est entraîné sur des données de préférences dans une langue source et appliqué directement à d'autres langues cibles. Sur des tâches de résumé et de génération de dialogues ouverts, nous montrons que cette méthode obtient systématiquement des résultats positifs dans des contextes d'évaluation complets, incluant l'évaluation humaine : les modèles alignés cross-lingue sont préférés par les humains par rapport aux modèles non alignés dans plus de 70 % des cas d'évaluation. Nous constatons également qu'un modèle de récompense dans une langue différente produit parfois des modèles mieux alignés qu'un modèle de récompense dans la même langue. Nous identifions également les meilleures pratiques lorsqu'il n'existe aucune donnée spécifique à une langue, même pour le fine-tuning supervisé, un autre composant de l'alignement.
Nous présentons une nouvelle architecture pour la personnalisation des modèles de diffusion texte-image, baptisée Mixture-of-Attention (MoA). Inspirée par le mécanisme Mixture-of-Experts utilisé dans les grands modèles de langage (LLMs), MoA répartit la charge de génération entre deux voies d'attention : une branche personnalisée et une branche prioritaire non personnalisée. MoA est conçue pour préserver l'a priori du modèle original en fixant ses couches d'attention dans la branche prioritaire, tout en intervenant minimalement dans le processus de génération avec la branche personnalisée, qui apprend à intégrer des sujets dans la mise en page et le contexte générés par la branche prioritaire. Un mécanisme de routage innovant gère la répartition des pixels dans chaque couche entre ces branches afin d'optimiser le mélange entre la création de contenu personnalisé et générique. Une fois entraîné, MoA facilite la création d'images personnalisées de haute qualité, mettant en scène plusieurs sujets avec des compositions et des interactions aussi variées que celles générées par le modèle original. De manière cruciale, MoA améliore la distinction entre la capacité préexistante du modèle et l'intervention personnalisée nouvellement ajoutée, offrant ainsi un contrôle plus dissocié entre sujet et contexte, auparavant inaccessible. Page du projet : https://snap-research.github.io/mixture-of-attention
Ce document présente la version 0.5 du Benchmark de Sécurité de l'IA, développé par le groupe de travail sur la Sécurité de l'IA de MLCommons. Le Benchmark de Sécurité de l'IA a été conçu pour évaluer les risques de sécurité des systèmes d'IA utilisant des modèles de langage optimisés pour le chat. Nous introduisons une approche méthodique pour spécifier et construire le benchmark, qui pour la version 0.5 couvre un seul cas d'utilisation (un adulte conversant avec un assistant généraliste en anglais) et un ensemble limité de personnages (c'est-à-dire des utilisateurs typiques, des utilisateurs malveillants et des utilisateurs vulnérables). Nous avons créé une nouvelle taxonomie de 13 catégories de risques, dont 7 sont testées dans le benchmark v0.5. Nous prévoyons de publier la version 1.0 du Benchmark de Sécurité de l'IA d'ici la fin de 2024. Le benchmark v1.0 fournira des informations significatives sur la sécurité des systèmes d'IA. Cependant, le benchmark v0.5 ne doit pas être utilisé pour évaluer la sécurité des systèmes d'IA. Nous avons cherché à documenter pleinement les limites, les défauts et les défis de la version 0.5. Cette version du Benchmark de Sécurité de l'IA inclut (1) une approche méthodique pour spécifier et construire le benchmark, comprenant des cas d'utilisation, des types de systèmes testés (SUTs), la langue et le contexte, les personnages, les tests et les éléments de test ; (2) une taxonomie de 13 catégories de risques avec des définitions et des sous-catégories ; (3) des tests pour sept des catégories de risques, chacun comprenant un ensemble unique d'éléments de test, c'est-à-dire des prompts. Il y a 43 090 éléments de test au total, que nous avons créés à l'aide de modèles ; (4) un système de notation pour les systèmes d'IA par rapport au benchmark ; (5) une plateforme librement accessible et un outil téléchargeable, appelé ModelBench, qui peut être utilisé pour évaluer la sécurité des systèmes d'IA sur le benchmark ; (6) un exemple de rapport d'évaluation qui compare les performances de plus d'une douzaine de modèles de langage optimisés pour le chat disponibles publiquement ; (7) une spécification de test pour le benchmark.