Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage (LLMs), illustrés par ChatGPT, ont suscité une attention considérable pour leurs excellentes capacités de traitement du langage naturel. Néanmoins, ces LLMs présentent de nombreux défis, en particulier dans le domaine de la fiabilité. Par conséquent, garantir la fiabilité des LLMs devient un sujet important. Cet article présente TrustLLM, une étude approfondie de la fiabilité des LLMs, incluant des principes pour différentes dimensions de la fiabilité, un benchmark établi, l'évaluation et l'analyse de la fiabilité des LLMs grand public, ainsi qu'une discussion sur les défis ouverts et les directions futures. Plus précisément, nous proposons d'abord un ensemble de principes pour des LLMs fiables qui couvrent huit dimensions différentes. Sur la base de ces principes, nous établissons ensuite un benchmark couvrant six dimensions, notamment la véracité, la sécurité, l'équité, la robustesse, la confidentialité et l'éthique des machines. Nous présentons ensuite une étude évaluant 16 LLMs grand public dans TrustLLM, comprenant plus de 30 jeux de données. Nos résultats montrent tout d'abord que, de manière générale, la fiabilité et l'utilité (c'est-à-dire l'efficacité fonctionnelle) sont positivement corrélées. Deuxièmement, nos observations révèlent que les LLMs propriétaires surpassent généralement la plupart de leurs homologues open-source en termes de fiabilité, ce qui soulève des inquiétudes quant aux risques potentiels des LLMs open-source largement accessibles. Cependant, quelques LLMs open-source se rapprochent très près des modèles propriétaires. Troisièmement, il est important de noter que certains LLMs peuvent être trop calibrés pour manifester de la fiabilité, au point de compromettre leur utilité en traitant par erreur des invites bénignes comme nuisibles et, par conséquent, en ne répondant pas. Enfin, nous soulignons l'importance d'assurer la transparence non seulement dans les modèles eux-mêmes, mais aussi dans les technologies qui sous-tendent la fiabilité. Connaître les technologies spécifiques de fiabilité qui ont été employées est crucial pour analyser leur efficacité.
Ce rapport technique présente PIXART-{\delta}, un cadre de synthèse d'images à partir de texte qui intègre le Latent Consistency Model (LCM) et ControlNet dans le modèle avancé PIXART-{\alpha}. PIXART-{\alpha} est reconnu pour sa capacité à générer des images de haute qualité avec une résolution de 1024px grâce à un processus d'entraînement remarquablement efficace. L'intégration du LCM dans PIXART-{\delta} accélère considérablement la vitesse d'inférence, permettant la production d'images de haute qualité en seulement 2 à 4 étapes. Notamment, PIXART-{\delta} réalise une percée en générant des images de 1024x1024 pixels en 0,5 seconde, marquant une amélioration de 7x par rapport à PIXART-{\alpha}. De plus, PIXART-{\delta} est conçu pour être efficacement entraîné sur des GPU V100 de 32GB en une seule journée. Avec sa capacité d'inférence en 8 bits (von Platen et al., 2023), PIXART-{\delta} peut synthétiser des images de 1024px dans des contraintes de mémoire GPU de 8GB, améliorant grandement son utilité et son accessibilité. Par ailleurs, l'intégration d'un module similaire à ControlNet permet un contrôle fin des modèles de diffusion de texte à image. Nous introduisons une nouvelle architecture ControlNet-Transformer, spécialement conçue pour les Transformers, atteignant une contrôlabilité explicite tout en générant des images de haute qualité. En tant que modèle de génération d'images open-source de pointe, PIXART-{\delta} offre une alternative prometteuse à la famille de modèles Stable Diffusion, contribuant de manière significative à la synthèse d'images à partir de texte.
Les Transformers sont considérés comme conceptuellement différents par rapport à la génération précédente de modèles NLP de pointe - les réseaux de neurones récurrents (RNNs). Dans ce travail, nous démontrons que les Transformers à décodeur uniquement peuvent en réalité être conceptualisés comme des RNNs multi-états infinis - une variante de RNN avec une taille d'état caché illimitée. Nous montrons en outre que les Transformers pré-entraînés peuvent être convertis en RNNs multi-états finis en fixant la taille de leur état caché. Nous observons que plusieurs techniques existantes de compression de cache des Transformers peuvent être formulées comme de telles politiques de conversion, et nous introduisons une nouvelle politique, TOVA, qui est plus simple que ces politiques. Nos expériences sur plusieurs tâches à long terme indiquent que TOVA surpasse toutes les autres politiques de référence, tout en étant presque à égalité avec le modèle complet (infini), et en utilisant dans certains cas seulement 1/8 de la taille originale du cache. Nos résultats indiquent que les LLMs à décodeur Transformer se comportent souvent en pratique comme des RNNs. Ils ouvrent également la possibilité d'atténuer l'un de leurs goulots d'étranglement computationnels les plus problématiques - la taille de leur mémoire cache. Nous rendons notre code public à l'adresse https://github.com/schwartz-lab-NLP/TOVA.
Les humains sont capables de comportements stratégiquement trompeurs : ils se montrent généralement utiles, mais adoptent des comportements très différents pour poursuivre des objectifs alternatifs lorsqu'ils en ont l'occasion. Si un système d'IA apprenait une telle stratégie de tromperie, pourrions-nous la détecter et l'éliminer en utilisant les techniques actuelles de formation à la sécurité ? Pour étudier cette question, nous construisons des exemples de preuve de concept de comportements trompeurs dans les grands modèles de langage (LLM). Par exemple, nous entraînons des modèles qui écrivent du code sécurisé lorsque l'invite indique que l'année est 2023, mais insèrent du code vulnérable lorsque l'année indiquée est 2024. Nous constatons que ce comportement piégé peut être rendu persistant, de sorte qu'il n'est pas éliminé par les techniques standards de formation à la sécurité, y compris le réglage fin supervisé, l'apprentissage par renforcement et l'entraînement adversarial (provoquer un comportement dangereux puis entraîner pour l'éliminer). Le comportement piégé est le plus persistant dans les plus grands modèles et dans les modèles entraînés à produire un raisonnement en chaîne de pensées sur la tromperie du processus d'entraînement, cette persistance subsistant même lorsque la chaîne de pensées est distillée. De plus, plutôt que d'éliminer les portes dérobées, nous constatons que l'entraînement adversarial peut apprendre aux modèles à mieux reconnaître leurs déclencheurs de portes dérobées, masquant ainsi efficacement le comportement dangereux. Nos résultats suggèrent que, une fois qu'un modèle présente un comportement trompeur, les techniques standards pourraient échouer à éliminer cette tromperie et créer une fausse impression de sécurité.
Nous présentons InseRF, une nouvelle méthode pour l'insertion générative d'objets dans les reconstructions NeRF de scènes 3D. Basée sur une description textuelle fournie par l'utilisateur et une boîte englobante 2D dans un point de vue de référence, InseRF génère de nouveaux objets dans des scènes 3D. Récemment, les méthodes d'édition de scènes 3D ont été profondément transformées grâce à l'utilisation de forts a priori issus des modèles de diffusion texte-image dans la modélisation générative 3D. Les méthodes existantes sont principalement efficaces pour éditer des scènes 3D via des changements de style et d'apparence ou pour supprimer des objets existants. Cependant, la génération de nouveaux objets reste un défi pour ces méthodes, que nous abordons dans cette étude. Plus précisément, nous proposons d'ancrer l'insertion d'objets 3D à une insertion d'objet 2D dans une vue de référence de la scène. L'édition 2D est ensuite élevée en 3D à l'aide d'une méthode de reconstruction d'objet à vue unique. L'objet reconstruit est ensuite inséré dans la scène, guidé par les a priori des méthodes d'estimation de profondeur monoculaire. Nous évaluons notre méthode sur diverses scènes 3D et fournissons une analyse approfondie des composants proposés. Nos expériences d'insertion générative d'objets dans plusieurs scènes 3D démontrent l'efficacité de notre méthode par rapport aux méthodes existantes. InseRF est capable d'une insertion d'objets contrôlable et cohérente en 3D sans nécessiter d'informations 3D explicites en entrée. Veuillez visiter notre page de projet à l'adresse https://mohamad-shahbazi.github.io/inserf.
Les modèles photoréalistes de mains relightables existants nécessitent des observations spécifiques à l'identité, nombreuses et variées en termes de vues, poses et éclairages, et rencontrent des difficultés à généraliser aux éclairages naturels et aux nouvelles identités. Pour combler cette lacune, nous présentons URHand, le premier modèle universel de mains relightable qui généralise à travers les points de vue, les poses, les éclairages et les identités. Notre modèle permet une personnalisation en few-shot à l'aide d'images capturées avec un téléphone portable, et est prêt à être rendu photoréaliste sous de nouveaux éclairages. Pour simplifier le processus de personnalisation tout en conservant le photoréalisme, nous construisons un puissant prior universel relightable basé sur le relighting neuronal à partir d'images multi-vues de mains capturées dans un light stage avec des centaines d'identités. Le défi principal consiste à mettre à l'échelle l'entraînement inter-identité tout en conservant la fidélité personnalisée et les détails nets sans compromettre la généralisation sous des éclairages naturels. À cette fin, nous proposons un modèle d'éclairage linéaire spatialement variable comme rendu neuronal qui prend en entrée un ombrage inspiré de la physique. En supprimant les activations non linéaires et les biais, notre modèle d'éclairage spécifiquement conçu maintient explicitement la linéarité du transport de la lumière. Cela permet un entraînement en une seule étape à partir de données de light stage tout en généralisant au rendu en temps réel sous des éclairages continus arbitraires pour des identités diverses. De plus, nous introduisons l'apprentissage conjoint d'un modèle basé sur la physique et de notre modèle de relighting neuronal, ce qui améliore encore la fidélité et la généralisation. Des expériences approfondies montrent que notre approche obtient des performances supérieures aux méthodes existantes en termes de qualité et de généralisabilité. Nous démontrons également une personnalisation rapide d'URHand à partir d'un scan téléphonique court d'une identité inconnue.
Les grands modèles de langage (LLMs) sont des agents conversationnels puissants, mais les spécialiser pour accomplir une fonction spécifique peut s'avérer complexe. Le réglage par instruction, c'est-à-dire l'ajustement des modèles sur des instructions et des réponses exemples générées par des humains (Ouyang et al., 2022), s'est révélé être une méthode efficace pour y parvenir, mais nécessite un nombre important d'échantillons de données qui a) pourraient ne pas être disponibles ou b) être coûteux à générer. De plus, ce coût augmente lorsque l'objectif est de faire suivre au LLM un flux de travail spécifique au sein d'un dialogue plutôt que des instructions isolées. Inspirés par la technique de l'auto-apprentissage en apprentissage par renforcement et par l'utilisation des LLMs pour simuler des agents humains, nous proposons une méthode plus efficace pour la collecte de données via des LLMs engagés dans une conversation sous différents rôles. Cette approche génère des données d'entraînement via un "dialogue interne" des LLMs, qui peuvent être affinées et utilisées pour un réglage supervisé. Nous introduisons une méthode automatisée pour mesurer le succès (partiel) d'un dialogue. Cette métrique est utilisée pour filtrer les données conversationnelles générées, qui sont ensuite réinjectées dans le LLM pour l'entraînement. Sur la base de nos évaluations automatisées et humaines de la qualité des conversations, nous démontrons que ces données de dialogue interne améliorent les résultats. En outre, nous examinons les différentes caractéristiques qui illustrent la qualité des dialogues générés et comment elles peuvent être liées à leur utilité potentielle en tant que données d'entraînement.
La Chaîne de Pensée (Chain of Thought, CoT) joue un rôle crucial dans l'amélioration des capacités de raisonnement des grands modèles de langage (LLMs). Cependant, la corrélation entre l'efficacité de la CoT et la longueur des étapes de raisonnement dans les prompts reste largement méconnue. Pour éclaircir ce point, nous avons mené plusieurs expériences empiriques afin d'explorer ces relations. Plus précisément, nous avons conçu des expériences qui étendent et compressent les étapes de raisonnement dans les démonstrations de CoT, tout en maintenant constants tous les autres facteurs. Voici nos principales découvertes. Premièrement, les résultats indiquent qu'allonger les étapes de raisonnement dans les prompts, même sans ajouter de nouvelles informations, améliore considérablement les capacités de raisonnement des LLMs sur plusieurs jeux de données. À l'inverse, raccourcir ces étapes, même en conservant les informations clés, diminue significativement les performances de raisonnement des modèles. Cette découverte souligne l'importance du nombre d'étapes dans les prompts de CoT et fournit des conseils pratiques pour mieux exploiter le potentiel des LLMs dans des scénarios de résolution de problèmes complexes. Deuxièmement, nous avons également étudié la relation entre la performance de la CoT et les justifications utilisées dans les démonstrations. Étonnamment, les résultats montrent que même des justifications incorrectes peuvent produire des résultats favorables si elles maintiennent une longueur d'inférence suffisante. Troisièmement, nous avons observé que les avantages d'augmenter les étapes de raisonnement dépendent de la tâche : les tâches plus simples nécessitent moins d'étapes, tandis que les tâches complexes bénéficient significativement de séquences d'inférence plus longues.
Les progrès récents des modèles vision-langage sont largement attribuables à l'abondance de données image-texte. Notre objectif est de reproduire ce succès pour les modèles vidéo-langage, mais il n'existe tout simplement pas assez de données vidéo-texte annotées manuellement. Nous avons donc recours à l'affinage d'un modèle vidéo-langage à partir d'une base solide de modèle image-langage, en utilisant des données synthétiques d'instructions. Le modèle vidéo-langage résultant est ensuite utilisé pour étiqueter automatiquement des millions de vidéos afin de générer des légendes de haute qualité. Nous montrons que le modèle vidéo-langage adapté performe bien sur une large gamme de benchmarks vidéo-langage. Par exemple, il dépasse le meilleur résultat précédent sur NExT-QA à réponse ouverte de 2,8 %. De plus, notre modèle génère des descriptions détaillées pour des vidéos jamais vues auparavant, fournissant une supervision textuelle de meilleure qualité que les méthodes existantes. Les expériences montrent qu'un modèle à double encodeur vidéo-langage entraîné de manière contrastive sur ces légendes auto-générées est 3,8 % meilleur que le meilleur modèle de référence qui exploite également des modèles vision-langage. Notre meilleur modèle surpasse les méthodes de pointe sur la tâche de recherche zéro-shot texte-vidéo de MSR-VTT de 6 %.
La richesse du contenu sur Internet, dont jusqu'à 60 % est publié en anglais, contraste fortement avec la population mondiale, où seulement 18,8 % des individus parlent anglais, et à peine 5,1 % le considèrent comme leur langue maternelle, ce qui entraîne des disparités dans l'accès à l'information en ligne. Malheureusement, les processus automatisés de doublage vidéo - consistant à remplacer la piste audio d'une vidéo par une version traduite - restent une tâche complexe et difficile en raison des pipelines nécessitant une synchronisation temporelle précise, une harmonisation des mouvements faciaux et une correspondance prosodique. Bien que le doublage de bout en bout offre une solution, la pénurie de données continue de freiner les progrès des méthodes basées sur des pipelines et de bout en bout. Dans ce travail, nous présentons Anim-400K, un ensemble de données complet de plus de 425 000 segments vidéo animés alignés en japonais et en anglais, soutenant diverses tâches liées à la vidéo, notamment le doublage automatisé, la traduction simultanée, le résumé vidéo guidé et la classification par genre/thème/style. Notre ensemble de données est mis à disposition publique à des fins de recherche à l'adresse suivante : https://github.com/davidmchan/Anim400K.
Le Score Distillation Sampling (SDS) est une méthode récente mais déjà largement populaire qui s'appuie sur un modèle de diffusion d'images pour contrôler des problèmes d'optimisation à l'aide de prompts textuels. Dans cet article, nous menons une analyse approfondie de la fonction de perte SDS, identifions un problème inhérent à sa formulation et proposons une solution étonnamment simple mais efficace. Plus précisément, nous décomposons la perte en différents facteurs et isolons le composant responsable des gradients bruyants. Dans la formulation originale, un guidage textuel élevé est utilisé pour compenser le bruit, ce qui entraîne des effets secondaires indésirables. À la place, nous entraînons un réseau peu profond qui imite la déficience de débruitage dépendante du pas de temps du modèle de diffusion d'images afin de la factoriser efficacement. Nous démontrons la polyvalence et l'efficacité de notre nouvelle formulation de perte à travers plusieurs expériences qualitatives et quantitatives, incluant la synthèse d'images basée sur l'optimisation, l'édition d'images, l'entraînement de réseaux de traduction d'images en zero-shot, et la synthèse de texte en 3D.
Les modèles de langage de grande taille (LLM) basés sur Transformer sont largement utilisés dans de nombreux domaines, et l'efficacité de l'inférence des LLM devient un sujet brûlant dans les applications réelles. Cependant, les LLM sont généralement conçus de manière complexe en termes de structure de modèle, avec un grand nombre d'opérations, et effectuent l'inférence en mode auto-régressif, ce qui rend la conception d'un système hautement efficace particulièrement difficile. Dans cet article, nous proposons une solution d'inférence de LLM efficace, à faible latence et à haut débit. Tout d'abord, nous simplifions la couche de décodeur du LLM en fusionnant les mouvements de données et les opérations élément par élément, afin de réduire la fréquence d'accès à la mémoire et de diminuer la latence du système. Nous proposons également une politique de cache KV segmenté pour conserver les clés/valeurs des tokens de requête et de réponse dans des mémoires physiques distinctes, ce qui permet une gestion efficace de la mémoire de l'appareil, augmente la taille du lot d'exécution et améliore le débit du système. Un noyau d'attention Scaled-Dot-Product personnalisé est conçu pour correspondre à notre politique de fusion basée sur la solution de cache KV segmenté. Nous implémentons notre solution d'inférence de LLM sur un GPU Intel et la rendons publique. Par rapport à l'implémentation standard de HuggingFace, la solution proposée permet d'atteindre jusqu'à 7 fois moins de latence par token et 27 fois plus de débit pour certains LLM populaires sur un GPU Intel.