Articles de recherche en IA sélectionnés quotidiennement avec traductions
La quantification post-entraînement est la méthode principale pour résoudre les goulots d'étranglement liés à la mémoire dans l'inférence des LLM, mais malheureusement, elle entraîne une dégradation significative des performances en dessous de 4 bits. Une approche alternative consiste à entraîner directement des modèles compressés à faible précision (par exemple, des modèles binaires ou ternaires). Cependant, les performances, la dynamique d'entraînement et les tendances de mise à l'échelle de tels modèles ne sont pas encore bien comprises. Pour résoudre ce problème, nous avons entraîné et rendu public la suite Spectra LLM, composée de 54 modèles de langage allant de 99M à 3,9B de paramètres, entraînés sur 300B de tokens. Spectra comprend des FloatLMs, des QuantLMs quantifiés post-entraînement (3, 4, 6 et 8 bits), et des LLMs ternaires (TriLMs) - notre architecture améliorée pour la modélisation de langage ternaire, qui surpasse significativement les modèles ternaires précédemment proposés pour une taille donnée (en bits), égalant les modèles en demi-précision à grande échelle. Par exemple, le TriLM 3.9B est (en termes de bits) plus petit que le FloatLM 830M en demi-précision, mais égalise le FloatLM 3.9B en demi-précision sur les benchmarks de raisonnement de bon sens et de connaissances. Cependant, le TriLM 3.9B est aussi toxique et stéréotypé que le FloatLM 3.9B, un modèle six fois plus grand. De plus, le TriLM 3.9B est en retard par rapport au FloatLM en termes de perplexité sur les splits de validation et les corpus web, mais performe mieux sur des ensembles de données moins bruités comme Lambada et PennTreeBank. Pour améliorer la compréhension des modèles à faible précision, nous publions plus de 500 points de contrôle intermédiaires de la suite Spectra sur https://github.com/NolanoOrg/SpectraSuite{https://github.com/NolanoOrg/SpectraSuite}.
Nous présentons GoldFinch, un modèle de séquence hybride Attention Linéaire/Transformer qui utilise une nouvelle technique pour générer efficacement un KV-Cache hautement compressé et réutilisable en temps et espace linéaires par rapport à la longueur de la séquence. GoldFinch superpose notre nouveau transformateur GOLD au-dessus d'une version améliorée de l'architecture Finch (RWKV-6). Nous entraînons des modèles de la classe des 1,5 milliards de paramètres pour les architectures Finch, Llama et GoldFinch, et observons une amélioration spectaculaire des performances de modélisation par rapport à Finch et Llama. Nos économies de taille de cache augmentent linéairement avec le nombre de couches du modèle, allant de 756 à 2550 fois plus petit que le cache traditionnel des transformateurs pour les tailles courantes, permettant ainsi l'inférence de contextes extrêmement longs même sur du matériel limité. Bien que la génération autoregressive ait une complexité temporelle de O(n) par token en raison de l'attention, le calcul de pré-remplissage de l'état initial complet du cache pour un contexte soumis ne coûte que O(1) temps par token grâce à l'utilisation d'un réseau de neurones récurrent (RNN) pour générer ce cache. Nous publions nos poids entraînés et notre code d'entraînement sous licence Apache 2.0 pour une utilisation communautaire.
Les agents LLM ont démontré des performances remarquables dans diverses applications, principalement grâce à leurs capacités avancées en raisonnement, à l'utilisation de connaissances externes et d'outils, à l'appel d'API et à l'exécution d'actions pour interagir avec des environnements. Les agents actuels utilisent généralement un module de mémoire ou un mécanisme de génération augmentée par récupération (RAG), récupérant des connaissances passées et des instances avec des embeddings similaires à partir de bases de connaissances pour éclairer la planification et l'exécution des tâches. Cependant, la dépendance à des bases de connaissances non vérifiées soulève des préoccupations importantes concernant leur sécurité et leur fiabilité. Pour révéler de telles vulnérabilités, nous proposons une nouvelle approche de red teaming, AgentPoison, la première attaque par porte dérobée ciblant les agents LLM génériques et basés sur RAG en empoisonnant leur mémoire à long terme ou leur base de connaissances RAG. En particulier, nous formulons le processus de génération de déclencheurs comme une optimisation contrainte pour optimiser les déclencheurs de porte dérobée en mappant les instances déclenchées à un espace d'embedding unique, afin de garantir que chaque fois qu'une instruction utilisateur contient le déclencheur de porte dérobée optimisé, les démonstrations malveillantes sont récupérées à partir de la mémoire ou de la base de connaissances empoisonnée avec une probabilité élevée. Parallèlement, les instructions bénignes sans le déclencheur maintiendront des performances normales. Contrairement aux attaques par porte dérobée conventionnelles, AgentPoison ne nécessite aucun entraînement ou ajustement supplémentaire du modèle, et le déclencheur de porte dérobée optimisé présente une transférabilité, une cohérence contextuelle et une furtivité supérieures. Des expériences approfondies démontrent l'efficacité d'AgentPoison pour attaquer trois types d'agents LLM du monde réel : un agent de conduite autonome basé sur RAG, un agent de questions-réponses intensif en connaissances et un agent de santé EHRAgent. Sur chaque agent, AgentPoison atteint un taux de réussite d'attaque moyen supérieur à 80 % avec un impact minimal sur les performances bénignes (moins de 1 %) et un taux d'empoisonnement inférieur à 0,1 %.
Les modèles de langage multimodaux de grande taille (MLLMs) ont montré des avancées prometteuses dans la compréhension générale visuelle et linguistique. Cependant, la représentation des informations multimodales à l'aide de MLLMs reste largement inexplorée. Dans ce travail, nous introduisons un nouveau cadre, E5-V, conçu pour adapter les MLLMs afin d'obtenir des embeddings multimodaux universels. Nos résultats mettent en évidence le potentiel significatif des MLLMs dans la représentation des entrées multimodales par rapport aux approches précédentes. En exploitant les MLLMs avec des prompts, E5-V comble efficacement l'écart de modalité entre différents types d'entrées, démontrant une performance solide dans les embeddings multimodaux même sans ajustement fin. Nous proposons une approche d'entraînement sur une seule modalité pour E5-V, où le modèle est entraîné exclusivement sur des paires de textes. Cette méthode montre des améliorations significatives par rapport à l'entraînement multimodal traditionnel sur des paires image-texte, tout en réduisant les coûts d'entraînement d'environ 95 %. De plus, cette approche élimine le besoin de collecte coûteuse de données d'entraînement multimodales. Des expériences approfondies sur quatre types de tâches démontrent l'efficacité d'E5-V. En tant que modèle multimodal universel, E5-V non seulement atteint mais dépasse souvent les performances de pointe dans chaque tâche, malgré un entraînement sur une seule modalité.
Les avancées des grands modèles de base nécessitent des benchmarks à large couverture, à faible coût et sans contamination. Malgré l'exploration continue des évaluations de modèles de langage, les études approfondies sur l'évaluation des grands modèles multimodaux (LMMs) restent limitées. Dans ce travail, nous présentons LMMS-EVAL, un cadre de benchmark multimodal unifié et standardisé comprenant plus de 50 tâches et plus de 10 modèles, visant à promouvoir des évaluations transparentes et reproductibles. Bien que LMMS-EVAL offre une couverture exhaustive, nous constatons qu'il ne parvient pas encore à atteindre un faible coût et une absence de contamination. Pour aborder ce trilemme d'évaluation, nous introduisons LMMS-EVAL LITE, une boîte à outils d'évaluation élaguée qui met l'accent à la fois sur la couverture et l'efficacité. De plus, nous présentons Multimodal LIVEBENCH, qui utilise des actualités et des forums en ligne en constante mise à jour pour évaluer les capacités de généralisation des modèles dans des conditions réelles, en proposant une approche d'évaluation à faible coût et sans contamination. En résumé, notre travail souligne l'importance de prendre en compte le trilemme d'évaluation et fournit des solutions pratiques pour naviguer dans les compromis lors de l'évaluation des grands modèles multimodaux, ouvrant la voie à un benchmarking plus efficace et fiable des LMMs. Nous rendons notre code source ouvert et maintenons un classement de LIVEBENCH sur https://github.com/EvolvingLMMs-Lab/lmms-eval et https://huggingface.co/spaces/lmms-lab/LiveBench.
Alors que les modèles de langage de grande taille (LLMs) réalisent des progrès remarquables dans la compréhension et la génération du langage, leur efficacité d'entraînement est devenue une préoccupation majeure. Traditionnellement, les LLMs sont entraînés à prédire le prochain jeton dans une séquence. Malgré le succès de l'entraînement au niveau des jetons, celui-ci souffre de coûts computationnels considérables en raison de la nécessité de traiter un nombre important de jetons. Pour atténuer ce problème, cet article introduit l'entraînement au niveau des patches pour les LLMs, qui réduit la longueur des séquences en compressant plusieurs jetons en un seul patch. Durant l'entraînement au niveau des patches, nous alimentons le modèle de langage avec des séquences plus courtes de patches et l'entraînons à prédire le prochain patch, traitant ainsi la majorité des données d'entraînement à un coût computationnel significativement réduit. Par la suite, le modèle poursuit l'entraînement au niveau des jetons sur les données d'entraînement restantes pour s'aligner sur le mode d'inférence. Les expériences sur une gamme variée de modèles (370M à 2,7 milliards de paramètres) démontrent que l'entraînement au niveau des patches peut réduire les coûts computationnels globaux à 0,5 fois, sans compromettre les performances du modèle par rapport à l'entraînement au niveau des jetons. Code source : https://github.com/shaochenze/PatchTrain.
Les modèles modernes de synthèse texte-vidéo démontrent une génération cohérente et photoréaliste de vidéos complexes à partir d'une description textuelle. Cependant, la plupart des modèles existants manquent de contrôle fin sur les mouvements de caméra, ce qui est crucial pour les applications en aval liées à la création de contenu, aux effets visuels et à la vision 3D. Récemment, de nouvelles méthodes ont montré la capacité à générer des vidéos avec des poses de caméra contrôlables, en exploitant des modèles de diffusion basés sur U-Net pré-entraînés qui dissocient explicitement la génération spatiale et temporelle. Pourtant, aucune approche existante ne permet de contrôler la caméra pour les nouveaux modèles de diffusion vidéo basés sur des transformateurs, qui traitent conjointement les informations spatiales et temporelles. Ici, nous proposons de maîtriser les transformateurs vidéo pour le contrôle de caméra 3D en utilisant un mécanisme de conditionnement de type ControlNet qui intègre des embeddings spatiotemporels de caméra basés sur les coordonnées de Plücker. Cette approche démontre des performances de pointe pour la génération de vidéos contrôlables après un ajustement fin sur le jeu de données RealEstate10K. À notre connaissance, notre travail est le premier à permettre le contrôle de caméra pour les modèles de diffusion vidéo basés sur des transformateurs.
Les dernières avancées ont permis d'atteindre un essai virtuel (VTON) réaliste grâce à la réparation localisée de vêtements utilisant des modèles de diffusion latente, améliorant ainsi significativement l'expérience d'achat en ligne des consommateurs. Cependant, les technologies VTON existantes négligent le besoin des marchands de présenter les vêtements de manière exhaustive, incluant un contrôle flexible sur les vêtements, les visages optionnels, les poses et les scènes. Pour résoudre ce problème, nous définissons une tâche d'habillage virtuel (VD) axée sur la génération d'images humaines librement modifiables avec des vêtements fixes et des conditions optionnelles. Parallèlement, nous concevons un indice métrique d'affinité complet (CAMI) pour évaluer la cohérence entre les images générées et les vêtements de référence. Ensuite, nous proposons IMAGDressing-v1, qui intègre un UNet de vêtement capturant les caractéristiques sémantiques de CLIP et les caractéristiques de texture de VAE. Nous présentons un module d'attention hybride, incluant une auto-attention gelée et une attention croisée entraînable, pour intégrer les caractéristiques des vêtements de l'UNet de vêtement dans un UNet de débruiteur gelé, garantissant que les utilisateurs peuvent contrôler différentes scènes via du texte. IMAGDressing-v1 peut être combiné avec d'autres plugins d'extension, tels que ControlNet et IP-Adapter, pour améliorer la diversité et la contrôlabilité des images générées. De plus, pour pallier le manque de données, nous publions le jeu de données d'appariement interactif de vêtements (IGPair), contenant plus de 300 000 paires d'images de vêtements et de personnes habillées, et établissons un pipeline standard pour l'assemblage des données. Des expériences approfondies démontrent que notre IMAGDressing-v1 atteint des performances de pointe en synthèse d'images humaines sous diverses conditions contrôlées. Le code et le modèle seront disponibles à l'adresse https://github.com/muzishen/IMAGDressing.
La plupart des modèles actuels basés sur LLM pour la compréhension vidéo peuvent traiter des vidéos en quelques minutes. Cependant, ils rencontrent des difficultés avec les vidéos longues en raison de défis tels que le "bruit et la redondance", ainsi que les contraintes de "mémoire et de calcul". Dans cet article, nous présentons Goldfish, une méthodologie conçue pour comprendre des vidéos de longueur arbitraire. Nous introduisons également le benchmark TVQA-long, spécifiquement élaboré pour évaluer les capacités des modèles à comprendre des vidéos longues avec des questions portant à la fois sur le contenu visuel et textuel. Goldfish aborde ces défis avec un mécanisme de récupération efficace qui collecte d'abord les k clips vidéo les plus pertinents par rapport à l'instruction avant de fournir la réponse souhaitée. Cette conception du mécanisme de récupération permet à Goldfish de traiter efficacement des séquences vidéo de longueur arbitraire, facilitant son application dans des contextes tels que les films ou les séries télévisées. Pour faciliter le processus de récupération, nous avons développé MiniGPT4-Video, qui génère des descriptions détaillées pour les clips vidéo. Pour pallier le manque de benchmarks pour l'évaluation des vidéos longues, nous avons adapté le benchmark TVQA pour les vidéos courtes en vue d'une analyse de contenu étendue en agrégeant des questions provenant d'épisodes entiers, passant ainsi d'une évaluation partielle à une compréhension complète de l'épisode. Nous avons atteint un taux de précision de 41,78 % sur le benchmark TVQA-long, surpassant les méthodes précédentes de 14,94 %. Notre MiniGPT4-Video montre également des performances exceptionnelles dans la compréhension des vidéos courtes, dépassant les méthodes état de l'art existantes de 3,23 %, 2,03 %, 16,5 % et 23,59 % sur les benchmarks MSVD, MSRVTT, TGIF et TVQA pour les vidéos courtes, respectivement. Ces résultats indiquent que nos modèles apportent des améliorations significatives dans la compréhension des vidéos longues et courtes. Nos modèles et notre code sont disponibles publiquement à l'adresse https://vision-cair.github.io/Goldfish_website/.
Le raisonnement complexe est une capacité impressionnante démontrée par les grands modèles de langage (LLMs). La plupart des LLMs excellent dans le raisonnement déductif, comme l'incitation à la chaîne de pensée ou l'utilisation itérative d'outils pour résoudre des tâches complexes étape par étape. Dans cet article, nous souhaitons nous concentrer sur l'évaluation et l'enseignement des LLMs pour effectuer un raisonnement inductif, c'est-à-dire que les LLMs doivent inférer des règles sous-jacentes en observant des exemples ou des transformations séquentielles. Cependant, collecter des données inductives générées par l'homme à grande échelle et diversifiées est un défi. Nous nous concentrons sur la synthèse de données dans le domaine du code et proposons une tâche Case2Code en exploitant l'expressivité et la correction des programmes. Plus précisément, nous collectons un ensemble diversifié de programmes exécutables, synthétisons des transformations entrée-sortie pour chaque programme, et forçons les LLMs à inférer les implémentations de code sous-jacentes basées sur les cas I/O synthétiques. Nous évaluons d'abord des LLMs représentatifs sur la tâche Case2Code synthétisée et démontrons que l'induction de cas à code est difficile pour les LLMs. Ensuite, nous synthétisons un grand nombre d'échantillons d'entraînement Case2Code pour entraîner les LLMs à effectuer un raisonnement inductif. Les résultats expérimentaux montrent qu'un tel entraînement inductif bénéficie non seulement à la performance Case2Code en distribution, mais améliore également diverses capacités de codage des LLMs entraînés, démontrant le grand potentiel de l'apprentissage du raisonnement inductif via des données synthétiques.
Alors que la plupart des modèles de génération musicale utilisent un conditionnement textuel ou paramétrique (par exemple, tempo, harmonie, genre musical), nous proposons de conditionner un système de génération musicale basé sur un modèle de langage avec une entrée audio. Notre exploration implique deux stratégies distinctes. La première stratégie, appelée inversion textuelle, exploite un modèle pré-entraîné de texte-à-musique pour mapper l'entrée audio à des "pseudomots" correspondants dans l'espace d'embedding textuel. Pour le second modèle, nous entraînons un modèle de langage musical à partir de zéro conjointement avec un conditionneur de texte et un extracteur de caractéristiques audio quantifiées. Au moment de l'inférence, nous pouvons mélanger le conditionnement textuel et audio et les équilibrer grâce à une nouvelle méthode de double guidage sans classifieur. Nous menons des études automatiques et humaines qui valident notre approche. Nous publierons le code et fournirons des échantillons musicaux sur https://musicgenstyle.github.io afin de démontrer la qualité de notre modèle.
La synthèse de nouvelles vues à partir de collections d'images non contraintes en conditions réelles reste une tâche importante mais difficile en raison des variations photométriques et des objets transitoires qui compliquent la reconstruction précise de la scène. Les méthodes précédentes ont abordé ces problèmes en intégrant des caractéristiques d'apparence par image dans les champs de radiance neuronaux (NeRFs). Bien que le lissage par gaussiennes 3D (3DGS) offre un entraînement plus rapide et un rendu en temps réel, son adaptation pour des collections d'images non contraintes est non triviale en raison de l'architecture substantiellement différente. Dans cet article, nous présentons Splatfacto-W, une approche qui intègre des caractéristiques de couleur neuronales par gaussienne et des embeddings d'apparence par image dans le processus de rasterisation, ainsi qu'un modèle de fond basé sur les harmoniques sphériques pour représenter les variations photométriques et mieux dépeindre les arrière-plans. Nos contributions clés incluent la modélisation latente de l'apparence, la gestion efficace des objets transitoires et la modélisation précise de l'arrière-plan. Splatfacto-W offre une synthèse de nouvelles vues de haute qualité en temps réel avec une meilleure cohérence de scène dans des scénarios réels. Notre méthode améliore le rapport signal sur bruit de crête (PSNR) de 5,3 dB en moyenne par rapport au 3DGS, accélère l'entraînement de 150 fois par rapport aux méthodes basées sur NeRF, et atteint une vitesse de rendu similaire au 3DGS. Des résultats vidéo supplémentaires et le code intégré à Nerfstudio sont disponibles à l'adresse https://kevinxu02.github.io/splatfactow/.
La préhension robotique dans des environnements encombrés reste un défi majeur en raison des occlusions et des arrangements complexes d'objets. Nous avons développé ThinkGrasp, un système de préhension vision-langage plug-and-play qui exploite le raisonnement contextuel avancé de GPT-4o pour élaborer des stratégies de préhension dans des environnements fortement encombrés. ThinkGrasp est capable d'identifier et de générer efficacement des poses de préhension pour les objets cibles, même lorsqu'ils sont fortement obstrués ou presque invisibles, en utilisant un langage orienté vers un objectif pour guider l'élimination des objets obstructifs. Cette approche dévoile progressivement l'objet cible et finit par le saisir en quelques étapes avec un taux de réussite élevé. Dans des expériences à la fois simulées et réelles, ThinkGrasp a atteint un taux de réussite élevé et a surpassé de manière significative les méthodes de pointe dans des environnements fortement encombrés ou avec des objets divers et inconnus, démontrant ainsi de solides capacités de généralisation.
L'interface graphique utilisateur (GUI) est le moyen par lequel les utilisateurs interagissent avec les applications mobiles. Pour s'assurer qu'elle fonctionne correctement, les ingénieurs de test doivent vérifier qu'elle se comporte comme prévu, en se basant sur des exigences de test généralement rédigées en langage naturel. Bien que les méthodes de test manuel et basées sur des scripts, largement adoptées, soient efficaces, elles nécessitent un effort considérable en raison du grand nombre de pages d'interface graphique et des itérations rapides dans les applications mobiles modernes. Cet article présente AUITestAgent, le premier outil de test d'interface graphique entièrement automatisé et piloté par le langage naturel pour les applications mobiles, capable d'automatiser l'intégralité du processus d'interaction avec l'interface graphique et de vérification des fonctionnalités. Étant donné que les exigences de test contiennent généralement des commandes d'interaction et des oracles de vérification, AUITestAgent peut extraire les interactions avec l'interface graphique à partir des exigences de test via des agents organisés dynamiquement. Ensuite, AUITestAgent utilise une stratégie d'extraction de données multidimensionnelle pour récupérer les données pertinentes par rapport aux exigences de test à partir de la trace d'interaction et effectuer la vérification. Les expériences sur des benchmarks personnalisés démontrent qu'AUITestAgent surpasse les outils existants en termes de qualité des interactions générées avec l'interface graphique et atteint une précision de vérification de 94 %. De plus, le déploiement sur le terrain chez Meituan a montré l'utilité pratique d'AUITestAgent, avec la détection de 4 nouveaux bugs fonctionnels lors de 10 tests de régression en deux mois.
Tirant parti des avancées remarquables des modèles de langage à grande échelle (LLMs), une initiative émergente vise à exploiter ces LLMs pour la navigation robotique guidée par instructions. Cette tendance souligne le potentiel des LLMs à généraliser le raisonnement de navigation et la compréhension linguistique diversifiée. Cependant, une divergence significative dans les performances des agents est observée lors de l'intégration des LLMs dans les tâches de navigation visuelle et linguistique (VLN) par rapport aux modèles spécialisés précédents. De plus, la capacité inhérente du langage à interpréter et à faciliter la communication dans les interactions entre agents est souvent sous-utilisée dans ces intégrations. Dans ce travail, nous cherchons à combler le fossé entre les modèles spécialisés en VLN et les paradigmes de navigation basés sur les LLMs, tout en préservant la puissance interprétative des LLMs dans la génération de raisonnements de navigation linguistiques. En alignant le contenu visuel dans un LLM figé, nous englobons la compréhension des observations visuelles pour les LLMs et exploitons une méthode pour intégrer les LLMs et les réseaux de politiques de navigation afin de prédire efficacement les actions et de raisonner sur la navigation. Nous démontrons l'efficacité en termes de données des méthodes proposées et éliminons l'écart entre les agents basés sur des modèles de langage et les spécialistes de pointe en VLN.
Bien que les modèles de langage de grande taille (LLM) aient démontré des performances impressionnantes dans divers domaines et tâches, leurs problèmes de sécurité sont devenus de plus en plus préoccupants. Le désapprentissage machine (Machine Unlearning, MU) est apparu comme une solution prometteuse pour résoudre ces problèmes en éliminant l'influence des données indésirables sur le modèle cible sans compromettre son utilité dans d'autres aspects. Le MU suppose généralement un accès complet aux données d'entraînement originales pour préserver l'utilité, ce qui est difficile à réaliser dans le désapprentissage des LLM. Les méthodes existantes de désapprentissage des LLM supposent souvent un accès aux données les plus affectées par le désapprentissage des données indésirables. Cependant, cette hypothèse sous-estime l'imbrication entre les différentes capacités des LLM et ignore les limitations d'accès aux données dues à divers problèmes. De plus, ces méthodes de désapprentissage des LLM ne prennent pas suffisamment en compte que les demandes de désapprentissage dans les scénarios réels émergent continuellement. Pour surmonter ces défis et réaliser un désapprentissage pratique des LLM, nous proposons le cadre O3. Le cadre O3 inclut un détecteur de données hors distribution (Out-Of-Distribution, OOD) pour mesurer la similarité entre les données d'entrée et les données à désapprendre, ainsi qu'un adaptateur orthogonal de faible rang (LoRA) pour désapprendre continuellement les données demandées. Le détecteur OOD est entraîné avec une nouvelle fonction de perte d'entropie contrastive et utilise un mécanisme de notation agrégée par couches local-global. Le LoRA orthogonal permet une séparation des paramètres entre les demandes de désapprentissage continues. Pendant l'inférence, notre cadre O3 peut décider intelligemment si et dans quelle mesure charger le LoRA de désapprentissage en fonction des prédictions du détecteur OOD. Notamment, l'efficacité de O3 ne repose sur aucune donnée conservée. Nous avons mené des expériences approfondies sur O3 et les méthodes de désapprentissage des LLM les plus avancées sur trois tâches et sept ensembles de données. Les résultats indiquent que O3 atteint systématiquement le meilleur compromis entre l'efficacité du désapprentissage et la préservation de l'utilité, en particulier face à des demandes de désapprentissage continues.
Les modèles de langage basés sur le chat sont conçus pour être utiles, mais ils ne devraient pas se conformer à chaque demande de l'utilisateur. Bien que la plupart des travaux existants se concentrent principalement sur le refus des requêtes "dangereuses", nous postulons que la portée de la non-conformité devrait être élargie. Nous introduisons une taxonomie complète de la non-conformité contextuelle décrivant quand et comment les modèles ne devraient pas se conformer aux demandes des utilisateurs. Notre taxonomie couvre un large éventail de catégories, y compris les demandes incomplètes, non étayées, indéterminées et humanisantes (en plus des demandes dangereuses). Pour tester les capacités de non-conformité des modèles de langage, nous utilisons cette taxonomie pour développer une nouvelle suite d'évaluation de 1000 invites de non-conformité. Nous constatons que la plupart des modèles existants montrent des taux de conformité significativement élevés dans certaines catégories précédemment sous-étudiées, avec des modèles comme GPT-4 se conformant incorrectement à jusqu'à 30 % des demandes. Pour combler ces lacunes, nous explorons différentes stratégies d'entraînement en utilisant un ensemble de données d'entraînement synthétiquement généré de demandes et de réponses non conformes attendues. Nos expériences démontrent que bien que le finetuning direct des modèles ajustés aux instructions puisse conduire à un sur-refus et à un déclin des capacités générales, l'utilisation de méthodes paramétriquement efficaces comme les adaptateurs de bas rang permet de trouver un bon équilibre entre une non-conformité appropriée et d'autres capacités.
Les méthodes de détection d'erreurs grammaticales (GED) reposent fortement sur des corpus d'erreurs annotés manuellement. Cependant, ces annotations sont indisponibles dans de nombreuses langues à ressources limitées. Dans cet article, nous étudions la GED dans ce contexte. En exploitant les capacités de transfert multilingue zero-shot des modèles de langage pré-entraînés multilingues, nous entraînons un modèle à l'aide de données provenant d'un ensemble diversifié de langues pour générer des erreurs synthétiques dans d'autres langues. Ces corpus d'erreurs synthétiques sont ensuite utilisés pour entraîner un modèle de GED. Plus précisément, nous proposons un pipeline de fine-tuning en deux étapes où le modèle de GED est d'abord affiné sur des données synthétiques multilingues provenant des langues cibles, puis affiné sur des corpus de GED annotés manuellement provenant de langues sources. Cette approche surpasse les méthodes actuelles de GED sans annotation de pointe. Nous analysons également les erreurs produites par notre méthode et d'autres modèles de référence solides, constatant que notre approche génère des erreurs plus diversifiées et plus similaires aux erreurs humaines.
Les modèles de génération vidéo (VGMs) ont démontré leur capacité à synthétiser des résultats de haute qualité. Il est important de comprendre leur potentiel à produire du contenu dangereux, comme des vidéos violentes ou effrayantes. Dans ce travail, nous offrons une compréhension approfondie de la génération de vidéos dangereuses. Tout d'abord, pour confirmer la possibilité que ces modèles puissent effectivement générer des vidéos dangereuses, nous choisissons des prompts de génération de contenu dangereux collectés sur 4chan et Lexica, ainsi que trois VGMs open-source de pointe pour générer des vidéos dangereuses. Après avoir filtré les doublons et le contenu mal généré, nous avons créé un ensemble initial de 2112 vidéos dangereuses à partir d'un pool original de 5607 vidéos. Grâce à une analyse de clustering et de codage thématique de ces vidéos générées, nous identifions 5 catégories de vidéos dangereuses : Distordues/Bizarres, Effrayantes, Pornographiques, Violentes/Sanglantes et Politiques. Avec l'approbation de l'IRB, nous avons ensuite recruté des participants en ligne pour aider à étiqueter les vidéos générées. Sur la base des annotations soumises par 403 participants, nous avons identifié 937 vidéos dangereuses dans l'ensemble initial. Avec les informations étiquetées et les prompts correspondants, nous avons créé le premier ensemble de données de vidéos dangereuses générées par des VGMs. Nous étudions ensuite les mécanismes de défense possibles pour empêcher la génération de vidéos dangereuses. Les méthodes de défense existantes dans la génération d'images se concentrent sur le filtrage des prompts d'entrée ou des résultats de sortie. Nous proposons une nouvelle approche appelée Défense par Variable Latente (LVD), qui fonctionne au sein du processus d'échantillonnage interne du modèle. LVD peut atteindre une précision de défense de 0,90 tout en réduisant le temps et les ressources de calcul par un facteur de 10 lors de l'échantillonnage d'un grand nombre de prompts dangereux.