Articles de recherche en IA sélectionnés quotidiennement avec traductions
La performance d'un grand modèle de langage (LLM) dépend fortement de la qualité et de la taille de son jeu de données de pré-entraînement. Cependant, les jeux de données de pré-entraînement pour les LLM open source de pointe comme Llama 3 et Mixtral ne sont pas accessibles au public, et très peu d'informations sont disponibles sur leur processus de création. Dans ce travail, nous présentons FineWeb, un jeu de données de 15 000 milliards de tokens dérivé de 96 instantanés de Common Crawl, qui permet d'obtenir des LLM plus performants que les autres jeux de données de pré-entraînement ouverts. Pour approfondir la compréhension des meilleures pratiques de curation de jeux de données de pré-entraînement de haute qualité, nous documentons et analysons minutieusement tous les choix de conception utilisés dans FineWeb, y compris des investigations approfondies sur les stratégies de déduplication et de filtrage. En outre, nous introduisons FineWeb-Edu, une collection de 1 300 milliards de tokens de textes éducatifs filtrés à partir de FineWeb. Les LLM pré-entraînés sur FineWeb-Edu montrent une performance nettement supérieure sur des benchmarks exigeants en connaissances et en raisonnement, comme MMLU et ARC. En parallèle de nos jeux de données, nous rendons publics notre codebase de curation de données ainsi que tous les modèles entraînés lors de nos expériences d'ablation.
La génération 3D guidée par des modèles de diffusion texte-image permet la création d'éléments visuellement captivants. Cependant, les méthodes précédentes explorent la génération basée sur des images ou du texte. Les limites de la créativité sont restreintes par ce qui peut être exprimé à travers des mots ou les images disponibles. Nous présentons YouDream, une méthode pour générer des animaux de haute qualité avec un contrôle anatomique. YouDream est guidé par un modèle de diffusion texte-image contrôlé par des vues 2D d'une pose 3D préalable. Notre méthode génère des animaux 3D impossibles à créer avec les méthodes de génération texte-3D précédentes. De plus, notre méthode est capable de préserver la cohérence anatomique des animaux générés, un domaine où les approches texte-3D antérieures rencontrent souvent des difficultés. Par ailleurs, nous concevons un pipeline entièrement automatisé pour générer des animaux couramment rencontrés. Pour contourner le besoin d'intervention humaine pour créer une pose 3D, nous proposons un modèle de langage multi-agent (LLM) qui adapte les poses d'une bibliothèque limitée de poses 3D animales pour représenter l'animal souhaité. Une étude utilisateur menée sur les résultats de YouDream démontre la préférence pour les modèles animaux générés par notre méthode par rapport aux autres. Les résultats en rotation et le code sont disponibles à l'adresse https://youdream3d.github.io/
Les modèles de langage (LMs) démontrent des performances impressionnantes et des capacités de généralisation remarquables. Cependant, ils sont confrontés au défi persistant de l'oubli catastrophique, qui compromet leur durabilité à long terme dans le cadre de l'apprentissage continu (CL). Les approches existantes traitent généralement ce problème en intégrant des données d'anciennes tâches ou un biais inductif spécifique à chaque tâche dans les LMs. Cependant, les données anciennes et les informations précises sur les tâches sont souvent indisponibles ou coûteuses à collecter, limitant ainsi la disponibilité des approches actuelles de CL pour les LMs. Pour pallier cette limitation, nous introduisons MIGU (MagnItude-based Gradient Updating for continual learning), une méthode sans répétition et sans étiquette de tâche qui ne met à jour que les paramètres du modèle présentant de grandes magnitudes de sortie dans les couches linéaires des LMs. MIGU repose sur notre observation que la distribution normalisée L1 des magnitudes de sortie dans les couches linéaires des LMs diffère lorsque les LMs traitent des données de tâches différentes. En imposant cette simple contrainte sur le processus de mise à jour des gradients, nous pouvons exploiter les comportements inhérents des LMs, débloquant ainsi leurs capacités naturelles de CL. Nos expériences montrent que MIGU est universellement applicable aux trois architectures de LMs (T5, RoBERTa et Llama2), offrant des performances de pointe ou comparables dans les contextes de fine-tuning continu et de pré-entraînement continu sur quatre benchmarks de CL. Par exemple, MIGU apporte une amélioration moyenne de 15,2 % en précision par rapport aux baselines conventionnelles de fine-tuning efficace en paramètres dans un benchmark de CL à 15 tâches. MIGU peut également s'intégrer de manière transparente avec les trois types existants de CL pour améliorer encore les performances. Le code est disponible à l'adresse suivante : https://github.com/wenyudu/MIGU{this https URL}.
Les récents progrès dans l'optimisation des préférences humaines, initialement développés pour les modèles de langage (LMs), montrent des résultats prometteurs pour les modèles de diffusion text-to-image, améliorant l'alignement des prompts, l'attrait visuel et les préférences des utilisateurs. Contrairement aux LMs, les modèles de diffusion optimisent généralement dans l'espace des pixels ou de l'autoencodeur variationnel (VAE), ce qui ne correspond pas bien à la perception humaine, entraînant un entraînement plus lent et moins efficace lors de l'étape d'alignement des préférences. Nous proposons d'utiliser un objectif perceptuel dans l'espace d'embedding U-Net du modèle de diffusion pour résoudre ces problèmes. Notre approche consiste à affiner Stable Diffusion 1.5 et XL en utilisant l'Optimisation Directe des Préférences (DPO), l'Optimisation des Préférences par Contraste (CPO) et l'affinage supervisé (SFT) dans cet espace d'embedding. Cette méthode surpasse significativement les implémentations standard dans l'espace latent sur diverses métriques, y compris la qualité et le coût computationnel. Pour SDXL, notre approche offre 60,8 % de préférence générale, 62,2 % d'attrait visuel et 52,1 % de suivi des prompts par rapport à la version open-source originale de SDXL-DPO sur le dataset PartiPrompts, tout en réduisant considérablement les ressources de calcul. Notre approche améliore non seulement l'efficacité et la qualité de l'alignement des préférences humaines pour les modèles de diffusion, mais est également facilement intégrable avec d'autres techniques d'optimisation. Le code d'entraînement et les poids LoRA seront disponibles ici : https://huggingface.co/alexgambashidze/SDXL\_NCP-DPO\_v0.1
Le progrès des modèles d'agents d'appel de fonctions nécessite des ensembles de données diversifiés, fiables et de haute qualité. Cet article présente APIGen, un pipeline automatisé de génération de données conçu pour synthétiser des ensembles de données vérifiables et de haute qualité pour les applications d'appel de fonctions. Nous exploitons APIGen et collectons 3 673 API exécutables réparties dans 21 catégories différentes pour générer des ensembles de données d'appel de fonctions de manière structurée et évolutive. Chaque donnée de notre ensemble est vérifiée à travers trois étapes hiérarchiques : vérification du format, exécutions réelles des fonctions et vérification sémantique, garantissant ainsi sa fiabilité et son exactitude. Nous démontrons que les modèles entraînés avec nos ensembles de données, même avec seulement 7 milliards de paramètres, peuvent atteindre des performances de pointe sur le Berkeley Function-Calling Benchmark, surpassant plusieurs modèles GPT-4. De plus, notre modèle de 1 milliard de paramètres obtient des performances exceptionnelles, dépassant GPT-3.5-Turbo et Claude-3 Haiku. Nous publions un ensemble de données contenant 60 000 entrées de haute qualité, visant à faire progresser le domaine des agents d'appel de fonctions. L'ensemble de données est disponible sur Huggingface : https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k et sur la page d'accueil du projet : https://apigen-pipeline.github.io/
Nous présentons un cadre général pour résoudre des équations aux dérivées partielles (EDP) en utilisant des modèles de diffusion génératifs. Nous nous concentrons en particulier sur les scénarios où nous ne disposons pas de la connaissance complète de la scène nécessaire pour appliquer des solveurs classiques. La plupart des approches existantes pour les EDP directes ou inverses performent mal lorsque les observations sur les données ou les coefficients sous-jacents sont incomplètes, ce qui est une hypothèse courante pour les mesures du monde réel. Dans ce travail, nous proposons DiffusionPDE, qui peut simultanément combler les informations manquantes et résoudre une EDP en modélisant la distribution conjointe des espaces de solutions et de coefficients. Nous montrons que les a priori génératifs appris conduisent à un cadre polyvalent pour résoudre avec précision un large éventail d'EDP sous observation partielle, surpassant significativement les méthodes de pointe dans les directions directes et inverses.
Les capacités de contexte long des grands modèles de langage (LLMs) ont été un sujet brûlant ces dernières années. Pour évaluer les performances des LLMs dans différents scénarios, divers benchmarks d'évaluation ont émergé. Cependant, comme la plupart de ces benchmarks se concentrent sur l'identification d'informations clés pour répondre à des questions, ce qui nécessite principalement la capacité de récupération des LLMs, ces benchmarks ne représentent que partiellement la performance de raisonnement des LLMs à partir de grandes quantités d'informations. Par ailleurs, bien que les LLMs prétendent souvent avoir des fenêtres de contexte de 32k, 128k, 200k, voire plus, ces benchmarks ne parviennent pas à révéler la longueur de contexte réellement supportée par ces LLMs. Pour résoudre ces problèmes, nous proposons le jeu de données LongIns, un examen basé sur des instructions de contexte long et exigeant pour les LLMs, construit à partir des jeux de données d'instructions existants. Plus précisément, dans notre LongIns, nous introduisons trois configurations d'évaluation : Instruction Globale & Tâche Unique (GIST), Instruction Locale & Tâche Unique (LIST), et Instruction Locale & Tâches Multiples (LIMT). Sur la base de LongIns, nous effectuons des évaluations complètes des LLMs existants et obtenons les conclusions importantes suivantes : (1) Le GPT-4, meilleur performant avec une longueur de contexte de 128k, obtient de mauvais résultats sur la fenêtre de contexte d'évaluation de 16k dans notre LongIns. (2) Pour la capacité de raisonnement multi-sauts de nombreux LLMs existants, des efforts significatifs sont encore nécessaires sous des fenêtres de contexte courtes (moins de 4k).
Les modèles de langage multi-modaux de grande taille (MLLMs) ont réalisé des progrès significatifs dans diverses tâches de compréhension visuelle. Cependant, la majorité de ces modèles sont limités au traitement d'images de basse résolution, ce qui restreint leur efficacité dans les tâches de perception nécessitant des informations visuelles détaillées. Dans notre étude, nous présentons MG-LLaVA, un MLLM innovant qui améliore les capacités de traitement visuel du modèle en intégrant un flux visuel multi-granularité, comprenant des caractéristiques de basse résolution, de haute résolution et centrées sur les objets. Nous proposons l'intégration d'un encodeur visuel supplémentaire de haute résolution pour capturer des détails fins, qui sont ensuite fusionnés avec les caractéristiques visuelles de base via un réseau de fusion Conv-Gate. Pour affiner davantage les capacités de reconnaissance d'objets du modèle, nous incorporons des caractéristiques au niveau des objets dérivées des boîtes englobantes identifiées par des détecteurs hors ligne. Entraîné uniquement sur des données multimodales publiquement disponibles via l'ajustement par instruction, MG-LLaVA démontre des compétences de perception exceptionnelles. Nous instancions MG-LLaVA avec une grande variété d'encodeurs de langage, allant de 3,8B à 34B, pour évaluer de manière exhaustive les performances du modèle. Des évaluations approfondies sur plusieurs benchmarks montrent que MG-LLaVA surpasse les MLLMs existants de tailles de paramètres comparables, démontrant ainsi son efficacité remarquable. Le code sera disponible à l'adresse https://github.com/PhoenixZ810/MG-LLaVA.
Dans ce travail, nous présentons MotionBooth, un cadre innovant conçu pour animer des sujets personnalisés avec un contrôle précis des mouvements de l'objet et de la caméra. En exploitant quelques images d'un objet spécifique, nous affinons efficacement un modèle texte-à-vidéo pour capturer avec précision la forme et les attributs de l'objet. Notre approche introduit une perte de région du sujet et une perte de préservation vidéo pour améliorer les performances d'apprentissage du sujet, ainsi qu'une perte d'attention croisée par token du sujet pour intégrer le sujet personnalisé avec les signaux de contrôle de mouvement. De plus, nous proposons des techniques sans apprentissage pour gérer les mouvements du sujet et de la caméra lors de l'inférence. En particulier, nous utilisons la manipulation de cartes d'attention croisée pour contrôler le mouvement du sujet et introduisons un nouveau module de décalage latent pour le contrôle des mouvements de la caméra. MotionBooth excelle dans la préservation de l'apparence des sujets tout en contrôlant simultanément les mouvements dans les vidéos générées. Des évaluations quantitatives et qualitatives approfondies démontrent la supériorité et l'efficacité de notre méthode. Notre page de projet est disponible à l'adresse https://jianzongwu.github.io/projects/motionbooth.
Les capacités de modélisation de contexte long ont suscité une attention généralisée, conduisant à l'émergence de modèles de langage de grande envergure (LLMs) dotés de fenêtres de contexte ultra-longues. Parallèlement, les benchmarks pour évaluer les LLMs à contexte long rattrapent progressivement leur retard. Cependant, les benchmarks existants utilisent des textes de bruit non pertinents pour prolonger artificiellement la longueur des cas de test, s'éloignant ainsi des scénarios réels d'applications à contexte long. Pour combler cette lacune, nous proposons un nouveau benchmark de contexte long, Loong, aligné sur des scénarios réalistes grâce à un système de question-réponse (QA) multi-document étendu. Contrairement au QA documentaire typique, dans les cas de test de Loong, chaque document est pertinent pour la réponse finale, et ignorer un document entraînera l'échec de la réponse. De plus, Loong introduit quatre types de tâches avec une gamme de longueurs de contexte : Localisation de point focal, Comparaison, Clustering et Chaîne de raisonnement, afin de faciliter une évaluation plus réaliste et complète de la compréhension de contexte long. Des expériences approfondies indiquent que les modèles de langage à contexte long existants présentent encore un potentiel considérable d'amélioration. La génération augmentée par récupération (RAG) obtient de faibles performances, démontrant que Loong peut évaluer de manière fiable les capacités de modélisation de contexte long des modèles.
La segmentation de texte en phrases joue un rôle précoce et crucial dans de nombreux systèmes de traitement du langage naturel (NLP). Cela est généralement réalisé en utilisant des méthodes basées sur des règles ou des méthodes statistiques s'appuyant sur des caractéristiques lexicales telles que la ponctuation. Bien que certains travaux récents ne dépendent plus exclusivement de la ponctuation, nous constatons qu'aucune méthode antérieure ne parvient à satisfaire simultanément (i) la robustesse face à l'absence de ponctuation, (ii) l'adaptabilité efficace à de nouveaux domaines, et (iii) une grande efficacité. Nous introduisons un nouveau modèle - Segment any Text (SaT) - pour résoudre ce problème. Pour améliorer la robustesse, nous proposons un nouveau schéma de pré-entraînement qui réduit la dépendance à la ponctuation. Pour aborder l'adaptabilité, nous introduisons une étape supplémentaire de fine-tuning paramétrique efficace, établissant des performances de pointe dans des domaines distincts tels que les vers de paroles de chansons et les documents juridiques. Par ailleurs, nous introduisons des modifications architecturales qui entraînent un gain de vitesse triplé par rapport à l'état de l'art précédent et résolvent la dépendance erronée à un contexte lointain. Enfin, nous présentons une variante de notre modèle avec un fine-tuning sur un mélange diversifié et multilingue de données segmentées en phrases, agissant comme un remplacement direct et une amélioration des outils de segmentation existants. Globalement, nos contributions fournissent une approche universelle pour segmenter n'importe quel texte. Notre méthode surpasse toutes les bases de référence - y compris les modèles de langage (LLM) puissants - à travers 8 corpus couvrant divers domaines et langues, en particulier dans des situations pratiques où le texte est mal formaté. Nos modèles et code, y compris la documentation, sont disponibles à l'adresse https://huggingface.co/segment-any-text sous licence MIT.
Malgré les capacités générales des grands modèles de langage pré-entraînés (LLMs), ceux-ci nécessitent encore une adaptation supplémentaire pour mieux répondre aux applications pratiques. Dans cet article, nous démontrons l'interchangeabilité de trois outils d'adaptation populaires et distincts : la mise à jour des paramètres, la modélisation des récompenses et l'incitation contextuelle (in-context prompting). Cette interchangeabilité établit un cadre triangulaire avec six directions de transformation, chacune facilitant une variété d'applications. Notre travail offre une vision holistique qui unifie de nombreuses études existantes et suggère des directions de recherche potentielles. Nous envisageons notre travail comme une feuille de route utile pour les recherches futures sur les LLMs.
Le modèle de diffusion a démontré une capacité remarquable dans la génération de vidéos, ce qui suscite un intérêt croissant pour l'introduction d'un contrôle de trajectoire dans le processus de génération. Alors que les travaux existants se concentrent principalement sur des méthodes basées sur l'apprentissage (par exemple, l'adaptateur conditionnel), nous soutenons que le modèle de diffusion lui-même permet un contrôle décent du contenu généré sans nécessiter d'apprentissage. Dans cette étude, nous introduisons un cadre sans ajustement pour réaliser une génération de vidéos à trajectoire contrôlable, en imposant des guidages sur la construction du bruit et le calcul de l'attention. Plus précisément, 1) nous montrons d'abord plusieurs phénomènes instructifs et analysons comment les bruits initiaux influencent la trajectoire du mouvement du contenu généré. 2) Ensuite, nous proposons FreeTraj, une approche sans ajustement qui permet le contrôle de la trajectoire en modifiant l'échantillonnage du bruit et les mécanismes d'attention. 3) De plus, nous étendons FreeTraj pour faciliter la génération de vidéos plus longues et plus grandes avec des trajectoires contrôlables. Grâce à ces conceptions, les utilisateurs ont la flexibilité de fournir des trajectoires manuellement ou d'opter pour des trajectoires générées automatiquement par le planificateur de trajectoire LLM. Des expériences approfondies valident l'efficacité de notre approche pour améliorer la contrôlabilité des trajectoires des modèles de diffusion vidéo.
Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont considérablement amélioré les capacités des agents conversationnels, les rendant applicables à divers domaines (par exemple, l'éducation). Malgré ces progrès, l'évaluation de ces agents néglige souvent les complexités des conversations réelles, telles que les interactions en temps réel, les dialogues multipartites et les dépendances contextuelles étendues. Pour combler cette lacune, nous introduisons DialSim, un simulateur de dialogue en temps réel. Dans ce simulateur, un agent se voit attribuer le rôle d'un personnage issu de séries télévisées populaires, ce qui l'oblige à répondre à des questions spontanées en utilisant les informations des dialogues passés et à distinguer les informations connues des inconnues. Les caractéristiques clés de DialSim incluent l'évaluation de la capacité de l'agent à répondre dans un délai raisonnable, la gestion de dialogues multipartites sur le long terme, et la gestion de scénarios adverses (par exemple, l'échange de noms de personnages) pour mettre à l'épreuve la dépendance de l'agent aux connaissances pré-entraînées. Nous avons utilisé ce simulateur pour évaluer les derniers agents conversationnels et analyser leurs limites. Nos expériences mettent en lumière à la fois les forces et les faiblesses de ces agents, fournissant des insights précieux pour les améliorations futures dans le domaine de l'IA conversationnelle. DialSim est disponible à l'adresse suivante : https://github.com/jiho283/Simulator.
La réalisation de films et la production d'animation nécessitent souvent des techniques sophistiquées pour coordonner les transitions de caméra et les mouvements d'objets, impliquant généralement une capture en monde réel laborieuse. Malgré les avancées de l'IA générative pour la création vidéo, obtenir un contrôle précis du mouvement pour la génération interactive d'assets vidéo reste un défi. À cette fin, nous proposons Image Conductor, une méthode permettant un contrôle précis des transitions de caméra et des mouvements d'objets pour générer des assets vidéo à partir d'une seule image. Une stratégie d'entraînement bien élaborée est proposée pour séparer les mouvements distincts de la caméra et des objets via des poids LoRA pour la caméra et des poids LoRA pour les objets. Pour mieux gérer les variations cinématographiques issues de trajectoires mal posées, nous introduisons une technique de guidage sans caméra lors de l'inférence, améliorant les mouvements d'objets tout en éliminant les transitions de caméra. De plus, nous développons un pipeline de curation de données de mouvement vidéo orienté trajectoire pour l'entraînement. Les expériences quantitatives et qualitatives démontrent la précision et le contrôle granulaire de notre méthode dans la génération de vidéos contrôlables en mouvement à partir d'images, faisant progresser l'application pratique de la synthèse vidéo interactive. Page web du projet disponible à l'adresse https://liyaowei-stu.github.io/project/ImageConductor/
L'entraînement et le réglage fin des grands modèles de langage (LLM) sont souvent limités par la mémoire GPU disponible. Bien que les méthodes d'optimisation basées sur la projection existantes abordent ce problème en projetant les gradients dans un sous-espace de dimension inférieure pour réduire la mémoire des états de l'optimiseur, elles reposent généralement sur des matrices de projection denses, ce qui peut introduire des surcharges de calcul et de mémoire. Dans ce travail, nous proposons Grass (GRAdient Structured Sparsification), une approche novatrice qui exploite des projections creuses pour transformer les gradients en mises à jour structurées et creuses. Cette conception réduit non seulement de manière significative l'utilisation de la mémoire pour les états de l'optimiseur, mais minimise également l'empreinte mémoire des gradients, les coûts de calcul et de communication, conduisant à des améliorations substantielles du débit. Des expériences approfondies sur des tâches de pré-entraînement et de réglage fin démontrent que Grass atteint des performances comparables à l'entraînement en rang complet et aux méthodes de projection existantes. Notamment, Grass permet le pré-entraînement en demi-précision d'un modèle LLaMA de 13 milliards de paramètres sur un seul GPU A100 de 40 Go—une prouesse impossible pour les méthodes précédentes—et offre jusqu'à une amélioration du débit par un facteur de 2 sur un système à 8 GPU. Le code est disponible à l'adresse suivante : https://github.com/aashiqmuhamed/GRASS.
Les méthodes de pilotage par activation se sont révélées efficaces pour conditionner la génération de modèles de langage en intervenant de manière additive sur les représentations intermédiaires des modèles. Cependant, l'évaluation de ces techniques s'est jusqu'à présent limitée à des propriétés de conditionnement uniques et à des contextes synthétiques. Dans ce travail, nous menons une évaluation approfondie de diverses stratégies de pilotage par activation, mettant en lumière la nature dépendante des propriétés des paramètres optimaux pour garantir un effet robuste tout au long de la génération. Pour résoudre ce problème, nous proposons la Composition Dynamique d'Activation, une approche informationnelle permettant de moduler l'intensité du pilotage d'une ou plusieurs propriétés durant la génération. Nos expériences sur le pilotage multi-propriétés montrent que notre méthode maintient avec succès un conditionnement élevé tout en minimisant l'impact du conditionnement sur la fluidité de la génération.
Pour que les systèmes d'IA communiquent efficacement avec les humains, ils doivent comprendre comment nous prenons des décisions. Cependant, les décisions humaines ne sont pas toujours rationnelles, donc les modèles internes implicites de prise de décision humaine dans les grands modèles de langage (LLMs) doivent en tenir compte. Les preuves empiriques précédentes semblent suggérer que ces modèles implicites sont précis — les LLMs offrent des proxys crédibles du comportement humain, agissant comme nous nous attendrions à ce que les humains le fassent dans les interactions quotidiennes. Cependant, en comparant le comportement et les prédictions des LLMs à un vaste ensemble de données de décisions humaines, nous constatons que ce n'est en réalité pas le cas : lorsqu'ils simulent et prédisent les choix des gens, une série de LLMs de pointe (GPT-4o & 4-Turbo, Llama-3-8B & 70B, Claude 3 Opus) supposent que les gens sont plus rationnels que nous ne le sommes réellement. Plus précisément, ces modèles s'écartent du comportement humain et s'alignent davantage sur un modèle classique de choix rationnel — la théorie de la valeur attendue. Fait intéressant, les gens ont également tendance à supposer que les autres sont rationnels lorsqu'ils interprètent leur comportement. Par conséquent, lorsque nous comparons les inférences que les LLMs et les gens tirent des décisions des autres en utilisant un autre ensemble de données psychologiques, nous constatons que ces inférences sont fortement corrélées. Ainsi, les modèles implicites de prise de décision des LLMs semblent alignés sur l'attente humaine que les autres agiront de manière rationnelle, plutôt que sur la façon dont les gens agissent réellement.
Alors que l'Intelligence Générale Artificielle (AGI) s'intègre de plus en plus dans divers aspects de la vie humaine, garantir la sécurité et l'alignement éthique de ces systèmes est primordial. Les études précédentes se concentrent principalement sur les menaces unimodales, ce qui pourrait ne pas suffire compte tenu de la nature intégrée et complexe des interactions intermodales. Nous introduisons un nouveau défi d'alignement de sécurité appelé Entrées Sûres mais Sorties Dangereuses (SIUO) pour évaluer l'alignement de sécurité intermodale. Plus précisément, il examine les cas où les modalités individuelles sont sûres indépendamment, mais pourraient potentiellement conduire à des sorties dangereuses ou contraires à l'éthique lorsqu'elles sont combinées. Pour étudier empiriquement ce problème, nous avons développé le SIUO, un benchmark intermodal couvrant 9 domaines critiques de sécurité, tels que l'automutilation, les activités illégales et les violations de la vie privée. Nos résultats révèlent des vulnérabilités de sécurité importantes dans les modèles de langage et de vision à la fois propriétaires et open source, tels que GPT-4V et LLaVA, soulignant l'incapacité des modèles actuels à interpréter et répondre de manière fiable à des scénarios complexes du monde réel.