Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'intégration et le déploiement d'agents intelligents basés sur des modèles de langage de grande taille (LLM) se heurtent à des défis qui compromettent leur efficacité et leur performance. Parmi ces problèmes figurent une planification et une allocation des ressources sous-optimales pour les requêtes des agents sur le LLM, les difficultés à maintenir le contexte lors des interactions entre l'agent et le LLM, ainsi que les complexités inhérentes à l'intégration d'agents hétérogènes aux capacités et spécialisations variées. L'augmentation rapide du nombre et de la complexité des agents aggrave ces problèmes, entraînant souvent des goulots d'étranglement et une utilisation sous-optimale des ressources. Inspirés par ces défis, cet article présente AIOS, un système d'exploitation pour agents LLM, qui intègre un modèle de langage de grande taille dans les systèmes d'exploitation (OS). Concrètement, AIOS est conçu pour optimiser l'allocation des ressources, faciliter la commutation de contexte entre les agents, permettre l'exécution concurrente des agents, fournir des services d'outils aux agents et maintenir un contrôle d'accès pour ces derniers. Nous présentons l'architecture d'un tel système d'exploitation, décrivons les principaux défis qu'il vise à résoudre, et fournissons la conception et l'implémentation de base d'AIOS. Nos expériences sur l'exécution concurrente de plusieurs agents démontrent la fiabilité et l'efficacité des modules d'AIOS. À travers cela, nous visons non seulement à améliorer les performances et l'efficacité des agents LLM, mais aussi à ouvrir la voie à un meilleur développement et déploiement de l'écosystème AIOS à l'avenir. Le projet est open-source à l'adresse suivante : https://github.com/agiresearch/AIOS.
Les modèles de diffusion texte-image possèdent une capacité sans précédent à générer des images diversifiées et de haute qualité. Cependant, ils peinent souvent à capturer fidèlement la sémantique souhaitée de prompts complexes incluant plusieurs sujets. Récemment, de nombreuses extensions de type layout-à-image ont été introduites pour améliorer le contrôle utilisateur, visant à localiser les sujets représentés par des tokens spécifiques. Pourtant, ces méthodes produisent souvent des images sémantiquement inexactes, en particulier lorsqu'elles traitent plusieurs sujets sémantiquement ou visuellement similaires. Dans ce travail, nous étudions et analysons les causes de ces limitations. Notre exploration révèle que le problème principal découle d'une fuite sémantique involontaire entre les sujets lors du processus de débruitage. Cette fuite est attribuée aux couches d'attention du modèle de diffusion, qui ont tendance à mélanger les caractéristiques visuelles des différents sujets. Pour résoudre ces problèmes, nous introduisons Bounded Attention, une méthode sans entraînement qui limite le flux d'information lors du processus d'échantillonnage. Bounded Attention empêche les fuites préjudiciables entre les sujets et permet de guider la génération pour promouvoir l'individualité de chaque sujet, même avec un conditionnement complexe multi-sujets. À travers une expérimentation approfondie, nous démontrons que notre méthode permet de générer plusieurs sujets qui s'alignent mieux avec les prompts et les layouts donnés.
Ce travail présente FlashFace, un outil pratique permettant aux utilisateurs de personnaliser facilement leurs propres photos à la volée en fournissant une ou plusieurs images de référence de visage ainsi qu'une invite textuelle. Notre approche se distingue des méthodes existantes de personnalisation de photos humaines par une préservation d'identité de plus haute fidélité et un meilleur suivi des instructions, grâce à deux conceptions subtiles. Premièrement, nous encodons l'identité du visage dans une série de cartes de caractéristiques plutôt qu'en un seul jeton d'image comme dans les travaux précédents, permettant au modèle de conserver davantage de détails des visages de référence (par exemple, cicatrices, tatouages et forme du visage). Deuxièmement, nous introduisons une stratégie d'intégration désentrelacée pour équilibrer le guidage textuel et visuel lors du processus de génération d'images à partir de texte, atténuant ainsi le conflit entre les visages de référence et les invites textuelles (par exemple, personnaliser un adulte en "enfant" ou en "personne âgée"). Les résultats expérimentaux approfondis démontrent l'efficacité de notre méthode dans diverses applications, notamment la personnalisation d'images humaines, l'échange de visages sous des invites linguistiques, la transformation de personnages virtuels en personnes réelles, etc. Page du projet : https://jshilong.github.io/flashface-page.
Les récents progrès des modèles de diffusion les ont placés à l'avant-garde de la génération d'images. Malgré leurs performances supérieures, ces modèles ne sont pas sans inconvénients ; ils se caractérisent par des architectures complexes et des exigences computationnelles substantielles, entraînant une latence significative en raison de leur processus d'échantillonnage itératif. Pour atténuer ces limitations, nous proposons une approche duale combinant la miniaturisation des modèles et une réduction des étapes d'échantillonnage, visant à diminuer considérablement la latence du modèle. Notre méthodologie exploite la distillation de connaissances pour simplifier les architectures U-Net et décodeur d'images, et introduit une technique innovante d'entraînement en une étape pour les modèles de diffusion (DM) qui utilise l'appariement de caractéristiques et la distillation de scores. Nous présentons deux modèles, SDXS-512 et SDXS-1024, atteignant des vitesses d'inférence d'environ 100 FPS (30 fois plus rapide que SD v1.5) et 30 FPS (60 fois plus rapide que SDXL) sur un seul GPU, respectivement. De plus, notre approche d'entraînement offre des applications prometteuses dans le contrôle conditionné par l'image, facilitant une traduction image-à-image efficace.
La compression des modèles de langage de grande capacité (LLMs) est devenue une stratégie privilégiée pour des inférences économes en ressources. Bien que les méthodes de compression de pointe (SoTA) affichent des avancées impressionnantes dans la préservation des performances sur des tâches bénignes, les risques potentiels de la compression en termes de sécurité et de fiabilité ont été largement négligés. Cette étude réalise la première évaluation approfondie de trois (3) LLMs leaders en utilisant cinq (5) techniques de compression SoTA à travers huit (8) dimensions de fiabilité. Nos expériences mettent en lumière l'interaction complexe entre compression et fiabilité, révélant des tendances intéressantes. Nous constatons que la quantification est actuellement une approche plus efficace que l'élagage pour atteindre simultanément efficacité et fiabilité. Par exemple, un modèle quantifié en 4 bits conserve la fiabilité de son homologue original, mais l'élagage du modèle dégrade significativement la fiabilité, même à 50 % de sparsité. De plus, l'utilisation de la quantification dans une plage de bits modérée pourrait améliorer de manière inattendue certaines dimensions de fiabilité, telles que l'éthique et l'équité. À l'inverse, une quantification extrême à des niveaux de bits très bas (3 bits) tend à réduire significativement la fiabilité. Ce risque accru ne peut être détecté en examinant uniquement les performances bénignes, ce qui nécessite en pratique une évaluation complète de la fiabilité. Ces résultats aboutissent à des recommandations pratiques pour atteindre simultanément une utilité élevée, une efficacité et une fiabilité dans les LLMs. Les modèles et le code sont disponibles à l'adresse https://decoding-comp-trust.github.io/.
Nous présentons RakutenAI-7B, une suite de modèles de langage de grande taille orientés vers le japonais, qui obtiennent les meilleures performances sur les benchmarks Japanese LM Harness parmi les modèles ouverts de 7 milliards de paramètres. En plus du modèle de base, nous publions des modèles ajustés pour les instructions et les conversations, respectivement RakutenAI-7B-instruct et RakutenAI-7B-chat, sous licence Apache 2.0.
Les récents progrès dans la génération de texte-à-vidéo ont démontré l'utilité des puissants modèles de diffusion. Néanmoins, le problème n'est pas trivial lorsqu'il s'agit d'adapter ces modèles pour animer une image statique (c'est-à-dire la génération d'image-à-vidéo). La difficulté provient du fait que le processus de diffusion des images animées successives doit non seulement préserver une fidèle alignement avec l'image donnée, mais aussi rechercher une cohérence temporelle entre les images adjacentes. Pour atténuer cela, nous présentons TRIP, une nouvelle approche du paradigme de diffusion image-à-vidéo qui s'appuie sur un a priori de bruit d'image dérivé de l'image statique pour déclencher conjointement un raisonnement relationnel inter-images et faciliter la modélisation temporelle cohérente via un apprentissage résiduel temporel. Techniquement, l'a priori de bruit d'image est d'abord obtenu par un processus de diffusion inverse en une étape basé à la fois sur l'image statique et les codes latents de la vidéo bruitée. Ensuite, TRIP exécute un schéma à double voie de type résiduel pour la prédiction du bruit : 1) une voie directe qui prend directement l'a priori de bruit d'image comme référence de bruit pour chaque image afin d'amplifier l'alignement entre la première image et les images suivantes ; 2) une voie résiduelle qui utilise un 3D-UNet sur les codes latents de la vidéo bruitée et de l'image statique pour permettre un raisonnement relationnel inter-images, facilitant ainsi l'apprentissage du bruit résiduel pour chaque image. De plus, le bruit de référence et le bruit résiduel de chaque image sont dynamiquement fusionnés via un mécanisme d'attention pour la génération finale de la vidéo. Des expériences approfondies sur les ensembles de données WebVid-10M, DTDB et MSR-VTT démontrent l'efficacité de notre TRIP pour la génération d'image-à-vidéo. Veuillez consulter notre page de projet à l'adresse https://trip-i2v.github.io/TRIP/.
Les récentes innovations en matière de génération de texte vers 3D ont mis en avant le Score Distillation Sampling (SDS), qui permet l'apprentissage sans données préalables de modèles 3D implicites (NeRF) en distillant directement des connaissances issues de modèles de diffusion 2D. Cependant, les modèles actuels basés sur SDS peinent encore à traiter des prompts textuels complexes et produisent souvent des modèles 3D déformés avec des textures irréalistes ou des problèmes d'incohérence inter-vues. Dans ce travail, nous introduisons un nouveau modèle de diffusion texte-vers-3D guidé par un prompt visuel (VP3D), qui exploite explicitement les connaissances d'apparence visuelle contenues dans un prompt visuel 2D pour améliorer la génération texte-vers-3D. Au lieu de superviser uniquement le SDS avec un prompt textuel, VP3D utilise d'abord un modèle de diffusion 2D pour générer une image de haute qualité à partir du texte d'entrée, qui sert ensuite de prompt visuel pour renforcer l'optimisation du SDS avec une apparence visuelle explicite. Parallèlement, nous combinons l'optimisation du SDS avec une fonction de récompense différentiable supplémentaire qui encourage les images rendues des modèles 3D à mieux s'aligner visuellement avec le prompt visuel 2D et à correspondre sémantiquement au prompt textuel. À travers des expériences approfondies, nous montrons que le prompt visuel 2D dans notre VP3D facilite significativement l'apprentissage de l'apparence visuelle des modèles 3D, conduisant ainsi à une fidélité visuelle accrue avec des textures plus détaillées. Il est également intéressant de noter que lorsque le prompt visuel auto-généré est remplacé par une image de référence donnée, VP3D est capable de déclencher une nouvelle tâche de génération texte-vers-3D stylisée. Notre page de projet est disponible à l'adresse https://vp3d-cvpr24.github.io.