Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de diffusion ont démontré une efficacité remarquable dans diverses tâches d'image à image. Dans cette recherche, nous présentons Imagine yourself, un modèle de pointe conçu pour la génération d'images personnalisées. Contrairement aux techniques de personnalisation basées sur l'ajustement conventionnel, Imagine yourself fonctionne comme un modèle sans réglage, permettant à tous les utilisateurs de tirer parti d'un cadre partagé sans ajustements individualisés. De plus, les travaux précédents ont rencontré des défis pour équilibrer la préservation de l'identité, suivre des instructions complexes et préserver une bonne qualité visuelle, ce qui a conduit à des modèles ayant un fort effet de copier-coller des images de référence. Ainsi, ils peuvent difficilement générer des images suivant des instructions nécessitant des changements significatifs par rapport à l'image de référence, par exemple, changer l'expression faciale, les poses de tête et de corps, et la diversité des images générées est faible. Pour remédier à ces limitations, notre méthode proposée introduit 1) un nouveau mécanisme de génération de données appariées synthétiques pour encourager la diversité des images, 2) une architecture d'attention entièrement parallèle avec trois codeurs de texte et un codeur de vision entièrement entraînable pour améliorer la fidélité du texte, et 3) une nouvelle méthodologie de finetuning multi-étapes grossière à fine qui pousse progressivement les limites de la qualité visuelle. Notre étude démontre qu'Imagine yourself surpasse le modèle de personnalisation de pointe, présentant des capacités supérieures en termes de préservation de l'identité, de qualité visuelle et d'alignement du texte. Ce modèle établit une base solide pour diverses applications de personnalisation. Les résultats de l'évaluation humaine valident la supériorité SOTA du modèle sur tous les aspects (préservation de l'identité, fidélité du texte et attrait visuel) par rapport aux modèles de personnalisation précédents.
Comprendre la satire et l'humour est une tâche difficile même pour les modèles Vision-Language actuels. Dans cet article, nous proposons les tâches complexes de Détection d'Images Satiriques (détection de savoir si une image est satirique), de Compréhension (générer la raison pour laquelle l'image est satirique), et de Complétion (étant donné la moitié de l'image, sélectionner l'autre moitié parmi 2 options données, de sorte que l'image complète soit satirique) et nous publions un ensemble de données de haute qualité YesBut, composé de 2547 images, 1084 satiriques et 1463 non satiriques, contenant différents styles artistiques, pour évaluer ces tâches. Chaque image satirique dans l'ensemble de données dépeint un scénario normal, ainsi qu'un scénario conflictuel qui est drôle ou ironique. Malgré le succès des modèles Vision-Language actuels sur des tâches multimodales telles que la Question-Réponse Visuelle et la Légende d'Images, nos expériences de référencement montrent que de tels modèles performant mal sur les tâches proposées sur l'ensemble de données YesBut dans des paramètres de zéro-shot en termes d'évaluation automatisée ainsi qu'humaine. De plus, nous publions un ensemble de données de 119 photographies réelles et satiriques pour des recherches ultérieures. L'ensemble de données et le code sont disponibles sur https://github.com/abhi1nandy2/yesbut_dataset.
Suite à la réalisation que les émulateurs d'IA peuvent rivaliser avec les performances des modèles traditionnels de prévision numérique du temps fonctionnant sur des systèmes HPC, on observe maintenant un nombre croissant de grands modèles d'IA qui abordent des cas d'utilisation tels que la prévision, le rééchantillonnage ou la prévision immédiate. Alors que les développements parallèles dans la littérature sur l'IA se concentrent sur les modèles fondamentaux - des modèles qui peuvent être efficacement ajustés pour aborder plusieurs cas d'utilisation différents - les développements du côté météorologique et climatique se concentrent largement sur des cas d'utilisation uniques avec un accent particulier sur la prévision à moyen terme. Nous comblons cette lacune en introduisant Prithvi WxC, un modèle fondamental de 2,3 milliards de paramètres développé en utilisant 160 variables de l'Analyse Rétrospective de l'Ère Moderne pour la Recherche et les Applications, Version 2 (MERRA-2). Prithvi WxC utilise une architecture basée sur un encodeur-décodeur, incorporant des concepts de divers modèles de transformateurs récents pour capturer efficacement les dépendances régionales et mondiales dans les données d'entrée. Le modèle a été conçu pour prendre en charge de grands nombres de jetons pour modéliser les phénomènes météorologiques dans différentes topologies à des résolutions fines. De plus, il est entraîné avec un objectif mixte qui combine les paradigmes de la reconstruction masquée avec la prévision. Nous testons le modèle sur un ensemble de tâches aval difficiles, à savoir : la prévision de déploiement autorégressif, le rééchantillonnage, la paramétrisation du flux d'ondes gravitationnelles et l'estimation des événements extrêmes. Le modèle pré-entraîné avec 2,3 milliards de paramètres, ainsi que les flux de travail de fine-tuning associés, ont été publiquement publiés en tant que contribution open-source via Hugging Face.
Les grands modèles de langage (LLMs) ont démontré des améliorations significatives de performance dans diverses tâches cognitives. Une application émergente consiste à utiliser les LLMs pour améliorer les capacités de génération augmentée par récupération (RAG). Ces systèmes nécessitent que les LLMs comprennent les requêtes des utilisateurs, récupèrent des informations pertinentes, et synthétisent des réponses cohérentes et précises. Avec le déploiement croissant de tels systèmes dans le monde réel, une évaluation complète devient cruciale. À cette fin, nous proposons FRAMES (Factuality, Retrieval, And reasoning MEasurement Set), un ensemble de données d'évaluation de haute qualité conçu pour tester la capacité des LLMs à fournir des réponses factuelles, évaluer les capacités de récupération, et évaluer le raisonnement nécessaire pour générer des réponses finales. Alors que des travaux antérieurs ont fourni des ensembles de données et des références pour évaluer ces capacités de manière isolée, FRAMES offre un cadre unifié qui donne une image plus claire de la performance des LLMs dans des scénarios RAG de bout en bout. Notre ensemble de données comprend des questions complexes à plusieurs étapes nécessitant l'intégration d'informations provenant de sources multiples. Nous présentons des résultats de base démontrant que même les LLMs de pointe ont du mal avec cette tâche, atteignant une précision de 0,40 sans récupération. La précision s'améliore significativement avec notre pipeline de récupération à plusieurs étapes proposé, atteignant une précision de 0,66 (>50% d'amélioration). Nous espérons que notre travail contribuera à combler les lacunes en matière d'évaluation et aidera au développement de systèmes RAG plus robustes et performants.
Les codecs musicaux sont un aspect essentiel de la recherche sur les codecs audio, et la compression à ultra bas débit revêt une importance significative pour la transmission et la génération de musique. En raison de la complexité des arrière-plans musicaux et de la richesse des voix, il n'est pas suffisant de se fier uniquement à la modélisation des informations sémantiques ou acoustiques pour reconstruire efficacement de la musique avec à la fois des voix et des arrière-plans. Pour résoudre ce problème, nous proposons MuCodec, ciblant spécifiquement la compression et la reconstruction de musique à des débits ultra bas. MuCodec utilise MuEncoder pour extraire à la fois des caractéristiques acoustiques et sémantiques, les discrétise avec RVQ, et obtient des caractéristiques Mel-VAE via l'appariement de flux. La musique est ensuite reconstruite en utilisant un décodeur MEL-VAE pré-entraîné et HiFi-GAN. MuCodec peut reconstruire de la musique haute fidélité à des débits ultra bas (0,35 kbps) ou élevés (1,35 kbps), obtenant les meilleurs résultats à ce jour tant en termes de critères subjectifs qu'objectifs. Code et démo : https://xuyaoxun.github.io/MuCodec_demo/.
Nous présentons PortraitGen, une méthode puissante d'édition de vidéos de portrait qui réalise une stylisation cohérente et expressive avec des indices multimodaux. Les méthodes traditionnelles d'édition de vidéos de portrait ont souvent du mal avec la cohérence 3D et temporelle, et manquent généralement en qualité de rendu et en efficacité. Pour résoudre ces problèmes, nous élevons les images vidéo de portrait à un champ gaussien 3D dynamique unifié, ce qui garantit la cohérence structurelle et temporelle entre les images. De plus, nous concevons un mécanisme novateur de Texture Gaussienne Neuronale qui permet non seulement une édition de style sophistiquée, mais qui atteint également une vitesse de rendu de plus de 100 images par seconde. Notre approche intègre des entrées multimodales à travers des connaissances distillées à partir de modèles génératifs 2D à grande échelle. Notre système intègre également un guidage de similarité d'expression et un module d'édition de portrait conscient du visage, atténuant efficacement les problèmes de dégradation associés aux mises à jour itératives des ensembles de données. Des expériences approfondies démontrent la cohérence temporelle, l'efficacité de l'édition et la qualité de rendu supérieure de notre méthode. L'applicabilité étendue de l'approche proposée est démontrée à travers diverses applications, y compris l'édition basée sur du texte, l'édition basée sur des images et le reéclairage, mettant en évidence son grand potentiel pour faire avancer le domaine de l'édition vidéo. Des vidéos de démonstration et du code source sont disponibles sur notre page de projet : https://ustc3dv.github.io/PortraitGen/
La décomposition d'image intrinsèque vise à séparer la réflectance de surface des effets de l'éclairage à partir d'une seule photographie. En raison de la complexité du problème, la plupart des travaux antérieurs supposent un éclairage monochrome et un monde lambertien, ce qui limite leur utilisation dans les applications d'édition d'images conscientes de l'éclairage. Dans ce travail, nous séparons une image d'entrée en son albédo diffus, son ombrage diffus coloré et ses composantes résiduelles spéculaires. Nous parvenons à notre résultat en éliminant progressivement d'abord l'éclairage monochrome, puis les hypothèses du monde lambertien. Nous montrons qu'en divisant le problème en sous-problèmes plus simples, une estimation de l'ombrage diffus coloré en conditions réelles peut être obtenue malgré les ensembles de données de vérité terrain limités. Notre modèle intrinsèque étendu permet une analyse consciente de l'éclairage des photographies et peut être utilisé pour des applications d'édition d'images telles que la suppression de la spécularité et l'équilibrage des blancs par pixel.
Expérimenter des vidéos volumétriques haute fidélité aussi facilement que des vidéos 2D est un rêve de longue date. Cependant, les méthodes actuelles de génération dynamique 3D, malgré leur haute qualité de rendu, rencontrent des défis pour le streaming sur les appareils mobiles en raison de contraintes computationnelles et de bande passante. Dans cet article, nous présentons V3 (Visionnage de Vidéos Volumétriques), une approche novatrice qui permet un rendu mobile de haute qualité grâce au streaming de gaussiennes dynamiques. Notre innovation clé est de considérer la génération dynamique 3D comme des vidéos 2D, facilitant l'utilisation de codecs vidéo matériels. De plus, nous proposons une stratégie d'entraînement en deux étapes pour réduire les besoins de stockage avec une vitesse d'entraînement rapide. La première étape utilise un encodage de hachage et un MLP peu profond pour apprendre le mouvement, puis réduit le nombre de gaussiennes par élagage pour répondre aux exigences de streaming, tandis que la deuxième étape affine les autres attributs gaussiens en utilisant une perte d'entropie résiduelle et une perte temporelle pour améliorer la continuité temporelle. Cette stratégie, qui démêle le mouvement et l'apparence, maintient une haute qualité de rendu avec des exigences de stockage compactes. Parallèlement, nous avons conçu un lecteur multiplateforme pour décoder et rendre des vidéos gaussiennes 2D. Des expériences approfondies démontrent l'efficacité de V3, surpassant d'autres méthodes en permettant un rendu de haute qualité et un streaming sur des appareils courants, ce qui est inédit. En tant que premiers à diffuser des gaussiennes dynamiques sur des appareils mobiles, notre lecteur compagnon offre aux utilisateurs une expérience vidéo volumétrique sans précédent, comprenant un défilement fluide et un partage instantané. Notre page de projet avec le code source est disponible sur https://authoritywang.github.io/v3/.
Les LLM ont démontré des performances louables dans divers domaines. Cependant, la formulation de prompts de haute qualité pour les assister dans leur travail représente un défi pour les non-experts en IA. Les recherches existantes en ingénierie des prompts suggèrent des principes d'optimisation quelque peu dispersés et des optimiseurs de prompts empiriquement dépendants. Malheureusement, ces efforts manquent d'une conception structurée, entraînant des coûts d'apprentissage élevés et ne favorisant pas la mise à jour itérative des prompts, en particulier pour les non-experts en IA. Inspirés par les langages de programmation structurés et réutilisables, nous proposons LangGPT, un cadre de conception de prompts structurés. De plus, nous présentons Minstrel, un système d'agents multi-génératifs avec réflexion pour automatiser la génération de prompts structurés. Des expériences et une étude de cas illustrent que les prompts structurés générés par Minstrel ou rédigés manuellement améliorent significativement les performances des LLM. De plus, nous analysons la facilité d'utilisation des prompts structurés à travers une enquête auprès des utilisateurs de notre communauté en ligne.
Nous présentons V-AURA, le premier modèle autorégressif à atteindre un haut niveau d'alignement temporel et de pertinence dans la génération vidéo-audio. V-AURA utilise un extracteur de caractéristiques visuelles à haut taux de rafraîchissement et une stratégie de fusion de caractéristiques audio-visuelles pour capturer des événements de mouvement visuel fins et garantir un alignement temporel précis. De plus, nous proposons VisualSound, un ensemble de données de référence avec une forte pertinence audio-visuelle. VisualSound est basé sur VGGSound, un ensemble de données vidéo composé d'échantillons en conditions réelles extraits de YouTube. Lors de la sélection, nous éliminons les échantillons où les événements auditifs ne sont pas alignés avec les événements visuels. V-AURA surpasse les modèles actuels de pointe en termes d'alignement temporel et de pertinence sémantique tout en maintenant une qualité audio comparable. Le code, les échantillons, VisualSound et les modèles sont disponibles sur https://v-aura.notion.site
Les grands modèles de langage (LLM) ont montré un potentiel remarquable dans divers domaines, y compris la cybersécurité. L'utilisation de LLM basés sur le cloud commercial peut être indésirable en raison de préoccupations en matière de confidentialité, de coûts et de contraintes de connectivité réseau. Dans cet article, nous présentons Hackphyr, un LLM localement affiné à utiliser en tant qu'agent d'équipe rouge dans des environnements de sécurité réseau. Notre modèle affiné de 7 milliards de paramètres peut fonctionner sur une seule carte GPU et atteint des performances comparables à celles de modèles commerciaux beaucoup plus grands et plus puissants tels que GPT-4. Hackphyr surpasse clairement d'autres modèles, y compris GPT-3.5-turbo, et des bases telles que des agents Q-learning dans des scénarios complexes et inédits. Pour atteindre cette performance, nous avons généré un nouvel ensemble de données spécifique à la cybersécurité pour améliorer les capacités du modèle de base. Enfin, nous avons mené une analyse approfondie des comportements des agents qui fournit des informations sur les capacités de planification et les éventuels points faibles de ces agents, contribuant ainsi à une meilleure compréhension des agents basés sur les LLM dans les contextes de cybersécurité.
L'intégration d'outils dans les agents basés sur LLM a surmonté les difficultés des LLM autonomes et des capacités limitées des agents traditionnels. Cependant, la conjonction de ces technologies et les améliorations proposées dans plusieurs travaux de pointe ont suivi une architecture logicielle non unifiée, entraînant un manque de modularité. En effet, ils se sont principalement concentrés sur les fonctionnalités et ont négligé la définition des limites des composants au sein de l'agent. Cela a provoqué des ambiguïtés terminologiques et architecturales entre les chercheurs, que nous avons abordées dans cet article en proposant un cadre unifié qui établit des bases claires pour le développement des agents basés sur LLM, tant d'un point de vue fonctionnel que logiciel. Notre cadre, LLM-Agent-UMF (Cadre de Modélisation Unifié pour les Agents basés sur LLM), distingue clairement les différents composants d'un agent, en séparant les LLM et les outils d'un nouvel élément introduit : le noyau de l'agent, jouant le rôle de coordinateur central de l'agent qui comprend cinq modules : planification, mémoire, profil, action et sécurité, cette dernière étant souvent négligée dans les travaux précédents. Les différences dans la structure interne des noyaux d'agents nous ont amenés à les classer dans une taxonomie de types passifs et actifs. Sur cette base, nous avons proposé différentes architectures d'agents multi-noyaux combinant des caractéristiques uniques de divers agents individuels. À des fins d'évaluation, nous avons appliqué ce cadre à une sélection d'agents de pointe, démontrant ainsi son alignement avec leurs fonctionnalités et clarifiant les aspects architecturaux négligés. De plus, nous avons évalué en profondeur quatre de nos architectures proposées en intégrant des agents distincts dans des systèmes d'agents hybrides actifs/passifs. Cette analyse a fourni des aperçus clairs sur les améliorations potentielles et a mis en lumière les défis liés à la combinaison d'agents spécifiques.