Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de langage pré-entraînés constituent la base de plusieurs applications d'IA, mais leur coût de calcul élevé pour l'entraînement limite leur accessibilité. Des initiatives telles que BLOOM et StarCoder visent à démocratiser l'accès aux modèles pré-entraînés pour un développement communautaire collaboratif. Cependant, ces modèles existants rencontrent des défis : des capacités multilingues limitées, un pré-entraînement continu entraînant un oubli catastrophique, tandis qu'un pré-entraînement à partir de zéro est coûteux en calcul, et la conformité aux lois sur la sécurité et le développement de l'IA. Ce document présente Aurora-M, un modèle open-source multilingue de 15 milliards de paramètres entraîné sur l'anglais, le finnois, l'hindi, le japonais, le vietnamien et le code. Pré-entraîné continuellement à partir de StarCoderPlus sur 435 milliards de tokens supplémentaires, Aurora-M dépasse les 2 000 milliards de tokens dans le total des tokens d'entraînement. Il s'agit du premier modèle open-source multilingue affiné sur des instructions de sécurité examinées par des humains, alignant ainsi son développement non seulement sur les considérations conventionnelles de red-teaming, mais aussi sur les préoccupations spécifiques exprimées dans l'ordre exécutif Biden-Harris sur le développement et l'utilisation sûrs, sécurisés et dignes de confiance de l'intelligence artificielle. Aurora-M est rigoureusement évalué sur diverses tâches et langues, démontrant une robustesse contre l'oubli catastrophique et surpassant les alternatives dans des contextes multilingues, en particulier dans les évaluations de sécurité. Pour promouvoir un développement responsable des LLM open-source, Aurora-M et ses variantes sont publiés sur https://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407.
L'une des principales lacunes des modèles actuels de génération d'images à partir de texte (Text-to-Image, T2I) est leur incapacité à générer de manière cohérente des images qui respectent fidèlement les relations spatiales spécifiées dans l'invite textuelle. Dans cet article, nous proposons une investigation approfondie de cette limitation, tout en développant des ensembles de données et des méthodes qui atteignent des performances de pointe. Tout d'abord, nous constatons que les ensembles de données vision-langage actuels ne représentent pas suffisamment bien les relations spatiales ; pour pallier ce problème, nous créons SPRIGHT, le premier ensemble de données à grande échelle axé sur les aspects spatiaux, en rédigeant de nouvelles descriptions pour 6 millions d'images issues de 4 ensembles de données visuelles largement utilisés. Grâce à un pipeline d'évaluation et d'analyse en trois étapes, nous montrons que SPRIGHT améliore considérablement la capture des relations spatiales par rapport aux ensembles de données existants. Pour en démontrer l'efficacité, nous exploitons seulement ~0,25 % de SPRIGHT et obtenons une amélioration de 22 % dans la génération d'images spatialement précises, tout en améliorant les scores FID et CMMD. Deuxièmement, nous constatons que l'entraînement sur des images contenant un grand nombre d'objets entraîne des améliorations substantielles en termes de cohérence spatiale. Notamment, nous atteignons un score spatial de 0,2133 sur T2I-CompBench, en effectuant un fine-tuning sur moins de 500 images. Enfin, à travers une série d'expériences contrôlées et d'ablation, nous documentons plusieurs résultats qui, selon nous, permettront de mieux comprendre les facteurs influençant la cohérence spatiale dans les modèles de génération d'images à partir de texte. Nous rendons publiques notre ensemble de données et notre modèle afin de favoriser les recherches futures dans ce domaine.
La génération de contenu 3D à partir de prompts textuels ou d'images uniques a récemment réalisé des progrès remarquables en termes de qualité et de rapidité. L'un de ses paradigmes dominants consiste à générer des images multi-vues cohérentes suivies d'une reconstruction à partir de vues éparses. Cependant, en raison de la difficulté à déformer directement la représentation maillée pour approcher la topologie cible, la plupart des méthodologies apprennent une représentation implicite (telle que NeRF) lors de la reconstruction à partir de vues éparses et acquièrent le maillage cible par une extraction post-traitement. Bien que la représentation implicite puisse modéliser efficacement des informations 3D riches, son entraînement nécessite généralement un temps de convergence long. De plus, l'opération d'extraction post-traitement à partir du champ implicite entraîne également des artefacts visuels indésirables. Dans cet article, nous proposons FlexiDreamer, un nouveau cadre de génération 3D à partir d'une seule image qui reconstruit le maillage cible de manière end-to-end. En exploitant une extraction flexible basée sur le gradient appelée FlexiCubes, notre méthode contourne les défauts apportés par le post-traitement et facilite l'acquisition directe du maillage cible. Par ailleurs, nous intégrons un schéma d'encodage par grille de hachage multi-résolution qui active progressivement les niveaux d'encodage dans le champ implicite de FlexiCubes pour aider à capturer les détails géométriques pour l'optimisation par étape. Notamment, FlexiDreamer récupère une structure 3D dense à partir d'une image mono-vue en environ 1 minute sur une seule GPU NVIDIA A100, surpassant largement les méthodologies précédentes.
La génération de scènes 3D à partir de conditions spécifiées par l'utilisateur offre une voie prometteuse pour alléger la charge de production dans les applications 3D. Les études précédentes nécessitaient un effort considérable pour réaliser la scène souhaitée, en raison de conditions de contrôle limitées. Nous proposons une méthode pour contrôler et générer des scènes 3D sous des conditions multimodales en utilisant des images partielles, des informations de mise en page représentées en vue de dessus, et des invites textuelles. Combiner ces conditions pour générer une scène 3D implique les difficultés significatives suivantes : (1) la création de grands ensembles de données, (2) la prise en compte de l'interaction des conditions multimodales, et (3) la dépendance au domaine des conditions de mise en page. Nous décomposons le processus de génération de scènes 3D en génération d'images 2D à partir des conditions données et génération de scènes 3D à partir d'images 2D. La génération d'images 2D est réalisée en affinant un modèle pré-entraîné de texte à image avec un petit ensemble de données artificielles d'images partielles et de mises en page, et la génération de scènes 3D est réalisée par estimation de profondeur conditionnée par la mise en page et des champs de radiance neuronaux (NeRF), évitant ainsi la création de grands ensembles de données. L'utilisation d'une représentation commune de l'information spatiale à l'aide d'images à 360 degrés permet de prendre en compte les interactions des conditions multimodales et réduit la dépendance au domaine du contrôle de la mise en page. Les résultats expérimentaux ont démontré qualitativement et quantitativement que la méthode proposée peut générer des scènes 3D dans divers domaines, de l'intérieur à l'extérieur, selon des conditions multimodales.
Les modèles génératifs sont désormais largement utilisés par les graphistes et les artistes. Des travaux antérieurs ont montré que ces modèles mémorisent et reproduisent souvent du contenu issu de leurs données d'entraînement lors de la génération. Ainsi, avec leur prolifération croissante, il est devenu essentiel d'effectuer une recherche dans la base de données pour déterminer si les propriétés de l'image sont attribuables à des données d'entraînement spécifiques, chaque fois qu'une image générée est utilisée à des fins professionnelles. Les outils existants à cette fin se concentrent sur la récupération d'images ayant un contenu sémantique similaire. Parallèlement, de nombreux artistes s'inquiètent de la réplication de style dans les modèles texte-à-image. Nous présentons un cadre pour comprendre et extraire des descripteurs de style à partir d'images. Notre cadre comprend un nouvel ensemble de données élaboré en partant du principe que le style est une propriété subjective d'une image qui capture des interactions complexes mais significatives de facteurs incluant, sans s'y limiter, les couleurs, les textures, les formes, etc. Nous proposons également une méthode pour extraire des descripteurs de style qui peuvent être utilisés pour attribuer le style d'une image générée aux images utilisées dans l'ensemble de données d'entraînement d'un modèle texte-à-image. Nous démontrons des résultats prometteurs dans diverses tâches de récupération de style. Nous analysons également de manière quantitative et qualitative l'attribution et la correspondance de style dans le modèle Stable Diffusion. Le code et les artefacts sont disponibles à l'adresse https://github.com/learn2phoenix/CSD.
Nous présentons CosmicMan, un modèle de base text-to-image spécialisé dans la génération d'images humaines de haute fidélité. Contrairement aux modèles de base généralistes actuels, qui sont confrontés au dilemme d'une qualité inférieure et d'un désalignement texte-image pour les humains, CosmicMan permet de générer des images humaines photo-réalistes avec une apparence méticuleuse, une structure raisonnable et un alignement précis entre le texte et l'image grâce à des descriptions denses et détaillées. Au cœur du succès de CosmicMan se trouvent de nouvelles réflexions et perspectives sur les données et les modèles : (1) Nous avons constaté que la qualité des données et un flux de production de données scalable sont essentiels pour les résultats finaux des modèles entraînés. Par conséquent, nous proposons un nouveau paradigme de production de données, Annotate Anyone, qui sert de volant d'inertie perpétuel pour produire des données de haute qualité avec des annotations précises et rentables au fil du temps. Sur cette base, nous avons construit un jeu de données à grande échelle, CosmicMan-HQ 1.0, comprenant 6 millions d'images humaines de haute qualité en résolution moyenne de 1488x1255, accompagnées d'annotations textuelles précises dérivées de 115 millions d'attributs à divers niveaux de granularité. (2) Nous soutenons qu'un modèle de base text-to-image spécialisé pour les humains doit être pragmatique — facile à intégrer dans les tâches en aval tout en étant efficace pour produire des images humaines de haute qualité. Par conséquent, nous proposons de modéliser la relation entre les descriptions textuelles denses et les pixels d'image de manière décomposée, et présentons le cadre d'entraînement Decomposed-Attention-Refocusing (Daring). Il décompose de manière transparente les caractéristiques d'attention croisée dans le modèle de diffusion text-to-image existant et impose un recentrage de l'attention sans ajouter de modules supplémentaires. Grâce à Daring, nous montrons que la discrétisation explicite de l'espace textuel continu en plusieurs groupes de base alignés sur la structure du corps humain est la clé pour résoudre le problème de désalignement avec facilité.
Un modèle idéal pour la description vidéo dense -- prédire des légendes localisées temporellement dans une vidéo -- devrait être capable de gérer des vidéos d'entrée longues, prédire des descriptions textuelles riches et détaillées, et produire des sorties avant d'avoir traité l'intégralité de la vidéo. Cependant, les modèles actuels de pointe traitent un nombre fixe d'images sous-échantillonnées et effectuent une prédiction complète unique après avoir vu l'ensemble de la vidéo. Nous proposons un modèle de description vidéo dense en flux continu qui comprend deux composants novateurs : Premièrement, nous proposons un nouveau module de mémoire, basé sur le regroupement des tokens entrants, qui peut gérer des vidéos de longueur arbitraire car la mémoire est de taille fixe. Deuxièmement, nous développons un algorithme de décodage en flux continu qui permet à notre modèle de faire des prédictions avant que la vidéo entière n'ait été traitée. Notre modèle atteint cette capacité de flux continu et améliore significativement l'état de l'art sur trois benchmarks de description vidéo dense : ActivityNet, YouCook2 et ViTT. Notre code est disponible à l'adresse https://github.com/google-research/scenic.
Nous présentons le Condition-Aware Neural Network (CAN), une nouvelle méthode pour ajouter un contrôle aux modèles génératifs d'images. Parallèlement aux méthodes de contrôle conditionnel existantes, CAN régule le processus de génération d'images en manipulant dynamiquement les poids du réseau de neurones. Cela est réalisé grâce à l'introduction d'un module de génération de poids conditionnel qui produit des poids adaptés aux couches de convolution/linéaires en fonction de la condition d'entrée. Nous testons CAN sur la génération d'images conditionnées par classe sur ImageNet et sur la génération d'images à partir de texte sur COCO. CAN apporte systématiquement des améliorations significatives pour les modèles de transformateurs de diffusion, notamment DiT et UViT. En particulier, CAN combiné avec EfficientViT (CaT) atteint un FID de 2,78 sur ImageNet 512x512, surpassant DiT-XL/2 tout en nécessitant 52 fois moins d'opérations MAC par étape d'échantillonnage.
Les techniques de modélisation des préférences, telles que l'optimisation directe des préférences (DPO), se sont révélées efficaces pour améliorer les capacités de généralisation des grands modèles de langage (LLM). Cependant, dans les tâches impliquant le suivi d'instructions vidéo, fournir un retour d'information informatif, en particulier pour détecter les hallucinations dans les réponses générées, reste un défi majeur. Des études antérieures ont exploré l'utilisation de grands modèles multimodaux (LMM) comme modèles de récompense pour guider la modélisation des préférences, mais leur capacité à évaluer avec précision la factualité des réponses générées par rapport aux vidéos correspondantes n'a pas été concluante. Cet article présente un cadre novateur qui utilise des légendes vidéo détaillées comme proxy du contenu vidéo, permettant aux modèles de langage d'intégrer ces informations comme preuves à l'appui pour évaluer les prédictions de questions-réponses (QA) vidéo. Notre approche démontre un alignement robuste avec le mécanisme de récompense du modèle OpenAI GPT-4V, qui prend directement les images vidéo en entrée. De plus, nous montrons que l'application de cette récompense personnalisée via la DPO améliore significativement les performances des LMM vidéo sur les tâches de QA vidéo.
Les récents progrès des grands modèles de langage (LLM) ont révolutionné le domaine du traitement du langage naturel, élargissant progressivement leur portée à la perception et à la génération multimodales. Cependant, l'intégration efficace de capacités d'écoute dans les LLM pose des défis importants, notamment en ce qui concerne la généralisation à travers divers contextes et l'exécution de tâches auditives complexes. Dans ce travail, nous présentons WavLLM, un modèle de langage robuste et adaptatif pour la parole, doté de deux encodeurs et d'un adaptateur de poids LoRA sensible aux prompts, optimisé par une approche d'apprentissage curriculaire en deux étapes. En exploitant les deux encodeurs, nous découplons différents types d'informations vocales, utilisant un encodeur Whisper pour traiter le contenu sémantique de la parole, et un encodeur WavLM pour capturer les caractéristiques uniques de l'identité du locuteur. Dans le cadre de l'apprentissage curriculaire, WavLLM développe d'abord ses capacités fondamentales en s'optimisant sur des tâches élémentaires simples mélangées, puis s'entraîne sur des tâches multitâches plus complexes, telles que des combinaisons des tâches élémentaires. Pour améliorer la flexibilité et l'adhésion à différentes tâches et instructions, un adaptateur de poids LoRA sensible aux prompts est introduit lors de la deuxième étape d'entraînement multitâche avancé. Nous validons le modèle proposé sur des benchmarks universels de la parole, incluant des tâches telles que la reconnaissance automatique de la parole (ASR), la traduction de la parole (ST), la vérification du locuteur (SV), la reconnaissance des émotions (ER), et l'appliquons également à des ensembles de données spécialisés comme le test de compréhension orale en anglais du Gaokao pour l'évaluation des questions-réponses (SQA), et l'ensemble d'évaluation de la chaîne de pensée (CoT) en parole. Les expériences démontrent que le modèle proposé atteint des performances de pointe sur une gamme de tâches vocales pour une taille de modèle donnée, montrant des capacités de généralisation robustes dans l'exécution de tâches complexes en utilisant l'approche CoT. De plus, notre modèle réussit à accomplir les tâches du Gaokao sans entraînement spécialisé. Les codes, modèles, fichiers audio et l'ensemble d'évaluation du Gaokao sont accessibles à l'adresse aka.ms/wavllm.
Un document visuellement riche (VRD) utilise des caractéristiques visuelles ainsi que des indices linguistiques pour diffuser des informations. L'entraînement d'un extracteur personnalisé qui identifie des entités nommées dans un document nécessite un grand nombre d'instances du type de document cible annotées à la fois dans les modalités textuelles et visuelles. Cela constitue un goulot d'étranglement coûteux dans les scénarios d'entreprise, où nous souhaitons entraîner des extracteurs personnalisés pour des milliers de types de documents différents de manière scalable. Pré-entraîner un modèle d'extraction sur des instances non annotées du type de document cible, suivi d'une étape de fine-tuning sur des instances annotées manuellement, ne fonctionne pas dans ces scénarios, car cela dépasse le temps d'entraînement maximal autorisé alloué pour l'extracteur. Nous abordons ce scénario en proposant une méthode d'entraînement consciente du bruit, ou NAT, dans cet article. Au lieu d'acquérir des documents annotés manuellement coûteux, NAT utilise des documents faiblement annotés pour entraîner un extracteur de manière scalable. Pour éviter une dégradation de la qualité du modèle due à des échantillons faiblement annotés et bruyants, NAT estime la confiance de chaque échantillon d'entraînement et l'intègre comme mesure d'incertitude pendant l'entraînement. Nous entraînons plusieurs modèles d'extraction de pointe en utilisant NAT. Les expériences sur un certain nombre de jeux de données publics et internes montrent que les modèles entraînés avec NAT sont non seulement robustes en termes de performance — ils surpassent une base de référence de transfer learning jusqu'à 6 % en termes de score macro-F1 — mais ils sont également plus efficaces en termes d'annotation — ils réduisent jusqu'à 73 % l'effort humain nécessaire pour obtenir des performances comparables.
Les modèles de langage de grande taille (LLMs) ont démontré des capacités impressionnantes en matière de compréhension et de génération de texte, suscitant des efforts de recherche vers des LLMs vidéo pour faciliter l'interaction humain-IA au niveau vidéo. Cependant, la manière d'encoder et de comprendre efficacement les vidéos dans les systèmes de dialogue basés sur la vidéo reste à résoudre. Dans cet article, nous explorons une question simple mais inédite : pouvons-nous fournir tous les tokens spatio-temporels au LLM, déléguant ainsi la tâche de modélisation des séquences vidéo aux LLMs ? Étonnamment, cette approche simple entraîne des améliorations significatives dans la compréhension vidéo. Sur cette base, nous proposons ST-LLM, une base efficace de LLM vidéo avec modélisation de séquences spatio-temporelles intégrée au LLM. De plus, pour résoudre les problèmes de surcharge et de stabilité introduits par les tokens vidéo non compressés dans les LLMs, nous développons une stratégie de masquage dynamique avec des objectifs d'entraînement sur mesure. Pour les vidéos particulièrement longues, nous avons également conçu un module d'entrée global-local pour équilibrer efficacité et performance. Par conséquent, nous exploitons le LLM pour une modélisation spatio-temporelle compétente, tout en maintenant l'efficacité et la stabilité. Les résultats expérimentaux approfondis attestent de l'efficacité de notre méthode. Grâce à un modèle et un pipeline d'entraînement plus concis, ST-LLM établit un nouvel état de l'art sur VideoChatGPT-Bench et MVBench. Les codes sont disponibles à l'adresse suivante : https://github.com/TencentARC/ST-LLM.