Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons InternLM-XComposer2, un modèle vision-langage de pointe qui excelle dans la composition et la compréhension libre de textes et d’images. Ce modèle va au-delà de la compréhension conventionnelle vision-langage, en créant habilement du contenu entrelaçant texte et image à partir d’entrées variées telles que des plans, des spécifications textuelles détaillées et des images de référence, permettant ainsi une création de contenu hautement personnalisable. InternLM-XComposer2 propose une approche Partial LoRA (PLoRA) qui applique des paramètres LoRA supplémentaires exclusivement aux tokens d’image afin de préserver l’intégrité des connaissances linguistiques pré-entraînées, établissant un équilibre entre une compréhension visuelle précise et une composition textuelle dotée de talent littéraire. Les résultats expérimentaux démontrent la supériorité d’InternLM-XComposer2, basé sur InternLM2-7B, dans la production de contenu multimodal de long texte de haute qualité, ainsi que ses performances exceptionnelles en compréhension vision-langage sur divers benchmarks, où il surpasse non seulement de manière significative les modèles multimodaux existants, mais rivalise ou dépasse même GPT-4V et Gemini Pro dans certaines évaluations. Cela met en évidence sa remarquable maîtrise dans le domaine de la compréhension multimodale. La série de modèles InternLM-XComposer2 avec 7 milliards de paramètres est disponible publiquement à l’adresse suivante : https://github.com/InternLM/InternLM-XComposer.
Pour les grands modèles vision-langage (LVLMs), l'augmentation de la taille du modèle peut efficacement améliorer les performances. Cependant, l'expansion des paramètres du modèle augmente considérablement les coûts d'entraînement et d'inférence, car tous les paramètres du modèle sont activés pour chaque token dans le calcul. Dans ce travail, nous proposons une nouvelle stratégie d'entraînement appelée MoE-tuning pour les LVLMs, qui permet de construire un modèle parcimonieux avec un nombre colossal de paramètres tout en maintenant un coût de calcul constant, et qui résout efficacement la dégradation des performances généralement associée à l'apprentissage multimodal et à la parcimonie des modèles. De plus, nous présentons le framework MoE-LLaVA, une architecture de LVLM parcimonieux basée sur MoE. Ce framework active uniquement les k meilleurs experts via des routeurs pendant le déploiement, laissant les autres experts inactifs. Nos expériences approfondies mettent en évidence les excellentes capacités de MoE-LLaVA en compréhension visuelle et son potentiel à réduire les hallucinations dans les sorties du modèle. Remarquablement, avec seulement 3 milliards de paramètres activés de manière parcimonieuse, MoE-LLaVA démontre des performances comparables à celles de LLaVA-1.5-7B sur divers ensembles de données de compréhension visuelle et dépasse même LLaVA-1.5-13B dans les benchmarks d'hallucination d'objets. À travers MoE-LLaVA, nous visons à établir une référence pour les LVLMs parcimonieux et à fournir des insights précieux pour les recherches futures visant à développer des systèmes d'apprentissage multimodal plus efficaces et performants. Le code est disponible à l'adresse suivante : https://github.com/PKU-YuanGroup/MoE-LLaVA.
Les grands modèles de langage sont entraînés sur des extractions massives du web, qui sont souvent non structurées, bruyantes et mal formulées. Les lois actuelles de mise à l'échelle montrent que l'apprentissage à partir de telles données nécessite une abondance de ressources de calcul et de données, qui augmentent avec la taille du modèle entraîné. Cela est irréalisable à la fois en raison des coûts de calcul élevés et de la durée associée au pré-entraînement, ainsi que de la pénurie imminente de données de haute qualité sur le web. Dans ce travail, nous proposons le Web Rephrase Augmented Pre-training (WRAP), qui utilise un modèle pré-ajusté sur des instructions pour paraphraser des documents du web dans des styles spécifiques tels que "comme Wikipédia" ou en "format question-réponse", afin de pré-entraîner conjointement les modèles de langage sur des paraphrases réelles et synthétiques. Premièrement, nous montrons que l'utilisation de WRAP sur le jeu de données C4, qui est naturellement bruyant, accélère le pré-entraînement par un facteur de 3x. Avec le même budget de calcul de pré-entraînement, il améliore la perplexité de plus de 10 % en moyenne sur différents sous-ensembles du Pile, et améliore la précision en réponse à des questions en zero-shot sur 13 tâches de plus de 2 %. Deuxièmement, nous étudions l'impact du style de paraphrase sur les performances du modèle, offrant des insights sur la manière dont la composition des données d'entraînement peut influencer les performances des modèles de langage dans des contextes hors distribution (OOD). Nos gains sont attribués au fait que les données synthétiques paraphrasées ont une utilité plus élevée que les données réelles, car elles (i) incorporent une diversité de styles qui reflète étroitement le style d'évaluation en aval, et (ii) ont une "qualité" supérieure à celle des données extraites du web.
Nous présentons Motion-I2V, un nouveau cadre pour la génération cohérente et contrôlée de vidéos à partir d'images (I2V). Contrairement aux méthodes précédentes qui apprennent directement la complexe correspondance image-vidéo, Motion-I2V décompose I2V en deux étapes avec une modélisation explicite du mouvement. Pour la première étape, nous proposons un prédicteur de champ de mouvement basé sur la diffusion, qui se concentre sur la déduction des trajectoires des pixels de l'image de référence. Pour la deuxième étape, nous proposons une attention temporelle augmentée par le mouvement pour améliorer l'attention temporelle unidimensionnelle limitée dans les modèles de diffusion latente vidéo. Ce module peut propager efficacement les caractéristiques de l'image de référence aux images synthétisées, guidé par les trajectoires prédites de la première étape. Par rapport aux méthodes existantes, Motion-I2V peut générer des vidéos plus cohérentes même en présence de mouvements importants et de variations de point de vue. En entraînant un ControlNet de trajectoire éparse pour la première étape, Motion-I2V permet aux utilisateurs de contrôler précisément les trajectoires et les régions de mouvement avec des annotations de trajectoire et de région éparses. Cela offre une plus grande contrôlabilité du processus I2V que la simple dépendance aux instructions textuelles. De plus, la deuxième étape de Motion-I2V supporte naturellement la traduction vidéo-à-vidéo en zero-shot. Les comparaisons qualitatives et quantitatives démontrent les avantages de Motion-I2V par rapport aux approches antérieures dans la génération cohérente et contrôlée de vidéos à partir d'images.
Ces dernières années, des progrès significatifs ont été réalisés dans le domaine de l'apprentissage par renforcement (RL) robotique, permettant le développement de méthodes capables de traiter des observations complexes d'images, de s'entraîner dans le monde réel et d'intégrer des données auxiliaires, telles que des démonstrations et des expériences antérieures. Cependant, malgré ces avancées, l'utilisation du RL robotique reste difficile. Les praticiens reconnaissent que les détails d'implémentation spécifiques de ces algorithmes sont souvent tout aussi importants (voire plus) pour les performances que le choix de l'algorithme lui-même. Nous soutenons qu'un défi majeur pour l'adoption généralisée du RL robotique, ainsi que pour le développement ultérieur de ses méthodes, réside dans l'accessibilité relativement limitée de ces techniques. Pour relever ce défi, nous avons développé une bibliothèque soigneusement implémentée contenant une méthode efficace de RL profond hors politique, ainsi que des méthodes pour calculer les récompenses et réinitialiser l'environnement, un contrôleur de haute qualité pour un robot largement adopté, et plusieurs tâches exemples complexes. Nous mettons cette bibliothèque à disposition de la communauté, décrivons ses choix de conception et présentons des résultats expérimentaux. De manière peut-être surprenante, nous constatons que notre implémentation permet un apprentissage très efficace, acquérant des politiques pour l'assemblage de cartes PCB, le routage de câbles et le déplacement d'objets en seulement 25 à 50 minutes d'entraînement par politique en moyenne, surpassant les résultats de pointe rapportés pour des tâches similaires dans la littérature. Ces politiques atteignent des taux de réussite parfaits ou quasi parfaits, une robustesse extrême même sous perturbations, et présentent des comportements émergents de récupération et de correction. Nous espérons que ces résultats prometteurs et notre implémentation open-source de haute qualité fourniront un outil à la communauté robotique pour faciliter les développements futurs en RL robotique. Notre code, documentation et vidéos sont disponibles à l'adresse https://serl-robot.github.io/
La synthèse d'animations faciales 3D à partir de la parole a suscité une attention considérable. En raison de la rareté des données faciales 4D de haute qualité et des annotations abondantes et précises de labels multimodaux, les méthodes précédentes souffrent souvent d'un réalisme limité et d'un manque de conditionnement flexible. Nous relevons ce défi à travers une trilogie. Nous introduisons d'abord le Generalized Neural Parametric Facial Asset (GNPFA), un auto-encodeur variationnel efficace qui mappe la géométrie faciale et les images vers un espace latent d'expression hautement généralisé, découplant ainsi les expressions et les identités. Ensuite, nous utilisons GNPFA pour extraire des expressions de haute qualité et des poses de tête précises à partir d'un large éventail de vidéos. Cela donne naissance au jeu de données M2F-D, un ensemble de données volumineux, diversifié et de niveau scan pour les animations faciales 3D synchronisées avec la parole, accompagné de labels émotionnels et stylistiques bien annotés. Enfin, nous proposons Media2Face, un modèle de diffusion dans l'espace latent de GNPFA pour la génération d'animations faciales synchronisées avec la parole, acceptant des guidages riches et multimodaux provenant de l'audio, du texte et de l'image. Des expériences approfondies démontrent que notre modèle non seulement atteint une haute fidélité dans la synthèse d'animations faciales, mais élargit également le champ de l'expressivité et de l'adaptabilité stylistique dans les animations faciales 3D.
L'agent pour dispositifs mobiles basé sur des modèles de langage multimodaux de grande envergure (MLLM) devient une application populaire. Dans cet article, nous présentons Mobile-Agent, un agent autonome multimodal pour dispositifs mobiles. Mobile-Agent exploite d'abord des outils de perception visuelle pour identifier et localiser avec précision les éléments visuels et textuels de l'interface frontale de l'application. En se basant sur le contexte visuel perçu, il planifie et décompose ensuite de manière autonome la tâche d'opération complexe, et navigue dans les applications mobiles étape par étape. Contrairement aux solutions précédentes qui reposent sur les fichiers XML des applications ou les métadonnées du système mobile, Mobile-Agent offre une plus grande adaptabilité dans divers environnements d'exploitation mobiles de manière centrée sur la vision, éliminant ainsi la nécessité de personnalisations spécifiques au système. Pour évaluer les performances de Mobile-Agent, nous avons introduit Mobile-Eval, un benchmark pour évaluer les opérations sur les dispositifs mobiles. Sur la base de Mobile-Eval, nous avons mené une évaluation complète de Mobile-Agent. Les résultats expérimentaux indiquent que Mobile-Agent a atteint des taux de précision et de réalisation remarquables. Même avec des instructions complexes, telles que des opérations multi-applications, Mobile-Agent peut toujours répondre aux exigences. Le code et le modèle seront rendus open-source à l'adresse https://github.com/X-PLUG/MobileAgent.
Les récentes avancées dans les grands modèles pré-entraînés de génération d'images à partir de texte ont démontré des capacités sans précédent pour la génération de haute qualité centrée sur l'humain. Cependant, la personnalisation de l'identité faciale reste un problème difficile à résoudre. Les méthodes existantes ne parviennent pas à assurer une préservation stable de l'identité et une éditabilité flexible, même avec plusieurs images par sujet pendant l'entraînement. Dans ce travail, nous proposons StableIdentity, qui permet une recontextualisation cohérente de l'identité avec une seule image faciale. Plus précisément, nous utilisons un encodeur facial avec un a priori d'identité pour encoder le visage en entrée, puis nous plaçons la représentation faciale dans un espace doté d'un a priori d'éditabilité, construit à partir de noms de célébrités. En incorporant un a priori d'identité et un a priori d'éditabilité, l'identité apprise peut être injectée n'importe où dans divers contextes. De plus, nous concevons une perte de diffusion à deux phases masquée pour renforcer la perception au niveau des pixels du visage en entrée et maintenir la diversité de la génération. Des expériences approfondies démontrent que notre méthode surpasse les méthodes de personnalisation précédentes. En outre, l'identité apprise peut être combinée de manière flexible avec des modules prêts à l'emploi tels que ControlNet. Notamment, à notre connaissance, nous sommes les premiers à injecter directement l'identité apprise à partir d'une seule image dans la génération vidéo/3D sans ajustement fin. Nous croyons que la méthode StableIdentity proposée constitue une étape importante pour unifier les modèles de génération personnalisée d'images, de vidéos et de contenus 3D.
Alors que les modèles de génération d'images à partir de texte à grande échelle ont réalisé des progrès remarquables dans le domaine de la génération d'images à partir de texte, de nombreuses méthodes de fine-tuning ont été proposées. Cependant, ces modèles rencontrent souvent des difficultés avec les objets nouveaux, en particulier dans des scénarios one-shot. Notre méthode proposée vise à relever les défis de la généralisation et de la fidélité de manière orientée objet, en utilisant uniquement une seule image d'entrée et les régions d'intérêt spécifiques à l'objet. Pour améliorer la généralisation et atténuer le surapprentissage, dans notre paradigme, un embedding prototypique est initialisé en fonction de l'apparence de l'objet et de sa classe, avant de procéder au fine-tuning du modèle de diffusion. Et pendant le fine-tuning, nous proposons une régularisation caractérisant la classe pour préserver les connaissances antérieures sur les classes d'objets. Pour améliorer encore la fidélité, nous introduisons une perte spécifique à l'objet, qui peut également être utilisée pour implanter plusieurs objets. Globalement, notre méthode orientée objet pour l'implantation de nouveaux objets peut s'intégrer de manière transparente avec les concepts existants tout en offrant une grande fidélité et généralisation. Notre méthode surpasse plusieurs travaux existants. Le code sera publié.
Malgré les avancées significatives des modèles de génération d'images à partir de texte pour produire des images de haute qualité, ces méthodes peinent encore à assurer la contrôlabilité des prompts textuels sur les images dans le contexte de prompts complexes, en particulier en ce qui concerne la conservation des attributs et des relations entre objets. Dans cet article, nous proposons CompAgent, une approche sans apprentissage pour la génération compositionnelle d'images à partir de texte, avec un agent de modèle de langage (LLM) comme élément central. L'idée fondamentale sous-jacente à CompAgent repose sur une méthodologie de division et de conquête. Étant donné un prompt textuel complexe contenant plusieurs concepts, y compris des objets, des attributs et des relations, l'agent LLM le décompose d'abord, ce qui implique l'extraction des objets individuels, de leurs attributs associés et la prédiction d'une disposition de scène cohérente. Ces objets individuels peuvent ensuite être traités indépendamment. Par la suite, l'agent effectue un raisonnement en analysant le texte, planifie et utilise des outils pour composer ces objets isolés. Un mécanisme de vérification et de retour d'information humaine est finalement intégré à notre agent pour corriger les erreurs potentielles d'attributs et affiner les images générées. Guidé par l'agent LLM, nous proposons un modèle de personnalisation multi-concepts sans réglage et un modèle de génération d'images à partir de disposition comme outils pour la composition de concepts, ainsi qu'une méthode d'édition locale d'images comme outil pour interagir avec l'agent pour la vérification. La disposition de la scène contrôle le processus de génération d'image parmi ces outils pour éviter la confusion entre plusieurs objets. Des expériences approfondies démontrent la supériorité de notre approche pour la génération compositionnelle d'images à partir de texte : CompAgent obtient une amélioration de plus de 10 % sur T2I-CompBench, un benchmark complet pour la génération compositionnelle T2I en monde ouvert. L'extension à diverses tâches connexes illustre également la flexibilité de notre CompAgent pour des applications potentielles.
Les modèles vision-langage existants démontrent une forte généralisation sur une variété de domaines visuels et de tâches. Cependant, ces modèles effectuent principalement une reconnaissance en zero-shot de manière fermée, et peinent ainsi à gérer les concepts visuels en domaine ouvert par conception. Des méthodes récentes de fine-tuning, telles que l'apprentissage par prompts, non seulement étudient la discrimination entre les échantillons intra-distribution (ID) et hors-distribution (OOD), mais montrent également des améliorations dans les précisions ID et OOD. Dans cet article, nous démontrons d'abord que les modèles vision-langage, après un fine-tuning suffisamment long mais sans régularisation appropriée, ont tendance à sur-apprendre les classes connues dans le jeu de données donné, avec une performance dégradée sur les classes inconnues. Ensuite, nous proposons une nouvelle approche, OGEN, pour remédier à cet écueil, en mettant l'accent sur l'amélioration de la généralisation OOD des modèles fine-tunés. Plus précisément, un générateur de caractéristiques conditionné par classe est introduit pour synthétiser des caractéristiques OOD en utilisant uniquement le nom de classe de toute classe inconnue. Ces caractéristiques synthétisées fourniront des connaissances utiles sur les inconnues et aideront à régulariser la frontière de décision entre les données ID et OOD lors de l'optimisation conjointe. Tout aussi important est notre mécanisme d'auto-distillation adaptative pour régulariser notre modèle de génération de caractéristiques pendant l'optimisation conjointe, c'est-à-dire transférer de manière adaptative les connaissances entre les états du modèle pour prévenir davantage le sur-apprentissage. Les expériences valident que notre méthode apporte des gains convaincants en termes de performance de généralisation OOD dans différents contextes.