Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles vision-langage (VLMs) ont réalisé des progrès significatifs dans la perception et le raisonnement multimodaux. De plus, lorsqu'ils sont intégrés de manière transparente dans un agent incarné, cela représente une avancée cruciale vers la création de systèmes autonomes et conscients du contexte, capables de formuler des plans et d'exécuter des commandes avec précision. Dans cet article, nous présentons Octopus, un nouveau VLM conçu pour décrypter avec compétence la vision d'un agent et les objectifs de tâches textuelles, ainsi que pour formuler des séquences d'actions complexes et générer du code exécutable. Notre conception permet à l'agent de gérer habilement un large éventail de tâches, allant des corvées quotidiennes dans des simulateurs aux interactions sophistiquées dans des jeux vidéo complexes. Octopus est entraîné en exploitant GPT-4 pour contrôler un agent exploratoire afin de générer des données d'entraînement, c'est-à-dire des plans d'action et le code exécutable correspondant, dans notre environnement expérimental appelé OctoVerse. Nous collectons également les retours qui permettent un schéma d'entraînement amélioré basé sur l'apprentissage par renforcement avec retour environnemental (RLEF). À travers une série d'expériences, nous mettons en lumière le fonctionnement d'Octopus et présentons des résultats convaincants, et le RLEF proposé s'avère affiner la prise de décision de l'agent. En ouvrant l'accès à notre architecture de modèle, simulateur et ensemble de données, nous aspirons à stimuler davantage d'innovations et à favoriser des applications collaboratives au sein de la communauté élargie de l'IA incarnée.
Nous présentons Lemur et Lemur-Chat, des modèles de langage librement accessibles optimisés à la fois pour les capacités en langage naturel et en programmation, conçus pour servir de fondation à des agents linguistiques polyvalents. L'évolution des modèles de conversation linguistique vers des agents linguistiques fonctionnels exige que ces modèles maîtrisent non seulement l'interaction humaine, le raisonnement et la planification, mais aussi qu'ils s'ancrent dans les environnements pertinents. Cela nécessite une harmonisation entre les capacités linguistiques et de programmation dans les modèles. Lemur et Lemur-Chat sont proposés pour répondre à cette nécessité, démontrant des compétences équilibrées dans les deux domaines, contrairement aux modèles open-source existants qui tendent à se spécialiser dans l'un ou l'autre. Grâce à un pré-entraînement minutieux utilisant un corpus riche en code et à un ajustement fin sur des données textuelles et de programmation, nos modèles atteignent des performances de pointe en moyenne sur divers benchmarks de texte et de programmation parmi les modèles open-source. Des expériences approfondies démontrent la supériorité de Lemur par rapport aux modèles open-source existants et sa compétence dans diverses tâches d'agent impliquant la communication humaine, l'utilisation d'outils et l'interaction dans des environnements entièrement et partiellement observables. L'harmonisation entre les langages naturels et de programmation permet à Lemur-Chat de réduire significativement l'écart avec les modèles propriétaires en termes de capacités d'agent, offrant des insights clés pour le développement d'agents open-source avancés, capables de raisonner, planifier et opérer de manière fluide dans divers environnements. https://github.com/OpenLemur/Lemur
Nous présentons « Idea to Image », un système permettant un auto-affinement itératif multimodal avec GPT-4V(ision) pour la conception et la génération automatique d'images. Les humains peuvent rapidement identifier les caractéristiques des différents modèles de texte-à-image (T2I) grâce à des explorations itératives. Cela leur permet de convertir efficacement leurs idées de génération de haut niveau en prompts T2I efficaces capables de produire de bonnes images. Nous étudions si les systèmes basés sur des modèles multimodaux de grande taille (LMMs) peuvent développer des capacités d'auto-affinement multimodales analogues, permettant d'explorer des modèles ou environnements inconnus via des essais auto-affinés. Idea2Img génère cycliquement des prompts T2I révisés pour synthétiser des images provisoires et fournit un retour d'orientation pour la révision des prompts, le tout en fonction de sa mémoire des caractéristiques du modèle T2I exploré. L'auto-affinement itératif confère à Idea2Img divers avantages par rapport aux modèles T2I classiques. Notamment, Idea2Img peut traiter des idées d'entrée avec des séquences entrelacées d'images et de texte, suivre des idées avec des instructions de conception, et générer des images de meilleure qualité sémantique et visuelle. L'étude de préférence utilisateur valide l'efficacité de l'auto-affinement itératif multimodal pour la conception et la génération automatique d'images.
Ces dernières années, la génération d'actifs 3D à partir de prompts textuels a donné des résultats impressionnants. Les modèles de diffusion 2D et 3D sont capables de générer des objets 3D de qualité acceptable à partir de ces prompts. Les modèles de diffusion 3D offrent une bonne cohérence tridimensionnelle, mais leur qualité et leur généralisation sont limitées en raison du coût élevé et de la difficulté d'obtention des données 3D exploitables. Les modèles de diffusion 2D bénéficient d'une forte capacité de généralisation et de génération fine, mais il est difficile de garantir leur cohérence 3D. Cet article tente de combiner les forces de ces deux types de modèles de diffusion grâce à la récente représentation explicite et efficace par splatting de Gaussiennes 3D. Un cadre de génération 3D rapide, nommé \name, est proposé, où le modèle de diffusion 3D fournit des a priori de nuages de points pour l'initialisation et le modèle de diffusion 2D enrichit la géométrie et l'apparence. Des opérations de croissance de points bruités et de perturbation de couleur sont introduites pour améliorer les Gaussiennes initialisées. Notre \name peut générer une instance 3D de haute qualité en moins de 25 minutes sur un seul GPU, ce qui est beaucoup plus rapide que les méthodes précédentes, tout en permettant un rendu en temps réel des instances générées. Les démonstrations et le code sont disponibles à l'adresse https://taoranyi.com/gaussiandreamer/.
Malgré les avancées significatives des modèles de génération d'images à grande échelle à partir de texte, la création d'images humaines hyper-réalistes reste une tâche souhaitée mais non résolue. Les modèles existants comme Stable Diffusion et DALL-E 2 ont tendance à générer des images humaines avec des parties incohérentes ou des poses non naturelles. Pour relever ces défis, notre idée clé est que l'image humaine est intrinsèquement structurée à plusieurs niveaux de granularité, allant du squelette corporel au niveau grossier à la géométrie spatiale fine. Par conséquent, capturer ces corrélations entre l'apparence explicite et la structure latente dans un seul modèle est essentiel pour générer des images humaines cohérentes et naturelles. À cette fin, nous proposons un cadre unifié, HyperHuman, qui génère des images humaines en milieu naturel d'un réalisme élevé et de dispositions variées. Plus précisément, 1) nous construisons d'abord un ensemble de données à grande échelle centré sur l'humain, nommé HumanVerse, qui comprend 340 millions d'images avec des annotations complètes comme la pose humaine, la profondeur et la normale de surface. 2) Ensuite, nous proposons un Modèle de Diffusion Structurelle Latente qui débruite simultanément la profondeur et la normale de surface ainsi que l'image RVB synthétisée. Notre modèle impose l'apprentissage conjoint de l'apparence de l'image, de la relation spatiale et de la géométrie dans un réseau unifié, où chaque branche du modèle se complète mutuellement avec une conscience structurelle et une richesse texturale. 3) Enfin, pour améliorer davantage la qualité visuelle, nous proposons un Raffineur Guidé par la Structure pour composer les conditions prédites afin de générer des détails plus fins à une résolution plus élevée. Des expériences approfondies démontrent que notre cadre offre des performances de pointe, générant des images humaines hyper-réalistes dans divers scénarios. Page du projet : https://snap-research.github.io/HyperHuman/
Les modèles de diffusion pré-entraînés à grande échelle ont démontré des capacités remarquables dans la génération de vidéos diversifiées. Étant donné un ensemble de clips vidéo illustrant le même concept de mouvement, la tâche de Personnalisation du Mouvement consiste à adapter les modèles de diffusion texte-à-vidéo existants pour générer des vidéos avec ce mouvement. Par exemple, générer une vidéo d'une voiture se déplaçant d'une manière spécifique sous des mouvements de caméra particuliers pour réaliser un film, ou une vidéo montrant comment un ours soulèverait des poids pour inspirer les créateurs. Des méthodes d'adaptation ont été développées pour personnaliser l'apparence, comme le sujet ou le style, mais elles n'ont pas encore été explorées pour le mouvement. Il est simple d'étendre les principales méthodes d'adaptation pour la personnalisation du mouvement, incluant l'ajustement complet du modèle, l'ajustement paramétrique efficace de couches supplémentaires, et les Adaptations de Bas Rang (LoRAs). Cependant, le concept de mouvement appris par ces méthodes est souvent couplé aux apparences limitées des vidéos d'entraînement, rendant difficile la généralisation du mouvement personnalisé à d'autres apparences. Pour surmonter ce défi, nous proposons MotionDirector, avec une architecture LoRAs à double chemin pour découpler l'apprentissage de l'apparence et du mouvement. De plus, nous concevons une nouvelle fonction de perte temporelle débiaisée par l'apparence pour atténuer l'influence de l'apparence sur l'objectif d'entraînement temporel. Les résultats expérimentaux montrent que la méthode proposée peut générer des vidéos d'apparences diverses pour les mouvements personnalisés. Notre méthode prend également en charge diverses applications en aval, comme le mélange de différentes vidéos avec leurs apparences et mouvements respectifs, et l'animation d'une seule image avec des mouvements personnalisés. Notre code et les poids du modèle seront publiés.