Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les agents linguistiques ont démontré des compétences impressionnantes en résolution de problèmes dans des cadres définis et sur des périodes courtes. Cependant, face à la complexité croissante des simulations en monde ouvert, il est crucial de développer des agents capables de s'adapter de manière flexible à des environnements complexes et de maintenir une mémoire à long terme pour assurer des actions cohérentes. Pour combler le fossé entre les agents linguistiques et les jeux en monde ouvert, nous présentons le Language Agent for Role-Playing (LARP), qui intègre une architecture cognitive comprenant un traitement de la mémoire et un assistant de prise de décision, un module d'interaction avec l'environnement doté d'un espace d'action apprenable basé sur les retours, ainsi qu'une méthode de post-traitement favorisant l'alignement de diverses personnalités. Le cadre LARP améliore les interactions entre les utilisateurs et les agents, prédéfinis avec des contextes et des personnalités uniques, enrichissant ainsi l'expérience de jeu dans des contextes de monde ouvert. De plus, il met en lumière les utilisations variées des modèles linguistiques dans des domaines tels que le divertissement, l'éducation et divers scénarios de simulation. La page du projet est disponible à l'adresse suivante : https://miao-ai-lab.github.io/LARP/.
Les modèles de diffusion ont révolutionné la synthèse d'image-à-image (I2I) et s'étendent désormais aux vidéos. Cependant, l'avancée de la synthèse vidéo-à-vidéo (V2V) a été freinée par le défi de maintenir une cohérence temporelle entre les images vidéo. Cet article propose un cadre de synthèse V2V cohérent en exploitant conjointement les conditions spatiales et les indices de flux optique temporel dans la vidéo source. Contrairement aux méthodes antérieures qui adhèrent strictement au flux optique, notre approche tire parti de ses avantages tout en gérant les imperfections de l'estimation du flux. Nous encodons le flux optique via un warping à partir de la première image et l'utilisons comme référence supplémentaire dans le modèle de diffusion. Cela permet à notre modèle de synthétiser des vidéos en modifiant la première image avec n'importe quel modèle I2I prévalent, puis en propageant les modifications aux images successives. Notre modèle V2V, FlowVid, démontre des propriétés remarquables : (1) Flexibilité : FlowVid fonctionne parfaitement avec les modèles I2I existants, facilitant diverses modifications, y compris la stylisation, les échanges d'objets et les modifications locales. (2) Efficacité : La génération d'une vidéo de 4 secondes à 30 FPS et une résolution de 512x512 ne prend que 1,5 minute, ce qui est respectivement 3,1x, 7,2x et 10,5x plus rapide que CoDeF, Rerender et TokenFlow. (3) Haute qualité : Dans les études utilisateurs, notre FlowVid est préféré 45,7 % du temps, surpassant CoDeF (3,5 %), Rerender (10,2 %) et TokenFlow (40,4 %).
Nous présentons SynCLR, une nouvelle approche pour l'apprentissage de représentations visuelles exclusivement à partir d'images synthétiques et de légendes synthétiques, sans aucune donnée réelle. Nous synthétisons un vaste ensemble de légendes d'images à l'aide de modèles de langage (LLMs), puis utilisons un modèle prêt à l'emploi de génération d'images à partir de texte pour produire plusieurs images correspondant à chaque légende synthétique. Nous effectuons l'apprentissage de représentations visuelles sur ces images synthétiques via un apprentissage contrastif, en traitant les images partageant la même légende comme des paires positives. Les représentations obtenues se transfèrent efficacement à de nombreuses tâches en aval, rivalisant favorablement avec d'autres méthodes généralistes d'apprentissage de représentations visuelles telles que CLIP et DINO v2 dans les tâches de classification d'images. De plus, dans les tâches de prédiction dense telles que la segmentation sémantique, SynCLR surpasse de manière significative les méthodes auto-supervisées précédentes, par exemple en améliorant les résultats de MAE et iBOT de 6,2 et 4,3 mIoU sur ADE20k pour ViT-B/16.
La tendance récente des grands modèles de langage (LLMs) consiste à augmenter l'échelle à la fois de la taille du modèle (\aka le nombre de paramètres) et du jeu de données pour améliorer leur capacité générative, ce qui est clairement démontré par de nombreux travaux tels que les célèbres GPT et Llama. Cependant, les grands modèles impliquent souvent des coûts de calcul massifs, et les applications pratiques ne peuvent pas se permettre de tels prix élevés. Par ailleurs, la méthode de construction d'une architecture de modèle robuste pour les LLMs est rarement discutée. Nous analysons d'abord les architectures de modèles de langage de pointe et observons le problème d'effondrement des caractéristiques. Sur la base de l'analyse théorique, nous proposons que la non-linéarité est également très importante pour les modèles de langage, un aspect généralement étudié dans les réseaux de neurones convolutifs pour les tâches de vision. La fonction d'activation informée en série est ensuite introduite avec des calculs minimes qui peuvent être ignorés, et un raccourci augmenté est utilisé pour renforcer la non-linéarité du modèle. Nous démontrons ensuite que l'approche proposée est significativement efficace pour améliorer la non-linéarité du modèle grâce à des ablations soigneusement conçues ; ainsi, nous présentons une nouvelle architecture de modèle efficace pour établir un modèle moderne, nommé PanGu-pi. Des expériences sont ensuite menées en utilisant le même jeu de données et la même stratégie d'entraînement pour comparer PanGu-pi avec les LLMs de pointe. Les résultats montrent que PanGu-pi-7B peut atteindre une performance comparable à celle des benchmarks avec une accélération de l'inférence d'environ 10\%, et que PanGu-pi-1B peut atteindre des performances de pointe en termes de précision et d'efficacité. De plus, nous avons déployé PanGu-pi-7B dans les domaines à haute valeur ajoutée de la finance et du droit, développant un LLM nommé YunShan pour une application pratique. Les résultats montrent que YunShan peut surpasser d'autres modèles de taille similaire sur les benchmarks.
L'intérêt croissant pour les modèles de langage multimodaux de grande envergure (MLLMs), tels que GPT-4V(ision) d'OpenAI, a eu un impact significatif sur les domaines académiques et industriels. Ces modèles enrichissent les modèles de langage de grande envergure (LLMs) avec des capacités avancées de compréhension visuelle, facilitant leur application dans une variété de tâches multimodales. Récemment, Google a introduit Gemini, un MLLM de pointe conçu spécifiquement pour l'intégration multimodale. Malgré ses avancées, les benchmarks préliminaires indiquent que Gemini est à la traîne des modèles GPT dans les tâches de raisonnement de bon sens. Cependant, cette évaluation, basée sur un ensemble de données limité (c'est-à-dire HellaSWAG), ne capture pas pleinement le potentiel authentique de raisonnement de bon sens de Gemini. Pour combler cette lacune, notre étude entreprend une évaluation approfondie des performances de Gemini dans des tâches de raisonnement complexe nécessitant l'intégration de connaissances de bon sens à travers les modalités. Nous réalisons une analyse complète de 12 ensembles de données de raisonnement de bon sens, allant des tâches générales aux tâches spécifiques à un domaine. Cela inclut 11 ensembles de données axés uniquement sur le langage, ainsi qu'un qui intègre des éléments multimodaux. Nos expériences sur quatre LLMs et deux MLLMs démontrent les capacités compétitives de Gemini en matière de raisonnement de bon sens. De plus, nous identifions les défis communs rencontrés par les LLMs et MLLMs actuels dans la résolution de problèmes de bon sens, soulignant la nécessité de progrès supplémentaires pour améliorer les capacités de raisonnement de bon sens de ces modèles.