Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons la série ShareGPT4Video, visant à faciliter la compréhension vidéo des grands modèles vidéo-langage (LVLMs) et la génération vidéo des modèles texte-à-vidéo (T2VMs) via des descriptions denses et précises. La série comprend : 1) ShareGPT4Video, 40 000 descriptions denses annotées par GPT4V pour des vidéos de diverses longueurs et sources, développées grâce à une stratégie soigneusement conçue de filtrage et d'annotation des données. 2) ShareCaptioner-Video, un modèle de description efficace et performant pour des vidéos arbitraires, avec 4,8 millions de vidéos esthétiques de haute qualité annotées par celui-ci. 3) ShareGPT4Video-8B, un LVLM simple mais exceptionnel qui a atteint des performances de pointe sur trois benchmarks vidéo en progression. Pour y parvenir, en écartant les annotateurs humains coûteux et non scalables, nous avons constaté que l'utilisation de GPT4V pour décrire des vidéos avec une stratégie d'entrée multi-images ou de concaténation d'images conduit à des résultats moins détaillés et parfois temporellement confus. Nous soutenons que le défi de concevoir une stratégie de description vidéo de haute qualité réside dans trois aspects : 1) La compréhension précise des changements temporels inter-images. 2) La description détaillée du contenu intra-image. 3) La scalabilité du nombre d'images pour des vidéos de longueur arbitraire. À cette fin, nous avons méticuleusement conçu une stratégie de description vidéo différentielle, stable, scalable et efficace pour générer des descriptions pour des vidéos de résolution, ratio d'aspect et longueur arbitraires. Sur cette base, nous avons construit ShareGPT4Video, qui contient 40 000 vidéos de haute qualité couvrant un large éventail de catégories, et les descriptions résultantes englobent une riche connaissance du monde, les attributs des objets, les mouvements de caméra, et surtout, des descriptions temporelles détaillées et précises des événements. Sur la base de ShareGPT4Video, nous avons ensuite développé ShareCaptioner-Video, un descripteur supérieur capable de générer efficacement des descriptions de haute qualité pour des vidéos arbitraires...
Les modèles de génération d'images basés sur la diffusion ont connu un grand succès ces dernières années en démontrant leur capacité à synthétiser du contenu de haute qualité. Cependant, ces modèles contiennent un nombre considérable de paramètres, ce qui entraîne une taille de modèle significativement importante. Leur sauvegarde et leur transfert constituent un goulot d'étranglement majeur pour diverses applications, en particulier celles fonctionnant sur des appareils aux ressources limitées. Dans ce travail, nous développons une nouvelle méthode de quantification des poids qui quantifie l'UNet de Stable Diffusion v1.5 à 1,99 bits, obtenant ainsi un modèle 7,9 fois plus petit tout en affichant une qualité de génération encore meilleure que l'original. Notre approche inclut plusieurs techniques novatrices, telles que l'attribution de bits optimaux à chaque couche, l'initialisation du modèle quantifié pour de meilleures performances, et l'amélioration de la stratégie d'entraînement pour réduire considérablement l'erreur de quantification. De plus, nous évaluons de manière approfondie notre modèle quantifié sur divers ensembles de données de référence et à travers une évaluation humaine pour démontrer sa qualité de génération supérieure.
Récemment, l'Optimisation Directe des Préférences (Direct Preference Optimization, DPO) a étendu son succès de l'alignement des grands modèles de langage (LLMs) à l'alignement des modèles de diffusion texte-image avec les préférences humaines. Contrairement à la plupart des méthodes DPO existantes qui supposent que toutes les étapes de diffusion partagent un ordre de préférence cohérent avec les images finales générées, nous soutenons que cette hypothèse néglige la performance spécifique à chaque étape de débruitage et que les étiquettes de préférence devraient être adaptées à la contribution de chaque étape. Pour remédier à cette limitation, nous proposons l'Optimisation des Préférences Consciente des Étapes (Step-aware Preference Optimization, SPO), une nouvelle approche post-entraînement qui évalue et ajuste indépendamment la performance de débruitage à chaque étape, en utilisant un modèle de préférence conscient des étapes et un rééchantillonneur étape par étape pour garantir une supervision précise et adaptée à chaque étape. Concrètement, à chaque étape de débruitage, nous échantillonnons un ensemble d'images, identifions une paire gagnante-perdante appropriée et, surtout, sélectionnons aléatoirement une seule image de cet ensemble pour initialiser l'étape de débruitage suivante. Ce processus de rééchantillonnage étape par étape garantit que la prochaine paire d'images gagnante-perdante provient de la même image, rendant la comparaison gagnante-perdante indépendante de l'étape précédente. Pour évaluer les préférences à chaque étape, nous entraînons un modèle de préférence conscient des étapes distinct, applicable à la fois aux images bruitées et aux images propres. Nos expériences avec Stable Diffusion v1.5 et SDXL démontrent que SPO surpasse significativement la dernière version de Diffusion-DPO en alignant les images générées avec des prompts complexes et détaillés et en améliorant l'esthétique, tout en atteignant une efficacité d'entraînement plus de 20 fois supérieure. Code et modèle : https://rockeycoss.github.io/spo.github.io/
Nous présentons Buffer of Thoughts (BoT), une approche novatrice et polyvalente de raisonnement augmenté par la pensée, visant à améliorer la précision, l'efficacité et la robustesse des grands modèles de langage (LLMs). Plus précisément, nous proposons un méta-buffer pour stocker une série de pensées de haut niveau informatives, appelées modèles de pensée, distillées à partir des processus de résolution de problèmes dans diverses tâches. Ensuite, pour chaque problème, nous récupérons un modèle de pensée pertinent et l'instancions de manière adaptative avec des structures de raisonnement spécifiques pour conduire un raisonnement efficace. Pour garantir l'évolutivité et la stabilité, nous proposons également un gestionnaire de buffer pour mettre à jour dynamiquement le méta-buffer, augmentant ainsi sa capacité à mesure que davantage de tâches sont résolues. Nous menons des expériences approfondies sur 10 tâches complexes nécessitant un raisonnement intensif, et obtenons des améliorations significatives par rapport aux méthodes SOTA précédentes : 11% sur Game of 24, 20% sur Geometric Shapes et 51% sur Checkmate-in-One. Des analyses supplémentaires démontrent la capacité de généralisation supérieure et la robustesse du modèle de notre BoT, tout en nécessitant seulement 12% du coût des méthodes d'invite multi-requêtes (par exemple, arbre/graphe de pensées) en moyenne. Notamment, nous constatons que notre Llama3-8B+BoT a le potentiel de surpasser le modèle Llama3-70B. Notre projet est disponible à l'adresse : https://github.com/YangLing0818/buffer-of-thought-llm.
Les modèles de génération vidéo basés sur la diffusion ont démontré un succès remarquable dans la production de vidéos haute fidélité grâce à un processus itératif de débruitage. Cependant, ces modèles nécessitent plusieurs étapes de débruitage lors de l'échantillonnage, ce qui entraîne des coûts de calcul élevés. Dans ce travail, nous proposons une nouvelle approche pour obtenir des modèles de génération vidéo en une seule étape en exploitant l'apprentissage adversarial pour affiner des modèles de diffusion vidéo pré-entraînés. Nous montrons que, grâce à l'apprentissage adversarial, le modèle de diffusion vidéo multi-étapes, à savoir Stable Video Diffusion (SVD), peut être entraîné à effectuer une seule passe avant pour synthétiser des vidéos de haute qualité, capturant à la fois les dépendances temporelles et spatiales dans les données vidéo. Des expériences approfondies démontrent que notre méthode atteint une qualité de génération compétitive pour les vidéos synthétisées avec une réduction significative de la surcharge de calcul pour le processus de débruitage (c'est-à-dire, une accélération d'environ 23 fois par rapport à SVD et 6 fois par rapport aux travaux existants, avec une qualité de génération encore meilleure), ouvrant la voie à la synthèse et à l'édition vidéo en temps réel. Plus de résultats de visualisation sont rendus publics à l'adresse https://snap-research.github.io/SF-V.
Les modèles de diffusion ont démontré un grand succès dans la génération de texte à vidéo (T2V). Cependant, les méthodes existantes peuvent rencontrer des difficultés lorsqu'il s'agit de gérer des scénarios complexes de génération de vidéos (longues) impliquant plusieurs objets ou des changements dynamiques dans le nombre d'objets. Pour surmonter ces limitations, nous proposons VideoTetris, un nouveau cadre permettant une génération T2V compositionnelle. Plus précisément, nous proposons une diffusion compositionnelle spatio-temporelle pour suivre avec précision les sémantiques textuelles complexes en manipulant et en composant les cartes d'attention des réseaux de débruitage spatialement et temporellement. De plus, nous proposons un prétraitement amélioré des données vidéo pour renforcer les données d'entraînement concernant la dynamique du mouvement et la compréhension des prompts, équipé d'un nouveau mécanisme d'attention par cadre de référence pour améliorer la cohérence de la génération vidéo auto-régressive. Des expériences approfondies démontrent que notre VideoTetris obtient des résultats qualitatifs et quantitatifs impressionnants dans la génération T2V compositionnelle. Le code est disponible à l'adresse : https://github.com/YangLing0818/VideoTetris.
La construction d'agents généralistes capables de gérer des tâches diverses et d'évoluer dans différents environnements constitue un objectif à long terme pour la communauté de l'IA. Les grands modèles de langage (LLMs) sont considérés comme une base prometteuse pour développer de tels agents en raison de leurs capacités généralisées. Les approches actuelles font soit imiter aux agents basés sur des LLMs des trajectoires fournies par des experts étape par étape, ce qui nécessite une supervision humaine, difficile à mettre à l'échelle et limitant l'exploration environnementale ; soit elles laissent les agents explorer et apprendre dans des environnements isolés, ce qui aboutit à des agents spécialistes avec une généralisation limitée. Dans cet article, nous faisons un premier pas vers la construction d'agents basés sur des LLMs, généralement capables et dotés d'une capacité d'auto-évolution. Nous identifions une trinité d'ingrédients : 1) des environnements diversifiés pour l'exploration et l'apprentissage des agents, 2) un ensemble de trajectoires pour doter les agents de capacités de base et de connaissances préalables, et 3) une méthode d'évolution efficace et scalable. Nous proposons AgentGym, un nouveau cadre offrant une variété d'environnements et de tâches pour une exploration large, en temps réel, unifiée et concurrente des agents. AgentGym inclut également une base de données avec des instructions étendues, une suite de benchmarks et des trajectoires de haute qualité à travers les environnements. Ensuite, nous proposons une nouvelle méthode, AgentEvol, pour explorer le potentiel d'auto-évolution des agents au-delà des données précédemment observées à travers les tâches et les environnements. Les résultats expérimentaux montrent que les agents évolués peuvent atteindre des résultats comparables aux modèles SOTA. Nous publions la suite AgentGym, incluant la plateforme, le jeu de données, le benchmark, les points de contrôle et les implémentations d'algorithmes. La suite AgentGym est disponible sur https://github.com/WooooDyy/AgentGym.
La génération d'images guidée par texte permet la création de contenus visuels à partir de descriptions textuelles. Cependant, certains concepts visuels ne peuvent être efficacement transmis par le langage seul. Cela a suscité un regain d'intérêt pour l'utilisation de l'espace d'embedding d'images CLIP pour des tâches plus orientées visuellement, grâce à des méthodes telles que IP-Adapter. Fait intéressant, il a été démontré que l'espace d'embedding d'images CLIP est sémantiquement significatif, où les opérations linéaires dans cet espace produisent des résultats sémantiquement cohérents. Pourtant, la signification spécifique de ces opérations peut varier de manière imprévisible selon les images. Pour exploiter ce potentiel, nous introduisons pOps, un cadre qui entraîne des opérateurs sémantiques spécifiques directement sur les embeddings d'images CLIP. Chaque opérateur pOps est construit sur un modèle Diffusion Prior pré-entraîné. Bien que le modèle Diffusion Prior ait été initialement entraîné pour mapper entre les embeddings de texte et les embeddings d'images, nous démontrons qu'il peut être ajusté pour s'adapter à de nouvelles conditions d'entrée, résultant en un opérateur de diffusion. Travailler directement sur les embeddings d'images améliore non seulement notre capacité à apprendre des opérations sémantiques, mais nous permet également d'utiliser directement une perte CLIP textuelle comme supervision supplémentaire lorsque nécessaire. Nous montrons que pOps peut être utilisé pour apprendre une variété d'opérateurs inspirés de la photographie avec des significations sémantiques distinctes, mettant en évidence la diversité sémantique et le potentiel de notre approche proposée.
Ces dernières années ont vu une augmentation considérable des capacités générales des systèmes d'IA, principalement alimentée par l'entraînement de modèles de base sur des données à l'échelle d'Internet. Néanmoins, la création d'une IA ouverte et capable de s'améliorer continuellement reste insaisissable. Dans cet article de position, nous soutenons que les ingrédients nécessaires pour atteindre l'ouverture dans les systèmes d'IA, du point de vue d'un observateur humain, sont désormais réunis. De plus, nous affirmons qu'une telle ouverture est une propriété essentielle de toute intelligence artificielle surhumaine (ASI). Nous commençons par fournir une définition formelle concrète de l'ouverture à travers le prisme de la nouveauté et de l'apprenabilité. Nous illustrons ensuite une voie vers l'ASI via des systèmes ouverts construits sur des modèles de base, capables de faire des découvertes nouvelles et pertinentes pour l'humain. Nous concluons en examinant les implications en matière de sécurité des IA ouvertes et généralement capables. Nous prévoyons que les modèles de base ouverts constitueront un domaine de recherche de plus en plus fertile et critique pour la sécurité dans un avenir proche.