Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'apprentissage par renforcement à partir des retours humains (RLHF) s'est imposé comme une approche cruciale pour aligner de grands modèles de langage sur les préférences humaines, observant une évolution algorithmique rapide à travers des méthodes telles que l'Optimisation de Politique Proximale (PPO), l'Optimisation de Préférence Directe (DPO), REINFORCE Leave One-Out (RLOO), ReMax et l'Optimisation de Politique Relative de Groupe (GRPO). Nous présentons REINFORCE++, une variante améliorée de l'algorithme classique REINFORCE qui intègre des techniques d'optimisation clés de PPO tout en éliminant le besoin d'un réseau de critique. REINFORCE++ atteint trois objectifs principaux : (1) la simplicité, (2) une stabilité d'entraînement améliorée et (3) une réduction des coûts computationnels. À travers une évaluation empirique approfondie, nous démontrons que REINFORCE++ présente une stabilité supérieure par rapport à GRPO et atteint une efficacité computationnelle plus grande que PPO tout en maintenant des performances comparables. L'implémentation est disponible sur https://github.com/OpenRLHF/OpenRLHF.
Les intelligences artificielles physiques doivent d'abord être entraînées numériquement. Elles ont besoin d'un jumeau numérique d'elles-mêmes, le modèle de politique, et d'un jumeau numérique du monde, le modèle du monde. Dans cet article, nous présentons la Plateforme du Modèle de Fondation du Monde Cosmos pour aider les développeurs à construire des modèles de monde personnalisés pour leurs configurations d'IA physique. Nous positionnons un modèle de fondation du monde comme un modèle de monde polyvalent qui peut être affiné en modèles de monde personnalisés pour des applications ultérieures. Notre plateforme couvre un pipeline de curation vidéo, des modèles de fondation du monde pré-entraînés, des exemples de post-entraînement de modèles de fondation du monde pré-entraînés, et des tokenizers vidéo. Pour aider les constructeurs d'IA physique à résoudre les problèmes les plus critiques de notre société, nous rendons notre plateforme open-source et nos modèles open-weight avec des licences permissives disponibles via https://github.com/NVIDIA/Cosmos.
L'avènement de modèles multimodaux en temps réel à grande échelle tels que GPT-4o a suscité un intérêt considérable pour les modèles multimodaux efficaces. Les cadres de modèles multimodaux encodent généralement les entrées visuelles en jetons de vision (représentations continues) et les intègrent avec des instructions textuelles dans le contexte de grands modèles de langage, où les paramètres à grande échelle et de nombreux jetons de contexte (principalement des jetons de vision) entraînent une charge computationnelle substantielle. Les efforts précédents en faveur de modèles multimodaux efficaces se concentrent toujours sur le remplacement de la structure de base du modèle de langage par des modèles plus petits, en négligeant la question cruciale de la quantité de jetons. Dans cet article, nous présentons LLaVA-Mini, un modèle multimodal efficace avec un nombre minimal de jetons de vision. Pour atteindre un taux de compression élevé des jetons de vision tout en préservant l'information visuelle, nous analysons d'abord comment les modèles multimodaux comprennent les jetons de vision et constatons que la plupart des jetons de vision jouent un rôle crucial dans les premières couches de la structure de base du modèle de langage, où ils fusionnent principalement l'information visuelle dans les jetons de texte. S'appuyant sur cette découverte, LLaVA-Mini introduit une pré-fusion de modalité pour fusionner l'information visuelle dans les jetons de texte à l'avance, facilitant ainsi la compression extrême des jetons de vision alimentés à la structure de base du modèle de langage en un seul jeton. LLaVA-Mini est un modèle multimodal large unifié qui peut prendre en charge la compréhension des images, des images haute résolution et des vidéos de manière efficace. Des expériences menées sur 11 benchmarks basés sur des images et 7 benchmarks basés sur des vidéos montrent que LLaVA-Mini surpasse LLaVA-v1.5 avec seulement 1 jeton de vision au lieu de 576. Les analyses d'efficacité révèlent que LLaVA-Mini peut réduire les FLOPs de 77 %, fournir des réponses à faible latence en moins de 40 millisecondes et traiter plus de 10 000 images vidéo sur le matériel GPU avec 24 Go de mémoire.
Ce travail présente Sa2VA, le premier modèle unifié pour une compréhension dense et ancrée à la fois des images et des vidéos. Contrairement aux modèles de langage multimodaux existants, qui sont souvent limités à des modalités et des tâches spécifiques, Sa2VA prend en charge une large gamme de tâches d'image et de vidéo, y compris la segmentation référentielle et la conversation, avec un ajustement minimal des instructions en une seule étape. Sa2VA combine SAM-2, un modèle de segmentation vidéo de base, avec LLaVA, un modèle vision-langage avancé, et unifie le texte, l'image et la vidéo dans un espace de jetons LLM partagé. En utilisant le LLM, Sa2VA génère des jetons d'instruction qui guident SAM-2 dans la production de masques précis, permettant une compréhension ancrée et multimodale du contenu visuel statique et dynamique. De plus, nous introduisons Ref-SAV, un ensemble de données auto-étiqueté contenant plus de 72k expressions d'objets dans des scènes vidéo complexes, conçu pour améliorer les performances du modèle. Nous validons également manuellement 2k objets vidéo dans les ensembles de données Ref-SAV pour évaluer la segmentation référentielle d'objets vidéo dans des environnements complexes. Les expériences montrent que Sa2VA atteint l'état de l'art dans plusieurs tâches, en particulier dans la segmentation référentielle d'objets vidéo, mettant en évidence son potentiel pour des applications complexes du monde réel.
Ces dernières années, les modèles de vision et de langage (VLM) ont réalisé des avancées significatives dans la compréhension des vidéos. Cependant, une capacité cruciale - la compréhension des mouvements détaillés - reste peu explorée dans les benchmarks actuels. Pour combler cette lacune, nous proposons MotionBench, un benchmark d'évaluation complet conçu pour évaluer la compréhension des mouvements détaillés des modèles de compréhension vidéo. MotionBench évalue la perception au niveau du mouvement des modèles à travers six catégories principales de types de questions orientées vers le mouvement et inclut des données collectées auprès de sources diverses, garantissant une représentation large du contenu vidéo du monde réel. Les résultats expérimentaux révèlent que les VLM existants ont du mal à comprendre les mouvements détaillés. Pour améliorer la capacité des VLM à percevoir les mouvements détaillés dans une séquence limitée de LLM, nous menons des expériences approfondies en examinant les architectures de VLM optimisées pour la compression des caractéristiques vidéo et proposons une méthode de Fusion à travers l'Encodeur (TE) novatrice et efficace. Les expériences montrent que des entrées à fréquence d'images plus élevée et la Fusion TE apportent des améliorations dans la compréhension des mouvements, mais il reste encore une marge importante pour l'amélioration. Notre benchmark vise à guider et à motiver le développement de modèles de compréhension vidéo plus performants, en mettant l'accent sur l'importance de la compréhension des mouvements détaillés. Page du projet : https://motion-bench.github.io.
Les modèles de diffusion ont démontré des performances impressionnantes dans la génération de vidéos de haute qualité à partir de descriptions textuelles ou d'images. Cependant, un contrôle précis du processus de génération de vidéos, tel que la manipulation de la caméra ou l'édition du contenu, reste un défi majeur. Les méthodes existantes pour la génération de vidéos contrôlées sont généralement limitées à un seul type de contrôle, manquant de la flexibilité nécessaire pour répondre à des demandes de contrôle diverses. Dans cet article, nous introduisons Diffusion as Shader (DaS), une approche novatrice qui prend en charge plusieurs tâches de contrôle vidéo au sein d'une architecture unifiée. Notre insight clé est que pour obtenir un contrôle polyvalent des vidéos, il est nécessaire d'exploiter des signaux de contrôle 3D, car les vidéos sont fondamentalement des rendus 2D de contenus 3D dynamiques. Contrairement aux méthodes précédentes limitées à des signaux de contrôle 2D, DaS exploite des vidéos de suivi 3D en tant qu'entrées de contrôle, rendant le processus de diffusion vidéo intrinsèquement conscient de la 3D. Cette innovation permet à DaS d'atteindre une large gamme de contrôles vidéo en manipulant simplement les vidéos de suivi 3D. Un autre avantage de l'utilisation de vidéos de suivi 3D est leur capacité à relier efficacement les images, améliorant significativement la cohérence temporelle des vidéos générées. Avec seulement 3 jours de fine-tuning sur 8 GPU H800 en utilisant moins de 10 000 vidéos, DaS démontre de solides capacités de contrôle dans diverses tâches, notamment la génération de vidéos à partir de maillages, le contrôle de la caméra, le transfert de mouvement et la manipulation d'objets.
Générer automatiquement des présentations à partir de documents est une tâche complexe qui nécessite d'équilibrer la qualité du contenu, le design visuel et la cohérence structurelle. Les méthodes existantes se concentrent principalement sur l'amélioration et l'évaluation de la qualité du contenu de manière isolée, en négligeant souvent le design visuel et la cohérence structurelle, ce qui limite leur applicabilité pratique. Pour remédier à ces limitations, nous proposons PPTAgent, qui améliore de manière exhaustive la génération de présentations grâce à une approche en deux étapes basée sur l'édition, inspirée des flux de travail humains. PPTAgent analyse d'abord des présentations de référence pour comprendre leurs schémas structurels et leurs schémas de contenu, puis rédige des contours et génère des diapositives à travers des actions de code pour garantir la cohérence et l'alignement. Pour évaluer de manière exhaustive la qualité des présentations générées, nous introduisons en outre PPTEval, un cadre d'évaluation qui évalue les présentations selon trois dimensions : Contenu, Design et Cohérence. Les expériences montrent que PPTAgent surpasse significativement les méthodes traditionnelles de génération automatique de présentations sur les trois dimensions. Le code et les données sont disponibles sur https://github.com/icip-cas/PPTAgent.
Des avancées récentes dans l'apprentissage omnimodal ont été réalisées dans la compréhension et la génération à travers les images, le texte et la parole, bien que principalement au sein de modèles propriétaires. Les ensembles de données omnimodaux limités et les défis inhérents associés à la génération de parole émotionnelle en temps réel ont entravé le progrès en open source. Pour résoudre ces problèmes, nous proposons openomni, une méthode d'entraînement en deux étapes combinant l'alignement omnimodal et la génération de parole pour développer un modèle de langue omnimodal large de pointe. Dans la phase d'alignement, un modèle de parole pré-entraîné est ensuite formé sur des tâches texte-image pour généraliser de la vision à la parole de manière (presque) sans apprentissage, surpassant les modèles formés sur des ensembles de données tri-modaux. Dans la phase de génération de parole, un décodeur léger facilite la génération de parole émotionnelle en temps réel grâce à l'entraînement sur des tâches de parole et l'apprentissage des préférences. Les expériences montrent que openomni s'améliore de manière constante dans les évaluations omnimodales, vision-langage et parole-langage, permettant des dialogues naturels et riches en émotion ainsi que la génération de parole émotionnelle en temps réel.
Le paradigme de la recherche scientifique est en train de subir une transformation profonde grâce au développement de l'Intelligence Artificielle (IA). Des travaux récents démontrent que diverses méthodes de recherche assistées par l'IA peuvent largement améliorer l'efficacité de la recherche en améliorant l'analyse des données, en accélérant le calcul et en favorisant la génération d'idées novatrices. Pour progresser davantage vers l'objectif ultime (c'est-à-dire la recherche scientifique automatique), dans cet article, nous proposons Dolphin, le premier cadre de recherche automatique en boucle fermée et ouverte pour construire davantage l'ensemble du processus de recherche scientifique humaine. Dolphin peut générer des idées de recherche, réaliser des expériences et obtenir des retours des résultats expérimentaux pour générer des idées de meilleure qualité. Plus précisément, Dolphin génère d'abord des idées novatrices basées sur des articles pertinents classés par les attributs de sujet et de tâche. Ensuite, les codes sont automatiquement générés et débogués avec une structure de code locale guidée par l'exception-traceback. Enfin, Dolphin analyse automatiquement les résultats de chaque idée et les renvoie pour la prochaine génération d'idées. Des expériences sont menées sur des ensembles de données de référence de différents sujets et les résultats montrent que Dolphin peut générer continuellement des idées novatrices et mener l'expérience en boucle. Nous soulignons que Dolphin peut proposer automatiquement des méthodes comparables à l'état de l'art dans certaines tâches telles que la classification d'images 2D et la classification de points 3D.
Nous présentons Magic Mirror, un cadre pour générer des vidéos préservant l'identité avec une qualité de niveau cinématographique et un mouvement dynamique. Alors que les récents progrès dans les modèles de diffusion vidéo ont montré des capacités impressionnantes dans la génération de texte en vidéo, maintenir une identité cohérente tout en produisant un mouvement naturel reste un défi. Les méthodes précédentes nécessitent soit un ajustement fin spécifique à la personne, soit peinent à équilibrer la préservation de l'identité avec la diversité du mouvement. Basée sur les Transformateurs de Diffusion Vidéo, notre méthode introduit trois composants clés : (1) un extracteur de caractéristiques faciales à double branche qui capture à la fois l'identité et les caractéristiques structurelles, (2) un adaptateur croisé léger avec Normalisation Adaptative Conditionnée pour une intégration efficace de l'identité, et (3) une stratégie d'entraînement en deux étapes combinant des paires d'identités synthétiques avec des données vidéo. Des expériences approfondies démontrent que Magic Mirror équilibre efficacement la cohérence de l'identité avec un mouvement naturel, surpassant les méthodes existantes sur plusieurs métriques tout en nécessitant un ajout minimal de paramètres. Le code et le modèle seront rendus publiquement disponibles sur : https://github.com/dvlab-research/MagicMirror/
La technique de Splatting Gaussien en 3D (3DGS) a réalisé des avancées significatives dans la représentation de scènes et le rendu neuronal, avec des efforts intenses concentrés sur son adaptation aux scènes dynamiques. Malgré la qualité et la vitesse de rendu remarquables qu'elle offre, les méthodes existantes peinent avec les exigences de stockage et la représentation des mouvements complexes du monde réel. Pour résoudre ces problèmes, nous proposons MoDecGS, un cadre de Splatting Gaussien à efficacité mémoire conçu pour reconstruire de nouvelles vues dans des scénarios complexes avec des mouvements complexes. Nous introduisons la Décomposition de Mouvement Globale en Local (GLMD) pour capturer efficacement les mouvements dynamiques de manière grossière à fine. Cette approche exploite les Échafaudages Canoniques Globaux (Global CS) et les Échafaudages Canoniques Locaux (Local CS), étendant la représentation statique des Échafaudages à la reconstruction vidéo dynamique. Pour les Global CS, nous proposons la Déformation d'Ancrage Globale (GAD) pour représenter efficacement les dynamiques globales le long de mouvements complexes, en déformant directement les attributs implicites de l'Échafaudage qui sont la position de l'ancre, le décalage et les caractéristiques de contexte local. Ensuite, nous ajustons finement les mouvements locaux via la Déformation Gaussienne Locale (LGD) des Local CS de manière explicite. De plus, nous introduisons l'Ajustement d'Intervalle Temporel (TIA) pour contrôler automatiquement la couverture temporelle de chaque Local CS pendant l'entraînement, permettant à MoDecGS de trouver des affectations d'intervalles optimales en fonction du nombre spécifié de segments temporels. Des évaluations approfondies démontrent que MoDecGS atteint une réduction moyenne de 70 % de la taille du modèle par rapport aux méthodes de pointe pour les Gaussiennes 3D dynamiques à partir de vidéos dynamiques du monde réel, tout en maintenant ou même en améliorant la qualité du rendu.
L'apprentissage par renforcement à partir des retours humains (RLHF) a été largement adopté pour aligner les modèles de langage (LMs) sur les préférences humaines. Les travaux précédents sur le RLHF prennent généralement une formulation de bandit, qui, bien qu'intuitive, ignore la nature séquentielle de la génération de LM et peut souffrir du problème de récompense rare. Alors que des travaux récents proposent un RLHF dense au niveau du jeton, traiter chaque jeton comme une action peut être trop subtil pour une attribution de récompense adéquate. Dans cet article, nous cherchons à tirer le meilleur parti des deux en formant et en utilisant un modèle de récompense au niveau du segment, qui attribue une récompense à chaque segment de texte sémantiquement complet qui s'étend sur une courte séquence de jetons. Pour l'apprentissage de la récompense, notre méthode permet une segmentation dynamique du texte et est compatible avec les ensembles de données de préférence de séquence standard. Pour un entraînement efficace du LM basé sur le RL par rapport à la récompense de segment, nous généralisons les normalisateurs de récompense de bandit scalaire classiques en fonctions de normalisation conscientes de l'emplacement et interpolons la récompense de segment pour une densification supplémentaire. Avec ces conceptions, notre méthode se comporte de manière compétitive sur trois benchmarks populaires de RLHF pour la politique LM : AlpacaEval 2.0, Arena-Hard et MT-Bench. Des études d'ablation sont menées pour démontrer davantage notre méthode.
Nous présentons une approche pour modifier les architectures Transformer en intégrant le raisonnement relationnel conscient du graphe dans le mécanisme d'attention, fusionnant des concepts des réseaux neuronaux graphiques et de la modélisation de langage. En nous appuyant sur le lien inhérent entre l'attention et la théorie des graphes, nous reformulons le mécanisme d'attention du Transformer en tant qu'opération graphique et proposons l'Attention Isomorphe Consciente du Graphe. Cette méthode exploite des stratégies avancées de modélisation de graphes, notamment les Réseaux d'Isomorphisme de Graphes (GIN) et l'Aggrégation de Voisinage Principal (PNA), pour enrichir la représentation des structures relationnelles. Notre approche capture des dépendances complexes et généralise à travers les tâches, comme en témoigne un écart de généralisation réduit et des performances d'apprentissage améliorées. De plus, nous étendons le concept d'attention consciente du graphe pour introduire l'Attention GIN Éparse, une approche de fine-tuning qui utilise des GINs épars. En interprétant les matrices d'attention comme des graphes d'adjacence épars, cette technique améliore l'adaptabilité des modèles fondamentaux pré-entraînés avec un surcoût computationnel minimal, leur conférant des capacités conscientes du graphe. Le fine-tuning de l'Attention GIN Éparse permet d'obtenir une dynamique d'entraînement améliorée et une meilleure généralisation par rapport à des méthodes alternatives telles que l'adaptation à faible rang (LoRA). Nous discutons des structures de graphe latentes au sein des mécanismes d'attention traditionnels, offrant un nouveau regard à travers lequel les Transformers peuvent être compris. En faisant évoluer les Transformers en tant que modèles GIN hiérarchiques pour le raisonnement relationnel, cette perspective suggère des implications profondes pour le développement de modèles fondamentaux, permettant la conception d'architectures qui s'adaptent dynamiquement aux dépendances locales et globales. Les applications en bioinformatique, en science des matériaux, en modélisation de langage et au-delà pourraient bénéficier de cette synthèse de la modélisation des données relationnelles et séquentielles, ouvrant la voie à des stratégies de modélisation interprétables et généralisables.
Nous abordons le problème de l'édition des expressions faciales en contrôlant la variation relative de l'unité d'action faciale (AU) de la même personne. Cela nous permet de modifier l'expression de cette personne de manière fine, continue et interprétable, tout en préservant son identité, sa posture, son arrière-plan et ses attributs faciaux détaillés. La clé de notre modèle, que nous appelons MagicFace, est un modèle de diffusion conditionné par les variations de l'AU et un encodeur ID pour préserver les détails faciaux d'une grande cohérence. Plus précisément, pour préserver les détails faciaux avec l'identité d'entrée, nous exploitons la puissance des modèles de diffusion stables pré-entraînés et concevons un encodeur ID pour fusionner les caractéristiques d'apparence grâce à l'auto-attention. Pour maintenir la cohérence de l'arrière-plan et de la posture, nous introduisons un Contrôleur d'Attributs efficace en informant explicitement le modèle de l'arrière-plan actuel et de la posture de la cible. En injectant les variations de l'AU dans un UNet de débruitage, notre modèle peut animer des identités arbitraires avec diverses combinaisons d'AU, offrant des résultats supérieurs en matière d'édition d'expressions haute fidélité par rapport à d'autres travaux d'édition d'expressions faciales. Le code est disponible publiquement sur https://github.com/weimengting/MagicFace.
Les modèles de diffusion d'image guidés par texte excellent dans la traduction d'images basée sur des instructions textuelles, permettant des modifications visuelles précises et créatives. Cependant, une telle technique puissante peut être utilisée de manière abusive pour propager des informations erronées, enfreindre les droits d'auteur et contourner la traçabilité du contenu. Cela nous motive à introduire la tâche d'Identification de l'Origine pour les modèles de diffusion d'image guidés par texte (ID^2), visant à retrouver l'image d'origine d'une requête traduite donnée. Une solution directe pour l'ID^2 consiste à entraîner un modèle d'incorporation profonde spécialisé pour extraire et comparer les caractéristiques des images de requête et de référence. Cependant, en raison des divergences visuelles entre les générations produites par différents modèles de diffusion, cette approche basée sur la similarité échoue lors de l'entraînement sur des images d'un modèle et de tests sur celles d'un autre, limitant son efficacité dans des applications réelles. Pour résoudre ce défi de la tâche ID^2 proposée, nous contribuons avec le premier ensemble de données et une méthode garantie théoriquement, mettant tous deux l'accent sur la généralisabilité. L'ensemble de données sélectionné, OriPID, contient de nombreuses Origines et des Instructions guidées, qui peuvent être utilisées pour entraîner et tester des modèles potentiels d'Identification à travers différents modèles de diffusion. Dans la section méthode, nous prouvons d'abord l'existence d'une transformation linéaire qui minimise la distance entre les plongements pré-entraînés de l'Autoencodeur Variationnel (VAE) des échantillons générés et leurs origines. Ensuite, il est démontré qu'une telle transformation linéaire simple peut être généralisée à travers différents modèles de diffusion. Les résultats expérimentaux montrent que la méthode proposée atteint une performance de généralisation satisfaisante, dépassant significativement les méthodes basées sur la similarité (+31,6% mAP), même celles avec des conceptions de généralisation.