Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous postulons que pour atteindre des agents surhumains, les modèles futurs nécessitent un retour d'information surhumain afin de fournir un signal d'entraînement adéquat. Les approches actuelles entraînent couramment des modèles de récompense à partir des préférences humaines, ce qui peut alors être limité par le niveau de performance humaine, et deuxièmement, ces modèles de récompense séparés et figés ne peuvent ensuite apprendre à s'améliorer pendant l'entraînement des LLM. Dans ce travail, nous étudions les modèles de langage auto-récompensants, où le modèle de langage lui-même est utilisé via une incitation LLM-comme-juge pour fournir ses propres récompenses pendant l'entraînement. Nous montrons que pendant l'entraînement itératif DPO, non seulement la capacité à suivre les instructions s'améliore, mais aussi la capacité à fournir des récompenses de haute qualité à lui-même. Le fine-tuning de Llama 2 70B sur trois itérations de notre approche produit un modèle qui surpasse de nombreux systèmes existants sur le classement AlpacaEval 2.0, y compris Claude 2, Gemini Pro et GPT-4 0613. Bien qu'il ne s'agisse que d'une étude préliminaire, ce travail ouvre la porte à la possibilité de modèles capables de s'améliorer continuellement sur les deux axes.
Récemment, les modèles d'espace d'état (SSMs) avec des conceptions efficaces adaptées au matériel, tels que Mamba, ont montré un grand potentiel pour la modélisation de longues séquences. Construire des architectures visuelles efficaces et génériques basées uniquement sur les SSMs est une direction prometteuse. Cependant, la représentation des données visuelles est un défi pour les SSMs en raison de la sensibilité à la position des données visuelles et de la nécessité d'un contexte global pour la compréhension visuelle. Dans cet article, nous montrons que la dépendance de l'apprentissage de représentation visuelle sur l'auto-attention n'est pas nécessaire et proposons une nouvelle architecture visuelle générique avec des blocs Mamba bidirectionnels (Vim), qui marque les séquences d'images avec des embeddings de position et compresse la représentation visuelle avec des modèles d'espace d'état bidirectionnels. Sur les tâches de classification ImageNet, de détection d'objets COCO et de segmentation sémantique ADE20k, Vim atteint des performances supérieures par rapport à des vision transformers bien établis comme DeiT, tout en démontrant une efficacité de calcul et de mémoire significativement améliorée. Par exemple, Vim est 2,8 fois plus rapide que DeiT et économise 86,8 % de mémoire GPU lors de l'inférence par lots pour extraire des caractéristiques sur des images avec une résolution de 1248x1248. Les résultats démontrent que Vim est capable de surmonter les contraintes de calcul et de mémoire pour effectuer une compréhension de style Transformer sur des images haute résolution et qu'il a un grand potentiel pour devenir l'architecture de base de la prochaine génération pour les modèles de fondation visuels. Le code est disponible à l'adresse https://github.com/hustvl/Vim.
Dans ce travail, nous présentons ChatQA, une famille de modèles de question-réponse conversationnelle (QA) qui atteignent des niveaux de précision comparables à GPT-4. Plus précisément, nous proposons une méthode d'ajustement par instruction en deux étapes qui permet d'améliorer significativement les résultats de QA conversationnelle en zero-shot des grands modèles de langage (LLM). Pour gérer la recherche dans le cadre de la QA conversationnelle, nous affinons un récupérateur dense sur un ensemble de données de QA multi-tours, ce qui fournit des résultats comparables à l'utilisation du modèle de réécriture de requêtes de pointe tout en réduisant considérablement les coûts de déploiement. Il est à noter que notre ChatQA-70B surpasse GPT-4 en termes de score moyen sur 10 ensembles de données de QA conversationnelle (54,14 contre 53,90), sans recourir à aucune donnée synthétique provenant des modèles GPT d'OpenAI.
Une manière d'améliorer les capacités de raisonnement des grands modèles de langage (LLMs) consiste à effectuer un réglage fin supervisé (SFT) en utilisant des annotations de chaîne de pensée (CoT). Cependant, cette approche ne démontre pas une capacité de généralisation suffisamment forte, car l'entraînement repose uniquement sur les données CoT fournies. Par exemple, dans la résolution de problèmes mathématiques, il n'existe généralement qu'un seul chemin de raisonnement annoté pour chaque question dans les données d'entraînement. Intuitivement, il serait préférable que l'algorithme apprenne à partir de multiples chemins de raisonnement annotés pour une même question. Pour résoudre ce problème, nous proposons une approche simple mais efficace appelée Réglage Fin Renforcé (ReFT) pour améliorer la généralisation des LLMs dans le raisonnement, en prenant la résolution de problèmes mathématiques comme exemple. ReFT commence par initialiser le modèle avec un SFT, puis utilise un apprentissage par renforcement en ligne, spécifiquement l'algorithme PPO dans cet article, pour affiner davantage le modèle, où une multitude de chemins de raisonnement sont automatiquement échantillonnés pour chaque question et les récompenses sont naturellement dérivées des réponses correctes. Des expériences approfondies sur les ensembles de données GSM8K, MathQA et SVAMP montrent que ReFT surpasse significativement le SFT, et la performance peut potentiellement être encore améliorée en combinant des stratégies au moment de l'inférence telles que le vote majoritaire et le reclassement. Il est à noter que ReFT obtient cette amélioration en apprenant à partir des mêmes questions d'entraînement que le SFT, sans dépendre de questions supplémentaires ou augmentées. Cela indique une capacité de généralisation supérieure pour ReFT.
Le regroupement est intrinsèquement ambigu en raison des multiples niveaux de granularité avec lesquels on peut décomposer une scène — les roues d'une pelleteuse doivent-elles être considérées comme séparées ou comme faisant partie de l'ensemble ? Nous présentons Group Anything with Radiance Fields (GARField), une approche pour décomposer des scènes 3D en une hiérarchie de groupes sémantiquement significatifs à partir d'images posées en entrée. Pour ce faire, nous embrassons l'ambiguïté du regroupement à travers l'échelle physique : en optimisant un champ de caractéristiques d'affinité 3D conditionné par l'échelle, un point dans le monde peut appartenir à différents groupes de tailles variées. Nous optimisons ce champ à partir d'un ensemble de masques 2D fournis par Segment Anything (SAM) d'une manière qui respecte une hiérarchie allant du grossier au fin, en utilisant l'échelle pour fusionner de manière cohérente les masques conflictuels provenant de différents points de vue. À partir de ce champ, nous pouvons dériver une hiérarchie de regroupements possibles via une construction automatique d'arbre ou une interaction utilisateur. Nous évaluons GARField sur une variété de scènes en conditions réelles et constatons qu'il extrait efficacement des groupes à de nombreux niveaux : clusters d'objets, objets et diverses sous-parties. GARField représente intrinsèquement des regroupements cohérents en multi-vues et produit des groupes de plus haute fidélité que les masques SAM en entrée. Le regroupement hiérarchique de GARField pourrait avoir des applications en aval passionnantes, telles que l'extraction d'actifs 3D ou la compréhension dynamique de scènes. Consultez le site du projet à l'adresse https://www.garfield.studio/
L'ancrage 3D vision-langage, qui se concentre sur l'alignement du langage avec l'environnement physique en 3D, constitue une pierre angulaire dans le développement d'agents incarnés. Par rapport aux avancées récentes dans le domaine 2D, l'ancrage du langage dans des scènes 3D présente plusieurs défis majeurs : (i) la complexité inhérente des scènes 3D due à la diversité des configurations d'objets, leurs attributs riches et les relations complexes ; (ii) la rareté des données vision-langage 3D appariées pour soutenir l'apprentissage ancré ; et (iii) l'absence d'un cadre d'apprentissage unifié pour distiller les connaissances à partir de données 3D ancrées. Dans ce travail, nous visons à relever ces trois défis majeurs en vision-langage 3D en examinant le potentiel d'une mise à l'échelle systématique de l'apprentissage vision-langage 3D dans des environnements intérieurs. Nous introduisons le premier jeu de données vision-langage 3D à l'échelle du million, SceneVerse, englobant environ 68 000 scènes 3D intérieures et comprenant 2,5 millions de paires vision-langage dérivées à la fois d'annotations humaines et de notre approche générative basée sur des graphes de scène. Nous démontrons que cette mise à l'échelle permet un cadre de pré-entraînement unifié, Grounded Pre-training for Scenes (GPS), pour l'apprentissage vision-langage 3D. À travers des expériences approfondies, nous montrons l'efficacité de GPS en atteignant des performances de pointe sur tous les benchmarks existants d'ancrage visuel 3D. Le potentiel immense de SceneVerse et GPS est révélé à travers des expériences de transfert zero-shot dans des tâches vision-langage 3D complexes. Site du projet : https://scene-verse.github.io.
Les modèles du monde jouent un rôle crucial dans la compréhension et la prédiction des dynamiques du monde, ce qui est essentiel pour la génération de vidéos. Cependant, les modèles du monde existants sont limités à des scénarios spécifiques tels que les jeux ou la conduite, restreignant leur capacité à capturer la complexité des environnements dynamiques généraux du monde. Par conséquent, nous introduisons WorldDreamer, un modèle du monde pionnier visant à favoriser une compréhension approfondie de la physique et des mouvements généraux du monde, ce qui améliore significativement les capacités de génération de vidéos. S'inspirant du succès des grands modèles de langage, WorldDreamer aborde la modélisation du monde comme un défi de modélisation de séquences visuelles non supervisées. Cela est réalisé en associant les entrées visuelles à des tokens discrets et en prédisant ceux qui sont masqués. Durant ce processus, nous intégrons des prompts multimodaux pour faciliter l'interaction au sein du modèle du monde. Nos expériences montrent que WorldDreamer excelle dans la génération de vidéos à travers différents scénarios, incluant des scènes naturelles et des environnements de conduite. WorldDreamer démontre une polyvalence dans l'exécution de tâches telles que la conversion de texte en vidéo, la synthèse d'images en vidéo, et l'édition de vidéos. Ces résultats soulignent l'efficacité de WorldDreamer à capturer les éléments dynamiques dans divers environnements généraux du monde.
La génération de vidéos basée sur la diffusion a suscité une attention considérable et a obtenu un succès notable au sein des communautés académiques et industrielles. Cependant, les efforts actuels se concentrent principalement sur la génération de vidéos à objectif unique ou à tâche unique, telles que la génération pilotée par du texte, par une image, ou par une combinaison de texte et d’image. Cela ne répond pas pleinement aux besoins des scénarios d’application réels, car les utilisateurs sont susceptibles de saisir des conditions sous forme d’images et de texte de manière flexible, soit individuellement, soit en combinaison. Pour remédier à cela, nous proposons un système de Génération de Vidéo Unimodale capable de gérer plusieurs tâches de génération de vidéos à travers les modalités texte et image. À cette fin, nous revisitons les différentes tâches de génération de vidéos au sein de notre système sous l’angle de la liberté générative, et les classons en catégories de génération de vidéos à haute liberté et à faible liberté. Pour la génération de vidéos à haute liberté, nous utilisons une Attention Croisée Multi-condition pour générer des vidéos alignées sur la sémantique des images ou du texte en entrée. Pour la génération de vidéos à faible liberté, nous introduisons un Bruit Gaussien Biaisé pour remplacer le Bruit Gaussien purement aléatoire, ce qui permet de mieux préserver le contenu des conditions d’entrée. Notre méthode atteint la plus faible Distance de Vidéo Fréchet (FVD) sur le benchmark académique public MSR-VTT, surpasse les méthodes open-source actuelles dans les évaluations humaines, et est à égalité avec la méthode close-source actuelle Gen2. Pour plus d’exemples, visitez https://univg-baidu.github.io.
Le déploiement et la mise à l'échelle des grands modèles de langage (LLMs) sont devenus critiques à mesure qu'ils s'intègrent dans diverses applications, exigeant des systèmes de service à haut débit et à faible latence. Les frameworks existants peinent à équilibrer ces exigences, en particulier pour les charges de travail comportant des prompts longs. Cet article présente DeepSpeed-FastGen, un système qui utilise Dynamic SplitFuse, une nouvelle stratégie de composition de prompts et de génération, pour offrir un débit effectif jusqu'à 2,3 fois supérieur, une latence moyenne 2 fois plus faible et une latence en queue (au niveau des tokens) jusqu'à 3,7 fois plus faible, par rapport aux systèmes de pointe comme vLLM. Nous tirons parti d'une combinaison synergique de DeepSpeed-MII et DeepSpeed-Inference pour fournir un système de service efficace et facile à utiliser pour les LLMs. L'implémentation avancée de DeepSpeed-FastGen prend en charge une gamme de modèles et propose des options de déploiement non persistantes et persistantes, répondant à divers scénarios utilisateurs, des sessions interactives aux applications de longue durée. Nous présentons une méthodologie de benchmarking détaillée, analysons les performances à travers des courbes latence-débit et étudions la scalabilité via l'équilibrage de charge. Nos évaluations démontrent des améliorations substantielles en termes de débit et de latence pour divers modèles et configurations matérielles. Nous discutons de notre feuille de route pour les améliorations futures, incluant un support élargi de modèles et de nouveaux backends matériels. Le code de DeepSpeed-FastGen est facilement accessible pour l'engagement et la contribution de la communauté.
La génération de texte-à-vidéo vise à produire une vidéo à partir d'une description donnée. Récemment, plusieurs modèles vidéo commerciaux ont été capables de générer des vidéos plausibles avec un bruit minimal, des détails excellents et des scores esthétiques élevés. Cependant, ces modèles s'appuient sur des vidéos de grande échelle, bien filtrées et de haute qualité qui ne sont pas accessibles à la communauté. De nombreux travaux de recherche existants, qui entraînent des modèles en utilisant le jeu de données WebVid-10M de faible qualité, peinent à générer des vidéos de haute qualité car les modèles sont optimisés pour s'adapter à WebVid-10M. Dans ce travail, nous explorons le schéma d'entraînement des modèles vidéo étendus à partir de Stable Diffusion et étudions la faisabilité d'exploiter des vidéos de faible qualité et des images synthétisées de haute qualité pour obtenir un modèle vidéo de haute qualité. Nous analysons d'abord la connexion entre les modules spatiaux et temporels des modèles vidéo et le décalage de distribution vers des vidéos de faible qualité. Nous observons qu'un entraînement complet de tous les modules entraîne un couplage plus fort entre les modules spatiaux et temporels que l'entraînement des seuls modules temporels. Sur la base de ce couplage plus fort, nous décalons la distribution vers une qualité supérieure sans dégradation du mouvement en affinant les modules spatiaux avec des images de haute qualité, ce qui donne un modèle vidéo générique de haute qualité. Des évaluations sont menées pour démontrer la supériorité de la méthode proposée, en particulier en termes de qualité d'image, de mouvement et de composition conceptuelle.
Nous présentons les Scalable Interpolant Transformers (SiT), une famille de modèles génératifs construits sur l'architecture des Diffusion Transformers (DiT). Le cadre d'interpolation, qui permet de relier deux distributions de manière plus flexible que les modèles de diffusion standard, rend possible une étude modulaire de divers choix de conception influençant les modèles génératifs basés sur le transport dynamique : l'utilisation d'un apprentissage en temps discret ou continu, la détermination de l'objectif à apprendre par le modèle, le choix de l'interpolant reliant les distributions, et le déploiement d'un échantillonneur déterministe ou stochastique. En introduisant soigneusement ces éléments, SiT surpasse DiT de manière uniforme pour toutes les tailles de modèles sur le benchmark conditionnel ImageNet 256x256, en utilisant exactement la même architecture, le même nombre de paramètres et les mêmes GFLOPs. En explorant divers coefficients de diffusion, qui peuvent être ajustés indépendamment de l'apprentissage, SiT atteint un score FID-50K de 2,06.
Nous présentons TextureDreamer, une méthode novatrice de synthèse de textures guidée par l’image, permettant de transférer des textures rééclairées à partir d’un petit nombre d’images d’entrée (3 à 5) vers des formes 3D cibles, indépendamment de leur catégorie. La création de textures constitue un défi majeur en vision et en infographie. Les entreprises industrielles emploient des artistes expérimentés pour concevoir manuellement les textures des assets 3D. Les méthodes classiques nécessitent des vues densément échantillonnées et une géométrie parfaitement alignée, tandis que les méthodes basées sur l’apprentissage sont limitées à des formes spécifiques à une catégorie dans le jeu de données. En revanche, TextureDreamer permet de transférer des textures hautement détaillées et complexes, issues d’environnements réels, vers des objets arbitraires avec seulement quelques images capturées de manière informelle, ce qui pourrait potentiellement démocratiser significativement la création de textures. Notre idée centrale, la distillation de scores géométriques personnalisés (PGSD), s’inspire des avancées récentes dans les modèles diffus, incluant la modélisation personnalisée pour l’extraction d’informations texturales, la distillation de scores variationnels pour la synthèse d’apparences détaillées, et le guidage géométrique explicite avec ControlNet. Notre intégration ainsi que plusieurs modifications essentielles améliorent considérablement la qualité des textures. Les expériences menées sur des images réelles couvrant différentes catégories montrent que TextureDreamer parvient à transférer avec succès des textures hautement réalistes et sémantiquement significatives vers des objets arbitraires, surpassant la qualité visuelle des méthodes précédentes de pointe.
La descente de gradient stochastique locale (Local-SGD), également appelée agrégation fédérée, est une approche d'optimisation distribuée où chaque appareil effectue plus d'une mise à jour SGD par communication. Ce travail présente une étude empirique de la Local-SGD {\it asynchrone} pour l'entraînement de modèles de langage ; c'est-à-dire que chaque travailleur met à jour les paramètres globaux dès qu'il a terminé ses étapes SGD. Nous menons une investigation approfondie en examinant comment l'hétérogénéité matérielle des travailleurs, la taille du modèle, le nombre de travailleurs et l'optimiseur pourraient influencer les performances d'apprentissage. Nous constatons qu'avec des implémentations naïves, la Local-SGD asynchrone nécessite plus d'itérations pour converger que sa contrepartie synchrone, malgré une mise à jour plus fréquente des paramètres (globaux) du modèle. Nous identifions l'accélération par momentum sur les paramètres globaux lorsque les gradients des travailleurs sont obsolètes comme un défi majeur. Nous proposons une nouvelle méthode qui utilise une mise à jour de momentum de Nesterov retardée et ajuste les étapes d'entraînement locales des travailleurs en fonction de leur vitesse de calcul. Cette approche, évaluée avec des modèles allant jusqu'à 150 millions de paramètres sur le jeu de données C4, correspond aux performances de la Local-SGD synchrone en termes de perplexité par étape de mise à jour, et la dépasse significativement en termes de temps écoulé.
Pour pallier les limitations du texte comme source de représentation précise de la disposition dans les modèles de diffusion conditionnés par le texte, de nombreux travaux intègrent des signaux supplémentaires pour conditionner certains attributs au sein d'une image générée. Bien que ces approches soient efficaces, elles ne prennent pas en compte la localisation spécifique de ces attributs étendue dans le plan tridimensionnel. Dans ce contexte, nous présentons un modèle de diffusion conditionné qui intègre un contrôle sur le placement tridimensionnel des objets avec des représentations désentrelacées de la sémantique stylistique globale provenant de plusieurs images exemplaires. Plus précisément, nous introduisons d'abord un entraînement de désentrelacement de la profondeur pour exploiter la profondeur relative des objets comme estimateur, permettant au modèle d'identifier les positions absolues d'objets non vus grâce à l'utilisation de triplets d'images synthétiques. Nous introduisons également le guidage doux, une méthode pour imposer une sémantique globale sur des régions ciblées sans utiliser d'indices de localisation supplémentaires. Notre cadre intégré, Compose and Conquer (CnC), unifie ces techniques pour localiser plusieurs conditions de manière désentrelacée. Nous démontrons que notre approche permet la perception d'objets à différentes profondeurs tout en offrant un cadre polyvalent pour composer des objets localisés avec différentes sémantiques globales. Code : https://github.com/tomtom1103/compose-and-conquer/
Les Champs de Radiance Neuronaux (NeRF) démontrent des performances remarquables pour la Synthèse de Nouvelles Vues (NVS) à partir d'un ensemble d'images 2D. Cependant, l'entraînement des NeRF nécessite des poses de caméra précises pour chaque vue d'entrée, généralement obtenues par des pipelines de Structure-from-Motion (SfM). Des travaux récents ont tenté de relâcher cette contrainte, mais ils reposent souvent sur des poses initiales décentes qu'ils peuvent affiner. Ici, nous visons à éliminer l'exigence d'initialisation des poses. Nous présentons ICON (Incremental CONfidence), une procédure d'optimisation pour entraîner les NeRF à partir de séquences vidéo 2D. ICON suppose uniquement un mouvement de caméra fluide pour estimer une estimation initiale des poses. De plus, ICON introduit la notion de « confiance » : une mesure adaptative de la qualité du modèle utilisée pour pondérer dynamiquement les gradients. ICON s'appuie sur des poses de haute confiance pour apprendre le NeRF, et sur une structure 3D de haute confiance (telle qu'encodée par le NeRF) pour apprendre les poses. Nous montrons qu'ICON, sans initialisation préalable des poses, obtient des performances supérieures à la fois sur CO3D et HO3D par rapport aux méthodes utilisant les poses SfM.