Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Magicoder, une série de modèles de langage de grande taille (LLMs) entièrement open-source (code, poids et données) dédiés au code, qui réduit considérablement l'écart avec les meilleurs modèles de code tout en ne dépassant pas 7 milliards de paramètres. Les modèles Magicoder sont entraînés sur 75 000 données d'instructions synthétiques en utilisant OSS-Instruct, une approche novatrice qui éclaire les LLMs avec des extraits de code open-source pour générer des données d'instructions de haute qualité pour le code. Notre motivation principale est d'atténuer le biais inhérent des données synthétiques générées par les LLMs en les dotant d'une richesse de références open-source pour produire des données plus diversifiées, réalistes et contrôlables. L'orthogonalité d'OSS-Instruct avec d'autres méthodes de génération de données comme Evol-Instruct nous permet également de construire un MagicoderS amélioré. Magicoder et MagicoderS surpassent largement les modèles de code de pointe de tailles similaires ou même supérieures sur une large gamme de benchmarks de codage, incluant la génération de code à partir de texte en Python, le codage multilingue et la complétion de programmes en science des données. Notamment, MagicoderS-CL-7B, basé sur CodeLlama, dépasse même le célèbre ChatGPT sur HumanEval+ (66,5 contre 65,9 en pass@1). Globalement, OSS-Instruct ouvre une nouvelle voie pour un réglage d'instructions à faible biais et de haute qualité en utilisant des références open-source abondantes.
Les modèles de diffusion texte-vidéo ont considérablement fait progresser la génération vidéo. Cependant, personnaliser ces modèles pour produire des vidéos avec des mouvements spécifiques représente un défi majeur. Plus précisément, ils rencontrent des difficultés à (a) reproduire fidèlement les mouvements d'une vidéo cible, et (b) créer des variations visuelles diversifiées. Par exemple, l'extension directe des méthodes de personnalisation d'images statiques à la vidéo entraîne souvent un enchevêtrement complexe des données d'apparence et de mouvement. Pour résoudre ce problème, nous présentons ici le cadre Video Motion Customization (VMC), une nouvelle approche de réglage en une seule étape conçue pour adapter les couches d'attention temporelle dans les modèles de diffusion vidéo. Notre méthode introduit un objectif de distillation de mouvement innovant, utilisant des vecteurs résiduels entre des images consécutives comme référence de mouvement. Le processus de diffusion préserve ainsi les trajectoires de mouvement à basse fréquence tout en atténuant le bruit à haute fréquence non lié au mouvement dans l'espace image. Nous validons notre méthode par rapport aux modèles génératifs vidéo de pointe dans divers contextes et mouvements du monde réel. Nos codes, données et démonstration du projet sont disponibles à l'adresse suivante : https://video-motion-customization.github.io.
Le processus d'alignement des grands modèles de langage (LLMs) implique généralement un apprentissage par instructions via un affinage supervisé (SFT) et un ajustement des préférences par apprentissage par renforcement à partir de retours humains (RLHF). Une étude récente, LIMA (Zhou et al. 2023), montre qu'utiliser seulement 1 000 exemples pour le SFT peut également atteindre des performances d'alignement significatives, suggérant que l'effet de l'alignement pourrait être "superficiel". Cela soulève des questions sur la manière exacte dont l'alignement transforme un LLM de base. Nous analysons l'effet de l'alignement en examinant le décalage de distribution des tokens entre les LLMs de base et leurs versions alignées. Nos résultats révèlent que les LLMs de base et leurs versions alignées se comportent de manière presque identique lors du décodage sur la majorité des positions de tokens. La plupart des décalages de distribution se produisent avec des tokens stylistiques. Ces preuves directes soutiennent fortement l'hypothèse de l'alignement superficiel suggérée par LIMA. Sur la base de ces résultats, nous repensons l'alignement des LLMs en posant la question de recherche suivante : dans quelle mesure pouvons-nous aligner les LLMs de base sans SFT ni RLHF ? Pour y répondre, nous introduisons une méthode d'alignement simple et sans affinage, URIAL. URIAL réalise un alignement efficace uniquement par apprentissage en contexte (ICL) avec des LLMs de base, nécessitant aussi peu que trois exemples stylistiques constants et une invite système. Nous menons une évaluation fine et interprétable sur un ensemble diversifié d'exemples, nommé JUST-EVAL-INSTRUCT. Les résultats montrent que les LLMs de base avec URIAL peuvent égaler ou même surpasser les performances des LLMs alignés avec SFT ou SFT+RLHF. Nous montrons que l'écart entre les méthodes d'alignement sans affinage et celles basées sur l'affinage peut être significativement réduit grâce à des invites stratégiques et à l'ICL. Nos conclusions sur la nature superficielle de l'alignement et les résultats avec URIAL suggèrent qu'une analyse plus approfondie et une compréhension théorique de l'alignement sont cruciales pour les futures recherches sur les LLMs.
Cette étude explore la synthèse d'images préservant l'identité, une tâche fascinante en génération d'images qui vise à maintenir l'identité d'un sujet tout en y ajoutant une touche stylistique personnalisée. Les méthodes traditionnelles, telles que l'Inversion Textuelle et DreamBooth, ont fait des avancées dans la création d'images personnalisées, mais elles présentent des inconvénients majeurs. Parmi ceux-ci figurent la nécessité de ressources et de temps importants pour le réglage fin, ainsi que l'exigence de multiples images de référence. Pour surmonter ces défis, notre recherche propose une nouvelle approche de synthèse préservant l'identité, en se concentrant particulièrement sur les images humaines. Notre modèle exploite un mécanisme de transmission directe, évitant ainsi le besoin d'un réglage fin intensif, ce qui facilite une génération d'images rapide et efficace. Au cœur de notre innovation se trouve un cadre de guidage hybride, qui combine des images stylisées, des images faciales et des invites textuelles pour orienter le processus de génération d'images. Cette combinaison unique permet à notre modèle de produire une variété d'applications, telles que des portraits artistiques et des images mélangeant les identités. Nos résultats expérimentaux, incluant des évaluations qualitatives et quantitatives, démontrent la supériorité de notre méthode par rapport aux modèles de référence existants et aux travaux précédents, notamment en termes d'efficacité remarquable et de capacité à préserver l'identité du sujet avec une grande fidélité.
Les modèles de diffusion ont récemment suscité une attention sans précédent dans le domaine de la synthèse d'images grâce à leurs remarquables capacités génératives. Malgré leur puissance, ces modèles engendrent souvent des coûts computationnels substantiels, principalement attribuables au processus séquentiel de débruitage et à la taille encombrante des modèles. Les méthodes traditionnelles de compression des modèles de diffusion impliquent généralement un réentraînement extensif, posant des défis en termes de coût et de faisabilité. Dans cet article, nous présentons DeepCache, un nouveau paradigme sans entraînement qui accélère les modèles de diffusion en intervenant sur l'architecture du modèle. DeepCache tire parti de la redondance temporelle inhérente observée dans les étapes séquentielles de débruitage des modèles de diffusion, en mettant en cache et en récupérant les caractéristiques entre les étapes adjacentes de débruitage, réduisant ainsi les calculs redondants. En exploitant la propriété de l'U-Net, nous réutilisons les caractéristiques de haut niveau tout en mettant à jour les caractéristiques de bas niveau de manière très économique. Cette stratégie innovante permet d'obtenir un facteur d'accélération de 2,3 fois pour Stable Diffusion v1.5 avec seulement une baisse de 0,05 du score CLIP, et de 4,1 fois pour LDM-4-G avec une légère diminution de 0,22 du FID sur ImageNet. Nos expériences démontrent également la supériorité de DeepCache par rapport aux méthodes existantes d'élagage et de distillation qui nécessitent un réentraînement, ainsi que sa compatibilité avec les techniques d'échantillonnage actuelles. De plus, nous constatons que pour un même débit, DeepCache permet d'obtenir des résultats comparables, voire légèrement améliorés, avec DDIM ou PLMS. Le code est disponible à l'adresse https://github.com/horseee/DeepCache.
Les méthodes actuelles d'édition vidéo basées sur la diffusion se concentrent principalement sur la préservation de la structure en utilisant diverses correspondances denses pour garantir la cohérence temporelle et l'alignement des mouvements. Cependant, ces approches s'avèrent souvent inefficaces lorsque la modification cible implique un changement de forme. Pour aborder l'édition vidéo avec changement de forme, nous explorons dans ce travail l'échange personnalisé de sujets vidéo, où nous visons à remplacer le sujet principal d'une vidéo source par un sujet cible ayant une identité distincte et potentiellement une forme différente. Contrairement aux méthodes précédentes qui reposent sur des correspondances denses, nous introduisons le cadre VideoSwap qui exploite des correspondances de points sémantiques, inspiré par notre observation que seul un petit nombre de points sémantiques est nécessaire pour aligner la trajectoire de mouvement du sujet et modifier sa forme. Nous introduisons également diverses interactions utilisateur-point (\eg, suppression de points et déplacement de points) pour traiter différentes correspondances de points sémantiques. Des expériences approfondies démontrent des résultats de pointe en matière d'échange de sujets vidéo sur une variété de vidéos du monde réel.
Nous proposons une méthode pour doter efficacement le Segment Anything Model (SAM) de la capacité à générer des légendes régionales. SAM présente une forte généralisabilité pour segmenter n'importe quoi, mais manque de compréhension sémantique. En introduisant un mélangeur de caractéristiques basé sur des requêtes léger, nous alignons les caractéristiques spécifiques à la région avec l'espace d'incorporation des modèles de langage pour la génération ultérieure de légendes. Comme le nombre de paramètres entraînables est faible (généralement de l'ordre de dizaines de millions), cela nécessite moins de calcul, moins d'utilisation de mémoire et moins de bande passante de communication, ce qui se traduit par un entraînement à la fois rapide et évolutif. Pour résoudre le problème de la rareté des données de légendes régionales, nous proposons de pré-entraîner d'abord notre modèle sur des tâches de détection d'objets et de segmentation. Nous appelons cette étape pré-entraînement par supervision faible, car les données de pré-entraînement ne contiennent que des noms de catégories au lieu de descriptions complètes. Le pré-entraînement par supervision faible nous permet d'exploiter de nombreux ensembles de données publics de détection d'objets et de segmentation. Nous menons des expériences approfondies pour démontrer la supériorité de notre méthode et valider chaque choix de conception. Ce travail sert de tremplin pour augmenter les données de légendes régionales et éclaire l'exploration de moyens efficaces pour enrichir SAM avec des sémantiques régionales. La page du projet, ainsi que le code associé, peuvent être consultés via le lien suivant : https://xk-huang.github.io/segment-caption-anything/.
Malgré les progrès récents dans la génération de texte-à-vidéo, les études existantes négligent souvent le fait que seuls les contenus spatiaux, et non les mouvements temporels, sont contrôlés par le texte dans les vidéos synthétisées. Face à ce défi, ce travail présente un système pratique, nommé LivePhoto, qui permet aux utilisateurs d'animer une image de leur choix avec des descriptions textuelles. Nous établissons d'abord une base solide qui permet à un générateur de texte-à-image bien entraîné (comme Stable Diffusion) de prendre une image comme entrée supplémentaire. Nous équipons ensuite ce générateur amélioré d'un module de mouvement pour la modélisation temporelle et proposons un pipeline d'entraînement soigneusement conçu pour mieux lier les textes et les mouvements. En particulier, en tenant compte du fait que (1) le texte ne peut décrire les mouvements que de manière approximative (par exemple, sans tenir compte de la vitesse de déplacement) et que (2) le texte peut inclure à la fois des descriptions de contenu et de mouvement, nous introduisons un module d'estimation de l'intensité du mouvement ainsi qu'un module de rééquilibrage du texte pour réduire l'ambiguïté de la cartographie texte-à-mouvement. Les preuves empiriques suggèrent que notre approche est capable de décoder efficacement les instructions textuelles liées au mouvement en vidéos, telles que des actions, des mouvements de caméra, ou même de faire apparaître de nouveaux contenus à partir de rien (par exemple, verser de l'eau dans un verre vide). Fait intéressant, grâce au mécanisme d'apprentissage de l'intensité proposé, notre système offre aux utilisateurs un signal de contrôle supplémentaire (c'est-à-dire l'intensité du mouvement) en plus du texte pour personnaliser les vidéos.
L'apprentissage par renforcement à partir de retours humains (RLHF) est devenu le principal paradigme pour aligner les grands modèles de langage (LLM) avec les préférences humaines. Typiquement, le RLHF implique une étape initiale d'apprentissage d'un modèle de récompense à partir de retours humains, souvent exprimés sous forme de préférences entre des paires de générations de texte produites par un LLM pré-entraîné. Par la suite, la politique du LLM est affinée en l'optimisant pour maximiser le modèle de récompense à travers un algorithme d'apprentissage par renforcement. Cependant, une limitation inhérente des modèles de récompense actuels est leur incapacité à représenter pleinement la richesse des préférences humaines et leur dépendance à la distribution d'échantillonnage. Dans cette étude, nous proposons une approche alternative pour l'affinage des LLM utilisant des retours humains par paires. Notre méthode consiste à apprendre initialement un modèle de préférence, qui est conditionné sur deux entrées données une incitation, suivi par la recherche d'une politique qui génère systématiquement des réponses préférées à celles générées par toute autre politique concurrente, définissant ainsi l'équilibre de Nash de ce modèle de préférence. Nous nommons cette approche l'apprentissage de Nash à partir de retours humains (NLHF). Dans le contexte d'une représentation tabulaire des politiques, nous présentons une nouvelle solution algorithmique, Nash-MD, fondée sur les principes de la descente miroir. Cet algorithme produit une séquence de politiques, dont la dernière itération converge vers l'équilibre de Nash régularisé. De plus, nous explorons les représentations paramétriques des politiques et introduisons des algorithmes de descente de gradient pour les architectures d'apprentissage profond. Pour démontrer l'efficacité de notre approche, nous présentons des résultats expérimentaux impliquant l'affinage d'un LLM pour une tâche de résumé de texte. Nous croyons que le NLHF offre une voie prometteuse pour l'apprentissage des préférences et l'optimisation des politiques, avec le potentiel de faire progresser le domaine de l'alignement des LLM avec les préférences humaines.
Comment deux ensembles d'images diffèrent-ils ? Discerner les différences au niveau des ensembles est crucial pour comprendre les comportements des modèles et analyser les jeux de données, mais parcourir manuellement des milliers d'images est impraticable. Pour faciliter ce processus de découverte, nous explorons la tâche consistant à décrire automatiquement les différences entre deux ensembles d'images, que nous appelons "Set Difference Captioning". Cette tâche prend en entrée les ensembles d'images D_A et D_B, et produit une description qui est plus souvent vraie pour D_A que pour D_B. Nous proposons une approche en deux étapes qui commence par générer des descriptions candidates des différences à partir des ensembles d'images, puis réorganise ces candidats en vérifiant dans quelle mesure ils peuvent différencier les deux ensembles. Nous présentons VisDiff, qui commence par légender les images et sollicite un modèle de langage pour proposer des descriptions candidates, puis réorganise ces descriptions en utilisant CLIP. Pour évaluer VisDiff, nous collectons VisDiffBench, un jeu de données contenant 187 paires d'ensembles d'images avec des descriptions de différences de référence. Nous appliquons VisDiff à divers domaines, tels que la comparaison de jeux de données (par exemple, ImageNet vs. ImageNetV2), la comparaison de modèles de classification (par exemple, CLIP zero-shot vs. ResNet supervisé), la synthèse des modes d'échec des modèles (ResNet supervisé), la caractérisation des différences entre modèles génératifs (par exemple, StableDiffusionV1 et V2), et la découverte de ce qui rend les images mémorables. Grâce à VisDiff, nous sommes en mesure de trouver des différences intéressantes et jusqu'alors inconnues dans les jeux de données et les modèles, démontrant ainsi son utilité pour révéler des insights nuancés.
Les modèles de diffusion, avec leur expressivité puissante et leur haute qualité d'échantillonnage, ont permis de nombreuses nouvelles applications et cas d'utilisation dans divers domaines. Pour la génération d'échantillons, ces modèles s'appuient sur un réseau de neurones de débruitage qui génère des images par itération de débruitage. Cependant, le rôle de l'architecture du réseau de débruitage n'est pas bien étudié, la plupart des efforts reposant sur des U-Nets résiduels convolutifs. Dans cet article, nous étudions l'efficacité des vision transformers dans l'apprentissage génératif basé sur la diffusion. Plus précisément, nous proposons un nouveau modèle, appelé Diffusion Vision Transformers (DiffiT), qui consiste en une architecture hiérarchique hybride avec un encodeur et un décodeur en forme de U. Nous introduisons un nouveau module d'auto-attention dépendant du temps qui permet aux couches d'attention d'adapter leur comportement à différentes étapes du processus de débruitage de manière efficace. Nous introduisons également DiffiT latent, qui consiste en un modèle de transformer avec les couches d'auto-attention proposées, pour la génération d'images haute résolution. Nos résultats montrent que DiffiT est étonnamment efficace pour générer des images de haute fidélité, et il atteint des benchmarks de pointe (SOTA) sur une variété de tâches de synthèse conditionnelle et non conditionnelle. Dans l'espace latent, DiffiT atteint un nouveau score SOTA FID de 1,73 sur le jeu de données ImageNet-256. Dépôt : https://github.com/NVlabs/DiffiT
Les réorganisateurs listwise basés sur des modèles de langage de grande taille (LLM) représentent l'état de l'art en approche zero-shot. Cependant, les travaux actuels dans cette direction dépendent tous des modèles GPT, ce qui en fait un point de défaillance unique pour la reproductibilité scientifique. De plus, cela soulève la préoccupation que les résultats de recherche actuels ne s'appliquent qu'aux modèles GPT et non aux LLM en général. Dans ce travail, nous levons cette précondition et construisons pour la première fois des réorganisateurs listwise efficaces sans aucune forme de dépendance envers GPT. Nos expériences de recherche de passages montrent que notre meilleur réorganisateur listwise surpasse ceux basés sur GPT-3.5 de 13 % et atteint 97 % de l'efficacité de ceux construits sur GPT-4. Nos résultats montrent également que les ensembles de données d'entraînement existants, qui ont été expressément conçus pour le classement pointwise, sont insuffisants pour construire de tels réorganisateurs listwise. À la place, des données de classement listwise de haute qualité sont nécessaires et cruciales, appelant à des travaux supplémentaires pour construire des ressources de données listwise annotées par des humains.
Avec les récents progrès significatifs des grands modèles multimodaux (LMMs), l'importance de leur capacité d'ancrage dans le dialogue visuel est de plus en plus reconnue. Malgré les efforts récents pour permettre aux LMMs de supporter l'ancrage, leurs capacités d'ancrage et de dialogue sont généralement séparées, et leurs performances en dialogue chutent considérablement lorsqu'on leur demande de s'ancrer. Le problème réside dans l'absence d'un jeu de données pour le dialogue visuel ancré (GVC). Les jeux de données d'ancrage existants ne contiennent que de courtes légendes. Pour résoudre ce problème, nous avons créé des données GVC qui permettent de combiner les capacités d'ancrage et de dialogue. Pour mieux évaluer les capacités GVC, nous avons introduit un benchmark appelé Grounding-Bench. De plus, nous avons proposé une conception de modèle qui peut supporter le GVC et divers types d'invites visuelles en connectant des modèles de segmentation avec des modèles de langage. Les résultats expérimentaux démontrent que notre modèle surpasse les autres LMMs sur Grounding-Bench. Par ailleurs, notre modèle atteint des performances compétitives sur des benchmarks classiques d'ancrage comme RefCOCO/+/g et Flickr30K Entities. Notre code sera publié à l'adresse https://github.com/UX-Decoder/LLaVA-Grounding.
Nous présentons une nouvelle approche, appelée GPS-Gaussian, pour synthétiser des vues nouvelles d'un personnage en temps réel. La méthode proposée permet un rendu en résolution 2K dans un contexte de caméras à vues éparses. Contrairement aux méthodes originales de Gaussian Splatting ou de rendu implicite neuronal qui nécessitent des optimisations par sujet, nous introduisons des cartes de paramètres gaussiens définies sur les vues sources et régressons directement les propriétés de Gaussian Splatting pour une synthèse instantanée de vues nouvelles sans aucun réglage fin ou optimisation. À cette fin, nous entraînons notre module de régression des paramètres gaussiens sur une grande quantité de données de scans humains, conjointement avec un module d'estimation de profondeur pour projeter les cartes de paramètres 2D dans l'espace 3D. Le cadre proposé est entièrement différentiable et les expériences sur plusieurs ensembles de données démontrent que notre méthode surpasse les méthodes de pointe tout en atteignant une vitesse de rendu exceptionnelle.
Nous proposons une approche qui consiste à formuler la reconnaissance d'objets comme une prédiction de token suivant. L'idée est d'appliquer un décodeur de langage qui prédit de manière auto-régressive les tokens textuels à partir d'embeddings d'images pour former des étiquettes. Pour ancrer ce processus de prédiction dans l'auto-régression, nous personnalisons un masque d'attention non-causal pour le décodeur, en intégrant deux caractéristiques clés : modéliser les tokens de différentes étiquettes comme étant indépendants, et traiter les tokens d'images comme un préfixe. Ce mécanisme de masquage inspire une méthode efficace - l'échantillonnage en une seule passe - pour échantillonner simultanément les tokens de plusieurs étiquettes en parallèle et classer les étiquettes générées selon leurs probabilités lors de l'inférence. Pour améliorer encore l'efficacité, nous proposons une stratégie simple pour construire un décodeur compact en supprimant simplement les blocs intermédiaires d'un modèle de langage pré-entraîné. Cette approche produit un décodeur qui correspond aux performances du modèle complet tout en étant nettement plus efficace. Le code est disponible à l'adresse https://github.com/kaiyuyue/nxtp.
La génération de texte-à-vidéo a montré des résultats prometteurs. Cependant, en ne prenant que des langues naturelles comme entrée, les utilisateurs rencontrent souvent des difficultés à fournir des informations détaillées pour contrôler précisément la sortie du modèle. Dans ce travail, nous proposons la génération de vidéo contrôlable à granularité fine (FACTOR) pour atteindre un contrôle détaillé. Plus précisément, FACTOR vise à contrôler l'apparence et le contexte des objets, y compris leur localisation et leur catégorie, en conjonction avec l'invite textuelle. Pour parvenir à un contrôle détaillé, nous proposons un cadre unifié pour injecter conjointement des signaux de contrôle dans le modèle existant de texte-à-vidéo. Notre modèle se compose d'un encodeur conjoint et de couches d'attention croisée adaptatives. En optimisant l'encodeur et la couche insérée, nous adaptons le modèle pour générer des vidéos alignées à la fois avec les invites textuelles et le contrôle à granularité fine. Par rapport aux méthodes existantes reposant sur des signaux de contrôle denses tels que les cartes de contours, nous fournissons une interface plus intuitive et conviviale permettant un contrôle fin au niveau des objets. Notre méthode atteint la contrôlabilité des apparences d'objets sans ajustement fin, ce qui réduit les efforts d'optimisation par sujet pour les utilisateurs. Des expériences approfondies sur des ensembles de données de référence standard et des entrées fournies par les utilisateurs valident que notre modèle obtient une amélioration de 70 % dans les métriques de contrôlabilité par rapport aux bases de référence concurrentes.
Nous présentons les transformateurs génératifs à vocabulaire infini (GIVT), qui génèrent des séquences de vecteurs à valeurs réelles, plutôt que des tokens discrets issus d'un vocabulaire fini. Pour ce faire, nous proposons deux modifications étonnamment simples aux transformateurs de type décodeur uniquement : 1) en entrée, nous remplaçons la table de correspondance à vocabulaire fini par une projection linéaire des vecteurs d'entrée ; et 2) en sortie, nous remplaçons la prédiction des logits (généralement mappée à une distribution catégorielle) par les paramètres d'un modèle de mélange gaussien multivarié. Inspirés par le paradigme de génération d'images de VQ-GAN et MaskGIT, où les transformateurs sont utilisés pour modéliser les séquences latentes discrètes d'un VQ-VAE, nous utilisons GIVT pour modéliser les séquences latentes à valeurs réelles non quantifiées d'un VAE. Lorsque nous appliquons GIVT à la génération d'images conditionnée par classe avec modélisation masquée itérative, nous obtenons des résultats compétitifs par rapport à MaskGIT, tandis que notre approche surpasse à la fois VQ-GAN et MaskGIT dans le cadre de la modélisation causale. Enfin, nous obtenons des résultats compétitifs en dehors de la génération d'images en appliquant notre approche à la segmentation panoptique et à l'estimation de profondeur avec une variante basée sur VAE du cadre UViM.
La synthèse de nouvelles vues à partir d'une vidéo en conditions réelles est difficile en raison de défis tels que la dynamique de la scène et le manque de parallaxe. Bien que les méthodes existantes aient montré des résultats prometteurs avec des champs de radiance neuronaux implicites, elles sont lentes à entraîner et à rendre. Cet article revisite les représentations vidéo explicites pour synthétiser efficacement des vues de haute qualité à partir d'une vidéo monoculaire. Nous traitons séparément le contenu statique et dynamique de la vidéo. Plus précisément, nous construisons un modèle global de scène statique en utilisant une représentation de scène basée sur des plans étendue pour synthétiser une vidéo nouvelle et cohérente dans le temps. Notre représentation de scène basée sur des plans est enrichie d'harmoniques sphériques et de cartes de déplacement pour capturer les effets dépendants de la vue et modéliser la géométrie complexe des surfaces non planes. Nous choisissons de représenter le contenu dynamique sous forme de nuages de points par image pour des raisons d'efficacité. Bien que ces représentations soient sujettes à des incohérences, les légères incohérences temporelles sont masquées perceptuellement en raison du mouvement. Nous développons une méthode pour estimer rapidement une telle représentation vidéo hybride et rendre de nouvelles vues en temps réel. Nos expériences montrent que notre méthode peut rendre des vues de haute qualité à partir d'une vidéo en conditions réelles avec une qualité comparable aux méthodes de pointe, tout en étant 100 fois plus rapide à l'entraînement et en permettant un rendu en temps réel.
Les modèles de génération d'images à partir de texte (Text-to-Image, T2I) à grande échelle ont rapidement gagné en importance dans les domaines créatifs, produisant des résultats visuellement convaincants à partir de descriptions textuelles. Cependant, contrôler ces modèles pour garantir une cohérence stylistique reste un défi, les méthodes existantes nécessitant un ajustement fin et une intervention manuelle pour dissocier le contenu et le style. Dans cet article, nous présentons StyleAligned, une nouvelle technique conçue pour établir un alignement stylistique parmi une série d'images générées. En utilisant un partage minimal de l'attention pendant le processus de diffusion, notre méthode maintient une cohérence stylistique entre les images au sein des modèles T2I. Cette approche permet la création d'images stylistiquement cohérentes en utilisant un style de référence grâce à une opération d'inversion simple. L'évaluation de notre méthode sur divers styles et descriptions textuelles démontre une synthèse de haute qualité et une fidélité accrue, soulignant son efficacité pour atteindre une cohérence stylistique sur des entrées variées.
Les outils traditionnels de création de contenu 3D permettent aux utilisateurs de donner vie à leur imagination en leur offrant un contrôle direct sur la géométrie, l'apparence, le mouvement et la trajectoire de la caméra d'une scène. Cependant, la création de vidéos générées par ordinateur reste un processus manuel fastidieux, qui peut être automatisé grâce aux modèles émergents de diffusion texte-à-vidéo. Malgré leur grand potentiel, les modèles de diffusion vidéo sont difficiles à contrôler, limitant ainsi la capacité des utilisateurs à exprimer leur créativité plutôt que de l'amplifier. Pour relever ce défi, nous proposons une nouvelle approche qui combine la contrôlabilité des maillages 3D dynamiques avec l'expressivité et la capacité d'édition des modèles de diffusion émergents. À cette fin, notre méthode prend en entrée un maillage animé et rendu en basse fidélité, puis injecte les informations de correspondance issues du maillage dynamique à différentes étapes d'un modèle pré-entraîné de génération d'images à partir de texte, afin de produire des images de haute qualité et temporellement cohérentes. Nous illustrons notre approche à travers divers exemples où le mouvement peut être obtenu en animant des éléments articulés ou en modifiant la trajectoire de la caméra.
Dans le domaine de la génération de texte-à-3D, l'utilisation de modèles de diffusion 2D via l'échantillonnage par distillation de score (SDS) entraîne fréquemment des problèmes tels que des apparences floues et des géométries multi-faces, principalement en raison de la nature intrinsèquement bruyante de la perte SDS. Notre analyse identifie le cœur de ces défis comme étant l'interaction entre les niveaux de bruit dans le processus de diffusion 2D, l'architecture du réseau de diffusion et la représentation du modèle 3D. Pour surmonter ces limitations, nous présentons StableDreamer, une méthodologie intégrant trois avancées. Premièrement, inspiré par InstructNeRF2NeRF, nous formalisons l'équivalence entre le prior génératif SDS et une simple perte de reconstruction supervisée L2. Cette découverte fournit un nouvel outil pour déboguer SDS, que nous utilisons pour montrer l'impact des niveaux de bruit temporellement décroissants sur la réduction des géométries multi-faces. Deuxièmement, notre analyse montre que si la diffusion dans l'espace image contribue à la précision géométrique, la diffusion dans l'espace latent est cruciale pour un rendu coloré vivant. Sur la base de cette observation, StableDreamer introduit une stratégie d'entraînement en deux étapes qui combine efficacement ces aspects, aboutissant à des modèles 3D de haute fidélité. Troisièmement, nous adoptons une représentation anisotropique de Gaussiennes 3D, remplaçant les Champs de Radiance Neuronaux (NeRFs), pour améliorer la qualité globale, réduire l'utilisation de la mémoire pendant l'entraînement, accélérer les vitesses de rendu et mieux capturer les objets semi-transparents. StableDreamer réduit les géométries multi-faces, génère des détails fins et converge de manière stable.
La segmentation interactive 3D dans les champs de radiance est une tâche attrayante en raison de son importance dans la compréhension et la manipulation de scènes 3D. Cependant, les méthodes existantes rencontrent des difficultés pour atteindre une segmentation fine et multi-granularité ou pour gérer une surcharge computationnelle importante, ce qui empêche une interaction en temps réel. Dans cet article, nous présentons Segment Any 3D GAussians (SAGA), une nouvelle approche de segmentation interactive 3D qui intègre harmonieusement un modèle de base de segmentation 2D avec le Gaussian Splatting 3D (3DGS), une avancée récente dans les champs de radiance. SAGA intègre efficacement les résultats de segmentation 2D multi-granularité générés par le modèle de base de segmentation dans les caractéristiques de points gaussiens 3D grâce à un entraînement contrastif bien conçu. L'évaluation sur des benchmarks existants montre que SAGA peut atteindre des performances compétitives avec les méthodes de pointe. De plus, SAGA réalise une segmentation multi-granularité et s'adapte à divers prompts, y compris des points, des gribouillis et des masques 2D. Notamment, SAGA peut terminer la segmentation 3D en quelques millisecondes, atteignant une accélération de près de 1000x par rapport aux précédents SOTA. La page du projet est disponible à l'adresse https://jumpat.github.io/SAGA.
Les grands modèles de langage (LLMs) résolvent les problèmes de manière plus précise et interprétable lorsqu'ils sont guidés pour détailler la réponse étape par étape à l'aide d'une incitation en « chaîne de pensée » (CoT). On peut également améliorer les performances des LLMs sur une tâche spécifique par un ajustement supervisé, c'est-à-dire en utilisant l'ascension du gradient sur certains paramètres ajustables pour maximiser la log-vraisemblance moyenne des réponses correctes issues d'un ensemble d'entraînement étiqueté. Combiner naïvement la CoT avec l'ajustement supervisé nécessite non seulement la supervision des réponses correctes, mais aussi des raisonnements détaillés menant à ces réponses ; ces raisonnements sont coûteux à produire manuellement. Nous proposons plutôt une stratégie d'ajustement qui cherche à maximiser la log-vraisemblance marginale de générer une réponse correcte en utilisant l'incitation CoT, en approximant la moyenne sur tous les raisonnements possibles. Le défi principal consiste à échantillonner à partir de la distribution a posteriori sur les raisonnements conditionnée à la réponse correcte ; nous le résolvons en utilisant un algorithme simple de maximisation de l'espérance par chaîne de Markov Monte Carlo (MCMC-EM) inspiré du raisonneur autodidacte (STaR), de la méthode mémorisée wake-sleep, de l'ascension de score markovienne et de la divergence contrastive persistante. Cet algorithme intègre également une nouvelle technique de contrôle de variance qui réduit la variance de nos estimations de gradient à zéro à mesure que le modèle s'améliore. En appliquant notre technique à GSM8K et aux tâches de BIG-Bench Hard, nous constatons que cette méthode d'ajustement MCMC-EM améliore généralement la précision du modèle sur des exemples de test plus que STaR ou l'ajustement par incitation avec ou sans CoT.
Les modèles de langage multimodaux de grande envergure (MLLMs) ont excellé dans la compréhension et la génération d'images 2D associées à du texte, mais leur compréhension du monde en 3D reste notablement déficiente, ce qui limite les progrès dans la compréhension et la génération de langage en 3D. Pour résoudre ce problème, nous introduisons GPT4Point, un modèle multimodal innovant et révolutionnaire conçu spécifiquement pour une compréhension et une génération unifiées d'objets 3D dans le cadre des MLLMs. GPT4Point, en tant que puissant MLLM 3D, peut exécuter de manière fluide une variété de tâches de référence point-texte telles que la légende de nuages de points et les questions-réponses. De plus, GPT4Point est équipé de capacités avancées pour la génération 3D contrôlée, permettant d'obtenir des résultats de haute qualité à partir de caractéristiques point-texte de faible qualité tout en conservant les formes géométriques et les couleurs. Pour répondre aux besoins étendus en paires objet-texte 3D, nous avons développé Pyramid-XL, un moteur d'annotation de données point-langage. Il construit une base de données à grande échelle comprenant plus d'un million d'objets avec des niveaux de granularité textuelle variés, extraits du jeu de données Objaverse-XL, essentiels pour l'entraînement de GPT4Point. Un benchmark complet a été proposé pour évaluer les capacités de compréhension point-langage en 3D. Dans des évaluations approfondies, GPT4Point a démontré une performance supérieure en compréhension et en génération.
Les capacités remarquables des grands modèles de langage (LLMs) comme GPT-4 découlent en partie de processus post-entraînement tels que l'apprentissage par renforcement à partir de retours humains (RLHF), qui intègrent des préférences humaines encodées dans un modèle de récompense. Cependant, ces modèles de récompense (RMs) manquent souvent de connaissances directes sur les raisons ou les principes sous-jacents aux annotations de préférences. Dans cette étude, nous identifions des principes qui guident les RMs pour mieux s'aligner sur les préférences humaines, puis nous développons un cadre axiomatique pour générer une variété riche de signaux de préférence afin de les respecter. Nous utilisons ces signaux axiomatiques pour entraîner un modèle capable de noter les réponses à des questions détaillées. Notre approche produit un modèle de préférence avec seulement environ 220 millions de paramètres, qui s'accorde plus souvent avec les étiquettes de préférence annotées par des humains que GPT-4. Les contributions de ce travail incluent : l'entraînement d'un modèle de préférence autonome capable de noter les réponses générées par des humains et des LLMs sur la même échelle ; le développement d'un cadre axiomatique pour générer des paires de données d'entraînement adaptées à certains principes ; et la démonstration qu'une petite quantité de signaux axiomatiques peut aider des modèles de petite taille à surpasser GPT-4 en matière de notation des préférences. Nous mettons notre modèle à disposition sur huggingface : https://huggingface.co/corbyrosset/axiomatic_preference_model.
L'entraînement sur plusieurs modalités d'entrée peut augmenter les capacités d'un modèle de langage. Ici, nous nous demandons si un tel régime d'entraînement peut également améliorer la qualité et l'efficacité de ces systèmes. Nous nous concentrons sur la modalité texte--audio et introduisons Whisbert, qui s'inspire de l'approche texte--image de FLAVA (singh_flava_2022). Conformément aux directives de Babylm (warstadt2023papers), nous pré-entraînons Whisbert sur un ensemble de données comprenant seulement 100 millions de mots ainsi que leurs enregistrements audio correspondants, issus de la version alignée mot par mot du jeu de données People's Speech (galvez_peoples_2021). Pour évaluer l'impact de la multimodalité, nous comparons des versions du modèle entraînées uniquement sur le texte et sur l'audio et le texte simultanément. Nous constatons que bien que Whisbert soit capable de bien performer sur la modélisation masquée multimodale et dépasse les références de Babylm dans la plupart des tâches de benchmark, il peine à optimiser son objectif complexe et à surpasser sa version texte uniquement de Whisbert.
Les champs de radiance neuronaux (NeRFs) excellent dans le rendu photoréaliste de scènes statiques. Cependant, le rendu de champs de radiance dynamiques et de longue durée sur des appareils omniprésents reste un défi, en raison des contraintes de stockage de données et de calcul. Dans cet article, nous présentons VideoRF, la première approche permettant la diffusion et le rendu en temps réel de champs de radiance dynamiques sur des plateformes mobiles. Au cœur de cette approche se trouve un flux d'images de caractéristiques 2D sérialisées représentant le champ de radiance 4D dans son ensemble. Nous introduisons un schéma d'entraînement spécifique directement appliqué à ce domaine 2D pour imposer la redondance temporelle et spatiale du flux d'images de caractéristiques. En exploitant cette redondance, nous montrons que le flux d'images de caractéristiques peut être efficacement compressé par des codecs vidéo 2D, ce qui nous permet d'utiliser des accélérateurs matériels vidéo pour atteindre un décodage en temps réel. D'autre part, basé sur le flux d'images de caractéristiques, nous proposons un nouveau pipeline de rendu pour VideoRF, qui dispose de mappages d'espace spécialisés pour interroger efficacement les propriétés de radiance. Associé à un modèle d'ombrage différé, VideoRF est capable d'un rendu en temps réel sur les appareils mobiles grâce à son efficacité. Nous avons développé un lecteur interactif en temps réel qui permet la diffusion et le rendu en ligne de scènes dynamiques, offrant une expérience fluide et immersive de point de vue libre sur une gamme d'appareils, des ordinateurs de bureau aux téléphones mobiles.
Nous présentons une méthode qui utilise un modèle texte-image pour générer un contenu cohérent à travers plusieurs échelles d'images, permettant des zooms sémantiques extrêmes dans une scène, par exemple, allant d'une vue panoramique d'une forêt à un plan macro d'un insecte posé sur l'une des branches d'arbre. Nous y parvenons grâce à une approche d'échantillonnage de diffusion multi-échelle conjointe qui favorise la cohérence entre les différentes échelles tout en préservant l'intégrité de chaque processus d'échantillonnage individuel. Comme chaque échelle générée est guidée par une invite textuelle différente, notre méthode permet des niveaux de zoom plus profonds que les méthodes traditionnelles de super-résolution, qui peuvent avoir du mal à créer une nouvelle structure contextuelle à des échelles très différentes. Nous comparons qualitativement notre méthode avec des techniques alternatives en super-résolution d'images et en extrapolation, et montrons que notre méthode est la plus efficace pour générer un contenu multi-échelle cohérent.
Récemment, le modèle Segment Anything (SAM) a démontré des capacités remarquables en segmentation zero-shot, tandis que NeRF (Neural Radiance Fields) a gagné en popularité comme méthode pour divers problèmes 3D au-delà de la synthèse de nouvelles vues. Bien qu'il existe des tentatives initiales pour intégrer ces deux méthodes dans la segmentation 3D, elles sont confrontées au défi de segmenter avec précision et cohérence des objets dans des scénarios complexes. Dans cet article, nous présentons Segment Anything for NeRF in High Quality (SANeRF-HQ) pour réaliser une segmentation 3D de haute qualité de tout objet dans une scène donnée. SANeRF-HQ utilise SAM pour la segmentation d'objets en monde ouvert guidée par des invites fournies par l'utilisateur, tout en exploitant NeRF pour agréger les informations provenant de différents points de vue. Pour surmonter les défis mentionnés, nous utilisons le champ de densité et la similarité RGB pour améliorer la précision des limites de segmentation lors de l'agrégation. En mettant l'accent sur la précision de la segmentation, nous évaluons quantitativement notre méthode sur plusieurs ensembles de données NeRF où des vérités terrain de haute qualité sont disponibles ou annotées manuellement. SANeRF-HQ montre une amélioration significative de la qualité par rapport aux méthodes précédentes de pointe en segmentation d'objets NeRF, offre une plus grande flexibilité pour la localisation des objets et permet une segmentation d'objets plus cohérente à travers plusieurs vues. Des informations supplémentaires sont disponibles à l'adresse https://lyclyc52.github.io/SANeRF-HQ/.
Cet article améliore l'image-GPT (iGPT), l'une des premières approches à introduire le pré-entraînement autorégressif pour prédire les pixels suivants dans l'apprentissage de représentations visuelles. Deux modifications simples mais essentielles sont apportées. Premièrement, nous déplaçons la cible de prédiction des pixels bruts vers des tokens sémantiques, permettant une compréhension de plus haut niveau du contenu visuel. Deuxièmement, nous complétons la modélisation autorégressive en demandant au modèle de prédire non seulement les tokens suivants, mais aussi les tokens visibles. Cette approche est particulièrement efficace lorsque les tokens sémantiques sont encodés par des modèles entraînés de manière discriminative, comme CLIP. Nous introduisons cette nouvelle méthode sous le nom de D-iGPT. Des expériences approfondies démontrent que D-iGPT excelle en tant qu'apprenant puissant de représentations visuelles : une réalisation notable de D-iGPT est sa performance impressionnante sur le jeu de données ImageNet-1K — en s'entraînant sur des ensembles de données publiquement disponibles, D-iGPT atteint une précision top-1 de 89,5 % avec un modèle ViT-Large standard. Ce modèle montre également une forte généralisation sur les tâches en aval et une robustesse face aux échantillons hors distribution. Le code est disponible à l'adresse suivante : https://github.com/OliverRensu/D-iGPT{https://github.com/OliverRensu/D-iGPT}.
Dans cet article, nous abordons la tâche d'édition adaptative de scènes 3D pilotée par une source en proposant un modèle CustomNeRF qui unifie une description textuelle ou une image de référence comme prompt d'édition. Cependant, obtenir des résultats d'édition conformes au prompt n'est pas trivial, car deux défis majeurs se posent : l'édition précise des régions de premier plan uniquement et la cohérence multi-vues à partir d'une image de référence mono-vue. Pour relever le premier défi, nous proposons un schéma d'apprentissage itératif Local-Global (LGIE) qui alterne entre l'édition des régions de premier plan et l'édition de l'image entière, visant à manipuler uniquement le premier plan tout en préservant l'arrière-plan. Pour le second défi, nous concevons également une régularisation guidée par classe qui exploite les a priori de classe au sein du modèle de génération pour atténuer le problème d'incohérence entre les différentes vues dans l'édition pilotée par image. Des expériences approfondies montrent que notre CustomNeRF produit des résultats d'édition précis dans diverses scènes réelles, tant pour les paramètres pilotés par texte que par image.
La recherche de moyens pour accélérer la saisie de texte pour les personnes atteintes de déficiences motrices sévères constitue un domaine de recherche de longue date. Réduire l'écart de vitesse pour les dispositifs de communication alternative et améliorée (CAA) tels que les claviers à suivi oculaire est essentiel pour améliorer la qualité de vie de ces individus. Les récents progrès des réseaux neuronaux en traitement du langage naturel ouvrent de nouvelles opportunités pour repenser les stratégies et les interfaces utilisateur afin d'améliorer la saisie de texte pour les utilisateurs de CAA. Dans cet article, nous présentons SpeakFaster, qui combine des modèles de langage de grande taille (LLMs) et une interface utilisateur co-conçue pour la saisie de texte sous une forme hautement abrégée, permettant d'économiser 57 % d'actions motrices supplémentaires par rapport aux claviers prédictifs traditionnels dans une simulation hors ligne. Une étude pilote menée auprès de 19 participants non-utilisateurs de CAA, tapant sur un appareil mobile à la main, a montré des gains en économie motrice conformes à la simulation hors ligne, tout en introduisant des effets relativement faibles sur la vitesse globale de frappe. Des tests en laboratoire et sur le terrain avec deux utilisateurs de saisie par regard atteints de sclérose latérale amyotrophique (SLA) ont révélé des taux de saisie de texte 29 à 60 % plus rapides que les bases de référence traditionnelles, grâce à une économie significative de frappes coûteuses obtenue par la prédiction de phrases et de mots à partir de LLMs conscients du contexte. Ces résultats fournissent une base solide pour une exploration plus approfondie de la communication textuelle considérablement accélérée pour les utilisateurs atteints de déficiences motrices et démontrent une orientation pour l'application des LLMs aux interfaces utilisateur basées sur le texte.
Les grands modèles de langage (LLMs) ont suscité un intérêt considérable pour des applications pratiques, grâce à leurs réponses de plus en plus précises et à leurs capacités de raisonnement cohérent. Étant donné leur nature de boîtes noires utilisant des processus de raisonnement complexes sur leurs entrées, il est inévitable que la demande pour des explications évolutives et fidèles concernant le contenu généré par les LLMs continue de croître. Au cours de la dernière décennie, des avancées majeures ont été réalisées dans l'explicabilité des modèles de réseaux neuronaux. Parmi elles, les méthodes d'explicabilité post-hoc, en particulier les valeurs de Shapley, se sont avérées efficaces pour interpréter les modèles d'apprentissage profond. Cependant, il existe des défis majeurs pour adapter les valeurs de Shapley aux LLMs, notamment lorsqu'il s'agit de traiter des contextes d'entrée longs contenant des milliers de tokens et des séquences de sortie générées de manière autoregressive. De plus, il est souvent difficile de savoir comment utiliser efficacement les explications générées pour améliorer les performances des LLMs. Dans cet article, nous présentons TextGenSHAP, une méthode d'explication post-hoc efficace intégrant des techniques spécifiques aux modèles de langage. Nous démontrons que cela entraîne des augmentations significatives de la vitesse par rapport aux calculs conventionnels des valeurs de Shapley, réduisant les temps de traitement de plusieurs heures à quelques minutes pour les explications au niveau des tokens, et à quelques secondes pour les explications au niveau des documents. En outre, nous montrons comment les valeurs de Shapley en temps réel peuvent être utilisées dans deux scénarios importants : une meilleure compréhension des réponses aux questions sur des documents longs en localisant les mots et phrases importants ; et l'amélioration des systèmes existants de recherche de documents en augmentant la précision des passages sélectionnés et, finalement, des réponses finales.