Articles de recherche en IA sélectionnés quotidiennement avec traductions
Étant donné deux images représentant une personne et un vêtement porté par une autre personne, notre objectif est de générer une visualisation de la manière dont le vêtement pourrait apparaître sur la personne d'entrée. Un défi majeur consiste à synthétiser une visualisation photoréaliste préservant les détails du vêtement, tout en déformant celui-ci pour s'adapter à un changement significatif de posture et de morphologie entre les sujets. Les méthodes précédentes se concentrent soit sur la préservation des détails du vêtement sans variation efficace de la posture et de la morphologie, soit permettent un essayage avec la posture et la morphologie souhaitées mais manquent de détails vestimentaires. Dans cet article, nous proposons une architecture basée sur la diffusion qui unifie deux UNets (appelée Parallel-UNet), ce qui nous permet de préserver les détails du vêtement et de déformer celui-ci pour un changement significatif de posture et de morphologie dans un seul réseau. Les idées clés derrière Parallel-UNet incluent : 1) le vêtement est déformé implicitement via un mécanisme d'attention croisée, 2) la déformation du vêtement et le mélange avec la personne se produisent dans le cadre d'un processus unifié plutôt que d'une séquence de deux tâches distinctes. Les résultats expérimentaux indiquent que TryOnDiffusion atteint des performances de pointe à la fois qualitativement et quantitativement.
La nature réfléchissante de l'œil humain est une source d'information sous-estimée sur l'apparence du monde qui nous entoure. En capturant des images des yeux d'une personne en mouvement, nous pouvons collecter plusieurs vues d'une scène située hors du champ de vision direct de la caméra grâce aux réflexions dans les yeux. Dans cet article, nous reconstruisons une scène 3D au-delà de la ligne de vue de la caméra en utilisant des images portrait contenant des réflexions oculaires. Cette tâche est complexe en raison de 1) la difficulté d'estimer avec précision les poses des yeux et 2) l'apparence entrelacée de l'iris de l'œil et des réflexions de la scène. Notre méthode affine conjointement les poses de la cornée, le champ de rayonnement décrivant la scène, et la texture de l'iris de l'observateur. Nous proposons en outre un simple a priori de régularisation sur le motif de texture de l'iris pour améliorer la qualité de la reconstruction. À travers diverses expériences sur des captures synthétiques et réelles mettant en scène des personnes aux couleurs d'yeux variées, nous démontrons la faisabilité de notre approche pour reconstruire des scènes 3D à l'aide des réflexions oculaires.
Les modèles de langage spécialisés en code (Code LLMs), tels que StarCoder, ont démontré des performances exceptionnelles dans les tâches liées au code. Cependant, la plupart des modèles existants sont uniquement pré-entraînés sur de vastes ensembles de données brutes de code, sans affinage par instruction. Dans cet article, nous présentons WizardCoder, qui renforce les Code LLMs grâce à un affinage complexe par instruction, en adaptant la méthode Evol-Instruct au domaine du code. À travers des expériences approfondies sur quatre benchmarks majeurs de génération de code, à savoir HumanEval, HumanEval+, MBPP et DS-1000, nous révélons les capacités exceptionnelles de notre modèle. Il surpasse tous les autres Code LLMs open-source par une marge substantielle. De plus, notre modèle dépasse même les plus grands LLMs fermés, tels que Claude d'Anthropic et Bard de Google, sur HumanEval et HumanEval+. Notre code, les poids du modèle et les données sont publics à l'adresse suivante : https://github.com/nlpxucan/WizardLM
Les recherches récentes sur les modèles de langage de grande taille (LLMs) ont conduit à des avancées remarquables dans les assistants IA de traitement du langage naturel (NLP) généralistes. Certaines études ont approfondi l'utilisation des LLMs pour la planification et l'invocation de modèles ou d'API afin de répondre à des requêtes utilisateur multi-modales plus générales. Malgré ces progrès, les tâches complexes basées sur la vision restent difficiles en raison de la nature diversifiée des tâches visuelles. Cette diversité se reflète dans deux aspects : 1) Les chemins de raisonnement. Pour de nombreuses applications réelles, il est difficile de décomposer avec précision une requête simplement en examinant la requête elle-même. Une planification basée sur le contenu visuel spécifique et les résultats de chaque étape est généralement nécessaire. 2) Les entrées et résultats intermédiaires flexibles. Les formes d'entrée peuvent être flexibles pour des cas en situation réelle, et impliquent non seulement une seule image ou vidéo, mais un mélange de vidéos et d'images, par exemple, une image vue par l'utilisateur avec quelques vidéos de référence. De plus, un processus de raisonnement complexe générera également des résultats intermédiaires multi-modaux divers, tels que des narrations vidéo, des clips vidéo segmentés, etc. Pour aborder de tels cas généraux, nous proposons un assistant IA multi-modal, AssistGPT, avec une approche de raisonnement entrelacé entre code et langage appelée Planifier, Exécuter, Inspecter et Apprendre (PEIL) pour intégrer les LLMs avec divers outils. Plus précisément, le Planificateur est capable d'utiliser le langage naturel pour planifier quel outil dans l'Exécuteur doit agir ensuite en fonction de l'avancement actuel du raisonnement. L'Inspecteur est un gestionnaire de mémoire efficace pour aider le Planificateur à fournir les informations visuelles appropriées à un outil spécifique. Enfin, puisque l'ensemble du processus de raisonnement est complexe et flexible, un Apprenant est conçu pour permettre au modèle d'explorer et de découvrir de manière autonome la solution optimale. Nous avons mené des expériences sur les benchmarks A-OKVQA et NExT-QA, obtenant des résultats de pointe. De plus, des démonstrations montrent la capacité de notre système à gérer des questions bien plus complexes que celles trouvées dans les benchmarks.
La distillation de connaissances (Knowledge Distillation, KD) est une technique prometteuse pour réduire la forte demande computationnelle des grands modèles de langage (Large Language Models, LLMs). Cependant, les méthodes de KD précédentes sont principalement appliquées à des modèles de classification en boîte blanche ou à l'entraînement de petits modèles pour imiter des API de modèles en boîte noire comme ChatGPT. La manière de distiller efficacement les connaissances à partir de LLMs génératifs en boîte blanche reste encore peu explorée, ce qui devient de plus en plus important avec la prolifération des LLMs. Dans ce travail, nous proposons MiniLLM, qui distille des modèles de langage plus petits à partir de LLMs génératifs plus grands. Nous remplaçons d'abord l'objectif de divergence de Kullback-Leibler (KLD) directe dans les approches standard de KD par une KLD inverse, plus adaptée à la KD sur les modèles de langage génératifs, afin d'éviter que le modèle étudiant surestime les régions de faible probabilité de la distribution du modèle enseignant. Ensuite, nous dérivons une approche d'optimisation efficace pour apprendre cet objectif. Des expériences approfondies dans le cadre de suivi d'instructions montrent que les modèles MiniLLM génèrent des réponses plus précises avec une qualité globale supérieure, un biais d'exposition réduit, une meilleure calibration et de meilleures performances en génération de textes longs. Notre méthode est également scalable pour différentes familles de modèles avec des paramètres allant de 120M à 13B. Nous publierons notre code et nos points de contrôle de modèle à l'adresse https://aka.ms/MiniLLM.
Les performances sans précédent des grands modèles de langage (LLM) nécessitent des améliorations dans les méthodes d'évaluation. Plutôt que d'explorer simplement l'étendue des capacités des LLM, nous pensons que des conceptions méticuleuses et réfléchies sont essentielles pour des évaluations approfondies, impartiales et applicables. Compte tenu de l'importance des connaissances mondiales pour les LLM, nous construisons un benchmark d'évaluation orienté vers la connaissance pour les LLM (KoLA), dans lequel nous concevons soigneusement trois facteurs cruciaux : (1) Pour la modélisation des capacités, nous imitons la cognition humaine pour former une taxonomie à quatre niveaux des compétences liées à la connaissance, couvrant 19 tâches. (2) Pour les données, afin d'assurer des comparaisons équitables, nous utilisons à la fois Wikipédia, un corpus largement pré-entraîné par les LLM, ainsi que des corpus émergents collectés en continu, visant à évaluer la capacité à traiter des données inédites et des connaissances en évolution. (3) Pour les critères d'évaluation, nous adoptons un système contrastif, incluant des scores standard globaux pour une meilleure comparabilité numérique entre les tâches et les modèles, ainsi qu'une métrique d'auto-contraste unique pour évaluer automatiquement les hallucinations de connaissances. Nous évaluons 21 LLM open-source et commerciaux et obtenons des résultats intrigants. Le jeu de données KoLA et le tableau des participants ouvert sont publiquement disponibles à l'adresse https://kola.xlore.cn et seront continuellement mis à jour pour fournir des références pour le développement des LLM et des systèmes liés à la connaissance.
Les modèles de langage de grande envergure (LLMs) fondateurs tels que GPT-4 représentent une révolution dans l'IA grâce à leurs applications pratiques dans le traitement du langage naturel. Cependant, ils posent également de nombreux risques significatifs, tels que la présence de textes biaisés, privés ou nuisibles, ainsi que l'inclusion non autorisée de matériel protégé par le droit d'auteur. Nous présentons h2oGPT, une suite de dépôts de code open-source pour la création et l'utilisation de modèles de langage de grande envergure (LLMs) basés sur des Transformers pré-entraînés génératifs (GPTs). L'objectif de ce projet est de créer la meilleure alternative véritablement open-source aux GPTs propriétaires. En collaboration avec et en tant que partie intégrante de la communauté open-source incroyable et irrésistible, nous rendons open-source plusieurs modèles h2oGPT affinés, allant de 7 à 40 milliards de paramètres, prêts pour une utilisation commerciale sous des licences entièrement permissives Apache 2.0. Notre publication inclut également une recherche de documents 100 % privée utilisant le langage naturel. Les modèles de langage open-source contribuent à stimuler le développement de l'IA et à la rendre plus accessible et digne de confiance. Ils réduisent les obstacles à l'entrée, permettant aux individus et aux groupes d'adapter ces modèles à leurs besoins. Cette ouverture accroît l'innovation, la transparence et l'équité. Une stratégie open-source est nécessaire pour partager équitablement les bénéfices de l'IA, et H2O.ai continuera à démocratiser l'IA et les LLMs.
Nous présentons DreamHuman, une méthode permettant de générer des modèles réalistes d'avatars humains 3D animables uniquement à partir de descriptions textuelles. Les méthodes récentes de génération de texte vers 3D ont fait des progrès considérables, mais elles présentent encore des lacunes importantes. Le contrôle et souvent la résolution spatiale restent limités, les méthodes existantes produisent des modèles 3D humains fixes plutôt qu'animés, et la cohérence anthropométrique pour des structures complexes comme les humains reste un défi. DreamHuman intègre des modèles de synthèse d'images à partir de texte, des champs de radiance neuronaux et des modèles statistiques du corps humain dans un cadre de modélisation et d'optimisation novateur. Cela permet de générer des avatars humains 3D dynamiques avec des textures de haute qualité et des déformations de surface spécifiques à chaque instance, apprises par le modèle. Nous démontrons que notre méthode est capable de générer une grande variété de modèles humains 3D réalistes et animables à partir de texte. Nos modèles 3D présentent une diversité d'apparence, de vêtements, de tons de peau et de formes corporelles, et surpassent significativement à la fois les approches génériques de texte vers 3D et les générateurs d'avatars 3D basés sur le texte précédents en termes de fidélité visuelle. Pour plus de résultats et d'animations, veuillez consulter notre site web à l'adresse https://dream-human.github.io.
Bien que les grands modèles de langage (LLM) ajustés par instruction aient démontré des capacités remarquables dans diverses tâches de traitement du langage naturel (NLP), leur efficacité sur d'autres modalités de données au-delà du texte n'a pas été pleinement étudiée. Dans ce travail, nous proposons Macaw-LLM, un nouveau LLM multimodal qui intègre de manière fluide les informations visuelles, audio et textuelles. Macaw-LLM se compose de trois principaux éléments : un module de modalité pour encoder les données multimodales, un module cognitif pour exploiter les LLM pré-entraînés, et un module d'alignement pour harmoniser les représentations diverses. Notre module d'alignement innovant relie de manière transparente les caractéristiques multimodales aux caractéristiques textuelles, simplifiant ainsi le processus d'adaptation des modules de modalité au module cognitif. De plus, nous avons construit un vaste ensemble de données d'instructions multimodales sous forme de dialogues multi-tours, incluant 69K instances d'images et 50K instances de vidéos. Nous avons rendu nos données, notre code et notre modèle publics, dans l'espoir qu'ils puissent ouvrir la voie à de futures recherches sur les LLM multimodaux et étendre les capacités des LLM à gérer des modalités de données variées et à aborder des scénarios réels complexes.
Les grands modèles de langage (LLMs) ont démontré des progrès prometteurs dans l'acquisition de nouvelles capacités variées grâce à l'apprentissage en contexte, allant du raisonnement logique à l'écriture de code. Les chercheurs en robotique ont également exploré l'utilisation des LLMs pour améliorer les capacités de contrôle des robots. Cependant, étant donné que les actions de bas niveau des robots dépendent du matériel et sont sous-représentées dans les corpus d'entraînement des LLMs, les efforts existants pour appliquer les LLMs à la robotique ont largement traité les LLMs comme des planificateurs sémantiques ou ont reposé sur des primitives de contrôle conçues par l'homme pour interagir avec le robot. D'un autre côté, les fonctions de récompense se sont révélées être des représentations flexibles qui peuvent être optimisées pour des politiques de contrôle afin d'accomplir des tâches variées, tandis que leur richesse sémantique les rend adaptées à une spécification par les LLMs. Dans ce travail, nous introduisons un nouveau paradigme qui exploite cette réalisation en utilisant les LLMs pour définir des paramètres de récompense qui peuvent être optimisés et accomplir une variété de tâches robotiques. En utilisant la récompense comme interface intermédiaire générée par les LLMs, nous pouvons efficacement combler le fossé entre les instructions ou corrections de haut niveau en langage naturel et les actions de bas niveau des robots. Parallèlement, en combinant cela avec un optimiseur en temps réel, MuJoCo MPC, nous permettons une expérience interactive de création de comportements où les utilisateurs peuvent immédiatement observer les résultats et fournir des retours au système. Pour évaluer systématiquement les performances de notre méthode proposée, nous avons conçu un total de 17 tâches pour un robot quadrupède simulé et un robot manipulateur dextre. Nous démontrons que notre méthode proposée résout de manière fiable 90 % des tâches conçues, tandis qu'une base de référence utilisant des compétences primitives comme interface avec Code-as-policies atteint 50 % des tâches. Nous avons en outre validé notre méthode sur un bras robotique réel où des compétences de manipulation complexes telles que la poussée non préhensile émergent grâce à notre système interactif.
La variété des objets dans le monde réel est pratiquement illimitée, ce qui rend impossible leur capture à l'aide de modèles entraînés sur un ensemble fixe de catégories. Par conséquent, ces dernières années, les méthodes à vocabulaire ouvert ont suscité l'intérêt de la communauté. Cet article propose une nouvelle méthode pour la segmentation à vocabulaire ouvert en zéro-shot. Les travaux antérieurs reposent largement sur un apprentissage contrastif utilisant des paires image-texte, exploitant des mécanismes de regroupement pour apprendre des caractéristiques d'image à la fois alignées avec le langage et bien localisées. Cependant, cela peut introduire une ambiguïté, car l'apparence visuelle des images avec des légendes similaires varie souvent. À la place, nous exploitons les propriétés génératives des modèles de diffusion à grande échelle de texte à image pour échantillonner un ensemble d'images de support pour une catégorie textuelle donnée. Cela fournit une distribution d'apparences pour un texte donné, contournant ainsi le problème d'ambiguïté. Nous proposons en outre un mécanisme qui prend en compte le contexte de fond des images échantillonnées pour mieux localiser les objets et segmenter directement l'arrière-plan. Nous montrons que notre méthode peut être utilisée pour ancrer plusieurs extracteurs de caractéristiques auto-supervisés pré-entraînés dans le langage naturel et fournir des prédictions explicables en les mappant à des régions de l'ensemble de support. Notre proposition ne nécessite aucun entraînement, reposant uniquement sur des composants pré-entraînés, et montre pourtant de solides performances sur une gamme de benchmarks de segmentation à vocabulaire ouvert, obtenant une avance de plus de 10 % sur le benchmark Pascal VOC.
Lors de la résolution de tâches de prise de décision, les humains s'appuient généralement sur des informations provenant de deux sources clés : (1) Les données historiques de politiques, qui fournissent des relectures d'interactions avec l'environnement, et (2) Les insights analytiques sous forme de langage naturel, révélant le précieux processus de réflexion ou les considérations stratégiques. Malgré cela, la majorité des recherches précédentes se concentrent sur une seule source : elles utilisent soit exclusivement les relectures historiques pour apprendre directement les politiques ou les fonctions de valeur, soit s'engagent dans l'entraînement de modèles de langage en utilisant uniquement des corpus linguistiques. Dans cet article, nous soutenons qu'un agent autonome puissant devrait couvrir ces deux sources. Ainsi, nous proposons ChessGPT, un modèle GPT qui relie l'apprentissage de politiques et la modélisation du langage en intégrant des données provenant de ces deux sources dans les jeux d'échecs. Plus précisément, nous construisons un jeu de données à grande échelle de parties d'échecs et de langage associé. En exploitant ce jeu de données, nous présentons deux exemples de modèles, ChessCLIP et ChessGPT, intégrant l'apprentissage de politiques et la modélisation du langage. Enfin, nous proposons un cadre d'évaluation complet pour évaluer les capacités du modèle de langage dans le domaine des échecs. Les résultats expérimentaux valident l'efficacité de notre modèle et de notre jeu de données. Nous rendons notre code, notre modèle et notre jeu de données open source à l'adresse suivante : https://github.com/waterhorse1/ChessGPT.
Nous avons constitué un ensemble de données complet comprenant 4 550 questions et leurs solutions issues de séries d'exercices, d'examens partiels et d'examens finaux de tous les cours de mathématiques et de génie électrique et informatique (EECS) du MIT requis pour l'obtention d'un diplôme. Nous évaluons la capacité des grands modèles de langage à satisfaire les exigences de diplôme pour toute majeure en mathématiques et EECS au MIT. Nos résultats montrent que GPT-3.5 résout avec succès un tiers de l'ensemble du programme du MIT, tandis que GPT-4, grâce à l'ingénierie des prompts, atteint un taux de résolution parfait sur un ensemble de test excluant les questions basées sur des images. Nous avons affiné un grand modèle de langage open-source sur cet ensemble de données. Nous utilisons GPT-4 pour évaluer automatiquement les réponses du modèle, fournissant une analyse détaillée des performances par cours, question et type de réponse. En intégrant les questions dans un espace de faible dimension, nous explorons les relations entre les questions, les sujets et les classes, et découvrons quelles questions et classes sont nécessaires pour résoudre d'autres questions et classes grâce à l'apprentissage en few-shot. Notre analyse offre des perspectives précieuses sur les prérequis des cours et la conception des programmes, mettant en lumière le potentiel des modèles de langage pour l'apprentissage et l'amélioration de l'enseignement des mathématiques et de l'EECS.
Nous introduisons l'anticipation : une méthode pour construire un modèle génératif contrôlable d'un processus ponctuel temporel (le processus d'événements) conditionné de manière asynchrone sur les réalisations d'un second processus corrélé (le processus de contrôle). Nous y parvenons en entrelaçant des séquences d'événements et de contrôles, de sorte que les contrôles apparaissent après des temps d'arrêt dans la séquence d'événements. Ce travail est motivé par des problèmes rencontrés dans le contrôle de la génération de musique symbolique. Nous nous concentrons sur des tâches de contrôle par remplissage, où les contrôles sont un sous-ensemble des événements eux-mêmes, et où la génération conditionnelle complète une séquence d'événements étant donné les événements de contrôle fixes. Nous entraînons des modèles de remplissage anticipatoires en utilisant le vaste et diversifié ensemble de données musicales Lakh MIDI. Ces modèles égalent les performances des modèles autorégressifs pour la génération de musique guidée, avec la capacité supplémentaire d'exécuter des tâches de contrôle par remplissage, y compris l'accompagnement. Des évaluateurs humains rapportent qu'un modèle anticipatoire produit des accompagnements ayant une musicalité similaire à celle de la musique composée par des humains sur un extrait de 20 secondes.
Nous proposons une méthode pour recommander de la musique pour une vidéo d'entrée tout en permettant à un utilisateur de guider la sélection musicale à l'aide de langage naturel libre. Un défi majeur de ce contexte est que les ensembles de données existants de vidéos musicales fournissent les paires (vidéo, musique) nécessaires à l'entraînement, mais manquent de descriptions textuelles de la musique. Ce travail aborde ce défi avec les trois contributions suivantes. Premièrement, nous proposons une approche de synthèse de texte qui s'appuie sur une procédure d'incitation basée sur l'analogie pour générer des descriptions musicales en langage naturel à partir d'un modèle de langage à grande échelle (BLOOM-176B), en utilisant les sorties d'un étiqueteur musical pré-entraîné et un petit nombre de descriptions textuelles humaines. Deuxièmement, nous utilisons ces descriptions musicales synthétisées pour entraîner un nouveau modèle trimodal, qui fusionne les représentations d'entrée textuelles et vidéo pour interroger des échantillons musicaux. Pour l'entraînement, nous introduisons un mécanisme de régularisation par abandon de texte, dont nous montrons qu'il est crucial pour les performances du modèle. La conception de notre modèle permet à la musique récupérée de correspondre aux deux modalités d'entrée en alignant le style visuel représenté dans la vidéo avec le genre musical, l'ambiance ou l'instrumentation décrits dans la requête en langage naturel. Troisièmement, pour évaluer notre approche, nous collectons un ensemble de données de test pour notre problème en annotant un sous-ensemble de 4 000 clips du jeu de données YT8M-MusicVideo avec des descriptions musicales en langage naturel, que nous rendons publiquement disponibles. Nous montrons que notre approche peut égaler ou surpasser les performances des méthodes précédentes en matière de récupération vidéo-vers-musique, tout en améliorant significativement la précision de la récupération lors de l'utilisation de guidage textuel.
Nous abordons une tâche de référence en robotique agile : l'interception d'objets lancés à haute vitesse. Il s'agit d'une tâche complexe qui implique le suivi, l'interception et la réception d'un objet en mouvement, avec pour seules informations les observations visuelles de l'objet et l'état proprioceptif du robot, le tout en une fraction de seconde. Nous présentons les avantages relatifs de deux stratégies de résolution fondamentalement différentes : (i) le Contrôle Prédictif par Modèle utilisant une optimisation de trajectoire contrainte accélérée, et (ii) l'Apprentissage par Renforcement via une optimisation d'ordre zéro. Nous fournissons des insights sur divers compromis de performance, incluant l'efficacité en termes d'échantillons, le transfert sim-to-real, la robustesse aux décalages de distribution et la multimodalité du corps entier, grâce à des expérimentations matérielles approfondies. Nous concluons avec des propositions sur la fusion des techniques "classiques" et "basées sur l'apprentissage" pour le contrôle agile des robots. Les vidéos de nos expériences sont disponibles à l'adresse suivante : https://sites.google.com/view/agile-catching.
Les modèles vision-langage pré-entraînés (VLMs) gagnent en popularité grâce à leurs performances exceptionnelles sur des applications vision en aval, en particulier dans des contextes de few-shot et zero-shot. Cependant, sélectionner le VLM le plus performant pour certaines applications en aval n'est pas trivial, car cela dépend du jeu de données et de la tâche. Par ailleurs, l'évaluation exhaustive de tous les VLMs disponibles pour une nouvelle application est non seulement coûteuse en temps et en ressources de calcul, mais nécessite également la collecte d'un jeu de données annoté pour l'évaluation. Alors que le nombre de variantes open-source de VLMs augmente, il devient nécessaire de disposer d'une stratégie de sélection de modèle efficace qui ne nécessite pas l'accès à un jeu de données d'évaluation préparé. Cet article propose une nouvelle tâche et un benchmark pour évaluer efficacement les performances zero-shot des VLMs sur des applications en aval sans accès au jeu de données de la tâche cible. Plus précisément, nous introduisons une nouvelle tâche appelée LOVM : Sélection de Modèle Vision par Langage Uniquement, où les méthodes doivent effectuer à la fois la sélection de modèle et la prédiction de performance uniquement à partir d'une description textuelle de l'application en aval souhaitée. Nous présentons ensuite un benchmark LOVM complet, comprenant des évaluations de référence pour 35 VLMs pré-entraînés et 23 jeux de données, où les méthodes doivent classer les VLMs pré-entraînés et prédire leurs performances zero-shot.
Récemment, les modèles génératifs basés sur la diffusion ont obtenu un succès remarquable pour la génération et l'édition d'images. Cependant, leur utilisation pour l'édition vidéo rencontre encore des limitations importantes. Cet article présente VidEdit, une nouvelle méthode d'édition vidéo basée sur le texte en zero-shot, garantissant une forte cohérence temporelle et spatiale. Premièrement, nous proposons de combiner des modèles de diffusion pré-entraînés pour la génération d'images à partir de texte avec une approche basée sur les atlas, fournissant ainsi une méthode d'édition efficace et sans entraînement, qui par conception assure une fluidité temporelle. Deuxièmement, nous exploitons des segmenteurs panoptiques prêts à l'emploi ainsi que des détecteurs de contours, et adaptons leur utilisation pour l'édition d'atlas basée sur la diffusion conditionnée. Cela permet un contrôle spatial précis des régions ciblées tout en préservant strictement la structure de la vidéo originale. Les expériences quantitatives et qualitatives montrent que VidEdit surpasse les méthodes de pointe sur le jeu de données DAVIS en termes de fidélité sémantique, de préservation de l'image et de métriques de cohérence temporelle. Avec ce framework, le traitement d'une seule vidéo ne prend qu'environ une minute, et il peut générer plusieurs modifications compatibles à partir d'une unique instruction textuelle. Page web du projet : https://videdit.github.io
Les récents progrès dans la compréhension des scènes 3D permettent un apprentissage évolutif de représentations à travers de vastes ensembles de données de scènes diverses. En conséquence, la généralisation à des scènes et objets inédits, le rendu de nouvelles vues à partir d'une seule ou d'une poignée d'images d'entrée, ainsi que la génération contrôlée de scènes supportant l'édition, sont désormais possibles. Cependant, l'entraînement conjoint sur un grand nombre de scènes compromet généralement la qualité du rendu par rapport à des modèles optimisés pour une seule scène, tels que les NeRFs. Dans cet article, nous exploitons les récents progrès des modèles de diffusion pour doter les modèles d'apprentissage de représentations de scènes 3D de la capacité à produire des rendus de nouvelles vues en haute fidélité, tout en conservant largement des avantages tels que l'édition de scènes au niveau des objets. En particulier, nous proposons DORSal, qui adapte une architecture de diffusion vidéo pour la génération de scènes 3D conditionnée par des représentations de scènes basées sur des slots centrés sur les objets. Sur des scènes synthétiques complexes à plusieurs objets ainsi que sur le jeu de données Street View à grande échelle du monde réel, nous montrons que DORSal permet un rendu neuronal évolutif de scènes 3D avec édition au niveau des objets et surpasse les approches existantes.
Nous montrons comment construire un modèle permettant des rendus réalistes en vue libre d'une scène sous de nouvelles conditions d'éclairage à partir d'une vidéo. Notre méthode, UrbanIR : Urban Scene Inverse Rendering, calcule une représentation graphique inverse à partir de la vidéo. UrbanIR infère conjointement la forme, l'albédo, la visibilité, ainsi que l'éclairage solaire et atmosphérique à partir d'une seule vidéo de scènes extérieures non délimitées avec un éclairage inconnu. UrbanIR utilise des vidéos provenant de caméras montées sur des voitures (contrairement à de nombreuses vues des mêmes points dans les estimations typiques de type NeRF). En conséquence, les méthodes standard produisent des estimations géométriques médiocres (par exemple, les toits), et il y a de nombreux "flotteurs". Les erreurs dans l'inférence graphique inverse peuvent entraîner des artefacts de rendu importants. UrbanIR utilise de nouvelles fonctions de perte pour contrôler ces sources d'erreur et d'autres. UrbanIR utilise une nouvelle fonction de perte pour obtenir des estimations très précises des volumes d'ombre dans la scène originale. Les représentations résultantes facilitent l'édition contrôlée, offrant des rendus photoréalistes en vue libre de scènes rééclairées et d'objets insérés. L'évaluation qualitative démontre des améliorations significatives par rapport à l'état de l'art.
Dans cet article, nous proposons un cadre autonome de recherche d'information pour la réponse à des questions visuelles, appelé AVIS. Notre méthode exploite un modèle de langage de grande taille (LLM) pour élaborer dynamiquement une stratégie d'utilisation d'outils externes et pour analyser leurs sorties, acquérant ainsi les connaissances indispensables nécessaires pour répondre aux questions posées. Répondre à des questions visuelles qui nécessitent des connaissances externes, telles que "Quel événement est commémoré par le bâtiment représenté dans cette image ?", est une tâche complexe. Cette tâche présente un espace de recherche combinatoire qui exige une séquence d'actions, incluant l'invocation d'API, l'analyse de leurs réponses et la prise de décisions éclairées. Nous menons une étude utilisateur pour recueillir diverses instances de prise de décision humaine face à cette tâche. Ces données sont ensuite utilisées pour concevoir un système composé de trois éléments : un planificateur alimenté par un LLM qui détermine dynamiquement quel outil utiliser ensuite, un raisonneur alimenté par un LLM qui analyse et extrait les informations clés des sorties des outils, et un composant de mémoire de travail qui conserve les informations acquises tout au long du processus. Le comportement utilisateur collecté guide notre système de deux manières clés. Premièrement, nous créons un graphe de transition en analysant la séquence de décisions prises par les utilisateurs. Ce graphe délimite des états distincts et restreint l'ensemble des actions disponibles à chaque état. Deuxièmement, nous utilisons des exemples de prise de décision utilisateur pour fournir à notre planificateur et raisonneur alimentés par un LLM des instances contextuelles pertinentes, améliorant ainsi leur capacité à prendre des décisions éclairées. Nous montrons qu'AVIS atteint des résultats de pointe sur des benchmarks de réponse à des questions visuelles nécessitant des connaissances approfondies, tels qu'Infoseek et OK-VQA.
Les récents progrès en reconstruction neuronale permettent une reconstruction 3D de haute qualité à partir de collections d'images capturées de manière informelle. Les techniques actuelles analysent principalement leurs avancées sur des collections d'images relativement simples, où les techniques de Structure-from-Motion (SfM) peuvent fournir des poses de caméra de référence (ground-truth, GT). Nous remarquons que les techniques SfM ont tendance à échouer sur des collections d'images "in-the-wild", telles que les résultats de recherche d'images avec des arrière-plans et des éclairages variés. Pour permettre des progrès systématiques dans la recherche sur la reconstruction 3D à partir de captures d'images informelles, nous proposons NAVI : un nouveau jeu de données de collections d'images agnostiques en termes de catégorie, accompagnées de scans 3D de haute qualité et d'alignements 2D-3D par image fournissant des paramètres de caméra GT quasi parfaits. Ces alignements 2D-3D nous permettent d'extrader des annotations dérivées précises, telles que des correspondances denses de pixels, des cartes de profondeur et des cartes de segmentation. Nous démontrons l'utilisation des collections d'images NAVI dans différents contextes problématiques et montrons que NAVI permet des évaluations plus approfondies qui n'étaient pas possibles avec les jeux de données existants. Nous croyons que NAVI est bénéfique pour les progrès systématiques de la recherche en reconstruction 3D et en estimation de correspondances. Page du projet : https://navidataset.github.io
Dans ce travail, nous étudions l'impact des modèles de langage à grande échelle (LLM) sur la reconnaissance automatique de la parole (ASR) de vidéos YouTube, que nous utilisons comme source pour l'ASR de contenu long. Nous démontrons une réduction relative allant jusqu'à 8\% du taux d'erreur sur les mots (WER) pour des ensembles de tests en anglais américain (en-us) et en anglais indien avec alternance codique (en-in), ainsi qu'une réduction relative allant jusqu'à 30\% du taux d'erreur sur les termes saillants (STER) par rapport à une base de référence solide en première passe utilisant un modèle de langage basé sur l'entropie maximale. Un traitement amélioré des treillis, aboutissant à un treillis avec une topologie de graphe orienté (non arborescent) et intégrant le contexte de l'hypothèse 1-best des segments précédents, permet des gains significatifs lors du réétiquetage avec les LLM. Nous constatons également que les gains de performance obtenus en combinant des LLM entraînés sur de vastes quantités de données disponibles (comme C4) et des modèles de langage neuronaux conventionnels sont additifs et surpassent de manière significative une base de référence solide en première passe avec un modèle de langage à entropie maximale.
La reconstruction et le rééclairage d'objets et de scènes sous des conditions d'éclairage variables posent un défi de taille : les méthodes de rendu neuronal existantes peinent souvent à gérer les interactions complexes entre les matériaux et la lumière. L'intégration de techniques de transfert de radiance précalculé permet d'obtenir une illumination globale, mais rencontre encore des difficultés avec les matériaux présentant des effets de diffusion sous la surface. Nous proposons un nouveau cadre pour apprendre le champ de transfert de radiance via le rendu volumétrique et utiliser divers indices d'apparence pour affiner la géométrie de bout en bout. Ce cadre étend les capacités de rééclairage et de reconstruction pour traiter une plus large gamme de matériaux de manière pilotée par les données. Les modèles résultants produisent des rendus plausibles dans des conditions existantes et nouvelles. Nous rendrons notre code ainsi qu'un nouveau jeu de données de scène lumineuse d'objets avec effets de diffusion sous la surface accessibles au public.
Imaginez un robot chargé de ranger un bureau sur lequel se trouve une voiture de sport Lego minutieusement construite. Un humain pourrait reconnaître qu'il n'est pas socialement approprié de démonter la voiture de sport et de la ranger dans le cadre du "rangement". Comment un robot peut-il parvenir à cette conclusion ? Bien que les grands modèles de langage (LLM) aient récemment été utilisés pour permettre un raisonnement social, ancrer ce raisonnement dans le monde réel s'est avéré difficile. Pour raisonner dans le monde réel, les robots doivent aller au-delà de l'interrogation passive des LLM et *recueillir activement des informations de l'environnement* nécessaires pour prendre la bonne décision. Par exemple, après avoir détecté qu'il y a une voiture partiellement cachée, le robot pourrait avoir besoin de percevoir activement la voiture pour savoir s'il s'agit d'une voiture modèle avancée en Lego ou d'une voiture jouet construite par un enfant. Nous proposons une approche qui exploite un LLM et un modèle de vision et langage (VLM) pour aider un robot à percevoir activement son environnement afin de réaliser un raisonnement social ancré. Pour évaluer notre cadre à grande échelle, nous publions le jeu de données MessySurfaces qui contient des images de 70 surfaces réelles nécessitant un nettoyage. Nous illustrons également notre approche avec un robot sur 2 surfaces soigneusement conçues. Nous observons une amélioration moyenne de 12,9 % sur le benchmark MessySurfaces et une amélioration moyenne de 15 % sur les expériences robotiques par rapport aux bases de référence qui n'utilisent pas la perception active. Le jeu de données, le code et les vidéos de notre approche sont disponibles à l'adresse https://minaek.github.io/groundedsocialreasoning.
Le réglage des hyperparamètres des modèles d'apprentissage profond peut entraîner des gains de performance d'un ordre de grandeur pour la même quantité de calcul. Malgré cela, un réglage systématique est rare, en particulier pour les grands modèles, qui sont coûteux à évaluer et ont tendance à avoir de nombreux hyperparamètres, nécessitant des décisions difficiles concernant les compromis, les budgets et les limites de recherche. Pour résoudre ces problèmes et proposer une méthode pratique pour régler de manière robuste les grands modèles, nous présentons Cost-Aware Pareto Region Bayesian Search (CARBS), un algorithme d'optimisation bayésienne qui effectue une recherche locale autour de la frontière de Pareto performance-coût. CARBS fonctionne bien même dans des espaces de recherche non bornés avec de nombreux hyperparamètres, apprend les relations d'échelle afin de pouvoir régler les modèles même lorsqu'ils sont mis à l'échelle, et automatise une grande partie de la "magie noire" du réglage. Parmi nos résultats, nous résolvons efficacement l'intégralité du benchmark ProcGen simplement en réglant une base simple (PPO, tel que fourni dans l'article original de ProcGen). Nous reproduisons également le résultat d'échelle entre la taille du modèle et les jetons d'entraînement du projet Chinchilla (Hoffmann et al. 2022), tout en découvrant simultanément des lois d'échelle pour tous les autres hyperparamètres, via un processus automatisé simple qui utilise significativement moins de calcul et est applicable à tout problème d'apprentissage profond (pas seulement les modèles de langage).