Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous proposons SlowFast-LLaVA (ou SF-LLaVA en abrégé), un modèle de langage de grande taille (LLM) vidéo sans apprentissage supplémentaire, capable de capturer conjointement la sémantique spatiale détaillée et le contexte temporel à long terme sans dépasser le budget de tokens des LLM couramment utilisés. Cela est réalisé en utilisant une conception à deux flux SlowFast des entrées pour les LLM vidéo afin d'agréger les caractéristiques des images vidéo échantillonnées de manière efficace. Plus précisément, le chemin Slow extrait les caractéristiques à un faible taux de trames tout en conservant autant de détails spatiaux que possible (par exemple, avec 24x24 tokens), tandis que le chemin Fast opère à un taux de trames élevé mais utilise un pas de pooling spatial plus grand (par exemple, sous-échantillonnage 6x) pour se concentrer sur les indices de mouvement. En conséquence, cette conception nous permet de capturer adéquatement à la fois les caractéristiques spatiales et temporelles qui sont bénéfiques pour comprendre les détails tout au long de la vidéo. Les résultats expérimentaux montrent que SF-LLaVA surpasse les méthodes existantes sans apprentissage sur une large gamme de tâches vidéo. Sur certains benchmarks, il atteint des performances comparables, voire meilleures, par rapport aux LLM vidéo de pointe qui sont affinés sur des ensembles de données vidéo.
Les grands modèles de langage (LLM) ciblant différentes échelles et tailles de déploiement sont actuellement produits en entraînant chaque variante à partir de zéro, ce qui est extrêmement coûteux en termes de calcul. Dans cet article, nous étudions si l'élagage d'un LLM existant suivi d'un réentraînement avec une fraction (<3%) des données d'entraînement originales peut constituer une alternative viable à un réentraînement complet répété. À cette fin, nous développons un ensemble de meilleures pratiques pratiques et efficaces pour la compression des LLM, combinant l'élagage en profondeur, en largeur, des mécanismes d'attention et des couches MLP avec un réentraînement basé sur la distillation de connaissances. Nous parvenons à ces meilleures pratiques grâce à une exploration empirique détaillée des stratégies d'élagage pour chaque axe, des méthodes pour combiner les axes, des stratégies de distillation et des techniques de recherche pour aboutir à des architectures compressées optimales. Nous utilisons ce guide pour compresser la famille de LLM Nemotron-4 par un facteur de 2 à 4x, et comparons leurs performances à celles de modèles de taille similaire sur une variété de tâches de modélisation du langage. Dériver des modèles de 8B et 4B à partir d'un modèle préentraîné de 15B en utilisant notre approche nécessite jusqu'à 40x moins de tokens d'entraînement par modèle par rapport à un entraînement à partir de zéro, ce qui se traduit par des économies de coût de calcul de 1,8x pour l'entraînement de la famille complète de modèles (15B, 8B et 4B). Les modèles Minitron montrent une amélioration allant jusqu'à 16% des scores MMLU par rapport à un entraînement à partir de zéro, performent de manière comparable à d'autres modèles communautaires tels que Mistral 7B, Gemma 7B et Llama-3 8B, et surpassent les techniques de compression de pointe issues de la littérature. Nous avons open-sourcé les poids des modèles Minitron sur Huggingface, avec un matériel supplémentaire correspondant incluant un exemple de code disponible sur GitHub.
L'échelle gigantesque des modèles de fondation (foundation models) de pointe a limité leur accessibilité pour les scientifiques, car des expérimentations personnalisées sur des modèles de grande taille nécessitent un matériel coûteux et une ingénierie complexe, ce qui est impraticable pour la plupart des chercheurs. Pour atténuer ces problèmes, nous présentons NNsight, un package Python open-source doté d'une API simple et flexible capable d'exprimer des interventions sur n'importe quel modèle PyTorch en construisant des graphes de calcul. Nous introduisons également NDIF, une plateforme de recherche collaborative offrant aux chercheurs un accès à des modèles de langage à grande échelle via l'API NNsight. Le code, la documentation et des tutoriels sont disponibles à l'adresse https://www.nnsight.net.
Comprendre les mécanismes de connaissance dans les modèles de langage de grande taille (LLMs) est crucial pour progresser vers une intelligence artificielle générale (IAG) digne de confiance. Cet article examine l'analyse des mécanismes de connaissance à travers une taxonomie novatrice incluant l'utilisation et l'évolution de la connaissance. L'utilisation de la connaissance explore les mécanismes de mémorisation, de compréhension, d'application et de création. L'évolution de la connaissance se concentre sur la progression dynamique des connaissances au sein des LLMs individuels et collectifs. De plus, nous discutons de ce que les LLMs ont appris, des raisons de la fragilité des connaissances paramétriques, et de la connaissance sombre potentielle (hypothèse) qui sera difficile à aborder. Nous espérons que ce travail contribuera à mieux comprendre la connaissance dans les LLMs et fournira des pistes pour les recherches futures.
Les modèles multimodaux de grande taille (LMMs) offrent des perspectives prometteuses dans divers domaines, allant de l'assistance personnelle pour les tâches quotidiennes à des applications sophistiquées comme les diagnostics médicaux. Cependant, leurs capacités présentent des limites dans le domaine des jeux vidéo, notamment des difficultés liées à la compréhension des scènes, des hallucinations et des descriptions inexactes du contenu des jeux vidéo, en particulier pour les modèles open-source. Cet article décrit le développement de VideoGameBunny, un modèle de style LLaVA basé sur Bunny, spécialement conçu pour comprendre les images issues de jeux vidéo. Nous publions des points de contrôle intermédiaires, des journaux d'entraînement et un vaste ensemble de données comprenant 185 259 images de jeux vidéo provenant de 413 titres, ainsi que 389 565 paires image-instruction incluant des légendes d'images, des paires question-réponse et une représentation JSON de 16 éléments pour 136 974 images. Nos expériences montrent que nos données de haute qualité liées aux jeux ont le potentiel de permettre à un modèle relativement petit de surpasser le modèle de pointe beaucoup plus grand LLaVa-1.6-34b (qui possède plus de 4 fois le nombre de paramètres). Notre étude ouvre la voie à de futures recherches sur la compréhension des jeux vidéo pour des tâches telles que le jeu, le commentaire et le débogage. Le code et les données sont disponibles à l'adresse https://videogamebunny.github.io/
L'apprentissage par renforcement multi-agent (MARL) a récemment excellé dans la résolution de problèmes multi-agents coopératifs et compétitifs complexes dans divers environnements, principalement avec un nombre limité d'agents et une observabilité complète. Par ailleurs, une gamme de tâches cruciales liées à la robotique, telles que la navigation multi-robots et l'évitement d'obstacles, traditionnellement abordées avec des méthodes classiques non-apprenantes (par exemple, la recherche heuristique), sont désormais suggérées pour être résolues par des méthodes basées sur l'apprentissage ou hybrides. Cependant, dans ce domaine, il est difficile, voire impossible, de réaliser une comparaison équitable entre les approches classiques, basées sur l'apprentissage et hybrides en raison de l'absence d'un cadre unifié qui supporte à la fois l'apprentissage et l'évaluation. À cette fin, nous présentons POGEMA, un ensemble d'outils complets qui inclut un environnement rapide pour l'apprentissage, un générateur d'instances de problèmes, une collection de problèmes prédéfinis, un kit de visualisation et un outil de benchmarking permettant une évaluation automatisée. Nous introduisons et spécifions un protocole d'évaluation définissant une gamme de métriques liées au domaine, calculées sur la base des indicateurs d'évaluation primaires (tels que le taux de réussite et la longueur du chemin), permettant une comparaison équitable et multidimensionnelle. Les résultats d'une telle comparaison, impliquant une variété de méthodes MARL, basées sur la recherche et hybrides de pointe, sont présentés.
Les modèles multimodaux de grande taille (LMMs) traitent des entrées de plus en plus longues et riches. Malgré les progrès réalisés, peu de benchmarks publics sont disponibles pour mesurer un tel développement. Pour combler cette lacune, nous introduisons LongVideoBench, un benchmark de questions-réponses qui propose des entrées intercalées vidéo-texte pouvant durer jusqu'à une heure. Notre benchmark comprend 3 763 vidéos de longueurs variées collectées sur le web, accompagnées de leurs sous-titres et couvrant des thèmes divers, conçues pour évaluer de manière exhaustive les LMMs sur la compréhension multimodale à long terme. Pour y parvenir, nous interprétons le défi principal comme étant de récupérer et de raisonner avec précision sur des informations multimodales détaillées à partir d'entrées longues. Ainsi, nous formulons une nouvelle tâche de questions-réponses vidéo appelée raisonnement référentiel. Plus précisément, dans le cadre de la question, celle-ci contient une requête référentielle qui fait référence à des contextes vidéo connexes, appelés contexte référent. Le modèle doit ensuite raisonner sur les détails pertinents de la vidéo à partir du contexte référent. Suivant le paradigme du raisonnement référentiel, nous avons compilé 6 678 questions à choix multiples annotées par des humains, réparties en 17 catégories fines, établissant ainsi l'un des benchmarks les plus complets pour la compréhension de vidéos longues. Les évaluations suggèrent que LongVideoBench présente des défis significatifs même pour les modèles propriétaires les plus avancés (par exemple, GPT-4o, Gemini-1.5-Pro, GPT-4-Turbo), tandis que leurs homologues open source montrent un écart de performance encore plus important. En outre, nos résultats indiquent que la performance des modèles sur le benchmark ne s'améliore que lorsqu'ils sont capables de traiter plus de trames, positionnant LongVideoBench comme un benchmark précieux pour évaluer les futures générations de LMMs à contexte long.
L'apprentissage par renforcement à partir de retours humains (RLHF) est un facteur clé de qualité et de sécurité dans les modèles de langage à la pointe de la technologie. Pourtant, une stratégie d'inférence étonnamment simple et efficace est l'échantillonnage Best-of-N, qui sélectionne la meilleure génération parmi N candidats. Dans cet article, nous proposons Best-of-N Distillation (BOND), un nouvel algorithme RLHF qui vise à imiter Best-of-N sans son coût computationnel significatif au moment de l'inférence. Plus précisément, BOND est un algorithme d'appariement de distributions qui force la distribution des générations de la politique à se rapprocher de la distribution Best-of-N. Nous utilisons la divergence de Jeffreys (une combinaison linéaire des KL avant et arrière) pour équilibrer entre un comportement couvrant les modes et un comportement recherchant les modes, et nous dérivons une formulation itérative qui utilise une ancre mobile pour plus d'efficacité. Nous démontrons l'efficacité de notre approche et de plusieurs choix de conception à travers des expériences sur la synthèse abstraite et les modèles Gemma. L'alignement des politiques Gemma avec BOND surpasse d'autres algorithmes RLHF en améliorant les résultats sur plusieurs benchmarks.
Bien que les champs de radiance neuronaux (NeRFs) aient démontré une qualité exceptionnelle, leur durée d'entraînement prolongée reste une limitation. Les NeRFs généralisables et basés sur la vision stéréoscopique multi-vues (MVS), bien que capables de réduire le temps d'entraînement, entraînent souvent des compromis en termes de qualité. Cet article présente une nouvelle approche appelée BoostMVSNeRFs pour améliorer la qualité de rendu des NeRFs basés sur MVS dans des scènes à grande échelle. Nous identifions d'abord les limitations des méthodes NeRFs basées sur MVS, telles que la couverture limitée des angles de vue et les artefacts dus au nombre restreint de vues en entrée. Ensuite, nous abordons ces limitations en proposant une nouvelle méthode qui sélectionne et combine plusieurs volumes de coûts lors du rendu volumétrique. Notre méthode ne nécessite pas d'entraînement et peut s'adapter à toute méthode NeRF basée sur MVS de manière directe pour améliorer la qualité de rendu. De plus, notre approche est également entraînable de bout en bout, permettant un ajustement fin sur des scènes spécifiques. Nous démontrons l'efficacité de notre méthode à travers des expériences sur des jeux de données à grande échelle, montrant des améliorations significatives de la qualité de rendu dans des scènes à grande échelle et des environnements extérieurs non bornés. Nous publions le code source de BoostMVSNeRFs à l'adresse https://su-terry.github.io/BoostMVSNeRFs/.
Les modèles de diffusion entremêlent la génération de contenu et de style pendant le processus de débruitage, entraînant des modifications indésirables du contenu lorsqu'ils sont directement appliqués à des tâches de stylisation. Les méthodes existantes peinent à contrôler efficacement le modèle de diffusion pour répondre aux exigences esthétiques de la stylisation. Dans cet article, nous présentons Artist, une approche sans apprentissage qui contrôle esthétiquement la génération de contenu et de style d'un modèle de diffusion préentraîné pour la stylisation pilotée par texte. Notre idée clé est de séparer le débruitage du contenu et du style en processus de diffusion distincts tout en partageant des informations entre eux. Nous proposons des méthodes de contrôle du contenu et du style simples mais efficaces, qui suppriment la génération de contenu non pertinent pour le style, aboutissant à des résultats de stylisation harmonieux. Des expériences approfondies démontrent que notre méthode excelle à atteindre les exigences de stylisation au niveau esthétique, en préservant les détails complexes de l'image de contenu et en s'alignant parfaitement avec l'invite de style. De plus, nous montrons la grande contrôlabilité de l'intensité de la stylisation sous divers angles. Le code sera publié, page du projet : https://DiffusionArtist.github.io
Bien que le Flow Matching et les modèles de diffusion soient apparus comme des paradigmes génératifs puissants pour les variables continues telles que les images et les vidéos, leur application aux données discrètes de haute dimension, comme le langage, reste limitée. Dans ce travail, nous présentons le Discrete Flow Matching, un nouveau paradigme de flux discret conçu spécifiquement pour générer des données discrètes. Le Discrete Flow Matching apporte plusieurs contributions clés : (i) il fonctionne avec une famille générale de chemins de probabilité interpolant entre les distributions source et cible ; (ii) il permet une formule générique pour l'échantillonnage à partir de ces chemins de probabilité en utilisant des postérieurs appris tels que le débruiteur de probabilité (prédiction x) et la prédiction de bruit (prédiction epsilon) ; (iii) en pratique, se concentrer sur des chemins de probabilité spécifiques définis avec différents planificateurs améliore considérablement la perplexité générative par rapport aux modèles de diffusion et de flux discrets précédents ; et (iv) en augmentant la taille des modèles de Discrete Flow Matching jusqu'à 1,7 milliard de paramètres, nous atteignons 6,7 % de Pass@1 et 13,4 % de Pass@10 sur HumanEval, ainsi que 6,7 % de Pass@1 et 20,6 % de Pass@10 sur les benchmarks de codage MBPP en 1-shot. Notre approche est capable de générer des données discrètes de haute qualité de manière non autorégressive, réduisant significativement l'écart entre les modèles autorégressifs et les modèles de flux discrets.
La génération de scènes 3D est très demandée dans divers domaines, notamment la réalité virtuelle, les jeux vidéo et l'industrie cinématographique. Grâce aux puissantes capacités génératives des modèles de diffusion texte-image qui fournissent des a priori fiables, la création de scènes 3D à partir de simples prompts textuels est devenue réalisable, ce qui a considérablement fait progresser les recherches sur la génération de scènes 3D pilotée par le texte. Afin d'obtenir une supervision multi-vues à partir de modèles de diffusion 2D, les méthodes prédominantes utilisent généralement un modèle de diffusion pour générer une image locale initiale, puis procèdent à un étalement itératif de cette image locale à l'aide de modèles de diffusion pour générer progressivement des scènes. Cependant, ces approches basées sur l'étalement ont tendance à produire des résultats de génération de scènes globalement incohérents et manquant de complétude, limitant ainsi leurs applications plus larges. Pour résoudre ces problèmes, nous présentons HoloDreamer, un cadre qui génère d'abord une panoramique haute définition comme initialisation holistique de la scène 3D complète, puis exploite le 3D Gaussian Splatting (3D-GS) pour reconstruire rapidement la scène 3D, facilitant ainsi la création de scènes 3D cohérentes en termes de vue et entièrement fermées. Plus précisément, nous proposons la Génération de Panoramas Équirectangulaires Stylisés, un pipeline qui combine plusieurs modèles de diffusion pour permettre la génération de panoramas équirectangulaires stylisés et détaillés à partir de prompts textuels complexes. Par la suite, la Reconstruction de Panoramas en Deux Étapes Améliorée est introduite, effectuant une optimisation en deux étapes du 3D-GS pour combler les régions manquantes et améliorer l'intégrité de la scène. Des expériences approfondies ont démontré que notre méthode surpasse les travaux antérieurs en termes de cohérence visuelle globale et d'harmonie, ainsi que de qualité de reconstruction et de robustesse de rendu lors de la génération de scènes entièrement fermées.
Les systèmes d'intelligence artificielle (IA) à usage général sont construits sur de vastes étendues de données web publiques, assemblées en corpus tels que C4, RefinedWeb et Dolma. À notre connaissance, nous menons le premier audit longitudinal à grande échelle des protocoles de consentement pour les domaines web sous-jacents aux corpus d'entraînement de l'IA. Notre audit de 14 000 domaines web offre une vue expansive des données web accessibles par crawl et de l'évolution des préférences de consentement pour leur utilisation au fil du temps. Nous observons une prolifération de clauses spécifiques à l'IA pour limiter l'utilisation, des différences marquées dans les restrictions imposées aux développeurs d'IA, ainsi que des incohérences générales entre les intentions exprimées par les sites web dans leurs Conditions d'utilisation et leurs fichiers robots.txt. Nous diagnostiquons ces symptômes comme résultant de protocoles web inefficaces, non conçus pour faire face à la réutilisation généralisée d'Internet pour l'IA. Nos analyses longitudinales montrent qu'en une seule année (2023-2024), il y a eu une augmentation rapide des restrictions de données provenant de sources web, rendant ~5 % ou plus de tous les tokens dans C4, ou 28 % ou plus des sources les plus activement maintenues et critiques dans C4, totalement inaccessibles. Pour les restrictions de crawl liées aux Conditions d'utilisation, 45 % de C4 est désormais restreint. Si ces restrictions sont respectées ou appliquées, elles biaisent rapidement la diversité, la fraîcheur et les lois d'échelle des systèmes d'IA à usage général. Nous espérons illustrer la crise émergente du consentement des données, qui ferme une grande partie du web ouvert, non seulement pour l'IA commerciale, mais aussi pour l'IA non commerciale et les usages académiques.
Les modèles de diffusion ont réalisé des progrès significatifs dans l'animation d'images grâce à leurs puissantes capacités génératives. Cependant, maintenir une cohérence spatio-temporelle avec les informations détaillées de l'image statique d'entrée au fil du temps (par exemple, le style, l'arrière-plan et l'objet de l'image statique d'entrée) et assurer une fluidité dans les récits vidéo animés guidés par des invites textuelles reste un défi. Dans cet article, nous présentons Cinemo, une nouvelle approche d'animation d'images visant à obtenir une meilleure contrôlabilité du mouvement, ainsi qu'une plus grande cohérence et fluidité temporelles. En général, nous proposons trois stratégies efficaces aux étapes d'entraînement et d'inférence de Cinemo pour atteindre notre objectif. À l'étape d'entraînement, Cinemo se concentre sur l'apprentissage de la distribution des résidus de mouvement, plutôt que de prédire directement les étapes suivantes via un modèle de diffusion de mouvement. De plus, une stratégie basée sur l'indice de similarité structurelle est proposée pour permettre à Cinemo d'avoir une meilleure contrôlabilité de l'intensité du mouvement. À l'étape d'inférence, une technique de raffinement du bruit basée sur la transformation en cosinus discrète est introduite pour atténuer les changements brusques de mouvement. Ces trois stratégies permettent à Cinemo de produire des résultats hautement cohérents, fluides et contrôlables en termes de mouvement. Par rapport aux méthodes précédentes, Cinemo offre une contrôlabilité utilisateur plus simple et plus précise. Des expériences approfondies contre plusieurs méthodes de pointe, incluant à la fois des outils commerciaux et des approches de recherche, sur plusieurs métriques, démontrent l'efficacité et la supériorité de notre approche proposée.
L'affinage basé sur les récompenses est crucial pour aligner les politiques linguistiques avec les comportements souhaités (par exemple, créativité et sécurité). Un défi majeur ici est de développer des modèles de langage pilotables qui arbitrent de manière flexible et efficace entre plusieurs objectifs (potentiellement conflictuels). Cet article présente la Politique Linguistique Conditionnée (Conditioned Language Policy, CLP), un cadre général pour l'affinage de modèles de langage sur plusieurs objectifs. S'appuyant sur des techniques issues de l'apprentissage multitâche et de l'affinage paramétrique efficace, CLP permet d'apprendre des modèles pilotables qui arbitrent efficacement entre des objectifs conflictuels au moment de l'inférence. Notamment, cela ne nécessite pas d'entraîner ou de maintenir plusieurs modèles pour obtenir différents compromis entre les objectifs. À travers un ensemble étendu d'expériences et d'ablations, nous montrons que le cadre CLP apprend des modèles pilotables qui surpassent et dominent au sens de Pareto les approches actuelles de l'état de l'art pour l'affinage multi-objectif.
Fondés sur la puissance des LLM (Large Language Models), de nombreux modèles de langage multimodaux de grande taille (MLLMs) ont récemment obtenu des performances remarquables sur diverses tâches vision-langage à travers plusieurs benchmarks. Cependant, la plupart des MLLMs et benchmarks existants se concentrent principalement sur des scénarios d'entrée à image unique, laissant les performances des MLLMs dans la gestion d'images multiples réalistes largement inexplorées. Bien que quelques benchmarks prennent en compte plusieurs images, leurs dimensions d'évaluation et leurs échantillons sont très limités. Par conséquent, dans cet article, nous proposons un nouveau benchmark, MIBench, pour évaluer de manière exhaustive les capacités fines des MLLMs dans des scénarios multi-images. Plus précisément, MIBench catégorise les capacités multi-images en trois scénarios : instruction multi-images (MII), recherche de connaissances multimodales (MKS) et apprentissage en contexte multimodal (MIC), et construit 13 tâches avec un total de 13K échantillons annotés. Lors de la construction des données, pour MII et MKS, nous extrayons les options correctes à partir d'annotations manuelles et créons des distracteurs complexes pour obtenir des questions à choix multiples. Pour MIC, afin de permettre une évaluation approfondie, nous définissons quatre sous-tâches et transformons les jeux de données originaux en formats d'apprentissage en contexte. Nous évaluons plusieurs MLLMs open-source et close-source sur le benchmark MIBench proposé. Les résultats révèlent que bien que les modèles actuels excellent dans les tâches à image unique, ils présentent des lacunes significatives face aux entrées multi-images, telles qu'une perception fine confuse, un raisonnement multi-image limité et un apprentissage en contexte instable. Les données annotées de MIBench sont disponibles à l'adresse suivante : https://huggingface.co/datasets/StarBottle/MIBench.
Les agents linguistiques, construits à partir de modèles de langage (LMs), sont des systèmes capables d'interagir avec des environnements complexes, tels que le web ouvert. Dans ce travail, nous examinons si de tels agents peuvent accomplir des tâches réalistes et chronophages sur le web, par exemple, surveiller les marchés immobiliers ou localiser des entreprises pertinentes à proximité. Nous présentons AssistantBench, un nouveau benchmark exigeant composé de 214 tâches réalistes pouvant être évaluées automatiquement, couvrant différents scénarios et domaines. Nous constatons qu'AssistantBench révèle les limites des systèmes actuels, y compris les modèles de langage et les modèles de langage augmentés par recherche, car aucun modèle n'atteint une précision supérieure à 25 points. Bien que les LMs en mode "closed-book" performent bien, ils présentent une faible précision car ils ont tendance à halluciner des faits. Les agents web de pointe atteignent un score proche de zéro. De plus, nous introduisons SeePlanAct (SPA), un nouvel agent web qui surpasse significativement les agents précédents, et un ensemble combinant SPA et des modèles en mode "closed-book" atteint la meilleure performance globale. Par ailleurs, nous analysons les échecs des systèmes actuels et soulignons que la navigation sur le web reste un défi majeur.
Les modèles existants de génération de musique à partir de texte peuvent produire des audios de haute qualité avec une grande diversité. Cependant, les invites textuelles seules ne permettent pas de contrôler avec précision les caractéristiques musicales temporelles telles que les accords et le rythme de la musique générée. Pour relever ce défi, nous présentons MusiConGen, un modèle de génération de musique à partir de texte basé sur un Transformer et conditionné temporellement, qui s'appuie sur le framework pré-entraîné MusicGen. Notre innovation réside dans un mécanisme de fine-tuning efficace, adapté aux GPU grand public, qui intègre le rythme et les accords extraits automatiquement comme signal de conditionnement. Pendant l'inférence, la condition peut être soit des caractéristiques musicales extraites d'un signal audio de référence, soit une séquence d'accords symboliques définie par l'utilisateur, le BPM et les invites textuelles. Notre évaluation des performances sur deux jeux de données -- l'un dérivé de caractéristiques extraites et l'autre d'entrées créées par l'utilisateur -- démontre que MusiConGen peut générer des musiques d'accompagnement réalistes qui s'alignent bien avec les conditions spécifiées. Nous mettons à disposition en open source le code et les points de contrôle du modèle, et fournissons des exemples audio en ligne, https://musicongen.github.io/musicongen_demo/.
Nous présentons LocoTrack, un modèle extrêmement précis et efficace conçu pour la tâche de suivi de n'importe quel point (TAP) à travers des séquences vidéo. Les approches précédentes dans cette tâche reposent souvent sur des cartes de corrélation 2D locales pour établir des correspondances entre un point dans l'image de requête et une région locale dans l'image cible, ce qui pose souvent des difficultés dans les régions homogènes ou avec des caractéristiques répétitives, entraînant des ambiguïtés de correspondance. LocoTrack surmonte ce défi grâce à une approche novatrice qui utilise des correspondances toutes paires entre les régions, c'est-à-dire une corrélation 4D locale, pour établir des correspondances précises, avec une correspondance bidirectionnelle et une régularité de correspondance qui améliorent significativement la robustesse contre les ambiguïtés. Nous intégrons également un encodeur de corrélation léger pour améliorer l'efficacité computationnelle, ainsi qu'une architecture Transformer compacte pour intégrer des informations temporelles à long terme. LocoTrack atteint une précision inégalée sur tous les benchmarks TAP-Vid et fonctionne à une vitesse presque 6 fois supérieure à celle de l'état de l'art actuel.
La génération de mise en page est la tâche fondamentale de la conception intelligente, qui nécessite l'intégration de l'esthétique visuelle et l'expression harmonieuse de la diffusion du contenu. Cependant, les méthodes existantes rencontrent encore des difficultés pour générer des mises en page précises et visuellement attrayantes, notamment des problèmes de blocage, de chevauchement ou de désalignement spatial entre les mises en page, qui sont étroitement liés à la structure spatiale des mises en page graphiques. Nous constatons que ces méthodes se concentrent excessivement sur les informations de contenu et manquent de contraintes sur la structure spatiale de la mise en page, ce qui entraîne un déséquilibre dans l'apprentissage des caractéristiques sensibles au contenu et à la graphique. Pour résoudre ce problème, nous proposons la génération de mise en page équilibrée entre contenu et graphique avec un modèle de diffusion basé sur un transformateur (CGB-DM). Plus précisément, nous concevons d'abord un régulateur qui équilibre le poids prédit du contenu et de la graphique, surmontant ainsi la tendance à accorder plus d'attention au contenu sur la toile. Ensuite, nous introduisons une contrainte graphique de boîte englobante de saillance pour renforcer davantage l'alignement des caractéristiques géométriques entre les représentations de mise en page et les images. De plus, nous adaptons un modèle de diffusion basé sur un transformateur comme architecture principale, dont la puissante capacité de génération garantit la qualité de la génération de mise en page. Les résultats expérimentaux approfondis indiquent que notre méthode a atteint des performances de pointe dans les évaluations quantitatives et qualitatives. Notre cadre de modèle peut également être étendu à d'autres domaines de conception graphique.
L'imagerie thermique trouve des applications variées, allant de la surveillance agricole à l'inspection des bâtiments, en passant par l'imagerie dans des conditions de visibilité réduite, comme en faible luminosité, dans le brouillard ou sous la pluie. Cependant, la reconstruction de scènes thermiques en 3D présente plusieurs défis en raison de la résolution relativement plus faible et des caractéristiques limitées des images infrarouges à ondes longues (LWIR). Pour surmonter ces défis, nous proposons un cadre unifié pour la reconstruction de scènes à partir d'un ensemble d'images LWIR et RGB, en utilisant un champ de radiance multispectral pour représenter une scène vue à la fois par des caméras visibles et infrarouges, exploitant ainsi les informations des deux spectres. Nous calibrons les caméras RGB et infrarouges l'une par rapport à l'autre, comme étape de prétraitement en utilisant une cible de calibration simple. Nous démontrons notre méthode sur des ensembles réels de photographies RGB et LWIR capturées à partir d'une caméra thermique portative, montrant l'efficacité de notre méthode pour la représentation de scènes à travers les spectres visible et infrarouge. Nous montrons que notre méthode est capable de super-résolution thermique, ainsi que de supprimer visuellement les obstacles pour révéler des objets qui sont occultés dans les canaux RGB ou thermiques. Veuillez consulter https://yvette256.github.io/thermalnerf pour les résultats vidéo ainsi que la publication de notre code et de notre jeu de données.
Nous introduisons les Jacobiens Résiduels Temporels comme une nouvelle représentation permettant le transfert de mouvements piloté par les données. Notre approche ne suppose pas l'accès à aucun rigging ou images clés intermédiaires, produit des mouvements géométriquement et temporellement cohérents, et peut être utilisée pour transférer de longues séquences de mouvement. Au cœur de notre approche se trouvent deux réseaux neuronaux couplés qui prédisent individuellement des changements géométriques et temporels locaux, ensuite intégrés spatialement et temporellement pour produire les maillages animés finaux. Les deux réseaux sont entraînés conjointement, se complètent dans la production de signaux spatiaux et temporels, et sont supervisés directement avec des informations de position 3D. Pendant l'inférence, en l'absence d'images clés, notre méthode résout essentiellement un problème d'extrapolation de mouvement. Nous testons notre configuration sur divers maillages (formes synthétiques et scannées) pour démontrer sa supériorité dans la génération d'animations réalistes et naturelles sur des formes corporelles inédites par rapport aux alternatives de l'état de l'art. Une vidéo supplémentaire et le code sont disponibles à l'adresse https://temporaljacobians.github.io/.
Cet article présente GET-Zero, une architecture de modèle et une procédure d'entraînement pour apprendre une politique de contrôle consciente de l'incarnation, capable de s'adapter immédiatement à de nouveaux changements matériels sans nécessiter de réentraînement. Pour ce faire, nous introduisons le Graph Embodiment Transformer (GET), un modèle de type transformer qui exploite la connectivité du graphe d'incarnation comme biais structurel appris dans le mécanisme d'attention. Nous utilisons le clonage comportemental pour distiller des données de démonstration provenant de politiques expertes spécifiques à l'incarnation dans un modèle GET conscient de l'incarnation, qui prend en compte la configuration matérielle du robot pour prendre des décisions de contrôle. Nous menons une étude de cas sur une tâche de rotation dextre d'un objet dans la main en utilisant différentes configurations d'une main robotique à quatre doigts avec des articulations supprimées et des extensions de longueur de lien. L'utilisation du modèle GET, combinée à une fonction de perte d'auto-modélisation, permet à GET-Zero de généraliser en zero-shot à des variations inédites de la structure du graphe et de la longueur des liens, offrant ainsi une amélioration de 20 % par rapport aux méthodes de référence. Tout le code et les résultats vidéo qualitatifs sont disponibles sur https://get-zero-paper.github.io.
Les récents progrès des modèles multimodaux de grande taille (LMMs) ont permis des avancées significatives dans le domaine de la réponse à des questions visuelles sur une seule image. Cependant, ces modèles rencontrent des défis majeurs lorsqu'ils sont confrontés à des requêtes portant sur de vastes collections d'images, similaires à des scénarios réels tels que la recherche dans de grands albums photo, la recherche d'informations spécifiques sur Internet ou la surveillance des changements environnementaux via l'imagerie satellitaire. Cet article explore la tâche de réponse à des questions visuelles sur plusieurs images (MIQA) : étant donné un grand ensemble d'images et une requête en langage naturel, l'objectif est de générer une réponse pertinente et fondée. Nous proposons un nouveau benchmark public, baptisé "Visual Haystacks (VHs)", spécialement conçu pour évaluer les capacités des LMMs en matière de récupération visuelle et de raisonnement sur des ensembles d'images non liées, où nous effectuons des évaluations approfondies démontrant que même les modèles robustes propriétaires rencontrent des difficultés significatives. Pour remédier à ces lacunes, nous introduisons MIRAGE (Multi-Image Retrieval Augmented Generation), un nouveau cadre de récupération/réponse aux questions adapté aux LMMs qui relève les défis du MIQA avec des améliorations marquées en efficacité et en précision par rapport aux méthodes de base. Notre évaluation montre que MIRAGE surpasse les modèles GPT-4o propriétaires jusqu'à 11% sur le benchmark VHs et offre des améliorations d'efficacité jusqu'à 3,4 fois par rapport aux approches multi-étapes centrées sur le texte.