Articles de recherche en IA sélectionnés quotidiennement avec traductions
Dans cet article, nous étudions les facteurs sous-jacents susceptibles d'améliorer les capacités de raisonnement mathématique des grands modèles de langage (LLMs). Nous soutenons que la loi d'échelle des données pour les capacités de raisonnement mathématique dans les LLMs modernes est loin d'être saturée, mettant en évidence comment la qualité du modèle s'améliore avec l'augmentation de la quantité de données. Pour étayer cette affirmation, nous présentons la série de modèles Skywork-Math, fine-tunée de manière supervisée (SFT) sur des LLMs 7B courants en utilisant notre jeu de données Skywork-MathQA de 2,5 millions d'instances. Skywork-Math 7B a atteint des précisions impressionnantes de 51,2 % sur le benchmark compétitif MATH et 83,9 % sur le benchmark GSM8K en utilisant uniquement des données SFT, surpassant une version précoce de GPT-4 sur MATH. La performance supérieure des modèles Skywork-Math est attribuable à nos pipelines novateurs de synthèse de données en deux étapes et de SFT de modèle, qui incluent trois méthodes d'augmentation différentes et un ensemble diversifié de problèmes de départ, garantissant à la fois la quantité et la qualité du jeu de données Skywork-MathQA à différents niveaux de difficulté. Plus important encore, nous fournissons plusieurs enseignements pratiques pour améliorer les capacités de raisonnement mathématique des LLMs, tant pour la recherche que pour les applications industrielles.
Nous avons réalisé des progrès significatifs dans la construction de modèles de diffusion vidéo fondamentaux. Comme ces modèles sont entraînés à l'aide de données non supervisées à grande échelle, il est devenu crucial de les adapter à des tâches spécifiques en aval. L'adaptation de ces modèles via un ajustement fin supervisé nécessite la collecte de jeux de données cibles de vidéos, ce qui est à la fois difficile et fastidieux. Dans ce travail, nous utilisons des modèles de récompense pré-entraînés, appris via des préférences sur des modèles discriminatifs visuels puissants, pour adapter les modèles de diffusion vidéo. Ces modèles contiennent des informations de gradient denses par rapport aux pixels RGB générés, ce qui est essentiel pour un apprentissage efficace dans des espaces de recherche complexes, tels que les vidéos. Nous montrons que la rétropropagation des gradients de ces modèles de récompense vers un modèle de diffusion vidéo peut permettre un alignement efficace en termes de calcul et d'échantillonnage du modèle de diffusion vidéo. Nous présentons des résultats sur une variété de modèles de récompense et de modèles de diffusion vidéo, démontrant que notre approche peut apprendre de manière beaucoup plus efficace en termes de requêtes de récompense et de calcul que les approches antérieures sans gradient. Notre code, les poids des modèles, et davantage de visualisations sont disponibles à l'adresse https://vader-vid.github.io.
Bien que la plupart des grands modèles multimodaux (LMM) actuels puissent déjà comprendre des photos de scènes naturelles et de portraits, leur compréhension des images abstraites, telles que les graphiques, les cartes ou les plans, ainsi que leurs capacités de raisonnement visuel, restent assez rudimentaires. Ils éprouvent souvent des difficultés avec des tâches quotidiennes simples, comme lire l'heure sur une horloge, comprendre un organigramme ou planifier un itinéraire à l'aide d'une carte routière. Face à cela, nous concevons une méthode d'auto-instruction multimodale, exploitant les grands modèles de langage et leurs capacités de génération de code pour synthétiser un grand nombre d'images abstraites et d'instructions de raisonnement visuel couvrant des scénarios quotidiens. Notre stratégie permet de créer facilement un benchmark multimodal comprenant 11 193 instructions pour huit scénarios visuels : graphiques, tableaux, cartes simulées, tableaux de bord, organigrammes, graphes relationnels, plans d'étage et puzzles visuels. Ce benchmark, construit avec des lignes simples et des éléments géométriques, met en lumière les lacunes des LMM les plus avancés, comme Claude-3.5-Sonnet et GPT-4o, dans la compréhension des images abstraites, le raisonnement sur les relations spatiales et l'induction d'éléments visuels. Par ailleurs, pour vérifier la qualité de nos données synthétiques, nous affinons un LMM en utilisant 62 476 instructions synthétiques de graphiques, tableaux et cartes routières. Les résultats montrent une amélioration de la compréhension des graphiques et de la navigation sur carte, et suggèrent également des bénéfices potentiels pour d'autres tâches de raisonnement visuel. Notre code est disponible à l'adresse : https://github.com/zwq2018/Multi-modal-Self-instruct.
Les modèles de langage multi-modaux de grande taille (MLLMs) ont récemment émergé comme un axe de recherche majeur dans les milieux académiques et industriels. Malgré leur compétence dans les scénarios multi-modaux généraux, leurs capacités à résoudre des problèmes mathématiques dans des contextes visuels restent insuffisamment explorées. Nous identifions trois domaines clés au sein des MLLMs nécessitant des améliorations : l'encodage visuel des diagrammes mathématiques, l'alignement diagramme-langage, et les compétences en raisonnement mathématique. Cela soulève un besoin urgent de données à grande échelle et de haute qualité, ainsi que de pipelines d'entraînement en mathématiques visuelles. Dans cet article, nous proposons MAVIS, le premier paradigme de réglage par instruction visuelle mathématique pour les MLLMs, impliquant une série de jeux de données visuels mathématiques et de MLLMs spécialisés. Ciblant les trois problèmes identifiés, MAVIS comprend trois étapes d'entraînement progressives à partir de zéro. Premièrement, nous constituons MAVIS-Caption, composé de 558K paires diagramme-légende, pour affiner un encodeur visuel spécifique aux mathématiques (CLIP-Math) via l'apprentissage contrastif, adapté pour améliorer l'encodage visuel des diagrammes. Deuxièmement, nous utilisons MAVIS-Caption pour aligner CLIP-Math avec un modèle de langage de grande taille (LLM) via une couche de projection, renforçant l'alignement vision-langage dans les domaines mathématiques. Troisièmement, nous introduisons MAVIS-Instruct, incluant 900K problèmes mathématiques visuels soigneusement collectés et annotés, qui est adopté pour finalement régler par instruction le MLLM afin de développer des compétences robustes en raisonnement mathématique. Dans MAVIS-Instruct, nous incorporons des raisonnements complets en chaîne de pensée (CoT) pour chaque problème, et minimisons la redondance textuelle, concentrant ainsi le modèle sur les éléments visuels. Les données et modèles sont disponibles à l'adresse https://github.com/ZrrSkywalker/MAVIS.
L'entraînement des grands modèles de langage (LLMs) est gourmand en mémoire en raison du grand nombre de paramètres et des états d'optimisation associés. GaLore, une méthode récente, réduit l'utilisation de la mémoire en projetant les gradients des poids dans un sous-espace de faible rang sans compromettre les performances. Cependant, GaLore repose sur des opérations de décomposition en valeurs singulières (SVD) chronophages pour identifier le sous-espace, et les mises à jour fréquentes du sous-espace entraînent un surcoût significatif en temps d'entraînement. De plus, GaLore offre des améliorations minimales en précision et efficacité par rapport à LoRA dans des scénarios de fine-tuning plus accessibles. Pour pallier ces limitations, nous introduisons Q-Galore, une approche novatrice qui réduit considérablement l'utilisation de la mémoire en combinant la quantification et la projection en faible rang, surpassant les avantages de GaLore. Notre méthode repose sur deux observations clés : (i) le sous-espace des gradients présente des propriétés variées, certaines couches convergeant tôt lors de l'entraînement tandis que d'autres sont sujettes à des changements fréquents ; (ii) les matrices de projection sont très résilientes à la quantification en faible précision. En exploitant ces insights, Q-Galore met à jour de manière adaptative le sous-espace des gradients en fonction de ses statistiques de convergence, atteignant des performances comparables tout en réduisant significativement le nombre d'opérations SVD. Nous maintenons les matrices de projection au format INT4 et les poids au format INT8, en incorporant un arrondi stochastique pour capturer les informations cumulées des gradients. Cette approche permet une trajectoire d'entraînement de haute précision en utilisant uniquement des poids de faible précision. Nous démontrons que Q-Galore atteint des performances très compétitives avec une efficacité mémoire exceptionnelle. En pré-entraînement, Q-Galore facilite l'entraînement d'un modèle LLaMA-7B à partir de zéro sur une seule carte NVIDIA RTX 4060 Ti avec seulement 16 Go de mémoire. En fine-tuning, il réduit la consommation mémoire jusqu'à 50 % par rapport à LoRA et GaLore, tout en surpassant systématiquement QLoRA à un coût mémoire équivalent.
Nous proposons une nouvelle architecture hybride Mamba-Transformer, dénommée MambaVision, spécialement conçue pour les applications de vision par ordinateur. Notre contribution principale inclut la refonte de la formulation Mamba afin d'améliorer sa capacité à modéliser efficacement les caractéristiques visuelles. De plus, nous menons une étude d'ablation approfondie sur la faisabilité d'intégrer les Vision Transformers (ViT) avec Mamba. Nos résultats démontrent que l'ajout de plusieurs blocs d'auto-attention aux couches finales de l'architecture Mamba améliore considérablement la capacité de modélisation pour capturer les dépendances spatiales à longue portée. Sur la base de ces constatations, nous introduisons une famille de modèles MambaVision avec une architecture hiérarchique pour répondre à divers critères de conception. Pour la classification d'images sur le jeu de données ImageNet-1K, les variantes du modèle MambaVision atteignent une nouvelle performance de pointe (State-of-the-Art, SOTA) en termes de précision Top-1 et de débit d'images. Dans les tâches en aval telles que la détection d'objets, la segmentation d'instances et la segmentation sémantique sur les jeux de données MS COCO et ADE20K, MambaVision surpasse les architectures de taille comparable et démontre des performances plus favorables. Code : https://github.com/NVlabs/MambaVision.
Un nombre croissant d'applications repose sur un petit ensemble de modèles de langage (LMs) propriétaires. Cette dépendance pourrait introduire de nouveaux risques de sécurité si les LMs développent des capacités d'autoreconnaissance. Inspirés par les méthodes de vérification d'identité humaine, nous proposons une nouvelle approche pour évaluer l'autoreconnaissance dans les LMs en utilisant des "questions de sécurité" générées par le modèle. Notre test peut être administré de manière externe pour surveiller les modèles de pointe, car il ne nécessite pas d'accès aux paramètres internes du modèle ou aux probabilités de sortie. Nous utilisons notre test pour examiner l'autoreconnaissance dans dix des LMs open-source et propriétaires les plus performants actuellement disponibles publiquement. Nos expériences approfondies n'ont trouvé aucune preuve empirique d'une autoreconnaissance générale ou cohérente dans aucun des LMs examinés. Au lieu de cela, nos résultats suggèrent que, face à un ensemble d'alternatives, les LMs cherchent à choisir la "meilleure" réponse, quelle que soit son origine. De plus, nous trouvons des indications que les préférences concernant les modèles produisant les meilleures réponses sont cohérentes entre les LMs. Nous découvrons également de nouvelles perspectives sur les considérations de biais de position pour les LMs dans des contextes à choix multiples.
Avec les avancées remarquables dans la génération d'images et de textes à forme ouverte, la création de contenus intercalés image-texte est devenue un domaine de plus en plus fascinant. La génération d'histoires multimodales, caractérisée par la production de textes narratifs et d'images vives de manière intercalée, s'est imposée comme une tâche précieuse et pratique avec des applications étendues. Cependant, cette tâche présente des défis significatifs, car elle nécessite la compréhension de l'interaction complexe entre les textes et les images, ainsi que la capacité à générer de longues séquences de textes et de visuels cohérents et contextuellement pertinents. Dans ce travail, nous proposons SEED-Story, une méthode novatrice qui exploite un Modèle de Langage Multimodal à Grande Échelle (MLLM) pour générer des histoires multimodales étendues. Notre modèle, basé sur la puissante capacité de compréhension du MLLM, prédit des tokens de texte ainsi que des tokens visuels, qui sont ensuite traités par un détokeniseur visuel adapté pour produire des images avec des personnages et des styles cohérents. Nous proposons en outre un mécanisme d'attention multimodale pour permettre la génération d'histoires comportant jusqu'à 25 séquences (seulement 10 pour l'entraînement) de manière hautement efficace et autoregressive. De plus, nous présentons un jeu de données à grande échelle et haute résolution nommé StoryStream pour entraîner notre modèle et évaluer quantitativement la tâche de génération d'histoires multimodales sous divers aspects.
La capacité exceptionnelle de raisonnement mathématique est l'une des caractéristiques clés qui démontrent la puissance des grands modèles de langage (LLMs). La manière de définir et d'évaluer de manière exhaustive les capacités mathématiques des LLMs, tout en reflétant l'expérience utilisateur dans des scénarios réels, est devenue une question cruciale. Les benchmarks actuels se concentrent principalement sur les capacités de résolution de problèmes, ce qui présente un risque substantiel de surajustement des modèles et ne parvient pas à représenter avec précision les véritables capacités de raisonnement mathématique. Dans cet article, nous soutenons que si un modèle comprend vraiment un problème, il devrait être robustement et facilement applicable à une diversité de tâches. Motivés par cette idée, nous introduisons MATHCHECK, une checklist bien conçue pour tester la généralisation des tâches et la robustesse du raisonnement, ainsi qu'un outil automatique pour générer des checklists de manière efficace. MATHCHECK inclut plusieurs tâches de raisonnement mathématique et types de tests de robustesse pour faciliter une évaluation complète des capacités de raisonnement mathématique et des tests de comportement. En utilisant MATHCHECK, nous développons MATHCHECK-GSM et MATHCHECK-GEO pour évaluer respectivement les capacités de raisonnement textuel mathématique et de raisonnement multimodal, servant de versions améliorées des benchmarks incluant GSM8k, GeoQA, UniGeo et Geometry3K. Nous adoptons MATHCHECK-GSM et MATHCHECK-GEO pour évaluer plus de 20 LLMs et 11 MLLMs, en évaluant leurs capacités globales de raisonnement mathématique. Nos résultats démontrent que bien que les LLMs de pointe comme GPT-4o continuent d'exceller dans diverses capacités sur la checklist, de nombreuses autres familles de modèles montrent un déclin significatif. Des expériences supplémentaires indiquent que, comparé aux benchmarks mathématiques traditionnels, MATHCHECK reflète mieux les véritables capacités mathématiques et représente l'intelligence mathématique de manière plus linéaire, soutenant ainsi notre conception. Sur notre MATHCHECK, nous pouvons facilement conduire des analyses comportementales détaillées pour approfondir l'étude des modèles.
Les modèles de langage multimodaux de grande taille (MLLMs) existants mettent de plus en plus l'accent sur la compréhension complexe de divers éléments visuels, incluant plusieurs objets, des informations textuelles et des relations spatiales. Leur développement pour une perception visuelle complète dépend de la disponibilité de jeux de données image-texte de haute qualité offrant une diversité d'éléments visuels et des descriptions d'images détaillées. Cependant, la rareté de tels jeux de données hyper-détaillés freine actuellement les progrès au sein de la communauté des MLLMs. Ce goulot d'étranglement découle des capacités perceptuelles limitées des moteurs de légendage actuels, qui ne parviennent pas à fournir des annotations complètes et précises. Pour faciliter la recherche de pointe sur la perception visuelle complète des MLLMs, nous proposons donc Perceptual Fusion, utilisant un moteur de légendage à faible coût mais hautement efficace pour générer des descriptions d'images complètes et précises. Concrètement, Perceptual Fusion intègre divers experts en perception comme a priori d'image pour fournir des informations explicites sur les éléments visuels et adopte un MLLM efficace comme pivot central pour imiter les capacités perceptuelles des MLLMs avancés. Nous sélectionnons soigneusement 1 million d'images hautement représentatives du jeu de données non-curaté LAION et générons des descriptions denses à l'aide de notre moteur, nommé DenseFusion-1M. Des expériences approfondies valident que notre moteur surpasse ses concurrents, où le jeu de données résultant améliore significativement les capacités de perception et de cognition des MLLMs existants sur divers benchmarks vision-langage, en particulier avec des images haute résolution en entrée. Le jeu de données et le code sont disponibles publiquement à l'adresse https://github.com/baaivision/DenseFusion.
Une attention significative a été portée sur l'intégration des grands modèles de langage (LLMs) avec divers outils dans le développement d'agents à usage général. Cela représente un défi pour les capacités d'utilisation d'outils des LLMs. Cependant, il existe des écarts évidents entre les évaluations existantes de l'utilisation d'outils et les scénarios réels. Les évaluations actuelles utilisent souvent des requêtes générées par l'IA, des tâches en une seule étape, des outils factices et des interactions uniquement textuelles, ne révélant pas efficacement les capacités de résolution de problèmes des agents dans le monde réel. Pour remédier à cela, nous proposons GTA, un benchmark pour les Agents d'Outils Généraux, comportant trois aspects principaux : (i) Requêtes d'utilisateurs réels : des requêtes rédigées par des humains avec des objectifs simples du monde réel mais une utilisation implicite d'outils, nécessitant que le LLM raisonne sur les outils appropriés et planifie les étapes de la solution. (ii) Outils déployés réels : une plateforme d'évaluation équipée d'outils couvrant les catégories de perception, d'opération, de logique et de créativité pour évaluer la performance réelle des agents dans l'exécution des tâches. (iii) Entrées multimodales réelles : des fichiers image authentiques, tels que des scènes spatiales, des captures d'écran de pages web, des tableaux, des extraits de code et des documents imprimés/manuscrits, utilisés comme contextes de requête pour s'aligner étroitement sur les scénarios réels. Nous concevons 229 tâches du monde réel et des chaînes d'outils exécutables pour évaluer les LLMs dominants. Nos résultats montrent que les requêtes d'utilisateurs réels sont difficiles pour les LLMs existants, avec GPT-4 complétant moins de 50 % des tâches et la plupart des LLMs atteignant moins de 25 %. Cette évaluation révèle les goulots d'étranglement dans les capacités d'utilisation d'outils des LLMs actuels dans des scénarios réels, ce qui fournit une orientation future pour l'avancement des agents d'outils à usage général. Le code et le jeu de données sont disponibles à l'adresse https://github.com/open-compass/GTA.
Nous présentons MELLE, une nouvelle approche de modélisation du langage basée sur des tokens à valeurs continues pour la synthèse vocale (TTS). MELLE génère de manière autoregressive des trames de mel-spectrogrammes continues directement à partir d'une condition textuelle, évitant ainsi le besoin de quantification vectorielle, initialement conçue pour la compression audio et qui sacrifie la fidélité par rapport aux mel-spectrogrammes. Plus précisément, (i) au lieu d'une perte d'entropie croisée, nous appliquons une perte de régression avec une fonction de perte de flux de spectrogramme proposée pour modéliser la distribution de probabilité des tokens à valeurs continues. (ii) nous avons intégré l'inférence variationnelle dans MELLE pour faciliter les mécanismes d'échantillonnage, améliorant ainsi la diversité des sorties et la robustesse du modèle. Les expériences démontrent que, comparé aux modèles de langage en deux étapes VALL-E et ses variantes, MELLE en une seule étape atténue les problèmes de robustesse en évitant les défauts inhérents à l'échantillonnage de codes discrets, obtient des performances supérieures sur plusieurs métriques et, surtout, offre un paradigme plus rationalisé. Consultez https://aka.ms/melle pour des démonstrations de notre travail.
Le développement rapide des grands modèles de langage (LLMs) a été observé ces dernières années. Basés sur ces puissants LLMs, les modèles de langage multi-modaux (MLLMs) étendent la modalité du texte à un spectre plus large de domaines, attirant une attention généralisée en raison de la diversité des scénarios d'application. Comme les LLMs et les MLLMs s'appuient sur un grand nombre de paramètres de modèles et de données pour atteindre des capacités émergentes, l'importance des données reçoit une attention et une reconnaissance de plus en plus marquées. En retraçant et en analysant les travaux récents axés sur les données pour les MLLMs, nous constatons que le développement des modèles et des données ne suit pas deux chemins séparés, mais plutôt qu'ils sont interconnectés. D'une part, des données plus vastes et de meilleure qualité contribuent à de meilleures performances des MLLMs, d'autre part, les MLLMs peuvent faciliter le développement des données. Le co-développement des données multi-modales et des MLLMs nécessite une vision claire de 1) à quel stade de développement des MLLMs des approches spécifiques centrées sur les données peuvent être employées pour améliorer quelles capacités, et 2) en utilisant quelles capacités et en jouant quels rôles les modèles peuvent contribuer aux données multi-modales. Pour promouvoir le co-développement données-modèles pour la communauté des MLLMs, nous passons en revue de manière systématique les travaux existants liés aux MLLMs sous l'angle du co-développement données-modèles. Un projet régulièrement mis à jour associé à cette étude est accessible à l'adresse suivante : https://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.md.
Les réseaux de neurones (NN) obtiennent des résultats remarquables dans diverses tâches, mais manquent de caractéristiques essentielles : interprétabilité, prise en charge des caractéristiques catégorielles et implémentations légères adaptées aux appareils périphériques. Bien que des efforts continus visent à relever ces défis, les arbres à gradient boosting (GBT) répondent naturellement à ces exigences. Par conséquent, les GBT sont devenus la méthode de prédilection pour les tâches d'apprentissage supervisé dans de nombreuses applications et compétitions réelles. Cependant, leur utilisation dans des scénarios d'apprentissage en ligne, notamment en apprentissage par renforcement (RL), a été limitée. Dans ce travail, nous comblons cette lacune en introduisant Gradient-Boosting RL (GBRL), un cadre qui étend les avantages des GBT au domaine du RL. En utilisant le cadre GBRL, nous implémentons divers algorithmes acteur-critique et comparons leurs performances à celles de leurs équivalents basés sur les NN. Inspirés par les architectures partagées dans les NN, nous introduisons une approche de partage d'arbres pour les fonctions de politique et de valeur avec des taux d'apprentissage distincts, améliorant ainsi l'efficacité de l'apprentissage sur des millions d'interactions. GBRL atteint des performances compétitives sur un large éventail de tâches, excellant dans les domaines comportant des caractéristiques structurées ou catégorielles. De plus, nous présentons une implémentation haute performance accélérée par GPU qui s'intègre de manière transparente avec les bibliothèques RL largement utilisées (disponible sur https://github.com/NVlabs/gbrl). GBRL élargit la boîte à outils des praticiens du RL, démontrant la viabilité et le potentiel des GBT dans le paradigme du RL, en particulier dans les domaines caractérisés par des caractéristiques structurées ou catégorielles.
Les modèles de langage à grande échelle ont démontré une efficacité remarquable dans la génération de données en flux continu, telles que le texte et l'audio, grâce à leur mécanisme d'attention temporelle unidirectionnelle, qui modélise les corrélations entre le token actuel et les tokens précédents. Cependant, le streaming vidéo reste beaucoup moins exploré, malgré un besoin croissant de traitement vidéo en direct. Les modèles de diffusion vidéo de pointe exploitent une attention temporelle bidirectionnelle pour modéliser les corrélations entre l'image actuelle et toutes les images environnantes (y compris les images futures), ce qui les empêche de traiter des vidéos en flux continu. Pour résoudre ce problème, nous présentons Live2Diff, la première tentative de conception d'un modèle de diffusion vidéo avec une attention temporelle unidirectionnelle, spécifiquement ciblée pour la traduction de vidéos en direct. Par rapport aux travaux précédents, notre approche garantit une cohérence et une fluidité temporelles en corrélant l'image actuelle avec ses prédécesseurs et quelques images d'échauffement initiales, sans aucune image future. De plus, nous utilisons un schéma de débruitage hautement efficace, doté d'un mécanisme de cache KV et de pipelining, pour faciliter la traduction de vidéos en flux continu à des fréquences d'images interactives. Des expériences approfondies démontrent l'efficacité du mécanisme d'attention et du pipeline proposés, surpassant les méthodes précédentes en termes de fluidité temporelle et/ou d'efficacité.
La modélisation du mouvement est cruciale dans l'interpolation d'images vidéo (VFI) basée sur le flux. Les paradigmes existants considèrent soit des combinaisons linéaires de flux bidirectionnels, soit prédisent directement des flux bilatéraux pour des timestamps donnés sans explorer des a priori de mouvement favorables, manquant ainsi la capacité de modéliser efficacement les dynamiques spatio-temporelles dans les vidéos du monde réel. Pour pallier cette limitation, dans cette étude, nous introduisons la Modélisation Implicite Généralisable du Mouvement (GIMM), une approche novatrice et efficace pour la modélisation du mouvement dans le VFI. Plus précisément, pour permettre à GIMM d'être un paradigme efficace de modélisation du mouvement, nous concevons un pipeline d'encodage du mouvement pour modéliser un latent de mouvement spatio-temporel à partir de flux bidirectionnels extraits d'estimateurs de flux pré-entraînés, représentant ainsi efficacement des a priori de mouvement spécifiques à l'entrée. Ensuite, nous prédisons implicitement des flux optiques à des timestamps arbitraires entre deux images d'entrée adjacentes via un réseau de neurones basé sur des coordonnées adaptatives, avec des coordonnées spatio-temporelles et le latent de mouvement comme entrées. Notre GIMM peut être intégré de manière fluide avec les travaux existants de VFI basés sur le flux sans modifications supplémentaires. Nous montrons que GIMM surpasse l'état de l'art actuel sur les benchmarks de VFI.
Les cartes en vue de dessus (Bird's Eye View, BEV) sont une représentation populaire pour la navigation des robots terrestres en raison de leur richesse et de leur flexibilité pour les tâches en aval. Bien que des méthodes récentes aient montré des résultats prometteurs pour la prédiction de cartes BEV à partir d'images en vue à la première personne (First-Person View, FPV), leur généralisabilité est limitée à de petites régions capturées par les jeux de données actuels basés sur les véhicules autonomes. Dans ce contexte, nous montrons qu'une approche plus évolutive vers la prédiction de cartes généralisables peut être rendue possible en utilisant deux plateformes de cartographie collaborative à grande échelle : Mapillary pour les images FPV et OpenStreetMap pour les cartes sémantiques BEV. Nous présentons Map It Anywhere (MIA), un moteur de données qui permet la curation et la modélisation fluides de données étiquetées pour la prédiction de cartes à partir de plateformes cartographiques open-source existantes. En utilisant notre moteur de données MIA, nous démontrons la facilité de collecter automatiquement un jeu de données de 1,2 million de paires d'images FPV et de cartes BEV couvrant des géographies, des paysages, des facteurs environnementaux, des modèles de caméra et des scénarios de capture divers. Nous entraînons ensuite un modèle simple, indépendant du modèle de caméra, sur ces données pour la prédiction de cartes BEV. Des évaluations approfondies utilisant des benchmarks établis et notre jeu de données montrent que les données curées par MIA permettent un pré-entraînement efficace pour la prédiction de cartes BEV généralisables, avec des performances en zero-shot dépassant largement les baselines entraînées sur des jeux de données existants de 35 %. Notre analyse met en lumière le potentiel d'utilisation de cartes publiques à grande échelle pour le développement et le test de la perception BEV généralisable, ouvrant la voie à une navigation autonome plus robuste.
Dans cet article de perspective, nous introduisons le concept d'Intelligence Artificielle Généraliste Spécialisée (SGAI ou simplement SGI) comme une étape cruciale vers l'Intelligence Artificielle Générale (AGI). Contrairement à une approche visant directement à élargir les capacités générales, la SGI se définit comme une IA qui se spécialise dans au moins une tâche, surpassant les experts humains, tout en conservant des aptitudes générales. Cette voie de fusion permet à la SGI d'atteindre rapidement des domaines à haute valeur ajoutée. Nous catégorisons la SGI en trois étapes en fonction du niveau de maîtrise des compétences professionnelles et des performances générales. De plus, nous discutons de la nécessité de la SGI pour résoudre les problèmes associés aux grands modèles de langage, tels que leur généralité insuffisante, leurs capacités spécialisées, l'incertitude dans l'innovation et les applications pratiques. Par ailleurs, nous proposons un cadre conceptuel pour le développement de la SGI qui intègre les forces des systèmes de traitement cognitif 1 et 2. Ce cadre comprend trois couches et quatre composants clés, qui se concentrent sur l'amélioration des capacités individuelles et la facilitation de l'évolution collaborative. Nous concluons en résumant les défis potentiels et en suggérant des orientations futures. Nous espérons que la SGI proposée fournira des insights pour des recherches et applications ultérieures visant à atteindre l'AGI.
Alors que le domaine de la reconstruction de scènes 3D est dominé par les NeRFs en raison de leur qualité photoréaliste, la méthode des 3D Gaussian Splatting (3DGS) a récemment émergé, offrant une qualité similaire avec des vitesses de rendu en temps réel. Cependant, ces deux méthodes excellent principalement avec des scènes 3D bien contrôlées, tandis que les données en conditions réelles - caractérisées par des occlusions, des objets dynamiques et des éclairages variables - restent difficiles à traiter. Les NeRFs peuvent s'adapter facilement à ces conditions grâce à des vecteurs d'incorporation par image, mais la 3DGS peine en raison de sa représentation explicite et de l'absence de paramètres partagés. Pour résoudre ce problème, nous introduisons WildGaussians, une nouvelle approche pour gérer les occlusions et les variations d'apparence avec la 3DGS. En exploitant des caractéristiques robustes de DINO et en intégrant un module de modélisation de l'apparence au sein de la 3DGS, notre méthode obtient des résultats de pointe. Nous démontrons que WildGaussians atteint la vitesse de rendu en temps réel de la 3DGS tout en surpassant à la fois les bases de référence de la 3DGS et des NeRFs dans le traitement des données en conditions réelles, le tout dans un cadre architectural simple.
Nous proposons OmniNOCS, un jeu de données monoscopique à grande échelle comprenant des cartes 3D d’espace de coordonnées normalisées d’objets (NOCS), des masques d’objets et des annotations de boîtes englobantes 3D pour des scènes intérieures et extérieures. OmniNOCS contient 20 fois plus de classes d’objets et 200 fois plus d’instances que les jeux de données NOCS existants (NOCS-Real275, Wild6D). Nous utilisons OmniNOCS pour entraîner un nouveau modèle de prédiction NOCS monoscopique basé sur des transformeurs (NOCSformer), capable de prédire avec précision les NOCS, les masques d’instances et les poses à partir de détections 2D d’objets couvrant diverses classes. Il s’agit du premier modèle NOCS capable de généraliser à un large éventail de classes lorsqu’il est guidé par des boîtes englobantes 2D. Nous évaluons notre modèle sur la tâche de prédiction de boîtes englobantes orientées 3D, où il obtient des résultats comparables aux méthodes de détection 3D de pointe telles que Cube R-CNN. Contrairement à d’autres méthodes de détection 3D, notre modèle fournit également une segmentation et une forme 3D d’objets détaillées et précises. Nous proposons un nouveau benchmark pour la tâche de prédiction NOCS basé sur OmniNOCS, que nous espérons servir de référence utile pour les travaux futurs dans ce domaine. Notre jeu de données et notre code seront disponibles sur le site du projet : https://omninocs.github.io.
La tâche d'évaluation esthétique d'images personnalisée vise à adapter les modèles de prédiction de scores esthétiques pour correspondre aux préférences individuelles avec seulement quelques entrées fournies par l'utilisateur. Cependant, l'évolutivité et les capacités de généralisation des approches actuelles sont considérablement limitées par leur dépendance à une base de données coûteuse et soigneusement sélectionnée. Pour surmonter ce défi d'évolutivité de longue date, nous présentons une approche unique qui exploite des bases de données facilement accessibles pour l'évaluation esthétique générale des images et l'évaluation de la qualité des images. Plus précisément, nous considérons chaque base de données comme une tâche distincte de régression de scores d'images présentant des degrés variables de potentiel de personnalisation. En déterminant des combinaisons optimales de vecteurs de tâches, connus pour représenter des traits spécifiques de chaque base de données, nous créons avec succès des modèles personnalisés pour les individus. Cette approche d'intégration de multiples modèles nous permet d'exploiter une quantité substantielle de données. Nos expériences approfondies démontrent l'efficacité de notre approche pour généraliser à des domaines précédemment inexplorés - un défi que les approches précédentes ont eu du mal à relever - la rendant hautement applicable à des scénarios réels. Notre approche novatrice fait progresser de manière significative le domaine en offrant des solutions évolutives pour l'évaluation esthétique personnalisée et en établissant des normes élevées pour les recherches futures. https://yeolj00.github.io/personal-projects/personalized-aesthetics/