Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons le Byte Latent Transformer (BLT), une nouvelle architecture de LLM au niveau des octets qui, pour la première fois, égale les performances des LLM basés sur la tokenisation à grande échelle avec des améliorations significatives en termes d'efficacité et de robustesse de l'inférence. Le BLT code les octets en patchs de tailles dynamiques, qui servent d'unités principales de calcul. Les patchs sont segmentés en fonction de l'entropie de l'octet suivant, allouant plus de puissance de calcul et de capacité de modèle là où la complexité des données augmente. Nous présentons la première étude de mise à l'échelle contrôlée par FLOP des modèles au niveau des octets jusqu'à 8 milliards de paramètres et 4 billions d'octets d'entraînement. Nos résultats démontrent la faisabilité de mettre à l'échelle des modèles entraînés sur des octets bruts sans vocabulaire fixe. L'efficacité de l'entraînement et de l'inférence s'améliore en sélectionnant dynamiquement des patchs longs lorsque les données sont prévisibles, avec des améliorations qualitatives en termes de raisonnement et de généralisation à longue traîne. Dans l'ensemble, pour des coûts d'inférence fixes, le BLT montre une mise à l'échelle significativement meilleure que les modèles basés sur la tokenisation, en faisant croître simultanément la taille des patchs et du modèle.
Les grands modèles de langage (LLM) présentent des capacités génératives remarquables mais souffrent souvent d'hallucinations. La génération augmentée par récupération (RAG) offre une solution efficace en incorporant des connaissances externes, mais les méthodes existantes rencontrent encore plusieurs limitations : coûts supplémentaires de déploiement de récupérateurs séparés, jetons d'entrée redondants issus de fragments de texte récupérés, et le manque d'optimisation conjointe de la récupération et de la génération. Pour résoudre ces problèmes, nous proposons RetroLLM, un cadre unifié qui intègre la récupération et la génération dans un processus unique et cohérent, permettant aux LLM de générer directement des preuves détaillées à partir du corpus avec un décodage contraint. De plus, pour atténuer les faux élagages dans le processus de génération de preuves contraintes, nous introduisons (1) des contraintes hiérarchiques de l'index FM, qui génèrent des indices contraints par le corpus pour identifier un sous-ensemble de documents pertinents avant la génération de preuves, réduisant ainsi l'espace de décodage non pertinent ; et (2) une stratégie de décodage contrainte tournée vers l'avenir, qui prend en compte la pertinence des séquences futures pour améliorer la précision des preuves. Des expériences approfondies sur cinq ensembles de données de questions-réponses en domaine ouvert démontrent les performances supérieures de RetroLLM tant pour les tâches en domaine que hors domaine. Le code est disponible sur https://github.com/sunnynexus/RetroLLM.
Les récents progrès dans les modèles génératifs visuels ont permis une génération d'images et de vidéos de haute qualité, ouvrant la voie à diverses applications. Cependant, l'évaluation de ces modèles exige souvent l'échantillonnage de centaines voire de milliers d'images ou de vidéos, rendant le processus coûteux en termes de calcul, surtout pour les modèles basés sur la diffusion qui ont un échantillonnage intrinsèquement lent. De plus, les méthodes d'évaluation existantes reposent sur des pipelines rigides qui négligent les besoins spécifiques des utilisateurs et fournissent des résultats numériques sans explications claires. En revanche, les humains peuvent rapidement se faire une idée des capacités d'un modèle en observant seulement quelques échantillons. Pour reproduire cela, nous proposons le cadre de l'Agent d'Évaluation, qui utilise des stratégies semblables à celles des humains pour des évaluations efficaces, dynamiques et multi-tours en n'utilisant qu'un petit nombre d'échantillons par tour, tout en offrant des analyses détaillées et adaptées à l'utilisateur. Il offre quatre avantages clés : 1) efficacité, 2) évaluation adaptable aux besoins divers des utilisateurs, 3) explicabilité au-delà de simples scores numériques, et 4) extensibilité à travers différents modèles et outils. Les expériences montrent que l'Agent d'Évaluation réduit le temps d'évaluation à 10 % des méthodes traditionnelles tout en fournissant des résultats comparables. Le cadre de l'Agent d'Évaluation est entièrement open source pour faire progresser la recherche dans les modèles génératifs visuels et leur évaluation efficace.
L'édition d'images a considérablement progressé avec le développement de modèles de diffusion utilisant à la fois des méthodes basées sur l'inversion et des méthodes basées sur des instructions. Cependant, les approches actuelles basées sur l'inversion rencontrent des difficultés avec les modifications importantes (par exemple, l'ajout ou la suppression d'objets) en raison de la nature structurée du bruit d'inversion, ce qui entrave des changements substantiels. Pendant ce temps, les méthodes basées sur des instructions contraignent souvent les utilisateurs à des opérations de boîte noire, limitant l'interaction directe pour spécifier les régions d'édition et l'intensité. Pour remédier à ces limitations, nous proposons BrushEdit, un nouveau paradigme d'édition d'images guidé par des instructions basé sur l'inpainting, qui exploite des modèles de langage multimodaux (MLLMs) et des modèles d'inpainting d'images pour permettre une édition autonome, conviviale et interactive guidée par des instructions en forme libre. Plus précisément, nous concevons un système permettant l'édition guidée par des instructions en forme libre en intégrant des MLLMs et un modèle d'inpainting d'images à double branche dans un cadre coopératif d'agent pour effectuer la classification des catégories d'édition, l'identification des principaux objets, l'acquisition de masques et l'inpainting des zones d'édition. Des expériences approfondies montrent que notre cadre combine efficacement les MLLMs et les modèles d'inpainting, atteignant des performances supérieures sur sept mesures, y compris la préservation de la région du masque et la cohérence de l'effet d'édition.
L'optimisation des instructions a été largement utilisée pour libérer le plein potentiel des grands modèles de langage. Notamment, des instructions complexes et diverses revêtent une importance significative car elles peuvent aligner efficacement les modèles avec diverses tâches en aval. Cependant, les approches actuelles de construction d'instructions à grande échelle favorisent principalement des modèles puissants tels que GPT-4 ou ceux avec plus de 70 milliards de paramètres, sous la présomption empirique que de tels modèles de langage plus grands possèdent intrinsèquement des capacités améliorées. Dans cette étude, nous remettons en question cette hypothèse prédominante et menons une exploration approfondie du potentiel des plus petits modèles de langage dans le contexte de l'évolution des instructions. Des expériences approfondies menées dans trois scénarios d'évolution des instructions révèlent que les plus petits modèles de langage peuvent synthétiser des instructions plus efficaces que les plus grands modèles de langage. Une analyse supplémentaire démontre que les plus petits modèles de langage possèdent un espace de sortie plus large pendant l'évolution des instructions, ce qui entraîne des variantes plus complexes et diverses. Nous observons également que les métriques existantes ne se concentrent pas sur l'impact des instructions. Ainsi, nous proposons l'Indice de Fréquence Documentaire (IFD) Sensible à la Complexité des Instructions (IC-IFD), qui introduit la complexité des instructions dans le score IFD d'origine pour évaluer plus précisément l'efficacité des données d'instructions. Notre code source est disponible sur : https://github.com/HypherX/Evolution-Analysis.
La colorisation automatique de séquences d'images en noir et blanc tout en préservant l'identité des personnages et des objets est une tâche complexe avec une demande significative sur le marché, notamment dans la colorisation de séries animées ou de bandes dessinées. Malgré les progrès réalisés dans la colorisation visuelle à l'aide de modèles génératifs à grande échelle tels que les modèles de diffusion, des défis liés à la contrôlabilité et à la cohérence de l'identité persistent, rendant les solutions actuelles inadaptées à une application industrielle. Pour y remédier, nous proposons ColorFlow, un cadre basé sur la diffusion en trois étapes conçu pour la colorisation de séquences d'images dans des applications industrielles. Contrairement aux méthodes existantes qui nécessitent un peaufinage par ID ou une extraction explicite d'incorporation d'ID, nous proposons un nouveau pipeline de colorisation augmenté par recherche robuste et généralisable pour coloriser des images avec des références colorées pertinentes. Notre pipeline présente également une conception à double branche : une branche pour l'extraction de l'identité colorée et l'autre pour la colorisation, exploitant les points forts des modèles de diffusion. Nous utilisons le mécanisme d'auto-attention dans les modèles de diffusion pour un apprentissage fort en contexte et une correspondance d'identité colorée. Pour évaluer notre modèle, nous introduisons ColorFlow-Bench, une référence complète pour la colorisation basée sur des références. Les résultats montrent que ColorFlow surpasse les modèles existants selon plusieurs critères, établissant une nouvelle norme en matière de colorisation d'images séquentielles et bénéficiant potentiellement à l'industrie artistique. Nous mettons nos codes et modèles à disposition sur notre page de projet : https://zhuang2002.github.io/ColorFlow/.
Nous introduisons la Fusion Causale en tant que contrepartie autorégressive (AR) des modèles de Diffusion. Il s'agit d'un cadre de prévision du prochain jeton(s) qui est convivial à la fois pour les modalités discrètes et continues et compatible avec les modèles existants de prédiction du prochain jeton tels que LLaMA et GPT. Alors que des travaux récents tentent de combiner la diffusion avec des modèles AR, nous montrons qu'introduire une factorisation séquentielle à un modèle de diffusion peut considérablement améliorer ses performances et permettre une transition fluide entre les modes de génération AR et diffusion. Par conséquent, nous proposons CausalFusion - un transformeur à décodeur uniquement qui factorise de manière double les données à travers les jetons séquentiels et les niveaux de bruit de diffusion, conduisant à des résultats de pointe sur le banc d'essai de génération ImageNet tout en bénéficiant de l'avantage AR de générer un nombre arbitraire de jetons pour un raisonnement en contexte. Nous démontrons en outre les capacités multimodales de CausalFusion à travers un modèle conjoint de génération d'images et de légendage, et mettons en valeur la capacité de CausalFusion pour des manipulations d'images en contexte sans pré-entraînement. Nous espérons que ce travail pourrait offrir à la communauté un point de vue novateur sur la formation de modèles multimodaux sur des données discrètes et continues.
La capacité à suivre les instructions est une compétence fondamentale des modèles de langage, exigeant que le modèle reconnaisse même les exigences les plus subtiles dans les instructions et les reflète avec précision dans sa sortie. Une telle capacité est bien adaptée à l'apprentissage des préférences et est souvent optimisée par celui-ci. Cependant, les méthodes existantes échantillonnent souvent directement plusieurs réponses indépendantes du modèle lors de la création de paires de préférences. Une telle pratique peut introduire des variations de contenu non pertinentes pour savoir si l'instruction est suivie précisément (par exemple, différentes expressions sur le même sémantique), interférant avec l'objectif d'enseigner aux modèles à reconnaître les différences clés qui conduisent à une amélioration du suivi des instructions. Dans ce contexte, nous introduisons SPaR, un cadre d'auto-jeu intégrant l'autoraffinement par recherche arborescente pour produire des paires de préférences valides et comparables, libres de distractions. En jouant contre lui-même, un modèle de langage à très grande échelle (LLM) utilise une stratégie de recherche arborescente pour affiner ses réponses précédentes par rapport à l'instruction tout en minimisant les variations inutiles. Nos expériences montrent qu'un modèle LLaMA3-8B, formé sur trois itérations guidées par SPaR, dépasse GPT-4-Turbo sur le banc d'essai IFEval sans perdre ses capacités générales. De plus, SPaR démontre une évolutivité et une transférabilité prometteuses, améliorant considérablement des modèles tels que GLM-4-9B et LLaMA3-70B. Nous identifions également comment l'extension de l'inférence dans la recherche arborescente affecterait les performances du modèle. Notre code et nos données sont disponibles publiquement sur https://github.com/thu-coai/SPaR.
Cet article aborde une question complexe : comment pouvons-nous créer efficacement des scènes 3D de haute qualité et à large spectre à partir d'une seule image arbitraire ? Les méthodes existantes sont confrontées à plusieurs contraintes, telles que le besoin de données multi-vues, une optimisation par scène chronophage, une faible qualité visuelle des arrière-plans et des reconstructions déformées dans les zones non vues. Nous proposons un nouveau processus pour surmonter ces limitations. Plus précisément, nous introduisons un modèle de reconstruction à grande échelle qui utilise des latents d'un modèle de diffusion vidéo pour prédire des étalements gaussiens 3D pour les scènes de manière feed-forward. Le modèle de diffusion vidéo est conçu pour créer des vidéos suivant précisément des trajectoires de caméra spécifiées, lui permettant de générer des latents vidéo compressés contenant des informations multi-vues tout en maintenant une cohérence 3D. Nous entraînons le modèle de reconstruction 3D à opérer dans l'espace latent vidéo avec une stratégie d'entraînement progressive, permettant la génération efficace de scènes 3D de haute qualité, à large spectre et génériques. Des évaluations approfondies sur divers ensembles de données démontrent que notre modèle surpasse significativement les méthodes existantes pour la génération de scènes 3D à partir d'une seule vue, notamment avec des images hors domaine. Pour la première fois, nous démontrons qu'un modèle de reconstruction 3D peut être efficacement construit sur l'espace latent d'un modèle de diffusion pour réaliser une génération efficace de scènes 3D.
Estimer les propriétés physiques des données visuelles est une tâche cruciale en vision par ordinateur, en infographie et en robotique, sous-tendant des applications telles que la réalité augmentée, la simulation physique et la préhension robotique. Cependant, ce domaine reste peu exploré en raison des ambiguïtés inhérentes à l'estimation des propriétés physiques. Pour relever ces défis, nous introduisons GaussianProperty, un cadre sans entraînement qui attribue des propriétés physiques de matériaux à des Gaussiennes en 3D. Plus précisément, nous intégrons la capacité de segmentation de SAM avec la capacité de reconnaissance de GPT-4V(ision) pour formuler un module de raisonnement sur les propriétés physiques global-local pour les images en 2D. Ensuite, nous projetons les propriétés physiques à partir d'images en 2D multi-vues sur des Gaussiennes en 3D en utilisant une stratégie de vote. Nous démontrons que les Gaussiennes en 3D avec des annotations de propriétés physiques permettent des applications dans la simulation dynamique basée sur la physique et la préhension robotique. Pour la simulation dynamique basée sur la physique, nous exploitons la Méthode des Points Matériels (MPM) pour une simulation dynamique réaliste. Pour la préhension robotique, nous développons une stratégie de prédiction de la force de préhension qui estime une plage de forces sûre requise pour la préhension d'objets en fonction des propriétés physiques estimées. Des expériences approfondies sur la segmentation des matériaux, la simulation dynamique basée sur la physique et la préhension robotique valident l'efficacité de notre méthode proposée, mettant en évidence son rôle crucial dans la compréhension des propriétés physiques à partir de données visuelles. Une démonstration en ligne, du code, plus de cas et des ensembles de données annotés sont disponibles sur https://Gaussian-Property.github.io.
Capturer des informations géométriques et matérielles à partir d'images reste un défi fondamental en vision par ordinateur et en infographie. Les méthodes traditionnelles basées sur l'optimisation nécessitent souvent des heures de calcul pour reconstruire la géométrie, les propriétés matérielles et l'éclairage environnemental à partir d'entrées multi-vues denses, tout en luttant encore avec les ambiguïtés inhérentes entre l'éclairage et le matériau. D'autre part, les approches basées sur l'apprentissage exploitent des informations matérielles riches à partir de jeux de données d'objets 3D existants mais rencontrent des difficultés à maintenir une cohérence multi-vues. Dans cet article, nous présentons IDArb, un modèle basé sur la diffusion conçu pour effectuer une décomposition intrinsèque sur un nombre arbitraire d'images sous des illuminations variables. Notre méthode permet une estimation précise et cohérente multi-vues des normales de surface et des propriétés matérielles. Cela est rendu possible grâce à un module d'attention croisée vue par vue et domaine par domaine novateur, ainsi qu'à une stratégie d'entraînement augmentée par l'éclairage et adaptée à la vue. De plus, nous introduisons ARB-Objaverse, un nouveau jeu de données fournissant des données intrinsèques multi-vues à grande échelle et des rendus sous des conditions d'éclairage diverses, soutenant ainsi un entraînement robuste. Des expériences approfondies démontrent qu'IDArb surpasse qualitativement et quantitativement les méthodes de pointe. De plus, notre approche facilite toute une gamme de tâches ultérieures, y compris le reéclairage d'une seule image, la stéréophotométrie et la reconstruction 3D, mettant en lumière ses larges applications dans la création de contenu 3D réaliste.
L'échange de visages vidéo devient de plus en plus populaire dans diverses applications, cependant les méthodes existantes se concentrent principalement sur les images statiques et rencontrent des difficultés avec l'échange de visages vidéo en raison de la cohérence temporelle et de scénarios complexes. Dans cet article, nous présentons le premier cadre basé sur la diffusion spécifiquement conçu pour l'échange de visages vidéo. Notre approche introduit un nouveau cadre d'entraînement hybride image-vidéo qui tire parti à la fois des données abondantes d'images statiques et des séquences vidéo temporelles, abordant les limitations inhérentes de l'entraînement uniquement sur vidéo. Le cadre intègre un modèle de diffusion spécialement conçu couplé à un VidFaceVAE qui traite efficacement les deux types de données pour mieux maintenir la cohérence temporelle des vidéos générées. Pour démêler davantage les caractéristiques d'identité et de pose, nous construisons le jeu de données Triplet de Démêlage Attribut-Identité (AIDT), où chaque triplet comporte trois images de visage, avec deux images partageant la même pose et deux partageant la même identité. Enrichi d'une augmentation complète des occlusions, ce jeu de données améliore également la robustesse contre les occlusions. De plus, nous intégrons des techniques de reconstruction 3D en tant que conditionnement d'entrée à notre réseau pour gérer les grandes variations de pose. Des expériences approfondies démontrent que notre cadre atteint des performances supérieures en préservation de l'identité, en cohérence temporelle et en qualité visuelle par rapport aux méthodes existantes, tout en nécessitant moins d'étapes d'inférence. Notre approche atténue efficacement les principaux défis de l'échange de visages vidéo, notamment le scintillement temporel, la préservation de l'identité et la robustesse face aux occlusions et aux variations de pose.
Les grands modèles de langage (LLM) ont montré des performances exceptionnelles dans une variété de tâches de traitement automatique du langage naturel. Cependant, leurs tailles substantielles posent des défis considérables, notamment en termes d'exigences computationnelles et de vitesse d'inférence, en raison de leur complexité quadratique. Dans ce travail, nous avons identifié un schéma clé : certains jetons spéciaux apparemment sans signification (c'est-à-dire, des séparateurs) contribuent de manière disproportionnée aux scores d'attention par rapport aux jetons sémantiquement significatifs. Cette observation suggère que les informations des segments entre ces jetons séparateurs peuvent être efficacement condensées dans les jetons séparateurs eux-mêmes sans perte significative d'informations. Guidés par cette intuition, nous introduisons SepLLM, un cadre plug-and-play qui accélère l'inférence en compressant ces segments et en éliminant les jetons redondants. De plus, nous mettons en œuvre des noyaux efficaces pour l'accélération de l'entraînement. Les résultats expérimentaux dans des configurations sans entraînement, avec entraînement à partir de zéro et en post-entraînement démontrent l'efficacité de SepLLM. Notamment, en utilisant l'épine dorsale Llama-3-8B, SepLLM obtient une réduction de plus de 50 % du cache KV sur le banc d'essai GSM8K-CoT tout en maintenant des performances comparables. De plus, dans des configurations de flux, SepLLM traite efficacement des séquences allant jusqu'à 4 millions de jetons ou plus tout en conservant des capacités de modélisation linguistique cohérentes.
Alors que la coiffure indique une personnalité distincte, les méthodes existantes de génération d'avatars échouent à modéliser des cheveux pratiques en raison de la représentation générale ou emmêlée. Nous proposons StrandHead, une nouvelle méthode de génération d'avatars de tête 3D à partir de texte capable de générer des cheveux 3D démêlés avec une représentation en mèches. Sans utiliser de données 3D pour la supervision, nous démontrons que des mèches de cheveux réalistes peuvent être générées à partir de consignes en distillant des modèles de diffusion générative 2D. À cette fin, nous proposons une série de prédictions fiables sur l'initialisation de la forme, les primitives géométriques et les caractéristiques statistiques de la coiffure, conduisant à une optimisation stable et des performances alignées sur le texte. Des expériences approfondies montrent que StrandHead atteint l'état de l'art en termes de réalisme et de diversité de têtes 3D et de cheveux générés. Les cheveux 3D générés peuvent également être facilement implémentés dans le moteur Unreal pour une simulation physique et d'autres applications. Le code sera disponible sur https://xiaokunsun.github.io/StrandHead.github.io.
Les grands modèles de langage (LLM) marquent un changement clé dans le traitement automatique du langage naturel (TALN), ayant fait progresser la génération de texte, la traduction et le raisonnement spécifique au domaine. Les modèles propriétaires comme GPT-4, alimentés par des ensembles de données propriétaires et des ressources computationnelles étendues, se distinguent par leurs performances de pointe aujourd'hui. Cependant, ils sont critiqués pour leur nature de "boîte noire" et pour limiter l'accessibilité d'une manière qui entrave la reproductibilité et le développement équitable de l'IA. En revanche, les initiatives open-source comme LLaMA et BLOOM donnent la priorité à la démocratisation à travers un développement piloté par la communauté et une efficacité computationnelle. Ces modèles ont considérablement réduit les écarts de performance, notamment en termes de diversité linguistique et d'applications spécifiques au domaine, tout en fournissant des outils accessibles aux chercheurs et développeurs du monde entier. Notamment, les deux paradigmes s'appuient sur des innovations architecturales fondamentales, telles que le cadre Transformer de Vaswani et al. (2017). Les modèles propriétaires excellent en se développant efficacement, tandis que les modèles open-source s'adaptent aux applications du monde réel dans des langues et des domaines sous-représentés. Des techniques comme l'Adaptation à Faible Rang (LoRA) et des ensembles de données d'ajustement d'instructions permettent aux modèles open-source d'obtenir des résultats compétitifs malgré des ressources limitées. En effet, la tension entre les approches propriétaires et open-source souligne un débat plus large sur la transparence par rapport au contrôle propriétaire en IA. Les considérations éthiques mettent en lumière cette division. Les systèmes propriétaires restreignent l'examen externe, tandis que les modèles open-source favorisent la reproductibilité et la collaboration mais manquent de cadres de documentation d'audit normalisés pour atténuer les biais. Les approches hybrides qui tirent parti des forces des deux paradigmes sont susceptibles de façonner l'avenir de l'innovation des LLM, garantissant l'accessibilité, des performances techniques compétitives et un déploiement éthique.
Les méthodes traditionnelles de contrôle robotique basées sur l'apprentissage par renforcement sont souvent spécifiques à la tâche et échouent à généraliser à travers des environnements divers ou des objets et instructions inconnus. Les Modèles Visuels de Langage (VLM) démontrent une forte compréhension de scène et des capacités de planification, mais ils manquent de la capacité à générer des politiques actionnables adaptées à des embodiments robotiques spécifiques. Pour remédier à cela, les modèles Visual-Language-Action (VLA) ont émergé, mais ils rencontrent des défis en raisonnement spatial à long terme et en planification de tâches ancrées. Dans ce travail, nous proposons le Modèle d'Action Multimodal Incarné avec Chaîne de Pensée Ancrée et Raisonnement Spatial Anticipatif, Emma-X. Emma-X tire parti de notre ensemble de données hiérarchique construit basé sur BridgeV2, contenant 60 000 trajectoires de manipulation de robots auto-annotées avec un raisonnement de tâche ancré et un guidage spatial. De plus, nous introduisons une stratégie de segmentation de trajectoire basée sur les états de la pince et les trajectoires de mouvement, qui peut aider à atténuer l'hallucination dans la génération de raisonnement de sous-tâche ancrée. Les résultats expérimentaux démontrent qu'Emma-X atteint des performances supérieures aux bases de référence compétitives, en particulier dans des tâches robotiques du monde réel nécessitant un raisonnement spatial.
Afin de rendre le modèle de base plus efficace et performant, notre idée est de combiner la transformation de séquence et la transformation d'état. Tout d'abord, nous démontrons la disponibilité de l'incorporation de position rotative dans l'algorithme de dualité de l'espace d'état, ce qui réduit la perplexité de l'auto-attention causale quadratique hybride et de la dualité de l'espace d'état de plus de 4 %, afin de garantir que la combinaison de la transformation de séquence unifie le codage de position. Ensuite, nous proposons une attention de masque dynamique, qui maintient une précision de 100 % dans la tâche plus difficile de rappel associatif multi-requêtes, améliorant de plus de 150 % par rapport à l'auto-attention causale quadratique et à la dualité de l'espace d'état, pour garantir que la transformation de séquence combinée filtre sélectivement les informations pertinentes. Troisièmement, nous concevons un mélange d'experts inter-domaines, qui accélère la vitesse de calcul de la récupération d'experts avec plus de 1024 experts de 8 à 10 fois par rapport au mélange d'experts, pour garantir que la transformation d'état combinée récupère rapidement le mélange. Enfin, nous résumons ces algorithmes matriciels qui peuvent former le modèle de base : les Matrices Merveilleuses, qui peuvent être un concurrent aux architectures de modèle populaires.
La demande croissante d'applications immersives de RA/RV et d'intelligence spatiale a renforcé la nécessité de générer des vidéos panoramiques de haute qualité à 360 degrés au niveau de la scène. Cependant, la plupart des modèles de diffusion vidéo sont limités en résolution et en ratio d'aspect, ce qui restreint leur applicabilité à la synthèse de contenu dynamique au niveau de la scène. Dans ce travail, nous proposons le DynamicScaler, qui répond à ces défis en permettant une synthèse de scène dynamique spatialement évolutive et panoramique qui préserve la cohérence à travers des scènes panoramiques de taille arbitraire. Plus précisément, nous introduisons un Débruiteur à Décalage d'Offset, facilitant un débruitage efficace, synchrone et cohérent des scènes dynamiques panoramiques via un modèle de diffusion avec résolution fixe à travers une Fenêtre rotative sans couture, assurant des transitions de frontières sans heurt et une cohérence sur l'ensemble de l'espace panoramique, en tenant compte des résolutions et ratios d'aspect variables. De plus, nous utilisons un mécanisme de Guidage de Mouvement Global pour garantir à la fois la fidélité des détails locaux et la continuité du mouvement global. Des expériences approfondies démontrent que notre méthode atteint une qualité de contenu et de mouvement supérieure dans la génération de vidéos panoramiques au niveau de la scène, offrant une solution sans entraînement, efficace et évolutive pour la création de scènes dynamiques immersives avec une consommation constante de VRAM indépendamment de la résolution de la vidéo de sortie. Notre page de projet est disponible sur https://dynamic-scaler.pages.dev/.
La synthèse de nouvelles vues à partir de vidéos monoclaires en conditions réelles est un défi en raison de la dynamique de la scène et du manque de repères multi-vues. Pour y remédier, nous proposons SplineGS, un cadre dynamique de Splatting Gaussien 3D (3DGS) sans COLMAP pour une reconstruction de haute qualité et un rendu rapide à partir de vidéos monoclaires. À son cœur se trouve une nouvelle méthode de Splines adaptatives au mouvement (MAS), qui représente des trajectoires gaussiennes 3D dynamiques continues en utilisant des splines cubiques d'Hermite avec un petit nombre de points de contrôle. Pour le MAS, nous introduisons une méthode d'Élagage de Points de Contrôle Adaptatif au Mouvement (MACP) pour modéliser la déformation de chaque gaussienne 3D dynamique à travers des mouvements variables, en élaguant progressivement les points de contrôle tout en maintenant l'intégrité de la modélisation dynamique. De plus, nous présentons une stratégie d'optimisation conjointe pour l'estimation des paramètres de la caméra et des attributs gaussiens 3D, en exploitant la cohérence photométrique et géométrique. Cela élimine le besoin de prétraitement de Structure à partir du Mouvement et renforce la robustesse de SplineGS dans des conditions réelles. Les expériences montrent que SplineGS surpasse significativement les méthodes de pointe en termes de qualité de synthèse de nouvelles vues pour des scènes dynamiques à partir de vidéos monoclaires, atteignant une vitesse de rendu des milliers de fois plus rapide.
La reconversion des modèles de diffusion pré-entraînés s'est avérée efficace pour la synthèse de vues nouvelles (NVS). Cependant, ces méthodes sont principalement limitées à un seul objet ; l'application directe de ces méthodes à des scénarios compositionnels multi-objets donne des résultats inférieurs, notamment un placement incorrect des objets et une forme et une apparence incohérentes sous des vues nouvelles. Comment améliorer et évaluer systématiquement la cohérence inter-vues de tels modèles reste peu exploré. Pour résoudre ce problème, nous proposons MOVIS pour améliorer la conscience structurelle du modèle de diffusion conditionné par la vue pour la NVS multi-objets en termes d'entrées du modèle, de tâches auxiliaires et de stratégie d'entraînement. Tout d'abord, nous injectons des caractéristiques conscientes de la structure, y compris la profondeur et le masque d'objet, dans le U-Net de débruitage pour améliorer la compréhension du modèle des instances d'objets et de leurs relations spatiales. Ensuite, nous introduisons une tâche auxiliaire exigeant que le modèle prédise simultanément des masques d'objets en vue nouvelle, améliorant ainsi la capacité du modèle à différencier et placer les objets. Enfin, nous menons une analyse approfondie du processus d'échantillonnage de la diffusion et concevons soigneusement un planificateur d'échantillonnage guidé par la structure pendant l'entraînement, qui équilibre l'apprentissage du placement global des objets et de la récupération des détails fins. Pour évaluer systématiquement la plausibilité des images synthétisées, nous proposons d'évaluer la cohérence inter-vues et le placement des objets en vue nouvelle aux côtés des métriques existantes de la NVS au niveau de l'image. Des expériences approfondies sur des ensembles de données synthétiques et réalistes difficiles démontrent que notre méthode présente de fortes capacités de généralisation et produit une synthèse de vues nouvelles cohérente, mettant en évidence son potentiel pour guider les futures tâches de NVS multi-objets conscientes de la 3D.
Les algorithmes d'apprentissage par renforcement (RL) visent à équilibrer l'exploitation de la meilleure stratégie actuelle avec l'exploration de nouvelles options pouvant conduire à des récompenses plus élevées. La plupart des algorithmes RL courants utilisent une exploration non dirigée, c'est-à-dire qu'ils sélectionnent des séquences aléatoires d'actions. L'exploration peut également être dirigée en utilisant des récompenses intrinsèques, telles que la curiosité ou l'incertitude épistémique du modèle. Cependant, équilibrer efficacement les récompenses de la tâche et les récompenses intrinsèques est difficile et souvent dépendant de la tâche. Dans ce travail, nous introduisons un cadre, MaxInfoRL, pour équilibrer l'exploration intrinsèque et extrinsèque. MaxInfoRL oriente l'exploration vers des transitions informatives, en maximisant les récompenses intrinsèques telles que le gain d'information sur la tâche sous-jacente. Lorsqu'il est combiné à l'exploration de Boltzmann, cette approche échange naturellement la maximisation de la fonction de valeur avec celle de l'entropie sur les états, les récompenses et les actions. Nous montrons que notre approche atteint un regret sous-linéaire dans le cadre simplifié des bandits manchots multi-bras. Nous appliquons ensuite cette formulation générale à une variété de méthodes RL sans modèle hors politique pour des espaces d'états-actions continus, produisant des algorithmes novateurs qui atteignent des performances supérieures sur des problèmes d'exploration difficiles et des scénarios complexes tels que des tâches de contrôle visuel.
Exploiter la promesse des récents progrès en matière d'apprentissage par imitation pour la manipulation mobile nécessitera la collecte d'un grand nombre de démonstrations guidées par des humains. Cet article propose une conception open source pour un manipulateur mobile peu coûteux, robuste et flexible capable de supporter des bras arbitraires, permettant ainsi une large gamme de tâches de manipulation mobile domestique dans le monde réel. De manière cruciale, notre conception utilise des roulettes motorisées pour permettre à la base mobile d'être entièrement holonomique, capable de contrôler tous les degrés de liberté planaires de manière indépendante et simultanée. Cette caractéristique rend la base plus manœuvrable et simplifie de nombreuses tâches de manipulation mobile, éliminant les contraintes cinématiques qui créent des mouvements complexes et chronophages dans les bases non holonomes. Nous équipons notre robot d'une interface intuitive de téléopération de téléphone mobile pour faciliter l'acquisition de données pour l'apprentissage par imitation. Dans nos expériences, nous utilisons cette interface pour collecter des données et montrer que les politiques apprises qui en résultent peuvent exécuter avec succès une variété de tâches courantes de manipulation mobile domestique.
Malgré leur compétence dans les tâches générales, les Modèles de Langage Multimodaux à Grande Échelle (MLLM) rencontrent des difficultés dans la Résolution Automatique de Problèmes de Géométrie (GPS), qui exige la compréhension des diagrammes, l'interprétation des symboles et la réalisation de raisonnements complexes. Cette limitation découle de leur pré-entraînement sur des images naturelles et des textes, ainsi que du manque de vérification automatisée dans le processus de résolution de problèmes. De plus, les spécialistes géométriques actuels sont limités par leurs conceptions spécifiques à la tâche, ce qui les rend moins efficaces pour des problèmes géométriques plus larges. À cette fin, nous présentons GeoX, un grand modèle multimodal axé sur la compréhension géométrique et les tâches de raisonnement. Compte tenu des différences significatives entre les diagrammes-symboles géométriques et les images-textes naturelles, nous introduisons un pré-entraînement unimodal pour développer un codeur de diagramme et un décodeur de symboles, améliorant la compréhension des images et des corpus géométriques. De plus, nous introduisons l'alignement géométrie-langage, un paradigme de pré-entraînement efficace qui comble l'écart de modalité entre les experts géométriques unimodaux. Nous proposons un Transformateur Générateur-Et-Échantillonneur (GS-Former) pour générer des requêtes discriminatives et éliminer les représentations non informatives des signaux géométriques inégalement distribués. Enfin, GeoX bénéficie d'un réglage d'instruction visuelle, lui permettant de prendre des images géométriques et des questions en entrée et de générer des solutions vérifiables. Les expériences montrent que GeoX surpasse à la fois les généralistes et les spécialistes géométriques sur des benchmarks reconnus publiquement, tels que GeoQA, UniGeo, Geometry3K et PGPS9k.
Nous proposons WHISPER-GPT : un grand modèle de langage génératif (LLM) pour la parole et la musique qui nous permet de travailler simultanément avec des représentations audio continues et des jetons discrets dans le cadre d'une seule architecture. Il y a eu une énorme vague de modèles génératifs audio, de parole et de musique qui utilisent des jetons audio discrets dérivés d'algorithmes de compression neurale, par exemple ENCODEC. Cependant, l'un des principaux inconvénients de cette approche est la gestion de la longueur du contexte. Cela devient problématique pour une architecture générative haute fidélité si l'on doit tenir compte de tous les contenus audio à différentes fréquences pour la prédiction du jeton suivant. En combinant une représentation audio continue comme le spectrogramme et des jetons acoustiques discrets, nous conservons le meilleur des deux mondes : avoir toutes les informations nécessaires de l'audio à un instant précis dans un seul jeton, tout en permettant au LLM de prédire le jeton futur pour permettre l'échantillonnage et d'autres avantages que l'espace discret offre. Nous montrons comment notre architecture améliore la perplexité et les scores de log-vraisemblance négative pour la prédiction du jeton suivant par rapport à un LLM basé sur les jetons pour la parole et la musique.
L'apprentissage fédéré vertical (VFL) vise à permettre l'entraînement collaboratif de modèles d'apprentissage profond tout en préservant la protection de la vie privée. Cependant, la procédure VFL comporte encore des composants vulnérables aux attaques de parties malveillantes. Dans notre travail, nous examinons les attaques de reconstruction de caractéristiques, un risque courant visant la compromission des données d'entrée. Nous soutenons théoriquement que les attaques de reconstruction de caractéristiques ne peuvent réussir sans connaissance de la distribution antérieure des données. Par conséquent, nous démontrons que même des transformations simples de l'architecture du modèle peuvent avoir un impact significatif sur la protection des données d'entrée lors du VFL. En confirmant ces résultats avec des expériences, nous montrons que les modèles basés sur MLP sont résistants aux attaques de reconstruction de caractéristiques de pointe.
Les récentes avancées dans les modèles de diffusion révolutionnent la génération d'images mais posent des risques de mauvais usage, tels que la reproduction d'œuvres d'art ou la création de deepfakes. Les méthodes existantes de protection des images, bien qu'efficaces, peinent à équilibrer l'efficacité de la protection, l'invisibilité et la latence, limitant ainsi leur utilisation pratique. Nous introduisons un pré-entraînement par perturbation pour réduire la latence et proposons une approche de mélange de perturbations qui s'adapte dynamiquement aux images d'entrée pour minimiser la dégradation des performances. Notre nouvelle stratégie d'entraînement calcule la perte de protection à travers plusieurs espaces de caractéristiques VAE, tandis qu'une protection ciblée adaptative à l'inférence améliore la robustesse et l'invisibilité. Les expériences montrent des performances de protection comparables avec une invisibilité améliorée et un temps d'inférence considérablement réduit. Le code et la démonstration sont disponibles sur https://webtoon.github.io/impasto
L'avancée rapide des technologies de traitement du langage naturel (NLP), telles que les grands modèles de langage ajustés aux instructions (LLMs), nécessite le développement de protocoles d'évaluation modernes avec des retours humains et machine. Nous introduisons Evalica, une boîte à outils open-source qui facilite la création de tableaux de classement de modèles fiables et reproductibles. Cet article présente sa conception, évalue ses performances et démontre sa facilité d'utilisation à travers son interface Web, son interface en ligne de commande et son API Python.
Les récents progrès dans les modèles fondamentaux de robotique ont permis le développement de politiques généralistes capables de s'adapter à diverses tâches. Bien que ces modèles montrent une flexibilité impressionnante, leurs performances dépendent fortement de la qualité de leurs données d'entraînement. Dans ce travail, nous proposons les Généralistes Distillés par Apprentissage par Renforcement (RLDG), une méthode qui exploite l'apprentissage par renforcement pour générer des données d'entraînement de haute qualité pour le peaufinage des politiques généralistes. À travers des expériences approfondies dans le monde réel sur des tâches de manipulation précises telles que l'insertion de connecteurs et l'assemblage, nous démontrons que les politiques généralistes entraînées avec des données générées par RL surpassent de manière constante celles entraînées avec des démonstrations humaines, atteignant des taux de réussite jusqu'à 40% plus élevés tout en généralisant mieux à de nouvelles tâches. Nous fournissons également une analyse détaillée qui révèle que ce gain de performance provient à la fois de distributions d'actions optimisées et d'une meilleure couverture d'états. Nos résultats suggèrent que la combinaison de l'apprentissage par renforcement spécifique à la tâche avec la distillation de politiques généralistes offre une approche prometteuse pour le développement de systèmes de manipulation robotique plus capables et efficaces, tout en conservant la flexibilité des modèles fondamentaux tout en atteignant les performances des contrôleurs spécialisés. Les vidéos et le code sont disponibles sur notre site web de projet https://generalist-distillation.github.io