Articles de Recherche IA Quotidiens

Articles de recherche IA sélectionnés quotidiennement avec traductions

Entraînement de grands modèles de langage pour raisonner dans un espace latent continu
Training Large Language Models to Reason in a Continuous Latent Space

Dec 9

ByShibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason Weston, Yuandong Tian

Les grands modèles de langage (LLMs) sont limités à raisonner dans l'espace de "langage", où ils expriment généralement le processus de raisonnement avec une chaîne de pensée (CoT) pour résoudre un problème de raisonnement complexe. Cependant, nous soutenons que l'espace de langage n'est pas toujours optimal pour le raisonnement. Par exemple, la plupart des jetons de mots sont principalement destinés à la cohérence textuelle et ne sont pas essentiels au raisonnement, tandis que certains jetons critiques nécessitent une planification complexe et posent d'énormes défis aux LLMs. Pour explorer le potentiel du raisonnement des LLMs dans un espace latent non restreint au lieu d'utiliser le langage naturel, nous introduisons un nouveau paradigme, Coconut (Chaîne de Pensée Continue). Nous utilisons le dernier état caché du LLM comme représentation de l'état de raisonnement (appelé "pensée continue"). Au lieu de le décoder en un jeton de mot, nous le renvoyons au LLM en tant qu'incorporation d'entrée ultérieure directement dans l'espace continu. Les expériences montrent que Coconut peut augmenter efficacement le LLM sur plusieurs tâches de raisonnement. Ce nouveau paradigme de raisonnement latent conduit à des schémas de raisonnement avancés émergents : la pensée continue peut encoder plusieurs étapes de raisonnement suivantes alternatives, permettant au modèle d'effectuer une recherche en largeur (BFS) pour résoudre le problème, plutôt que de s'engager prématurément dans un seul chemin déterministe comme CoT. Coconut surpasse CoT dans certaines tâches de raisonnement logique qui nécessitent un retour en arrière substantiel lors de la planification, avec moins de jetons de réflexion pendant l'inférence. Ces résultats démontrent la promesse du raisonnement latent et offrent des perspectives précieuses pour la recherche future.

ProcessBench : Identification des Erreurs de Processus dans le Raisonnement Mathématique
ProcessBench: Identifying Process Errors in Mathematical Reasoning

Dec 9

ByChujie Zheng, Zhenru Zhang, Beichen Zhang, Runji Lin, Keming Lu, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin

Étant donné que les modèles de langage commettent régulièrement des erreurs lors de la résolution de problèmes mathématiques, l'identification automatisée des erreurs dans le processus de raisonnement devient de plus en plus importante pour leur supervision à grande échelle. Dans cet article, nous présentons ProcessBench pour mesurer la capacité à identifier les étapes erronées dans le raisonnement mathématique. Il se compose de 3 400 cas de test, principalement axés sur des problèmes mathématiques de niveau compétition et olympique. Chaque cas de test contient une solution étape par étape avec l'emplacement de l'erreur annoté par des experts humains. Les modèles doivent identifier la première étape contenant une erreur, ou conclure que toutes les étapes sont correctes. Nous menons une évaluation approfondie sur ProcessBench, impliquant deux types de modèles : les modèles de récompense de processus (PRM) et les modèles critiques, où pour ces derniers, nous incitons les modèles de langage généraux à critiquer chaque étape de la solution. Nous tirons deux observations principales : (1) Les PRM existants ont généralement du mal à se généraliser à des problèmes mathématiques plus complexes au-delà de GSM8K et MATH. Ils sont moins performants que les modèles critiques (c'est-à-dire les modèles de langage généraux incités) et notre propre PRM entraîné qui est simplement affiné sur l'ensemble de données PRM800K. (2) Le meilleur modèle open source, QwQ-32B-Preview, a démontré une capacité de critique compétitive avec le modèle propriétaire GPT-4o, bien qu'il reste en retard sur le modèle spécialisé en raisonnement o1-mini. Nous espérons que ProcessBench pourra stimuler la recherche future dans l'évaluation du processus de raisonnement, ouvrant la voie à une supervision à grande échelle des modèles de langage.

Démêler la complexité de la mémoire dans les agents de RL : une approche pour la classification et l'évaluation
Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation

Dec 9

ByEgor Cherepanov, Nikita Kachaev, Artem Zholus, Alexey K. Kovalev, Aleksandr I. Panov

L'incorporation de la mémoire dans les agents est essentielle pour de nombreuses tâches dans le domaine de l'Apprentissage par Renforcement (RL). En particulier, la mémoire est primordiale pour les tâches qui nécessitent l'utilisation d'informations passées, l'adaptation à des environnements nouveaux et l'amélioration de l'efficacité des échantillons. Cependant, le terme "mémoire" englobe un large éventail de concepts, ce qui, associé à l'absence d'une méthodologie unifiée pour valider la mémoire d'un agent, conduit à des jugements erronés sur les capacités mnésiques des agents et empêche une comparaison objective avec d'autres agents renforcés par la mémoire. Cet article vise à rationaliser le concept de mémoire en RL en fournissant des définitions précises et pratiques des types de mémoire des agents, tels que la mémoire à long terme par rapport à la mémoire à court terme et la mémoire déclarative par rapport à la mémoire procédurale, inspirées des sciences cognitives. En utilisant ces définitions, nous catégorisons différentes classes de mémoire des agents, proposons une méthodologie expérimentale robuste pour évaluer les capacités mnésiques des agents RL et standardisons les évaluations. De plus, nous démontrons empiriquement l'importance de respecter la méthodologie proposée lors de l'évaluation des différents types de mémoire des agents en menant des expériences avec différents agents RL et en montrant les conséquences de sa violation.

Maya : Un modèle multimodal multilingue affiné par instructions
Maya: An Instruction Finetuned Multilingual Multimodal Model

Dec 10

ByNahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji

Le développement rapide des grands Modèles Vision- Langage (VLM) a conduit à des résultats impressionnants sur les référentiels académiques, principalement dans les langues largement parlées. Cependant, des écarts significatifs persistent dans la capacité des VLM actuels à traiter les langues à faibles ressources et les contextes culturels variés, principalement en raison d'un manque de données diverses, de haute qualité et vérifiées pour la sécurité. Par conséquent, ces modèles ont souvent du mal à comprendre les langues à faibles ressources et les subtilités culturelles de manière exempte de toxicité. Pour remédier à ces limitations, nous présentons Maya, un modèle Multimodal Multilingue open-source. Nos contributions sont triples : 1) un ensemble de données de pré-entraînement image-texte multilingue dans huit langues, basé sur l'ensemble de données de pré-entraînement LLaVA ; 2) une analyse approfondie de la toxicité au sein de l'ensemble de données LLaVA, suivie de la création d'une version novatrice exempte de toxicité dans huit langues ; et 3) un modèle image-texte multilingue prenant en charge ces langues, améliorant la compréhension culturelle et linguistique dans les tâches vision-langage. Code disponible sur https://github.com/nahidalam/maya.

Autour du Monde en 80 Pas de Temps : Une Approche Générative de Géolocalisation Visuelle Globale
Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation

Dec 9

ByNicolas Dufour, David Picard, Vicky Kalogeiton, Loic Landrieu

La géolocalisation visuelle globale prédit où une image a été capturée sur Terre. Comme les images varient en termes de précision de localisation, cette tâche implique intrinsèquement un degré significatif d'ambiguïté. Cependant, les approches existantes sont déterministes et négligent cet aspect. Dans cet article, nous visons à combler l'écart entre la géolocalisation traditionnelle et les méthodes génératives modernes. Nous proposons la première approche générative de géolocalisation basée sur la diffusion et la correspondance de flux riemannien, où le processus de débruitage opère directement sur la surface de la Terre. Notre modèle atteint des performances de pointe sur trois référentiels de géolocalisation visuelle : OpenStreetView-5M, YFCC-100M et iNat21. De plus, nous introduisons la tâche de géolocalisation visuelle probabiliste, où le modèle prédit une distribution de probabilité sur toutes les localisations possibles au lieu d'un seul point. Nous présentons de nouvelles mesures et des bases pour cette tâche, démontrant les avantages de notre approche basée sur la diffusion. Les codes et les modèles seront rendus disponibles.

Divot : La diffusion alimente le tokenizeur vidéo pour la compréhension et la génération
Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation

Dec 5

ByYuying Ge, Yizhuo Li, Yixiao Ge, Ying Shan

Ces dernières années, on observe un intérêt croissant pour l'unification de la compréhension et de la génération d'images au sein des Grands Modèles de Langage (GML). Cet intérêt croissant nous a incités à explorer l'extension de cette unification aux vidéos. Le défi principal réside dans le développement d'un tokeniseur vidéo polyvalent qui capture à la fois les caractéristiques spatiales et les dynamiques temporelles des vidéos pour obtenir des représentations pour les GML, et ces représentations peuvent ensuite être décodées en clips vidéo réalistes pour permettre la génération de vidéos. Dans ce travail, nous présentons Divot, un Tokeniseur Vidéo Alimenté par Diffusion, qui exploite le processus de diffusion pour l'apprentissage de représentations vidéo auto-supervisé. Nous postulons que si un modèle de diffusion vidéo peut efficacement débruiter des clips vidéo en prenant les caractéristiques d'un tokeniseur vidéo comme condition, alors le tokeniseur a capturé avec succès des informations spatiales et temporelles robustes. De plus, le modèle de diffusion vidéo fonctionne intrinsèquement comme un dé-tokeniseur, décodant les vidéos à partir de leurs représentations. En s'appuyant sur le tokeniseur Divot, nous présentons Divot-Vicuna à travers l'autorégression vidéo-texte et la génération texte-vidéo en modélisant les distributions des caractéristiques Divot à valeurs continues avec un Modèle de Mélange Gaussien. Les résultats expérimentaux démontrent que notre tokeniseur vidéo basé sur la diffusion, lorsqu'il est intégré à un GML pré-entraîné, atteint des performances compétitives sur divers bancs d'essai de compréhension et de génération de vidéos. Le Divot-Vicuna ajusté aux instructions excelle également dans la narration vidéo, générant des récits entrelacés et les vidéos correspondantes.

Exploration des annotations de concepts multi-échelles pour les grands modèles de langage multimodaux.
Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models

Dec 8

ByXiao Xu, Tianhao Niu, Yuxi Xie, Libo Qin, Wanxiang Che, Min-Yen Kan

Les Modèles de Langage Multimodaux à Grande Échelle (MLLM) excellent dans les tâches de vision--langage en se pré-entraînant uniquement sur des annotations de concepts à gros grains (par exemple, des légendes d'images). Nous émettons l'hypothèse qu'intégrer des annotations de concepts à grains fins (par exemple, des étiquettes d'objets et des régions d'objets) améliorera encore les performances, car les deux granularités de données se complètent en termes de largeur et de profondeur dans la représentation des concepts. Nous introduisons un nouveau jeu de données présentant des annotations de concepts Multimodaux Multi-Grains (MMGiC) pour les MLLM. En construisant MMGiC, nous explorons l'impact de différentes recettes de données sur la compréhension et la génération multimodales. Nos analyses révèlent que les annotations de concepts multi-grains s'intègrent et se complètent, dans le cadre de notre modèle structuré et d'un cadre MLLM général. Nous explorons clairement et démontrons le potentiel de MMGiC pour aider les MLLM à mieux localiser et apprendre des concepts, en alignant la vision et le langage à plusieurs granularités. Nous validons en outre notre hypothèse en étudiant la comparaison équitable et la collaboration efficace entre MMGiC et les données image--légende sur 12 référentiels de compréhension et de génération multimodaux, par exemple, leur combinaison appropriée permet d'obtenir des améliorations absolues de 3,95 % et 2,34 % sur POPE et SEED-Bench par rapport aux données image--légende seules. Le code, les données et les modèles seront disponibles sur https://github.com/LooperXX/MMGiC.

Vous le voyez, vous l'obtenez : Apprentissage de la création 3D sur des vidéos sans pose à grande échelle
You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale

Dec 9

ByBaorui Ma, Huachen Gao, Haoge Deng, Zhengxiong Luo, Tiejun Huang, Lulu Tang, Xinlong Wang

Les modèles récents de génération 3D s'appuient généralement sur des "gold-labels" 3D à petite échelle ou des prédictions de diffusion 2D pour la création de contenu 3D. Cependant, leur performance est limitée par des contraintes 3D en raison du manque de paradigmes d'apprentissage évolutifs. Dans ce travail, nous présentons See3D, un modèle de diffusion multi-vue conditionnel visuel entraîné sur de grandes vidéos Internet à des fins de création 3D en monde ouvert. Le modèle vise à acquérir des connaissances 3D en observant uniquement le contenu visuel des vastes et rapidement croissantes données vidéo - Vous le voyez, vous l'obtenez. Pour ce faire, nous avons d'abord augmenté l'ensemble de données d'entraînement à l'aide d'un pipeline de curation de données proposé qui filtre automatiquement les incohérences multi-vues et les observations insuffisantes des vidéos sources. Cela a permis d'obtenir un ensemble de données multi-vues de haute qualité, riche et diversifié à grande échelle, appelé WebVi3D, contenant 320 millions de trames issues de 16 millions de clips vidéo. Néanmoins, apprendre des prédictions 3D génériques à partir de vidéos sans géométrie 3D explicite ou annotations de pose de caméra est complexe, et annoter les poses pour des vidéos à l'échelle du web est excessivement coûteux. Pour éliminer le besoin de conditions de pose, nous introduisons un signal visuel conditionnel innovant - un signal visuel purement inductif 2D généré en ajoutant du bruit dépendant du temps aux données vidéo masquées. Enfin, nous présentons un nouveau cadre de génération 3D conditionnel visuel en intégrant See3D dans un pipeline basé sur le warping pour une génération 3D haute fidélité. Nos comparaisons numériques et visuelles sur des référentiels de reconstruction unique et clairsemée montrent que See3D, entraîné sur des données vidéo rentables et évolutives, atteint des capacités de génération notable en zéro-shot et en monde ouvert, surpassant nettement les modèles entraînés sur des ensembles de données 3D coûteux et contraignants. Veuillez consulter notre page de projet à l'adresse : https://vision.baai.ac.cn/see3d

Réseaux Delta à Portes: Amélioration de Mamba2 avec la Règle Delta
Gated Delta Networks: Improving Mamba2 with Delta Rule

Dec 9

BySonglin Yang, Jan Kautz, Ali Hatamizadeh

Les transformateurs linéaires ont attiré l'attention en tant qu'alternatives efficaces aux transformateurs standard, mais leurs performances dans les tâches de recherche et de contexte étendu ont été limitées. Pour remédier à ces limitations, des travaux récents ont exploré deux mécanismes distincts : le contrôle adaptatif de la mémoire par des mécanismes de filtrage et la règle de mise à jour delta pour des modifications précises de la mémoire. Nous observons que ces mécanismes sont complémentaires : le filtrage permet une effacement rapide de la mémoire tandis que la règle delta facilite les mises à jour ciblées. En nous appuyant sur cette observation, nous introduisons la règle delta filtrée et développons un algorithme d'entraînement parallèle optimisé pour le matériel moderne. Notre architecture proposée, Gated DeltaNet, surpasse de manière constante les modèles existants tels que Mamba2 et DeltaNet sur plusieurs bancs d'essai, notamment la modélisation de langage, le raisonnement de bon sens, la récupération en contexte, l'extrapolation de longueur et la compréhension de contexte étendu. Nous améliorons encore les performances en développant des architectures hybrides qui combinent des couches Gated DeltaNet avec une attention à fenêtre glissante ou des couches Mamba2, obtenant à la fois une efficacité d'entraînement améliorée et des performances de tâche supérieures.

MotionShop : Transfert de Mouvement sans Apprentissage dans les Modèles de Diffusion Vidéo avec un Mélange de Guidage de Score
MotionShop: Zero-Shot Motion Transfer in Video Diffusion Models with Mixture of Score Guidance

Dec 6

ByHidir Yesiltepe, Tuna Han Salih Meral, Connor Dunlop, Pinar Yanardag

Dans ce travail, nous proposons la première approche de transfert de mouvement dans un transformateur de diffusion à travers le Mélange de Guidage de Score (MSG), un cadre théoriquement fondé pour le transfert de mouvement dans les modèles de diffusion. Notre principale contribution théorique réside dans la reformulation du score conditionnel pour décomposer le score de mouvement et le score de contenu dans les modèles de diffusion. En formulant le transfert de mouvement comme un mélange d'énergies potentielles, le MSG préserve naturellement la composition de la scène et permet des transformations de scène créatives tout en maintenant l'intégrité des motifs de mouvement transférés. Cet échantillonnage novateur fonctionne directement sur des modèles de diffusion vidéo pré-entraînés sans formation ou ajustement supplémentaire. À travers des expériences approfondies, le MSG démontre une gestion réussie de divers scénarios, y compris le transfert de mouvement d'objet unique, d'objets multiples, de mouvements entre objets ainsi que le transfert de mouvement de caméra complexe. De plus, nous introduisons MotionBench, le premier ensemble de données de transfert de mouvement composé de 200 vidéos sources et de 1000 mouvements transférés, couvrant les transferts d'objet unique/multiple et les mouvements de caméra complexes.

MAtCha Gaussiennes : Atlas de graphiques pour une géométrie de haute qualité et un réalisme photographique à partir de vues éparses
MAtCha Gaussians: Atlas of Charts for High-Quality Geometry and Photorealism From Sparse Views

Dec 9

ByAntoine Guédon, Tomoki Ichikawa, Kohei Yamashita, Ko Nishino

Nous présentons un nouveau modèle d'apparence qui réalise simultanément la récupération explicite de maillages de surface 3D de haute qualité et la synthèse photoréaliste de nouvelles vues à partir d'échantillons de vues clairsemées. Notre idée clé est de modéliser la géométrie de scène sous-jacente sous la forme d'un atlas de cartes que nous rendons avec des surfels gaussiens en 2D (MAtCha Gaussians). MAtCha extrait les détails de surface de haute fréquence de la scène à partir d'un estimateur de profondeur monoculaire standard et les affine grâce au rendu de surfels gaussiens. Les surfels gaussiens sont attachés aux cartes en temps réel, satisfaisant ainsi le réalisme photographique du rendu volumétrique neuronal et la géométrie nette d'un modèle de maillage, c'est-à-dire deux objectifs en apparence contradictoires dans un seul modèle. Au cœur de MAtCha se trouve un nouveau modèle de déformation neuronale et une perte de structure qui préserve les détails de surface fins extraits des profondeurs monoculaires apprises tout en traitant leurs ambiguïtés d'échelle fondamentales. Les résultats d'une validation expérimentale approfondie démontrent la qualité de pointe de la reconstruction de surface et du réalisme photographique de MAtCha, à la hauteur des meilleurs concurrents mais avec une réduction spectaculaire du nombre de vues d'entrée et du temps de calcul. Nous pensons que MAtCha servira d'outil fondamental pour toute application visuelle en vision, graphisme et robotique nécessitant une géométrie explicite en plus du réalisme photographique. Notre page de projet est la suivante : https://anttwo.github.io/matcha/

Incorporation globale et dense de la Terre : Major TOM flottant dans l'espace latent
Global and Dense Embeddings of Earth: Major TOM Floating in the Latent Space

Dec 7

ByMikolaj Czerkawski, Marcin Kluczek, Jędrzej S. Bojanowski

Avec l'augmentation constante des volumes de données d'observation de la Terre présents dans les archives de grands programmes tels que Copernicus, il y a un besoin croissant de représentations vectorielles efficaces des données brutes sous-jacentes. L'approche consistant à extraire des représentations de caractéristiques à partir de réseaux neuronaux profonds pré-entraînés est une approche puissante qui peut fournir des abstractions sémantiques des données d'entrée. Cependant, la manière dont cela est fait pour les archives d'imagerie contenant des données géospatiales n'a pas encore été définie. Dans ce travail, une extension est proposée à un projet communautaire existant, Major TOM, axé sur la fourniture et la normalisation de jeux de données ouverts et gratuits prêts pour l'IA pour l'observation de la Terre. De plus, quatre ensembles de données d'incorporation globaux et denses sont publiés ouvertement et gratuitement en même temps que la publication de ce manuscrit, aboutissant au jeu de données ouvert mondial le plus complet d'incorporations visuelles géospatiales en termes de surface terrestre couverte.

CARP : Apprentissage de la politique visuomotrice via une prédiction autorégressive grossière à fine granularité
CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction

Dec 9

ByZhefei Gong, Pengxiang Ding, Shangke Lyu, Siteng Huang, Mingyang Sun, Wei Zhao, Zhaoxin Fan, Donglin Wang

Dans l'apprentissage des politiques visuomotrices robotiques, les modèles basés sur la diffusion ont connu un succès significatif en améliorant la précision de la génération de trajectoires d'actions par rapport aux modèles autorégressifs traditionnels. Cependant, ils souffrent d'inefficacité en raison de multiples étapes de débruitage et d'une flexibilité limitée due à des contraintes complexes. Dans cet article, nous introduisons CARP (Coarse-to-Fine AutoRegressive Policy), un nouveau paradigme pour l'apprentissage des politiques visuomotrices qui redéfinit le processus de génération d'actions autorégressives comme une approche à échelle suivante, de grossier à fin. CARP découple la génération d'actions en deux étapes : d'abord, un autoencodeur d'actions apprend des représentations multi-échelles de l'ensemble de la séquence d'actions ; ensuite, un transformateur de style GPT affine la prédiction de séquence à travers un processus autorégressif de grossier à fin. Cette approche simple et intuitive produit des actions hautement précises et fluides, égalant voire surpassant les performances des politiques basées sur la diffusion tout en maintenant une efficacité comparable à celle des politiques autorégressives. Nous menons des évaluations approfondies dans des contextes divers, y compris des scénarios mono-tâche et multi-tâches sur des bancs d'essai de simulation basés sur l'état et l'image, ainsi que des tâches réelles. CARP atteint des taux de succès compétitifs, avec une amélioration allant jusqu'à 10 %, et offre une inférence 10 fois plus rapide par rapport aux politiques de pointe, établissant un paradigme performant, efficace et flexible pour la génération d'actions dans les tâches robotiques.

Marqueur de texte robuste multi-bits avec paraphraseurs basés sur LLM
Robust Multi-bit Text Watermark with LLM-based Paraphrasers

Dec 4

ByXiaojun Xu, Jinghan Jia, Yuanshun Yao, Yang Liu, Hang Li

Nous proposons un watermark textuel multi-bits imperceptible intégré par reformulation avec des LLM. Nous affinons un couple de paraphraseurs LLM conçus pour se comporter différemment afin que leur différence de reformulation, reflétée dans la sémantique du texte, puisse être identifiée par un décodeur entraîné. Pour intégrer notre watermark multi-bits, nous utilisons deux paraphraseurs de manière alternative pour encoder le code binaire prédéfini au niveau de la phrase. Ensuite, nous utilisons un classificateur de texte en tant que décodeur pour décoder chaque bit du watermark. À travers des expériences approfondies, nous montrons que nos watermarks peuvent atteindre plus de 99,99\% d'AUC de détection avec de petits (1,1 milliard) paraphraseurs de texte tout en conservant l'information sémantique de la phrase d'origine. Plus important encore, notre pipeline est robuste face aux substitutions de mots et aux perturbations de reformulation de phrases, et généralise bien aux données hors distribution. Nous montrons également la furtivité de notre watermark avec une évaluation basée sur les LLM. Nous mettons le code en open source : https://github.com/xiaojunxu/multi-bit-text-watermark.

Si vous ne pouvez pas les utiliser, recyclez-les : Optimisation de la fusion à grande échelle pour atténuer les compromis de performance
If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs

Dec 5

ByMuhammad Khalifa, Yi-Chern Tan, Arash Ahmadian, Tom Hosking, Honglak Lee, Lu Wang, Ahmet Üstün, Tom Sherborne, Matthias Gallé

La fusion de modèles a montré un grand potentiel pour combiner des modèles d'experts, mais l'avantage de la fusion est incertain lors de la fusion de modèles "généralistes" formés sur de nombreuses tâches. Nous explorons la fusion dans le contexte de grands modèles (environ 100 milliards de paramètres), en recyclant des points de contrôle qui présentent des compromis entre différentes tâches. Ces points de contrôle sont souvent créés dans le processus de développement d'un modèle de pointe, et de nombreux points de contrôle sous-optimaux sont généralement jetés. Étant donné un ensemble de points de contrôle de modèles obtenus à partir de différentes exécutions d'entraînement (par exemple, différentes étapes, objectifs, hyperparamètres et mélanges de données), qui montrent naturellement des compromis entre différentes capacités linguistiques (par exemple, suivi des instructions vs génération de code), nous étudions si la fusion peut recycler de tels modèles sous-optimaux en un modèle optimal de Pareto. Notre algorithme d'optimisation ajuste le poids de chaque point de contrôle dans une combinaison linéaire, donnant ainsi des modèles optimaux de Pareto qui surpassent à la fois les modèles individuels et les bases de fusion. Une analyse plus approfondie montre que de bonnes fusions tendent à inclure presque tous les points de contrôle avec des poids non nuls, indiquant que même des points de contrôle initiaux apparemment mauvais peuvent contribuer à de bonnes fusions finales.

Turbo3D : Génération ultra-rapide de texte en 3D
Turbo3D: Ultra-fast Text-to-3D Generation

Dec 5

ByHanzhe Hu, Tianwei Yin, Fujun Luan, Yiwei Hu, Hao Tan, Zexiang Xu, Sai Bi, Shubham Tulsiani, Kai Zhang

Nous présentons Turbo3D, un système de conversion de texte en 3D ultra-rapide capable de générer des éléments de type Gaussian splatting de haute qualité en moins d'une seconde. Turbo3D utilise un générateur de diffusion à 4 étapes et 4 vues rapide et un reconstructeur Gaussien à propagation avant efficace, tous deux opérant dans un espace latent. Le générateur à 4 étapes et 4 vues est un modèle étudiant distillé grâce à une nouvelle approche à double enseignant, qui encourage l'étudiant à apprendre la cohérence des vues d'un enseignant multi-vues et le photoréalisme d'un enseignant mono-vue. En déplaçant les entrées du reconstructeur Gaussien de l'espace des pixels à l'espace latent, nous éliminons le temps supplémentaire de décodage d'image et réduisons de moitié la longueur de la séquence du transformateur pour une efficacité maximale. Notre méthode démontre des résultats de génération 3D supérieurs par rapport aux références précédentes, tout en fonctionnant en une fraction de leur temps d'exécution.

5 minutes a day to keep up with AI

5 trending papers daily, explained in plain words, plus one quick puzzle.

Read today's issue →