papers.title

papers.description

Transformateur latent par octet : les patchs s'échelonnent mieux que les jetons
Byte Latent Transformer: Patches Scale Better Than Tokens

Dec 13

ByArtidoro Pagnoni, Ram Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li, Chunting Zhou, Lili Yu, Jason Weston, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Ari Holtzman, Srinivasan Iyer

108

Nous présentons le Byte Latent Transformer (BLT), une nouvelle architecture de LLM au niveau des octets qui, pour la première fois, égale les performances des LLM basés sur la tokenisation à grande échelle avec des améliorations significatives en termes d'efficacité et de robustesse de l'inférence. Le BLT code les octets en patchs de tailles dynamiques, qui servent d'unités principales de calcul. Les patchs sont segmentés en fonction de l'entropie de l'octet suivant, allouant plus de puissance de calcul et de capacité de modèle là où la complexité des données augmente. Nous présentons la première étude de mise à l'échelle contrôlée par FLOP des modèles au niveau des octets jusqu'à 8 milliards de paramètres et 4 billions d'octets d'entraînement. Nos résultats démontrent la faisabilité de mettre à l'échelle des modèles entraînés sur des octets bruts sans vocabulaire fixe. L'efficacité de l'entraînement et de l'inférence s'améliore en sélectionnant dynamiquement des patchs longs lorsque les données sont prévisibles, avec des améliorations qualitatives en termes de raisonnement et de généralisation à longue traîne. Dans l'ensemble, pour des coûts d'inférence fixes, le BLT montre une mise à l'échelle significativement meilleure que les modèles basés sur la tokenisation, en faisant croître simultanément la taille des patchs et du modèle.

BrushEdit : Inpainting et Édition d'Image Tout-en-Un
BrushEdit: All-In-One Image Inpainting and Editing

Dec 13

ByYaowei Li, Yuxuan Bian, Xuan Ju, Zhaoyang Zhang, Ying Shan, Qiang Xu

L'édition d'images a considérablement progressé avec le développement de modèles de diffusion utilisant à la fois des méthodes basées sur l'inversion et des méthodes basées sur des instructions. Cependant, les approches actuelles basées sur l'inversion rencontrent des difficultés avec les modifications importantes (par exemple, l'ajout ou la suppression d'objets) en raison de la nature structurée du bruit d'inversion, ce qui entrave des changements substantiels. Pendant ce temps, les méthodes basées sur des instructions contraignent souvent les utilisateurs à des opérations de boîte noire, limitant l'interaction directe pour spécifier les régions d'édition et l'intensité. Pour remédier à ces limitations, nous proposons BrushEdit, un nouveau paradigme d'édition d'images guidé par des instructions basé sur l'inpainting, qui exploite des modèles de langage multimodaux (MLLMs) et des modèles d'inpainting d'images pour permettre une édition autonome, conviviale et interactive guidée par des instructions en forme libre. Plus précisément, nous concevons un système permettant l'édition guidée par des instructions en forme libre en intégrant des MLLMs et un modèle d'inpainting d'images à double branche dans un cadre coopératif d'agent pour effectuer la classification des catégories d'édition, l'identification des principaux objets, l'acquisition de masques et l'inpainting des zones d'édition. Des expériences approfondies montrent que notre cadre combine efficacement les MLLMs et les modèles d'inpainting, atteignant des performances supérieures sur sept mesures, y compris la préservation de la région du masque et la cohérence de l'effet d'édition.

Agent d'Évaluation : Cadre d'Évaluation Efficace et Interrogeable pour les Modèles Génératifs Visuels
Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

Dec 10

ByFan Zhang, Shulin Tian, Ziqi Huang, Yu Qiao, Ziwei Liu

Les récents progrès dans les modèles génératifs visuels ont permis une génération d'images et de vidéos de haute qualité, ouvrant la voie à diverses applications. Cependant, l'évaluation de ces modèles exige souvent l'échantillonnage de centaines voire de milliers d'images ou de vidéos, rendant le processus coûteux en termes de calcul, surtout pour les modèles basés sur la diffusion qui ont un échantillonnage intrinsèquement lent. De plus, les méthodes d'évaluation existantes reposent sur des pipelines rigides qui négligent les besoins spécifiques des utilisateurs et fournissent des résultats numériques sans explications claires. En revanche, les humains peuvent rapidement se faire une idée des capacités d'un modèle en observant seulement quelques échantillons. Pour reproduire cela, nous proposons le cadre de l'Agent d'Évaluation, qui utilise des stratégies semblables à celles des humains pour des évaluations efficaces, dynamiques et multi-tours en n'utilisant qu'un petit nombre d'échantillons par tour, tout en offrant des analyses détaillées et adaptées à l'utilisateur. Il offre quatre avantages clés : 1) efficacité, 2) évaluation adaptable aux besoins divers des utilisateurs, 3) explicabilité au-delà de simples scores numériques, et 4) extensibilité à travers différents modèles et outils. Les expériences montrent que l'Agent d'Évaluation réduit le temps d'évaluation à 10 % des méthodes traditionnelles tout en fournissant des résultats comparables. Le cadre de l'Agent d'Évaluation est entièrement open source pour faire progresser la recherche dans les modèles génératifs visuels et leur évaluation efficace.

RetroLLM : Donner aux grands modèles de langage la capacité de récupérer des preuves détaillées lors de la génération
RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation

Dec 16

ByXiaoxi Li, Jiajie Jin, Yujia Zhou, Yongkang Wu, Zhonghua Li, Qi Ye, Zhicheng Dou

Les grands modèles de langage (LLM) présentent des capacités génératives remarquables mais souffrent souvent d'hallucinations. La génération augmentée par récupération (RAG) offre une solution efficace en incorporant des connaissances externes, mais les méthodes existantes rencontrent encore plusieurs limitations : coûts supplémentaires de déploiement de récupérateurs séparés, jetons d'entrée redondants issus de fragments de texte récupérés, et le manque d'optimisation conjointe de la récupération et de la génération. Pour résoudre ces problèmes, nous proposons RetroLLM, un cadre unifié qui intègre la récupération et la génération dans un processus unique et cohérent, permettant aux LLM de générer directement des preuves détaillées à partir du corpus avec un décodage contraint. De plus, pour atténuer les faux élagages dans le processus de génération de preuves contraintes, nous introduisons (1) des contraintes hiérarchiques de l'index FM, qui génèrent des indices contraints par le corpus pour identifier un sous-ensemble de documents pertinents avant la génération de preuves, réduisant ainsi l'espace de décodage non pertinent ; et (2) une stratégie de décodage contrainte tournée vers l'avenir, qui prend en compte la pertinence des séquences futures pour améliorer la précision des preuves. Des expériences approfondies sur cinq ensembles de données de questions-réponses en domaine ouvert démontrent les performances supérieures de RetroLLM tant pour les tâches en domaine que hors domaine. Le code est disponible sur https://github.com/sunnynexus/RetroLLM.

Les modèles de langage plus petits sont de meilleurs évolueurs d'instructions.
Smaller Language Models Are Better Instruction Evolvers

Dec 15

ByTingfeng Hui, Lulu Zhao, Guanting Dong, Yaqi Zhang, Hua Zhou, Sen Su

L'optimisation des instructions a été largement utilisée pour libérer le plein potentiel des grands modèles de langage. Notamment, des instructions complexes et diverses revêtent une importance significative car elles peuvent aligner efficacement les modèles avec diverses tâches en aval. Cependant, les approches actuelles de construction d'instructions à grande échelle favorisent principalement des modèles puissants tels que GPT-4 ou ceux avec plus de 70 milliards de paramètres, sous la présomption empirique que de tels modèles de langage plus grands possèdent intrinsèquement des capacités améliorées. Dans cette étude, nous remettons en question cette hypothèse prédominante et menons une exploration approfondie du potentiel des plus petits modèles de langage dans le contexte de l'évolution des instructions. Des expériences approfondies menées dans trois scénarios d'évolution des instructions révèlent que les plus petits modèles de langage peuvent synthétiser des instructions plus efficaces que les plus grands modèles de langage. Une analyse supplémentaire démontre que les plus petits modèles de langage possèdent un espace de sortie plus large pendant l'évolution des instructions, ce qui entraîne des variantes plus complexes et diverses. Nous observons également que les métriques existantes ne se concentrent pas sur l'impact des instructions. Ainsi, nous proposons l'Indice de Fréquence Documentaire (IFD) Sensible à la Complexité des Instructions (IC-IFD), qui introduit la complexité des instructions dans le score IFD d'origine pour évaluer plus précisément l'efficacité des données d'instructions. Notre code source est disponible sur : https://github.com/HypherX/Evolution-Analysis.

ColorFlow : Colorisation de séquences d'images améliorée par la récupération
ColorFlow: Retrieval-Augmented Image Sequence Colorization

Dec 16

ByJunhao Zhuang, Xuan Ju, Zhaoyang Zhang, Yong Liu, Shiyi Zhang, Chun Yuan, Ying Shan

La colorisation automatique de séquences d'images en noir et blanc tout en préservant l'identité des personnages et des objets est une tâche complexe avec une demande significative sur le marché, notamment dans la colorisation de séries animées ou de bandes dessinées. Malgré les progrès réalisés dans la colorisation visuelle à l'aide de modèles génératifs à grande échelle tels que les modèles de diffusion, des défis liés à la contrôlabilité et à la cohérence de l'identité persistent, rendant les solutions actuelles inadaptées à une application industrielle. Pour y remédier, nous proposons ColorFlow, un cadre basé sur la diffusion en trois étapes conçu pour la colorisation de séquences d'images dans des applications industrielles. Contrairement aux méthodes existantes qui nécessitent un peaufinage par ID ou une extraction explicite d'incorporation d'ID, nous proposons un nouveau pipeline de colorisation augmenté par recherche robuste et généralisable pour coloriser des images avec des références colorées pertinentes. Notre pipeline présente également une conception à double branche : une branche pour l'extraction de l'identité colorée et l'autre pour la colorisation, exploitant les points forts des modèles de diffusion. Nous utilisons le mécanisme d'auto-attention dans les modèles de diffusion pour un apprentissage fort en contexte et une correspondance d'identité colorée. Pour évaluer notre modèle, nous introduisons ColorFlow-Bench, une référence complète pour la colorisation basée sur des références. Les résultats montrent que ColorFlow surpasse les modèles existants selon plusieurs critères, établissant une nouvelle norme en matière de colorisation d'images séquentielles et bénéficiant potentiellement à l'industrie artistique. Nous mettons nos codes et modèles à disposition sur notre page de projet : https://zhuang2002.github.io/ColorFlow/.

Transformateurs de Diffusion Causale pour la Modélisation Générative
Causal Diffusion Transformers for Generative Modeling

Dec 16

ByChaorui Deng, Deyao Zh, Kunchang Li, Shi Guan, Haoqi Fan

Nous introduisons la Fusion Causale en tant que contrepartie autorégressive (AR) des modèles de Diffusion. Il s'agit d'un cadre de prévision du prochain jeton(s) qui est convivial à la fois pour les modalités discrètes et continues et compatible avec les modèles existants de prédiction du prochain jeton tels que LLaMA et GPT. Alors que des travaux récents tentent de combiner la diffusion avec des modèles AR, nous montrons qu'introduire une factorisation séquentielle à un modèle de diffusion peut considérablement améliorer ses performances et permettre une transition fluide entre les modes de génération AR et diffusion. Par conséquent, nous proposons CausalFusion - un transformeur à décodeur uniquement qui factorise de manière double les données à travers les jetons séquentiels et les niveaux de bruit de diffusion, conduisant à des résultats de pointe sur le banc d'essai de génération ImageNet tout en bénéficiant de l'avantage AR de générer un nombre arbitraire de jetons pour un raisonnement en contexte. Nous démontrons en outre les capacités multimodales de CausalFusion à travers un modèle conjoint de génération d'images et de légendage, et mettons en valeur la capacité de CausalFusion pour des manipulations d'images en contexte sans pré-entraînement. Nous espérons que ce travail pourrait offrir à la communauté un point de vue novateur sur la formation de modèles multimodaux sur des données discrètes et continues.

SPaR : Auto-apprentissage avec affinage de la recherche arborescente pour améliorer le suivi d'instructions dans les grands modèles de langage
SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

Dec 16

ByJiale Cheng, Xiao Liu, Cunxiang Wang, Xiaotao Gu, Yida Lu, Dan Zhang, Yuxiao Dong, Jie Tang, Hongning Wang, Minlie Huang

La capacité à suivre les instructions est une compétence fondamentale des modèles de langage, exigeant que le modèle reconnaisse même les exigences les plus subtiles dans les instructions et les reflète avec précision dans sa sortie. Une telle capacité est bien adaptée à l'apprentissage des préférences et est souvent optimisée par celui-ci. Cependant, les méthodes existantes échantillonnent souvent directement plusieurs réponses indépendantes du modèle lors de la création de paires de préférences. Une telle pratique peut introduire des variations de contenu non pertinentes pour savoir si l'instruction est suivie précisément (par exemple, différentes expressions sur le même sémantique), interférant avec l'objectif d'enseigner aux modèles à reconnaître les différences clés qui conduisent à une amélioration du suivi des instructions. Dans ce contexte, nous introduisons SPaR, un cadre d'auto-jeu intégrant l'autoraffinement par recherche arborescente pour produire des paires de préférences valides et comparables, libres de distractions. En jouant contre lui-même, un modèle de langage à très grande échelle (LLM) utilise une stratégie de recherche arborescente pour affiner ses réponses précédentes par rapport à l'instruction tout en minimisant les variations inutiles. Nos expériences montrent qu'un modèle LLaMA3-8B, formé sur trois itérations guidées par SPaR, dépasse GPT-4-Turbo sur le banc d'essai IFEval sans perdre ses capacités générales. De plus, SPaR démontre une évolutivité et une transférabilité prometteuses, améliorant considérablement des modèles tels que GLM-4-9B et LLaMA3-70B. Nous identifions également comment l'extension de l'inférence dans la recherche arborescente affecterait les performances du modèle. Notre code et nos données sont disponibles publiquement sur https://github.com/thu-coai/SPaR.

Pays des Merveilles : Navigation dans des scènes 3D à partir d'une seule image
Wonderland: Navigating 3D Scenes from a Single Image

Dec 16

ByHanwen Liang, Junli Cao, Vidit Goel, Guocheng Qian, Sergei Korolev, Demetri Terzopoulos, Konstantinos N. Plataniotis, Sergey Tulyakov, Jian Ren

Cet article aborde une question complexe : comment pouvons-nous créer efficacement des scènes 3D de haute qualité et à large spectre à partir d'une seule image arbitraire ? Les méthodes existantes sont confrontées à plusieurs contraintes, telles que le besoin de données multi-vues, une optimisation par scène chronophage, une faible qualité visuelle des arrière-plans et des reconstructions déformées dans les zones non vues. Nous proposons un nouveau processus pour surmonter ces limitations. Plus précisément, nous introduisons un modèle de reconstruction à grande échelle qui utilise des latents d'un modèle de diffusion vidéo pour prédire des étalements gaussiens 3D pour les scènes de manière feed-forward. Le modèle de diffusion vidéo est conçu pour créer des vidéos suivant précisément des trajectoires de caméra spécifiées, lui permettant de générer des latents vidéo compressés contenant des informations multi-vues tout en maintenant une cohérence 3D. Nous entraînons le modèle de reconstruction 3D à opérer dans l'espace latent vidéo avec une stratégie d'entraînement progressive, permettant la génération efficace de scènes 3D de haute qualité, à large spectre et génériques. Des évaluations approfondies sur divers ensembles de données démontrent que notre modèle surpasse significativement les méthodes existantes pour la génération de scènes 3D à partir d'une seule vue, notamment avec des images hors domaine. Pour la première fois, nous démontrons qu'un modèle de reconstruction 3D peut être efficacement construit sur l'espace latent d'un modèle de diffusion pour réaliser une génération efficace de scènes 3D.

VividFace : Un cadre hybride basé sur la diffusion pour un échange de visages vidéo haute fidélité
VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping

Dec 15

ByHao Shao, Shulun Wang, Yang Zhou, Guanglu Song, Dailan He, Shuo Qin, Zhuofan Zong, Bingqi Ma, Yu Liu, Hongsheng Li

L'échange de visages vidéo devient de plus en plus populaire dans diverses applications, cependant les méthodes existantes se concentrent principalement sur les images statiques et rencontrent des difficultés avec l'échange de visages vidéo en raison de la cohérence temporelle et de scénarios complexes. Dans cet article, nous présentons le premier cadre basé sur la diffusion spécifiquement conçu pour l'échange de visages vidéo. Notre approche introduit un nouveau cadre d'entraînement hybride image-vidéo qui tire parti à la fois des données abondantes d'images statiques et des séquences vidéo temporelles, abordant les limitations inhérentes de l'entraînement uniquement sur vidéo. Le cadre intègre un modèle de diffusion spécialement conçu couplé à un VidFaceVAE qui traite efficacement les deux types de données pour mieux maintenir la cohérence temporelle des vidéos générées. Pour démêler davantage les caractéristiques d'identité et de pose, nous construisons le jeu de données Triplet de Démêlage Attribut-Identité (AIDT), où chaque triplet comporte trois images de visage, avec deux images partageant la même pose et deux partageant la même identité. Enrichi d'une augmentation complète des occlusions, ce jeu de données améliore également la robustesse contre les occlusions. De plus, nous intégrons des techniques de reconstruction 3D en tant que conditionnement d'entrée à notre réseau pour gérer les grandes variations de pose. Des expériences approfondies démontrent que notre cadre atteint des performances supérieures en préservation de l'identité, en cohérence temporelle et en qualité visuelle par rapport aux méthodes existantes, tout en nécessitant moins d'étapes d'inférence. Notre approche atténue efficacement les principaux défis de l'échange de visages vidéo, notamment le scintillement temporel, la préservation de l'identité et la robustesse face aux occlusions et aux variations de pose.

Propriété gaussienne : Intégration des propriétés physiques aux gaussiennes 3D avec LMM.
GaussianProperty: Integrating Physical Properties to 3D Gaussians with LMMs

Dec 15

ByXinli Xu, Wenhang Ge, Dicong Qiu, ZhiFei Chen, Dongyu Yan, Zhuoyun Liu, Haoyu Zhao, Hanfeng Zhao, Shunsi Zhang, Junwei Liang, Ying-Cong Chen

Estimer les propriétés physiques des données visuelles est une tâche cruciale en vision par ordinateur, en infographie et en robotique, sous-tendant des applications telles que la réalité augmentée, la simulation physique et la préhension robotique. Cependant, ce domaine reste peu exploré en raison des ambiguïtés inhérentes à l'estimation des propriétés physiques. Pour relever ces défis, nous introduisons GaussianProperty, un cadre sans entraînement qui attribue des propriétés physiques de matériaux à des Gaussiennes en 3D. Plus précisément, nous intégrons la capacité de segmentation de SAM avec la capacité de reconnaissance de GPT-4V(ision) pour formuler un module de raisonnement sur les propriétés physiques global-local pour les images en 2D. Ensuite, nous projetons les propriétés physiques à partir d'images en 2D multi-vues sur des Gaussiennes en 3D en utilisant une stratégie de vote. Nous démontrons que les Gaussiennes en 3D avec des annotations de propriétés physiques permettent des applications dans la simulation dynamique basée sur la physique et la préhension robotique. Pour la simulation dynamique basée sur la physique, nous exploitons la Méthode des Points Matériels (MPM) pour une simulation dynamique réaliste. Pour la préhension robotique, nous développons une stratégie de prédiction de la force de préhension qui estime une plage de forces sûre requise pour la préhension d'objets en fonction des propriétés physiques estimées. Des expériences approfondies sur la segmentation des matériaux, la simulation dynamique basée sur la physique et la préhension robotique valident l'efficacité de notre méthode proposée, mettant en évidence son rôle crucial dans la compréhension des propriétés physiques à partir de données visuelles. Une démonstration en ligne, du code, plus de cas et des ensembles de données annotés sont disponibles sur https://Gaussian-Property.github.io.

IDArb : Décomposition Intrinsèque pour un Nombre Arbitraire de Vues d'Entrée et d'Illuminations
IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

Dec 16

ByZhibing Li, Tong Wu, Jing Tan, Mengchen Zhang, Jiaqi Wang, Dahua Lin

Capturer des informations géométriques et matérielles à partir d'images reste un défi fondamental en vision par ordinateur et en infographie. Les méthodes traditionnelles basées sur l'optimisation nécessitent souvent des heures de calcul pour reconstruire la géométrie, les propriétés matérielles et l'éclairage environnemental à partir d'entrées multi-vues denses, tout en luttant encore avec les ambiguïtés inhérentes entre l'éclairage et le matériau. D'autre part, les approches basées sur l'apprentissage exploitent des informations matérielles riches à partir de jeux de données d'objets 3D existants mais rencontrent des difficultés à maintenir une cohérence multi-vues. Dans cet article, nous présentons IDArb, un modèle basé sur la diffusion conçu pour effectuer une décomposition intrinsèque sur un nombre arbitraire d'images sous des illuminations variables. Notre méthode permet une estimation précise et cohérente multi-vues des normales de surface et des propriétés matérielles. Cela est rendu possible grâce à un module d'attention croisée vue par vue et domaine par domaine novateur, ainsi qu'à une stratégie d'entraînement augmentée par l'éclairage et adaptée à la vue. De plus, nous introduisons ARB-Objaverse, un nouveau jeu de données fournissant des données intrinsèques multi-vues à grande échelle et des rendus sous des conditions d'éclairage diverses, soutenant ainsi un entraînement robuste. Des expériences approfondies démontrent qu'IDArb surpasse qualitativement et quantitativement les méthodes de pointe. De plus, notre approche facilite toute une gamme de tâches ultérieures, y compris le reéclairage d'une seule image, la stéréophotométrie et la reconstruction 3D, mettant en lumière ses larges applications dans la création de contenu 3D réaliste.

SepLLM : Accélérer les grands modèles de langage en comprimant un segment en un séparateur
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator

Dec 16

ByGuoxuan Chen, Han Shi, Jiawei Li, Yihang Gao, Xiaozhe Ren, Yimeng Chen, Xin Jiang, Zhenguo Li, Weiyang Liu, Chao Huang

Les grands modèles de langage (LLM) ont montré des performances exceptionnelles dans une variété de tâches de traitement automatique du langage naturel. Cependant, leurs tailles substantielles posent des défis considérables, notamment en termes d'exigences computationnelles et de vitesse d'inférence, en raison de leur complexité quadratique. Dans ce travail, nous avons identifié un schéma clé : certains jetons spéciaux apparemment sans signification (c'est-à-dire, des séparateurs) contribuent de manière disproportionnée aux scores d'attention par rapport aux jetons sémantiquement significatifs. Cette observation suggère que les informations des segments entre ces jetons séparateurs peuvent être efficacement condensées dans les jetons séparateurs eux-mêmes sans perte significative d'informations. Guidés par cette intuition, nous introduisons SepLLM, un cadre plug-and-play qui accélère l'inférence en compressant ces segments et en éliminant les jetons redondants. De plus, nous mettons en œuvre des noyaux efficaces pour l'accélération de l'entraînement. Les résultats expérimentaux dans des configurations sans entraînement, avec entraînement à partir de zéro et en post-entraînement démontrent l'efficacité de SepLLM. Notamment, en utilisant l'épine dorsale Llama-3-8B, SepLLM obtient une réduction de plus de 50 % du cache KV sur le banc d'essai GSM8K-CoT tout en maintenant des performances comparables. De plus, dans des configurations de flux, SepLLM traite efficacement des séquences allant jusqu'à 4 millions de jetons ou plus tout en conservant des capacités de modélisation linguistique cohérentes.

StrandHead : Texte vers des avatars de tête 3D désentrelacés en utilisant des cheveux comme contraintes géométriques.
StrandHead: Text to Strand-Disentangled 3D Head Avatars Using Hair Geometric Priors

Dec 16

ByXiaokun Sun, Zeyu Cai, Zhenyu Zhang, Ying Tai, Jian Yang

Alors que la coiffure indique une personnalité distincte, les méthodes existantes de génération d'avatars échouent à modéliser des cheveux pratiques en raison de la représentation générale ou emmêlée. Nous proposons StrandHead, une nouvelle méthode de génération d'avatars de tête 3D à partir de texte capable de générer des cheveux 3D démêlés avec une représentation en mèches. Sans utiliser de données 3D pour la supervision, nous démontrons que des mèches de cheveux réalistes peuvent être générées à partir de consignes en distillant des modèles de diffusion générative 2D. À cette fin, nous proposons une série de prédictions fiables sur l'initialisation de la forme, les primitives géométriques et les caractéristiques statistiques de la coiffure, conduisant à une optimisation stable et des performances alignées sur le texte. Des expériences approfondies montrent que StrandHead atteint l'état de l'art en termes de réalisme et de diversité de têtes 3D et de cheveux générés. Les cheveux 3D générés peuvent également être facilement implémentés dans le moteur Unreal pour une simulation physique et d'autres applications. Le code sera disponible sur https://xiaokunsun.github.io/StrandHead.github.io.

L'avantage de l'open source dans les grands modèles de langage (LLM)
The Open Source Advantage in Large Language Models (LLMs)

Dec 16

ByJiya Manchanda, Laura Boettcher, Matheus Westphalen, Jasser Jasser

Les grands modèles de langage (LLM) marquent un changement clé dans le traitement automatique du langage naturel (TALN), ayant fait progresser la génération de texte, la traduction et le raisonnement spécifique au domaine. Les modèles propriétaires comme GPT-4, alimentés par des ensembles de données propriétaires et des ressources computationnelles étendues, se distinguent par leurs performances de pointe aujourd'hui. Cependant, ils sont critiqués pour leur nature de "boîte noire" et pour limiter l'accessibilité d'une manière qui entrave la reproductibilité et le développement équitable de l'IA. En revanche, les initiatives open-source comme LLaMA et BLOOM donnent la priorité à la démocratisation à travers un développement piloté par la communauté et une efficacité computationnelle. Ces modèles ont considérablement réduit les écarts de performance, notamment en termes de diversité linguistique et d'applications spécifiques au domaine, tout en fournissant des outils accessibles aux chercheurs et développeurs du monde entier. Notamment, les deux paradigmes s'appuient sur des innovations architecturales fondamentales, telles que le cadre Transformer de Vaswani et al. (2017). Les modèles propriétaires excellent en se développant efficacement, tandis que les modèles open-source s'adaptent aux applications du monde réel dans des langues et des domaines sous-représentés. Des techniques comme l'Adaptation à Faible Rang (LoRA) et des ensembles de données d'ajustement d'instructions permettent aux modèles open-source d'obtenir des résultats compétitifs malgré des ressources limitées. En effet, la tension entre les approches propriétaires et open-source souligne un débat plus large sur la transparence par rapport au contrôle propriétaire en IA. Les considérations éthiques mettent en lumière cette division. Les systèmes propriétaires restreignent l'examen externe, tandis que les modèles open-source favorisent la reproductibilité et la collaboration mais manquent de cadres de documentation d'audit normalisés pour atténuer les biais. Les approches hybrides qui tirent parti des forces des deux paradigmes sont susceptibles de façonner l'avenir de l'innovation des LLM, garantissant l'accessibilité, des performances techniques compétitives et un déploiement éthique.

Emma-X : Un modèle d'action multimodal incarné avec une chaîne de pensée ancrée et un raisonnement spatial anticipatif
Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning

Dec 16

ByQi Sun, Pengfei Hong, Tej Deep Pala, Vernon Toh, U-Xuan Tan, Deepanway Ghosal, Soujanya Poria

Les méthodes traditionnelles de contrôle robotique basées sur l'apprentissage par renforcement sont souvent spécifiques à la tâche et échouent à généraliser à travers des environnements divers ou des objets et instructions inconnus. Les Modèles Visuels de Langage (VLM) démontrent une forte compréhension de scène et des capacités de planification, mais ils manquent de la capacité à générer des politiques actionnables adaptées à des embodiments robotiques spécifiques. Pour remédier à cela, les modèles Visual-Language-Action (VLA) ont émergé, mais ils rencontrent des défis en raisonnement spatial à long terme et en planification de tâches ancrées. Dans ce travail, nous proposons le Modèle d'Action Multimodal Incarné avec Chaîne de Pensée Ancrée et Raisonnement Spatial Anticipatif, Emma-X. Emma-X tire parti de notre ensemble de données hiérarchique construit basé sur BridgeV2, contenant 60 000 trajectoires de manipulation de robots auto-annotées avec un raisonnement de tâche ancré et un guidage spatial. De plus, nous introduisons une stratégie de segmentation de trajectoire basée sur les états de la pince et les trajectoires de mouvement, qui peut aider à atténuer l'hallucination dans la génération de raisonnement de sous-tâche ancrée. Les résultats expérimentaux démontrent qu'Emma-X atteint des performances supérieures aux bases de référence compétitives, en particulier dans des tâches robotiques du monde réel nécessitant un raisonnement spatial.

Magnifiques matrices : Combinaison pour une architecture de modèle de base plus efficace et plus performante
Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture

Dec 16

ByJingze Shi, Bingheng Wu

Afin de rendre le modèle de base plus efficace et performant, notre idée est de combiner la transformation de séquence et la transformation d'état. Tout d'abord, nous démontrons la disponibilité de l'incorporation de position rotative dans l'algorithme de dualité de l'espace d'état, ce qui réduit la perplexité de l'auto-attention causale quadratique hybride et de la dualité de l'espace d'état de plus de 4 %, afin de garantir que la combinaison de la transformation de séquence unifie le codage de position. Ensuite, nous proposons une attention de masque dynamique, qui maintient une précision de 100 % dans la tâche plus difficile de rappel associatif multi-requêtes, améliorant de plus de 150 % par rapport à l'auto-attention causale quadratique et à la dualité de l'espace d'état, pour garantir que la transformation de séquence combinée filtre sélectivement les informations pertinentes. Troisièmement, nous concevons un mélange d'experts inter-domaines, qui accélère la vitesse de calcul de la récupération d'experts avec plus de 1024 experts de 8 à 10 fois par rapport au mélange d'experts, pour garantir que la transformation d'état combinée récupère rapidement le mélange. Enfin, nous résumons ces algorithmes matriciels qui peuvent former le modèle de base : les Matrices Merveilleuses, qui peuvent être un concurrent aux architectures de modèle populaires.

DynamicScaler : Génération Vidéo Transparente et Évolutive pour les Scènes Panoramiques
DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes

Dec 15

ByJinxiu Liu, Shaoheng Lin, Yinxiao Li, Ming-Hsuan Yang

La demande croissante d'applications immersives de RA/RV et d'intelligence spatiale a renforcé la nécessité de générer des vidéos panoramiques de haute qualité à 360 degrés au niveau de la scène. Cependant, la plupart des modèles de diffusion vidéo sont limités en résolution et en ratio d'aspect, ce qui restreint leur applicabilité à la synthèse de contenu dynamique au niveau de la scène. Dans ce travail, nous proposons le DynamicScaler, qui répond à ces défis en permettant une synthèse de scène dynamique spatialement évolutive et panoramique qui préserve la cohérence à travers des scènes panoramiques de taille arbitraire. Plus précisément, nous introduisons un Débruiteur à Décalage d'Offset, facilitant un débruitage efficace, synchrone et cohérent des scènes dynamiques panoramiques via un modèle de diffusion avec résolution fixe à travers une Fenêtre rotative sans couture, assurant des transitions de frontières sans heurt et une cohérence sur l'ensemble de l'espace panoramique, en tenant compte des résolutions et ratios d'aspect variables. De plus, nous utilisons un mécanisme de Guidage de Mouvement Global pour garantir à la fois la fidélité des détails locaux et la continuité du mouvement global. Des expériences approfondies démontrent que notre méthode atteint une qualité de contenu et de mouvement supérieure dans la génération de vidéos panoramiques au niveau de la scène, offrant une solution sans entraînement, efficace et évolutive pour la création de scènes dynamiques immersives avec une consommation constante de VRAM indépendamment de la résolution de la vidéo de sortie. Notre page de projet est disponible sur https://dynamic-scaler.pages.dev/.

SplineGS : Spline robuste adaptatif au mouvement pour des Gaussiennes 3D dynamiques en temps réel à partir de vidéos monoculaires
SplineGS: Robust Motion-Adaptive Spline for Real-Time Dynamic 3D Gaussians from Monocular Video

Dec 13

ByJongmin Park, Minh-Quan Viet Bui, Juan Luis Gonzalez Bello, Jaeho Moon, Jihyong Oh, Munchurl Kim

La synthèse de nouvelles vues à partir de vidéos monoclaires en conditions réelles est un défi en raison de la dynamique de la scène et du manque de repères multi-vues. Pour y remédier, nous proposons SplineGS, un cadre dynamique de Splatting Gaussien 3D (3DGS) sans COLMAP pour une reconstruction de haute qualité et un rendu rapide à partir de vidéos monoclaires. À son cœur se trouve une nouvelle méthode de Splines adaptatives au mouvement (MAS), qui représente des trajectoires gaussiennes 3D dynamiques continues en utilisant des splines cubiques d'Hermite avec un petit nombre de points de contrôle. Pour le MAS, nous introduisons une méthode d'Élagage de Points de Contrôle Adaptatif au Mouvement (MACP) pour modéliser la déformation de chaque gaussienne 3D dynamique à travers des mouvements variables, en élaguant progressivement les points de contrôle tout en maintenant l'intégrité de la modélisation dynamique. De plus, nous présentons une stratégie d'optimisation conjointe pour l'estimation des paramètres de la caméra et des attributs gaussiens 3D, en exploitant la cohérence photométrique et géométrique. Cela élimine le besoin de prétraitement de Structure à partir du Mouvement et renforce la robustesse de SplineGS dans des conditions réelles. Les expériences montrent que SplineGS surpasse significativement les méthodes de pointe en termes de qualité de synthèse de nouvelles vues pour des scènes dynamiques à partir de vidéos monoclaires, atteignant une vitesse de rendu des milliers de fois plus rapide.

MOVIS : Amélioration de la Synthèse de Nouvelles Vues Multi-Objets pour les Scènes Intérieures
MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes

Dec 16

ByRuijie Lu, Yixin Chen, Junfeng Ni, Baoxiong Jia, Yu Liu, Diwen Wan, Gang Zeng, Siyuan Huang

La reconversion des modèles de diffusion pré-entraînés s'est avérée efficace pour la synthèse de vues nouvelles (NVS). Cependant, ces méthodes sont principalement limitées à un seul objet ; l'application directe de ces méthodes à des scénarios compositionnels multi-objets donne des résultats inférieurs, notamment un placement incorrect des objets et une forme et une apparence incohérentes sous des vues nouvelles. Comment améliorer et évaluer systématiquement la cohérence inter-vues de tels modèles reste peu exploré. Pour résoudre ce problème, nous proposons MOVIS pour améliorer la conscience structurelle du modèle de diffusion conditionné par la vue pour la NVS multi-objets en termes d'entrées du modèle, de tâches auxiliaires et de stratégie d'entraînement. Tout d'abord, nous injectons des caractéristiques conscientes de la structure, y compris la profondeur et le masque d'objet, dans le U-Net de débruitage pour améliorer la compréhension du modèle des instances d'objets et de leurs relations spatiales. Ensuite, nous introduisons une tâche auxiliaire exigeant que le modèle prédise simultanément des masques d'objets en vue nouvelle, améliorant ainsi la capacité du modèle à différencier et placer les objets. Enfin, nous menons une analyse approfondie du processus d'échantillonnage de la diffusion et concevons soigneusement un planificateur d'échantillonnage guidé par la structure pendant l'entraînement, qui équilibre l'apprentissage du placement global des objets et de la récupération des détails fins. Pour évaluer systématiquement la plausibilité des images synthétisées, nous proposons d'évaluer la cohérence inter-vues et le placement des objets en vue nouvelle aux côtés des métriques existantes de la NVS au niveau de l'image. Des expériences approfondies sur des ensembles de données synthétiques et réalistes difficiles démontrent que notre méthode présente de fortes capacités de généralisation et produit une synthèse de vues nouvelles cohérente, mettant en évidence son potentiel pour guider les futures tâches de NVS multi-objets conscientes de la 3D.

TidyBot++ : Un manipulateur mobile holonomique à source ouverte pour l'apprentissage des robots
TidyBot++: An Open-Source Holonomic Mobile Manipulator for Robot Learning

Dec 11

ByJimmy Wu, William Chong, Robert Holmberg, Aaditya Prasad, Yihuai Gao, Oussama Khatib, Shuran Song, Szymon Rusinkiewicz, Jeannette Bohg

Exploiter la promesse des récents progrès en matière d'apprentissage par imitation pour la manipulation mobile nécessitera la collecte d'un grand nombre de démonstrations guidées par des humains. Cet article propose une conception open source pour un manipulateur mobile peu coûteux, robuste et flexible capable de supporter des bras arbitraires, permettant ainsi une large gamme de tâches de manipulation mobile domestique dans le monde réel. De manière cruciale, notre conception utilise des roulettes motorisées pour permettre à la base mobile d'être entièrement holonomique, capable de contrôler tous les degrés de liberté planaires de manière indépendante et simultanée. Cette caractéristique rend la base plus manœuvrable et simplifie de nombreuses tâches de manipulation mobile, éliminant les contraintes cinématiques qui créent des mouvements complexes et chronophages dans les bases non holonomes. Nous équipons notre robot d'une interface intuitive de téléopération de téléphone mobile pour faciliter l'acquisition de données pour l'apprentissage par imitation. Dans nos expériences, nous utilisons cette interface pour collecter des données et montrer que les politiques apprises qui en résultent peuvent exécuter avec succès une variété de tâches courantes de manipulation mobile domestique.

MaxInfoRL : Stimuler l'exploration en apprentissage par renforcement grâce à la maximisation du gain d'information
MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization

Dec 16

ByBhavya Sukhija, Stelian Coros, Andreas Krause, Pieter Abbeel, Carmelo Sferrazza

Les algorithmes d'apprentissage par renforcement (RL) visent à équilibrer l'exploitation de la meilleure stratégie actuelle avec l'exploration de nouvelles options pouvant conduire à des récompenses plus élevées. La plupart des algorithmes RL courants utilisent une exploration non dirigée, c'est-à-dire qu'ils sélectionnent des séquences aléatoires d'actions. L'exploration peut également être dirigée en utilisant des récompenses intrinsèques, telles que la curiosité ou l'incertitude épistémique du modèle. Cependant, équilibrer efficacement les récompenses de la tâche et les récompenses intrinsèques est difficile et souvent dépendant de la tâche. Dans ce travail, nous introduisons un cadre, MaxInfoRL, pour équilibrer l'exploration intrinsèque et extrinsèque. MaxInfoRL oriente l'exploration vers des transitions informatives, en maximisant les récompenses intrinsèques telles que le gain d'information sur la tâche sous-jacente. Lorsqu'il est combiné à l'exploration de Boltzmann, cette approche échange naturellement la maximisation de la fonction de valeur avec celle de l'entropie sur les états, les récompenses et les actions. Nous montrons que notre approche atteint un regret sous-linéaire dans le cadre simplifié des bandits manchots multi-bras. Nous appliquons ensuite cette formulation générale à une variété de méthodes RL sans modèle hors politique pour des espaces d'états-actions continus, produisant des algorithmes novateurs qui atteignent des performances supérieures sur des problèmes d'exploration difficiles et des scénarios complexes tels que des tâches de contrôle visuel.

Whisper-GPT : un modèle de langue audio à grande représentation hybride
Whisper-GPT: A Hybrid Representation Audio Large Language Model

Dec 16

ByPrateek Verma

Nous proposons WHISPER-GPT : un grand modèle de langage génératif (LLM) pour la parole et la musique qui nous permet de travailler simultanément avec des représentations audio continues et des jetons discrets dans le cadre d'une seule architecture. Il y a eu une énorme vague de modèles génératifs audio, de parole et de musique qui utilisent des jetons audio discrets dérivés d'algorithmes de compression neurale, par exemple ENCODEC. Cependant, l'un des principaux inconvénients de cette approche est la gestion de la longueur du contexte. Cela devient problématique pour une architecture générative haute fidélité si l'on doit tenir compte de tous les contenus audio à différentes fréquences pour la prédiction du jeton suivant. En combinant une représentation audio continue comme le spectrogramme et des jetons acoustiques discrets, nous conservons le meilleur des deux mondes : avoir toutes les informations nécessaires de l'audio à un instant précis dans un seul jeton, tout en permettant au LLM de prédire le jeton futur pour permettre l'échantillonnage et d'autres avantages que l'espace discret offre. Nous montrons comment notre architecture améliore la perplexité et les scores de log-vraisemblance négative pour la prédiction du jeton suivant par rapport à un LLM basé sur les jetons pour la parole et la musique.

GeoX : Résolution de problèmes géométriques grâce à la préformation unifiée formalisée Vision-Language
GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training

Dec 16

ByRenqiu Xia, Mingsheng Li, Hancheng Ye, Wenjie Wu, Hongbin Zhou, Jiakang Yuan, Tianshuo Peng, Xinyu Cai, Xiangchao Yan, Bin Wang, Conghui He, Botian Shi, Tao Chen, Junchi Yan, Bo Zhang

Malgré leur compétence dans les tâches générales, les Modèles de Langage Multimodaux à Grande Échelle (MLLM) rencontrent des difficultés dans la Résolution Automatique de Problèmes de Géométrie (GPS), qui exige la compréhension des diagrammes, l'interprétation des symboles et la réalisation de raisonnements complexes. Cette limitation découle de leur pré-entraînement sur des images naturelles et des textes, ainsi que du manque de vérification automatisée dans le processus de résolution de problèmes. De plus, les spécialistes géométriques actuels sont limités par leurs conceptions spécifiques à la tâche, ce qui les rend moins efficaces pour des problèmes géométriques plus larges. À cette fin, nous présentons GeoX, un grand modèle multimodal axé sur la compréhension géométrique et les tâches de raisonnement. Compte tenu des différences significatives entre les diagrammes-symboles géométriques et les images-textes naturelles, nous introduisons un pré-entraînement unimodal pour développer un codeur de diagramme et un décodeur de symboles, améliorant la compréhension des images et des corpus géométriques. De plus, nous introduisons l'alignement géométrie-langage, un paradigme de pré-entraînement efficace qui comble l'écart de modalité entre les experts géométriques unimodaux. Nous proposons un Transformateur Générateur-Et-Échantillonneur (GS-Former) pour générer des requêtes discriminatives et éliminer les représentations non informatives des signaux géométriques inégalement distribués. Enfin, GeoX bénéficie d'un réglage d'instruction visuelle, lui permettant de prendre des images géométriques et des questions en entrée et de générer des solutions vérifiables. Les expériences montrent que GeoX surpasse à la fois les généralistes et les spécialistes géométriques sur des benchmarks reconnus publiquement, tels que GeoQA, UniGeo, Geometry3K et PGPS9k.

Tableaux de classement fiables, reproductibles et vraiment rapides avec Evalica
Reliable, Reproducible, and Really Fast Leaderboards with Evalica

Dec 15

ByDmitry Ustalov

L'avancée rapide des technologies de traitement du langage naturel (NLP), telles que les grands modèles de langage ajustés aux instructions (LLMs), nécessite le développement de protocoles d'évaluation modernes avec des retours humains et machine. Nous introduisons Evalica, une boîte à outils open-source qui facilite la création de tableaux de classement de modèles fiables et reproductibles. Cet article présente sa conception, évalue ses performances et démontre sa facilité d'utilisation à travers son interface Web, son interface en ligne de commande et son API Python.

Une simple transformation suffit pour la protection des données dans l'apprentissage fédéré vertical.
Just a Simple Transformation is Enough for Data Protection in Vertical Federated Learning

Dec 16

ByAndrei Semenov, Philip Zmushko, Alexander Pichugin, Aleksandr Beznosikov

L'apprentissage fédéré vertical (VFL) vise à permettre l'entraînement collaboratif de modèles d'apprentissage profond tout en préservant la protection de la vie privée. Cependant, la procédure VFL comporte encore des composants vulnérables aux attaques de parties malveillantes. Dans notre travail, nous examinons les attaques de reconstruction de caractéristiques, un risque courant visant la compromission des données d'entrée. Nous soutenons théoriquement que les attaques de reconstruction de caractéristiques ne peuvent réussir sans connaissance de la distribution antérieure des données. Par conséquent, nous démontrons que même des transformations simples de l'architecture du modèle peuvent avoir un impact significatif sur la protection des données d'entrée lors du VFL. En confirmant ces résultats avec des expériences, nous montrons que les modèles basés sur MLP sont résistants aux attaques de reconstruction de caractéristiques de pointe.

Protection quasi nulle contre l'imitation par des modèles de diffusion personnalisés
Nearly Zero-Cost Protection Against Mimicry by Personalized Diffusion Models

Dec 16

ByNamhyuk Ahn, KiYoon Yoo, Wonhyuk Ahn, Daesik Kim, Seung-Hun Nam

Les récentes avancées dans les modèles de diffusion révolutionnent la génération d'images mais posent des risques de mauvais usage, tels que la reproduction d'œuvres d'art ou la création de deepfakes. Les méthodes existantes de protection des images, bien qu'efficaces, peinent à équilibrer l'efficacité de la protection, l'invisibilité et la latence, limitant ainsi leur utilisation pratique. Nous introduisons un pré-entraînement par perturbation pour réduire la latence et proposons une approche de mélange de perturbations qui s'adapte dynamiquement aux images d'entrée pour minimiser la dégradation des performances. Notre nouvelle stratégie d'entraînement calcule la perte de protection à travers plusieurs espaces de caractéristiques VAE, tandis qu'une protection ciblée adaptative à l'inférence améliore la robustesse et l'invisibilité. Les expériences montrent des performances de protection comparables avec une invisibilité améliorée et un temps d'inférence considérablement réduit. Le code et la démonstration sont disponibles sur https://webtoon.github.io/impasto

RLDG : Distillation de politique généraliste robotique via l'apprentissage par renforcement
RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning

Dec 13

ByCharles Xu, Qiyang Li, Jianlan Luo, Sergey Levine

Les récents progrès dans les modèles fondamentaux de robotique ont permis le développement de politiques généralistes capables de s'adapter à diverses tâches. Bien que ces modèles montrent une flexibilité impressionnante, leurs performances dépendent fortement de la qualité de leurs données d'entraînement. Dans ce travail, nous proposons les Généralistes Distillés par Apprentissage par Renforcement (RLDG), une méthode qui exploite l'apprentissage par renforcement pour générer des données d'entraînement de haute qualité pour le peaufinage des politiques généralistes. À travers des expériences approfondies dans le monde réel sur des tâches de manipulation précises telles que l'insertion de connecteurs et l'assemblage, nous démontrons que les politiques généralistes entraînées avec des données générées par RL surpassent de manière constante celles entraînées avec des démonstrations humaines, atteignant des taux de réussite jusqu'à 40% plus élevés tout en généralisant mieux à de nouvelles tâches. Nous fournissons également une analyse détaillée qui révèle que ce gain de performance provient à la fois de distributions d'actions optimisées et d'une meilleure couverture d'états. Nos résultats suggèrent que la combinaison de l'apprentissage par renforcement spécifique à la tâche avec la distillation de politiques généralistes offre une approche prometteuse pour le développement de systèmes de manipulation robotique plus capables et efficaces, tout en conservant la flexibilité des modèles fondamentaux tout en atteignant les performances des contrôleurs spécialisés. Les vidéos et le code sont disponibles sur notre site web de projet https://generalist-distillation.github.io

papers.title

papers.description

Transformateur latent par octet : les patchs s'échelonnent mieux que les jetons
Byte Latent Transformer: Patches Scale Better Than Tokens

Dec 13

108

BrushEdit : Inpainting et Édition d'Image Tout-en-Un
BrushEdit: All-In-One Image Inpainting and Editing

Dec 13

ByYaowei Li, Yuxuan Bian, Xuan Ju, Zhaoyang Zhang, Ying Shan, Qiang Xu

Agent d'Évaluation : Cadre d'Évaluation Efficace et Interrogeable pour les Modèles Génératifs Visuels
Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

Dec 10

ByFan Zhang, Shulin Tian, Ziqi Huang, Yu Qiao, Ziwei Liu

RetroLLM : Donner aux grands modèles de langage la capacité de récupérer des preuves détaillées lors de la génération
RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation

Dec 16

ByXiaoxi Li, Jiajie Jin, Yujia Zhou, Yongkang Wu, Zhonghua Li, Qi Ye, Zhicheng Dou

Les modèles de langage plus petits sont de meilleurs évolueurs d'instructions.
Smaller Language Models Are Better Instruction Evolvers

Dec 15

ByTingfeng Hui, Lulu Zhao, Guanting Dong, Yaqi Zhang, Hua Zhou, Sen Su

ColorFlow : Colorisation de séquences d'images améliorée par la récupération
ColorFlow: Retrieval-Augmented Image Sequence Colorization

Dec 16

ByJunhao Zhuang, Xuan Ju, Zhaoyang Zhang, Yong Liu, Shiyi Zhang, Chun Yuan, Ying Shan

Transformateurs de Diffusion Causale pour la Modélisation Générative
Causal Diffusion Transformers for Generative Modeling

Dec 16

ByChaorui Deng, Deyao Zh, Kunchang Li, Shi Guan, Haoqi Fan

SPaR : Auto-apprentissage avec affinage de la recherche arborescente pour améliorer le suivi d'instructions dans les grands modèles de langage
SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

Dec 16

ByJiale Cheng, Xiao Liu, Cunxiang Wang, Xiaotao Gu, Yida Lu, Dan Zhang, Yuxiao Dong, Jie Tang, Hongning Wang, Minlie Huang

Pays des Merveilles : Navigation dans des scènes 3D à partir d'une seule image
Wonderland: Navigating 3D Scenes from a Single Image

Dec 16

ByHanwen Liang, Junli Cao, Vidit Goel, Guocheng Qian, Sergei Korolev, Demetri Terzopoulos, Konstantinos N. Plataniotis, Sergey Tulyakov, Jian Ren

VividFace : Un cadre hybride basé sur la diffusion pour un échange de visages vidéo haute fidélité
VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping

Dec 15

ByHao Shao, Shulun Wang, Yang Zhou, Guanglu Song, Dailan He, Shuo Qin, Zhuofan Zong, Bingqi Ma, Yu Liu, Hongsheng Li

Propriété gaussienne : Intégration des propriétés physiques aux gaussiennes 3D avec LMM.
GaussianProperty: Integrating Physical Properties to 3D Gaussians with LMMs

Dec 15

ByXinli Xu, Wenhang Ge, Dicong Qiu, ZhiFei Chen, Dongyu Yan, Zhuoyun Liu, Haoyu Zhao, Hanfeng Zhao, Shunsi Zhang, Junwei Liang, Ying-Cong Chen

IDArb : Décomposition Intrinsèque pour un Nombre Arbitraire de Vues d'Entrée et d'Illuminations
IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

Dec 16

ByZhibing Li, Tong Wu, Jing Tan, Mengchen Zhang, Jiaqi Wang, Dahua Lin

SepLLM : Accélérer les grands modèles de langage en comprimant un segment en un séparateur
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator

Dec 16

ByGuoxuan Chen, Han Shi, Jiawei Li, Yihang Gao, Xiaozhe Ren, Yimeng Chen, Xin Jiang, Zhenguo Li, Weiyang Liu, Chao Huang

StrandHead : Texte vers des avatars de tête 3D désentrelacés en utilisant des cheveux comme contraintes géométriques.
StrandHead: Text to Strand-Disentangled 3D Head Avatars Using Hair Geometric Priors

Dec 16

ByXiaokun Sun, Zeyu Cai, Zhenyu Zhang, Ying Tai, Jian Yang

L'avantage de l'open source dans les grands modèles de langage (LLM)
The Open Source Advantage in Large Language Models (LLMs)

Dec 16

ByJiya Manchanda, Laura Boettcher, Matheus Westphalen, Jasser Jasser

Emma-X : Un modèle d'action multimodal incarné avec une chaîne de pensée ancrée et un raisonnement spatial anticipatif
Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning

Dec 16

ByQi Sun, Pengfei Hong, Tej Deep Pala, Vernon Toh, U-Xuan Tan, Deepanway Ghosal, Soujanya Poria

Magnifiques matrices : Combinaison pour une architecture de modèle de base plus efficace et plus performante
Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture

Dec 16

ByJingze Shi, Bingheng Wu

DynamicScaler : Génération Vidéo Transparente et Évolutive pour les Scènes Panoramiques
DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes

Dec 15

ByJinxiu Liu, Shaoheng Lin, Yinxiao Li, Ming-Hsuan Yang

SplineGS : Spline robuste adaptatif au mouvement pour des Gaussiennes 3D dynamiques en temps réel à partir de vidéos monoculaires
SplineGS: Robust Motion-Adaptive Spline for Real-Time Dynamic 3D Gaussians from Monocular Video

Dec 13

ByJongmin Park, Minh-Quan Viet Bui, Juan Luis Gonzalez Bello, Jaeho Moon, Jihyong Oh, Munchurl Kim

MOVIS : Amélioration de la Synthèse de Nouvelles Vues Multi-Objets pour les Scènes Intérieures
MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes

Dec 16

ByRuijie Lu, Yixin Chen, Junfeng Ni, Baoxiong Jia, Yu Liu, Diwen Wan, Gang Zeng, Siyuan Huang

TidyBot++ : Un manipulateur mobile holonomique à source ouverte pour l'apprentissage des robots
TidyBot++: An Open-Source Holonomic Mobile Manipulator for Robot Learning

Dec 11

ByJimmy Wu, William Chong, Robert Holmberg, Aaditya Prasad, Yihuai Gao, Oussama Khatib, Shuran Song, Szymon Rusinkiewicz, Jeannette Bohg

MaxInfoRL : Stimuler l'exploration en apprentissage par renforcement grâce à la maximisation du gain d'information
MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization

Dec 16

ByBhavya Sukhija, Stelian Coros, Andreas Krause, Pieter Abbeel, Carmelo Sferrazza

Whisper-GPT : un modèle de langue audio à grande représentation hybride
Whisper-GPT: A Hybrid Representation Audio Large Language Model

Dec 16

ByPrateek Verma

GeoX : Résolution de problèmes géométriques grâce à la préformation unifiée formalisée Vision-Language
GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training

Dec 16

ByRenqiu Xia, Mingsheng Li, Hancheng Ye, Wenjie Wu, Hongbin Zhou, Jiakang Yuan, Tianshuo Peng, Xinyu Cai, Xiangchao Yan, Bin Wang, Conghui He, Botian Shi, Tao Chen, Junchi Yan, Bo Zhang

Tableaux de classement fiables, reproductibles et vraiment rapides avec Evalica
Reliable, Reproducible, and Really Fast Leaderboards with Evalica

Dec 15

ByDmitry Ustalov

Une simple transformation suffit pour la protection des données dans l'apprentissage fédéré vertical.
Just a Simple Transformation is Enough for Data Protection in Vertical Federated Learning

Dec 16

ByAndrei Semenov, Philip Zmushko, Alexander Pichugin, Aleksandr Beznosikov

Protection quasi nulle contre l'imitation par des modèles de diffusion personnalisés
Nearly Zero-Cost Protection Against Mimicry by Personalized Diffusion Models

Dec 16

ByNamhyuk Ahn, KiYoon Yoo, Wonhyuk Ahn, Daesik Kim, Seung-Hun Nam

RLDG : Distillation de politique généraliste robotique via l'apprentissage par renforcement
RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning

Dec 13

ByCharles Xu, Qiyang Li, Jianlan Luo, Sergey Levine