ChatPaper.aiChatPaper.ai
Accueil

arXiv

HuggingFace

TarifsCompteEspace de travail

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

Eagle : Exploration de l'espace de conception pour les LLM multimodaux avec un mélange d'encodeurs
Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders

Aug 28
ByMin Shi, Fuxiao Liu, Shihao Wang, Shijia Liao, Subhashree Radhakrishnan, De-An Huang, Hongxu Yin, Karan Sapra, Yaser Yacoob, Humphrey Shi, Bryan Catanzaro, Andrew Tao, Jan Kautz, Zhiding Yu, Guilin Liu
87
3

La capacité d'interpréter avec précision des informations visuelles complexes est un sujet crucial des grands modèles de langage multimodaux (MLLM). Des travaux récents indiquent que l'amélioration de la perception visuelle réduit significativement les hallucinations et améliore les performances sur des tâches sensibles à la résolution, telles que la reconnaissance optique de caractères et l'analyse de documents. Plusieurs MLLMs récents atteignent cet objectif en utilisant un mélange de codeurs visuels. Malgré leur succès, il existe un manque de comparaisons systématiques et d'études d'ablation détaillées abordant des aspects critiques, tels que la sélection d'experts et l'intégration de plusieurs experts en vision. Cette étude propose une exploration approfondie de l'espace de conception des MLLMs en utilisant un mélange de codeurs visuels et de résolutions. Nos résultats révèlent plusieurs principes sous-jacents communs à diverses stratégies existantes, conduisant à une approche de conception simplifiée mais efficace. Nous découvrons que simplement concaténer des jetons visuels issus d'un ensemble de codeurs visuels complémentaires est aussi efficace que des architectures ou stratégies de mélange plus complexes. Nous introduisons également la Pré-Alignement pour combler le fossé entre les codeurs axés sur la vision et les jetons de langage, améliorant la cohérence du modèle. La famille de MLLMs résultante, Eagle, surpasse d'autres modèles open-source de premier plan sur les principaux bancs d'essai de MLLM. Modèles et code : https://github.com/NVlabs/Eagle

2

BaichuanSEED : Partager le potentiel de la collecte extensive de données et de la déduplication en introduisant une ligne de base compétitive basée sur un grand modèle de langue.
BaichuanSEED: Sharing the Potential of ExtensivE Data Collection and Deduplication by Introducing a Competitive Large Language Model Baseline

Aug 27
ByGuosheng Dong, Da Pan, Yiding Sun, Shusen Zhang, Zheng Liang, Xin Wu, Yanjun Shen, Fan Yang, Haoze Sun, Tianpeng Li, Mingan Lin, Jianhua Xu, Yufan Zhang, Xiaonan Nie, Lei Su, Bingning Wang, Wentao Zhang, Jiaxin Mao, Zenan Zhou, Weipeng Chen
54
4

Les capacités générales des Grands Modèles de Langage (GML) dépendent fortement de la composition et de la sélection de vastes ensembles de données de pré-entraînement, traités comme des secrets commerciaux par plusieurs institutions. Pour atténuer ce problème, nous rendons publics les détails d'un pipeline de traitement de données universellement applicable et validons son efficacité et son potentiel en introduisant une ligne de base compétitive de GML. Plus précisément, le pipeline de traitement des données comprend une collecte large pour augmenter l'échelle et un rééquilibrage pour améliorer la qualité. Nous pré-entraînons ensuite un modèle 7B BaichuanSEED avec 3T de jetons traités par notre pipeline sans aucune optimisation délibérée liée à des tâches en aval, suivi d'une étape de fine-tuning supervisée simple mais efficace. BaichuanSEED démontre une cohérence et une prévisibilité tout au long de l'entraînement et atteint des performances comparables sur des référentiels complets avec plusieurs grands modèles de langage commerciaux avancés, tels que Qwen1.5 et Llama3. Nous menons également plusieurs expériences heuristiques pour discuter du potentiel d'optimisation supplémentaire des tâches en aval, telles que les mathématiques et la programmation.

3

Dauphin : Le contexte long en tant que nouvelle modalité pour des modèles de langage sur appareil économes en énergie
Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models

Aug 28
ByWei Chen, Zhiyuan Li, Shuo Xin, Yihao Wang
42
4

Cet article présente Dolphin, une architecture novatrice de décodeur-décodeur pour le traitement économe en énergie de longs contextes dans les modèles de langage. Notre approche aborde les importants défis de consommation d'énergie et de latence inhérents aux modèles embarqués. Dolphin utilise un décodeur compact de 0,5 milliard de paramètres pour condenser de vastes informations contextuelles dans un encodage en mémoire, réduisant considérablement la longueur d'entrée pour le modèle de décodeur principal de 7 milliards de paramètres. Inspirés par les modèles vision-langage, nous réutilisons le projecteur d'encodage d'image pour encoder de longs contextes textuels, traitant efficacement le contexte étendu comme une modalité distincte. Cette méthode innovante permet de traiter des contextes nettement plus longs sans la surcharge computationnelle habituelle associée aux séquences d'entrée étendues. Les évaluations empiriques montrent une amélioration de 10 fois de l'efficacité énergétique et une réduction de 5 fois de la latence par rapport aux méthodes conventionnelles de traitement de contexte complet sans perte de qualité de la réponse. Notre travail contribue au développement de modèles de langage plus durables et évolutifs pour les applications embarquées, répondant au besoin critique de technologies d'IA économes en énergie et réactives dans des environnements aux ressources limitées tout en maintenant la précision pour comprendre de longs contextes. Cette recherche a des implications pour le domaine plus large du traitement du langage naturel, en particulier dans le domaine de la conception efficace de modèles pour des paramètres limités. En permettant des capacités d'IA plus sophistiquées sur les appareils périphériques, Dolphin ouvre la voie au traitement de langage avancé dans un large éventail d'applications où les ressources computationnelles sont rares. Le modèle Dolphin est disponible publiquement sur https://huggingface.co/NexaAIDev/Dolphin.

4

LLaVA-MoD : Réduction de la taille de LLaVA via la distillation des connaissances MoE
LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation

Aug 28
ByFangxun Shu, Yue Liao, Le Zhuo, Chenning Xu, Guanghao Zhang, Haonan Shi, Long Chen, Tao Zhong, Wanggui He, Siming Fu, Haoyuan Li, Bolin Li, Zhelun Yu, Si Liu, Hongsheng Li, Hao Jiang
21
2

Nous présentons LLaVA-MoD, un nouveau cadre conçu pour permettre l'entraînement efficace de petits Modèles de Langage Multimodaux (s-MLLM) en distillant les connaissances des grands MLLM (l-MLLM). Notre approche aborde deux défis fondamentaux de la distillation des MLLM. Tout d'abord, nous optimisons la structure du réseau des s-MLLM en intégrant une architecture de Mélange d'Experts (MoE) clairsemés dans le modèle de langage, trouvant un équilibre entre l'efficacité computationnelle et l'expressivité du modèle. Ensuite, nous proposons une stratégie progressive de transfert de connaissances pour garantir une migration complète des connaissances. Cette stratégie commence par la distillation par mimétisme, où nous minimisons la divergence de Kullback-Leibler (KL) entre les distributions de sortie pour permettre au modèle étudiant d'imiter la compréhension du réseau enseignant. Ensuite, nous introduisons la distillation des préférences via l'Optimisation Directe des Préférences (DPO), où la clé réside dans le traitement du l-MLLM comme modèle de référence. Au cours de cette phase, la capacité du s-MLLM à discriminer entre des exemples supérieurs et inférieurs est considérablement améliorée par rapport au l-MLLM, conduisant à un meilleur étudiant qui dépasse son enseignant, en particulier dans les évaluations de l'hallucination. Des expériences approfondies démontrent que LLaVA-MoD surpasse les modèles existants sur diverses évaluations multimodales tout en maintenant un nombre minimal de paramètres activés et des coûts computationnels bas. Remarquablement, LLaVA-MoD, avec seulement 2 milliards de paramètres activés, surpasse Qwen-VL-Chat-7B en moyenne de 8,8 % sur les évaluations, en utilisant seulement 0,3 % des données d'entraînement et 23 % des paramètres entraînables. Ces résultats soulignent la capacité de LLaVA-MoD à distiller efficacement des connaissances complètes de son modèle enseignant, ouvrant la voie au développement de MLLM plus efficaces. Le code sera disponible sur : https://github.com/shufangxun/LLaVA-MoD.

5

Ordonnancement efficace de LLM par apprentissage pour le classement
Efficient LLM Scheduling by Learning to Rank

Aug 28
ByYichao Fu, Siqi Zhu, Runlong Su, Aurick Qiao, Ion Stoica, Hao Zhang
20
2

Dans l'inférence de grands modèles de langage (LLM), la longueur de sortie d'une requête LLM est généralement considérée comme inconnue a priori. Par conséquent, la plupart des systèmes de traitement LLM utilisent une stratégie de planification simple de type premier arrivé, premier servi (FCFS), entraînant un blocage de tête de ligne (HOL) et une réduction du débit et de la qualité de service. Dans cet article, nous réexaminons cette hypothèse -- nous montrons que, bien qu'il soit impossible de prédire la longueur exacte de génération de chaque requête, il est possible de prédire les rangs relatifs des longueurs de sortie dans un lot de requêtes, en utilisant l'apprentissage pour le classement. Les informations de classement offrent des orientations précieuses pour la planification des requêtes. En nous appuyant sur cette observation, nous développons un nouveau planificateur pour l'inférence et le traitement LLM qui peut mieux approximer le calendrier du plus court travail d'abord (SJF) que les approches existantes. Nous intégrons ce planificateur avec le système de traitement LLM de pointe et montrons une amélioration significative des performances dans plusieurs applications importantes : une réduction de 2,8 fois de la latence dans le traitement des chatbots et une augmentation de 6,5 fois du débit dans la génération de données synthétiques. Notre code est disponible sur https://github.com/hao-ai-lab/vllm-ltr.git

6

Exploiter la connaissance ouverte pour faire progresser l'expertise des tâches dans les grands modèles de langage.
Leveraging Open Knowledge for Advancing Task Expertise in Large Language Models

Aug 28
ByYuncheng Yang, Yulei Qin, Tong Wu, Zihan Xu, Gang Li, Pengcheng Guo, Hang Shao, Yucheng Shi, Ke Li, Xing Sun, Jie Yang, Yun Gu
19
4

La cultivation de l'expertise pour les grands modèles de langage (GML) afin de résoudre des tâches spécifiques nécessite souvent un réglage spécialisé avec des comportements calibrés sur les sorties stables attendues. Pour éviter les coûts énormes liés à la préparation manuelle de jeux de données d'instructions et de ressources de formation pouvant atteindre des centaines d'heures, l'exploitation des connaissances ouvertes, y compris une multitude de modèles d'adaptation de faible rang (LoRA) et de jeux de données d'instructions, sert de bon point de départ. Cependant, les méthodes existantes de sélection de modèles et de données se concentrent sur les performances des capacités polyvalentes tout en négligeant l'écart de connaissances exposé dans le déploiement spécifique au domaine. Dans la présente étude, nous proposons de combler cet écart en introduisant quelques échantillons annotés par des humains (c'est-à-dire, K-shot) pour faire progresser l'expertise des GML avec des connaissances ouvertes. Plus précisément, nous développons un pipeline efficace et évolutif pour produire de manière rentable des experts en tâches où les données K-shot interviennent dans la sélection des candidats experts les plus prometteurs et des instructions pertinentes pour la tâche. Un système de mélange d'experts (MoE) est construit pour tirer le meilleur parti des connaissances individuelles mais complémentaires entre plusieurs experts. Nous révélons les deux clés du succès d'un système MoE, 1) le respect de K-shot, et 2) l'insistance sur la diversité. Pour le premier point, nous nous assurons que les modèles qui possèdent réellement des capacités de résolution de problèmes sur K-shot sont sélectionnés plutôt que les devineurs aveugles. De plus, lors de la sélection des données, les instructions partageant des contextes pertinents pour la tâche avec K-shot sont priorisées. Pour le second point, nous mettons en avant la diversité des experts constitutifs et celle des instructions de peaufinage tout au long du processus de sélection de modèles et de données. Des résultats expérimentaux approfondis confirment la supériorité de notre approche par rapport aux méthodes existantes sur l'utilisation des connaissances ouvertes dans diverses tâches. Les codes et les modèles seront publiés ultérieurement.

7

La distribution du retour en arrière crée une trajectoire de convergence plus rapide pour la distillation de diffusion en une étape.
Distribution Backtracking Builds A Faster Convergence Trajectory for One-step Diffusion Distillation

Aug 28
ByShengyuan Zhang, Ling Yang, Zejian Li, An Zhao, Chenye Meng, Changyuan Yang, Guang Yang, Zhiyuan Yang, Lingyun Sun
16
2

Accélérer la vitesse d'échantillonnage des modèles de diffusion reste un défi significatif. Les récents méthodes de distillation de score distillent un modèle enseignant lourd en un générateur étudiant à une étape, qui est optimisé en calculant la différence entre les deux fonctions de score sur les échantillons générés par le modèle étudiant. Cependant, il existe un problème de désaccord de score au début du processus de distillation, car les méthodes existantes se concentrent principalement sur l'utilisation du point final des modèles de diffusion pré-entraînés en tant que modèles enseignants, en négligeant l'importance de la trajectoire de convergence entre le générateur étudiant et le modèle enseignant. Pour résoudre ce problème, nous étendons le processus de distillation de score en introduisant l'ensemble de la trajectoire de convergence des modèles enseignants et proposons la Distillation avec Retour sur Distribution (DisBack) pour distiller les générateurs étudiants. DisBack se compose de deux étapes : Enregistrement de la Détérioration et Retour sur Distribution. L'Enregistrement de la Détérioration est conçu pour obtenir la trajectoire de convergence des modèles enseignants, qui enregistre le chemin de détérioration du modèle enseignant entraîné au générateur étudiant initial non entraîné. Le chemin de détérioration représente implicitement les distributions intermédiaires des modèles enseignants. Ensuite, le Retour sur Distribution entraîne un générateur étudiant à revenir sur les distributions intermédiaires pour approximer la trajectoire de convergence des modèles enseignants. Des expériences approfondies montrent que DisBack atteint une convergence plus rapide et meilleure que la méthode de distillation existante et réalise des performances de génération comparables. Notamment, DisBack est facile à implémenter et peut être généralisé aux méthodes de distillation existantes pour améliorer les performances. Notre code est publiquement disponible sur https://github.com/SYZhang0805/DisBack.

8

Navigateur de connaissances : Cadre de navigation guidée par LLM pour la recherche exploratoire dans la littérature scientifique
Knowledge Navigator: LLM-guided Browsing Framework for Exploratory Search in Scientific Literature

Aug 28
ByUri Katz, Mosh Levy, Yoav Goldberg
14
4

La croissance exponentielle de la littérature scientifique nécessite des outils avancés pour une exploration efficace des connaissances. Nous présentons Knowledge Navigator, un système conçu pour améliorer les capacités de recherche exploratoire en organisant et structurant les documents récupérés à partir de requêtes thématiques larges en une hiérarchie navigable à deux niveaux de sujets scientifiques nommés et descriptifs ainsi que de sous-sujets. Cette organisation structurée offre une vue d'ensemble des thèmes de recherche dans un domaine, tout en permettant une recherche itérative et une découverte de connaissances approfondie au sein de sous-sujets spécifiques en permettant aux utilisateurs d'affiner leur focus et de récupérer des documents pertinents supplémentaires. Knowledge Navigator combine les capacités de LLM avec des méthodes basées sur des clusters pour permettre une méthode de navigation efficace. Nous démontrons l'efficacité de notre approche à travers des évaluations automatiques et manuelles sur deux nouveaux bancs d'essai, CLUSTREC-COVID et SCITOC. Notre code, nos invites et nos bancs d'essai sont rendus publiquement disponibles.

9

Stratégie d'équilibrage de charge sans perte de perte auxiliaire pour Mélange d'Experts
Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts

Aug 28
ByLean Wang, Huazuo Gao, Chenggang Zhao, Xu Sun, Damai Dai
14
3

Pour les modèles de Mixture-of-Experts (MoE), une charge d'experts déséquilibrée entraînera un effondrement du routage ou une augmentation des coûts de calcul. Les méthodes existantes utilisent couramment une perte auxiliaire pour encourager l'équilibre de charge, mais une grande perte auxiliaire introduira des gradients d'interférence non négligeables dans l'entraînement et nuira ainsi aux performances du modèle. Afin de contrôler l'équilibre de charge sans produire de gradients indésirables pendant l'entraînement, nous proposons l'Équilibrage sans Perte, caractérisé par une stratégie d'équilibrage de charge sans perte auxiliaire. Plus précisément, avant la décision de routage top-K, l'Équilibrage sans Perte appliquera d'abord un biais spécifique à chaque expert aux scores de routage de chaque expert. En mettant à jour dynamiquement le biais de chaque expert en fonction de sa charge récente, l'Équilibrage sans Perte peut maintenir de manière constante une distribution équilibrée de la charge des experts. De plus, étant donné que l'Équilibrage sans Perte ne produit aucun gradient d'interférence, il élève également la limite supérieure des performances du modèle obtenues à partir de l'entraînement MoE. Nous validons les performances de l'Équilibrage sans Perte sur des modèles MoE avec jusqu'à 3 milliards de paramètres entraînés sur jusqu'à 200 milliards de jetons. Les résultats expérimentaux montrent que l'Équilibrage sans Perte atteint à la fois de meilleures performances et un meilleur équilibre de charge par rapport aux stratégies traditionnelles d'équilibrage de charge contrôlées par perte auxiliaire.

10

ReMamba : Équiper Mamba d'une Modélisation Efficace de Longues Séquences
ReMamba: Equip Mamba with Effective Long-Sequence Modeling

Aug 28
ByDanlong Yuan, Jiahao Liu, Bei Li, Huishuai Zhang, Jingang Wang, Xunliang Cai, Dongyan Zhao
12
2

Alors que l'architecture Mamba démontre une efficacité d'inférence supérieure et des performances compétitives sur des tâches de traitement automatique du langage naturel (TALN) à court contexte, des preuves empiriques suggèrent que sa capacité à comprendre de longs contextes est limitée par rapport aux modèles basés sur les transformers. Dans cette étude, nous examinons les problèmes d'efficacité des longs contextes des modèles Mamba et proposons ReMamba, qui améliore la capacité de Mamba à comprendre de longs contextes. ReMamba intègre des techniques de compression sélective et d'adaptation dans un processus de réacheminement en deux étapes, entraînant des coûts d'inférence supplémentaires minimes. Les résultats expérimentaux sur les bancs d'essai LongBench et L-Eval démontrent l'efficacité de ReMamba, améliorant respectivement les références de 3,2 et 1,6 points, et atteignant des performances presque équivalentes à celles des modèles transformers de même taille.

11

Apprentissage par imitation en contexte via la prédiction du jeton suivant
In-Context Imitation Learning via Next-Token Prediction

Aug 28
ByLetian Fu, Huang Huang, Gaurav Datta, Lawrence Yunliang Chen, William Chung-Ho Panitch, Fangchen Liu, Hui Li, Ken Goldberg
10
3

Nous explorons comment améliorer les modèles de prédiction du prochain jeton pour réaliser un apprentissage par imitation en contexte sur un vrai robot, où le robot exécute de nouvelles tâches en interprétant les informations contextuelles fournies lors de la phase d'entrée, sans mettre à jour ses paramètres de politique sous-jacents. Nous proposons l'In-Context Robot Transformer (ICRT), un transformateur causal qui effectue des prédictions autorégressives sur les trajectoires sensorimotrices sans se fier à des données linguistiques ou à une fonction de récompense. Cette formulation permet une exécution flexible et sans entraînement de nouvelles tâches au moment du test, réalisée en incitant le modèle avec des trajectoires sensorimotrices de la nouvelle tâche composées d'observations d'images, d'actions et de tuples d'états, collectées via une téléopération humaine. Des expériences avec un robot Franka Emika démontrent que l'ICRT peut s'adapter à de nouvelles tâches spécifiées par des incitations, même dans des configurations d'environnement différentes à la fois de l'incitation et des données d'entraînement. Dans un environnement multitâche, l'ICRT surpasse significativement les modèles actuels de prédiction du prochain jeton de pointe en robotique en généralisant à des tâches non vues. Le code, les points de contrôle et les données sont disponibles sur https://icrt.dev/

12

Vers une modélisation réaliste basée sur des exemples via l'assemblage gaussien en 3D
Towards Realistic Example-based Modeling via 3D Gaussian Stitching

Aug 28
ByXinyu Gao, Ziyi Yang, Bingchen Gong, Xiaoguang Han, Sipeng Yang, Xiaogang Jin
8
3

L'utilisation de parties de modèles existants pour reconstruire de nouveaux modèles, communément appelée modélisation par l'exemple, est une méthodologie classique dans le domaine de la graphique par ordinateur. Les travaux précédents se concentrent principalement sur la composition des formes, ce qui les rend très difficiles à utiliser pour la composition réaliste d'objets 3D capturés à partir de scènes du monde réel. Cela conduit à combiner plusieurs NeRFs dans une seule scène 3D pour obtenir un mélange d'apparence homogène. Cependant, la méthode actuelle SeamlessNeRF a du mal à atteindre l'édition interactive et l'assemblage harmonieux pour les scènes du monde réel en raison de sa stratégie basée sur les gradients et de sa représentation basée sur une grille. À cette fin, nous présentons une méthode de modélisation par l'exemple qui combine plusieurs champs gaussiens dans une représentation basée sur des points en utilisant une synthèse guidée par des échantillons. Plus précisément, en ce qui concerne la composition, nous créons une interface graphique utilisateur (GUI) pour segmenter et transformer plusieurs champs en temps réel, obtenant facilement une composition sémantiquement significative de modèles représentés par un Étalement Gaussien 3D (3DGS). Pour le mélange de textures, en raison de la nature discrète et irrégulière du 3DGS, l'application directe de la propagation de gradient comme dans SeamlessNeRF n'est pas prise en charge. Ainsi, une nouvelle méthode de clonage basée sur des échantillons est proposée pour harmoniser le mélange tout en préservant la texture et le contenu originaux riches. Notre flux de travail se compose de trois étapes : 1) segmentation et transformation en temps réel d'un modèle gaussien à l'aide d'une GUI bien conçue, 2) analyse KNN pour identifier les points de frontière dans la zone d'intersection entre les modèles source et cible, et 3) optimisation en deux phases du modèle cible en utilisant le clonage basé sur des échantillons et des contraintes de gradient. Des résultats expérimentaux approfondis valident que notre approche surpasse significativement les travaux précédents en termes de synthèse réaliste, démontrant sa praticité. Plus de démonstrations sont disponibles sur https://ingra14m.github.io/gs_stitching_website.

13

TEDRA : Édition basée sur le texte d'acteurs dynamiques et photoréalistes
TEDRA: Text-based Editing of Dynamic and Photoreal Actors

Aug 28
ByBasavaraj Sunagad, Heming Zhu, Mohit Mendiratta, Adam Kortylewski, Christian Theobalt, Marc Habermann
5
2

Au cours des dernières années, des progrès significatifs ont été réalisés dans la création d'avatars 3D photoréalistes et conduisables uniquement à partir de vidéos de vrais humains. Cependant, un défi central persistant est l'édition fine et conviviale des styles vestimentaires au moyen de descriptions textuelles. À cette fin, nous présentons TEDRA, la première méthode permettant des modifications basées sur du texte d'un avatar, qui maintient la fidélité élevée de l'avatar, la cohérence spatio-temporelle, ainsi que la dynamique, et permet le contrôle de la pose squelettique et de la vue. Nous commençons par entraîner un modèle pour créer une réplique numérique contrôlable et haute fidélité de l'acteur réel. Ensuite, nous personnalisons un modèle de diffusion générative pré-entraîné en le peaufinant sur diverses images du personnage réel capturées sous différents angles de caméra, garantissant que la représentation numérique capture fidèlement la dynamique et les mouvements de la personne réelle. Ce processus en deux étapes pose les bases de notre approche de l'édition dynamique d'avatars humains. En utilisant ce modèle de diffusion personnalisé, nous modifions l'avatar dynamique en fonction d'une instruction textuelle fournie en utilisant notre Échantillonnage de Distillation de Score Aligné Normal Personnalisé (PNA-SDS) dans un cadre de guidage basé sur le modèle. De plus, nous proposons une stratégie d'annulation des étapes temporelles pour garantir des modifications de haute qualité. Nos résultats démontrent une nette amélioration par rapport aux travaux antérieurs en termes de fonctionnalité et de qualité visuelle.

Aug 28
Aug 29
Aug 30