HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

21 papers found

RAISIN: Généralisation des politiques des robots via l'alignement des préférences
GRAPE: Generalizing Robot Policy via Preference Alignment

Nov 28

ByZijian Zhang, Kaiyuan Zheng, Zhaorun Chen, Joel Jang, Yi Li, Chaoqi Wang, Mingyu Ding, Dieter Fox, Huaxiu Yao

Malgré les récents progrès des modèles vision-langage-action (VLA) dans une variété de tâches robotiques, ils souffrent de problèmes critiques tels qu'une faible généralisabilité à des tâches inconnues, en raison de leur dépendance exclusive à l'apprentissage par imitation à partir de déploiements réussis. De plus, ils sont généralement affinés pour reproduire des démonstrations collectées par des experts dans des contextes différents, introduisant ainsi un biais de distribution et limitant leur adaptabilité à des objectifs de manipulation divers, tels que l'efficacité, la sécurité et l'achèvement des tâches. Pour combler cet écart, nous introduisons GRAPE : Généralisation de la Politique Robotique via l'Alignement des Préférences. Plus précisément, GRAPE aligne les VLA au niveau de la trajectoire et modélise implicitement la récompense à la fois des essais réussis et des échecs pour améliorer la généralisabilité à des tâches diverses. De plus, GRAPE décompose les tâches de manipulation complexes en étapes indépendantes et guide automatiquement la modélisation des préférences à travers des contraintes spatiotemporelles personnalisées avec des points clés proposés par un grand modèle vision-langage. Notamment, ces contraintes sont flexibles et peuvent être personnalisées pour aligner le modèle avec différents objectifs, tels que la sécurité, l'efficacité ou la réussite de la tâche. Nous évaluons GRAPE sur une variété de tâches dans des environnements réels et simulés. Les résultats expérimentaux montrent que GRAPE améliore les performances des modèles VLA de pointe, augmentant les taux de réussite sur les tâches de manipulation internes et inconnues de 51,79 % et 60,36 %, respectivement. De plus, GRAPE peut être aligné avec divers objectifs, tels que la sécurité et l'efficacité, réduisant les taux de collision de 44,31 % et la longueur des étapes de déploiement de 11,15 %, respectivement. Tout le code, les modèles et les données sont disponibles sur https://grape-vla.github.io/

Profondeur vidéo sans modèles vidéo
Video Depth without Video Models

Nov 28

ByBingxin Ke, Dominik Narnhofer, Shengyu Huang, Lei Ke, Torben Peters, Katerina Fragkiadaki, Anton Obukhov, Konrad Schindler

L'estimation de profondeur vidéo élève des clips vidéo monoclips en 3D en inférant une profondeur dense à chaque image. Les récentes avancées en matière d'estimation de profondeur à partir d'une seule image, dues à l'émergence de grands modèles de base et à l'utilisation de données d'entraînement synthétiques, ont ravivé l'intérêt pour la profondeur vidéo. Cependant, appliquer naïvement un estimateur de profondeur à partir d'une seule image à chaque image d'une vidéo ignore la continuité temporelle, ce qui entraîne non seulement des scintillements mais peut également échouer lorsque le mouvement de la caméra provoque des changements soudains dans la plage de profondeur. Une solution évidente et fondée serait de s'appuyer sur des modèles de base vidéo, mais ceux-ci présentent leurs propres limites, notamment un entraînement et une inférence coûteux, une cohérence 3D imparfaite et des routines d'assemblage pour les sorties de longueur fixe (courtes). Nous prenons du recul et démontrons comment transformer un modèle de diffusion latente à partir d'une seule image (LDM) en un estimateur de profondeur vidéo de pointe. Notre modèle, que nous appelons RollingDepth, repose sur deux éléments principaux : (i) un estimateur de profondeur multi-images dérivé d'un LDM à partir d'une seule image et qui cartographie de très courts extraits vidéo (généralement des triplets d'images) en extraits de profondeur. (ii) un algorithme d'enregistrement robuste basé sur l'optimisation qui assemble de manière optimale des extraits de profondeur échantillonnés à différentes fréquences d'images en une vidéo cohérente. RollingDepth est capable de gérer efficacement de longues vidéos avec des centaines d'images et fournit des vidéos de profondeur plus précises que les estimateurs de profondeur vidéo dédiés et les modèles à une seule image performants. Page du projet : rollingdepth.github.io.

Au-delà des exemples : Paradigme de raisonnement automatisé de haut niveau dans l'apprentissage en contexte via MCTS
Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS

Nov 27

ByJinyang Wu, Mingkuan Feng, Shuai Zhang, Feihu Che, Zengqi Wen, Jianhua Tao

L'apprentissage en contexte (ICL) permet aux grands modèles de langage (LLM) de s'attaquer à des tâches ultérieures grâce à des incitations sophistiquées et des démonstrations de haute qualité. Cependant, ce paradigme traditionnel d'ICL montre des limites lorsqu'il est confronté à des tâches de raisonnement mathématique complexes, principalement en raison de sa forte dépendance à la qualité des exemples et de la nécessité d'une intervention humaine dans des scénarios difficiles. Pour remédier à ces limitations, cet article présente HiAR-ICL, un paradigme de raisonnement automatisé de haut niveau dans l'ICL qui déplace le focus des exemples spécifiques vers des schémas de pensée abstraite, étendant le concept conventionnel de contexte en ICL. HiAR-ICL introduit cinq actions de raisonnement atomiques en tant que composants fondamentaux pour construire des schémas structurés en chaîne. En utilisant la recherche arborescente Monte Carlo, nous explorons des chemins de raisonnement et construisons des cartes de pensée pour guider l'inférence ultérieure. Nous développons ensuite un cadre de complexité cognitive qui associe dynamiquement les problèmes aux cartes de pensée appropriées. Les résultats expérimentaux démontrent l'efficacité de HiAR-ICL, atteignant une précision de pointe (79,6 %) sur le banc d'essai MATH avec Qwen2.5-7B-Instruct, surpassant GPT-4o (76,6 %) et Claude 3.5 (71,1 %).

Sur la post-formation spécifique au domaine pour les grands modèles de langage multimodaux
On Domain-Specific Post-Training for Multimodal Large Language Models

Nov 29

ByDaixuan Cheng, Shaohan Huang, Ziyu Zhu, Xintong Zhang, Wayne Xin Zhao, Zhongzhi Luan, Bo Dai, Zhenliang Zhang

Les dernières années ont vu le développement rapide de modèles de langage multimodaux généraux de grande taille (MLLMs). Cependant, l'adaptation des MLLMs généraux à des domaines spécifiques, tels que les domaines scientifiques et les applications industrielles, reste moins explorée. Cet article examine systématiquement l'adaptation de domaine des MLLMs par post-entraînement, en se concentrant sur la synthèse de données, les pipelines d'entraînement et l'évaluation des tâches. (1) Synthèse de données : En utilisant des modèles open source, nous développons un synthétiseur d'instructions visuelles qui génère efficacement des tâches d'instructions visuelles diverses à partir de paires image-légende spécifiques au domaine. Nos tâches synthétiques surpassent celles générées par des règles manuelles, GPT-4 et GPT-4V pour améliorer les performances spécifiques au domaine des MLLMs. (2) Pipeline d'entraînement : Alors que l'entraînement en deux étapes - initialement sur des paires image-légende suivies de tâches d'instructions visuelles - est couramment adopté pour le développement de MLLMs généraux, nous appliquons un pipeline d'entraînement en une seule étape pour améliorer la diversité des tâches pour le post-entraînement spécifique au domaine. (3) Évaluation des tâches : Nous menons des expériences dans deux domaines, la biomédecine et l'alimentation, en post-entraînant des MLLMs de différentes sources et échelles (par exemple, Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B), puis en évaluant les performances des MLLMs sur diverses tâches spécifiques au domaine. Pour soutenir de futures recherches en adaptation de domaine des MLLMs, nous rendrons nos implémentations open source.

Rapport technique Yi-Lightning
Yi-Lightning Technical Report

Dec 2

By01. AI, Alan Wake, Albert Wang, Bei Chen, C. X. Lv, Chao Li, Chengen Huang, Chenglin Cai, Chujie Zheng, Daniel Cooper, Ethan Dai, Fan Zhou, Feng Hu, Heng Ji, Howard Qiu, Jiangcheng Zhu, Jun Tian, Katherine Su, Lihuan Zhang, Liying Li, Ming Song, Mou Li, Peng Liu, Qichen Hu, Shawn Wang, Shijun Zhou, Shiyong Li, Tianhang Zhu, Wen Xie, Xiang He, Xiaobo Chen, Xiaohui Hu, Xiaoyi Ren, Xinyao Niu, Yanpeng Li, Yongke Zhao, Yongzhen Luo, Yuchi Xu, Yuxuan Sha, Zhaodong Yan, Zhiyuan Liu, Zirui Zhang

Ce rapport technique présente Yi-Lightning, notre dernier modèle de langage large (LLM) phare. Il atteint des performances exceptionnelles, se classant 6e au total sur Chatbot Arena, avec des résultats particulièrement solides (de la 2e à la 4e place) dans des catégories spécialisées telles que le chinois, les mathématiques, le codage et les défis complexes. Yi-Lightning exploite une architecture améliorée de Mélange d'Experts (MoE), mettant en œuvre des mécanismes avancés de segmentation et de routage d'experts associés à des techniques optimisées de mise en cache KV. Notre processus de développement englobe un pré-entraînement complet, un affinage supervisé (SFT) et un apprentissage par renforcement à partir des retours humains (RLHF), où nous concevons des stratégies délibérées pour l'entraînement multi-étapes, la construction de données synthétiques et la modélisation des récompenses. De plus, nous mettons en œuvre RAISE (Responsible AI Safety Engine), un cadre à quatre composants pour aborder les problèmes de sécurité tout au long des phases de pré-entraînement, post-entraînement et de service. Grâce à notre infrastructure informatique évolutive, toutes ces innovations réduisent considérablement les coûts d'entraînement, de déploiement et d'inférence tout en maintenant des normes de haute performance. Avec des évaluations supplémentaires sur des référentiels académiques publics, Yi-Lightning démontre des performances compétitives par rapport aux LLM de premier plan, alors que nous observons une disparité notable entre les résultats des référentiels traditionnels statiques et les préférences humaines dynamiques du monde réel. Cette observation incite à une réévaluation critique de l'utilité des référentiels conventionnels pour guider le développement de systèmes AI plus intelligents et puissants pour des applications pratiques. Yi-Lightning est désormais disponible sur notre plateforme de développement à l'adresse https://platform.lingyiwanwu.com.

Guidance de saut spatiotemporel pour un échantillonnage amélioré de la diffusion vidéo
Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling

Nov 27

ByJunha Hyung, Kinam Kim, Susung Hong, Min-Jung Kim, Jaegul Choo

Les modèles de diffusion se sont imposés comme un outil puissant pour générer des images, des vidéos et du contenu 3D de haute qualité. Alors que les techniques de guidage d'échantillonnage telles que CFG améliorent la qualité, elles réduisent la diversité et le mouvement. L'autoguidage atténue ces problèmes mais nécessite une formation supplémentaire d'un modèle faible, limitant sa praticité pour les modèles à grande échelle. Dans ce travail, nous introduisons le Guidage d'Échantillonnage Spatiotemporel (STG), une méthode simple de guidage d'échantillonnage sans formation pour améliorer les modèles de diffusion vidéo basés sur les transformers. STG utilise un modèle faible implicite via auto-perturbation, évitant le besoin de modèles externes ou de formation supplémentaire. En sautant sélectivement des couches spatiotemporelles, STG produit une version alignée et dégradée du modèle original pour améliorer la qualité de l'échantillon sans compromettre la diversité ou le degré dynamique. Nos contributions comprennent : (1) l'introduction de STG en tant que technique de guidage efficace et performante pour les modèles de diffusion vidéo, (2) l'élimination du besoin de modèles auxiliaires en simulant un modèle faible par le saut de couches, et (3) en garantissant un guidage amélioré en qualité sans compromettre la diversité ou la dynamique de l'échantillon contrairement à CFG. Pour des résultats supplémentaires, visitez https://junhahyung.github.io/STGuidance.

La pensée inversée rend les LLMs plus forts en raisonnement.
Reverse Thinking Makes LLMs Stronger Reasoners

Nov 29

ByJustin Chih-Yao Chen, Zifeng Wang, Hamid Palangi, Rujun Han, Sayna Ebrahimi, Long Le, Vincent Perot, Swaroop Mishra, Mohit Bansal, Chen-Yu Lee, Tomas Pfister

La pensée inversée joue un rôle crucial dans le raisonnement humain. Les humains peuvent raisonner non seulement d'un problème vers une solution, mais aussi à l'inverse, c'est-à-dire commencer par la solution et raisonner vers le problème. Cela améliore souvent les performances de raisonnement globales car cela permet des vérifications de cohérence entre leur pensée en avant et en arrière. Pour permettre aux Grands Modèles de Langage (GML) d'effectuer une pensée inversée, nous introduisons la Pensée Inversée Améliorée (RevThink), un cadre composé d'augmentation de données et d'objectifs d'apprentissage. Dans RevThink, nous augmentons l'ensemble de données en collectant un raisonnement structuré avant-arrière à partir d'un modèle enseignant, comprenant : (1) la question originale, (2) le raisonnement en avant, (3) la question en arrière et (4) le raisonnement en arrière. Nous utilisons ensuite trois objectifs pour entraîner un modèle étudiant plus petit de manière d'apprentissage multi-tâche : (a) générer un raisonnement en avant à partir d'une question, (b) générer une question en arrière à partir d'une question, et (c) générer un raisonnement en arrière à partir de la question en arrière. Des expériences menées sur 12 ensembles de données couvrant le bon sens, les mathématiques et le raisonnement logique montrent une amélioration moyenne de 13,53 % par rapport aux performances sans entraînement du modèle étudiant et une amélioration de 6,84 % par rapport aux meilleures lignes de base de distillation de connaissances. De plus, notre méthode démontre une efficacité d'échantillonnage - en n'utilisant que 10 % du raisonnement en avant correct des données d'entraînement, elle surpasse une méthode standard de fine-tuning entraînée sur 10 fois plus de raisonnement en avant. RevThink présente également une forte capacité de généralisation aux ensembles de données détenus hors distribution.

L'incorporation des pas de temps indique : il est temps de mettre en cache pour le modèle de diffusion vidéo
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model

Nov 28

ByFeng Liu, Shiwei Zhang, Xiaofeng Wang, Yujie Wei, Haonan Qiu, Yuzhong Zhao, Yingya Zhang, Qixiang Ye, Fang Wan

En tant que base fondamentale pour la génération de vidéos, les modèles de diffusion sont confrontés à une faible vitesse d'inférence en raison de la nature séquentielle du débruitage. Les méthodes précédentes accélèrent les modèles en mettant en cache et en réutilisant les sorties du modèle à des intervalles de temps uniformément sélectionnés. Cependant, une telle stratégie néglige le fait que les différences entre les sorties du modèle ne sont pas uniformes à travers les intervalles de temps, ce qui entrave la sélection des sorties du modèle appropriées à mettre en cache, entraînant un mauvais équilibre entre l'efficacité de l'inférence et la qualité visuelle. Dans cette étude, nous introduisons TeaCache (Timestep Embedding Aware Cache), une approche de mise en cache sans entraînement qui estime et exploite les différences fluctuantes entre les sorties du modèle à travers les intervalles de temps. Plutôt que d'utiliser directement les sorties du modèle chronophages, TeaCache se concentre sur les entrées du modèle, qui ont une forte corrélation avec les sorties du modèle tout en entraînant un coût computationnel négligeable. TeaCache module d'abord les entrées bruitées en utilisant les intégrations temporelles pour garantir que leurs différences approximent mieux celles des sorties du modèle. Ensuite, TeaCache introduit une stratégie de mise à l'échelle pour affiner les différences estimées et les utilise pour indiquer la mise en cache des sorties. Les expériences montrent que TeaCache atteint jusqu'à 4,41 fois d'accélération par rapport à Open-Sora-Plan avec une dégradation négligeable du score Vbench (-0,07%) en termes de qualité visuelle.

Diffusion FAM : Modulation de Fréquence et d'Attention pour la Génération d'Images Haute Résolution avec Diffusion Stable
FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

Nov 27

ByHaosen Yang, Adrian Bulat, Isma Hadji, Hai X. Pham, Xiatian Zhu, Georgios Tzimiropoulos, Brais Martinez

Les modèles de diffusion sont efficaces pour générer des images de haute qualité. Cependant, ils ne sont performants que lorsqu'ils fonctionnent à la résolution utilisée pendant l'entraînement. L'inférence à une résolution mise à l'échelle entraîne des motifs répétitifs et des distorsions structurelles. La réentraînement à des résolutions plus élevées devient rapidement prohibitif. Ainsi, des méthodes permettant aux modèles de diffusion préexistants de fonctionner à des résolutions flexibles lors des tests sont très souhaitables. Les travaux précédents souffrent de fréquents artefacts et introduisent souvent des surcoûts de latence importants. Nous proposons deux modules simples qui se combinent pour résoudre ces problèmes. Nous introduisons un module de modulation de fréquence (FM) qui exploite le domaine de Fourier pour améliorer la cohérence de la structure globale, et un module de modulation d'attention (AM) qui améliore la cohérence des motifs de texture locaux, un problème largement ignoré dans les travaux antérieurs. Notre méthode, appelée Fam diffusion, peut s'intégrer de manière transparente dans n'importe quel modèle de diffusion latent et ne nécessite aucun entraînement supplémentaire. Des résultats qualitatifs approfondis mettent en évidence l'efficacité de notre méthode pour résoudre les artefacts structurels et locaux, tandis que des résultats quantitatifs montrent des performances de pointe. De plus, notre méthode évite les astuces d'inférence redondantes pour une meilleure cohérence, telles que la génération basée sur des patchs ou progressive, ce qui entraîne des surcoûts de latence négligeables.

Puzzle : NAS basée sur la distillation pour les LLM optimisés pour l'inférence
Puzzle: Distillation-Based NAS for Inference-Optimized LLMs

Nov 28

ByAkhiad Bercovich, Tomer Ronen, Talor Abramovich, Nir Ailon, Nave Assaf, Mohammad Dabbah, Ido Galil, Amnon Geifman, Yonatan Geifman, Izhak Golan, Netanel Haber, Ehud Karpas, Itay Levy, Shahar Mor, Zach Moshe, Najeeb Nabwani, Omri Puny, Ran Rubin, Itamar Schen, Ido Shahaf, Oren Tropp, Omer Ullman Argov, Ran Zilberstein, Ran El-Yaniv

Les grands modèles de langage (LLM) ont démontré des capacités remarquables, mais leur adoption est limitée par des coûts computationnels élevés lors de l'inférence. Alors que l'augmentation du nombre de paramètres améliore la précision, elle élargit également l'écart entre les capacités de pointe et le déploiement pratique. Nous présentons Puzzle, un cadre pour accélérer l'inférence des LLM sur un matériel spécifique tout en préservant leurs capacités. À travers une application innovante de la recherche en architecture neuronale (NAS) à une échelle sans précédent, Puzzle optimise systématiquement des modèles avec des dizaines de milliards de paramètres sous contraintes matérielles. Notre approche utilise la distillation de connaissances locales par blocs (BLD) pour l'exploration d'architecture parallèle et utilise la programmation mixte entière pour une optimisation précise des contraintes. Nous démontrons l'impact réel de notre cadre à travers Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B), un modèle disponible publiquement dérivé de Llama-3.1-70B-Instruct. Nemotron-51B atteint une accélération de 2,17 fois du débit d'inférence, s'adaptant à une seule GPU NVIDIA H100 tout en préservant 98,4% des capacités du modèle original. Nemotron-51B est actuellement le modèle de langage le plus précis capable d'inférence sur une seule GPU avec de grandes tailles de lots. De manière remarquable, cette transformation a nécessité seulement 45 milliards de jetons d'entraînement, comparé aux plus de 15 billions de jetons utilisés pour le modèle 70B dont il est dérivé. Cela établit un nouveau paradigme où des modèles puissants peuvent être optimisés pour un déploiement efficace avec seulement un compromis négligeable de leurs capacités, démontrant que la performance d'inférence, et non seulement le nombre de paramètres, devrait guider la sélection des modèles. Avec la sortie de Nemotron-51B et la présentation du cadre Puzzle, nous offrons aux praticiens un accès immédiat aux capacités de modélisation de langage de pointe à des coûts computationnels considérablement réduits.

Attention de trajectoire pour le contrôle fin des mouvements vidéo.
Trajectory Attention for Fine-grained Video Motion Control

Nov 28

ByZeqi Xiao, Wenqi Ouyang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan

Les récents progrès en matière de génération vidéo ont été largement stimulés par les modèles de diffusion vidéo, le contrôle du mouvement de la caméra émergeant comme un défi crucial dans la création de contenus visuels personnalisés. Cet article présente l'attention de trajectoire, une approche novatrice qui effectue une attention le long des trajectoires de pixels disponibles pour un contrôle fin du mouvement de la caméra. Contrairement aux méthodes existantes qui donnent souvent des résultats imprécis ou négligent les corrélations temporelles, notre approche possède un biais inductif plus fort qui injecte de manière transparente des informations de trajectoire dans le processus de génération vidéo. Importamment, notre approche modélise l'attention de trajectoire comme une branche auxiliaire aux côtés de l'attention temporelle traditionnelle. Cette conception permet à l'attention temporelle originale et à l'attention de trajectoire de travailler en synergie, garantissant à la fois un contrôle précis du mouvement et une nouvelle capacité de génération de contenu, ce qui est crucial lorsque la trajectoire n'est disponible que partiellement. Des expériences sur le contrôle du mouvement de la caméra pour les images et les vidéos montrent des améliorations significatives en termes de précision et de cohérence à long terme tout en maintenant une génération de haute qualité. De plus, nous montrons que notre approche peut être étendue à d'autres tâches de contrôle de mouvement vidéo, telles que le montage vidéo guidé par la première image, où elle excelle dans le maintien de la cohérence du contenu sur de grandes étendues spatiales et temporelles.

Mise à l'échelle des transformateurs pour le codage vocal haute qualité à faible débit binaire
Scaling Transformers for Low-Bitrate High-Quality Speech Coding

Nov 29

ByJulian D Parker, Anton Smirnov, Jordi Pons, CJ Carr, Zack Zukowski, Zach Evans, Xubo Liu

La tokenisation de la parole avec des modèles de codec audio neuronaux est une partie essentielle des pipelines d'IA modernes pour la génération ou la compréhension de la parole, seule ou dans un contexte multimodal. Traditionnellement, de tels modèles de tokenisation se sont concentrés sur des architectures à faible nombre de paramètres n'utilisant que des composants avec de fortes biais inductifs. Dans ce travail, nous montrons qu'en mettant à l'échelle une architecture de transformateur avec un grand nombre de paramètres pour ce problème, et en appliquant un goulot d'étranglement basé sur une quantification scalaire finie (FSQ) flexible, il est possible d'atteindre une qualité de parole de pointe à des débits extrêmement bas de 400 ou 700 bits par seconde. Les modèles entraînés surpassent nettement les références existantes tant dans les tests objectifs que subjectifs.

DisCoRD : De jetons discrets à mouvement continu via un flux rectifié Décodage
DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

Nov 29

ByJungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu

Le mouvement humain, intrinsèquement continu et dynamique, présente des défis significatifs pour les modèles génératifs. Malgré leur domination, les méthodes de quantification discrète, telles que les VQ-VAEs, souffrent de limitations inhérentes, notamment une expressivité restreinte et des artefacts de bruit image par image. Les approches continues, bien qu'elles produisent des mouvements plus fluides et naturels, rencontrent souvent des difficultés en raison de la complexité multidimensionnelle élevée et des données d'entraînement limitées. Pour résoudre cette "discorde" entre les représentations discrètes et continues, nous introduisons DisCoRD : Tokens Discrets vers Mouvement Continu via un Décodage de Flux Rectifié, une méthode novatrice qui décode des tokens de mouvement discrets en mouvement continu à travers un flux rectifié. En utilisant un processus de raffinement itératif dans l'espace continu, DisCoRD capture les dynamiques fines et garantit des mouvements plus fluides et naturels. Compatible avec tout cadre basé sur le discret, notre méthode améliore la naturalité sans compromettre la fidélité aux signaux de conditionnement. Des évaluations approfondies montrent que DisCoRD atteint des performances de pointe, avec un FID de 0,032 sur HumanML3D et 0,169 sur KIT-ML. Ces résultats consolident DisCoRD en tant que solution robuste pour combler le fossé entre l'efficacité discrète et le réalisme continu. Notre page de projet est disponible à l'adresse : https://whwjdqls.github.io/discord.github.io/.

Regardez chaque image en même temps : Video-Ma^2mba pour une compréhension efficace des vidéos longues avec des points de contrôle de gradient multi-axes.
Look Every Frame All at Once: Video-Ma^2mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing

Nov 29

ByHosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro

Avec l'augmentation de l'échelle et de la complexité des données vidéo, le traitement efficace de longues séquences vidéo pose des défis importants en raison de l'augmentation quadratique des besoins en mémoire et en calcul associée aux modèles multimodaux volumineux basés sur les transformateurs existants (LMM). Pour résoudre ces problèmes, nous introduisons Video-Ma^2mba, une architecture novatrice qui intègre des Modèles d'Espace d'État (SSM) au sein du cadre Mamba-2, remplaçant les mécanismes d'attention. Cela permet aux LMM de s'étendre de manière linéaire en termes d'exigences en temps et en mémoire, rendant possible la manipulation de contenus vidéo de longue durée. De plus, nous améliorons l'efficacité mémoire en introduisant la méthode de Point de Contrôle de Gradients Multi-Axes (MA-GC), qui gère stratégiquement la mémoire en ne conservant que les activations essentielles sur plusieurs axes computationnels. Notre approche réduit significativement l'empreinte mémoire par rapport au point de contrôle de gradients standard. Les analyses empiriques montrent que Video-Ma^2mba peut traiter des séquences vidéo étendues - équivalentes à des millions de jetons ou à plus de deux heures de séquences continues à 1 FPS - sur un seul GPU. En capturant en détail les dynamiques temporelles, notre modèle améliore la précision et la pertinence des réponses dans les tâches de compréhension de vidéos longues, démontrant des avantages substantiels par rapport aux cadres existants.

MATATA : un outil mathématique assisté faiblement supervisé pour les applications tabulaires
MATATA: a weak-supervised MAthematical Tool-Assisted reasoning for Tabular Applications

Nov 28

ByVishnou Vinayagame, Gregory Senay, Luis Martí

Les capacités de raisonnement mathématique augmentent avec les agents linguistiques augmentés par des outils, mais les méthodes reposent souvent sur des modèles fermés ou volumineux, des données externes ou un génie de la formulation étendu. Ce travail présente MATATA, une nouvelle méthode rentable pour entraîner des agents LLM pour les problèmes de données tabulaires à travers le raisonnement, la planification et l'utilisation d'outils. Avec un paradigme d'amélioration progressive de soi et une supervision faible itérative, il renforce les Petits Modèles de Langage (SLMs) 3.8B/8B, particulièrement adaptés à l'hébergement local et aux contextes professionnels sensibles où la confidentialité des données est cruciale. En utilisant des outils flexibles et réutilisables sur différents ensembles de données, il atteint des performances robustes avec une évolutivité efficace à travers des tâches partagées. Les expériences montrent que MATATA atteint des performances de pointe sur FinQA et TAT-QA parmi les cadres de raisonnement basés sur des modèles open source. De plus, les modèles MATATA rivalisent avec les cadres basés sur GPT-4 sur TabMWP, tout en étant des SLMs.

AC3D : Analyse et amélioration du contrôle de caméra 3D dans les Transformateurs de diffusion vidéo
AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers

Nov 27

BySherwin Bahmani, Ivan Skorokhodov, Guocheng Qian, Aliaksandr Siarohin, Willi Menapace, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov

De nombreux travaux ont récemment intégré le contrôle de caméra 3D dans les modèles fondamentaux de texte-vidéo, mais le contrôle de caméra résultant est souvent imprécis, et la qualité de génération de vidéo en souffre. Dans ce travail, nous analysons le mouvement de la caméra d'un point de vue des premiers principes, découvrant des idées qui permettent une manipulation précise de la caméra 3D sans compromettre la qualité de synthèse. Tout d'abord, nous déterminons que le mouvement induit par les mouvements de la caméra dans les vidéos est de nature basse fréquence. Cela nous motive à ajuster les horaires de conditionnement de pose d'entraînement et de test, accélérant la convergence de l'entraînement tout en améliorant la qualité visuelle et de mouvement. Ensuite, en sondant les représentations d'un transformateur de diffusion vidéo inconditionnel, nous observons qu'ils effectuent implicitement une estimation de la pose de la caméra en interne, et seulement une sous-portion de leurs couches contiennent les informations de la caméra. Cela nous a suggéré de limiter l'injection du conditionnement de la caméra à un sous-ensemble de l'architecture pour éviter les interférences avec d'autres caractéristiques vidéo, ce qui entraîne une réduction de 4 fois des paramètres d'entraînement, une amélioration de la vitesse d'entraînement et une qualité visuelle supérieure de 10%. Enfin, nous complétons l'ensemble de données typique pour l'apprentissage du contrôle de la caméra avec un ensemble de données organisé de 20 000 vidéos dynamiques diverses avec des caméras stationnaires. Cela aide le modèle à dissocier la différence entre le mouvement de la caméra et de la scène, et améliore la dynamique des vidéos conditionnées par la pose générées. Nous combinons ces découvertes pour concevoir l'architecture de Contrôle de Caméra 3D Avancé (AC3D), le nouveau modèle de pointe pour la modélisation vidéo générative avec contrôle de caméra.

AlphaTablets : Une représentation générique de plan pour la reconstruction planaire 3D à partir de vidéos monoculaires
AlphaTablets: A Generic Plane Representation for 3D Planar Reconstruction from Monocular Videos

Nov 29

ByYuze He, Wang Zhao, Shaohui Liu, Yubin Hu, Yushi Bai, Yu-Hui Wen, Yong-Jin Liu

Nous présentons AlphaTablets, une représentation novatrice et générique des plans 3D qui offre une surface 3D continue et une délimitation précise des frontières. En représentant les plans 3D sous forme de rectangles avec des canaux alpha, les AlphaTablets combinent les avantages des représentations de plans 2D et 3D actuelles, permettant une modélisation précise, cohérente et flexible des plans 3D. Nous dérivons une rasterisation différentiable sur les AlphaTablets pour rendre efficacement les plans 3D en images, et proposons un nouveau pipeline ascendant pour la reconstruction planaire 3D à partir de vidéos monoculaires. En partant de superpixels 2D et de repères géométriques issus de modèles pré-entraînés, nous initialisons les plans 3D en tant qu'AlphaTablets et les optimisons via un rendu différentiable. Un schéma de fusion efficace est introduit pour faciliter la croissance et le raffinement des AlphaTablets. À travers une optimisation itérative et une fusion, nous reconstruisons des plans 3D complets et précis avec des surfaces solides et des frontières claires. Des expériences approfondies sur l'ensemble de données ScanNet démontrent des performances de pointe en matière de reconstruction planaire 3D, soulignant le grand potentiel des AlphaTablets en tant que représentation générique des plans 3D pour diverses applications. La page du projet est disponible sur : https://hyzcluster.github.io/alphatablets

Cadre Enseignant-Étudiant LLM pour la Classification de Texte Sans Données Annotées Manuellement : Une Étude de Cas dans la Classification des Sujets d'Actualités IPTC
LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification

Nov 29

ByTaja Kuzman, Nikola Ljubešić

Avec le nombre croissant d'articles d'actualité disponibles en ligne, les classer par sujet, quelle que soit la langue dans laquelle ils sont rédigés, est devenu crucial pour améliorer l'accès des lecteurs aux contenus pertinents. Pour relever ce défi, nous proposons un cadre enseignant-élève basé sur de grands modèles de langage (LLM) pour développer des modèles de classification d'actualités multilingues de taille raisonnable sans nécessité d'annotation manuelle des données. Le cadre utilise un modèle de type Generative Pretrained Transformer (GPT) en tant que modèle enseignant pour élaborer un ensemble de données d'entraînement IPTC Media Topic grâce à l'annotation automatique d'articles d'actualité en slovène, croate, grec et catalan. Le modèle enseignant présente de hautes performances en zéro-shot dans les quatre langues. Son accord avec les annotateurs humains est comparable à celui entre les annotateurs humains eux-mêmes. Pour pallier les limitations computationnelles liées au traitement de millions de textes quotidiennement, des modèles étudiants plus petits de type BERT sont affinés sur l'ensemble de données annoté par GPT. Ces modèles étudiants atteignent des performances élevées comparables à celles du modèle enseignant. De plus, nous explorons l'impact de la taille des données d'entraînement sur les performances des modèles étudiants et examinons leurs capacités monolingues, multilingues et zéro-shot cross-lingues. Les résultats indiquent que les modèles étudiants peuvent atteindre des performances élevées avec un nombre relativement faible d'instances d'entraînement, et démontrent de solides capacités zéro-shot cross-lingues. Enfin, nous publions le classificateur de sujets d'actualité le plus performant, permettant une classification multilingue avec les catégories de haut niveau du schéma IPTC Media Topic.

DeMo : Optimisation du Momentum Découplé
DeMo: Decoupled Momentum Optimization

Nov 29

ByBowen Peng, Jeffrey Quesnelle, Diederik P. Kingma

L'entraînement de grands réseaux neuronaux nécessite généralement de partager les gradients entre les accélérateurs via des interconnexions spécialisées à haute vitesse. En nous inspirant des principes de traitement du signal de décomposition en fréquence et de compaction d'énergie, nous démontrons que la synchronisation des états complets de l'optimiseur et des paramètres du modèle pendant l'entraînement est inutile. En dissociant les mises à jour de momentum et en permettant une divergence contrôlée des états de l'optimiseur entre les accélérateurs, nous obtenons une convergence améliorée par rapport aux optimiseurs de pointe. Nous présentons Découplage de Momentum (DeMo), un optimiseur fusionné et un algorithme parallèle de données qui réduit les exigences de communication entre les accélérateurs de plusieurs ordres de grandeur. Cela permet l'entraînement de grands réseaux neuronaux même avec une bande passante réseau limitée et un matériel hétérogène. Notre méthode est agnostique de la topologie et indépendante de l'architecture, et prend en charge un entraînement distribué synchrone par horloge scalable avec une surcharge de calcul et de mémoire négligeable. Les résultats empiriques montrent que les modèles entraînés avec DeMo correspondent ou dépassent les performances des modèles équivalents entraînés avec AdamW, tout en éliminant le besoin d'interconnexions à haute vitesse lors de la pré-formation de modèles de base à grande échelle. Une implémentation PyTorch de référence en open source est publiée sur GitHub à l'adresse https://github.com/bloc97/DeMo

SpotLight : Éclairage d'objets guidé par les ombres via la diffusion
SpotLight: Shadow-Guided Object Relighting via Diffusion

Nov 27

ByFrédéric Fortier-Chouinard, Zitian Zhang, Louis-Etienne Messier, Mathieu Garon, Anand Bhattad, Jean-François Lalonde

Des travaux récents ont montré que les modèles de diffusion peuvent être utilisés comme des moteurs de rendu neuronaux puissants qui peuvent être exploités pour insérer des objets virtuels dans des images. Contrairement aux moteurs de rendu basés sur la physique typiques, cependant, les moteurs de rendu neuronaux sont limités par le manque de contrôle manuel sur la configuration de l'éclairage, qui est souvent essentiel pour améliorer ou personnaliser le résultat d'image souhaité. Dans cet article, nous montrons que le contrôle précis de l'éclairage peut être obtenu pour le reéclairage d'objets simplement en spécifiant les ombres désirées de l'objet. Assez surprenamment, nous montrons que l'injection uniquement de l'ombre de l'objet dans un moteur de rendu neuronal basé sur la diffusion pré-entraîné lui permet de ombrer précisément l'objet selon la position de la lumière souhaitée, tout en harmonisant correctement l'objet (et son ombre) dans l'image d'arrière-plan cible. Notre méthode, SpotLight, exploite les approches de rendu neuronal existantes et obtient des résultats de reéclairage contrôlables sans formation supplémentaire. Plus précisément, nous démontrons son utilisation avec deux moteurs de rendu neuronaux de la littérature récente. Nous montrons que SpotLight obtient des résultats de composition d'objets supérieurs, à la fois quantitativement et perceptuellement, comme confirmé par une étude utilisateur, surpassant les modèles basés sur la diffusion existants spécifiquement conçus pour le reéclairage.

Entraînement de l'élagage des jetons de bruit
Training Noise Token Pruning

Nov 27

ByMingxing Rao, Bohan Jiang, Daniel Moyer

Dans le présent travail, nous présentons l'élagage Training Noise Token (TNT) pour les transformers vision. Notre méthode assouplit la condition de suppression de jeton discrète en un bruit additif continu, offrant une optimisation en douceur lors de l'entraînement, tout en conservant les avantages computationnels de la suppression discrète lors du déploiement. Nous établissons des liens théoriques avec la littérature sur le taux de distorsion, et réalisons des évaluations empiriques sur l'ensemble de données ImageNet en utilisant les architectures ViT et DeiT pour démontrer les avantages de TNT par rapport aux méthodes d'élagage précédentes.

Puzzle : NAS basée sur la distillation pour les LLM optimisés pour l'inférence
Puzzle: Distillation-Based NAS for Inference-Optimized LLMs

Nov 28