papers.description
Nous présentons TurboDiffusion, un cadre d'accélération pour la génération vidéo capable d'accélérer la génération par diffusion de bout en bout d'un facteur 100 à 200 tout en préservant la qualité vidéo. TurboDiffusion repose principalement sur plusieurs composants pour l'accélération : (1) Accélération de l'attention : TurboDiffusion utilise la SageAttention en basse précision et l'Attention Sparse-Linéaire (SLA) entraînable pour accélérer le calcul de l'attention. (2) Distillation d'étapes : TurboDiffusion adopte la rCM pour une distillation d'étapes efficace. (3) Quantification W8A8 : TurboDiffusion quantifie les paramètres du modèle et les activations sur 8 bits pour accélérer les couches linéaires et compresser le modèle. De plus, TurboDiffusion intègre plusieurs autres optimisations techniques. Nous menons des expériences sur les modèles Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P et Wan2.1-T2V-14B-480P. Les résultats expérimentaux montrent que TurboDiffusion atteint une accélération de 100 à 200 fois pour la génération vidéo, même sur une seule GPU RTX 5090, tout en maintenant une qualité vidéo comparable. Le dépôt GitHub, qui inclut les points de contrôle des modèles et un code facile à utiliser, est disponible à l'adresse https://github.com/thu-ml/TurboDiffusion.
Les modèles vision-langue (VLM) excellent dans la compréhension générale mais restent faibles en raisonnement spatial dynamique (DSR), c'est-à-dire l'inférence sur l'évolution de la géométrie et des relations des objets dans l'espace 3D au fil du temps, principalement en raison de la rareté des ressources d'entraînement évolutives conscientes de la 4D. Pour combler cette lacune aux niveaux du jeu de données, du benchmark et du modèle, nous présentons DSR Suite. Premièrement, nous proposons un pipeline automatisé qui génère des paires question-réponse à choix multiples à partir de vidéos in-the-wild pour le DSR. En tirant parti des modèles de fondation vision modernes, le pipeline extrait de riches informations géométriques et de mouvement, incluant les poses de caméra, les nuages de points locaux, les masques d'objets, les orientations et les trajectoires 3D. Ces indices géométriques permettent la construction de DSR-Train pour l'apprentissage et de DSR-Bench, affiné par des humains, pour l'évaluation. Par rapport aux travaux précédents, nos données mettent l'accent sur (i) des sources vidéo in-the-wild, (ii) des exigences 3D au niveau objet et scène, (iii) les transformations de point de vue, (iv) les interactions multi-objets, et (v) des réponses procédurales et fines. Au-delà des données, nous proposons un module de sélection géométrique (GSM) léger pour intégrer de manière transparente des prérequis géométriques dans les VLM. Ce module condense la sémantique des questions et extrait les connaissances pertinentes de prérequis de reconstruction 4D pré-entraînés en un ensemble compact de jetons géométriques. Cette extraction ciblée évite de submerger le modèle avec des connaissances non pertinentes. Les expériences montrent que l'intégration de DSR-Train et de GSM dans Qwen2.5-VL-7B améliore significativement sa capacité de raisonnement spatial dynamique, tout en maintenant la précision sur les benchmarks de compréhension vidéo générale.
La génération texte-audio-vidéo (T2AV) vise à synthétiser une vidéo temporellement cohérente et un audio sémantiquement synchronisé à partir du langage naturel, mais son évaluation reste fragmentée, reposant souvent sur des métriques unimodales ou des benchmarks au périmètre restreint qui ne capturent pas l'alignement cross-modal, le respect des instructions et le réalisme perceptuel sous des prompts complexes. Pour remédier à cette limitation, nous présentons T2AV-Compass, un benchmark unifié pour l'évaluation complète des systèmes T2AV, comprenant 500 prompts diversifiés et complexes construits via une pipeline guidée par une taxonomie afin d'assurer une richesse sémantique et une plausibilité physique. Par ailleurs, T2AV-Compass introduit un cadre d'évaluation à double niveau qui intègre des métriques objectives au niveau du signal pour la qualité vidéo, la qualité audio et l'alignement cross-modal, avec un protocole subjectif MLLM-comme-juge pour l'évaluation du respect des instructions et du réalisme. L'évaluation approfondie de 11 systèmes T2AV représentatifs révèle que même les modèles les plus performants restent très en deçà du réalisme humain et de la cohérence cross-modale, avec des échecs persistants en matière de réalisme audio, de synchronisation fine, de respect des instructions, etc. Ces résultats indiquent une marge d'amélioration significative pour les futurs modèles et soulignent la valeur de T2AV-Compass comme banc d'essai à la fois exigeant et diagnostique pour faire progresser la génération texte-audio-vidéo.
La technique du « plan-séquence » incarne une esthétique cinématographique distincte et sophistiquée. Cependant, sa réalisation pratique est souvent entravée par des coûts prohibitifs et des contraintes techniques complexes. Bien que les modèles émergents de génération vidéo offrent une alternative virtuelle, les approches existantes reposent généralement sur une concaténation naïve de clips, qui échoue fréquemment à préserver la fluidité visuelle et la cohérence temporelle. Dans cet article, nous présentons DreaMontage, un cadre complet conçu pour la génération guidée par des images arbitraires, capable de synthétiser des plans-séquences fluides, expressifs et de longue durée à partir de divers inputs utilisateur. Pour y parvenir, nous abordons le défi selon trois dimensions principales. (i) Nous intégrons un mécanisme léger de conditionnement intermédiaire dans l’architecture DiT. En employant une stratégie d’Adaptive Tuning qui exploite efficacement les données d’entraînement de base, nous débloquons des capacités robustes de contrôle par images arbitraires. (ii) Pour améliorer la fidélité visuelle et l’expressivité cinématographique, nous constituons un jeu de données de haute qualité et mettons en œuvre une phase de SFT d’Expression Visuelle. Pour résoudre des problèmes critiques tels que la rationalité du mouvement du sujet et la fluidité des transitions, nous appliquons un schéma DPO sur mesure, qui améliore significativement le taux de réussite et la maniabilité du contenu généré. (iii) Pour faciliter la production de séquences étendues, nous concevons une stratégie d’inférence auto-régressive segment par segment (SAR) fonctionnant de manière économe en mémoire. Des expériences approfondies démontrent que notre approche produit des effets plan-séquence visuellement saisissants et parfaitement cohérents tout en maintenant une efficacité computationnelle, permettant aux utilisateurs de transformer des matériaux visuels fragmentés en expériences cinématographiques vivantes et unifiées.
Nous mettons en évidence un biais de popularité significatif dans les modèles vision-langue (VLM) de pointe, qui atteignent jusqu'à 34 % de précision supplémentaire sur les bâtiments célèbres par rapport aux bâtiments ordinaires, indiquant une dépendance à la mémorisation plutôt qu'à une compréhension généralisable. Pour étudier ce phénomène systématiquement, nous présentons le plus grand benchmark ouvert pour cette tâche : le jeu de données YearGuessr, une collection de 55 546 images de bâtiments avec des attributs multimodaux provenant de 157 pays, annotées avec des labels ordinaux continus de leur année de construction (1001-2024), des données GPS et des comptes de vues de pages comme indicateur de popularité. En utilisant ce jeu de données, nous formulons la tâche de prédiction d'année de construction comme une régression ordinale et introduisons des métriques de précision par intervalle sensibles à la popularité pour quantifier ce biais. Notre benchmark résultant de plus de 30 modèles, incluant notre modèle YearCLIP, confirme que les VLM excellent sur les éléments populaires et mémorisés mais rencontrent des difficultés significatives avec les sujets non reconnus, exposant une faille critique dans leurs capacités de raisonnement. Page du projet : https://sytwu.github.io/BeyondMemo/
Nous présentons Nemotron 3 Nano 30B-A3B, un modèle de langage hybride Mamba-Transformer à mélange d'experts. Nemotron 3 Nano a été pré-entraîné sur 25 billions de tokens textuels, incluant plus de 3 billions de nouveaux tokens uniques par rapport à Nemotron 2, suivi d'un réglage fin supervisé et d'un apprentissage par renforcement à grande échelle dans des environnements diversifiés. Nemotron 3 Nano atteint une meilleure précision que notre génération précédente, Nemotron 2 Nano, tout en activant moins de la moitié des paramètres par passage avant. Il offre un débit d'inférence jusqu'à 3,3 fois supérieur à celui de modèles ouverts de taille similaire comme GPT-OSS-20B et Qwen3-30B-A3B-Thinking-2507, tout en étant plus précis sur les benchmarks populaires. Nemotron 3 Nano démontre des capacités agentielles, de raisonnement et de conversation améliorées et prend en charge des contextes allant jusqu'à 1 million de tokens. Nous publions à la fois nos points de contrôle Nemotron 3 Nano 30B-A3B Base (pré-entraînés) et Nemotron 3 Nano 30B-A3B (post-entraînés) sur Hugging Face.
La génération de vidéos haute résolution, bien que cruciale pour les médias numériques et le cinéma, est limitée en calcul par la complexité quadratique des modèles de diffusion, rendant l'inférence pratique irréalisable. Pour résoudre ce problème, nous présentons HiStream, un cadre autoregressif efficace qui réduit systématiquement la redondance selon trois axes : i) Compression spatiale : débruitage à basse résolution avant un raffinement à haute résolution avec des caractéristiques mises en cache ; ii) Compression temporelle : une stratégie segment par segment avec un cache d'ancrage de taille fixe, garantissant une vitesse d'inférence stable ; et iii) Compression des pas de temps : application de moins d'étapes de débruitage aux segments suivants, conditionnés par le cache. Sur des benchmarks 1080p, notre modèle principal HiStream (i+ii) atteint une qualité visuelle de pointe tout en démontrant un débruitage jusqu'à 76,2 fois plus rapide que la baseline Wan2.1, avec une perte de qualité négligeable. Notre variante plus rapide, HiStream+, applique les trois optimisations (i+ii+iii), atteignant une accélération de 107,5 fois par rapport à la baseline, offrant un compromis convaincant entre vitesse et qualité, rendant ainsi la génération de vidéos haute résolution à la fois pratique et évolutive.
Nous présentons la famille de modèles Nemotron 3 - Nano, Super et Ultra. Ces modèles offrent des capacités agentiques, de raisonnement et conversationnelles robustes. La famille Nemotron 3 utilise une architecture hybride Mixture-of-Experts combinant Mamba et Transformer pour offrir un débit inégalé et des longueurs de contexte allant jusqu'à 1 million de tokens. Les modèles Super et Ultra sont entraînés avec NVFP4 et intègrent LatentMoE, une approche novatrice qui améliore la qualité du modèle. Les deux plus grands modèles incluent également des couches MTP pour une génération de texte plus rapide. Tous les modèles Nemotron 3 sont post-entraînés par apprentissage par renforcement multi-environnements, permettant le raisonnement, l'utilisation d'outils en plusieurs étapes et le support d'un contrôle granulaire du budget de raisonnement. Nano, le plus petit modèle, surpasse les modèles comparables en précision tout en restant extrêmement économique pour l'inférence. Super est optimisé pour les agents collaboratifs et les charges de travail à grand volume comme l'automatisation des tickets informatiques. Ultra, le plus grand modèle, offre une précision et des performances de raisonnement à la pointe de l'état de l'art. Nano est publié avec son rapport technique et ce livre blanc, tandis que Super et Ultra suivront dans les prochains mois. Nous publierons ouvertement les poids des modèles, les logiciels de pré-entraînement et de post-entraînement, les recettes et toutes les données pour lesquelles nous détenons les droits de redistribution.
Les tokeniseurs constituent la base fondamentale par laquelle le texte est représenté et traité par les modèles de langage (LM). Malgré l'importance de la tokenisation, son rôle dans les performances et le comportement des LM reste mal compris en raison de la difficulté à mesurer l'impact de la tokenisation de manière isolée. Pour répondre à ce besoin, nous présentons TokSuite, une collection de modèles et un benchmark qui soutiennent la recherche sur l'influence de la tokenisation sur les LM. Plus précisément, nous entraînons quatorze modèles utilisant différents tokeniseurs mais par ailleurs identiques en utilisant la même architecture, le même jeu de données, le même budget d'entraînement et la même initialisation. De plus, nous constituons et publions un nouveau benchmark qui mesure spécifiquement les performances des modèles face à des perturbations réalistes susceptibles d'influencer la tokenisation. Ensemble, TokSuite permet un découplage robuste de l'influence du tokeniseur d'un modèle, soutenant une série de découvertes novatrices qui élucident les avantages et les limites respectifs d'un large éventail de tokeniseurs populaires.
L'apprentissage par renforcement agentique repose de plus en plus sur la mise à l'échelle par l'expérience, mais les environnements réels restent non adaptatifs, limités en couverture et difficiles à évoluer. Les modèles du monde offrent une voie potentielle pour améliorer l'efficacité de l'apprentissage grâce à l'expérience simulée, mais on ignore encore si les grands modèles linguistiques peuvent remplir ce rôle de manière fiable et dans quelles conditions ils profitent significativement aux agents. Nous étudions ces questions dans des environnements textuels, qui fournissent un cadre contrôlé pour réinterpréter la modélisation linguistique comme une prédiction d'état suivant sous interaction. Nous introduisons un cadre d'évaluation à trois niveaux pour les modèles du monde basés sur les LLM : (i) fidélité et cohérence, (ii) évolutivité et robustesse, et (iii) utilité pour l'agent. Sur cinq environnements représentatifs, nous constatons que des modèles du monde suffisamment entraînés maintiennent un état latent cohérent, évoluent de manière prévisible avec les données et la taille du modèle, et améliorent les performances des agents via la vérification des actions, la génération de trajectoires synthétiques et l'amorçage de l'apprentissage par renforcement. Parallèlement, ces gains dépendent crucialement de la couverture comportementale et de la complexité de l'environnement, délimitant une frontière claire sur le moment où la modélisation du monde soutient efficacement l'apprentissage des agents.
Les progrès récents dans le pré-entraînement de modèles fondationnels généraux ont considérablement amélioré les performances sur diverses tâches en aval. Si les modèles génératifs autorégressifs (AR) comme GPT ont révolutionné le TALN, la plupart des méthodes de pré-entraînement génératif visuel reposent encore sur la modélisation masquée de type BERT, qui néglige souvent l'information temporelle essentielle à l'analyse vidéo. Les rares méthodes autorégressives existantes pour le pré-entraînement visuel souffrent de problèmes tels qu'une localisation sémantique imprécise et une mauvaise qualité de génération, conduisant à une sémantique déficiente. Dans ce travail, nous proposons NExT-Vid, un nouveau cadre de pré-entraînement génératif visuel autorégressif qui utilise la prédiction masquée de l'image suivante pour modéliser conjointement les images et les vidéos. NExT-Vid introduit un prédicteur autorégressif à contexte isolé pour découpler la représentation sémantique du décodage cible, et un décodeur à appariement de flux conditionné pour améliorer la qualité et la diversité de la génération. Grâce au pré-entraînement par appariement de flux à contexte isolé, notre approche obtient des représentations robustes. Des expériences approfondies sur des modèles pré-entraînés à grande échelle démontrent que notre méthode surpasse systématiquement les précédentes méthodes de pré-entraînement génératif pour l'apprentissage de représentations visuelles via un sondage attentionnel en classification aval.
Nous présentons Streamo, un modèle de langage (LLM) en temps réel pour le streaming vidéo, qui sert d'assistant interactif polyvalent. Contrairement aux modèles vidéo en ligne existants qui se concentrent étroitement sur la réponse aux questions ou le sous-titrage, Streamo exécute un large éventail de tâches de streaming vidéo, incluant la narration en temps réel, la compréhension des actions, le sous-titrage d'événements, le repérage temporel d'événements et la réponse à des questions sensibles au facteur temps. Pour développer une telle polyvalence, nous avons construit Streamo-Instruct-465K, un jeu de données à grande échelle d'apprentissage par instructions spécifiquement conçu pour la compréhension du streaming vidéo. Ce jeu de données couvre divers contextes temporels et une supervision multi-tâches, permettant un entraînement unifié pour des tâches de streaming hétérogènes. Après un entraînement de bout en bout sur le jeu de données d'instructions via un pipeline rationalisé, Streamo démontre de solides capacités de raisonnement temporel, une interaction réactive et une large généralisation sur divers benchmarks de streaming. Des expériences approfondies montrent que Streamo comble le fossé entre les modèles de perception vidéo hors ligne et les assistants multimodaux en temps réel, faisant un pas vers une compréhension vidéo unifiée et intelligente dans les flux vidéo continus.
Le paradigme de RAG (Retrieval-Augmented Generation) s'est imposé comme une approche puissante permettant aux grands modèles de langage (LLM) de traiter des requêtes nécessitant des connaissances spécialisées ou actualisées. Pour répondre à des questions multi-saut complexes, difficiles à résoudre par une récupération unique, des approches RAG itératives intégrant l'apprentissage par renforcement ont été proposées. Cependant, les systèmes RAG itératifs existants planifient généralement la décomposition des questions sans exploiter les informations disponibles dans le corpus de récupération, ce qui entraîne des chaînes de raisonnement inefficaces et une dégradation des performances. Dans cet article, nous présentons l'Alignement Précoce des Connaissances (EKA), un module simple mais efficace qui aligne les LLM avec l'ensemble de récupération avant la phase de planification dans les systèmes RAG itératifs, en utilisant des connaissances contextuellement pertinentes. Des expériences approfondies sur six jeux de données RAG standards démontrent qu'en établissant une base de raisonnement plus solide, EKA améliore significativement la précision de la récupération, réduit les erreurs en cascade et améliore à la fois les performances et l'efficacité. Notre analyse sous l'angle de l'entropie montre que l'intégration précoce de connaissances réduit l'exploration superflue durant le processus de raisonnement, permettant au modèle de se concentrer plus efficacement sur les sous-ensembles informationnels pertinents. De plus, EKA s'avère efficace en tant que stratégie d'inférence polyvalente et sans apprentissage, s'adaptant parfaitement aux grands modèles. Des tests de généralisation sur divers jeux de données et corpus de récupération confirment la robustesse de notre approche. Globalement, EKA fait progresser l'état de l'art des systèmes RAG itératifs tout en éclairant l'interaction cruciale entre le raisonnement structuré et l'exploration efficace dans les cadres augmentés par l'apprentissage par renforcement. Le code est disponible à l'adresse https://github.com/yxzwang/EarlyKnowledgeAlignment{Github}.
Les benchmarks existants pour les agents d'intelligence artificielle en programmation se concentrent sur des tâches isolées et ponctuelles, comme la correction d'un bug ou l'implémentation d'une petite fonctionnalité. Cependant, l'ingénierie logicielle réelle est fondamentalement une activité à long terme : les développeurs doivent interpréter des exigences de haut niveau, planifier des modifications coordonnées sur de nombreux fichiers et faire évoluer les bases de code sur plusieurs itérations tout en préservant les fonctionnalités existantes. Nous présentons SWE-EVO, un benchmark qui évalue les agents sur ce défi d'évolution logicielle à long terme. Construit à partir des notes de version et de l'historique de sept projets Python open source matures, SWE-EVO comprend 48 tâches d'évolution qui exigent des agents qu'ils mettent en œuvre des modifications en plusieurs étapes couvrant en moyenne 21 fichiers, validées par des suites de tests complètes représentant en moyenne 874 tests par instance. Les expériences avec les modèles les plus performants révèlent un écart de capacité frappant : même GPT-5 avec OpenHands n'atteint qu'un taux de résolution de 21 % sur SWE-EVO, contre 65 % sur le benchmark ponctuel SWE-Bench Verified. Cela démontre que les agents actuels éprouvent des difficultés avec un raisonnement soutenu et multi-fichiers. Nous proposons également le taux de correction, une métrique granulaire qui capture les progrès partiels dans la résolution de ces tâches complexes et à long terme.
Dans ce travail, nous présentons PhononBench, la première base de référence à grande échelle pour la stabilité dynamique dans les cristaux générés par IA. En tirant parti du potentiel interatomique MatterSim récemment développé, qui atteint une précision de niveau DFT dans les prédictions de phonons pour plus de 10 000 matériaux, PhononBench permet des calculs de phonons à grande échelle efficaces et une analyse de la stabilité dynamique pour 108 843 structures cristallines générées par six modèles leaders de génération de cristaux. PhononBench révèle une limitation généralisée des modèles génératifs actuels pour garantir la stabilité dynamique : le taux moyen de stabilité dynamique pour l'ensemble des structures générées n'est que de 25,83 %, le meilleur modèle, MatterGen, n'atteignant que 41,0 %. Des études de cas supplémentaires montrent que dans la génération ciblant des propriétés – illustrée ici par le conditionnement sur la largeur de bande avec MatterGen – le taux de stabilité dynamique reste aussi faible que 23,5 %, même à la condition de largeur de bande optimale de 0,5 eV. Dans la génération contrôlée par groupe d'espace, les cristaux de symétrie plus élevée présentent une meilleure stabilité (par exemple, les systèmes cubiques atteignent des taux allant jusqu'à 49,2 %), mais la stabilité moyenne pour l'ensemble des générations contrôlées n'est encore que de 34,4 %. Un résultat supplémentaire important de cette étude est l'identification de 28 119 structures cristallines qui sont stables du point de vue des phonons sur l'ensemble de la zone de Brillouin, fournissant un réservoir substantiel de candidats fiables pour l'exploration future des matériaux. En établissant la première base de référence à grande échelle sur la stabilité dynamique, ce travail met systématiquement en lumière les limitations actuelles des modèles de génération de cristaux et offre des critères d'évaluation essentiels et des orientations pour leur développement futur vers la conception et la découverte de matériaux physiquement viables. Toutes les structures cristallines générées par les modèles, les résultats des calculs de phonons et les workflows d'évaluation à haut débit développés dans PhononBench seront librement accessibles à l'adresse https://github.com/xqh19970407/PhononBench.
La prolifération rapide des grands modèles de langage (LLM) et la diversité des benchmarks spécialisés nécessitent une transition des métriques fragmentées et spécifiques à une tâche vers un système de classement compétitif et holistique, capable d'agréger efficacement les performances sur plusieurs dimensions de compétences. Les méthodes d'évaluation actuelles, qui utilisent principalement des scores statiques, sont fondamentalement limitées. Elles peinent à déterminer le ratio de mélange approprié entre différents benchmarks et, surtout, elles échouent à capturer l'aptitude compétitive dynamique d'un modèle ou sa vulnérabilité face à des tâches séquentielles à enjeux élevés. Pour remédier à cela, nous introduisons le nouveau cadre des Dynamiques Competitives à Système Suisse (CSD). CSD simule un concours séquentiel en plusieurs tours où les modèles sont appariés dynamiquement sur une séquence organisée de benchmarks en fonction de leur historique cumulé de victoires et de défaites. Une simulation de Monte Carlo (N=100 000 itérations) est utilisée pour approximer le Score de Victoire Attendue (E[S_m]) statistiquement robuste, ce qui élimine le bruit dû à l'appariement aléatoire et à la chance dans les premiers tours. De plus, nous mettons en œuvre une Analyse de Sensibilité à l'Échec en paramétrant la quantité d'élimination par tour (T_k), ce qui nous permet de profiler les modèles en fonction de leur appétence au risque – en distinguant les généralistes robustes des spécialistes agressifs. Nous démontrons que CSD fournit un classement plus nuancé et contextuel que les modèles traditionnels de scores agrégés et d'appariements statiques par paires, représentant une étape cruciale vers une évaluation nouvelle génération des LLM informée par le risque.