papers.description
Dans cet article, nous proposons NeoVerse, un modèle de monde 4D polyvalent capable de reconstruction 4D, de génération de vidéos par trajectoires nouvelles et de riches applications en aval. Nous identifions d'abord une limitation commune d'évolutivité dans les méthodes actuelles de modélisation de mondes 4D, causée soit par des données 4D multi-vues spécialisées et coûteuses, soit par un prétraitement d'entraînement fastidieux. En revanche, notre modèle NeoVerse repose sur une philosophie centrale qui rend l'ensemble du pipeline évolutif pour diverses vidéos monoculaires en conditions réelles. Plus précisément, NeoVerse se caractérise par une reconstruction 4D feed-forward sans pose, une simulation en ligne des motifs de dégradation monoculaire et d'autres techniques parfaitement alignées. Ces conceptions confèrent à NeoVerse une polyvalence et une généralisation à divers domaines. Parallèlement, NeoVerse atteint des performances de pointe sur les benchmarks standards de reconstruction et de génération. Notre page projet est disponible à l'adresse https://neoverse-4d.github.io.
Les frameworks d'agents de grands modèles de langage (LLM) existants rencontrent deux défis majeurs : des coûts de configuration élevés et des capacités statiques. La création d'un agent de haute qualité nécessite souvent un effort manuel important en intégration d'outils et en ingénierie de prompts, tandis que les agents déployés peinent à s'adapter aux environnements dynamiques sans fine-tuning coûteux. Pour résoudre ces problèmes, nous proposons Youtu-Agent, un framework modulaire conçu pour la génération automatisée et l'évolution continue d'agents LLM. Youtu-Agent dispose d'un système de configuration structuré qui découple les environnements d'exécution, les boîtes à outils et la gestion du contexte, permettant une réutilisation flexible et une synthèse automatisée. Nous introduisons deux paradigmes de génération : un mode Workflow pour les tâches standard et un mode Méta-Agent pour les besoins complexes non standard, capable de générer automatiquement le code d'outils, les prompts et les configurations. De plus, Youtu-Agent établit un système d'optimisation de politique hybride : (1) un module de Pratique d'Agent qui permet aux agents d'accumuler de l'expérience et d'améliorer leurs performances via une optimisation en contexte sans mise à jour des paramètres ; et (2) un module Agent RL qui s'intègre aux frameworks d'entraînement distribué pour permettre un apprentissage par renforcement scalable et stable de tout agent Youtu-Agent de manière end-to-end et à grande échelle. Les expériences démontrent que Youtu-Agent atteint des performances state-of-the-art sur WebWalkerQA (71,47 %) et GAIA (72,8 %) en utilisant des modèles open-weight. Notre pipeline de génération automatisée atteint un taux de réussite de synthèse d'outils supérieur à 81 %, tandis que le module de Pratique améliore les performances sur AIME 2024/2025 de respectivement +2,7 % et +5,4 %. De plus, notre entraînement Agent RL atteint une accélération de 40 % avec une amélioration stable des performances sur des LLM 7B, renforçant respectivement les capacités de codage/raisonnement et de recherche jusqu'à 35 % et 21 % sur les benchmarks de mathématiques et de questions-réponses générales/multi-sauts.
La génération de têtes parlantes crée des avatars réalistes à partir de portraits statiques pour la communication virtuelle et la création de contenu. Cependant, les modèles actuels ne transmettent pas encore la sensation d'une communication véritablement interactive, générant souvent des réponses unidirectionnelles qui manquent d'engagement émotionnel. Nous identifions deux défis majeurs pour des avatars réellement interactifs : générer des mouvements en temps réel sous contraintes causales et apprendre des réactions expressives et dynamiques sans données étiquetées supplémentaires. Pour relever ces défis, nous proposons Avatar Forcing, un nouveau cadre pour la génération interactive d'avatars qui modélise les interactions utilisateur-avatar en temps réel par le forçage de diffusion. Cette conception permet à l'avatar de traiter des entrées multimodales en temps réel, incluant l'audio et les mouvements de l'utilisateur, avec une faible latence pour des réactions instantanées aux signes verbaux et non verbaux tels que la parole, les hochements de tête et les rires. De plus, nous introduisons une méthode d'optimisation de préférence directe qui exploite des échantillons perdants synthétiques construits en supprimant les conditions utilisateur, permettant un apprentissage expressif de l'interaction sans étiquetage. Les résultats expérimentaux démontrent que notre cadre permet une interaction en temps réel avec une faible latence (environ 500 ms), réalisant une accélération de 6,8 fois par rapport à la baseline, et produit des mouvements d'avatar réactifs et expressifs, préférés à plus de 80 % par rapport à la baseline.
Bien que les modèles vision-langage (VLM) puissent résoudre des tâches complexes via un raisonnement agentique, leurs capacités restent largement limitées à des chaînes de réflexion orientées texte ou à des invocations d'outils isolées. Ils ne parviennent pas à démontrer la compétence humaine nécessaire pour entrelacer de manière transparente la manipulation dynamique d'outils avec un raisonnement continu, en particulier dans des scénarios riches en connaissances et visuellement complexes qui exigent l'utilisation coordonnée d'outils externes tels que la recherche et le recadrage d'images. Dans ce travail, nous présentons SenseNova-MARS, un nouveau cadre de Raisonnement Agentique et de Recherche Multimodale qui dote les VLM de capacités entrelacées de raisonnement visuel et d'utilisation d'outils via l'apprentissage par renforcement (RL). Concrètement, SenseNova-MARS intègre dynamiquement les outils de recherche d'images, de recherche textuelle et de recadrage d'images pour relever des défis de compréhension visuelle fine et riche en connaissances. Lors de l'étape de RL, nous proposons l'algorithme d'Optimisation de Politique de Séquence de Groupe avec Normalisation par Lot (BN-GSPO) pour améliorer la stabilité de l'entraînement et renforcer la capacité du modèle à invoquer des outils et à raisonner efficacement. Pour évaluer de manière exhaustive les VLM agentiques sur des tâches visuelles complexes, nous introduisons le benchmark HR-MMSearch, le premier benchmark orienté recherche composé d'images haute résolution avec des questions riches en connaissances et pilotées par la recherche. Les expériences démontrent que SenseNova-MARS atteint des performances de pointe sur les benchmarks open-source de recherche et de compréhension fine d'images. Plus précisément, sur les benchmarks orientés recherche, SenseNova-MARS-8B obtient un score de 67,84 sur MMSearch et 41,64 sur HR-MMSearch, surpassant des modèles propriétaires tels que Gemini-3-Flash et GPT-5. SenseNova-MARS représente une étape prometteuse vers les VLM agentiques en fournissant des capacités d'utilisation d'outils efficaces et robustes. Pour faciliter les recherches futures dans ce domaine, nous publierons l'intégralité du code, des modèles et des jeux de données.
Les modèles de langage multimodaux (MLLM) ont accompli des progrès remarquables dans la compréhension vidéo. Cependant, ils souffrent d'une vulnérabilité critique : une dépendance excessive aux préalables linguistiques, ce qui peut entraîner des hallucinations visuelles non fondées, particulièrement lors du traitement de vidéos contrefactuelles qui défient le bon sens. Cette limitation, découlant du déséquilibre intrinsèque des données entre le texte et la vidéo, est difficile à résoudre en raison du coût substantiel de collecte et d'annotation des données contrefactuelles. Pour y remédier, nous présentons DualityForge, un nouveau cadre de synthèse de données contrefactuelles qui utilise l'édition vidéo contrôlée par diffusion pour transformer des vidéos du monde réel en scénarios contrefactuels. En intégrant une information contextuelle structurée dans les processus d'édition vidéo et de génération de questions-réponses (QA), le cadre produit automatiquement des paires QA de haute qualité ainsi que des paires vidéo originales-éditées pour un apprentissage contrastif. Sur cette base, nous construisons DualityVidQA, un jeu de données vidéo à grande échelle conçu pour réduire les hallucinations des MLLM. De plus, pour exploiter pleinement la nature contrastive de nos données appariées, nous proposons Duality-Normalized Advantage Training (DNA-Train), un régime d'entraînement SFT-RL en deux phases où la phase RL applique une normalisation des avantages par paires de type ℓ₁, permettant ainsi une optimisation de politique plus stable et efficace. Les expériences sur DualityVidQA-Test démontrent que notre méthode réduit substantiellement les hallucinations du modèle sur les vidéos contrefactuelles, produisant une amélioration relative de 24,0 % par rapport à la baseline Qwen2.5-VL-7B. Par ailleurs, notre approche obtient des gains significatifs à la fois sur les benchmarks d'hallucination et les benchmarks généralistes, indiquant une forte capacité de généralisation. Nous ouvrirons notre jeu de données et notre code en accès libre.
La reconstruction de scènes 3D dynamiques à partir de vidéos monoculaires nécessite de capturer simultanément les détails d'apparence haute fréquence et le mouvement temporellement continu. Les méthodes existantes utilisant des primitives gaussiennes uniques sont limitées par leur nature de filtre passe-bas, tandis que les fonctions de Gabor standards introduisent une instabilité énergétique. De plus, l'absence de contraintes de continuité temporelle entraîne souvent des artefacts de mouvement lors de l'interpolation. Nous proposons AdaGaR, un cadre unifié abordant à la fois l'adaptativité fréquentielle et la continuité temporelle dans la modélisation explicite de scènes dynamiques. Nous introduisons la Représentation de Gabor Adaptative, étendant les Gaussiennes via des pondérations fréquentielles apprenables et une compensation énergétique adaptative pour équilibrer la capture des détails et la stabilité. Pour la continuité temporelle, nous employons des Splines Cubiques d'Hermite avec Régularisation de Courbure Temporelle pour assurer une évolution de mouvement fluide. Un mécanisme d'Initialisation Adaptative combinant l'estimation de profondeur, le suivi de points et les masques de premier plan établit des distributions stables de nuages de points en début d'entraînement. Les expériences sur Tap-Vid DAVIS démontrent des performances de pointe (PSNR 35,49, SSIM 0,9433, LPIPS 0,0723) et une forte généralisation dans l'interpolation d'images, la cohérence de profondeur, l'édition vidéo et la synthèse de vues stéréoscopiques. Page du projet : https://jiewenchan.github.io/AdaGaR/
Malgré les progrès récents, particulièrement dans le développement des modèles de langage, des défis fondamentaux et des questions non résolues subsistent quant à la capacité de tels modèles à apprendre/mémoriser de manière continue, à s’auto-améliorer et à trouver des solutions efficaces. Dans cet article, nous présentons un nouveau paradigme d'apprentissage, appelé Apprentissage Imbriqué (AI), qui représente de manière cohérente un modèle d'apprentissage automatique par un ensemble de problèmes d'optimisation imbriqués, multi-niveaux et/ou parallèles, chacun possédant son propre flux contextuel. À travers le prisme de l'AI, les méthodes d'apprentissage profond existantes apprennent à partir des données en compressant leur propre flux contextuel, et l'apprentissage en contexte émerge naturellement dans les grands modèles. L'AI propose une philosophie pour concevoir des algorithmes d'apprentissage plus expressifs avec davantage de niveaux, conduisant à un apprentissage en contexte d'ordre supérieur et permettant potentiellement des capacités d'apprentissage continu efficaces. Nous défendons l'AI en présentant trois contributions principales : (1) Optimiseurs Expressifs : Nous montrons que des optimiseurs basés sur le gradient connus, tels qu'Adam, SGD avec Momentum, etc., sont en réalité des modules de mémoire associative qui visent à compresser l'information des gradients (par descente de gradient). En nous appuyant sur cette intuition, nous présentons d'autres optimiseurs plus expressifs dotés d'une mémoire profonde et/ou de règles d'apprentissage plus puissantes ; (2) Module d'Apprentissage Auto-Modifiant : En tirant parti des insights de l'AI sur les algorithmes d'apprentissage, nous présentons un modèle séquentiel qui apprend à se modifier lui-même en apprenant son propre algorithme de mise à jour ; et (3) Système de Mémoire Continu : Nous présentons une nouvelle formulation pour un système de mémoire qui généralise le point de vue traditionnel de la mémoire à long/court terme. En combinant notre modèle séquentiel auto-modifiant avec le système de mémoire continu, nous présentons un module d'apprentissage continu, appelé Hope, montrant des résultats prometteurs dans des tâches de modélisation du langage, d'incorporation de connaissances, de généralisation en few-shot, d'apprentissage continu et de raisonnement sur de longs contextes.
L'efficacité des réseaux résiduels profonds repose fondamentalement sur la connexion de raccourci d'identité. Bien que ce mécanisme atténue efficacement le problème du gradient disparaissant, il impose un biais inductif strictement additif sur les transformations de caractéristiques, limitant ainsi la capacité du réseau à modéliser des transitions d'état complexes. Dans cet article, nous présentons le Deep Delta Learning (DDL), une nouvelle architecture qui généralise la connexion résiduelle standard en modulant le raccourci d'identité par une transformation géométrique apprenable et dépendante des données. Cette transformation, nommée Opérateur Delta, constitue une perturbation de rang 1 de la matrice identité, paramétrée par un vecteur de direction de réflexion k(X) et un scalaire de gating β(X). Nous fournissons une analyse spectrale de cet opérateur, démontrant que la porte β(X) permet une interpolation dynamique entre la mise en correspondance d'identité, la projection orthogonale et la réflexion géométrique. De plus, nous restructurons la mise à jour résiduelle en une injection synchrone de rang 1, où la porte agit comme un pas dynamique gouvernant à la fois l'effacement des anciennes informations et l'écriture de nouvelles caractéristiques. Cette unification permet au réseau de contrôler explicitement le spectre de son opérateur de transition par couche, permettant la modélisation de dynamiques complexes non monotones tout en préservant les caractéristiques d'apprentissage stables des architectures résiduelles à portes.
Les pipelines de modèles de langage de pointe (LLM) reposent sur des boucles de raisonnement bootstrap : ils échantillonnent diverses chaînes de pensée et renforcent celles ayant les scores les plus élevés, optimisant principalement l'exactitude. Nous analysons comment ce choix de conception est sensible à l'effondrement de la distribution du modèle sur les chemins de raisonnement, réduisant brutalement l'entropie sémantique et sapant la résolution créative de problèmes. Pour analyser cet échec, nous introduisons le Raisonnement Créatif Distributionnel (DCR), un objectif variationnel unifié qui modélise l'entraînement comme un flux de gradient à travers des mesures de probabilité sur les traces de solutions. STaR, GRPO et DPO, ainsi que les bonus d'entropie et d'autres méthodes, constituent tous des cas particuliers de la même fonction de perte. Le cadre fournit trois résultats fondamentaux : (i) le théorème de dégradation de la diversité, décrivant comment les objectifs basés sur l'exactitude conduisent à des modes distincts de dégradation de la diversité pour STaR, GRPO et DPO ; (ii) des conceptions qui assurent la convergence vers une politique stable et diversifiée, prévenant efficacement l'effondrement ; et (iii) des recettes simples et actionnables pour y parvenir en pratique. DCR offre ainsi la première recette fondée sur des principes pour des LLM qui restent à la fois exacts et créatifs.
Les récentes avancées ont montré que l'apprentissage par renforcement (RL) peut améliorer considérablement les capacités de raisonnement des grands modèles de langage (LLM). L'efficacité d'un tel entraînement par RL dépend cependant de manière cruciale de l'espace d'exploration défini par la distribution de sortie des tokens du modèle pré-entraîné. Dans cet article, nous revisitons la fonction de perte d'entropie croisée standard, en l'interprétant comme une instance spécifique de l'optimisation par gradient de stratégie appliquée dans un épisode à une seule étape. Pour étudier systématiquement comment la distribution pré-entraînée façonne le potentiel d'exploration pour le RL ultérieur, nous proposons un objectif de pré-entraînement généralisé qui adapte les principes du RL « on-policy » à l'apprentissage supervisé. En formulant la prédiction du token suivant comme un processus décisionnel stochastique, nous introduisons une stratégie de façonnage de la récompense qui équilibre explicitement la diversité et la précision. Notre méthode utilise un facteur d'échelle de récompense positif pour contrôler la concentration de probabilité sur les tokens de vérité terrain et un mécanisme sensible au rang qui traite de manière asymétrique les tokens négatifs bien classés et mal classés. Cela nous permet de remodeler la distribution de sortie des tokens pré-entraînée et d'étudier comment fournir un espace d'exploration plus favorable pour le RL, améliorant ainsi les performances de raisonnement de bout en bout. Contrairement à l'intuition selon laquelle une entropie de distribution plus élevée facilite une exploration efficace, nous constatons qu'imposer un prior axé sur la précision produit un espace d'exploration supérieur pour le RL.
Les couches de modélisation séquentielle dans les modèles de langage modernes sont généralement confrontées à un compromis entre capacité de stockage et efficacité computationnelle. Alors que l'attention Softmax offre une capacité de stockage illimitée au prix de coûts quadratiques prohibitifs, les variantes linéaires fournissent de l'efficacité mais souffrent d'une capacité de stockage limitée et de taille fixe. Nous proposons la Mémoire à Clés Produit à Poids Rapides (FwPKM), une nouvelle architecture qui résout cette tension en transformant la Mémoire à Clés Produit (PKM) sparse d'un module statique en une mémoire épisodique dynamique à "poids rapides". Contrairement à la PKM, la FwPKM met à jour ses paramètres dynamiquement, à la fois pendant l'entraînement et l'inférence, via une descente de gradient locale au niveau des segments, permettant au modèle de mémoriser et de récupérer rapidement de nouvelles paires clé-valeur à partir des séquences d'entrée. Les expériences révèlent que la FwPKM fonctionne comme une mémoire épisodique efficace qui complète la mémoire sémantique des modules standards, entraînant des réductions significatives de perplexité sur des ensembles de données à contexte long. Notamment, dans les évaluations "Aiguille dans une botte de foin", la FwPKM généralise à des contextes de 128K tokens bien qu'elle n'ait été entraînée que sur des séquences de 4K tokens.
Les grands modèles de langage (LLM) ont démontré des avancées significatives en raisonnement et génération de code. Cependant, la création efficace de nouveaux benchmarks pour évaluer ces capacités reste un défi. L'élaboration traditionnelle de benchmarks repose sur un effort manuel humain, un processus à la fois coûteux et chronophage. De plus, les benchmarks existants contaminent souvent les données d'entraînement des LLM, nécessitant des benchmarks nouveaux et diversifiés pour évaluer avec précision leurs capacités réelles. Ce travail présente InfoSynth, un nouveau cadre pour la génération et l'évaluation automatiques de benchmarks de raisonnement guidés par des principes informationnels. Nous proposons des métriques basées sur la divergence KL et l'entropie pour quantifier la nouveauté et la diversité des benchmarks sans recourir à des évaluations coûteuses des modèles. Sur la base de ce cadre, nous développons un pipeline de bout en bout qui synthétise des problèmes de programmation Python robustes à partir de jeux de données initiaux en utilisant des algorithmes génétiques et une rétroaction itérative du code. Notre méthode génère des cas de test et des solutions précis pour de nouveaux problèmes 97 % du temps, et les benchmarks synthétisés présentent systématiquement une nouveauté et une diversité plus élevées que leurs jeux de données initiaux. De plus, notre algorithme fournit une méthode pour contrôler la nouveauté/diversité et la difficulté des problèmes générés. InfoSynth offre un pipeline évolutif et auto-vérifiant pour construire des benchmarks de haute qualité, nouveaux et diversifiés pour les LLM. Page du projet : https://ishirgarg.github.io/infosynth_web/
La métamorphose 3D reste un défi en raison de la difficulté à générer des déformations sémantiquement cohérentes et temporellement fluides, particulièrement entre différentes catégories. Nous présentons MorphAny3D, un cadre d'apprentissage sans entraînement qui exploite les représentations SLAT (Structured Latent) pour une métamorphose 3D de haute qualité. Notre idée clé est qu'un mélange intelligent des caractéristiques SLAT source et cible au sein des mécanismes d'attention des générateurs 3D produit naturellement des séquences de métamorphose plausibles. À cette fin, nous introduisons l'attention croisée de métamorphose (MCA), qui fusionne les informations source et cible pour la cohérence structurelle, et l'attention auto-temporelle fusionnée (TFSA), qui améliore la cohérence temporelle en incorporant des caractéristiques des images précédentes. Une stratégie de correction d'orientation atténue en outre l'ambiguïté de pose dans les étapes de métamorphose. Des expériences approfondies montrent que notre méthode génère des séquences de métamorphose à la pointe de l'art, même pour des cas difficiles inter-catégories. MorphAny3D prend également en charge des applications avancées telles que la métamorphose découplée et le transfert de style 3D, et peut être généralisé à d'autres modèles génératifs basés sur SLAT. Page du projet : https://xiaokunsun.github.io/MorphAny3D.github.io/.