papers.description
Nous présentons T-pro 2.0, un modèle de langage russe à poids ouverts pour le raisonnement hybride et l'inférence efficace. Le modèle prend en charge la réponse directe et la génération de traces de raisonnement, en utilisant un tokeniseur dense en caractères cyrilliques et un pipeline adapté de décodage spéculatif EAGLE pour réduire la latence. Pour permettre une recherche reproductible et extensible, nous publions les poids du modèle, le corpus d'instructions T-Wix 500k, le benchmark de raisonnement T-Math et les poids EAGLE sur Hugging Face. Ces ressources permettent aux utilisateurs d'étudier le raisonnement en langue russe et d'étendre ou d'adapter à la fois le modèle et le pipeline d'inférence. Une démonstration web publique expose les modes avec et sans raisonnement et illustre les accélérations obtenues par notre pile d'inférence dans divers domaines. T-pro 2.0 constitue ainsi un système ouvert accessible pour construire et évaluer des applications pratiques et efficaces de modèles de langage russes.
Les grands modèles de langage (LLM) ont réalisé des progrès significatifs dans la résolution de tâches de raisonnement complexes grâce au Reinforcement Learning with Verifiable Rewards (RLVR). Cette avancée est également indissociable de la supervision automatisée par des vérificateurs fiables. Cependant, les vérificateurs basés sur les résultats (OV) actuels sont incapables d'inspecter les étapes intermédiaires non fiables dans les longues chaînes de raisonnement (CoT). Parallèlement, les vérificateurs basés sur le processus (PV) actuels éprouvent des difficultés à détecter de manière fiable les erreurs dans les CoT longues et complexes, limités par la rareté des annotations de haute qualité due aux coûts prohibitifs des annotations humaines. Par conséquent, nous proposons le Vérificateur de Processus Basé sur les Résultats (OPV), qui vérifie le processus rationnel des résultats résumés issus de longues CoT pour atteindre une vérification à la fois précise et efficace et permettre une annotation à grande échelle. Pour renforcer ce vérificateur, nous adoptons un cadre d'apprentissage actif itératif avec des annotations d'experts pour améliorer progressivement la capacité de vérification de l'OPV avec moins de coûts d'annotation. Spécifiquement, à chaque itération, les cas les plus incertains du meilleur OPV actuel sont annotés puis utilisés pour entraîner un nouvel OPV via Rejection Fine-Tuning (RFT) et RLVR pour le tour suivant. Des expériences approfondies démontrent la performance supérieure et la large applicabilité de l'OPV. Il établit de nouveaux records sur notre benchmark \thisbench, surpassant des modèles open-source bien plus grands comme Qwen3-Max-Preview avec un score F1 de 83,1 contre 76,3. De plus, l'OPV détecte efficacement les faux positifs dans les ensembles de données synthétiques, en étroite adéquation avec l'évaluation experte. Lorsqu'il collabore avec des modèles politiques, l'OPV génère constamment des gains de performance, par exemple en faisant passer la précision de DeepSeek-R1-Distill-Qwen-32B de 55,2 % à 73,3 % sur AIME2025 à mesure que le budget de calcul augmente.
L'apprentissage par renforcement (RL), précédemment reconnu comme efficace pour les grands modèles linguistiques et multimodaux, a récemment été étendu avec succès pour améliorer la génération d'images 2D. Cependant, son application à la génération 3D reste largement inexplorée en raison de la complexité spatiale accrue des objets 3D, qui nécessitent une géométrie globalement cohérente et des textures locales à grain fin. Cela rend la génération 3D particulièrement sensible à la conception des récompenses et aux algorithmes de RL. Pour relever ces défis, nous menons la première étude systématique du RL pour la génération autoregressive texte-3D selon plusieurs dimensions. (1) Conception des récompenses : Nous évaluons les dimensions des récompenses et les choix de modèles, montrant que l'alignement sur les préférences humaines est crucial et que les modèles multimodaux généraux fournissent un signal robuste pour les attributs 3D. (2) Algorithmes de RL : Nous étudions des variantes de GRPO, soulignant l'efficacité de l'optimisation au niveau des tokens, et examinons l'augmentation des données d'entraînement et des itérations. (3) Benchmarks Texte-3D : Les benchmarks existants ne mesurant pas les capacités de raisonnement implicite des modèles de génération 3D, nous introduisons MME-3DR. (4) Paradigmes avancés de RL : Motivés par la hiérarchie naturelle de la génération 3D, nous proposons Hi-GRPO, qui optimise la génération hiérarchique globale-vers-locale via des ensembles de récompenses dédiés. Sur la base de ces insights, nous développons AR3D-R1, le premier modèle texte-3D optimisé par RL, expert du raffinement de la forme grossière à la texture. Nous espérons que cette étude offre un éclairage sur le raisonnement piloté par RL pour la génération 3D. Le code est disponible à l'adresse https://github.com/Ivan-Tang-3D/3DGen-R1.
Les modèles de langage de grande taille (LLM) ont réalisé des progrès significatifs dans la résolution de tâches de raisonnement complexes grâce au Renforcement par Récompenses Vérifiables (RLVR). Cette avancée est également indissociable de la supervision automatisée par des vérificateurs fiables. Cependant, les vérificateurs basés sur les résultats (OV) actuels sont incapables d'inspecter les étapes intermédiaires non fiables dans les longues chaînes de raisonnement (CoT). Parallèlement, les vérificateurs basés sur le processus (PV) actuels éprouvent des difficultés à détecter de manière fiable les erreurs dans les CoT longues et complexes, limités par la rareté des annotations de haute qualité due aux coûts prohibitifs des annotations humaines. Par conséquent, nous proposons le Vérificateur de Processus Basé sur les Résultats (OPV), qui vérifie le processus rationnel des résultats résumés issus de longues CoT pour atteindre une vérification à la fois précise et efficace et permettre une annotation à grande échelle. Pour renforcer ce vérificateur, nous adoptons un cadre d'apprentissage actif itératif avec des annotations d'experts pour améliorer progressivement la capacité de vérification de l'OPV avec moins de coûts d'annotation. Spécifiquement, à chaque itération, les cas les plus incertains du meilleur OPV actuel sont annotés puis utilisés pour entraîner un nouvel OPV via le Réglage Fin par Rejet (RFT) et le RLVR pour le tour suivant. Des expériences approfondies démontrent la performance supérieure et la large applicabilité de l'OPV. Il établit de nouveaux records sur notre benchmark OPV-Bench, surpassant des modèles open-source bien plus grands comme Qwen3-Max-Preview avec un score F1 de 83,1 contre 76,3. De plus, l'OPV détecte efficacement les faux positifs dans les ensembles de données synthétiques, en étroite adéquation avec l'évaluation experte. Lorsqu'il collabore avec des modèles politiques, l'OPV génère constamment des gains de performance, par exemple en augmentant la précision de DeepSeek-R1-Distill-Qwen-32B de 55,2% à 73,3% sur AIME2025 à mesure que le budget de calcul augmente.
Les agents de grands modèles de langage (LLM) démontrent de solides capacités en résolution de problèmes mathématiques et peuvent même résoudre des problèmes de niveau Olympiade Internationale de Mathématiques (OIM) avec l'assistance de systèmes de preuve formelle. Cependant, en raison de heuristiques faibles pour les constructions auxiliaires, l'IA pour la résolution de problèmes de géométrie reste dominée par des modèles experts comme AlphaGeometry 2, qui s'appuient fortement sur la synthèse de données à grande échelle et la recherche pour l'entraînement et l'évaluation. Dans ce travail, nous faisons la première tentative de construction d'un agent LLM de niveau médaillé pour la géométrie et présentons InternGeometry. InternGeometry surmonte les limitations heuristiques en géométrie en proposant itérativement des propositions et des constructions auxiliaires, en les vérifiant avec un moteur symbolique, et en réfléchissant aux retours du moteur pour guider les propositions suivantes. Un mécanisme de mémoire dynamique permet à InternGeometry de mener plus de deux cents interactions avec le moteur symbolique par problème. Pour accélérer davantage l'apprentissage, nous introduisons l'Apprentissage par Renforcement à Augmentation Progressive de la Complexité (CBRL), qui augmente graduellement la complexité des problèmes synthétisés au cours des étapes d'entraînement. Construit sur InternThinker-32B, InternGeometry résout 44 des 50 problèmes de géométrie des OIM (2000-2024), dépassant le score moyen des médaillés d'or (40,9), en utilisant seulement 13 000 exemples d'entraînement, soit juste 0,004 % des données utilisées par AlphaGeometry 2, démontrant le potentiel des agents LLM sur des tâches de géométrie de niveau expert. InternGeometry peut également proposer de nouvelles constructions auxiliaires pour des problèmes des OIM qui n'apparaissent pas dans les solutions humaines. Nous publierons le modèle, les données et le moteur symbolique pour soutenir les recherches futures.
La capture de mouvement sous-tend désormais la création de contenu bien au-delà des humains numériques, pourtant la plupart des pipelines existants restent spécifiques à une espèce ou à un modèle. Nous formalisons cet écart comme la Capture de Mouvement Agnosticiste aux Catégories (CAMoCap) : étant donné une vidéo monoculaire et un asset 3D riggé arbitraire comme prompt, l'objectif est de reconstruire une animation basée sur les rotations (comme un fichier BVH) qui pilote directement l'asset spécifique. Nous présentons MoCapAnything, un framework factorisé et guidé par référence qui prédit d'abord les trajectoires articulaires 3D, puis retrouve les rotations spécifiques à l'asset via une cinématique inverse prenant en compte les contraintes. Le système contient trois modules apprenables et une étape légère de cinématique inverse : (1) un Encodeur de Prompt de Référence qui extrait des requêtes par articulation du squelette, du maillage et des images rendues de l'asset ; (2) un Extracteur de Caractéristiques Vidéo qui calcule des descripteurs visuels denses et reconstruit un maillage déformable 4D grossier pour combler le fossé entre l'espace vidéo et l'espace articulaire ; et (3) un Décodeur de Mouvement Unifié qui fusionne ces indices pour produire des trajectoires temporellement cohérentes. Nous avons également constitué le "Truebones Zoo" avec 1038 clips de mouvement, chacun fournissant une triade standardisée squelette-maillage-rendu. Les expériences sur des benchmarks en domaine fermé et des vidéos en conditions réelles montrent que MoCapAnything produit des animations squelettiques de haute qualité et présente un transfert interspèces significatif entre rigs hétérogènes, permettant une capture de mouvement 3D pilotée par prompt et scalable pour des assets arbitraires. Page du projet : https://animotionlab.github.io/MoCapAnything/
Alors que les grands modèles de langage (LLM) passent du statut de prototypes de recherche à celui de systèmes en production, les praticiens ont souvent besoin de méthodes fiables pour vérifier que les sorties des modèles satisfont aux contraintes requises. Si les estimations par échantillonnage donnent une intuition du comportement du modèle, elles n'offrent aucune garantie formelle. Nous présentons BEAVER, le premier cadre pratique pour calculer des bornes de probabilité déterministes et formelles sur la satisfaction des contraintes par les LLM. Étant donnée une contrainte sémantique fermée par préfixe, BEAVER explore systématiquement l'espace de génération en utilisant de nouvelles structures de données basées sur un trie de tokens et une frontière, tout en maintenant des bornes prouvablement formelles à chaque itération. Nous formalisons le problème de vérification, prouvons la validité de notre approche et évaluons BEAVER sur des tâches de vérification de la correction, de vérification de la confidentialité et de génération de code sécurisé avec plusieurs LLM de pointe. BEAVER obtient des bornes de probabilité 6 à 8 fois plus serrées et identifie 3 à 4 fois plus d'instances à haut risque que les méthodes de référence, pour un budget de calcul identique, permettant une caractérisation précise et une évaluation des risques que les bornes larges ou l'évaluation empirique ne peuvent fournir.
Ce document présente le concept d'Intelligence Spatiale Microscopique (MiSI), la capacité à percevoir et à raisonner sur les relations spatiales d'entités microscopiques invisibles, qui est fondamentale pour la découverte scientifique. Pour évaluer le potentiel des Modèles Vision-Langage (VLM) dans ce domaine, nous proposons un cadre d'évaluation systématique, MiSI-Bench. Ce cadre comprend plus de 163 000 paires question-réponse et 587 000 images dérivées d'environ 4 000 structures moléculaires, couvrant neuf tâches complémentaires qui évaluent des capacités allant des transformations spatiales élémentaires aux identifications relationnelles complexes. Les résultats expérimentaux révèlent que les VLM actuels les plus performants obtiennent des résultats nettement inférieurs au niveau humain sur ce benchmark. Cependant, un modèle de 7B affiné démontre un potentiel substantiel, dépassant même les humains dans les tâches de transformation spatiale, tandis que ses faibles performances dans des tâches scientifiquement fondées comme la reconnaissance des liaisons hydrogène soulignent la nécessité d'intégrer des connaissances explicites du domaine pour progresser vers une IAG scientifique. Les jeux de données sont disponibles à l'adresse https://huggingface.co/datasets/zongzhao/MiSI-bench.
L'unification de la représentation pour la compréhension multimodale, la génération et la reconstruction au sein d'un unique tokeniseur demeure un défi majeur dans la construction de modèles unifiés. Les recherches antérieures tentent principalement de résoudre ce problème dans un paradigme à double encodeur, par exemple en utilisant des encodeurs distincts pour la compréhension et la génération respectivement, ou en équilibrant les représentations sémantiques et les caractéristiques de bas niveau via une perte contrastive. Dans cet article, nous proposons VQRAE, une version à quantification vectorielle des autoencodeurs de représentation, qui représente la première exploration d'une représentation unifiée produisant des caractéristiques sémantiques continues pour la compréhension d'images et des jetons discrets pour la génération visuelle au sein d'un tokeniseur unifié. Plus précisément, nous nous appuyons sur des modèles de fondation visuelle pré-entraînés avec un décodeur ViT symétrique et adoptons une stratégie d'entraînement en deux étapes : premièrement, le modèle gèle l'encodeur et apprend un codebook sémantique de haute dimension par quantification vectorielle avec un objectif de reconstruction pixel ; ensuite, il optimise conjointement l'encodeur avec des contraintes d'auto-distillation. Cette conception permet de préserver les informations sémantiques de manière négligeable pour maintenir la capacité de compréhension multimodale, tout en produisant des jetons discrets compatibles avec la génération et la reconstruction fine. Par ailleurs, nous identifions une propriété intéressante lors de la quantification des encodeurs sémantiques, qui repose sur un codebook de haute dimension, contrairement à la pratique courante antérieure utilisant des codebooks de basse dimension pour la reconstruction d'images. Le codebook sémantique par quantification vectorielle peut atteindre un taux d'utilisation de 100% à une dimension de 1536. VQRAE démontre des performances compétitives sur plusieurs benchmarks de compréhension visuelle, de génération et de reconstruction, avec des propriétés d'extension prometteuses dans le paradigme autorégressif grâce à ses avantages discrets.
Les paradigmes de pensée-par-les-images ont démontré une capacité remarquable de raisonnement visuel en intégrant l'information visuelle comme éléments dynamiques dans la Chaîne de Raisonnement (CoT). Cependant, l'optimisation par apprentissage par renforcement des CoT multimodales entrelacées (iMCoT) reste difficile, car elle repose sur des données de raisonnement de haute qualité qui sont rares. Dans cette étude, nous proposons la Chaîne de Raisonnement à Auto-Appel (sCoT), un nouveau paradigme de raisonnement visuel qui reformule l'iMCoT comme une CoT purement langagière avec auto-appel. Concrètement, un agent principal décompose la tâche complexe de raisonnement visuel en sous-tâches atomiques et invoque ses répliques virtuelles, c'est-à-dire des sous-agents partageant les paramètres, pour les résoudre dans un contexte isolé. sCoT offre une efficacité et une efficience d'entraînement substantielles, car elle ne nécessite aucun entrelacement explicite entre les modalités. sCoT utilise une optimisation de politique relative au groupe pour renforcer les comportements de raisonnement efficaces et améliorer l'optimisation. Les expériences sur HR-Bench 4K montrent que sCoT améliore les performances globales de raisonnement jusqu'à 1,9 % avec environ 75 % d'heures GPU en moins par rapport aux approches de référence solides. Le code est disponible à l'adresse https://github.com/YWenxi/think-with-images-through-self-calling.
Les modèles génératifs de monde présentent un potentiel significatif pour simuler des interactions avec des politiques visuomotrices dans des environnements variés. Les modèles vidéo de pointe peuvent permettre la génération d'observations réalistes et d'interactions avec l'environnement de manière scalable et générale. Cependant, l'utilisation des modèles vidéo en robotique a été principalement limitée à des évaluations en distribution, c'est-à-dire des scénarios similaires à ceux utilisés pour entraîner la politique ou affiner le modèle vidéo de base. Dans ce rapport, nous démontrons que les modèles vidéo peuvent être utilisés pour l'ensemble du spectre des cas d'usage d'évaluation de politiques en robotique : de l'évaluation des performances nominales à la généralisation hors distribution (OOD), et à l'analyse de la sécurité physique et sémantique. Nous présentons un système d'évaluation génératif construit sur un modèle de fondation vidéo de pointe (Veo). Le système est optimisé pour supporter le conditionnement par les actions robotiques et la cohérence multi-vues, tout en intégrant la retouche d'image générative et la complétion multi-vues pour synthétiser des variations réalistes de scènes du monde réel le long de multiples axes de généralisation. Nous démontrons que le système préserve les capacités de base du modèle vidéo pour permettre une simulation précise de scènes qui ont été modifiées pour inclure de nouveaux objets d'interaction, de nouveaux arrière-plans visuels et de nouveaux objets distracteurs. Cette fidélité permet de prédire avec précision les performances relatives de différentes politiques dans des conditions nominales et OOD, de déterminer l'impact relatif des différents axes de généralisation sur les performances des politiques, et de réaliser du *red teaming* des politiques pour exposer des comportements qui violent les contraintes de sécurité physique ou sémantique. Nous validons ces capacités par plus de 1600 évaluations en monde réel de huit points de contrôle de politiques Gemini Robotics et cinq tâches pour un manipulateur bimanuel.
Nous présentons StereoSpace, un cadre de synthèse monoculaire-stéréo basé sur la diffusion qui modélise la géométrie uniquement par conditionnement de point de vue, sans profondeur explicite ni recalage. Un espace rectifié canonique et le conditionnement guident le générateur à inférer les correspondances et combler les disocclusions de bout en bout. Pour garantir une évaluation équitable et exempte de fuite d'information, nous introduisons un protocole de bout en bout excluant toute vérité terrain ou estimation de géométrie proxy lors des tests. Le protocole privilégie des métriques reflétant la pertinence applicative : l'iSQoE pour le confort perceptif et le MEt³R pour la cohérence géométrique. StereoSpace surpasse les autres méthodes des catégories recalage-inpainting, recalage latent et conditionnement recadré, obtenant un parallaxe net et une robustesse élevée sur les scènes stratifiées et non lambertiennes. Cela établit la diffusion conditionnée par le point de vue comme une solution évolutive et sans profondeur pour la génération stéréoscopique.
Bien que les couches de normalisation aient longtemps été considérées comme des composants indispensables des architectures d'apprentissage profond, l'introduction récente de la fonction tangente hyperbolique dynamique (DyT) a démontré que des alternatives étaient possibles. La fonction ponctuelle DyT contraint les valeurs extrêmes pour une convergence stable et atteint des performances équivalentes à celles d'une normalisation ; ce travail explore plus avant les conceptions de fonctions susceptibles de la surpasser. Nous étudions d'abord comment les propriétés intrinsèques des fonctions ponctuelles influencent l'apprentissage et les performances. En nous appuyant sur ces résultats, nous menons une recherche à grande échelle pour une conception de fonction plus efficace. À travers cette exploration, nous présentons Derf(x) = erf(αx + s), où erf(x) est la fonction de répartition gaussienne redimensionnée, et l'identifions comme la conception la plus performante. Derf surpasse LayerNorm, RMSNorm et DyT dans un large éventail de domaines, incluant la vision (reconnaissance et génération d'images), la représentation de la parole et la modélisation de séquences d'ADN. Nos résultats suggèrent que les gains de performance de Derf découlent largement d'une meilleure généralisation plutôt que d'une capacité d'ajustement supérieure. Sa simplicité et ses performances renforcées font de Derf un choix pratique pour les architectures de Transformers sans normalisation.
La tâche de Question-Réponse sur Vidéo (VideoQA) constitue un terrain d'évaluation crucial pour déterminer si les modèles de fondation peuvent effectivement percevoir, comprendre et raisonner sur des scénarios dynamiques du monde réel. Cependant, les modèles de langage multimodaux de grande taille (MLLM) existants peinent à modéliser simultanément les relations spatiales au sein des images vidéo et à comprendre la dynamique causale de l'évolution temporelle dans des tâches VideoQA complexes et exigeantes en raisonnement. Dans ce travail, nous dotons les MLLM d'une Boîte à Outils Vidéo complète et extensible, afin d'améliorer leurs capacités de raisonnement spatiotemporel et de garantir l'harmonie entre la quantité et la diversité des outils. Pour mieux contrôler la séquence d'invocation des outils et éviter les problèmes de raccourci dans la chaîne d'outils, nous proposons un Cadre de Raisonnement Spatiotemporel (STAR) qui planifie stratégiquement les outils temporels et spatiaux, localisant ainsi progressivement la zone clé de la vidéo. Notre cadre STAR améliore GPT-4o en utilisant des outils légers, obtenant un gain de 8,2 % sur VideoMME et de 4,6 % sur LongVideoBench. Nous pensons que notre Boîte à Outils Vidéo et le cadre STAR proposés constituent une étape importante vers la construction d'assistants d'analyse vidéo autonomes et intelligents. Le code est disponible publiquement à l'adresse https://github.com/fansunqi/VideoTool.
Les robots qui apprennent des compétences de manipulation à partir de vidéos humaines quotidiennes pourraient acquérir des capacités étendues sans le processus fastidieux de collecte de données robotiques. Nous proposons un cadre de traduction vidéo-à-vidéo qui convertit des vidéos ordinaires d'interaction humain-objet en vidéos de manipulation robotique cohérentes sur le plan du mouvement, avec des interactions réalistes et physiquement plausibles. Notre approche ne nécessite aucune vidéo appariée humain-robot pour l'entraînement, seulement un ensemble de vidéos robotiques non appariées, ce qui rend le système facile à mettre à l'échelle. Nous introduisons une représentation transférable qui comble le fossé de l'incarnation : en effectuant un inpainting du bras robotique dans les vidéos d'entraînement pour obtenir un arrière-plan neutre et en superposant un signal visuel simple (un marqueur et une flèche indiquant la position et l'orientation de la pince), nous pouvons conditionner un modèle génératif pour réinsérer le bras robotique dans la scène. Lors des tests, nous appliquons le même processus aux vidéos humaines (inpainting de la personne et superposition de repères de posture humaine) et générons des vidéos robotiques de haute qualité qui imitent les actions de l'humain. Nous affinons un modèle de diffusion vidéo de pointe (Wan 2.2) de manière contextuelle pour garantir la cohérence temporelle et tirer parti de ses riches connaissances a priori. Les résultats empiriques démontrent que notre approche produit des mouvements robotiques significativement plus réalistes et plausibles que les méthodes de référence, indiquant une voie prometteuse pour intensifier l'apprentissage robotique à partir de vidéos humaines non annotées. Page du projet : https://showlab.github.io/H2R-Grounder/
Nous présentons le classement FACTS, une suite de classements en ligne et un ensemble de benchmarks associés qui évaluent de manière exhaustive la capacité des modèles de langage à générer un texte factuellement exact dans divers scénarios. La suite fournit une mesure holistique de la factualité en agrégeant les performances des modèles sur quatre sous-classements distincts : (1) FACTS Multimodal, qui mesure la factualité des réponses à des questions basées sur des images ; (2) FACTS Parametric, qui évalue les connaissances générales des modèles en répondant à des questions factuelles en livre fermé à partir de leurs paramètres internes ; (3) FACTS Search, qui évalue la factualité dans des scénarios de recherche d'information, où le modèle doit utiliser une API de recherche ; et (4) FACTS Grounding (v2), qui évalue si les réponses long-forme sont ancrées dans des documents fournis, avec des modèles évaluateurs considérablement améliorés. Chaque sous-classement utilise des modèles évaluateurs automatisés pour noter les réponses des modèles, et le score final de la suite est une moyenne des quatre composantes, conçue pour fournir une évaluation robuste et équilibrée de la factualité globale d'un modèle. La suite de classements FACTS sera activement maintenue, contenant à la fois des divisions publiques et privées pour permettre une participation externe tout en protégeant son intégrité. Elle est accessible à l'adresse https://www.kaggle.com/benchmarks/google/facts.
Les récentes avancées en projection gaussienne 4D (4DGS) ont étendu la capacité de rendu haute vitesse de la projection gaussienne 3D (3DGS) au domaine temporel, permettant le rendu en temps réel de scènes dynamiques. Cependant, l'un des principaux défis réside dans la modélisation de vidéos dynamiques contenant des mouvements de longue durée, où une extension naïve des méthodes existantes entraîne une explosion mémoire sévère, un scintillement temporel et une incapacité à gérer les occlusions apparaissant ou disparaissant dans le temps. Pour relever ces défis, nous proposons un nouveau cadre 4DGS caractérisé par un mécanisme de fusion bidirectionnelle à relais d'ancre (ARBB), nommé MoRel, qui permet une modélisation cohérente dans le temps et économe en mémoire des scènes dynamiques de longue durée. Notre méthode construit progressivement des espaces d'ancrage canoniques locaux aux indices temporels des images-clés et modélise les déformations inter-images au niveau de l'ancre, améliorant la cohérence temporelle. En apprenant les déformations bidirectionnelles entre les images-clés d'ancrage (KfA) et en les fusionnant de manière adaptative via un contrôle d'opacité apprenable, notre approche atténue les discontinuités temporelles et les artefacts de scintillement. Nous introduisons en outre un schéma de densification hiérarchique guidée par la variance des caractéristiques (FHD) qui densifie efficacement les KfA tout en préservant la qualité du rendu, basé sur un niveau attribué de variance des caractéristiques. Pour évaluer efficacement la capacité de notre modèle à gérer des mouvements 4D de longue durée en conditions réelles, nous avons constitué un nouveau jeu de données contenant des mouvements 4D de longue portée, appelé SelfCap_{LR}. Il présente une magnitude moyenne de mouvement dynamique plus importante, capturée dans des espaces spatialement plus étendus, comparé aux précédents jeux de données vidéo dynamiques. Globalement, notre MoRel réalise une reconstruction 4D de longue durée cohérente dans le temps et sans scintillement tout en maintenant une utilisation mémoire bornée, démontrant à la fois l'évolutivité et l'efficacité des représentations dynamiques basées sur les gaussiennes.
Les modèles vidéo unifiés présentent de solides capacités de compréhension et de génération, mais ils peinent à réaliser l'édition visuelle informée par le raisonnement, même lorsqu'ils sont équipés de modèles vision-langage (VLM) internes puissants. Nous attribuons cet écart à deux facteurs : 1) les ensembles de données existants sont inadéquats pour entraîner et évaluer l'édition vidéo consciente du raisonnement, et 2) une déconnexion inhérente entre les capacités de raisonnement et d'édition des modèles, qui empêche la riche compréhension d'orienter efficacement le processus d'édition. Combler cet écart nécessite un cadre intégré qui relie le raisonnement à la transformation visuelle. Pour remédier à ce problème, nous introduisons la tâche d'Édition Vidéo Informée par le Raisonnement (RVE), qui exige de raisonner sur la plausibilité physique et la dynamique causale pendant l'édition. Pour permettre une évaluation systématique, nous construisons RVE-Bench, un benchmark complet avec deux sous-ensembles complémentaires : l'Édition Vidéo Informée par le Raisonnement et la Génération Vidéo en Contexte. Ces sous-ensembles couvrent diverses dimensions du raisonnement et des scénarios d'édition réalistes. Sur cette base, nous proposons ReViSE, un cadre d'Auto-Réflexion Raisonnée (SRF) qui unifie la génération et l'évaluation au sein d'une architecture unique. Le VLM interne du modèle fournit un retour intrinsèque en évaluant si la vidéo éditée satisfait logiquement l'instruction donnée. Le retour différentiel affine le comportement raisonné du générateur pendant l'entraînement. Des expériences poussées sur RVE-Bench démontrent que ReViSE améliore significativement la précision de l'édition et la fidélité visuelle, atteignant une amélioration de 32% du score global dans le sous-ensemble d'édition vidéo informée par le raisonnement par rapport aux méthodes state-of-the-art.
La personnalisation de concepts visuels vise à transférer uniquement des attributs d'image spécifiques, tels que l'identité, l'expression, l'éclairage et le style, dans des contextes non vus. Cependant, les méthodes existantes reposent sur des plongements holistiques issus d'encodeurs d'image généralistes, qui entremêlent de multiples facteurs visuels et rendent difficile l'isolation d'un seul attribut. Cela conduit souvent à des fuites d'information et à une synthèse incohérente. Pour remédier à cette limitation, nous présentons Omni-Attribute, le premier encodeur d'attributs d'image à vocabulaire ouvert conçu pour apprendre des représentations spécifiques aux attributs et de haute fidélité. Notre approche conjointe les données et le modèle : (i) nous sélectionnons des paires d'images sémantiquement liées, annotées avec des attributs positifs et négatifs, pour enseigner explicitement à l'encodeur ce qu'il doit préserver ou supprimer ; et (ii) nous adoptons un paradigme d'entraînement à double objectif qui équilibre la fidélité générative avec le désentremêlement contrastif. Les plongements résultants s'avèrent efficaces pour la recherche d'attributs en vocabulaire ouvert, la personnalisation et la génération compositionnelle, atteignant des performances de pointe sur plusieurs benchmarks.
L'ingénierie logicielle IA en contexte réel exige des agents de programmation capables de raisonner sur des référentiels massifs, de maintenir une mémoire durable entre et au sein de longues sessions, et de coordonner robustement des chaînes d'outils complexes lors des tests. Les agents de programmation open-source existants offrent de la transparence mais peinent fréquemment face à ces charges de travail industrielles, tandis que les agents propriétaires proposent de fortes performances pratiques mais une extensibilité, une interprétabilité et une contrôlabilité limitées. Nous présentons le Confucius Code Agent (CCA), un ingénieur logiciel IA open-source capable d'opérer à l'échelle industrielle. CCA est construit sur le Confucius SDK, une plateforme open-source de développement d'agents conçue autour de trois perspectives complémentaires : l'Expérience Agent (AX), l'Expérience Utilisateur (UX) et l'Expérience Développeur (DX). Le SDK introduit un orchestrateur unifié avec une mémoire de travail hiérarchique pour le raisonnement en contexte long, un système de prise de notes persistant pour l'apprentissage continu inter-sessions, et un module d'extension modulaire pour une utilisation robuste d'outils. De plus, un méta-agent automatise la synthèse, l'évaluation et l'affinement des configurations d'agents via une boucle de construction-test-amélioration, permettant un développement rapide d'agents sur de nouvelles tâches, environnements et piles d'outils. Instancié sur Confucius SDK avec ces mécanismes, CCA offre de solides performances sur des tâches d'ingénierie logicielle réelles. Sur SWE-Bench-Pro, CCA atteint une performance Resolve@1 de pointe de 54,3%, améliorant substantiellement les agents de programmation antérieurs. Ensemble, le Confucius SDK et CCA fournissent une base transparente, extensible et reproductible pour les agents IA, comblent les écarts entre les prototypes de recherche et les systèmes de qualité production, et soutiennent le développement et le déploiement d'agents à l'échelle industrielle.
Les agents LLM sont largement déployés pour des tâches interactives complexes, mais les contraintes de confidentialité empêchent souvent une optimisation centralisée et une co-évolution dans des environnements dynamiques. Si l'apprentissage fédéré (FL) a fait ses preuves sur des jeux de données statiques, son extension à l'auto-évolution ouverte des agents reste peu explorée. L'application directe du FL standard est difficile : l'hétérogénéité des tâches et des récompenses éparses au niveau des trajectoires introduisent de graves conflits de gradient, déstabilisant le processus d'optimisation globale. Pour combler cette lacune, nous proposons Fed-SE, un cadre d'auto-évolution fédérée pour les agents LLM. Fed-SE établit un paradigme d'évolution locale-agrégation globale. Localement, les agents utilisent un fine-tuning paramétriquement efficace sur des trajectoires filtrées à haut rendement pour obtenir des mises à jour de gradient stables. Globalement, Fed-SE agrège les mises à jour dans un sous-espace de faible rang qui démêle la dynamique spécifique à l'environnement, réduisant efficacement le transfert négatif entre les clients. Des expériences sur cinq environnements hétérogènes démontrent que Fed-SE amène une amélioration d'environ 18% des taux de réussite moyens par rapport aux méthodes fédérées de référence, validant son efficacité pour un transfert de connaissances robuste entre environnements dans des déploiements soumis à des contraintes de confidentialité.
Les agents de jeu de rôle (RPA) doivent maîtriser simultanément de nombreuses compétences conflictuelles : suivre des instructions multi-tours, faire preuve de connaissances domaines et adopter un style linguistique cohérent. Les travaux existants reposent soit sur un fine-tuning supervisé (SFT) qui surajuste les indices superficiels et produit une faible diversité, soit sur l'apprentissage par renforcement (RL) qui échoue à apprendre les multiples dimensions nécessaires à l'optimisation complète des RPA. Nous présentons MOA (Alignement Multi-Objectifs), un cadre d'apprentissage par renforcement permettant l'optimisation multi-dimensionnelle et granulaire des rubriques pour les RPA généraux. MOA introduit une nouvelle stratégie d'optimisation multi-objectifs qui entraîne simultanément sur plusieurs rubriques granulaires pour améliorer les performances d'optimisation. Par ailleurs, pour résoudre les problèmes de diversité et de qualité des sorties du modèle, nous avons également employé un déploiement augmenté par raisonnement avec guidage hors politique. Des expériences approfondies sur des benchmarks exigeants comme PersonaGym et RoleMRC montrent que MOA permet à un modèle de 8B d'égaler voire de surpasser des bases de référence solides telles que GPT-4o et Claude sur de nombreuses dimensions. Cela démontre le grand potentiel de MOA pour construire des RPA capables de satisfaire simultanément aux exigences de connaissances du rôle, de style de personnage, de scénarios diversifiés et de conversations multi-tours complexes.
Le progrès de l’IA incarnée a ouvert d’importantes perspectives pour les robots humanoïdes intelligents. Cependant, l’avancée des modèles vision-langage-action (VLA) et des modèles du monde est fortement limitée par le manque de données d’entraînement à grande échelle et diversifiées. Une solution prometteuse consiste à « robotiser » des vidéos humaines issues du web, une approche dont l’efficacité a été démontrée pour l’apprentissage de politiques. Toutefois, les méthodes existantes se contentent souvent de « superposer » des bras robotiques à des vidéos égocentriques, ce qui ne permet pas de traiter les mouvements complexes du corps entier ni les occlusions dans des vidéos à la troisième personne, les rendant inadaptées à la robotisation d’humains. Pour combler cette lacune, nous présentons X-Humanoid, une méthode de génération vidéo par édition qui adapte le puissant modèle Wan 2.2 en une structure vidéo-à-vidéo et l’affine pour la tâche de traduction humain-vers-humanoïde. Cet affinage nécessite des paires de vidéos humain-humanoïde ; nous avons donc conçu un pipeline scalable de création de données, transformant des ressources communautaires en plus de 17 heures de vidéos synthétiques appariées à l’aide d’Unreal Engine. Nous appliquons ensuite notre modèle entraîné à 60 heures de vidéos Ego-Exo4D, générant et publiant un nouveau jeu de données à grande échelle comprenant plus de 3,6 millions d’images vidéo « robotisées » d’humanoïdes. Les analyses quantitatives et les études utilisateur confirment la supériorité de notre méthode par rapport aux approches existantes : 69 % des utilisateurs l’ont jugée meilleure en cohérence motrice et 62,1 % en exactitude de l’incarnation.
Les approches récentes basées sur les modèles vision-langage (VLM) ont obtenu des résultats impressionnants en génération de SVG. Cependant, comme elles ne génèrent que du texte et manquent de signaux visuels pendant le décodage, elles éprouvent souvent des difficultés avec les sémantiques complexes et échouent à produire des SVG visuellement attrayants ou géométriquement cohérents. Nous présentons DuetSVG, un modèle multimodal unifié qui génère conjointement des tokens d'image et les tokens SVG correspondants de manière end-to-end. DuetSVG est entraîné sur des ensembles de données d'images et de SVG. Lors de l'inférence, nous appliquons une nouvelle stratégie de mise à l'échelle au moment du test qui exploite les prédictions visuelles natives du modèle comme guide pour améliorer la qualité du décodage SVG. Des expériences approfondies montrent que notre méthode surpasse les méthodes existantes, produisant des SVG fidèles visuellement, alignés sémantiquement et syntaxiquement propres dans un large éventail d'applications.