Articles de recherche IA sélectionnés quotidiennement avec traductions
Les modèles du monde basés sur la vidéo ont émergé selon deux paradigmes dominants : la génération de vidéos et la reconstruction 3D. Cependant, les benchmarks d'évaluation existants se concentrent soit étroitement sur la fidélité visuelle et l'alignement texte-vidéo pour les modèles génératifs, soit s'appuient sur des métriques de reconstruction 3D statiques qui négligent fondamentalement la dynamique temporelle. Nous soutenons que l'avenir de la modélisation du monde réside dans la génération 4D, qui modélise conjointement la structure spatiale et l'évolution temporelle. Dans ce paradigme, la capacité fondamentale est la réponse interactive : la capacité à refléter fidèlement la manière dont les actions d'interaction pilotent les transitions d'état à travers l'espace et le temps. Pourtant, aucun benchmark existant n'évalue systématiquement cette dimension critique. Pour combler cette lacune, nous proposons Omni-WorldBench, un benchmark complet conçu spécifiquement pour évaluer les capacités de réponse interactive des modèles du monde dans des contextes 4D. Omni-WorldBench comprend deux éléments clés : Omni-WorldSuite, une suite systématique d'invites couvrant divers niveaux d'interaction et types de scènes ; et Omni-Metrics, un cadre d'évaluation basé sur des agents qui quantifie les capacités de modélisation du monde en mesurant l'impact causal des actions d'interaction à la fois sur les résultats finaux et sur les trajectoires d'évolution des états intermédiaires. Nous menons des évaluations approfondies de 18 modèles du monde représentatifs à travers plusieurs paradigmes. Notre analyse révèle des limitations critiques des modèles actuels en matière de réponse interactive, fournissant des pistes concrètes pour les recherches futures. Omni-WorldBench sera publié publiquement pour favoriser les progrès dans la modélisation interactive du monde en 4D.
Nous présentons daVinci-MagiHuman, un modèle génératif audio-vidéo open-source de type fondation, spécialisé dans la génération de contenu centré sur l'humain. daVinci-MagiHuman génère conjointement une vidéo et un audio synchronisés en utilisant un Transformer à flux unique qui traite le texte, la vidéo et l'audio au sein d'une séquence de tokens unifiée via une architecture reposant uniquement sur l'auto-attention. Cette conception monolithique évite la complexité des architectures multi-flux ou à attention croisée tout en restant facile à optimiser avec une infrastructure d'entraînement et d'inférence standard. Le modèle est particulièrement performant dans les scénarios centrés sur l'humain, produisant des expressions faciales expressives, une coordination naturelle entre la parole et les expressions, des mouvements corporels réalistes et une synchronisation audio-vidéo précise. Il prend en charge la génération de parole multilingue en chinois (mandarin et cantonais), anglais, japonais, coréen, allemand et français. Pour une inférence efficace, nous combinons l'architecture à flux unique avec de la distillation de modèle, une super-résolution dans l'espace latent et un décodeur Turbo VAE, permettant la génération d'une vidéo de 5 secondes en résolution 256p en 2 secondes sur une seule GPU H100. Lors de l'évaluation automatique, daVinci-MagiHuman obtient la plus haute qualité visuelle et le meilleur alignement textuel parmi les principaux modèles open-source, ainsi que le taux d'erreur de mots le plus bas (14,60 %) pour l'intelligibilité de la parole. Dans une évaluation humaine par paires, il atteint des taux de victoire de 80,0 % contre Ovi 1.1 et 60,9 % contre LTX 2.3 sur 2000 comparaisons. Nous ouvrons en open-source la pile complète du modèle, incluant le modèle de base, le modèle distillé, le modèle de super-résolution et le codebase d'inférence.
Les modèles vision-langue (VLM) traitent généralement les images à leur haute résolution native, imposant un compromis entre précision et efficacité computationnelle : les entrées haute résolution capturent les détails fins mais entraînent des coûts computationnels significatifs, tandis que les entrées basse résolution privilégient l'efficacité mais risquent d'omettre des informations visuelles critiques, comme le petit texte. Nous présentons AwaRes, un cadre spatial à la demande qui résout ce compromis en opérant sur une vue globale basse résolution et en utilisant l'appel d'outils pour récupérer uniquement les segments haute résolution nécessaires à une requête donnée. Nous construisons automatiquement des données supervisées : un juge compare les réponses basse vs haute résolution pour étiqueter si un recadrage est nécessaire, et un modèle de localisation oracle situe les preuves pour la réponse correcte, que nous mappons à un ensemble discret de recadrages pour former des trajectoires multi-tours d'utilisation d'outils. Nous entraînons notre cadre avec un SFT à froid suivi d'un GRPO multi-tours avec une récompense composite combinant l'exactitude sémantique de la réponse avec des pénalités explicites liées au coût des recadrages. Page du projet : https://nimrodshabtay.github.io/AwaRes
Nous présentons LongCat-Flash-Prover, un modèle phare open-source à 560 milliards de paramètres de type Mixture-of-Experts (MoE), qui fait progresser le raisonnement formel natif dans Lean4 grâce à un raisonnement agentique intégrant des outils (TIR). Nous décomposons la tâche de raisonnement formel natif en trois capacités formelles indépendantes : l'auto-formalisation, l'esquisse de preuve (sketching) et la démonstration. Pour faciliter ces capacités, nous proposons un cadre d'itération à experts hybrides (Hybrid-Experts Iteration Framework) pour développer des trajectoires de tâches de haute qualité, incluant la génération d'un énoncé formel à partir d'un problème informel donné, la production d'une preuve complète directement à partir de l'énoncé, ou une esquisse de type lemme. Durant l'apprentissage par renforcement agentique (RL), nous présentons un algorithme d'optimisation de politique par échantillonnage d'importance hiérarchique (Hierarchical Importance Sampling Policy Optimization, HisPO), qui vise à stabiliser l'entraînement du modèle MoE sur ces tâches à long horizon. Il utilise une stratégie de masquage des gradients qui prend en compte la vétusté de la politique (policy staleness) et les écarts inhérents entre les moteurs d'entraînement et d'inférence, aux niveaux de la séquence et du token. De plus, nous intégrons également des mécanismes de détection de la cohérence et de la légalité des théorèmes pour éliminer les problèmes de détournement de récompense (reward hacking). Des évaluations approfondies montrent que notre LongCat-Flash-Prover établit un nouvel état de l'art pour les modèles à poids ouverts (open-weights) à la fois en auto-formalisation et en démonstration de théorèmes. Faisant preuve d'une remarquable efficacité en termes d'échantillons, il atteint un taux de réussite de 97,1 % sur MiniF2F-Test en utilisant seulement un budget de 72 inférences par problème. Sur des benchmarks plus difficiles, il résout 70,8 % de ProverBench et 41,5 % de PutnamBench avec pas plus de 220 tentatives par problème, surpassant significativement les modèles de référence à poids ouverts existants.
L'entraînement d'agents de recherche approfondie nécessite des trajectoires à long terme qui entrelacent recherche, agrégation de preuves et raisonnement multi-étapes. Cependant, les pipelines de collecte de données existants reposent généralement sur des API web propriétaires, rendant la synthèse de trajectoires à grande échelle coûteuse, instable et difficile à reproduire. Nous présentons OpenResearcher, un pipeline reproductible qui dissocie l'amorçage unique du corpus de la synthèse de trajectoires multi-tours et exécute la boucle de recherche et navigation entièrement hors ligne en utilisant trois primitives explicites de navigateur : recherche, ouverture et trouver, sur un corpus de 15 millions de documents. En utilisant GPT-OSS-120B comme modèle enseignant, nous synthétisons plus de 97 000 trajectoires, incluant une queue de distribution substantielle à long terme avec plus de 100 appels d'outils. Le réglage fin supervisé d'un modèle de base 30B-A3B sur ces trajectoires atteint une précision de 54,8 % sur BrowseComp-Plus, soit une amélioration de +34,0 points par rapport au modèle de base, tout en restant compétitif sur BrowseComp, GAIA et xbench-DeepSearch. Parce que l'environnement est hors ligne et entièrement instrumenté, il permet également une analyse contrôlée, où notre étude révèle des insights pratiques pour la conception de pipelines de recherche approfondie, incluant les stratégies de filtrage des données, les choix de configuration des agents, et la relation entre le succès de la récupération et la précision de la réponse finale. Nous publions le pipeline, les trajectoires synthétisées, les points de contrôle des modèles et l'environnement de recherche hors ligne à l'adresse https://github.com/TIGER-AI-Lab/OpenResearcher.
La compréhension de vidéos longues reste un défi pour les modèles de langage multimodaux de grande taille (MLLM) en raison de la taille limitée de leur fenêtre contextuelle, qui nécessite d'identifier des segments vidéo pertinents pour la requête de manière parcimonieuse. Cependant, les méthodes existantes localisent principalement des indices en se basant uniquement sur la requête, négligeant la structure intrinsèque de la vidéo et la pertinence variable entre les segments. Pour résoudre ce problème, nous proposons VideoDetective, un cadre qui intègre la pertinence requête-segment et l'affinité inter-segments pour une chasse efficace aux indices dans la réponse à des questions sur des vidéos longues. Concrètement, nous divisons une vidéo en plusieurs segments et les représentons sous forme d'un graphe d'affinité visuel-temporel construit à partir de la similarité visuelle et de la proximité temporelle. Nous effectuons ensuite une boucle Hypothèse-Vérification-Raffinement pour estimer les scores de pertinence des segments observés par rapport à la requête et les propager aux segments non vus, produisant ainsi une distribution de pertinence globale qui guide la localisation des segments les plus critiques pour la réponse finale avec une observation parcimonieuse. Les expériences montrent que notre méthode obtient systématiquement des gains substantiels sur une large gamme de MLLM grand public sur des benchmarks représentatifs, avec des améliorations de précision allant jusqu'à 7,5 % sur VideoMME-long. Notre code est disponible à l'adresse https://videodetective.github.io/
Malgré le succès remarquable des modèles de représentation d'images pré-entraînés à grande échelle (c'est-à-dire les encodeurs visuels) dans diverses tâches de vision, ils sont principalement entraînés sur des données d'images 2D et échouent donc souvent à capturer les relations spatiales 3D entre les objets et les arrière-plans dans le monde réel, ce qui limite leur efficacité dans de nombreuses applications en aval. Pour remédier à cela, nous proposons SpatialBoost, un cadre évolutif qui améliore la conscience spatiale des encodeurs visuels pré-entraînés existants en injectant des connaissances spatiales 3D exprimées sous forme de descriptions linguistiques. L'idée centrale consiste à convertir des informations spatiales 3D denses à partir d'images 2D en expressions linguistiques, qui sont ensuite utilisées pour injecter ces connaissances spatiales dans les encodeurs visuels via un Grand Modèle de Langage (LLM). À cette fin, nous adoptons un processus de raisonnement en Chaîne de Pensée (CoT) multi-tours qui intègre progressivement des connaissances spatiales denses et construit une compréhension spatiale hiérarchique. Pour valider l'efficacité, nous adaptons SpatialBoost à des encodeurs visuels de pointe tels que DINOv3, et évaluons ses gains de performance sur un large éventail de benchmarks nécessitant à la fois une perception 3D et des capacités de vision générale. Par exemple, SpatialBoost améliore les performances de DINOv3 de 55,9 à 59,7 mIoU sur ADE20K, atteignant des performances de pointe avec un gain de 3,8 % par rapport au DINOv3 pré-entraîné.
Les méthodes d'optimisation de politique relative au groupe (GRPO) pour la génération vidéo, comme FlowGRPO, restent bien moins fiables que leurs équivalents pour les modèles de langage et les images. Cet écart provient du fait que la génération vidéo possède un espace de solutions complexe, et que la conversion ODE-vers-EDS utilisée pour l'exploration peut injecter un bruit excessif, réduisant la qualité des séquences générées et rendant les estimations de récompense moins fiables, ce qui déstabilise l'alignement post-entraînement. Pour résoudre ce problème, nous considérons le modèle pré-entraîné comme définissant une variété de données vidéo valide et formulons le problème central comme une contrainte de l'exploration à proximité de cette variété, garantissant ainsi la préservation de la qualité des séquences et la fiabilité des estimations de récompense. Nous proposons SAGE-GRPO (Alignement Stable par Exploration), qui applique des contraintes aux niveaux micro et macro. Au niveau micro, nous dérivons un EDS précis tenant compte de la variété avec une correction logarithmique de courbure et introduisons un égaliseur de norme de gradient pour stabiliser l'échantillonnage et les mises à jour sur les pas de temps. Au niveau macro, nous utilisons une double région de confiance avec une ancre mobile périodique et des contraintes pas à pas afin que la région de confiance suive des points de contrôle plus proches de la variété et limite la dérive à long terme. Nous évaluons SAGE-GRPO sur HunyuanVideo1.5 en utilisant le VideoAlign original comme modèle de récompense et observons des gains constants par rapport aux méthodes précédentes sur les métriques VQ, MQ, TA et visuelles (CLIPScore, PickScore), démontrant des performances supérieures à la fois en maximisation des récompenses et en qualité vidéo globale. Le code et la galerie visuelle sont disponibles à l'adresse https://dungeonmassster.github.io/SAGE-GRPO-Page/.
L'entraînement actuel des modèles de langage applique couramment un réglage fin supervisé (SFT) multi-tâches en utilisant un budget de calcul homogène sur tous les sous-ensembles de données. Cette approche est fondamentalement sous-optimale : des dynamiques d'apprentissage hétérogènes entraînent une surspécialisation précoce des tâches à apprentissage rapide, tandis que les tâches plus lentes restent sous-adaptées. Pour résoudre ce problème, nous présentons mSFT, un algorithme de recherche itératif et conscient de la surspécialisation pour les mélanges de données multi-tâches. mSFT entraîne le modèle sur un mélange actif, identifie et exclut le sous-ensemble de données qui surspécialise le plus tôt, puis revient au point de contrôle optimal spécifique avant de continuer. Des évaluations approfondies démontrent que mSFT surpasse systématiquement 4 méthodes de référence sur 10 benchmarks et 6 modèles de base. Une analyse plus poussée confirme que mSFT maintient des gains robustes quelles que soient la taille des ensembles de données, la granularité des tâches, et est insensible à son unique nouvel hyperparamètre (le budget de calcul). Fait notable, avec un faible budget de calcul, mSFT peut améliorer les performances tout en réduisant les FLOPs d'entraînement. En définitive, mSFT établit un algorithme pratique et conscient de la surspécialisation pour le SFT multi-tâches, maximisant le potentiel des modèles sur divers mélanges de données.
Les méthodes de splatting par gaussiennes 3D en passe unique permettent une reconstruction en une seule étape et un rendu en temps réel. Cependant, elles adoptent généralement des pipelines rigides de type pixel-à-gaussienne ou voxel-à-gaussienne qui allouent les gaussiennes de manière uniforme, entraînant une redondance des gaussiennes entre les différentes vues. De plus, elles ne disposent pas d'un mécanisme efficace pour contrôler le nombre total de gaussiennes tout en préservant la fidélité de la reconstruction. Pour résoudre ces limitations, nous présentons F4Splat, qui effectue une densification prédictive en passe unique pour le splatting par gaussiennes 3D, en introduisant une stratégie d'allocation guidée par un score de densification qui répartit adaptativement les gaussiennes selon la complexité spatiale et le chevauchement multi-vues. Notre modèle prédit des scores de densification par région pour estimer la densité gaussienne requise et permet un contrôle explicite du budget gaussien final sans réentraînement. Cette allocation spatialement adaptative réduit la redondance dans les régions simples et minimise les gaussiennes dupliquées dans les vues qui se chevauchent, produisant ainsi des représentations 3D compactes et de haute qualité. Des expériences approfondies démontrent que notre modèle atteint des performances supérieures en synthèse de nouvelles vues par rapport aux méthodes précédentes non calibrées en passe unique, tout en utilisant un nombre significativement moindre de gaussiennes.
Si les récents progrès dans les espaces latents génératifs ont permis des avancées significatives en génération d'image unique, l'espace latent optimal pour la synthèse de nouvelles vues (NVS) reste largement inexploré. En particulier, la NVS nécessite une génération géométriquement cohérente entre les points de vue, mais les approches existantes opèrent généralement dans un espace latent VAE indépendant de la vue. Dans cet article, nous proposons Geometric Latent Diffusion (GLD), un cadre qui réutilise l'espace de caractéristiques géométriquement cohérent des modèles fondationnels de vision géométrique comme espace latent pour la diffusion multi-vues. Nous montrons que ces caractéristiques permettent non seulement une reconstruction RVB de haute fidélité, mais encodent également de fortes correspondances géométriques inter-vues, fournissant un espace latent bien adapté à la NVS. Nos expériences démontrent que GLD surpasse à la fois le VAE et le RAE sur les métriques de qualité d'image 2D et de cohérence 3D, tout en accélérant l'entraînement par plus de 4,4x par rapport à l'espace latent VAE. Fait notable, GLD reste compétitif avec les méthodes de pointe qui exploitent un pré-entraînement massif texte-image, bien qu'il entraîne son modèle de diffusion à partir de zéro sans un tel pré-entraînement génératif.
La détection 3D à vocabulaire ouvert vise à localiser et reconnaître des objets au-delà d'une taxonomie d'apprentissage fixe. Dans les configurations multi-vues RVB, les approches récentes découplent souvent la construction d'instances géométriques de l'étiquetage sémantique, générant des fragments agnostiques aux classes et attribuant a posteriori des catégories à vocabulaire ouvert. Bien que flexible, ce découplage laisse la construction d'instances gouvernée principalement par la cohérence géométrique, sans contraintes sémantiques durant la fusion. Lorsque les preuves géométriques sont dépendantes de la vue et incomplètes, cette fusion purement géométrique peut entraîner des erreurs d'association irréversibles, incluant la sur-fusion d'objets distincts ou la fragmentation d'une seule instance. Nous proposons Group3D, un cadre de détection 3D multi-vue à vocabulaire ouvert qui intègre directement des contraintes sémantiques dans le processus de construction d'instances. Group3D maintient un vocabulaire adaptatif à la scène dérivé d'un modèle de langage multimodal (MLLM) et l'organise en groupes de compatibilité sémantique qui encodent des équivalences de catégories inter-vues plausibles. Ces groupes agissent comme contraintes lors de la fusion : les fragments 3D sont associés uniquement lorsqu'ils satisfont à la fois la compatibilité sémantique et la cohérence géométrique. Cette fusion à porte sémantique atténue la sur-fusion pilotée par la géométrie tout en absorbant la variabilité catégorielle multi-vue. Group3D supporte les configurations avec poses connues et sans pose, en s'appuyant uniquement sur des observations RVB. Les expériences sur ScanNet et ARKitScenes démontrent que Group3D atteint des performances state-of-the-art en détection 3D multi-vue à vocabulaire ouvert, tout en présentant une forte généralisation dans des scénarios zero-shot. La page du projet est disponible à l'adresse https://ubin108.github.io/Group3D/.
L'amélioration du raisonnement incarné dans les modèles multimodaux de grande taille (MLLM) est essentielle pour développer des modèles vision-langage-action (VLA) capables de traduire facilement la compréhension multimodale en actions de bas niveau. En conséquence, des travaux récents ont exploré l'amélioration du raisonnement incarné dans les MLLM via un apprentissage supervisé de type question-réponse visuelle. Cependant, ces approches entraîneraient une instabilité des performances des VLA, ne produisant souvent que des gains marginaux, voire négatifs. Dans cet article, nous proposons un cadre d'entraînement MLLM plus systématique, RoboAlign, qui améliore de manière fiable les performances des VLA. Notre idée clé est d'échantillonner des tokens d'action via un raisonnement en langage naturel zero-shot, puis d'affiner ce raisonnement à l'aide de l'apprentissage par renforcement (RL) pour améliorer la précision des actions. Ainsi, RoboAlign comble le déficit de modalité entre le langage et les actions de bas niveau dans les MLLM et facilite le transfert de connaissances du MLLM vers le VLA. Pour valider l'efficacité de RoboAlign, nous entraînons des VLA en ajoutant une tête d'action basée sur la diffusion à un modèle MLLM de base et nous les évaluons sur les principaux benchmarks robotiques. Fait remarquable, en réalisant un alignement par RL après un Fine-Tuning Supervisé (SFT) avec moins de 1 % des données, RoboAlign obtient des améliorations de performances de 17,5 %, 18,9 % et 106,6 % par rapport aux lignes de base SFT sur les environnements LIBERO, CALVIN et en conditions réelles, respectivement.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a considérablement amélioré les capacités de raisonnement des grands modèles de langage. Si les analyses existantes identifient que les changements induits par le RLVR sont épars, elles se concentrent principalement sur l'amplitude de ces mises à jour, en négligeant largement leur direction. Dans ce travail, nous soutenons que la direction des mises à jour est un angle d'analyse plus critique pour comprendre les effets du RLVR, qui peut être capturée par la différence de log-probabilité signée au niveau des tokens, Δlog p, entre le modèle de base et le modèle final après RLVR. Par une analyse statistique et des interventions de remplacement de tokens, nous démontrons que Δlog p identifie plus efficacement les mises à jour éparses mais cruciales pour le raisonnement que les métriques basées sur l'amplitude (par exemple, la divergence ou l'entropie). En nous appuyant sur cette idée, nous proposons deux applications pratiques : (1) une méthode d'extrapolation lors des tests qui amplifie la politique selon la direction Δlog p apprise pour améliorer la précision du raisonnement sans entraînement supplémentaire ; (2) une méthode de repondération lors de l'entraînement qui concentre l'apprentissage sur les tokens de faible probabilité (correspondant à un Δlog p plus élevé), ce qui améliore les performances de raisonnement sur divers modèles et benchmarks. Notre travail établit la direction du changement comme un principe clé pour analyser et améliorer le RLVR.
Les grands modèles de langage (LLM) présentent des hallucinations dans les tâches nécessitant des connaissances approfondies. La génération augmentée par récupération basée sur les graphes (RAG) est apparue comme une solution prometteuse, mais les approches existantes souffrent de limitations fondamentales de rappel et de précision lorsqu'elles opèrent sur des graphes de connaissances boîte noire – des graphes dont le schéma et la structure sont inconnus à l'avance. Nous identifions trois défis principaux causant une perte de rappel (incertitude d'instanciation sémantique et incertitude des chemins structurels) et une perte de précision (incertitude de comparaison probante). Pour relever ces défis, nous formalisons la tâche de récupération comme le problème de Récupération du Sous-Graphe Informatif Optimal (OISR) – une variante de l'Arbre de Steiner de groupe – et prouvons qu'il est NP-difficile et APX-difficile. Nous proposons BubbleRAG, un pipeline sans entraînement qui optimise systématiquement le rappel et la précision grâce au regroupement d'ancres sémantiques, à l'expansion heuristique en bulles pour découvrir des graphes de preuves candidats (CEG), au classement composite et à l'expansion sensible au raisonnement. Les expériences sur des benchmarks de questions-réponses multi-sauts démontrent que BubbleRAG obtient des résultats de pointe, surpassant les bases de référence solides à la fois en F1 et en exactitude tout en restant prêt à l'emploi.
Les modèles qui relient la vision et le langage, tels que CLIP, sont des composants clés de l'IA multimodale, mais leurs données d'entraînement à grande échelle et non filtrées introduisent des biais sociaux et fallacieux importants. Les méthodes existantes de réduction des biais a posteriori opèrent souvent directement dans l'espace d'embedding dense de CLIP, où les informations liées aux biais et à la tâche sont fortement entremêlées. Cet enchevêtrement limite leur capacité à éliminer les biais sans dégrader la fidélité sémantique. Dans ce travail, nous proposons la Modulation par Embedding Sparse (SEM), un cadre de réduction des biais a posteriori et sans apprentissage spécifique qui opère dans un espace latent d'Autoencodeur Sparse (SAE). En décomposant les embeddings textuels de CLIP en caractéristiques désentrelacées, SEM identifie et module les neurones liés aux biais tout en préservant ceux pertinents pour la requête. Cela permet des interventions non linéaires plus précises. Sur quatre bases de données de référence et deux architectures CLIP, SEM obtient des gains substantiels en équité pour la recherche d'information et la classification sans apprentissage. Nos résultats démontrent que les représentations latentes sparse constituent une base efficace pour la réduction des biais a posteriori des modèles vision-langage.
L'apprentissage post-entraînement pour les tâches agentiques à long terme présente une tension entre l'efficacité computationnelle et la généralisation. Alors que le fine-tuning supervisé (SFT) est efficace en calcul, il souffre souvent d'une dégradation hors domaine (OOD). À l'inverse, l'apprentissage par renforcement de bout en bout (E2E RL) préserve les capacités OOD, mais entraîne des coûts de calcul élevés en raison des nombreux tours de déploiement sur la politique. Nous présentons PivotRL, un cadre novateur qui exploite les trajectoires SFT existantes pour combiner l'efficacité computationnelle du SFT avec la précision OOD de l'E2E RL. PivotRL repose sur deux mécanismes clés : premièrement, il exécute des déploiements locaux sur la politique et filtre les pivots, c'est-à-dire des tours intermédiaires informatifs où les actions échantillonnées présentent une variance élevée dans les résultats ; deuxièmement, il utilise des récompenses pour des actions fonctionnellement équivalentes plutôt que d'exiger une correspondance stricte des chaînes de caractères avec la démonstration des données SFT. Nous montrons théoriquement que ces mécanismes favorisent des signaux d'apprentissage forts avec une norme de gradient naturel élevée, tout en préservant au maximum l'ordre de probabilité de la politique sur les actions non liées aux tâches d'entraînement. Par rapport au SFT standard sur des données identiques, nous démontrons que PivotRL atteint une précision en domaine supérieure de +4,17 % en moyenne sur quatre domaines agentiques, et une précision OOD supérieure de +10,04 % dans les tâches non agentiques. Notamment, sur les tâches de programmation agentique, PivotRL atteint une précision compétitive avec l'E2E RL avec 4 fois moins de tours de déploiement. PivotRL est adopté par le Nemotron-3-Super-120B-A12B de NVIDIA, servant de cheval de bataille pour l'apprentissage post-entraînement agentique à l'échelle de la production.
Les techniques existantes d'optimisation de prompts s'appuient sur des signaux locaux pour mettre à jour le comportement, négligeant souvent les modèles plus larges et récurrents entre les tâches, ce qui entraîne une mauvaise généralisation ; elles reposent en outre sur des réécritures complètes du prompt ou des fusions non structurées, provoquant une perte de connaissances. Ces limitations sont amplifiées dans les workflows de recherche en programmation, qui impliquent des référentiels hétérogènes, des environnements sous-spécifiés et des retours d'information faibles, où la reproduction des résultats à partir de bases de code publiques constitue un régime d'évaluation établi. Nous présentons Reflective Evolving Research Engineer (REVERE), un cadre qui apprend continuellement à partir d'un Contexte d'Entraînement Global, identifie les modes d'échec récurrents dans les trajectoires d'exécution inter-repértoires, les distille en heuristiques réutilisables et effectue des modifications ciblées sur trois champs configurables : le prompt système, un modèle de prompt de tâche et une aide-mémoire cumulative. REVERE, via ce cadre d'optimisation réflexive, améliore les performances par rapport aux instructions expertes antérieures de l'état de l'art sur les tâches de programmation de recherche de 4,50 % sur SUPER, 3,51 % sur ResearchCodeBench et 4,89 % sur ScienceAgentBench selon leurs métriques respectives. Ces résultats démontrent que les agents dotés de mécanismes d'apprentissage continu et de consolidation mémorielle globale peuvent faire évoluer significativement leurs capacités dans le temps.
Les modèles de langage de grande taille (LLM) ont atteint une fiabilité remarquable et des capacités avancées grâce à un raisonnement étendu au moment des tests. Cependant, l'extension de ces capacités aux modèles de langage multi-modaux (MLLM) reste un défi majeur en raison d'une pénurie critique de données de raisonnement à chaîne longue de haute qualité et de pipelines d'entraînement optimisés. Pour combler cette lacune, nous présentons un cadre unifié de raisonnement visuel multi-agents qui évolue systématiquement de notre modèle fondamental centré sur l'image, Insight-V, vers une architecture spatio-temporelle généralisée, Insight-V++. Nous proposons d'abord un pipeline évolutif de génération de données équipé d'une évaluation multi-granularité qui synthétise de manière autonome des trajectoires de raisonnement complexes et structurées dans les domaines de l'image et de la vidéo sans intervention humaine. Reconnaissant que superviser directement les MLLM avec des données aussi complexes donne des résultats sous-optimaux, nous concevons une architecture à double agent comprenant un agent de raisonnement pour exécuter des chaînes analytiques étendues, et un agent de synthèse pour évaluer de manière critique et distiller les résultats finaux. Bien que notre cadre initial ait utilisé l'optimisation directe des préférences (DPO), sa nature hors politique a fondamentalement limité le potentiel d'apprentissage par renforcement. Pour surmonter ces limitations, particulièrement pour la compréhension vidéo à long terme, Insight-V++ introduit deux nouveaux algorithmes, ST-GRPO et J-GRPO, qui améliorent le raisonnement spatio-temporel et renforcent la robustesse évaluative. Surtout, en tirant parti des retours fiables de l'agent de synthèse, nous guidons un processus itératif de génération de chemins de raisonnement, en réentraînant l'ensemble du système multi-agents dans une boucle continue d'auto-amélioration. Des expériences approfondies sur des modèles de base comme LLaVA-NeXT et Qwen2.5-VL démontrent des gains de performance significatifs sur des benchmarks exigeants de raisonnement image et vidéo, tout en préservant de solides capacités sur les tâches traditionnelles centrées sur la perception.
L'adaptation à faible rang avec décomposition de poids (DoRA) étend LoRA en découplant la magnitude des poids de leur direction, mais son passage avant nécessite la norme ligne par ligne de W + sBA, un calcul que chaque framework majeur que nous avons étudié implémente en matérialisant le produit dense [d_out, d_in] BA. Avec d_in = 8192 et un rang r = 384, la norme d'un seul module nécessite environ 512 Mo de mémoire de travail transitoire en bf16, rendant DoRA à haut rang coûteux et souvent irréalisable sur les configurations courantes à un seul GPU lorsque des centaines de modules adaptés et la mise en point de contrôle sont impliqués. Nous présentons deux contributions systèmes. Une norme factorisée décompose la norme au carré en termes de base, croisés et de Gram calculables via des intermédiaires de complexité O(d_out r + r^2), éliminant ainsi le produit dense. Des noyaux Triton fusionnés réduisent la composition DoRA à quatre noyaux en une seule passe, réduisant le trafic mémoire d'environ 4x et utilisant une forme numériquement stable qui évite l'annulation catastrophique dans le régime de re-redimensionnement proche de l'unité où les échelles de magnitude se concentrent en pratique. Sur six modèles vision-langage (VLM) de 8 à 32B testés sur trois GPU NVIDIA (RTX 6000 PRO, H200, B200) à r = 384 en bf16, l'implémentation fusionnée est 1,5 à 2,0 fois plus rapide que l'implémentation DoRA de Hugging Face PEFT pour l'inférence et 1,5 à 1,9 fois plus rapide pour le calcul du gradient (étape de l'optimiseur exclue), avec un pic de mémoire VRAM inférieur jusqu'à 7 Go. Des micro-benchmarks sur six GPU couvrant quatre générations d'architecture (L40S, A100, RTX 6000 PRO, H200, B200, B300) confirment une accélération des noyaux de composition de 1,5 à 2,7x. La similarité cosinus des logits finaux dépasse 0,9999 pour toutes les paires modèle/GPU, et les courbes d'entraînement multi-graines correspondent avec un delta de perte moyen par pas inférieur à 7,1 x 10^-4 sur 2000 pas.
Les modèles génératifs et les encodeurs visuels ont largement progressé sur des voies distinctes, optimisés pour des objectifs différents et fondés sur des principes mathématiques différents. Pourtant, ils partagent une propriété fondamentale : la gaussianité de l'espace latent. Les modèles génératifs transforment un bruit gaussien en images, tandis que les encodeurs transforment les images en plongements sémantiques dont les coordonnées se comportent empiriquement comme des gaussiennes. Nous émettons l'hypothèse que les deux sont des vues d'une source latente partagée, le Plongement Normal Universel (UNE) : un espace latent approximativement gaussien à partir duquel les plongements des encodeurs et le bruit inversé par DDIM émergent comme des projections linéaires bruitées. Pour tester notre hypothèse, nous présentons NoiseZoo, un jeu de données de latents par image comprenant le bruit de diffusion inversé par DDIM et les représentations correspondantes des encodeurs (CLIP, DINO). Sur CelebA, des sondes linéaires dans les deux espaces produisent des prédictions d'attributs fortes et alignées, indiquant que le bruit génératif encode une sémantique significative le long de directions linéaires. Ces directions permettent en outre des modifications contrôlées et fidèles (par exemple, sourire, genre, âge) sans modification de l'architecture, où une simple orthogonalisation atténue les enchevêtrements parasites. Dans l'ensemble, nos résultats fournissent un soutien empirique à l'hypothèse UNE et révèlent une géométrie latente partagée de type gaussienne qui relie concrètement l'encodage et la génération. Le code et les données sont disponibles sur https://rbetser.github.io/UNE/
Nous présentons Generalized Discrete Diffusion from Snapshots (GDDS), un cadre unifié pour la modélisation de diffusion discrète qui prend en charge des processus de bruitage arbitraires sur de grands espaces d'états discrets. Notre formulation englobe toutes les approches existantes de diffusion discrète, tout en offrant une flexibilité nettement supérieure dans le choix de la dynamique de corruption. Le processus direct de bruitage s'appuie sur l'uniformisation et permet une corruption arbitraire rapide. Pour le processus inverse, nous dérivons une simple borne inférieure de l'évidence (ELBO) basée sur des variables latentes d'instantanés, au lieu du chemin de bruitage complet, qui permet l'entraînement efficace d'architectures génératives standard avec une interprétation probabiliste claire. Nos expériences sur des tâches de génération discrète à grand vocabule suggèrent que le cadre proposé surpasse les méthodes de diffusion discrète existantes en termes d'efficacité d'entraînement et de qualité de génération, et bat pour la première fois à cette échelle les modèles autorégressifs. Nous fournissons le code ainsi qu'un article de blog sur la page du projet : https://oussamazekri.fr/gdds{https://oussamazekri.fr/gdds}.
La réutilisation et l'invocation de code existant restent coûteuses et peu fiables, car la plupart des outils pratiques sont intégrés dans des référentiels de code hétérogènes et manquent d'interfaces exécutables standardisées. Bien que les grands modèles de langage (LLM) et les cadres d'invocation d'outils basés sur le Model Context Protocol (MCP) permettent l'exécution de tâches en langage naturel, les approches actuelles reposent fortement sur une curation et une standardisation manuelles des outils, ce qui limite fondamentalement l'évolutivité. Dans cet article, nous proposons ToolRosetta, un cadre unifié qui traduit automatiquement les référentiels de code open-source et les API en outils compatibles MCP pouvant être invoqués de manière fiable par les LLM. Étant donnée une tâche utilisateur, ToolRosetta planifie de manière autonome des chaînes d'outils, identifie les bases de code pertinentes et les convertit en services MCP exécutables, permettant ainsi une réalisation de bout en bout des tâches avec une intervention humaine minimale. De plus, ToolRosetta intègre une couche d'inspection de sécurité pour atténuer les risques inhérents à l'exécution de code arbitraire. Des expériences approfondies dans divers domaines scientifiques démontrent que ToolRosetta peut standardiser automatiquement un grand nombre d'outils open-source et réduire l'effort humain nécessaire à la reproduction et au déploiement du code. Fait notable, en tirant parti de manière transparente d'outils open-source spécialisés, les agents propulsés par ToolRosetta améliorent constamment les performances de réalisation des tâches par rapport aux LLM commerciaux et aux systèmes d'agents existants.
Le routage de prompts sélectionne dynamiquement le modèle de langage le plus approprié parmi un ensemble de candidats pour chaque requête, optimisant les performances tout en maîtrisant les coûts. Alors que les pools de modèles s'étendent pour inclure des dizaines de modèles frontaliers aux écarts de performance réduits, les approches existantes rencontrent des défis majeurs : les taxonomies de tâches définies manuellement ne peuvent saisir les distinctions fines de capacités, tandis que les routeurs monolithiques peinent à différencier les variations subtiles entre tâches diverses. Nous proposons une architecture de routage à deux étapes qui résout ces limitations grâce à une découverte automatisée de tâches granulaires et une estimation de qualité adaptative. Notre première étape utilise un clustering basé sur les graphes pour découvrir des types de tâches latents et entraîne un classifieur à assigner les prompts aux tâches identifiées. La seconde étape emploie une architecture mixture d'experts avec des têtes de prédiction spécialisées par tâche pour des estimations de qualité ciblées. Lors de l'inférence, nous agrégeons les prédictions des deux étapes pour équilibrer stabilité au niveau tâche et adaptabilité spécifique au prompt. Évaluée sur 10 benchmarks avec 11 modèles frontaliers, notre méthode surpasse constamment les approches existantes et excède les performances du modèle individuel le plus performant tout en engendrant moins de la moitié de son coût.
La « singularité de l'IA » est souvent perçue à tort comme un esprit unique et divin. L'évolution suggère une voie différente : l'intelligence est fondamentalement plurielle, sociale et relationnelle. Les récentes avancées en IA agentique révèlent que les modèles de raisonnement de pointe, comme DeepSeek-R1, ne s'améliorent pas simplement en « réfléchissant plus longtemps ». Au contraire, ils simulent des « sociétés de pensée » internes, des débats cognitifs spontanés qui argumentent, vérifient et concilient pour résoudre des tâches complexes. De plus, nous entrons dans une ère de centaures humains-IA : des acteurs hybrides où l'agence collective transcende le contrôle individuel. Passer à l'échelle de cette intelligence nécessite de s'éloigner de l'alignement dyadique (RLHF) pour tendre vers un alignement institutionnel. En concevant des protocoles numériques, calqués sur les organisations et les marchés, nous pouvons construire une infrastructure sociale de freins et de contrepoids. La prochaine explosion de l'intelligence ne sera pas un unique cerveau de silicium, mais une société combinatoire complexe, se spécialisant et s'étendant comme une ville. Nul esprit n'est une île.
Les agents IA sont devenus de plus en plus performants pour des tâches isolées de génie logiciel, comme la résolution d'incidents sur GitHub. Cependant, les tâches à long horizon impliquant de multiples sous-tâches interdépendantes restent problématiques, tant en termes de précision que d'achèvement dans les délais. Une approche naturelle pour résoudre ces tâches complexes rapidement est la collaboration asynchrone multi-agents, où plusieurs agents travaillent simultanément sur différentes parties de la tâche. Mais l'application efficace des systèmes multi-agents s'est avérée étonnamment difficile : les modifications concurrentes par plusieurs agents interfèrent entre elles, les dépendances sont difficiles à synchroniser et la combinaison des progrès partiels en un tout cohérent est complexe. D'un autre côté, les développeurs humains s'appuient depuis longtemps sur une infrastructure de collaboration mature pour gérer ces défis dans les grands projets logiciels. Inspirés par ces primitives de collaboration, nous présentons la Délégation Isolée Asynchrone Centralisée (CAID), un paradigme structuré de coordination multi-agents fondé sur trois primitives fondamentales du génie logiciel : la délégation centralisée des tâches, l'exécution asynchrone et les espaces de travail isolés. CAID construit des plans de tâches prenant en compte les dépendances via un gestionnaire central, exécute les sous-tâches concurremment dans des espaces isolés et consolide les progrès via une intégration structurée avec une vérification exécutable basée sur des tests. Lors de l'évaluation empirique, nous constatons que CAID améliore la précision de 26,7 % en valeur absolue par rapport aux approches mono-agent sur des tâches de reproduction d'articles (PaperBench) et de 14,3 % sur des tâches de développement de bibliothèques Python (Commit0). Par une analyse systématique, nous montrons que le mécanisme de branchement et fusion est central pour la collaboration multi-agents, et que les primitives logicielles comme `git worktree`, `git commit` et `git merge` permettent sa réalisation de manière fiable et exécutable.
Les grands modèles de vision et langage (LVLM) excellent dans la compréhension sémantique mais peinent à ancrer spatialement les informations fines, car le modèle doit inférer implicitement une géométrie complexe sans jamais produire d'interprétation spatiale. Nous présentons Perceptio, un LVLM augmenté par la perception doté de capacités de raisonnement spatial 2D et 3D, permis par des tokens de segmentation sémantique et des tokens de profondeur générés explicitement dans la séquence auto-régressive. Concrètement, nous (i) distillons un codebook de profondeur VQ-VAE à partir d'un enseignant monoculaire performant pour tokeniser la profondeur dense en séquences compactes, et (ii) intégrons des tokens de segmentation sémantique basés sur SAM2 et des tokens de profondeur VQ-VAE au sein du LLM, afin que le modèle émette d'abord des tokens spatiaux puis réponde. Pour stabiliser la génération des tokens de profondeur, nous introduisons de nouveaux objectifs composites sur les tokens de profondeur (pertes de marqueur, de token et de comptage) et une technique de fusion douce pour une reconstruction différentiable. Nous adoptons une stratégie d'apprentissage multi-tâche sur divers jeux de données, permettant au modèle d'apprendre les tokens de perception pour résoudre plusieurs tâches en aval. Basé sur InternVL, Perceptio obtient des performances de pointe sur plusieurs benchmarks : il améliore la segmentation par expressions référentielles de +0,8/+1,4/+1,1 cIoU sur RefCOCO/+/g, la précision de compréhension spatiale HardBLINK de 10,3 %, et la précision MMBench de 1,0 %, démontrant qu'un enchaînement de pensée spatial explicite renforce matériellement l'ancrage spatial dans les LVLM.
Les vocalisations animales fournissent des informations cruciales pour l'évaluation de la faune, particulièrement dans des environnements complexes comme les forêts, en facilitant l'identification des espèces et le suivi écologique. Les récentes avancées en apprentissage profond ont permis la classification automatique des espèces à partir de leurs vocalisations. Cependant, la classification d'espèces non rencontrées lors de l'entraînement reste un défi. Pour pallier cette limitation, nous présentons AnimalCLAP, un cadre audio-langage intégrant la taxonomie, comprenant un nouveau jeu de données et un modèle qui incorporent l'information biologique hiérarchique. Concrètement, notre jeu de données de vocalisations comprend 4 225 heures d'enregistrements couvrant 6 823 espèces, annotées avec 22 traits écologiques. Le modèle AnimalCLAP est entraîné sur ce jeu de données pour aligner les représentations audio et textuelles en utilisant les structures taxonomiques, améliorant ainsi la reconnaissance des espèces non vues. Nous démontrons que notre modèle proposé infère efficacement les attributs écologiques et biologiques des espèces directement à partir de leurs vocalisations, obtenant des performances supérieures à CLAP. Notre jeu de données, code et modèles seront publiquement disponibles à l'adresse https://dahlian00.github.io/AnimalCLAP_Page/.
Les Transformers de Diffusion (DiTs) alimentent des modèles de monde vidéo haute fidélité mais restent informatiquement coûteux en raison du débruîtage séquentiel et de l'attention spatio-temporelle onéreuse. La mise en cache de caractéristiques sans entraînement accélère l'inférence en réutilisant les activations intermédiaires entre les étapes de débruîtage ; cependant, les méthodes existantes reposent largement sur une hypothèse de maintien d'ordre zéro, c'est-à-dire la réutilisation des caractéristiques mises en cache comme des instantanés statiques lorsque la dérive globale est faible. Cela entraîne souvent des artéfacts de fantôme, du flou et des incohérences de mouvement dans les scènes dynamiques. Nous proposons WorldCache, un cadre de mise en cache dynamique à contrainte perceptuelle qui améliore à la fois quand et comment réutiliser les caractéristiques. WorldCache introduit des seuils adaptatifs au mouvement, une estimation de la dérive pondérée par la saillance, une approximation optimale via le mélange et le warp, et une planification de seuil sensible à la phase entre les étapes de diffusion. Notre approche cohésive permet une réutilisation adaptive et cohérente des caractéristiques sans réentraînement. Sur Cosmos-Predict2.5-2B évalué avec PAI-Bench, WorldCache atteint une accélération d'inférence de 2,3 fois tout en préservant 99,4 % de la qualité de référence, surpassant substantiellement les approches de mise en cache sans entraînement antérieures. Notre code est accessible sur https://umair1221.github.io/World-Cache/{World-Cache}.
L'apprentissage par renforcement (RL) hors ligne sûr vise à obtenir des politiques maximisant la récompense à partir de jeux de données statiques sous des contraintes de sécurité strictes. Les méthodes existantes reposent souvent sur des objectifs de coût espéré relaxés ou sur de l'inférence générative itérative, ce qui peut s'avérer insuffisant pour le contrôle en temps réel critique pour la sécurité. Nous proposons le Safe Flow Q-Learning (SafeFQL), qui étend le FQL au RL hors ligne sûr en combinant une fonction de valeur de sécurité inspirée de la reachabilité de Hamilton-Jacobi avec une politique de flux efficace en une étape. SafeFQL apprend la valeur de sécurité via une récursion de Bellman d'auto-cohérence, entraîne une politique de flux par clonage comportemental, et la distille en un acteur en une étape pour la sélection d'actions sûres maximisant la récompense, sans échantillonnage par rejet au déploiement. Pour tenir compte de l'erreur d'approximation due aux données finies sur la limite de sécurité apprise, nous ajoutons une étape de calibration par prédiction conformal qui ajuste le seuil de sécurité et fournit une couverture de sécurité probabiliste à échantillon fini. Empiriquement, SafeFQL échange un coût d'entraînement hors ligne modestement plus élevé contre une latence d'inférence substantiellement plus faible que les méthodes de référence génératives de type diffusion, ce qui est avantageux pour un déploiement en temps réel critique pour la sécurité. Sur des tâches de navigation de bateau et des tâches Safety Gymnasium MuJoCo, SafeFQL égale ou dépasse les performances antérieures du RL hors ligne sûr tout en réduisant considérablement les violations de contraintes.
L'adaptation à faible rang (LoRA) est la stratégie de réglage fin de facto pour générer des images personnalisées à partir de modèles de diffusion pré-entraînés. Le choix d'un bon rang est extrêmement critique, car il représente un compromis entre les performances et la consommation de mémoire, mais aujourd'hui, cette décision est souvent laissée au consensus de la communauté, indépendamment de la complexité du sujet à personnaliser. La raison est évidente : le coût de sélection d'un bon rang pour chaque composant LoRA est combinatoire, ce qui nous amène à opter pour des raccourcis pratiques comme fixer le même rang pour tous les composants. Dans cet article, nous franchissons une première étape pour surmonter ce défi. Inspirés par les méthodes variationnelles qui apprennent une largeur adaptative des réseaux de neurones, nous laissons les rangs de chaque couche s'adapter librement lors du réglage fin sur un sujet. Nous y parvenons en imposant un ordre d'importance sur les positions du rang, encourageant effectivement la création de rangs plus élevés uniquement lorsque cela est strictement nécessaire. Qualitativement et quantitativement, notre approche, LoRA^2, atteint un compromis compétitif entre DINO, CLIP-I et CLIP-T sur 29 sujets, tout en nécessitant beaucoup moins de mémoire et un rang inférieur aux versions LoRA à haut rang. Code : https://github.com/donaldssh/NotAllLayersAreCreatedEqual.
L'apprentissage par renforcement (RL) est essentiel pour faire évoluer les grands modèles de langage (LLM) en agents autonomes capables de planification à long terme, mais une méthode pratique pour mettre à l'échelle le RL dans des environnements complexes et multi-tours reste insaisissable. Cet article présente une étude empirique systématique utilisant TravelPlanner, un banc d'essai exigeant nécessitant l'orchestration d'outils pour satisfaire des contraintes multidimensionnelles. Nous décomposons l'espace de conception des agents par RL selon 5 axes : le façonnage des récompenses, la mise à l'échelle des modèles, la composition des données, le choix de l'algorithme et la stabilité environnementale. Nos expériences contrôlées produisent 7 enseignements clés, par exemple : (1) les choix de récompense et d'algorithme dépendent de l'échelle, car les modèles plus petits bénéficient de récompenses étagées et d'une exploration améliorée, tandis que les modèles plus grands convergent efficacement avec des récompenses denses plus simples ; (2) ~ 1 000 échantillons d'entraînement avec un mélange équilibré de difficultés constituent un point optimal pour les performances en domaine connu et inconnu ; et (3) la stabilité environnementale est cruciale pour éviter la dégradation de la politique. Sur la base de notre méthode épurée, nos modèles entraînés par RL atteignent des performances de pointe sur TravelPlanner, surpassant significativement les principaux LLM.
Les modèles de langage par diffusion (DLM) présentent des avantages attractifs par rapport aux modèles auto-régressifs (AR), tels qu'un décodage parallèle par attention complète et une génération flexible. Cependant, ils souffrent d'un décalage notable entre l'entraînement et l'inférence : les DLM sont entraînés avec un objectif de prédiction masquée statique et en une seule étape, mais sont déployés via une trajectoire de débruîtage progressive en plusieurs étapes. Nous proposons MemDLM (DLM à mémoire renforcée), qui réduit cet écart en intégrant un processus de débruîtage simulé dans l'entraînement via une optimisation bi-niveau. Une boucle interne met à jour un ensemble de poids rapides, formant une mémoire paramétrique qui capture l'expérience de trajectoire locale de chaque échantillon, tandis qu'une boucle externe met à jour le modèle de base conditionné par cette mémoire. En déchargeant la pression de mémorisation des représentations de tokens vers les paramètres, MemDLM permet une convergence plus rapide et une perte d'entraînement réduite. De plus, la boucle interne peut être réactivée au moment de l'inférence comme étape d'adaptation, générant des gains supplémentaires pour la compréhension de contextes longs. Nous constatons que, lorsqu'elle est activée à l'inférence, cette mémoire paramétrique agit comme un mécanisme émergent de récupération intégré aux poids, aidant MemDLM à réduire davantage les goulots d'étranglement attentionnels au niveau des tokens dans des tâches de récupération difficiles de type "aiguille dans une botte de foin". Code : https://github.com/JarvisPei/MemDLM.
Les récentes avancées dans les technologies de synthèse vocale permettent de générer une parole synthétique de haute fidélité, quasi indissociable des voix humaines réelles. Bien que des études récentes montrent l'efficacité des encodeurs vocaux basés sur l'apprentissage auto-supervisé pour la détection des deepfakes, ces modèles peinent à généraliser leur performance à des locuteurs non vus. Notre analyse quantitative suggère que ces représentations d'encodeur sont substantiellement influencées par l'information du locuteur, amenant les détecteurs à exploiter des corrélations spécifiques au locuteur plutôt que des indices liés aux artefacts. Nous nommons ce phénomène l'**intrication du locuteur**. Pour atténuer cette dépendance, nous introduisons **SNAP**, un cadre de neutralisation du locuteur. Nous estimons un sous-espace du locuteur et appliquons une projection orthogonale pour supprimer les composantes dépendantes du locuteur, isolant ainsi les artefacts de synthèse dans les caractéristiques résiduelles. En réduisant l'intrication du locuteur, SNAP encourage les détecteurs à se concentrer sur les motifs liés aux artefacts, conduisant à des performances à l'état de l'art.
Nous étudions si une hiérarchie apériodique peut offrir un avantage structurel pour la compression sans perte par rapport aux alternatives périodiques. Nous montrons que les pavages de quasi-cristaux de Fibonacci évitent l'effondrement à profondeur finie qui affecte les hiérarchies périodiques : les positions utilisables pour la recherche de n-grammes restent non nulles à chaque niveau, tandis que les pavages périodiques s'effondrent après O(log p) niveaux pour une période p. Cela confère un avantage à la hiérarchie apériodique : la réutilisation du dictionnaire reste disponible à toutes les échelles au lieu de disparaître au-delà d'une profondeur finie. Notre analyse donne quatre conséquences principales. Premièrement, la propriété de Compensation Dorée montre que la décroissance exponentielle du nombre de positions est exactement équilibrée par la croissance exponentielle de la longueur des phrases, de sorte que la couverture potentielle reste invariante d'échelle avec une valeur asymptotique de φ/√5. Deuxièmement, en utilisant la loi de complexité sturmienne p(n)=n+1, nous montrons que les hiérarchies de Fibonacci/Sturmienne maximisent l'efficacité de couverture du codebook parmi les pavages apériodiques binaires. Troisièmement, sous dépendance à longue portée, la hiérarchie résultante atteint une entropie de codage inférieure à celle des hiérarchies périodiques comparables. Quatrièmement, la redondance décroît de manière super-exponentielle avec la profondeur, tandis que les systèmes périodiques restent bloqués à la profondeur où l'effondrement se produit. Nous validons ces résultats avec Quasicryth, un compresseur de texte sans perte construit sur une hiérarchie de Fibonacci à dix niveaux avec des longueurs de phrases {2,3,5,8,13,21,34,55,89,144}. Dans des expériences A/B contrôlées avec des codebooks identiques, l'avantage apériodique par rapport à une base de référence de Période-5 croît de 36 243 o à 3 Mo à 11 089 469 o à 1 Go, ce qui s'explique par l'activation de niveaux hiérarchiques plus profonds. Sur enwik9, Quasicryth atteint 225 918 349 o (22,59 %), avec 20 735 733 o économisés grâce au pavage de Fibonacci par rapport à l'absence de pavage.
Ce travail présente AdditiveLLM2, un grand modèle de langage multimodal et adapté au domaine, construit à partir de la variante ajustée aux instructions du modèle Gemma 3 en utilisant un jeu de données relativement petit d'environ 50 millions de tokens. Le jeu de données (AdditiveLLM2-OA) est constitué d'articles de revues en accès libre sur la fabrication additive, dont les données ont été extraites pour les processus de pré-entraînement adaptatif au domaine et de réglage par instructions visuelles. Les différentes étapes du modèle développé sont évaluées avec l'Additive-Manufacturing-Benchmark, qui comprend des tâches spécifiques au domaine de la fabrication additive compilées à partir de ressources publiées. AdditiveLLM2 démontre des compétences dans les tâches basées sur le langage et sur la vision, atteignant des précisions supérieures à 90 % pour les connaissances générales en fabrication additive. Cette stratégie de pré-entraînement adaptatif au domaine et de réglage par instructions décrit une méthode de spécialisation accessible pour les grands modèles de langage appliqués à un domaine tel que la fabrication additive.
Le clonage comportemental est un paradigme fondamental en apprentissage automatique, permettant l'apprentissage de politiques à partir de démonstrations d'experts dans des domaines tels que la robotique, la conduite autonome et les modèles génératifs. Les modèles autorégressifs comme les transformateurs se sont avérés remarquablement efficaces, des grands modèles de langage (LLM) aux systèmes vision-langage-action (VLA). Cependant, l'application de modèles autorégressifs au contrôle continu nécessite une discrétisation des actions par quantification, une pratique largement adoptée mais mal comprise d'un point de vue théorique. Cet article jette les bases théoriques de cette pratique. Nous analysons comment l'erreur de quantification se propage le long de l'horizon et interagit avec la complexité d'échantillonnage statistique. Nous montrons que le clonage comportemental avec des actions quantifiées et une perte logarithmique atteint une complexité d'échantillonnage optimale, correspondant aux bornes inférieures existantes, et n'entraîne qu'une dépendance polynomiale à l'horizon sur l'erreur de quantification, à condition que la dynamique soit stable et que la politique satisfasse une condition de régularité probabiliste. Nous caractérisons en outre les cas où différents schémas de quantification satisfont ou violent ces exigences, et proposons une augmentation par modèle qui améliore de manière prouvée la borne d'erreur sans exiger de régularité de la politique. Enfin, nous établissons des limites fondamentales qui capturent conjointement les effets de l'erreur de quantification et de la complexité statistique.
La navigation audio-visuelle permet à des agents incarnés de naviguer vers des cibles émettrices de sons en exploitant à la fois des indices auditifs et visuels. Cependant, la plupart des approches existantes s'appuient sur des réponses impulsionnelles de salle (RIR) précalculées pour le rendu audio binaural, limitant ainsi les agents à des positions discrètes sur une grille et entraînant des observations spatialement discontinues. Pour établir un cadre plus réaliste, nous introduisons la Navigation Audio-Visuelle Sémantique en Environnements Continus (SAVN-CE), où les agents peuvent se déplacer librement dans des espaces 3D et percevoir des flux audio-visuels temporellement et spatialement cohérents. Dans ce cadre, les cibles peuvent devenir intermittemment silencieuses ou cesser totalement d'émettre du son, ce qui entraîne une perte d'information sur l'objectif pour les agents. Pour relever ce défi, nous proposons MAGNet, un modèle multimodal basé sur un transformateur qui encode conjointement des représentations spatiales et sémantiques de l'objectif, et intègre le contexte historique avec des indices d'auto-mouvement pour permettre un raisonnement sur l'objectif augmenté par la mémoire. Des expériences complètes démontrent que MAGNet surpasse significativement les méthodes de l'état de l'art, atteignant une amélioration absolue allant jusqu'à 12,1 % du taux de réussite. Ces résultats mettent également en lumière sa robustesse face aux sons de courte durée et aux scénarios de navigation sur de longues distances. Le code est disponible à l'adresse https://github.com/yichenzeng24/SAVN-CE.
Les réseaux neuronaux profonds (DNN) ont obtenu un succès remarquable en vision par ordinateur, mais restent très vulnérables aux attaques adverses. Parmi celles-ci, les attaques par camouflage manipulent l'apparence visible d'un objet pour tromper les détecteurs tout en restant furtives pour les humains. Dans cet article, nous proposons un nouveau cadre qui formule les attaques par camouflage de véhicules comme un problème d'édition d'image conditionnelle. Plus précisément, nous explorons des stratégies de génération de camouflage au niveau de l'image et de la scène, et affinons un ControlNet pour synthétiser directement des véhicules camouflés sur des images réelles. Nous concevons un objectif unifié qui impose conjointement la fidélité structurelle du véhicule, la cohérence stylistique et l'efficacité antagoniste. Des expériences approfondies sur les ensembles de données COCO et LINZ montrent que notre méthode atteint une efficacité d'attaque significativement plus forte, entraînant une diminution de plus de 38% de l'AP50, tout en préservant mieux la structure du véhicule et en améliorant la furtivité perçue par l'homme par rapport aux approches existantes. De plus, notre cadre se généralise efficacement à des détecteurs boîte noire non vus et présente une transférabilité prometteuse vers le monde physique. La page du projet est disponible à l'adresse https://humansensinglab.github.io/CtrlCamo.
Les modèles du monde apprennent à prédire les états futurs d'un environnement, permettant la planification et la simulation mentale. Les approches actuelles utilisent par défaut des prédicteurs basés sur des Transformers opérant dans des espaces latents appris. Cela a un coût : une complexité computationnelle en O(N²) et l'absence de biais inductif spatial explicite. Cet article pose une question fondamentale : l'auto-attention est-elle nécessaire pour la modélisation prédictive du monde, ou d'autres substrats computationnels peuvent-ils obtenir des résultats comparables ou supérieurs ? Je présente FluidWorld, un modèle du monde de preuve de concept dont la dynamique prédictive est régie par des équations aux dérivées partielles (EDP) de type réaction-diffusion. Au lieu d'utiliser un prédicteur par réseau de neurones séparé, l'intégration des EDP produit elle-même la prédiction de l'état futur. Dans une ablation stricte à trois voies avec paramètres appariés, sur la prédiction vidéo inconditionnelle UCF-101 (64x64, ~800K paramètres, encodeur, décodeur, fonctions de perte et données identiques), FluidWorld est comparé à une baseline Transformer (auto-attention) et à une baseline ConvLSTM (récurrence convolutionnelle). Bien que les trois modèles convergent vers une perte de prédiction à un pas comparable, FluidWorld atteint une erreur de reconstruction 2 fois plus faible, produit des représentations avec une préservation de la structure spatiale 10 à 15 % supérieure et une dimensionalité effective 18 à 25 % plus élevée, et surtout, maintient des déploiements multi-étapes cohérents là où les deux baselines se dégradent rapidement. Toutes les expériences ont été menées sur un seul PC de gamme grand public (Intel Core i5, NVIDIA RTX 4070 Ti), sans aucune utilisation de calcul à grande échelle. Ces résultats établissent que les dynamiques basées sur les EDP, qui offrent nativement une complexité spatiale O(N), un calcul adaptatif et une cohérence spatiale globale via la diffusion, constituent une alternative viable et efficace en paramètres à la fois à l'attention et à la récurrence convolutionnelle pour la modélisation du monde.
Les systèmes de dialogue ancrés dans la connaissance visent à générer des réponses informatives et contextuellement pertinentes en s'appuyant sur des sources de connaissances externes. Cependant, la plupart des approches existantes se concentrent exclusivement sur l'anglais, manquent de mécanismes de citation explicites pour vérifier les affirmations factuelles et offrent une transparence limitée sur la prise de décision du modèle. Nous présentons XKD-Dial, un pipeline d'entraînement progressif en quatre étapes pour la génération de dialogues explicables et ancrés dans la connaissance dans un contexte bilingue (anglais-hindi), comprenant : (1) l'adaptation multilingue, (2) le SFT (Supervised Fine-Tuning) de dialogues en anglais avec ancrage de citations, (3) le SFT de dialogues bilingues, et (4) l'alignement par GRPO avec des récompenses sensibles aux citations. Nous évaluons six modèles, couvrant des architectures encodeur-décodeur (250M-3B) et décodeur uniquement (1B-7B), à chaque étape du pipeline. Nos contributions principales sont : (i) trois analyses d'explicabilité post-hoc - l'alignement par attention croisée, l'attribution par Gradients Intégrés et l'ancrage causal basé sur l'occlusion - appliquées systématiquement tout au long du parcours d'entraînement pour révéler comment le comportement de citation est appris, et pas seulement s'il est appris ; (ii) le SFT avec ancrage de citations réduit le taux d'hallucination à 0,0 % pour les modèles encodeur-décodeur dès l'Étape 2 ; (iii) le pipeline progressif empêche l'oubli catastrophique tout en améliorant les capacités en hindi ; (iv) les modèles plus petits égalent les performances des modèles plus grands sur l'anglais après le SFT ; et (v) le GRPO n'apporte qu'une amélioration marginale par rapport à un SFT bien conçu pour les tâches de citation structurée. Nous évaluons les performances à l'aide de six métriques automatiques (BLEU, ROUGE, BERTScore, FactScore, Citation-F1 et taux d'hallucination).