Articles de recherche IA sélectionnés quotidiennement avec traductions
L'émergence de systèmes multi-agents construits à partir de grands modèles de langage (LLM) offre un paradigme prometteur pour une intelligence collective évolutive et une auto-évolution. Idéalement, ces systèmes atteindraient une amélioration continue en boucle fermée tout en maintenant un alignement de sécurité robuste – une combinaison que nous nommons le trilemme de l'auto-évolution. Cependant, nous démontrons théoriquement et empiriquement qu'une société d'agents satisfaisant l'auto-évolution continue, l'isolement complet et l'invariance de sécurité est impossible. En nous appuyant sur un cadre informationnel, nous formalisons la sécurité comme le degré de divergence par rapport aux distributions de valeurs anthropiques. Nous démontrons théoriquement que l'auto-évolution isolée induit des angles morts statistiques, conduisant à la dégradation irréversible de l'alignement de sécurité du système. Les résultats empiriques et qualitatifs issus d'une communauté d'agents ouverts (Moltbook) et de deux systèmes fermés auto-évolutifs révèlent des phénomènes conformes à notre prédiction théorique d'une érosion inévitable de la sécurité. Nous proposons ensuite plusieurs pistes de solution pour atténuer le problème de sécurité identifié. Notre travail établit une limite fondamentale pour les sociétés d'IA auto-évolutives et déplace le débat des correctifs de sécurité symptomatiques vers une compréhension principielle des risques dynamiques intrinsèques, soulignant la nécessité d'une supervision externe ou de nouveaux mécanismes de préservation de la sécurité.
Les prompts vérifiables à grande échelle sont fondamentaux pour le succès du Renforcement de l'Apprentissage avec Récompenses Vérifiables (RLVR), mais ils contiennent de nombreux exemples non informatifs et leur expansion est coûteuse. Les études récentes se concentrent sur une meilleure exploitation des données d'entraînement limitées en prioritisant les prompts difficiles dont le taux de réussite du déploiement est de 0. Cependant, les prompts faciles avec un taux de réussite de 1 deviennent également de plus en plus prévalents au cours de l'entraînement, réduisant ainsi la taille effective des données. Pour atténuer ce problème, nous proposons Composition-RL, une approche simple mais utile pour mieux exploiter les prompts vérifiables limités en ciblant les prompts avec un taux de réussite de 1. Plus précisément, Composition-RL compose automatiquement plusieurs problèmes en une nouvelle question vérifiable et utilise ces prompts compositionnels pour l'entraînement par renforcement. Des expériences approfondies sur des tailles de modèles allant de 4B à 30B montrent que Composition-RL améliore constamment la capacité de raisonnement par rapport au RL entraîné sur le jeu de données original. Les performances peuvent être encore améliorées avec une variante curriculaire de Composition-RL qui augmente progressivement la profondeur compositionnelle durant l'entraînement. De plus, Composition-RL permet un apprentissage par renforcement transdomaine plus efficace en composant des prompts issus de différents domaines. Les codes, jeux de données et modèles sont disponibles à l'adresse https://github.com/XinXU-USTC/Composition-RL.
Les modèles multimodaux unifiés actuels pour la génération et l'édition d'images reposent généralement sur des échelles de paramètres massives (par exemple, >10 milliards), entraînant des coûts d'entraînement prohibitifs et une empreinte de déploiement importante. Dans ce travail, nous présentons DeepGen 1.0, un modèle unifié léger de 5 milliards de paramètres qui atteint des capacités complètes compétitives, voire supérieures, à des modèles beaucoup plus volumineux. Pour surmonter les limitations des modèles compacts en compréhension sémantique et en contrôle granulaire, nous introduisons le *Stacked Channel Bridging* (SCB), un cadre d'alignement profond qui extrait des caractéristiques hiérarchiques de multiples couches d'un modèle de langage visuel (VLM) et les fusionne avec des « tokens de raisonnement » apprenables pour fournir au backbone génératif un guidage structuré et riche en inférences. Nous concevons en outre une stratégie d'entraînement centrée sur les données couvrant trois étapes progressives : (1) un pré-entraînement par alignement sur de vastes ensembles de paires image-texte et de triplets d'édition pour synchroniser les représentations du VLM et du DiT, (2) un réglage fin supervisé conjoint sur un mélange de haute qualité de tâches de génération, d'édition et de raisonnement pour développer des capacités omni-compétentes, et (3) un apprentissage par renforcement avec MR-GRPO, qui exploite un mélange de fonctions de récompense et de signaux de supervision, entraînant des gains substantiels en qualité de génération et en alignement avec les préférences humaines, tout en maintenant une progression d'entraînement stable et en évitant les artefacts visuels. Bien qu'entraîné sur seulement ~50 millions d'échantillons, DeepGen 1.0 atteint des performances leaders sur divers benchmarks, surpassant le HunyuanImage 80B de 28% sur WISE et le Qwen-Image-Edit 27B de 37% sur UniREditBench. En ouvrant le code d'entraînement, les poids et les jeux de données, nous offrons une alternative efficace et performante pour démocratiser la recherche multimodale unifiée.
Les modèles vision-langage-action (VLA) qui prédisent directement des séquences d'actions multi-étapes à partir d'observations actuelles présentent des limitations inhérentes dues à une compréhension contextuelle restreinte et de faibles capacités d'anticipation future. En revanche, les modèles de monde vidéo pré-entraînés sur des corpus vidéo à l'échelle du web démontrent un raisonnement spatiotemporel robuste et une prédiction future précise, ce qui en fait une base naturelle pour améliorer l'apprentissage VLA. Par conséquent, nous proposons GigaBrain-0.5M*, un modèle VLA entraîné via un apprentissage par renforcement basé sur un modèle de monde. Construit sur GigaBrain-0.5, pré-entraîné sur plus de 10 000 heures de données de manipulation robotique - dont la version intermédiaire se classe actuellement première au benchmark international RoboChallenge - GigaBrain-0.5M* intègre en outre un apprentissage par renforcement basé sur un modèle de monde via RAMP (Reinforcement leArning via world Model-conditioned Policy) pour permettre une adaptation robuste inter-tâches. Les résultats empiriques démontrent que RAMP obtient des gains de performance substantiels par rapport à la baseline RECAP, avec des améliorations d'environ 30% sur des tâches complexes incluant le pliage de linge, l'emballage de cartons et la préparation d'espresso. Fait crucial, GigaBrain-0.5M* présente une exécution fiable sur des horizons temporels longs, accomplissant systématiquement des tâches de manipulation complexes sans échec, comme validé par les vidéos de déploiement en conditions réelles sur notre {page du projet https://gigabrain05m.github.io}.
La distillation en-ligne (OPD), qui aligne l'étudiant sur la distribution des logits de l'enseignant via des trajectoires générées par l'étudiant, a démontré des gains empiriques significatifs pour améliorer les performances de l'étudiant, surpassant souvent les paradigmes de distillation hors-ligne et d'apprentissage par renforcement (RL). Dans ce travail, nous montrons d'abord théoriquement que l'OPD est un cas particulier de la RL dense avec contrainte de divergence KL, où la fonction de récompense et la régularisation KL sont toujours pondérées également et où le modèle de référence peut être n'importe quel modèle. Ensuite, nous proposons le cadre de Distillation Généralisée en-Ligne (G-OPD), qui étend l'objectif OPD standard en introduisant un modèle de référence flexible et un facteur d'échelle des récompenses contrôlant le poids relatif du terme de récompense par rapport à la régularisation KL. Par des expériences exhaustives sur des tâches de raisonnement mathématique et de génération de code, nous tirons deux nouvelles conclusions : (1) Fixer le facteur d'échelle des récompenses à une valeur supérieure à 1 (c'est-à-dire une extrapolation de la récompense), que nous nommons ExOPD, améliore constamment les performances par rapport à l'OPD standard pour une gamme de paires de tailles enseignant-étudiant. En particulier, dans le scénario où nous fusionnons les connaissances de différents experts de domaine, obtenues en appliquant un RL spécifique au domaine au même modèle étudiant, dans l'étudiant original, ExOPD permet à l'étudiant de dépasser la limite de performance de l'enseignant et de surpasser les enseignants de domaine. (2) En nous appuyant sur ExOPD, nous constatons en outre que dans le cadre de la distillation fort-vers-faible (c'est-à-dire distiller un étudiant plus petit à partir d'un enseignant plus grand), effectuer une correction de récompense en choisissant le modèle de référence comme le modèle de base de l'enseignant avant le RL produit un signal de récompense plus précis et améliore encore les performances de la distillation. Cependant, ce choix suppose d'avoir accès à la variante pré-RL de l'enseignant et entraîne une surcharge computationnelle accrue. Nous espérons que notre travail offre de nouvelles perspectives pour les recherches futures sur l'OPD.
Les tokenizers audio discrets sont fondamentaux pour doter les grands modèles de langage de capacités natives de traitement et de génération audio. Malgré les progrès récents, les approches existantes reposent souvent sur des encodeurs pré-entraînés, une distillation sémantique ou des architectures hétérogènes basées sur des CNN. Ces conceptions introduisent des biais inductifs fixes qui limitent la fidélité de reconstruction et entravent une mise à l'échelle efficace. Dans cet article, nous soutenons que la tokenisation audio discrète devrait être apprise de manière entièrement end-to-end en utilisant une architecture homogène et évolutive. À cette fin, nous proposons d'abord CAT (Causal Audio Tokenizer with Transformer), une architecture purement basée sur Transformer qui optimise conjointement l'encodeur, le quantificateur et le décodeur à partir de zéro pour une reconstruction haute fidélité. En nous appuyant sur l'architecture CAT, nous développons MOSS-Audio-Tokenizer, un tokenizer audio à grande échelle comptant 1,6 milliard de paramètres, pré-entraîné sur 3 millions d'heures de données audio générales et diversifiées. Nous montrons que cette approche simple, entièrement end-to-end, construite à partir de blocs Transformer homogènes et causaux, s'adapte harmonieusement et permet une reconstruction haute fidélité dans divers domaines audio. Qu'il s'agisse de parole, de sons ou de musique, MOSS-Audio-Tokenizer surpasse systématiquement les codecs précédents sur une large plage de débits binaires, tout en présentant des améliorations prévisibles avec l'augmentation de l'échelle. Fait notable, en exploitant les tokens discrets de notre modèle, nous développons le premier modèle TTS purement autorégressif qui dépasse les systèmes non autorégressifs et en cascade antérieurs. De plus, MOSS-Audio-Tokenizer permet des performances ASR compétitives sans encodeurs auxiliaires. Nos résultats positionnent l'architecture CAT comme une interface unifiée et évolutive pour la prochaine génération de modèles de fond audio natifs.
La synthèse de bandes-son cohérentes pour les vidéos de longue durée reste un défi de taille, actuellement entravée par trois obstacles critiques : l'évolutivité computationnelle, la cohérence temporelle et, plus fondamentalement, une cécité sémantique généralisée à la logique narrative évolutive. Pour combler ces lacunes, nous proposons NarraScore, un cadre hiérarchique fondé sur l'idée centrale que l'émotion constitue une compression haute densité de la logique narrative. De manière unique, nous réutilisons des modèles vision-langage (VLM) figés comme capteurs affectifs continus, distillant les flux visuels haute dimension en trajectoires Valence-Arousal denses et sensibles à la narration. Mécaniquement, NarraScore emploie une stratégie d'Injection à Double Branche pour concilier structure globale et dynamisme local : une Ancre Sémantique Globale assure la stabilité stylistique, tandis qu'un Adaptateur Affectif au Niveau des Tokens modulaire ajuste la tension locale via une injection résiduelle élémentaire directe. Cette conception minimaliste contourne les goulots d'étranglement de l'attention dense et du clonage architectural, atténuant efficacement les risques de surapprentissage liés à la pénurie de données. Les expériences démontrent que NarraScore atteint un état de l'art en cohérence et alignement narratif avec une surcharge computationnelle négligeable, établissant un paradigme entièrement autonome pour la génération de bandes-son pour vidéos longues.
Le raisonnement juridique exige non seulement des conclusions correctes, mais aussi des processus de raisonnement conformes à la procédure. Cependant, les méthodes existantes ne disposent pas de mécanismes pour vérifier les étapes intermédiaires du raisonnement, permettant à des erreurs telles que des citations de lois inapplicables de se propager sans être détectées dans la chaîne de raisonnement. Pour remédier à cela, nous proposons LawThinker, un agent autonome de recherche juridique qui adopte une stratégie Explorer-Vérifier-Mémoriser pour les environnements judiciaires dynamiques. L'idée centrale est d'imposer la vérification comme une opération atomique après chaque étape d'exploration des connaissances. Un module DeepVerifier examine chaque résultat de recherche selon trois dimensions : l'exactitude des connaissances, la pertinence fait-loi et la conformité procédurale, avec un module de mémoire pour la réutilisation trans-tâches des connaissances dans les missions à long terme. Les expériences sur le benchmark dynamique J1-EVAL montrent que LawThinker obtient une amélioration de 24% par rapport au raisonnement direct et un gain de 11% par rapport aux méthodes basées sur des workflows, avec des améliorations particulièrement marquées sur les métriques orientées processus. Les évaluations sur trois benchmarks statiques confirment en outre sa capacité de généralisation. Le code est disponible à l'adresse https://github.com/yxy-919/LawThinker-agent.
Les modèles linguistiques multimodaux existants ont atteint une perception visuelle de haute fidélité et une génération visuelle exploratoire. Cependant, un paradoxe de précision persiste dans les tâches de raisonnement complexe : les systèmes de perception optique transcrivent des symboles sans capturer la topologie logique, tandis que les modèles génératifs basés sur les pixels produisent des artefacts visuels manquant de rigueur mathématique. Pour combler cette lacune, nous proposons de reconceptualiser le raisonnement sur les entrées visuelles comme une décompression optique – le processus de reconstruction des structures logiques latentes à partir de jetons visuels compressés. Guidés par l'axiome que l'Analyse Syntaxique est un Raisonnement (Parsing is Reasoning), nous introduisons la Pensée par Esquisse (Thinking with Drafting, TwD), qui utilise un langage dédié minimaliste (Domain-Specific Language, DSL) comme représentation intermédiaire d'ancrage. Contrairement aux approches standard qui hallucinent des réponses directement, TwD contraint le modèle à formaliser son modèle mental en code exécutable, produisant des preuves visuelles déterministes pour l'auto-vérification. Pour valider cela, nous présentons VisAlg, un benchmark d'algèbre visuelle. Les expériences démontrent que TwD sert d'échafaudage cognitif supérieur. Notre travail établit un système en boucle fermée où la génération visuelle agit non pas comme une sortie créative mais comme un vérificateur logique, offrant une voie généralisable pour le raisonnement visuel.
Pour parvenir à une mise à l'échelle efficace au moment des tests, les modèles doivent s'engager dans une Exploration Contextuelle — la capacité intrinsèque à générer, vérifier et affiner plusieurs hypothèses de raisonnement au sein d'un même contexte continu. Fondée sur la théorie de la Couverture d'État, notre analyse identifie un goulot d'étranglement critique pour l'acquisition de cette capacité : bien qu'une couverture d'état plus étendue nécessite des trajectoires de raisonnement plus longues, la probabilité d'échantillonner de telles séquences décroît de manière exponentielle lors de la génération autorégressive, un phénomène que nous nommons le « Piège de l'Exploration Superficielle ». Pour combler cet écart, nous proposons l'Exploration avec Incitation à la Longueur (\method). Cette approche simple mais efficace encourage explicitement les modèles à explorer davantage via une récompense basée sur la longueur, couplée à une pénalité pour redondance, maximisant ainsi la couverture d'état en deux étapes. Des expériences approfondies sur différents modèles (Qwen3, Llama) montrent que \method incite efficacement l'exploration contextuelle. En conséquence, notre méthode obtient une amélioration moyenne de 4,4 % sur les tâches en domaine et un gain de 2,7 % sur des benchmarks hors domaine.
Malgré l'augmentation soutenue de la capacité des modèles et de l'acquisition de données, les modèles Vision-Langage-Action (VLA) restent fragiles dans les tâches de manipulation dynamiques et riches en contacts, où de légères déviations d'exécution peuvent s'accumuler et entraîner des échecs. Si l'apprentissage par renforcement (RL) offre une voie théorique vers la robustesse, son application en politique active dans le monde physique est limitée par les risques pour la sécurité, le coût matériel et la réinitialisation de l'environnement. Pour combler cette lacune, nous présentons RISE, un cadre évolutif d'apprentissage par renforcement robotique via l'imagination. Son cœur est un Modèle Compositionnel du Monde qui (i) prédit un futur multi-vues via un modèle de dynamique contrôlable, et (ii) évalue les résultats imaginés avec un modèle de valeur de progrès, produisant des avantages informatifs pour l'amélioration de la politique. Cette conception compositionnelle permet d'adapter l'état et la valeur avec des architectures et objectifs distincts mais les mieux adaptés. Ces composants sont intégrés dans un pipeline en boucle fermée d'auto-amélioration qui génère continuellement des déroulements imaginaires, estime les avantages et met à jour la politique dans l'espace imaginaire, sans interaction physique coûteuse. Sur trois tâches réelles difficiles, RISE apporte une amélioration significative par rapport à l'état de l'art, avec une augmentation absolue des performances de plus de +35 % pour le tri dynamique de briques, +45 % pour le rangement du sac à dos et +35 % pour la fermeture de boîte, respectivement.
Les illusions visuelles reposent traditionnellement sur des manipulations spatiales telles que la cohérence multi-vues. Dans ce travail, nous introduisons les Illusions Sémantiques Progressives, une nouvelle tâche de dessin vectoriel où un croquis unique subit une transformation sémantique spectaculaire grâce à l'ajout séquentiel de traits. Nous présentons Stroke of Surprise, un cadre génératif qui optimise les traits vectoriels pour satisfaire des interprétations sémantiques distinctes à différentes étapes du dessin. Le défi central réside dans la "double-contrainte" : les traits initiaux du préfixe doivent former un objet cohérent (par exemple, un canard) tout en servant simultanément de fondation structurelle pour un second concept (par exemple, un mouton) lors de l'ajout de traits delta. Pour y parvenir, nous proposons un cadre d'optimisation conjointe sensible à la séquence, piloté par un mécanisme dual de Score Distillation Sampling (SDS). Contrairement aux approches séquentielles qui figent l'état initial, notre méthode ajuste dynamiquement les traits du préfixe pour découvrir un "sous-espace structurel commun" valide pour les deux cibles. De plus, nous introduisons une nouvelle fonction de perte de superposition qui impose une complémentarité spatiale, garantissant une intégration structurelle plutôt qu'une occlusion. Des expériences approfondies démontrent que notre méthode surpasse significativement les méthodes de référence en matière de reconnaissabilité et de force d'illusion, étendant avec succès les anagrammes visuelles de la dimension spatiale à la dimension temporelle. Page du projet : https://stroke-of-surprise.github.io/
La manipulation robotique fiable à long terme a traditionnellement reposé sur des données et une puissance de calcul massives pour appréhender la dynamique complexe du monde réel. Cependant, nous identifions que le principal goulot d'étranglement pour la robustesse en conditions réelles n'est pas seulement l'échelle des ressources, mais le décalage distributionnel entre la distribution des démonstrations humaines, le biais inductif appris par la politique et la distribution d'exécution lors des tests – une incohérence systématique qui provoque des erreurs cumulatives dans les tâches multi-étapes. Pour atténuer ces incohérences, nous proposons χ₀, un cadre économe en ressources doté de modules efficaces conçus pour atteindre une robustesse de niveau production en manipulation robotique. Notre approche repose sur trois piliers techniques : (i) l'Arithmétique des Modèles, une stratégie de fusion dans l'espace des poids qui assimile efficacement des distributions diverses issues de différentes démonstrations, allant de l'apparence des objets aux variations d'état ; (ii) l'Avantage par Étape, un estimateur d'avantage conscient des étapes qui fournit des signaux de progression denses et stables, surmontant l'instabilité numérique des approches non segmentées antérieures ; et (iii) l'Alignement Entraînement-Déploiement, qui comble l'écart distributionnel via une augmentation spatio-temporelle, des corrections heuristiques de type DAgger et un lissage temporel par tronçons. χ₀ permet à deux paires de robots bi-manuels d'orchestrer collaborativement une manipulation de vêtements à long terme, couvrant des tâches allant de l'aplatissement et du pliage jusqu'à la suspension de différents vêtements. Notre méthode présente une autonomie très fiable ; nous pouvons exécuter le système à partir d'un état initial arbitraire pendant 24 heures consécutives sans interruption. Les expériences valident que χ₀ surpasse l'état de l'art π₀.₅ en taux de réussite de près de 250 %, avec seulement 20 heures de données et 8 GPU A100. Le code, les données et les modèles seront publiés pour faciliter les travaux de la communauté.
Les démonstrations humaines offrent une riche diversité environnementale et une mise à l'échelle naturelle, ce qui en fait une alternative attrayante à la téléopération robotique. Bien que ce paradigme ait fait progresser la manipulation par bras robotique, son potentiel pour le problème plus complexe et gourmand en données de la loco-manipulation humanoïde reste largement inexploré. Nous présentons EgoHumanoid, le premier cadre permettant de co-entraîner une politique vision-langage-action en utilisant d'abondantes démonstrations humaines égocentriques conjointement avec une quantité limitée de données robotiques, permettant aux humanoïdes d'effectuer de la loco-manipulation dans divers environnements réels. Pour combler le fossé d'incarnation entre les humains et les robots, incluant les différences de morphologie physique et de point de vue, nous introduisons un pipeline d'alignement systématique couvrant de la conception matérielle au traitement des données. Un système portable pour la collecte évolutive de données humaines est développé, et nous établissons des protocoles de collecte pratiques pour améliorer la transférabilité. Au cœur de notre pipeline d'alignement humain-humanoïde se trouvent deux composants clés. L'alignement de vue réduit les écarts de domaine visuel causés par la variation de la hauteur de la caméra et de la perspective. L'alignement d'action mappe les mouvements humains dans un espace d'action unifié et cinématiquement réalisable pour le contrôle humanoïde. Des expériences approfondies en conditions réelles démontrent que l'intégration de données égocentriques sans robot surpasse significativement les lignes de base utilisant uniquement des données robotiques de 51 %, en particulier dans des environnements non vus. Notre analyse révèle en outre quels comportements se transfèrent efficacement et le potentiel de mise à l'échelle des données humaines.
Les modèles de langage à grande échelle par diffusion (dLLM) représentent un nouveau paradigme au-delà de la modélisation autorégressive, offrant des performances compétitives tout en permettant naturellement un processus de décodage flexible. Concrètement, les dLLM peuvent générer des tokens à des positions arbitraires en parallèle, leur conférant un potentiel significatif pour la mise à l'échelle parallèle au moment du test, qui était auparavant limitée par une inefficacité sévère dans la modélisation autorégressive. Dans ce travail, nous présentons dVoting, une technique de vote rapide qui améliore les capacités de raisonnement sans entraînement, avec seulement une surcharge computationnelle supplémentaire acceptable. dVoting est motivé par l'observation que, sur de multiples échantillons pour la même instruction, les prédictions de tokens restent largement cohérentes, alors que la performance est déterminée par un petit sous-ensemble de tokens présentant une variabilité inter-échantillons. En tirant parti de la capacité de génération à position arbitraire des dLLM, dVoting effectue un raffinement itératif par échantillonnage, identifie les tokens incertains via une analyse de cohérence, les régénère par vote, et répète ce processus jusqu'à convergence. Des évaluations approfondies démontrent que dVoting améliore constamment les performances sur divers benchmarks. Il obtient des gains de 6,22 % à 7,66 % sur GSM8K, 4,40 % à 7,20 % sur MATH500, 3,16 % à 14,84 % sur ARC-C et 4,83 % à 5,74 % sur MMLU. Notre code est disponible à l'adresse https://github.com/fscdc/dVoting.
Nous présentons Voxtral Realtime, un modèle de reconnaissance automatique de la parole natif en streaming, qui égalise la qualité de transcription hors ligne avec une latence inférieure à la seconde. Contrairement aux approches qui adaptent les modèles hors ligne via un découpage en segments ou des fenêtres glissantes, Voxtral Realtime est entraîné de bout en bout pour le streaming, avec un alignement explicite entre les flux audio et texte. Notre architecture s'appuie sur le cadre de modélisation des flux retardés, en introduisant un nouvel encodeur audio causal et une normalisation Ada RMS pour améliorer le conditionnement du retard. Nous avons mis à l'échelle le pré-entraînement sur un jeu de données massif couvrant 13 langues. Avec un retard de 480 ms, Voxtral Realtime atteint des performances équivalentes à celles de Whisper, le système de transcription hors ligne le plus largement déployé. Nous publions les poids du modèle sous licence Apache 2.0.
Pourquoi la navigation vision-langage doit-elle être liée à des instructions linguistiques détaillées et verbeuses ? Bien que ces détails facilitent la prise de décision, ils contredisent fondamentalement l'objectif de la navigation dans le monde réel. Idéalement, les agents devraient posséder l'autonomie nécessaire pour naviguer dans des environnements inconnus en se guidant uniquement sur des intentions simples et de haut niveau. Réaliser cette ambition introduit un défi redoutable : la navigation au-delà du champ de vision (BVN), où les agents doivent localiser des cibles distantes et invisibles sans guidance dense et étape par étape. Les méthodes existantes basées sur les grands modèles de langage (LLM), bien que compétentes pour suivre des instructions denses, souffrent souvent de comportements à courte vue en raison de leur dépendance à une supervision à court terme. Cependant, simplement étendre l'horizon de supervision déstabilise l'entraînement des LLM. Dans ce travail, nous identifions que les modèles de génération vidéo bénéficient intrinsèquement d'une supervision à long horizon pour s'aligner sur des instructions linguistiques, les rendant particulièrement adaptés aux tâches de BVN. Tirant parti de cette intuition, nous proposons d'introduire pour la première fois le modèle de génation vidéo dans ce domaine. Pourtant, la latence prohibitive pour générer des vidéos couvrant des dizaines de secondes rend le déploiement réel impraticable. Pour combler cet écart, nous proposons SparseVideoNav, réalisant l'inférence de trajectoire en moins d'une seconde guidée par un futur sparse généré couvrant un horizon de 20 secondes. Cela permet une accélération remarquable de 27x par rapport à la contrepartie non optimisée. Des expériences zero-shot extensives en conditions réelles démontrent que SparseVideoNav atteint un taux de réussite 2,5 fois supérieur à celui des LLM de pointe sur les tâches BVN et marque la première réalisation d'une telle capacité dans des scènes nocturnes difficiles.
Alors que le développement des modèles de grande taille (LMs) progresse rapidement, leur sécurité est également une priorité. Dans les processus de sécurité actuels des grands modèles de langage (LLMs) et des grands modèles de langage multimodaux (MLLMs), l'évaluation, le diagnostic et l'alignement sont souvent traités par des outils distincts. Plus précisément, l'évaluation de la sécurité ne peut que localiser les risques comportementaux externes sans pouvoir identifier les causes racines internes. Parallèlement, le diagnostic de sécurité s'écarte souvent des scénarios de risque concrets et reste à un niveau explicatif superficiel. De cette manière, l'alignement de la sécurité manque d'explications dédiées sur les changements des mécanismes internes, risquant de dégrader les capacités générales. Pour résoudre systématiquement ces problèmes, nous proposons un projet open source, nommé DeepSight, pour mettre en œuvre un nouveau paradigme intégré d'évaluation-diagnostic de la sécurité. DeepSight est un projet d'évaluation de la sécurité des modèles de grande taille, peu coûteux, reproductible, efficace et hautement évolutif, comprenant une boîte à outils d'évaluation DeepSafe et une boîte à outils de diagnostic DeepScan. En unifiant les protocoles de tâches et de données, nous établissons un lien entre les deux étapes et transformons l'évaluation de la sécurité d'une approche en boîte noire en une analyse en boîte blanche. Par ailleurs, DeepSight est la première boîte à outils open source à prendre en charge l'évaluation des risques d'IA de pointe et l'évaluation-diagnostic conjoints de la sécurité.
La compréhension des produits en commerce électronique exige naturellement une forte capacité d'analyse multimodale intégrant texte, images et attributs structurés. Les modèles vision-langage (VLM) généralistes permettent une modélisation latente multimodale généralisable, mais aucune stratégie documentée et éprouvée n'existe pour les adapter aux spécificités des données e-commerce - centrées sur les attributs, multi-images et bruitées - sans sacrifier les performances générales. Dans cette étude, nous démontrons par une expérimentation à grande échelle comment l'adaptation ciblée de VLM généralistes améliore substantiellement les performances e-commerce tout en préservant leurs capacités multimodales étendues. Par ailleurs, nous proposons une nouvelle suite d'évaluation exhaustive couvrant la compréhension approfondie des produits, le suivi strict d'instructions et l'extraction dynamique d'attributs.
Nous présentons Gaia2, un benchmark pour évaluer les agents de grands modèles de langage dans des environnements réalistes et asynchrones. Contrairement aux évaluations statiques ou synchrones antérieures, Gaia2 introduit des scénarios où les environnements évoluent indépendamment des actions de l'agent, exigeant de celui-ci qu'il opère sous contraintes temporelles, s'adapte à des événements dynamiques et bruités, résolve l'ambiguïté et collabore avec d'autres agents. Chaque scénario est associé à un vérificateur d'actions d'écriture, permettant une évaluation granulaire au niveau des actions et rendant Gaia2 directement utilisable pour l'apprentissage par renforcement à partir de récompenses vérifiables. Notre évaluation des modèles propriétaires et open-source à la pointe montre qu'aucun modèle ne domine l'ensemble des capacités : GPT-5 (haut) atteint le score global le plus élevé avec 42% de réussite (@1) mais échoue sur les tâches sensibles au temps, Claude-4 Sonnet compromet précision et vitesse pour réduire les coûts, et Kimi-K2 mène parmi les modèles open-source avec 21% de réussite (@1). Ces résultats mettent en lumière des compromis fondamentaux entre le raisonnement, l'efficacité, la robustesse, et révèlent les défis pour combler l'écart "sim2real". Gaia2 est construit sur un environnement de consommation avec la plateforme open-source Agents Research Environments (ARE) et conçu pour être facilement extensible. En publiant Gaia2 conjointement avec le cadre fondamental ARE, nous visons à fournir à la communauté une infrastructure flexible pour développer, évaluer et entraîner la prochaine génération de systèmes d'agents pratiques.
Le paysage de la génération vidéo par IA connaît une transformation décisive : on s'éloigne de la génération générale - qui repose sur un *prompt-engineering* exhaustif et une sélection fastidieuse - pour se diriger vers une génération à granularité fine, contrôlable, et un post-traitement haute fidélité. Dans le cadre de la réalisation cinématographique assistée par IA à usage professionnel, il est crucial d'effectuer des modifications précises et ciblées. Une pierre angulaire de cette transition est l'insertion d'instances vidéo, qui consiste à insérer une instance spécifique dans une séquence existante tout en préservant l'intégrité de la scène. Contrairement au montage vidéo traditionnel, cette tâche exige plusieurs impératifs : un positionnement spatio-temporel précis, une interaction physiquement cohérente avec la scène, et la préservation fidèle de la dynamique originale - le tout avec un effort utilisateur minimal. Dans cet article, nous proposons PISCO, un modèle de diffusion vidéo pour l'insertion précise d'instances avec un contrôle arbitraire par images clés éparses. PISCO permet aux utilisateurs de spécifier une seule image clé, des images clés de début et de fin, ou des images clés éparses à des timestamps arbitraires, et propage automatiquement l'apparence, le mouvement et l'interaction de l'objet. Pour résoudre le décalage de distribution important induit par un conditionnement épars dans les modèles de diffusion vidéo pré-entraînés, nous introduisons un Guidage à Information Variable pour un conditionnement robuste et un Masquage Temporel Préservant la Distribution pour stabiliser la génération temporelle, associés à un conditionnement géométriquement conscient pour une adaptation réaliste à la scène. Nous construisons également PISCO-Bench, un benchmark comportant des annotations d'instances vérifiées et des vidéos de fond propres appariées, et nous évaluons les performances à l'aide de métriques perceptuelles avec et sans référence. Les expériences démontrent que PISCO surpasse constamment les méthodes de référence en matière d'inpainting et d'édition vidéo sous contrôle épars, et présente des améliorations de performances nettes et monotones à mesure que des signaux de contrôle supplémentaires sont fournis. Page du projet : xiangbogaobarry.github.io/PISCO.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR), particulièrement GRPO, est devenu la méthode standard pour susiter le raisonnement des LLM. Cependant, son efficacité en matière d'exploration et d'adaptation à la difficulté reste un défi non résolu. Dans ce travail, nous soutenons que ces goulots d'étranglement découlent d'une symétrie implicite de l'avantage inhérente à l'estimation d'avantage relative de groupe (GRAE). Cette symétrie induit deux limitations critiques : (i) au niveau du groupe, la symétrie stricte des poids entre les trajectoires correctes et incorrectes laisse inchangés les logits d'actions non échantillonnés, entravant ainsi l'exploration de nouvelles solutions correctes. (ii) au niveau de l'échantillon, l'algorithme privilégie implicitement les échantillons de difficulté moyenne, restant agnostique aux demandes non stationnaires de focalisation sur la difficulté. Par des expériences contrôlées, nous révélons que cette propriété symétrique est sous-optimale, produisant deux insights essentiels : (i) supprimer asymétriquement les avantages des trajectoires correctes encourage une exploration nécessaire. (ii) l'efficacité d'apprentissage est maximisée par une transition de type curriculum, privilégiant d'abord les échantillons simples avant de passer graduellement aux complexes. Motivés par ces résultats, nous proposons GRAE Asymétrique (A-GRAE), qui module dynamiquement les incitations à l'exploration et la focalisation sur la difficulté des échantillons. Les expériences sur sept benchmarks démontrent qu'A-GRAE améliore constamment GRPO et ses variantes, tant pour les LLM que pour les MLLM.
Des travaux récents explorent le raisonnement latent pour améliorer l'efficacité du raisonnement en remplaçant les trajectoires de raisonnement explicites par des représentations continues dans un espace latent, bien que son efficacité varie selon les contextes. L'analyse de la dynamique de confiance du modèle sous un raisonnement latent révèle que les trajectoires de réflexion se terminant par des réponses incorrectes contiennent moins d'étapes de faible confiance que celles aboutissant à des réponses correctes. Parallèlement, nous suggérons que les embeddings doux agrégés par de multiples alternatives de pensée à faible confiance peuvent introduire et propager du bruit, conduisant à une forte confiance dans des trajectoires de raisonnement peu fiables. Motivé par ces observations, ThinkRouter, un mécanisme de routage sensible à la confiance lors de l'inférence, est proposé pour éviter une confiance élevée et le bruit afin d'obtenir un raisonnement efficace. ThinkRouter achemine la pensée vers l'espace discret des tokens lorsque la confiance du modèle est faible, et vers l'espace latent sinon. Des expériences approfondies sur des benchmarks de raisonnement STEM et de codage, couvrant divers grands modèles de raisonnement, démontrent que ThinkRouter surpasse les bases de référence que sont le CoT explicite, le routage aléatoire et le raisonnement latent en termes de précision, avec une amélioration moyenne de 19,70 points dans Pass@1, tout en réduisant la longueur de génération jusqu'à 15,55 %. Une analyse complémentaire plus poussée révèle que ThinkRouter peut calibrer les erreurs provenant du CoT explicite et du raisonnement latent, et accélère la génération du token de fin de réflexion en abaissant globalement la confiance du modèle.
Les modèles de langage à grande échelle de diffusion (DLLM) ont le potentiel de permettre une génération rapide de texte en décodant plusieurs tokens en parallèle. Cependant, en pratique, leur efficacité d'inférence est limitée par la nécessité de nombreuses étapes de raffinement, tandis qu'une réduction agressive du nombre d'étapes entraîne une dégradation substantielle de la qualité de génération. Pour remédier à cela, nous proposons un cadre d'auto-distillation de trajectoire qui améliore le décodage en peu d'étapes en distillant les trajectoires génératives propres au modèle. Nous intégrons l'Optimisation Discriminative Directe (DDO), un objectif de KL inverse qui favorise une distillation axée sur les modes et encourage l'élève à se concentrer sur les modes de forte probabilité de l'enseignant. Sur diverses benchmarks, notre approche surpasse constamment les bases de référence solides en peu d'étapes et l'apprentissage standard sous des budgets d'étapes serrés. Bien que le décodage avec toutes les étapes reste supérieur, nous réduisons considérablement l'écart, établissant une base solide vers des DLLM pratiques en peu d'étapes. Le code source est disponible à l'adresse https://github.com/Tyrion58/T3D.
Les amplitudes de diffusion tree-level à un gluon d'hélicité négative sont réexaminées. Souvent présumées nulles, elles s'avèrent ici non nulles pour certaines configurations « semi-collinéaires » existant dans l'espace de Klein ou pour des impulsions complexifiées. Nous dérivons une expression close, constante par morceaux, pour la désintégration d'un gluon d'hélicité négative en n-1 gluons d'hélicité positive en fonction de leurs impulsions. Cette formule satisfait de manière non triviale plusieurs conditions de cohérence, incluant le théorème de soft gluon de Weinberg.
La mémoire à long terme permet aux agents de modèles de langage de grande taille de traiter des tâches complexes grâce aux interactions historiques. Cependant, les frameworks existants se heurtent à un dilemme fondamental entre la compression efficace d'informations redondantes et le maintien d'une récupération précise pour les tâches en aval. Pour combler cette lacune, nous proposons MemFly, un framework fondé sur les principes du goulot d'étranglement informationnel qui facilite l'évolution dynamique de la mémoire pour les LLM. Notre approche minimise l'entropie de compression tout en maximisant l'entropie de pertinence via un optimiseur sans gradient, construisant une structure mémoire stratifiée pour un stockage efficace. Pour tirer pleinement parti de MemFly, nous développons un mécanisme de récupération hybride qui intègre de manière transparente des voies sémantiques, symboliques et topologiques, en incorporant un raffinement itératif pour gérer les requêtes multi-sauts complexes. Des expériences approfondies démontrent que MemFly surpasse substantiellement les meilleures méthodes de référence en cohérence mémorielle, fidélité des réponses et exactitude.
L'évolution des grands modèles de langage (LLM) vers des applications à contextes ultra-longs se heurte aux défis posés par le coût computationnel et mémoire élevé de l'architecture Transformer. Bien que les mécanismes d'attention clairsemée et linéaire existants tentent d'atténuer ces problèmes, ils impliquent généralement un compromis entre l'efficacité mémoire et les performances du modèle. Cet article présente MiniCPM-SALA, une architecture hybride à 9 milliards de paramètres qui intègre la modélisation haute fidélité des contextes longs de l'attention clairsemée (InfLLM-V2) avec l'efficacité globale de l'attention linéaire (Lightning Attention). En utilisant un algorithme de sélection de couches pour intégrer ces mécanismes dans un ratio de 1:3 et en exploitant un codage positionnel hybride (HyPE), le modèle maintient son efficacité et ses performances pour les tâches à contexte long. De plus, nous introduisons un cadre d'entraînement continu économique qui transforme les modèles pré-entraînés basés sur Transformer en modèles hybrides, réduisant les coûts d'entraînement d'environ 75 % par rapport à un entraînement à partir de zéro. Des expériences approfondies montrent que MiniCPM-SALA conserve des capacités générales comparables aux modèles à attention complète tout en offrant une meilleure efficacité. Sur une seule GPU NVIDIA A6000D, le modèle atteint jusqu'à 3,5 fois la vitesse d'inférence du modèle à attention complète pour une longueur de séquence de 256 000 tokens et prend en charge des contextes allant jusqu'à 1 million de tokens, une échelle à laquelle les modèles 8B traditionnels à attention complète échouent en raison de contraintes mémoire.
L'apprentissage ouvert conçoit l'intelligence comme émergeant d'une interaction continue avec un espace d'environnements en expansion constante. Bien que des progrès récents aient utilisé des modèles de fondation pour générer de manière programmatique des environnements diversifiés, ces approches se concentrent souvent sur la découverte de comportements isolés plutôt que sur l'orchestration d'une progression soutenue. Dans les mondes ouverts complexes, le vaste espace combinatoire des défis possibles rend difficile pour les agents la découverte de séquences d'expériences qui restent constamment assimilables. Pour y remédier, nous proposons Dreaming in Code (DiCode), un cadre dans lequel les modèles de fondation synthétisent du code d'environnement exécutable pour échafauder l'apprentissage vers une compétence croissante. Dans DiCode, le « rêve » prend la forme d'une matérialisation de variations du monde au niveau du code. Nous instancions DiCode dans Craftax, un benchmark ouvert exigeant caractérisé par une mécanique riche et une progression à long terme. Empiriquement, DiCode permet aux agents d'acquérir des compétences à long terme, obtenant une amélioration de 16% du retour moyen par rapport au meilleur système de référence et un succès non nul sur des tâches de combat en fin de jeu où les méthodes précédentes échouent. Nos résultats suggèrent que la conception d'environnements au niveau du code fournit un mécanisme pratique pour le contrôle du curriculum, permettant la construction d'environnements intermédiaires qui comblent les écarts de compétence dans les mondes ouverts. La page du projet et le code source sont disponibles sur https://konstantinosmitsides.github.io/dreaming-in-code et https://github.com/konstantinosmitsides/dreaming-in-code.
Le pré-entraînement de grands modèles de langage (LLM) nécessite généralement des grappes centralisées équipées de milliers de GPU à haute mémoire (par exemple, H100/A100). Les méthodes récentes d'entraînement décentralisé réduisent la surcharge de communication en employant une optimisation fédérée ; cependant, elles doivent encore entraîner l'intégralité du modèle sur chaque nœud, restant ainsi limitées par les contraintes mémoire des GPU. Dans ce travail, nous proposons SPES (SParse Expert Synchronization), un cadre décentralisé économe en mémoire pour le pré-entraînement de LLM à mixture d'experts (MoE). SPES n'entraîne qu'un sous-ensemble d'experts par nœud, réduisant considérablement l'empreinte mémoire. Chaque nœud met à jour ses experts locaux et se synchronise périodiquement avec les autres nœuds, éliminant ainsi la transmission des paramètres complets tout en assurant un partage efficace des connaissances. Pour accélérer la convergence, nous introduisons une stratégie d'échauffement par fusion d'experts, où les experts échangent des connaissances en début d'entraînement pour établir rapidement des capacités fondamentales. Avec SPES, nous avons entraîné un LLM MoE de 2 milliards de paramètres en utilisant 16 GPU autonomes de 48 GB sur des connexions internet, atteignant des performances comparables à celles des LLM entraînés de manière centralisée avec des budgets computationnels similaires. Nous démontrons en outre l'évolutivité en entraînant un modèle de 7B à partir de zéro et un modèle de 9B recyclé à partir d'un point de contrôle dense, lesquels égalent les performances des références centralisées antérieures. Notre code est disponible à l'adresse https://github.com/zjr2000/SPES.
Le déploiement de robots à grande échelle nécessite une robustesse face à la traîne des situations quotidiennes. Les innombrables variations dans l'agencement des scènes, la géométrie des objets et les spécifications des tâches qui caractérisent les environnements réels sont vastes et sous-représentées dans les benchmarks robotiques existants. Mesurer ce niveau de généralisation exige une infrastructure d'une ampleur et d'une diversité que l'évaluation physique seule ne peut fournir. Nous présentons MolmoSpaces, un écosystème entièrement ouvert pour soutenir l'évaluation à grande échelle des politiques de robots. MolmoSpaces comprend plus de 230 000 environnements intérieurs variés, allant de scènes domestiques conçues manuellement à des maisons multi-pièces générées de manière procédurale, peuplées de 130 000 ressources objets richement annotées, incluant 48 000 objets manipulables avec 42 millions de prises stables. Ces environnements sont surtout indépendants du simulateur, supportant des options populaires comme MuJoCo, Isaac et ManiSkill. L'écosystème prend en charge l'ensemble des tâches incarnées : manipulation statique et mobile, navigation, et tâches à long horizon multi-pièces nécessitant une coordination de la perception, de la planification et de l'interaction à travers des environnements intérieurs entiers. Nous concevons également MolmoSpaces-Bench, une suite de benchmarks de 8 tâches dans lesquelles les robots interagissent avec nos scènes diversifiées et nos objets richement annotés. Nos expériences montrent que MolmoSpaces-Bench présente une forte corrélation sim-to-real (R = 0,96, ρ = 0,98), confirment que des politiques zero-shot plus récentes et plus performantes surpassent les versions antérieures dans nos benchmarks, et identifient des sensibilités clés à la formulation des prompts, aux positions articulaires initiales et à l'occlusion des caméras. Grâce à MolmoSpaces et à ses ressources et outils open-source, nous fournissons une base pour la génération de données évolutive, l'entraînement des politiques et la création de benchmarks pour la recherche en apprentissage robotique.
Les documents d'entreprise, tels que les formulaires et les rapports, contiennent des informations cruciales pour les applications en aval comme l'archivage de données, les flux de travail automatisés et l'analyse. Bien que les modèles vision-langage (VLM) généralistes obtiennent de bons résultats sur les benchmarks établis de compréhension de documents, leur capacité à effectuer une extraction structurée holistique et fine sur différents types de documents et schémas flexibles n'est pas bien étudiée. Les ensembles de données existants pour l'extraction d'entités clés (KEE), l'extraction de relations (RE) et les questions-réponses visuelles (VQA) sont limités par des ontologies d'entités restreintes, des requêtes simples ou des types de documents homogènes, négligeant souvent le besoin d'une extraction structurée et adaptable. Pour combler ces lacunes, nous présentons ExStrucTiny, un nouveau benchmark pour l'extraction d'information (EI) structurée à partir d'images de documents, unifiant les aspects du KEE, du RE et du VQA. Construit via une nouvelle méthode combinant des échantillons manuels et synthétiques validés par des humains, ExStrucTiny couvre des types de documents et des scénarios d'extraction plus variés. Nous analysons des VLM ouverts et fermés sur ce benchmark, en soulignant des défis tels que l'adaptation du schéma, la sous-spécification des requêtes et la localisation des réponses. Nous espérons que notre travail fournira une base pour améliorer les modèles généralistes pour l'EI structurée dans les documents.
Les modèles de langage multimodaux (MLLM) sont de plus en plus utilisés pour des tâches réelles impliquant un raisonnement à plusieurs étapes et une génération de texte long, où la fiabilité nécessite d'ancrer les sorties du modèle dans des sources d'entrée hétérogènes et de vérifier les affirmations factuelles individuelles. Cependant, les benchmarks d'ancrage multimodal et les méthodes d'évaluation existants se concentrent sur des scénarios simplifiés, basés sur l'observation, ou sur des modalités limitées, et ne parviennent pas à évaluer l'attribution dans le raisonnement multimodal complexe. Nous présentons MuRGAt (Multimodal Reasoning with Grounded Attribution), un benchmark pour évaluer l'attribution multimodale au niveau factuel dans des contextes nécessitant un raisonnement allant au-delà de l'observation directe. Étant donné des entrées couvrant la vidéo, l'audio et d'autres modalités, MuRGAt exige que les modèles génèrent des réponses avec un raisonnement explicite et des citations précises, où chaque citation spécifie à la fois la modalité et les segments temporels. Pour permettre une évaluation fiable, nous introduisons un cadre d'évaluation automatique qui corrèle fortement avec les jugements humains. Le benchmarking avec des scores humains et automatisés révèle que même les MLLM performants hallucinent fréquemment des citations malgré un raisonnement correct. De plus, nous observons un compromis clé : augmenter la profondeur du raisonnement ou imposer un ancrage structuré dégrade souvent la précision, soulignant un écart significatif entre le raisonnement interne et l'attribution vérifiable.
Les grands modèles de langage (LLM) ont démontré des capacités de raisonnement exceptionnelles, et les paradigmes de co-évolution ont montré des résultats prometteurs dans des domaines tels que le code et les mathématiques. Cependant, dans les tâches de raisonnement scientifique, ces modèles restent fragiles en raison d'une évaluation peu fiable des solutions et d'une diversité limitée des stratégies de vérification. Dans ce travail, nous proposons Sci-CoE, un cadre de co-évolution scientifique en deux étapes qui permet aux modèles de s'auto-évoluer à la fois en tant que solveur et vérificateur grâce à une transition allant d'une supervision éparse à un apprentissage non supervisé. Dans la première étape, le modèle utilise un petit ensemble de données annotées pour établir des ancrages fondamentaux de jugement de justesse pour le Vérificateur. Dans la deuxième étape, nous introduisons un mécanisme de récompense géométrique qui prend en compte conjointement le consensus, la fiabilité et la diversité, pilotant une auto-itération à grande échelle sur des données non étiquetées. Les expériences menées sur plusieurs référentiels scientifiques généraux démontrent que Sci-CoE améliore les capacités de raisonnement complexe et présente une forte évolutivité, facilitant la construction de systèmes d'évaluation plus robustes et diversifiés. Les codes sont disponibles à l'adresse https://github.com/InternScience/Sci-CoE.
L'alignement personnalisé des grands modèles de langage vise à adapter les réponses aux préférences individuelles des utilisateurs, généralement par apprentissage par renforcement. Un défi majeur consiste à obtenir des signaux de récompense précis et spécifiques à l'utilisateur dans des scénarios ouverts. Les modèles de récompense personnalisés existants présentent deux limitations persistantes : (1) une simplification excessive des préférences diverses et spécifiques au scénario en un petit ensemble fixe de principes d'évaluation, et (2) des difficultés à généraliser à de nouveaux utilisateurs avec un feedback limité. Pour y remédier, nous proposons P-GenRM, le premier Modèle de Récompense Génératif Personnalisé avec mise à l'échelle en temps de test basée sur l'utilisateur. P-GenRM transforme les signaux de préférence en chaînes d'évaluation structurées qui dérivent des personas adaptatifs et des grilles d'évaluation pour divers scénarios. Il regroupe ensuite les utilisateurs en Prototypes d'Utilisateurs et introduit un mécanisme de mise à l'échelle à double granularité : au niveau individuel, il adapte et agrège dynamiquement le système de notation de chaque utilisateur ; au niveau du prototype, il intègre les préférences d'utilisateurs similaires. Cette conception atténue le bruit dans les préférences inférées et améliore la généralisation aux utilisateurs non vus via un transfert basé sur les prototypes. Les résultats empiriques montrent que P-GenRM obtient des résultats state-of-the-art sur les benchmarks largement utilisés pour les modèles de récompense personnalisés, avec une amélioration moyenne de 2,31 %, et démontre une forte généralisation sur un jeu de données hors distribution. Notamment, la mise à l'échelle en temps de test basée sur l'utilisateur apporte une amélioration supplémentaire de 3 %, démontrant un alignement personnalisé plus fort avec une scalabilité au moment du test.
La compréhension métaphorique dans les images reste un défi critique pour les systèmes d'intelligence artificielle actuels. Bien que les modèles de langage multimodaux (MLLM) excellent dans les tâches de base de question-réponse visuelle (VQA), ils peinent systématiquement à saisir les implications culturelles, émotionnelles et contextuelles nuancées contenues dans le contenu visuel. Cette difficulté découle des exigences de la tâche en matière de raisonnement multi-saut sophistiqué, de contexte culturel et de capacités de théorie de l'esprit (ToM), qui font défaut aux modèles actuels. Pour combler cette lacune, nous proposons MetaphorStar, le premier cadre d'apprentissage par renforcement (RL) visuel de bout en bout pour les tâches d'implication visuelle. Notre cadre comprend trois composants centraux : l'ensemble de données à granularité fine TFQ-Data, la méthode de RL visuelle TFQ-GRPO et le benchmark structuré TFQ-Bench. La famille MetaphorStar, entièrement open-source et entraînée avec TFQ-GRPO sur TFQ-Data, améliore significativement les performances de 82,6 % en moyenne sur les benchmarks d'implication visuelle. Comparé à plus de 20 MLLM grand public, MetaphorStar-32B atteint l'état de l'art (SOTA) sur les questions à choix multiples et les questions de style ouvert, surpassant significativement le meilleur modèle fermé Gemini-3.0-pro sur les questions vrai-faux. Fait crucial, nos expériences révèlent que l'apprentissage des tâches d'implication visuelle améliore la capacité de compréhension générale, en particulier la capacité de raisonnement visuel complexe. Nous fournissons en outre une analyse systématique de l'échelle des paramètres du modèle, de l'échelle des données d'entraînement, et de l'impact des différentes architectures de modèles et stratégies d'entraînement, démontrant l'applicabilité étendue de notre méthode. Nous avons ouvert tous les poids des modèles, les ensembles de données et le code méthodologique sur https://metaphorstar.github.io.
Nous étudions des agents augmentés par des outils sous contrainte budgétaire, où un grand modèle de langage doit résoudre des tâches multi-étapes en invoquant des outils externes dans le cadre d'un budget monétaire strict. Nous formalisons ce cadre comme une prise de décision séquentielle dans l'espace de contexte avec des exécutions d'outils tarifées et stochastiques, rendant la planification directe intraitable en raison d'espaces d'états-actions massifs, d'une variance élevée des résultats et d'un coût d'exploration prohibitif. Pour relever ces défis, nous proposons INTENT, un cadre de planification à l'inférence qui exploite un modèle hiérarchique du monde sensible aux intentions pour anticiper l'utilisation future des outils, le risque calibré des coûts, et guider les décisions en ligne. Sur le benchmark StableToolBench augmenté des coûts, INTENT applique strictement la faisabilité budgétaire contraignante tout en améliorant substantiellement la réussite des tâches par rapport aux méthodes de référence, et reste robuste face aux changements dynamiques du marché tels que les variations de prix des outils et les budgets variables.
L'ajustement par instruction visuelle à grande échelle (VIT) est devenu un paradigme clé pour améliorer les performances des modèles vision-langage (VLM) sur diverses tâches multimodales. Cependant, l'entraînement sur des jeux de données à grande échelle est coûteux en calcul et inefficace en raison de la redondance des données, ce qui motive la nécessité d'une sélection de données multimodales pour améliorer l'efficacité de l'entraînement. Les méthodes de sélection de données existantes pour le VIT nécessitent soit un entraînement coûteux, soit le calcul de gradients. Les alternatives sans entraînement reposent souvent sur des modèles ou jeux de données proxy, des représentations agnostiques aux instructions, et des similarités par paires avec une complexité quadratique, limitant ainsi l'évolutivité et la fidélité des représentations. Dans ce travail, nous proposons ScalSelect, une méthode de sélection de données multimodales évolutive et sans entraînement, avec une complexité linéaire par rapport au nombre d'échantillons, éliminant le besoin de modèles externes ou de jeux de données auxiliaires. ScalSelect construit d'abord des représentations d'échantillons en extrayant les caractéristiques visuelles les plus sollicitées par les tokens d'instruction dans le VLM cible, capturant ainsi les informations pertinentes pour l'instruction. Il identifie ensuite les échantillons dont les représentations approximent le mieux le sous-espace dominant des représentations du jeu de données complet, permettant une attribution d'importance évolutive sans comparaisons par paires. Des expériences approfondies sur plusieurs VLM, jeux de données et budgets de sélection démontrent que ScalSelect atteint plus de 97,5 % des performances de l'entraînement sur le jeu de données complet en utilisant seulement 16 % des données, et surpasse même l'entraînement sur toutes les données dans certains contextes. Le code est disponible à l'adresse https://github.com/ChangtiWu/ScalSelect.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est essentiel pour l'entraînement des modèles de raisonnement modernes, mais la non-divulgation des données d'entraînement soulève des préoccupations concernant la contamination des benchmarks. Contrairement aux méthodes de pré-entraînement qui optimisent les modèles en utilisant des probabilités au niveau des tokens, le RLVR affine les modèles sur la base de retours de récompense provenant de trajectoires de raisonnement auto-générées, ce qui rend les méthodes de détection conventionnelles basées sur la vraisemblance moins efficaces. Nous démontrons que le RLVR induit une signature comportementale distinctive : les prompts rencontrés pendant l'entraînement RLVR produisent des générations plus rigides et similaires, tandis que les prompts non vus conservent une plus grande diversité. Nous présentons Min-kNN Distance, un détecteur simple en boîte noire qui quantifie cet effondrement en échantillonnant plusieurs complétions pour un prompt donné et en calculant la moyenne des k plus petites distances d'édition des plus proches voisins. Min-kNN Distance ne nécessite aucun accès au modèle de référence ni aux probabilités des tokens. Des expériences sur plusieurs modèles de raisonnement entraînés par RLVR montrent que Min-kNN Distance distingue de manière fiable les exemples vus par RL de ceux non vus et surpasse les méthodes de référence existantes en inférence d'appartenance et en détection de contamination RL.
La navigation incarnée a longtemps été fragmentée par des architectures spécifiques à chaque tâche. Nous présentons ABot-N0, un modèle fondateur unifié Vision-Langage-Action (VLA) qui réalise une « Grande Unification » sur 5 tâches fondamentales : Point-Goal, Object-Goal, Instruction-Following, POI-Goal et Person-Following. ABot-N0 utilise une architecture hiérarchique « Cerveau-Action », associant un Cerveau Cognitif basé sur un LLM pour le raisonnement sémantique à un Expert d'Action basé sur l'appariement de flux (Flow Matching) pour une génération de trajectoire précise et continue. Pour soutenir l'apprentissage à grande échelle, nous avons développé le Moteur de Données ABot-N0, constituant un corpus de 16,9 millions de trajectoires expertes et 5,0 millions d'échantillons de raisonnement provenant de 7 802 scènes 3D haute fidélité (10,7 km²). ABot-N0 établit de nouveaux records state-of-the-art sur 7 benchmarks, surpassant significativement les modèles spécialisés. De plus, notre Système de Navigation Agentiel intègre un planificateur avec une mémoire topologique hiérarchique, permettant l'exécution de missions robustes et de long terme dans des environnements réels dynamiques.
La génération de pistes musicales, qui consiste à produire des clips audio d'instruments isolés et synchronisés musicalement, offre un potentiel de contrôle utilisateur accru et une meilleure adéquation avec les workflows des musiciens par rapport aux modèles conventionnels de texte-à-musique. Les approches existantes de génération de pistes, cependant, reposent soit sur des architectures fixes produisant un ensemble prédéfini de pistes en parallèle, soit ne génèrent qu'une piste à la fois, ce qui entraîne une inférence lente malgré la flexibilité dans la combinaison des pistes. Nous proposons Stemphonic, un cadre basé sur la diffusion et les flows qui surmonte ce compromis et génère un ensemble variable de pistes synchronisées en une seule passe d'inférence. Pendant l'entraînement, nous traitons chaque piste comme un élément de lot, regroupons les pistes synchronisées dans un lot et appliquons un bruit latent partagé à chaque groupe. Lors de l'inférence, nous utilisons un bruit latent initial partagé et des entrées textuelles spécifiques aux pistes pour générer des sorties multi-pistes synchronisées en une seule passe. Nous étendons ensuite notre approche pour permettre une génération conditionnelle multi-pistes en une passe et des contrôles d'activité par piste, permettant aux utilisateurs de générer itérativement et d'orchestrer le superposition temporelle d'un mix. Nous évaluons nos résultats sur plusieurs ensembles d'évaluation de pistes open-source et montrons que Stemphonic produit des sorties de meilleure qualité tout en accélérant le processus de génération de mix complet de 25 à 50 %. Démonstrations sur : https://stemphonic-demo.vercel.app.
Le compromis entre interprétabilité et précision demeure un défi fondamental en apprentissage automatique. Les modèles additifs généralisés (GAM) standards offrent des attributions de caractéristiques claires mais sont souvent limités par leur nature strictement additive, ce qui peut restreindre les performances prédictives. L'introduction d'interactions entre caractéristiques peut améliorer la précision mais risque d'obscurcir les contributions individuelles des caractéristiques. Pour résoudre ces problèmes, nous proposons les Neural Additive Experts (NAE), un nouveau cadre qui équilibre harmonieusement interprétabilité et précision. Les NAE utilisent un cadre de mélange d'experts, apprenant plusieurs réseaux spécialisés par caractéristique, tandis qu'un mécanisme de gating dynamique intègre l'information entre les caractéristiques, relaxant ainsi les contraintes additives rigides. De plus, nous proposons des techniques de régularisation ciblées pour atténuer la variance entre les prédictions des experts, facilitant une transition fluide d'un modèle exclusivement additif vers un modèle capturant des interactions complexes entre caractéristiques tout en préservant la clarté des attributions. Notre analyse théorique et nos expériences sur données synthétiques illustrent la flexibilité du modèle, et des évaluations approfondies sur des jeux de données réels confirment que les NAE atteignent un équilibre optimal entre précision prédictive et explications transparentes au niveau des caractéristiques. Le code est disponible à l'adresse https://github.com/Teddy-XiongGZ/NAE.