Articles de recherche IA sélectionnés quotidiennement avec traductions
Les agents linguistiques de jeu de rôle (ALJR) devraient incarner des personnages dont les valeurs et le comportement évoluent au fil de l’histoire, et non maintenir une personnalité figée. Les benchmarks existants mesurent le rappel factuel à un chapitre donné, mais pas si les réponses s’alignent sur la trajectoire psychologique du personnage, en particulier dans des scénarios que le texte source n’explore jamais. Nous présentons ArcANE (Arc-Aware Narrative Evaluation, évaluation narrative sensible à l’arc), un benchmark construit automatiquement couvrant 17 romans et 80 personnages principaux. Un arc de personnage segmente le récit en phases le long d’un axe psychologique, et chaque sonde pose le même scénario à travers les phases, couvrant à la fois des situations issues du texte source et des situations au-delà de celui-ci. À travers six modèles et six modes de contexte, le conditionnement sur l’arc de personnage surpasse toutes les autres stratégies de contexte sur chaque modèle, et l’écart est le plus grand sur les scénarios hors du texte source où la recherche n’a rien à trouver. Nous affinons en outre des modèles à poids ouverts sur les mêmes données pour obtenir ArcANE-8B/32B, ce qui élargit encore davantage l’avantage de l’arc sur les scénarios hors du texte source.
Les agents sont largement déployés comme assistants pour les documents, les outils et le code. Cependant, ils n'agissent généralement que sur des demandes explicites des utilisateurs, qui ne révèlent que les problèmes que l'utilisateur a remarqués, tandis que de nombreux autres problèmes importants coexistent, cachés à la vue de tous, dans le contexte plus large de l'utilisateur, leur nombre total étant inconnu à l'avance. Nous considérons cela comme la tâche de découvrir plusieurs problèmes cachés à partir du contexte, dans laquelle des problèmes coexistants doivent être mis au jour, étayés par des preuves, et associés à des actions concrètes. À cette fin, nous présentons TIDE, un cadre itératif guidé par des modèles avec deux mécanismes complémentaires. Plus précisément, motivés par l'observation que la prédiction en un seul passage se concentre sur les cas les plus saillants et produit des affirmations génériques, nous proposons une découverte itérative, qui fait émerger un petit lot de candidats par tour tout en conditionnant sur ce qui a déjà été trouvé, de sorte que les tours suivants étendent la couverture ; et des modèles de pensée, des schémas réutilisables distillés à partir de cas précédemment résolus qui spécifient à quels signaux contextuels prêter attention et comment les relier, ancrant chaque prédiction dans une classe de problèmes reconnaissable. Nous validons TIDE dans deux environnements réalistes, les espaces de travail personnels et les dépôts de logiciels, sur quatre modèles de base, montrant des gains substantiels par rapport aux références à passage unique et multi-agents parallèles en termes de couverture, d'identification et de résolution des tâches.
La planification pour des problèmes réels par les modèles de langage implique souvent à la fois des contraintes du monde et de l'utilisateur, qui peuvent ne pas être entièrement spécifiées initialement et sont progressivement révélées par l'interaction. Cependant, les référentiels existants explorent encore insuffisamment la planification adaptative sous de telles contraintes doubles révélées progressivement. Pour combler cette lacune, nous présentons AdaPlanBench, un référentiel interactif dynamique pour évaluer si les agents basés sur de grands modèles de langage (LLM) peuvent planifier et replanifier de manière adaptative sous des contraintes du monde et de l'utilisateur révélées progressivement. AdaPlanBench repose sur 307 tâches domestiques, avec un pipeline évolutif de construction de contraintes qui enrichit chaque tâche de contraintes doubles. Lors de l'exécution, les agents interagissent avec l'environnement selon un protocole multi-tours où les contraintes cachées ne sont révélées que lorsque l'agent propose un plan qui les viole, nécessitant une révision itérative du plan sous l'effet d'un retour d'information cumulatif. Cela rend la planification difficile, car les agents doivent inférer et suivre les contraintes à partir du retour d'information tout en replanifiant efficacement. Les expériences menées sur dix LLM de premier plan montrent que la planification adaptative sous contraintes doubles reste un défi, le meilleur modèle atteignant seulement 67,75 % de précision. Nous observons en outre que la performance se dégrade à mesure que davantage de contraintes s'accumulent, les contraintes utilisateur posant un défi particulièrement important et les échecs découlant souvent d'un ancrage physique plus faible et d'une efficacité réduite. Ces résultats établissent AdaPlanBench comme un banc d'essai pour la planification interactive sous contraintes doubles et mettent en lumière le défi de l'adaptation fiable à des contraintes révélées dynamiquement dans les agents LLM.
Nous présentons VideoKR, le premier corpus d'entraînement à grande échelle spécifiquement conçu pour renforcer la compréhension vidéo exigeante en connaissances et en raisonnement. Il comprend 315 000 exemples de raisonnement vidéo portant sur 145 000 vidéos nouvellement collectées, sous licence CC et issues de domaines d'expertise. Nous développons un pipeline de génération d'exemples orienté compétences, intégrant une boucle humaine, qui cible des capacités de raisonnement vidéo de plus en plus profondes tout en garantissant la difficulté, la diversité et la fiabilité des exemples ainsi que de leurs justifications par chaîne de pensée (CoT). Nous rassemblons également VideoKR-Eval, un nouveau benchmark annoté par des experts, dans lequel les questions exigent une véritable compréhension vidéo et un raisonnement intensif en connaissances, plutôt que des raccourcis textuels. Nos expériences montrent que, dans le cadre d’un pipeline standard SFT → GRPO, les modèles post-entraînés sur VideoKR surpassent les approches antérieures de post-entraînement en matière de raisonnement vidéo intensif en connaissances, tout en restant compétitifs pour le raisonnement vidéo général, soulignant ainsi que la conception des données est un moteur clé du progrès en raisonnement vidéo. Nous menons également des ablations exhaustives pour isoler les contributions de VideoKR, fournissant des perspectives exploitables pour les travaux futurs.
Des travaux antérieurs ont montré que les grands modèles de langue (LLMs) peuvent traduire des langues inédites ou à faibles ressources en poursuivant leur entraînement, voire en encodant un manuel de grammaire dans leur contexte. Cependant, ces deux méthodes surajustent généralement des langues spécifiques, avec un transfert zero-shot limité lors du test. Pour traduire à grande échelle des langues extrêmement peu dotées, nous soutenons que les LLMs doivent acquérir la méta-compétence d'exploiter les connaissances linguistiques contextuelles plutôt que de mémoriser des langues particulières. Dans cet article, nous proposons une approche par apprentissage par renforcement (RL) pour la traduction de langues inédites, en contexte linguistique riche, en utilisant une métrique de traduction de surface (chrF) comme récompense. Empiriquement, malgré la légèreté de la récompense, nos modèles entraînés par RL extraient et appliquent efficacement les informations linguistiques pertinentes du contexte fourni, produisant de meilleures traductions sur des langues totalement inédites que l'apprentissage contextuel ou l'ajustement fin supervisé. Nos analyses suggèrent que le RL basé sur les résultats peut s'étendre au-delà des tâches de raisonnement conventionnelles comme les mathématiques et le codage, pour servir de recette d'apprentissage des langues à partir du contexte.
Alors que les robots domestiques sont souvent évalués sur leur capacité à accomplir des tâches, les environnements domestiques quotidiens impliquent des situations de conflit de valeurs dans lesquelles on attend des robots qu'ils choisissent des actions privilégiant d'autres valeurs que la réussite de la tâche, comme l'autonomie humaine, l'efficacité ou la pertinence sociale. Pourtant, il n'existe pas de références pour évaluer les préférences de valeurs des robots dans de tels scénarios. Nous présentons RobotValues, un benchmark permettant d'évaluer les planificateurs de robots domestiques dans 10 000 scénarios de conflit de valeurs. Chaque instance se compose d'une image réaliste d'un environnement domestique avec plusieurs actions robotiques plausibles privilégiant différentes valeurs humaines. Nous construisons RobotValues grâce à une génération de scénarios assistée par LLM, une extraction de valeurs ancrée dans les parties prenantes, une génération d'images et un contrôle qualité automatique. En utilisant RobotValues pour évaluer les VLM utilisés en robotique, nous constatons que les modèles présentent des préférences de valeurs par défaut, notamment la sécurité et l'accommodation, tout en sous-sélectionnant les actions privilégiant la vie privée. Lorsqu'on demande aux modèles de privilégier des valeurs spécifiques en conflit avec leurs propres préférences, ils échouent souvent à passer outre leurs actions par défaut, choisissant des actions incorrectes dans 80 % des cas. Ces résultats suggèrent que l'évaluation des robots domestiques devrait mesurer non seulement l'achèvement des tâches ou la conformité de sécurité, mais aussi la capacité des robots à choisir parmi des actions plausibles lorsque les valeurs humaines sont en conflit.
Nous étudions le cadre de réponse à des questions visuelles à partir de la pellicule personnelle. Dans ce cadre, un assistant IA conversationnel peut accéder à la pellicule personnelle d'un utilisateur et récupérer les photos pertinentes pour répondre à des requêtes, allant de simples questions factuelles (par exemple, « Nom de l'aliment que j'ai goûté hier ? ») à des questions plus ouvertes (par exemple, « Recommande des plats que je n'ai jamais mangés auparavant »). Compte tenu de l'ampleur de la pellicule personnelle (plusieurs années, des centaines à des milliers de photos), un assistant IA performant doit comprendre un flux de contenu visuel hautement personnalisé et à long terme afin de naviguer et de localiser les informations correctes et/ou pertinentes. Pour cela, nous collectons et annotons manuellement des questions imitant une utilisation réelle. L'ensemble de données final, camroll, contient 50 utilisateurs, 31 476 images et 2 500 paires question-réponse. Nous concevons en outre camroll-agent, un agent IA conversationnel doté d'une mémoire hiérarchique et d'un ensemble minimal d'outils pour une navigation efficace dans une mémoire visuelle personnalisée de grande taille. Les résultats expérimentaux montrent que camroll-agent surpasse de nombreuses références et méthodes pour les systèmes d'agents IA de compréhension de contexte long. Ensemble, l'ensemble de données camroll et camroll-agent mettent en évidence le fossé dans le raisonnement à long contexte des agents IA : la mémoire visuelle personnalisée nécessite des approches différentes de la mémoire textuelle standard à long contexte, en particulier lorsque la cohérence, les détails visuels et le contexte propre à l'utilisateur sont présents.
Développer des modèles unifiés de génération et d’édition vidéo capables d’interpréter des entrées multimodales entrelacées constitue un domaine de recherche prometteur mais encore difficile. Les architectures unifiées existantes reposent principalement sur des modèles massifs (typiquement 13 milliards de paramètres ou plus) et intègrent les conditions vidéo source pour l’édition en concaténant les jetons de séquence. Cette concaténation double inévitablement la longueur des séquences, ce qui quadruple la complexité computationnelle du mécanisme d’auto-attention et engendre un surcoût prohibitif. Pour surmonter ces goulots d’étranglement, nous présentons LoomVideo, une architecture unifiée hautement efficace de 5 milliards de paramètres, destinée à la fois à la génération et à l’édition vidéo. LoomVideo remplace l’encodeur de texte standard par un modèle de langage multimodal à grande échelle (MLLM) et utilise un mécanisme d’injection en pile profonde (Deepstack) pour aligner les caractéristiques multi-couches du MLLM avec le transformateur de diffusion (DiT). Plus important encore, nous introduisons une approche de conditionnement par mise à l’échelle et addition (Scale-and-Add) sans surcoût pour l’édition vidéo. En mettant à l’échelle et en ajoutant directement le latent vidéo source propre au latent cible bruité, cette conception élégante élimine le besoin de concaténation de jetons, réduisant ainsi considérablement le coût computationnel tout en conservant des capacités robustes pour les modifications complexes non rigides. De plus, une stratégie de RoPE temporel négatif est intégrée de manière transparente pour gérer plusieurs images de référence. Des expériences approfondies démontrent que notre modèle compact de 5 milliards de paramètres atteint des performances de pointe ou très compétitives sur des bancs d’essai complets, avec une supériorité exceptionnelle dans les scénarios de génération pour le commerce électronique et la mode. Grâce au mécanisme de conditionnement sans surcoût, LoomVideo accélère la vitesse d’inférence d’au moins un facteur 5,41 par rapport aux modèles de capacités similaires, ouvrant la voie à des modèles de base vidéo très pratiques et efficaces.
Les modèles génératifs standard en temps continu reposent sur des architectures monolithiques qui doivent naviguer dans des régimes de signal très différents, allant du bruit isotrope à des distributions de données complexes. Bien que l'augmentation de la capacité du modèle améliore les performances, déployer un réseau massif de manière uniforme sur toute la chronologie générative est fondamentalement inefficace. Dans ce travail, nous proposons le découpage à complexité équilibrée (CBS), un cadre théorique pour l'allocation temporelle de capacité qui répartit la charge de travail générative entre plusieurs sous-réseaux spécialisés. Ancré dans la théorie de l'approximation de fonctions et le principe d'équidistribution de de Boor, CBS partitionne la chronologie de diffusion en segments de charge d'approximation égale, allouant plus de capacité représentationnelle aux régions où la dynamique générative est plus difficile à modéliser. Pour estimer cette complexité locale, nous introduisons deux fonctions de surveillance complémentaires et traitables : une mesure spatiale basée sur l'énergie de Dirichlet du flux, et une mesure géométrique basée sur l'accélération des trajectoires d'échantillonnage. En utilisant un modèle auxiliaire léger pour estimer ces profils de complexité, notre approche élimine le besoin de divisions temporelles heuristiques ou de procédures de recherche coûteuses en calcul. Une évaluation approfondie sur plusieurs architectures (SiT, JiT et UNet) et jeux de données montre que CBS améliore systématiquement la qualité de la synthèse sans augmenter le coût d'inférence par étape. En particulier, CBS améliore le FID d'environ 35 % sur SiT-XL avec CFG par rapport au partitionnement temporel naïf. La page du projet est disponible à l'adresse https://noamissachar.github.io/CBS/.
L'internalisation de l'expérience convertit l'expérience contextuelle issue d'interactions passées en une capacité paramétrique réutilisable, offrant une voie prometteuse pour l'apprentissage continu dans les grands modèles de langage (LLMs). Alors que les travaux antérieurs se sont principalement concentrés sur un transfert en une seule itération, nous découvrons que, dans le cadre d'un apprentissage par expérience multi-itération, les méthodes existantes subissent un effondrement progressif des capacités plutôt qu'une amélioration cumulative. Nous examinons systématiquement cet échec à travers trois dimensions essentielles de l'internalisation de l'expérience : (1) Granularité de l'expérience : nous constatons que l'expérience au niveau des principes est plus durable que l'expérience au niveau des instances, car elle abstrait efficacement des stratégies transférables en s'affranchissant des détails spécifiques aux trajectoires. (2) Modèle d'injection de l'expérience : notre analyse révèle que l'injection par étapes surpasse significativement l'injection globale en alignant l'expérience sur les états décisionnels intermédiaires, une propriété cruciale pour l'utilisation d'outils à long horizon. (3) Régime d'internalisation : nous démontrons que la distillation de contexte hors politique sur des trajectoires d'enseignant de haute qualité fournit un signal d'entraînement nettement plus stable que la distillation de contexte sur politique, qui est intrinsèquement limitée par des corrections locales sur des états défectueux induits par l'élève. Ensemble, ces perspectives aboutissent à une recette simple mais robuste pour une internalisation stable et durable de l'expérience, offrant des orientations concrètes pour l'ingénierie de LLMs auto-évolutifs et en apprentissage continu.
Les ensembles de données existants pour la conduite autonome ont permis des progrès majeurs, mais ils présentent des lacunes en termes de fidélité des capteurs, d'exhaustivité des cartes ou de diversité géographique. Nous présentons KITScenes Multimodal, un ensemble de données européen construit autour de capteurs et de cartes haute fidélité. Notre suite de capteurs entièrement synchronisée combine des caméras global-shutter à haute résolution, un lidar longue portée dépassant 400 m, un radar d'imagerie 4D, et une localisation GNSS/INS redondante. Nos cartes haute définition (HD) sont, à notre connaissance, les plus complètes de tout ensemble de données de capteurs, validées par des essais de conduite autonome sur des logiciels open source. Pour la première fois dans un ensemble de données public, tous les éléments de circulation pertinents pour la conduite, tels que les feux de signalisation, sont cartographiés en 3D avec un niveau de précision de reprojection et une connectivité topologique complète. Enregistré dans des villes présentant des configurations de rues irrégulières et des modes de trafic mixtes, notre ensemble de données vient compléter les ensembles existants en élargissant la diversité géographique disponible. Nous introduisons également quatre benchmarks, chacun faisant progresser l'apprentissage spatial pour l'IA incarnée : la construction de cartes HD en ligne, l'estimation de profondeur à longue portée, la synthèse de nouvelles vues, et la conduite de bout en bout. Page du projet : https://kitscenes.com/
Les modèles de génération vidéo ont réalisé des progrès impressionnants dans la synthèse de contenus visuellement convaincants, mais leurs résultats restent confinés au domaine virtuel. Une question naturelle s’ensuit : dans quelle mesure ces modèles reflètent-ils le monde physique lorsque leurs vidéos générées quittent l’écran pour entrer dans la réalité ? Nous proposons la manipulation robotique comme une fenêtre concrète et mesurable sur cette question : si un modèle a véritablement internalisé les lois physiques, le mouvement qu’il représente devrait se traduire en un comportement robotique exécutable. Nous introduisons Dream.exe, un cadre d’évaluation qui opérationnalise ce critère via un pipeline vidéo-vers-exécution. À partir d’une image de scène et d’une description de tâche, Dream.exe synthétise une vidéo de manipulation, convertit le mouvement généré en trajectoires robotiques et les exécute dans un simulateur physique, produisant un signal d’ancrage que les métriques purement visuelles ne peuvent offrir. En utilisant ce pipeline, nous évaluons 8 modèles couvrant les générateurs propriétaires de pointe, les générateurs open-source et les modèles spécifiques aux robots. Notre benchmark comprend 101 tâches de manipulation soigneusement sélectionnées à trois niveaux de complexité physique, mesurées en termes de qualité visuelle, de fidélité des trajectoires et de succès d’exécution. Fait encourageant, plusieurs modèles obtiennent un succès d’exécution mesurable, suggérant que les priors génératifs appris à partir de données à l’échelle d’Internet codent déjà des connaissances physiques significatives. Cependant, la qualité visuelle se révèle un mauvais prédicteur de l’exécutabilité, exposant ainsi une dimension de capacité des modèles que les évaluations visuelles standard ne capturent pas. Dream.exe sera open-sourcé à l’adresse https://github.com/showlab/Dream.exe.
L'augmentation de compétences au moment de l'inférence offre un moyen léger d'améliorer les agents d'analyse de données en injectant des connaissances procédurales réutilisables sans mettre à jour les paramètres du modèle. Cependant, découvrir des compétences efficaces pour l'analyse de données reste difficile, car une supervision fiable est coûteuse et les critères de succès varient selon les formats analytiques. Cela soulève la question clé de savoir comment découvrir des compétences d'analyse de données réutilisables à partir d'une seule exploration non étiquetée. Nous proposons DataCOPE, un cadre de découverte de compétences non supervisé guidé par un vérificateur pour les agents d'analyse de données. DataCOPE dérive des signaux de vérification à partir des trajectoires d'exploration et les utilise pour caractériser la qualité relative ou l'accord entre les trajectoires. Il coordonne de manière itérative un Agent d'Analyse de Données pour la génération de trajectoires, un Vérificateur Non Supervisé pour l'extraction de signaux, et un Gestionnaire de Compétences pour la distillation contrastive de compétences. Pour l'analyse de type rapport, nous instancions le vérificateur comme un Vérificateur de Liste de Contrôle Adaptatif qui dérive des critères spécifiques à la tâche, note les rapports par couverture vérifiable, et affine itérativement la liste de contrôle. Pour l'analyse de type raisonnement, nous l'instancions comme un Vérificateur d'Accord de Réponse qui regroupe les trajectoires par accord de réponse et utilise l'auto-cohérence comme signal auxiliaire. Nous évaluons DataCOPE sur l'analyse de type rapport de Deep Data Research et l'analyse de type raisonnement de DABStep. Dans les deux contextes, DataCOPE améliore constamment les performances sur les données de test par rapport aux références. En moyenne sur quatre configurations de modèle, DataCOPE améliore le score moyen de 9,71 % et 32,30 % respectivement sur les tâches de type rapport et de type raisonnement.
Les grands modèles de langage peuvent reproduire des données d'entraînement, mais les évaluations existantes de la mémorisation mesurent surtout si on peut les forcer à le faire, plutôt que si cela se produit en utilisation ordinaire. Nous introduisons PropMe, un cadre sensible à la propension pour l'évaluation de la mémorisation, qui oppose les attaques de capacité basées sur un préfixe aux évaluations non adverses. Nous proposons une transformation métrique qui, appliquée à des fonctions existantes, permet de créer des métriques de propension. Nous présentons également SimpleTrace, un pipeline de traçage léger construit sur infini-gram, qui attribue de manière déterministe les générations du modèle à des corpus d'entraînement à grande échelle et calcule des métriques de mémorisation verbatim, quasi-verbatim et transformées par propension. En évaluant deux modèles entièrement ouverts, Comma et DFM Decoder, sur deux ensembles de données, Common Pile et Dynaword, dans deux langues, nous constatons un écart constant entre capacité et propension : les attaques par préfixe génèrent des signaux de mémorisation nettement plus forts que les prompts génériques ou spécifiques à un ensemble de données, tandis que les scores de propension restent globalement faibles. Ainsi, les modèles peuvent révéler des données d'entraînement lorsqu'ils sont directement sollicités, mais le font rarement dans les contextes non adverses plus courants. Nous constatons également que DFM Decoder, pré-entraîné de manière continue à partir de Comma, présente une mémorisation et une propension à la mémorisation réduites pour Common Pile, confirmant que la capacité de mémorisation peut diminuer lorsque l'entraînement ultérieur met l'accent sur des données partiellement différentes. Nos résultats suggèrent – et nous encourageons – que les audits de mémorisation devraient rapporter à la fois l'extractabilité dans le pire des cas et la propension aux fuites ordinaires, afin d'obtenir une vision plus complète de ce phénomène.
La distillation sur politique (OPD) supervise l'élève uniquement dans l'espace de sortie en faisant correspondre les probabilités des tokens suivants. Ce paradime exclusivement centré sur la sortie présente deux limites : (1) la variance d'échantillonnage issue des estimations de Monte Carlo de la divergence KL sur de grands vocabulaires (par exemple, celui de Qwen, d'environ 150 000 tokens) persiste tout au long de l'entraînement, et (2) il traite l'enseignant comme une boîte noire, en rejetant tous les états cachés intermédiaires après la tête du modèle de langage. Nous proposons la distillation de représentations sur politique (OPRD), qui élève la distillation dans l'espace des états cachés en alignant les représentations de l'élève et de l'enseignant à travers des couches sélectionnées sur les mêmes déploiements, contournant entièrement la tête du modèle de langage. Théoriquement, l'OPRD élimine la variance d'échantillonnage et fournit une information structurelle plus riche par couche. Empiriquement, l'OPRD réduit l'écart entre l'élève et l'enseignant sur AIME 2024/2025 et AIMO, tandis que les baselines OPD dans l'espace de sortie plafonnent en dessous de l'enseignant. L'OPRD s'entraîne également 1,44 fois plus vite et utilise 54 % de mémoire en moins que l'OPD top-k. Code : https://github.com/ShenzhiYang2000/OPRD.
La sélection est une opération fondamentale dans l'édition interactive d'images. Pour être pratique, un utilisateur doit pouvoir spécifier et lever l'ambiguïté de la région de sélection souhaitée via des interactions textuelles ou par clic, et le système doit permettre de sélectionner non seulement des objets, mais aussi d'autres critères, comme les matériaux. La sélection basée sur les matériaux est précieuse pour des tâches telles que la retexturation de surfaces ou l'édition d'instances d'un matériau spécifique. Cependant, les méthodes de sélection existantes basées sur des modèles vision-langage (VLM) sont centrées sur les objets et ne supportent généralement qu'une seule modalité d'interaction, ce qui limite leur applicabilité. Dans ce travail, nous présentons donc Mask Any Object And Material (MAOAM), un cadre de sélection unifié qui permet une sélection précise au niveau des objets et des matériaux à la fois par interactions textuelles et par clic. MAOAM exploite un VLM doté d'une tête de segmentation pour produire des masques précis au pixel près à partir des prompts utilisateur : le VLM interprète l'intention de sélection de l'utilisateur (au niveau objet ou matériau) et encode les entités visuelles, les attributs et les relations spatiales, tandis que la tête de segmentation décode le token de sortie en un masque. Un défi clé est le manque de jeux de données de sélection de matériaux avec annotations textuelles. Nous proposons un pipeline de génération de données évolutive : nous collectons des images réelles et synthétiques avec des masques de matériaux, et exploitons les VLM pour générer des descriptions de matériaux riches en sémantique visuelle. Nous entraînons MAOAM avec un objectif multitâche couvrant la sélection par clic et par texte, ainsi qu'une tâche auxiliaire de VQA dérivée des descriptions de matériaux pour faciliter une compréhension plus approfondie des matériaux. Bien qu'entraîné avec des prompts unimodaux, notre modèle présente une amélioration émergente de la sélection lors de la combinaison de texte et de clics en inférence, permettant des flux de travail d'édition d'images flexibles. Les expériences démontrent des sélections précises et cohérentes sur divers objets, matériaux et scénarios d'interaction, soulignant la robustesse en pratique.
Le passage à l'échelle au moment de l'inférence est devenu une voie essentielle pour améliorer les performances des grands modèles de langage, mais leur déploiement en conditions réelles est contraint par des budgets de calcul stricts. Dans ce travail, nous formulons l'allocation du budget d'inférence comme un problème d'optimisation global sous contraintes, régi par des principes économiques. En modélisant l'utilité de raisonnement par requête à l'aide d'une fonction de sursaut décalée, nous dérivons une politique d'allocation optimale fondée sur un prix fictif global qui équilibre l'utilité marginale en situation de rareté des ressources. Sur la base de cette théorie, nous proposons CLEAR (Allocation d'équilibre d'utilité latente sous contraintes pour le raisonnement). Cette méthode effectue un abandon rationnel et réaffecte les ressources des requêtes insolvables vers les requêtes solubles proches de leurs seuils d'émergence. Des expériences approfondies sur plusieurs tâches de raisonnement avec différents flux de trafic montrent que CLEAR améliore significativement la frontière de Pareto entre le coût total en tokens et la précision moyenne. Dans les régimes de rareté des ressources, CLEAR atteint jusqu'à une amélioration d'un facteur 3 de la précision globale par rapport à une allocation uniforme.
La prédiction d'événements vidéo (VEP) exige que les modèles infèrent des états futurs non observés à partir d'indices vidéo partiels. Les MLLMs vidéo existants verbalisent généralement le raisonnement intermédiaire sur le futur dans l'espace textuel : une fois que les indices visuels sont verbalisés, les indices fins de mouvement, de géométrie et d'interaction peuvent être perdus, conduisant à des hallucinations plausibles mais visuellement non fondées. Nous présentons Future-L1, un cadre de raisonnement visuel latent entrelacé qui permet à un MLLM d'alterner entre des tokens linguistiques et des plages visuelles latentes continues lors du décodage autorégressif. Pour entraîner cette capacité, nous construisons Future-L1-50K en sélectionnant des exemples où les indices visuels futurs aident la prédiction et en alignant les états latents sur les embeddings des trames futures, puis en optimisant davantage les trajectoires latentes échantillonnées avec LA-DAPO, un objectif d'apprentissage par renforcement (RL) sensible au latent intégrant des récompenses contrastives de résultat et de diversité temporelle. Future-L1 atteint de nouveaux résultats de pointe sur les deux bancs d'essai : sur FutureBench, il améliore Qwen3-VL-8B de 61,0 à 85,4 et dépasse le précédent meilleur modèle Video-CoE de 10,4 points ; sur TwiFF-Bench, il améliore le score moyen de 2,44 à 3,04. Ces résultats suggèrent que le raisonnement vidéo orienté vers le futur bénéficie de la préservation des sémantiques visuelles intermédiaires dans l'espace latent plutôt que de traduire chaque étape de raisonnement en texte.
Nous proposons les modèles monde-langage-action (WLA) comme une nouvelle classe de modèles fondamentaux incarnés. WLA prend en entrée des instructions textuelles, des images et des états du robot pour prédire conjointement des sous-tâches textuelles, des images d'objectifs intermédiaires et des actions du robot, combinant l'interface de modélisation du monde pour apprendre à partir de vidéos égocentriques étendues, comme dans le modèle monde-action (WAM), et les capacités de raisonnement linguistique pour résoudre des tâches complexes à long horizon, comme dans les modèles vision-langage-action (VLA). Au cœur de WLA se trouve un transformateur autorégressif (AR) comme colonne vertébrale, au lieu d'un transformateur de diffusion bidirectionnel comme dans les WAM, afin de prédire l'état suivant, comprenant l'intention textuelle au niveau sémantique et la dynamique physique fine complémentaire. La dynamique physique est supervisée par l'objectif de modélisation du monde basé sur un Expert Monde dédié, et est exploitée pour faciliter la caractérisation de la corrélation état-action pour l'Expert Action. WLA utilise des méta-requêtes pour faire en sorte que la prédiction du monde influence implicitement la génération d'actions, de sorte que la première puisse être désactivée lors de l'inférence. La prédiction du monde peut également être activée pour permettre un passage à l'échelle au moment du test afin d'améliorer le contrôle du robot. Notre prototype WLA-0, avec 2 milliards de paramètres actifs, atteint 40 ms par inférence sur un NVIDIA RTX 5090. Les évaluations dans des environnements simulés et réels démontrent que WLA-0 atteint des capacités d'apprentissage multitâche et à long horizon de pointe, par exemple un taux de réussite de 92,94 % sur RoboTwin2.0 Clean et de 56,5 % sur RMBench. WLA-0 promet également d'apprendre de nouvelles tâches directement à partir de vidéos de robots inter-embodiments sans annotations d'actions.
Les agents LLM à mémoire augmentée abordent des tâches complexes à long horizon en résumant récursivement les trajectoires d'interaction en une mémoire compacte. Cependant, les approches existantes entraînent généralement ces politiques de mémoire par apprentissage par renforcement basé sur les résultats, sans parvenir à localiser où la qualité de la mémoire intermédiaire se dégrade. Au fur et à mesure que les interactions se déroulent, des résumés récursifs ambigus éliminent progressivement les informations pertinentes pour la tâche et introduisent un bruit sémantique. Cela exacerbe la déviation de la croyance, obscurcissant l'estimation par l'agent de l'état latent de la tâche et faisant finalement dérailler le raisonnement à long horizon. Nous soutenons donc que l'optimisation de la mémoire ne devrait pas se concentrer uniquement sur le succès au niveau de la trajectoire, mais sur la clarté de la croyance induite par les résumés intermédiaires. À cette fin, nous introduisons l'entropie de croyance (Belief Entropy), un proxy auto-supervisé qui sonde l'incertitude persistante du modèle concernant l'état latent de la tâche étant donné sa mémoire actuelle. Sur la base de ce proxy, nous proposons l'optimisation de la politique de mémoire métacognitive (MMPO). Au lieu de se fier uniquement à des signaux épars basés sur les résultats, MMPO fournit une supervision fine et spécifique à la mémoire en pénalisant explicitement les résumés qui induisent une incertitude épistémique élevée. Les expériences montrent que MMPO surpasse systématiquement les méthodes existantes sur diverses tâches à long horizon, maintenant des performances de 97,1 % même lorsqu'il est étendu à des contextes de 1,75 million de tokens.
L'ancrage temporel (Temporal Grounding, TG) vise à localiser des segments vidéo correspondant à une requête textuelle. Les recherches antérieures se concentrent principalement sur l'extraction d'un seul segment. Cependant, les scénarios réels nécessitent souvent de localiser plusieurs segments disjoints pour une seule requête – une configuration que nous appelons l'ancrage temporel un-à-plusieurs (One-to-Many Temporal Grounding, OMTG). Les modèles de langage multimodaux de grande taille (MLLM) les plus performants jusqu'à présent, optimisés pour des configurations un-à-un, peinent dans ce contexte, obtenant souvent des scores proches de zéro en raison d'un manque de perception de la cardinalité des événements. Pour combler cette lacune, nous présentons une solution systématique avec trois contributions clés. Premièrement, nous établissons le premier benchmark exhaustif pour l'OMTG, en introduisant la Précision du comptage (Count Accuracy, C-Acc) et le F1 temporel effectif (Effective Temporal F1, EtF1) comme métriques d'évaluation. Deuxièmement, nous constituons un ensemble de données OMTG de haute qualité comprenant 56 000 échantillons via un pipeline de construction sophistiqué. Troisièmement, nous développons de nouvelles fonctions de récompense temporelle et de légende spécifiquement conçues pour l'OMTG. En particulier, la récompense de légende exploite le raisonnement par chaîne de pensée (Chain-of-Thought) sur des légendes vidéo denses pour guider explicitement l'optimisation de la politique vers à la fois la précision et l'exhaustivité. Des expériences approfondies montrent que notre modèle atteint un nouvel EtF1 de pointe de 43,65 % sur le benchmark OMTG, surpassant Gemini 2.5 Pro et Seed-1.8 de 15,85 % et 15,61 % respectivement.
Les agents de grands modèles de langage (LLM) sont de plus en plus utilisés pour des tâches à long horizon telles que la découverte scientifique et l'ingénierie de l'apprentissage automatique (MLE), où l'auto-évolution soutenue devient une capacité clé. Cependant, les agents MLE existants souffrent d'une isolation des informations entre branches, d'une recherche sans mémoire et d'un manque de contrôle hiérarchique, ce qui entrave l'optimisation à long horizon. Nous présentons MLEvolve, un framework multi-agents auto-évolutif basé sur LLM pour la découverte de bout en bout d'algorithmes d'apprentissage automatique. En étendant la recherche arborescente au MCGS progressif, MLEvolve permet un flux d'informations entre branches via des arêtes de référence basées sur un graphe et fait progressivement passer la recherche d'une exploration large à une exploitation ciblée grâce à un planning progressif inspiré de l'entropie. Pour permettre à l'agent d'évoluer avec l'expérience accumulée, nous introduisons la Mémoire Rétrospective, qui combine une base de connaissances de domaine à froid avec une mémoire globale dynamique pour la récupération et la réutilisation d'expériences spécifiques à une tâche. Pour une itération stable à long horizon, nous dissocions en outre la planification stratégique de la génération de code avec des modes de codage adaptatifs. L'évaluation sur MLE-Bench montre que MLEvolve atteint des performances de pointe sur plusieurs dimensions, notamment le taux de médailles moyen et le taux de soumissions valides sous un budget de 12 heures (la moitié du temps d'exécution standard). De plus, MLEvolve surpasse également les méthodes spécialisées de découverte d'algorithmes, dont AlphaEvolve, dans les tâches d'optimisation d'algorithmes mathématiques, démontrant une forte généralisation inter-domaines. Notre code est disponible sur https://github.com/InternScience/MLEvolve.
La vidéo est temporellement redondante : les images adjacentes partagent généralement la plupart des objets, de l'arrière-plan et de la disposition. Pourtant, les modèles multimodaux de grands langages existants pour la vidéo (vidéo MLLM) encodent habituellement chaque image échantillonnée comme une image RVB indépendante, ce qui fait que les jetons visuels répètent un contenu déjà présent dans les images antérieures. Cela suggère une interface vidéo plus directe : n'envoyer une image de référence complète que lorsque la scène ne peut être correctement prédite à partir du contexte antérieur, et autrement transmettre une description compacte des changements entre images. Nous appelons cette interface un code visuel prédictif, et nous l'instancions pour les vidéo MLLM sous le nom d'AdaCodec. AdaCodec alloue des jetons visuels complets à une image de référence uniquement lorsque son coût de prédiction conditionnel est élevé ; sinon, il encode les changements entre images, y compris le mouvement et les résidus de prédiction, sous forme de jetons P compacts. Sur l'ensemble des onze benchmarks, AdaCodec améliore la baseline RVB par image de Qwen3-VL-8B avec un budget de jetons visuels équivalent. Même avec un budget réduit à 1/7, AdaCodec avec 32 000 jetons dépasse la baseline de 224 000 jetons sur tous les benchmarks de vidéos longues ; sur cinq benchmarks de vidéos générales, il augmente le score moyen tout en réduisant considérablement le temps avant le premier jeton, de 9,26 s à 1,62 s.
L'optimisation des prompts système améliore le comportement des agents sans modifier le modèle sous-jacent, produisant des instructions lisibles par l'humain et indépendantes du modèle. Les méthodes existantes construisent un agent de prompt qui affine les prompts système des agents de tâche, mais laissent le propre prompt système de l'agent de prompt conçu manuellement et figé. Nous proposons l'Optimisation Auto-évolutive des Prompts (SePO), qui traite le prompt système de l'agent de prompt comme une cible d'optimisation au même titre que les prompts système des agents de tâche. SePO adopte une conception autoréférentielle. Un unique agent de prompt améliore à la fois les prompts système des agents de tâche et le sien propre, dans le cadre d'une recherche évolutionnaire ouverte qui maintient une archive de prompts candidats comme pierres de gué. L'apprentissage se déroule en deux étapes : le pré-entraînement fait évoluer l'agent de prompt sur un ensemble de tâches multiples, puis le fine-tuning l'applique à une tâche cible. Sur cinq benchmarks couvrant les mathématiques (AIME'25), le raisonnement abstrait (ARC-AGI-1), les sciences de niveau supérieur (GPQA), la génération de code (MBPP) et les puzzles logiques (Sudoku), SePO surpasse systématiquement Manual-CoT, TextGrad et MetaSPO, améliorant la précision moyenne de 4,49 points par rapport à Manual-CoT. La compétence d'optimisation des prompts issue du pré-entraînement se généralise également à des tâches qui ne font pas partie du mélange de pré-entraînement, plutôt que de mémoriser des prompts par tâche.
Les grands modèles de langage multimodaux (MLLMs) excellent dans la compréhension sémantique 2D mais manquent de conscience 3D intrinsèque, ce qui conduit à des représentations qui ne parviennent pas à maintenir une cohérence géométrique et spatiale entre les trames vidéo. Compte tenu de la rareté des données 3D à grande échelle, nous présentons GeoVR, un nouveau cadre qui apprend des représentations géométriques en utilisant uniquement des séquences vidéo 2D. Cette approche restructure efficacement l'espace latent sémantique au sein des MLLMs pour libérer l'intelligence spatiale. Plutôt que d'utiliser un mélange superficiel de caractéristiques, GeoVR remodèle les représentations internes du MLLM en distillant les connaissances géométriques de modèles de base 3D pré-entraînés. Ceci est accompli grâce à une stratégie d'apprentissage multi-objectifs pilotée par quatre cibles géométriques complémentaires : (1) l'estimation des poses de caméra inter-trames pour intégrer la dynamique des points de vue variables, (2) la régression de cartes de profondeur denses pour ancrer les distances physiques, (3) la prédiction d'un facteur d'échelle métrique pour l'étalonnage dans le monde réel, et (4) la distillation de caractéristiques 3D multi-échelles pour aligner l'espace de caractéristiques intermédiaire. Guidées par ces contraintes physiques et géométriques explicites, les représentations internes du modèle développent naturellement une forte conscience 3D. Des expériences approfondies sur des benchmarks de raisonnement spatial démontrent que GeoVR atteint des performances de pointe, établissant un nouveau paradigme pour doter les modèles de base d'intelligence spatiale.
La reconnaissance automatique de la parole (ASR) est devenue une technologie clé pour l'interaction humain-IA. Cependant, l'ASR avec alternance codique (CS-ASR) reste particulièrement difficile en raison de la grave pénurie de ressources vocales multilingues en alternance codique pour diverses paires de langues. Les approches existantes améliorent principalement les performances du CS-ASR via la génération synthétique de parole en alternance codique ou un réglage fin spécifique à chaque paire sur des ensembles de données bilingues limités. Néanmoins, ces approches sont confrontées à une limitation inhérente de scalabilité, car le support de l'alternance codique doit être développé séparément pour chaque paire de langues, dont le nombre croît de manière combinatoire avec le nombre de langues supportées. Dans ce travail, nous étudions si les capacités d'alternance codique apprises à partir d'un ensemble limité de paires de langues observées peuvent se généraliser à des paires de langues non observées par des méthodes de fusion de modèles et de généralisation de domaine. Nos expériences montrent que les modèles CS-ASR bilingues fusionnés se généralisent modestement à des paires de langues non observées, ce qui suggère un transfert limité des capacités d'alternance codique bilingue entre différentes paires de langues.
Les modèles Vision-Langage-Action (VLA) exploitent la riche connaissance du monde des modèles vision-langage pré-entraînés (VLM) pour permettre la manipulation robotique suivant des instructions. Cependant, le décalage structurel entre les espaces sémantiques des VLM et les politiques de contrôle incarné entrave souvent l'apprentissage de correspondances précises perception-action. Pour relever ce défi, nous proposons AffordanceVLA, un cadre unifié qui introduit la prévision structurée d'affordance comme représentation intermédiaire orientée tâche afin d'établir une correspondance perception-action plus précise et robuste. Plus précisément, nous modélisons progressivement les a priori de manipulation à travers trois composants complémentaires : 1) Which2Act pour l'ancrage centré sur l'objet via la prédiction latente visuelle afin de supprimer les distractions ; 2) Where2Act pour la localisation d'interaction 2D via l'estimation de carte d'affordance ; et 3) How2Act pour le raisonnement géométrique 3D guidant les politiques de manipulation. Ces indices d'affordance fournissent des représentations intermédiaires spatialement ancrées, sémantiquement conditionnées et couplées aux actions, faisant ainsi naturellement le pont entre vision, langage et action. Nous intégrons ces modules dans une architecture Mixture-of-Transformers (MoT) avec des experts spécialisés et entraînons le modèle en trois étapes avec un curriculum de données progressif. Pour pallier le manque d'annotations d'affordance denses dans les ensembles de données robotiques, nous développons également un pipeline robuste d'augmentation automatique des données. Des expériences approfondies en simulation et dans le monde réel montrent qu'AffordanceVLA atteint des performances solides dans divers scénarios de manipulation.
Les modèles monde-action (WAMs) génèrent conjointement des vidéos et actions robotiques futures par diffusion itérative, obtenant des performances élevées sur les benchmarks de manipulation mais nécessitant des dizaines d'étapes de débruitage, un coût qui exclut le contrôle en temps réel. La distillation d'étapes est apparue comme le remède naturel, mais les méthodes prêtes à l'emploi échouent dans le cadre conjoint vidéo-action car les flux vidéo et action utilisent des calendriers de bruit décalés en SNR différents et atteignent l'entraînement avec des distributions de bruit marginales sensiblement différentes, une asymétrie que les méthodes de distillation unimodales ne peuvent pas prendre en compte. Nous introduisons Flash-WAM, un cadre de distillation d'étapes conscient des modalités inspiré de la distillation de cohérence, qui sélectionne la fonction de cohérence pour chaque modalité afin de correspondre à son régime de bruit : une paramétrisation à mise à l'échelle linéaire du gradient pour le régime de faible bruit du flux d'action, associée à une paramétrisation préservant la variance pour le régime de bruit élevé du flux vidéo, fondée sur une analyse structurelle de la famille des fonctions de cohérence qui caractérise la mise à l'échelle du gradient réalisable sous la condition limite de cohérence. Instancié sur LingBot-VA, Flash-WAM comprime l'inférence en une seule étape pour chaque modalité. Sur RoboTwin 2.0, cela réduit la latence par segment de 8,1 secondes à 348 ms sur NVIDIA L40S, soit une accélération de 23× permettant une inférence en temps réel. Flash-WAM préserve le succès des tâches sur les benchmarks de simulation (85,5 % RoboTwin 2.0, 95,7 % LIBERO) et récupère substantiellement les performances réelles (60 % en moyenne sur un robot humanoïde Unitree G1), tandis que la distillation de cohérence naïve chute à 24 % avec le même budget d'étapes.
Dans les systèmes robotiques, de vastes quantités de données visuelles sont facilement capturées à haute résolution à l'aide de matériel peu coûteux et de faible puissance. Pourtant, la bande passante limitée et les ressources de calcul embarqué empêchent une utilisation complète lorsqu'elles sont transmises via des codecs conventionnels comme JPEG/MPEG. Les codecs plus récents, tels que AV1/AVIF, améliorent le compromis débit-distorsion, mais exigent beaucoup plus de ressources pour l'encodage, ce qui les rend impraticables sans ASIC dédiés. Les autoencodeurs asymétriques récents offrent une haute qualité sous des contraintes extrêmes de puissance et de bande passante, mais ajoutent un coût de décodage prohibitif et utilisent des formats propriétaires qui ignorent des décennies d'infrastructure construite autour de normes comme JPEG. Pour pallier ces limitations, nous introduisons un cadre de compression pour la robotique cloud basé sur un autoencodeur intégré au capteur associé à un transcodage unique pour une reconstruction efficace (SEAOTTER). Étant donné que les étapes du capteur, du cloud et du consommateur font face à des budgets de puissance et de bande passante très différents, SEAOTTER combine la compacité d'un latent appris avec la large utilisabilité d'un fichier JPEG standard. Comme un transcodage naïf dégrade les performances, nous proposons une transformation apprenable des couleurs et de la quantification JPEG, permettant une précision accrue pour la perception globale, dense et basée sur le langage visuel. Avec SEAOTTER, nous entraînons des pipelines de transcodage à la fois polyvalents et conscients de la tâche pour un encodeur pré-entraîné et figé. À un taux de compression de 200:1 et comparé à AVIF, nous observons un encodage 7 fois plus rapide, un décodage 3,5 fois plus rapide et une précision top-1 sur ImageNet améliorée de +8 %, tout en conservant la compatibilité avec l'infrastructure JPEG. Notre code est disponible sur https://github.com/UT-SysML/seaotter.
Les modèles de langage multimodaux de grande taille (MLLM) ont démontré des performances significatives dans les tâches générales de réponse à des questions visuelles (VQA). Cependant, ils restent fragiles face aux dessins d'ingénierie mécanique, où une forte densité d'annotations et une connaissance limitée du domaine, aggravées par un raisonnement peu fiable sur les relations spatiales dans le cadre de règles de projection strictes et de contraintes géométriques, rendent les indices décisifs difficiles à repérer et conduisent fréquemment à des réponses erronées. Pour combler cette lacune, nous introduisons le premier ensemble de données complet pour la compréhension de dessins mécaniques, MechVQA, créé via un pipeline de construction semi-automatisé et de contrôle qualité. MechVQA contient 3 300 images à haute densité avec 21 000 paires questions-réponses, couvrant 10 tâches fines différentes réparties sur trois niveaux de capacité : Reconnaissance, Raisonnement et Jugement, offrant ainsi un banc d'essai pour évaluer et améliorer la compréhension des dessins mécaniques réels par les MLLM. À partir de MechVQA, nous développons ensuite le modèle MechVL via un paradigme d'entraînement en plusieurs étapes, établissant une base de référence solide spécialisée dans le domaine. Des résultats expérimentaux approfondis montrent que MechVL surpasse la meilleure base de référence à source fermée de 7,57 points de pourcentage sur le score total de MechVQA, améliorant significativement la capacité de compréhension des dessins mécaniques et fournissant une base réutilisable pour le déploiement des MLLM dans des scénarios de conception et d'inspection mécaniques.
Les grands modèles de langage sont de plus en plus utilisés pour simuler des utilisateurs de médias sociaux et inférer la manière dont les individus pourraient réagir à des discussions en ligne. Cependant, il n'est pas clair si ces simulations reflètent des croyances précises et spécifiques à chaque utilisateur ou si elles sont très sensibles à des modifications sémantiquement indépendantes du contexte conversationnel. Dans ce travail, nous étudions la révision de contexte contrefactuelle comme cadre pour auditer la simulation de positions basée sur les modèles de langage de grande taille. Étant donné une conversation en ligne originale, nous inférons d'abord la position d'un utilisateur cible sur un sujet spécifique. Nous appliquons ensuite des stratégies de révision contrôlées au contexte conversationnel et simulons à nouveau la position de l'utilisateur dans le contexte révisé. Nous comparons des stratégies de révision purement textuelles avec une stratégie multimodale intégrant un contexte basé sur des mèmes, et évaluons deux métriques d'efficacité principales, à savoir le décalage directionnel moyen de la position et le taux de transition de position. Les résultats révèlent des transitions de position efficaces et robustes, tant dans les stratégies purement textuelles que multimodales, à travers différents mécanismes de préférence de polarisation. Notre étude contribue à un cadre d'évaluation pour comprendre la sensibilité au contexte de la simulation de positions basée sur les grands modèles de langage. Plus largement, elle met en lumière à la fois les promesses et les risques liés à l'utilisation de ces modèles pour simuler les dynamiques d'opinion en ligne.
Les grands modèles de langage améliorent souvent le raisonnement en générant une chaîne de pensée (CoT) explicite, démontrant ainsi l'importance du calcul intermédiaire. Cependant, la CoT textuelle contraint ce calcul à un flux de tokens discret, séquentiel et orienté vers la communication : chaque étape de raisonnement doit être verbalisée avant que le modèle puisse poursuivre, même lorsque la mise à jour sous-jacente est sémantique, incertaine ou seulement partiellement formée. Le raisonnement latent offre une alternative à plus large bande passante en effectuant un calcul intermédiaire dans des états continus compacts avant de s'engager dans le texte. Pourtant, les méthodes existantes de raisonnement latent sacrifient souvent des avantages clés qui rendent la CoT efficace dans les modèles de langage autorégressifs, notamment la génération native de gauche à droite, l'échantillonnage probabiliste, la compatibilité avec le décodage par cache KV et l'estimation de vraisemblance tractable. Nous proposons NF-CoT, un cadre de raisonnement latent qui préserve ces avantages en modélisant les pensées continues avec des flots normalisants. NF-CoT instancie un flot normalisant de type TARFlow au sein du backbone du LLM, définissant un modèle de probabilité tractable sur des pensées continues compactes distillées à partir de la CoT explicite. Les positions de pensée continue sont générées par une tête NF, tandis que les positions textuelles sont générées par la tête LM standard dans le même flux causal. Cette conception fournit des vraisemblances exactes pour les pensées latentes, permet un décodage probabiliste de gauche à droite avec le cache KV d'origine et prend en charge l'optimisation directe par gradient de politique dans l'espace de raisonnement latent. Sur les benchmarks de génération de code, NF-CoT améliore les taux de réussite par rapport à la CoT explicite et aux bases de référence de raisonnement latent antérieures, tout en réduisant considérablement le coût de raisonnement intermédiaire.
Les progrès récents des agents fondés sur les grands modèles de langage (LLM) ont permis des avancées prometteuses en science des données automatisée. Cependant, les approches existantes restent fondamentalement limitées par leurs ensembles d'actions statiques et l'absence d'une gestion de contexte à long terme fondée sur des principes, ce qui entrave leur capacité à accumuler une expérience réutilisable d'une tâche à l'autre et à fonctionner de manière fiable dans des pipelines de science des données itératifs et multi-étapes. Pour relever ces défis, nous présentons EvoDS, un agent de science des données autonome et auto-évolutif qui apprend à étendre ses compétences et à gérer de manière adaptative le contexte à long terme grâce à l'apprentissage par renforcement agentique. Plus précisément, EvoDS introduit deux stratégies clés : (1) un mécanisme d'acquisition autonome de compétences (ASA), permettant aux agents de synthétiser, valider et réutiliser des compétences exécutables ; et (2) une stratégie de compression adaptative du contexte (ACC), qui traite la gestion du contexte comme un problème de contrôle appris plutôt que comme une troncature passive. Ces stratégies sont orchestrées dans un schéma d'entraînement multi-agents en deux étapes, permettant à EvoDS de s'améliorer de manière autonome au fil du temps. Théoriquement, nous prouvons que la conception hiérarchique d'EvoDS réduit l'erreur de sélection d'outils, et que son objectif d'optimisation s'aligne sur un principe de goulot d'étranglement informationnel, garantissant une utilisation efficace du contexte. Empiriquement, EvoDS surpasse en moyenne de 28,9 % les agents de science des données open source de pointe sur quatre jeux de données de référence diversifiés, tout en éliminant les échecs liés au dépassement de limite de tokens. Notre code et nos données sont disponibles à l'adresse https://github.com/usail-hkust/EvoDS.
Une requête située comme « où est Lin Wei ? » dépasse souvent son contenu littéral : l’utilisateur peut également vouloir savoir si Lin Wei est disponible, de bonne humeur, ou s’il vaut la peine d’être interrompu maintenant. Les agents standards utilisant des outils répondent à la question littérale et s’arrêtent. AURA insère une étape d’inférence entre la perception de la scène et l’utilisation des outils, produisant un IntentFrame : une estimation structurée du besoin implicite avec un score d’écart scalaire qui contrôle le budget de sondage par requête et la sélection des outils. Sur un banc d’essai de 100 requêtes réparties sur quatre scènes avec intention implicite, AURA améliore la couverture des besoins implicites par rapport au sondage de type ReAct (Delta = +0,07, p < 10^-6) ; trois des quatre scènes sont individuellement significatives, le gain se reproduit sur un deuxième modèle de base, et une ablation des invites attribue l’amélioration à l’étalonnage de l’écart plutôt qu’à la mémorisation des réponses. Pour les recherches factuelles, le contrôleur échange une précision brute contre 82 % de sondages en moins et zéro violation d’outil interdit sur un sous-ensemble sensible à la vie privée ; les conditions de validité sont détaillées dans la section Limitations. Le code, le simulateur et le banc d’essai sont publiés à l’adresse https://github.com/innovation64/AURA.
La conduite autonome nécessite un raisonnement sur la manière dont les actions de l'ego façonnent l'évolution du monde environnant. Cependant, la plupart des méthodes de bout en bout reposent sur des correspondances directes état-action, capturant des corrélations sans modéliser explicitement la dynamique conditionnée par les actions. Inversement, les modèles du monde à latents continus manquent souvent de structure compositionnelle pour un raisonnement causal à travers des futurs contrefactuels. Nous présentons Discrete-WAM, une politique mondiale unifiée vision-action latente qui représente les états visuels futurs et les actions de l'ego comme des jetons discrets alignés, permettant un raisonnement causal compositionnel à travers des futurs alternatifs. Construit sur cet alignement discret unifié, Discrete-WAM établit un cadre de diffusion discrète partagé avec des tâches génératives unifiées, formulant conjointement la modélisation du monde, la politique monde-action et la politique hiérarchique activée par décision, soutenant la généralisation compositionnelle à travers divers scénarios de conduite. Les expériences sur des bancs d'essai de conduite autonome à grande échelle montrent que Discrete-WAM atteint des performances compétitives tout en soutenant la génération contrôlable et le raisonnement contrefactuel, offrant une voie structurée vers une prise de décision plus fiable.
L'édition d'images basée sur la diffusion a atteint une forte fidélité visuelle sous instructions en langage naturel, mais la plupart des systèmes existants fonctionnent encore au niveau d'un suivi superficiel des instructions, sans raisonner sur les contraintes contextuelles implicites intégrées dans les demandes réelles des utilisateurs. Cela conduit souvent à des modifications visuellement plausibles mais logiquement incohérentes. Dans ce travail, nous présentons RE-Edit, un benchmark pour l'édition d'images tenant compte du raisonnement, qui évalue les systèmes d'édition d'images selon cinq dimensions de raisonnement complémentaires : physique, environnementale, culturelle, causale et référentielle. RE-Edit comprend 1 000 échantillons soigneusement sélectionnés, chacun conçu de sorte que la seule plausibilité visuelle soit insuffisante et qu'une édition correcte nécessite de satisfaire des contraintes logiques implicites. Pour soutenir une analyse fine, nous établissons des critères d'évaluation alignés sur les dimensions et réalisons une étude exhaustive de dix modèles d'édition d'images open source et deux modèles commerciaux. Nos résultats montrent que même les systèmes avancés peinent souvent avec le raisonnement multidimensionnel implicite, malgré une production d'images de haute qualité. Nous présentons en outre une baseline légère de post-édition guidée par le raisonnement comme exploration initiale, illustrant comment l'insertion d'un raisonnement explicite peut aider à atténuer ces échecs de manière indépendante du modèle.
L'apprentissage par renforcement hors politique de politiques de flux pré-entraînées reste difficile en raison de l'instabilité de l'optimisation découlant du processus d'échantillonnage en plusieurs étapes. Récemment, l'Apprentissage Q avec Appariement Adjoint (QAM) a résolu ce problème en reformulant le problème en un problème de contrôle stochastique optimal (SOC) sans mémoire avec un critique appris. Cependant, le QAM hérite d'une fragilité fondamentale de l'amélioration guidée par le critique : de petites erreurs du critique sont amplifiées lorsque les critiques sont mal conditionnés, conduisant souvent à un effondrement du modèle. Cet article présente l'Appariement Q-Adjoint avec Région de Confiance (TRQAM), un algorithme stable de fine-tuning hors politique qui contrôle adaptativement la KL sur l'espace des trajectoires avec des politiques de flux pré-entraînées via une descente duale projetée. Plus précisément, nous optimisons le paramètre de région de confiance λ dans la dynamique SOC, et montrons théoriquement que la KL sur l'espace des trajectoires peut être représentée par une fonction de forme fermée de λ. En conséquence, notre méthode peut contrôler précisément l'écart exact par rapport aux politiques de flux pré-entraînées, réalisant un RL hors politique stable. À travers des expériences sur 50 tâches OGBench, TRQAM surpasse constamment les travaux antérieurs à la fois en RL hors ligne et en RL hors ligne vers en ligne. En particulier, TRQAM atteint un taux de réussite global de 68% en RL hors ligne, améliorant substantiellement la meilleure baseline qui est à 46%.
Dans cet article, nous étudions la minimisation du regret dans des jeux répétés avec des adversaires adaptatifs capables de répondre en fonction de l'historique des interactions. Il est connu que la mesure standard du regret externe en apprentissage en ligne échoue à capturer cette adaptativité. Pour prendre en compte le raisonnement contrefactuel des joueurs, nous introduisons le {\tt Regret de Politique Répétée (RP-Regret)}, une mesure issue de la théorie des jeux qui évalue la différence entre l'utilité accumulée réalisée et la meilleure utilité a posteriori, lorsque tous les joueurs peuvent répondre à l'historique des interactions. Comparée aux notions de regret existantes dans ce cadre, la nôtre est propre aux jeux répétés, permettant des comparateurs plus forts et des adversaires soumis à moins de contraintes, tout en conservant la possibilité de trouver de meilleurs équilibres lorsque tous les joueurs la minimisent. Nous identifions d'abord des conditions nécessaires pour obtenir un {\tt RP-Regret} sous-linéaire dans le temps, portant sur la variation des stratégies de comparateur du joueur dans la définition du regret ainsi que sur les mémoires du comparateur et des stratégies adverses. Nous étudions ensuite des conditions supplémentaires et des algorithmes prouvables pour minimiser le {\tt RP-Regret}, qui est par définition non convexe dans l'espace des stratégies. Pour relever ce défi, nous proposons trois algorithmes : (i) un algorithme basé sur un oracle d'optimisation, comme supposé dans certains travaux antérieurs en apprentissage non convexe en ligne ; (ii) un algorithme qui minimise à chaque itération un surrogate convexe et linéarisé du {\tt RP-Regret} ; (iii) un algorithme qui minimise directement le {\tt RP-Regret} lorsque les adversaires changent lentement de stratégie. De plus, lorsque tous les joueurs peuvent exécuter des algorithmes pour minimiser le {\tt RP-Regret} (ou sa variante linéarisée), certains équilibres parfaits en sous-jeux du jeu répété peuvent être appris. Nous présentons également des expériences montrant que la minimisation de nos notions de regret peut conduire à des solutions plus coopératives offrant une utilité plus élevée dans des jeux tels que la Chasse au cerf.
Les benchmarks sont fondamentaux pour évaluer et faire progresser les LLM et les MLLM en fournissant des mesures standardisées et explicites de la performance. Cependant, leur construction est intensive en main-d'œuvre et difficile à réutiliser, ce qui suscite des préoccupations quant à la durabilité et à l'évolutivité. De plus, les benchmarks existants atteignent souvent rapidement une saturation des performances après leur publication, entraînant une discrimination insuffisante entre les modèles de pointe. Pour relever ces défis, nous présentons Benchmark Agent, un système agentique entièrement autonome conçu pour la construction de benchmarks. Notre cadre orchestre le pipeline complet de construction de benchmarks, de l'analyse des requêtes utilisateur et de la conception de sous-tâches à l'annotation des données et au contrôle qualité. Pour évaluer Benchmark Agent, nous l'implémentons pour produire 15 benchmarks représentatifs, couvrant divers scénarios d'évaluation, y compris la compréhension de texte, la compréhension multimodale et le raisonnement spécifique à un domaine. Des expériences approfondies, incluant une évaluation humaine, une évaluation par LLM en tant que juge et des vérifications de cohérence, démontrent que Benchmark Agent peut générer des échantillons de benchmark de haute qualité avec une implication humaine minimale. Plus important encore, grâce à une évaluation continue, nous observons plusieurs résultats éclairants, notamment que les modèles actuels rencontrent des difficultés avec certaines tâches de raisonnement spécifiques à un domaine. Nous pensons que des benchmarks en évolution rapide peuvent contribuer de manière significative à la communauté de recherche. L'aperçu et le code seront accessibles au public sur la page de démonstration et le dépôt de code.
Les grands modèles de langage présentent une fragilité paradoxale dans le calcul arithmétique fondamental, suggérant un décalage entre le calcul interne et la sortie discrète. En analysant la géométrie du flux résiduel lors d'additions à plusieurs opérandes, nous identifions la Trajectoire Iso-Somme-Brute (IRST), une structure géométrique où les représentations sont ancrées par des chiffres sémantiques et modulées par des fibres de retenue continues. Nous proposons le Modèle de Quantification Bruitée pour expliquer cette géométrie, en considérant les erreurs arithmétiques comme des Glissements Géométriques causés par du bruit neural interne poussant un Potentiel de Retenue latent et continu à travers des seuils de quantification. Ce cadre géométrique éclaire également la Versatilité des Sondes, expliquant comment des sondes légères peuvent démêler des signaux latents coexistants (tels que la vérité terrain par rapport à l'hallucination) à partir d'un seul vecteur d'activation. Enfin, nous validons ces perspectives par une méthode de vérification de cohérence géométrique qui détecte et corrige efficacement ces échecs de quantification lors de l'inférence. Notre code est disponible à l'adresse https://github.com/RL-MIND/Shape-of-Addition.
Les LLM agentiques avec recherche web modifient le modèle de menace pour l’anonymisation de texte : de faibles indices contextuels peuvent devenir des preuves référençables pour la ré-identification, tandis que ces mêmes détails conservent une valeur analytique en aval du texte. Les défenses existantes suppriment soit les identifiants explicites, perturbent le texte pour une confidentialité formelle, ou testent le texte réécrit contre des modèles d’inférence non web, laissant inexplorée la zone opérationnelle entre la résistance à la ré-identification par recherche web agentique et la rétention d’utilité. Nous présentons AURA (Anonymisation avec Adaptation de Rétention d’Utilité), un cadre de masquage-reconstruction piloté par LLM qui découple la localisation de la confidentialité de la reconstruction préservant l’utilité et sélectionne des candidats par des vérifications adversariales de confidentialité et de rétention d’utilité. Nous évaluons AURA sur des transcriptions d’entretiens d’utilisateurs réels en utilisant des attaques de ré-identification menées par des agents de recherche web, ainsi qu’une évaluation de l’utilité basée sur les faits de profil des interviewés, les faits du codebook et la grille d’utilité contextuelle conjointe. Nos résultats montrent qu’AURA améliore la frontière confidentialité-utilité en utilisant une portée adaptative de la confidentialité pour renforcer la résistance à la ré-identification agentique, et en employant une méthode d’anonymisation par masquage-reconstruction pour mieux préserver l’utilité contextuelle sous une portée de confidentialité fixe.
Le traitement de la vidéo dans les modèles vision-langage coûte cher : chaque image occupe des centaines de tokens et le coût d'inférence croît avec chaque image et chaque requête répétée. Nous présentons Video2LoRA, une méthode d'internalisation paramétrique de vidéo. Un hyperréseau percepteur lit les représentations intermédiaires produites couche par couche pendant qu'un VLM figé encode une vidéo, et génère un adaptateur Low-Rank Adaptation (LoRA) en un seul passage avant. Contrairement au fine-tuning LoRA standard, qui nécessite des mises à jour itératives par gradient, Video2LoRA prédit ces poids directement à partir de la vidéo. Entraîné pour SmolVLM2 500M et 2.2B sur le résumé et le sous-titrage de vidéos, Video2LoRA permet au même VLM figé de répondre aux requêtes à l'aide du seul adaptateur, avec zéro token visuel dans son contexte au moment de la requête. Video2LoRA est statistiquement non inférieur et équivalent à l'inférence directe vidéo-dans-le-contexte sur l'ensemble des cinq benchmarks de sous-titrage aux deux échelles de modèle, et sur sept des huit appariements benchmark-échelle de réponse à des questions vidéo. Bien qu'entraîné uniquement sur 12 images à 384 px, il reste stable jusqu'à 1 024 images et 1 024 px, où l'inférence directe vidéo-dans-le-contexte dégénère souvent. Sur l'ensemble de ce balayage, il réduit la charge de tokens visuels au moment de la réponse jusqu'à 1 500 fois et le TTFT des requêtes de 6 à 80 fois, tout en préservant des sorties fidèles à la vidéo. Nous constatons également que des adaptateurs générés indépendamment pour des segments vidéo non chevauchants peuvent composer dans l'espace de rang, ouvrant une voie vers l'internalisation de vidéos longues par segments.
Les agents IA financiers échouent souvent pour une raison simple : ils font porter la complexité aux utilisateurs. Un utilisateur doit sans cesse reformuler ses objectifs, préférences de risque, contexte de portefeuille, jugements passés et hypothèses de marché changeantes, tandis que l'agent répond, récupère, agit et oublie. En finance, cela n'est pas simplement gênant. Dans des tâches telles que l'analyse de marché, l'examen de copytrading et la préparation de transactions, un contexte oublié et une mémoire obsolète peuvent entraîner des latences, des erreurs répétées, une faible auditabilité et des décisions risquées. Nous proposons le harnais de connaissance natif de l'interaction (InKH), une architecture pour les agents LLM financiers qui absorbe la complexité dans le système. InKH convertit les événements utilisateur, de marché, de portefeuille et d'outil en connaissances opérationnelles structurées. Il utilise une injection passive de connaissances pour assembler un tampon de contexte de travail borné avant l'étape principale du modèle, une mémoire à graphe temporel pour une récupération à faible latence, une surface d'audit wiki pour une gouvernance lisible par l'humain, ainsi qu'une extraction en arrière-plan avec maturité, décroissance et invalidation au moment de l'écriture. Nous évaluons InKH sur un benchmark synthétique contrôlé reproductible avec 24 germes aléatoires, 4 tours, 80 épisodes par tour et 6 lignes de base, produisant 46 080 évaluations conditionnées par les lignes de base. InKH atteint une qualité moyenne des tâches de 0,815 pour une latence de 900 ms. Comparé à une mémoire de type wiki-walk pilotée par l'agent, il réduit la latence de 82,95 %, le coût en tokens de 82,29 % et l'utilisation de connaissances obsolètes de 96,58 %, tout en améliorant la qualité de 0,108 et la traçabilité de 0,461. Comparé à un système à graphe temporel sans invalidation, il améliore la qualité de 0,050 et réduit l'utilisation de mémoire obsolète de 96,58 % pour un coût de service comparable. Les résultats soutiennent une thèse de conception pour l'IA financière : l'adoption se produit lorsque la complexité est absorbée par le système plutôt que transférée à l'utilisateur. Le benchmark valide le comportement au niveau de l'architecture, et non les performances en trading réel.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est récemment devenu la pierre angulaire pour façonner les remarquables capacités de codage des grands modèles de langage (LLMs). Cependant, l'évolutivité du RLVR est sévèrement contrainte par la rareté de tâches de code vérifiables suffisamment difficiles ciblant les limites de compétence du modèle. Les études antérieures reposent souvent sur des expansions heuristiques de semences pour la synthèse de données, ce qui limite fortement à la fois la nouveauté et la difficulté. Par conséquent, la valeur d'entraînement de ces données ne parvient pas à s'adapter proportionnellement à la taille de leur synthèse. À cette fin, nous proposons la Décomposition Atomique et le Recombinaison (ADR), un cadre novateur qui génère des tâches de code vérifiables via une décomposition en éléments atomiques et une recombinaison contrôlée, permettant ainsi la génération de tâches de code vérifiables véritablement nouvelles et difficiles. Les expériences et analyses démontrent que l'ADR atteint une originalité, une difficulté, une diversité et une qualité de test supérieures par rapport aux bases de référence existantes, et apporte de manière constante des améliorations plus importantes dans les capacités de codage à travers le RLVR dans divers domaines en aval, notamment la programmation algorithmique, l'utilisation d'outils et la science des données. Notre travail éclaire un nouveau paradigme pour la synthèse de tâches de code inédites et l'entraînement RLVR évolutif.
Les systèmes de recommandation musicale traitent généralement les chansons comme des jetons opaques, s'appuyant sur des historiques d'interactions collaboratives qui négligent le contenu sémantique ou acoustique. Des travaux antérieurs ont exploré des approches augmentées par LLM, multimodales et enrichies par le texte pour la recommandation séquentielle, et bien que certaines méthodes combinent partiellement des signaux sémantiques, acoustiques ou d'engagement, aucune ne modélise conjointement les trois au sein d'un cadre de raisonnement séquentiel unifié basé sur LLM qui ancre les recommandations dans le contenu réel des chansons. Dans ce travail, nous proposons un cadre multimodal pour la recommandation musicale basée sur les sessions qui enrichit l'ensemble de données LastFM-1K avec trois signaux complémentaires : (1) des plongements audio et de paroles extraits à l'aide de modèles de représentation de musique et de texte pré-entraînés, (2) des métadonnées sémantiques générées par LLM en utilisant le schéma d'annotation MGPHot, et (3) des ratios d'écoute complète. Nous adoptons le cadre E4SRec en l'étendant avec des caractéristiques multimodales et différents backbones d'encodeur d'ID d'éléments, notamment SASRec, BERT4Rec et GRU4Rec. Nous étendons également l'option de backbone LLM avec LLaMa-2-13B, Qwen2.5-7B-Instruct et LLaMa-3-70B à la fois en mode zero-shot et en réglage fin. Nos expériences montrent que l'intégration de caractéristiques basées sur le contenu améliore les références basées uniquement sur les ID jusqu'à 95% en termes de Rappel et 79% en termes de NDCG. De plus, nos expériences montrent que la fusion multimodale naïve n'entraîne pas toujours des améliorations additives, soulignant les défis de l'intégration intermodale. Nous publions un benchmark multimodal à grande échelle pour la recommandation musicale.
Les grands modèles de langage sont de plus en plus déployés en tant qu'agents de codage, déplaçant la sécurité des réponses individuelles vers des séquences d'actions. Cependant, les référentiels existants évaluent principalement si les modèles refusent des invites dangereuses, laissant les impacts sur les espaces de travail avec état largement inexplorés. Nous présentons SABER, un référentiel pour la sécurité opérationnelle sensible à l'environnement qui place les modèles dans des projets réalistes de type agent et évalue la sécurité à partir de l'état final de l'environnement après une séquence d'actions. Au-delà des rapports binaires de violation de sécurité, SABER catégorise les violations par cause, permettant une analyse des profils de sécurité spécifiques aux modèles. Nos évaluations montrent que même le modèle le plus performant a un taux de violation de sécurité nuisible (HSR) supérieur à 54 %, suggérant que l'alignement actuel reste insuffisant pour des environnements de projet réalistes. SABER révèle en outre des profils de sécurité distincts entre les modèles. Notre référentiel est disponible publiquement à l'adresse https://github.com/sssr-lab/saber.
La recherche en IA nécessite souvent de prendre des décisions avant que des preuves futures n'existent : quel goulot d'étranglement attaquer, quelle direction poursuivre, ou où positionner un projet. Nous présentons ForeSci, un benchmark temporellement contrôlé pour évaluer si les agents LLM peuvent formuler de tels jugements de recherche prospectifs à partir de preuves historiques. ForeSci contient 500 tâches couvrant quatre domaines de l'IA en évolution rapide et quatre familles de décisions. Chaque tâche est associée à une base de connaissances hors ligne alignée sur une date limite ; les articles postérieurs à cette date sont masqués lors de la génération et utilisés uniquement pour la validation. Afin d'éviter une prédiction aléatoire d'événements futurs, les tâches sont dérivées de branches taxonomiques et de signaux de preuve antérieurs à la date limite, et les backbones de génération de réponses sont sélectionnés pour précéder cette date. Nous évaluons les LLM natifs, le RAG hybride et trois adaptations d'agents de recherche sur quatre backbones. Les résultats montrent qu'une organisation explicite des preuves améliore la traçabilité et le soutien factuel, mais que les gains dépendent fortement de la famille de décisions. Les diagnostics révèlent un découplage récurrent entre preuves et décisions : les agents peuvent citer des preuves pertinentes tout en prédisant le mauvais objet de recherche. ForeSci transforme le jugement prospectif en recherche en IA en un benchmark contrôlé pour évaluer les agents de recherche en tant que systèmes de prise de décision.
L'entraînement de modèles précis de segmentation d'images médicales nécessite de grandes quantités de données densément annotées, ce qui est coûteux et chronophage à obtenir. L'apprentissage semi-supervisé (SSL) atténue ce problème en apprenant à la fois à partir de données non étiquetées abondantes et de données étiquetées limitées. Cependant, la plupart des méthodes SSL modernes reposent sur des pseudo-étiquettes pour les données non étiquetées, et évaluent généralement leur fiabilité via la confiance ou l'incertitude du modèle, des mesures autoréférentielles qui manquent d'un ancrage explicite dans la qualité de la segmentation. Nous proposons plutôt un cadre SSL guidé par la qualité, qui entraîne un réseau dédié à estimer la qualité de la segmentation à partir de paires image-masque. Le prédicteur est entraîné sur des masques de qualité variable générés par des corruptions synthétiques, enrichis de sorties imparfaites de modèles de segmentation partiellement entraînés, capturant ainsi les schémas d'erreur réalistes rencontrés lors de l'entraînement. Nous intégrons le prédicteur de qualité dans le SSL via deux mécanismes complémentaires : une perte de régularisation sensible à la qualité et un schéma de repondération des échantillons basé sur la qualité des pseudo-étiquettes. Nous montrons que notre méthode sert d'amélioration intégrable aux cadres SSL existants. Des expériences approfondies sur cinq ensembles de données et plusieurs architectures démontrent des améliorations constantes par rapport aux méthodes SSL concurrentes, faisant progresser l'état de l'art en segmentation d'images médicales semi-supervisée.
L'apprentissage de représentations de modèles CAO est un problème largement ouvert. Alors que l'apprentissage de représentations 3D s'est développé autour des nuages de points et des maillages, le format natif de la CAO – les représentations de frontière (BReps), qui encodent les surfaces paramétriques exactes, les courbes et leur topologie – a reçu peu d'attention en tant que substrat pour l'apprentissage de représentations. Nous présentons BRepCLIP, le premier cadre alignant la géométrie BRep avec des plongements linguistiques et d'images via un pré-entraînement contrastif. Nous modélisons chaque objet CAO comme une séquence de tokens de faces et d'arêtes avec des vocabulaires discrets séparés pour la géométrie des surfaces et des courbes, enrichis de descripteurs spatiaux et sémantiques qui capturent les types de surfaces (par exemple, cylindrique, torique, NURBS) et les primitives de courbes (par exemple, ligne, arc, B-spline). Un encodeur transformer agrège ces tokens en un plongement BRep global, aligné avec les encodeurs de texte et d'images de CLIP via un objectif contrastif conjoint. BRepCLIP génère des plongements plus discriminants et sémantiquement fondés que les alternatives existantes basées sur les points, améliorant le rappel Top-1 par rapport à OpenShape de 40,4 %, 22,0 % et 23,9 % sur ABC, CADParser et Automate respectivement, et améliorant la classification zero-shot sur FabWave de 15 % en score Top-1. Nous démontrons également son utilité en tant que métrique de similarité consciente de la CAO pour évaluer la génération de CAO conditionnée par du texte et des images, établissant ainsi l'importance du pré-entraînement structurellement conscient pour la compréhension multimodale de la CAO. La page du projet est disponible à l'adresse https://muhammadusama100.github.io/BrepClip2026/.