papers.description
Nous présentons Being-H0.5, un modèle fondamental Vision-Langage-Action (VLA) conçu pour une généralisation robuste à la trans-embodiment sur diverses plateformes robotiques. Alors que les modèles VLA existants peinent souvent avec l'hétérogénéité morphologique et la rareté des données, nous proposons un paradigme d'apprentissage centré sur l'humain qui traite les traces d'interaction humaine comme une « langue maternelle » universelle pour l'interaction physique. Pour soutenir cette approche, nous présentons UniHand-2.0, la plus grande recette de pré-entraînement incarné à ce jour, comprenant plus de 35 000 heures de données multimodales couvrant 30 embodiments robotiques distincts. Notre méthode introduit un Espace d'Action Unifié qui mappe les contrôles hétérogènes des robots dans des emplacements sémantiquement alignés, permettant aux robots disposant de peu de ressources d'acquérir des compétences à partir des données humaines et des plateformes riches en données. Bâti sur cette fondation centrée sur l'humain, nous concevons un paradigme unifié de modélisation séquentielle et de pré-entraînement multi-tâches pour faire le lien entre les démonstrations humaines et l'exécution robotique. Sur le plan architectural, Being-H0.5 utilise une conception Mixture-of-Transformers intégrant un nouveau cadre Mixture-of-Flow (MoF) pour découpler les primitives motrices partagées des experts spécialisés spécifiques à chaque embodiment. Enfin, pour stabiliser les politiques de trans-embodiment dans le monde réel, nous introduisons le Manifold-Preserving Gating pour la robustesse face aux décalages sensoriels et l'Universal Async Chunking pour universaliser le contrôle par blocs à travers des embodiments ayant des latences et profils de contrôle différents. Nous démontrons empiriquement que Being-H0.5 obtient des résultats state-of-the-art sur des benchmarks de simulation, tels que LIBERO (98,9 %) et RoboCasa (53,9 %), tout en présentant de fortes capacités de trans-embodiment sur cinq plateformes robotiques.
La résolution d'issues, une tâche complexe du génie logiciel (Software Engineering - SWE) intégrée au développement réel, est devenue un défi majeur pour l'intelligence artificielle. La création de benchmarks comme SWE-bench a révélé la difficulté considérable de cette tâche pour les grands modèles de langage, accélérant ainsi significativement l'évolution des agents de codage autonomes. Cet article présente une étude systématique de ce domaine émergent. Nous commençons par examiner les pipelines de construction de données, couvrant les approches de collecte automatisée et de synthèse. Nous proposons ensuite une analyse complète des méthodologies, allant des frameworks sans entraînement avec leurs composants modulaires aux techniques basées sur l'entraînement, incluant le fine-tuning supervisé et l'apprentissage par renforcement. Par la suite, nous discutons des analyses critiques concernant la qualité des données et le comportement des agents, ainsi que des applications pratiques. Enfin, nous identifions les défis clés et esquissons les orientations prometteuses pour les recherches futures. Un dépôt open source est maintenu à l'adresse https://github.com/DeepSoftwareAnalytics/Awesome-Issue-Resolution pour servir de ressource dynamique dans ce domaine.
Ces dernières années ont vu un intérêt croissant pour l'extension des grands modèles de langage en systèmes agentiques. Bien que l'efficacité des agents n'ait cessé de s'améliorer, l'efficience, cruciale pour un déploiement réel, a souvent été négligée. Cet article étudie donc l'efficience sous l'angle de trois composantes fondamentales des agents : la mémoire, l'apprentissage d'outils et la planification, en considérant des coûts tels que la latence, le nombre de tokens, les étapes, etc. Visant à mener une recherche exhaustive sur l'efficience du système agentique lui-même, nous passons en revue un large éventail d'approches récentes qui diffèrent dans leur mise en œuvre mais convergent fréquemment vers des principes de haut niveau communs, notamment, sans s'y limiter, la limitation du contexte via la compression et la gestion, la conception de récompenses d'apprentissage par renforcement pour minimiser l'invocation d'outils, et l'utilisation de mécanismes de recherche contrôlée pour améliorer l'efficience, que nous discutons en détail. En conséquence, nous caractérisons l'efficience de deux manières complémentaires : en comparant l'efficacité sous un budget de coût fixe, et en comparant le coût pour un niveau d'efficacité comparable. Ce compromis peut également être visualisé via la frontière de Pareto entre l'efficacité et le coût. Dans cette perspective, nous examinons également les benchmarks axés sur l'efficience en résumant les protocoles d'évaluation pour ces composantes et en consolidant les métriques d'efficience couramment rapportées dans les études méthodologiques et de benchmark. De plus, nous discutons des défis clés et des orientations futures, dans le but de fournir des perspectives prometteuses.
Comprendre et raisonner sur le monde physique nécessite une intelligence spatiale : la capacité d'interpréter la géométrie, la perspective et les relations spatiales au-delà de la perception 2D. Si les grands modèles visuels (VLM) récents excellent dans la compréhension visuelle, ils restent fondamentalement des percepteurs 2D et peinent avec un véritable raisonnement 3D. Nous présentons Think3D, un cadre qui permet aux agents VLM de raisonner avec l'espace 3D. En exploitant des modèles de reconstruction 3D qui restaurent les nuages de points et les poses de caméra à partir d'images ou de vidéos, Think3D permet à l'agent de manipuler activement l'espace via des opérations basées sur la caméra et une commutation entre vues égocentriques et globales, transformant le raisonnement spatial en un processus interactif de chaîne de pensée 3D. Sans entraînement supplémentaire, Think3D améliore significativement les performances de raisonnement spatial de modèles avancés comme GPT-4.1 et Gemini 2.5 Pro, avec des gains moyens de +7,8 % sur BLINK Multi-view et MindCube, et de +4,7 % sur VSI-Bench. Nous montrons en outre que les modèles plus petits, qui peinent avec l'exploration spatiale, bénéficient grandement d'une politique d'apprentissage par renforcement permettant au modèle de sélectionner des points de vue et des opérations informatifs. Avec l'apprentissage par renforcement, le bénéfice de l'utilisation d'outils passe de +0,7 % à +6,8 %. Nos résultats démontrent que l'exploration spatiale augmentée par des outils, sans entraînement, est une voie viable vers un raisonnement 3D plus flexible et humanoïde pour les agents multimodaux, établissant une nouvelle dimension de l'intelligence multimodale. Le code et les poids sont disponibles à l'adresse https://github.com/zhangzaibin/spagent.
L'interprétabilité mécaniste (MI) s'est imposée comme une approche essentielle pour démystifier la prise de décision opaque des grands modèles de langage (LLM). Cependant, les revues existantes traitent principalement la MI comme une science observationnelle, se contentant de résumer les insights analytiques sans proposer de cadre systématique pour une intervention actionnable. Pour combler cette lacune, nous présentons une étude pratique structurée autour du pipeline : « Localiser, Piloter et Améliorer ». Nous catégorisons formellement les méthodes de Localisation (diagnostic) et de Pilotage (intervention) en nous basant sur des Objets Interprétables spécifiques afin d'établir un protocole d'intervention rigoureux. De plus, nous démontrons comment ce cadre permet des améliorations tangibles en matière d'Alignement, de Capacité et d'Efficacité, opérationnalisant ainsi efficacement la MI en une méthodologie actionnable pour l'optimisation des modèles. La liste curatée des articles de ce travail est disponible à l'adresse https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.
Les vidéos véhiculent une information plus riche que les images ou le texte, en capturant à la fois les dynamiques spatiales et temporelles. Cependant, la plupart des méthodes existantes de personnalisation vidéo s'appuient sur des images de référence ou des connaissances temporelles spécifiques à une tâche, ne parvenant pas à exploiter pleinement les riches informations spatio-temporelles inhérentes aux vidéos, limitant ainsi la flexibilité et la généralisation dans la génération vidéo. Pour résoudre ces limitations, nous proposons OmniTransfer, un cadre unifié pour le transfert spatio-temporel vidéo. Il tire parti des informations multi-vues entre les images pour améliorer la cohérence d'apparence et exploite les indices temporels pour permettre un contrôle temporel fin. Pour unifier les diverses tâches de transfert vidéo, OmniTransfer intègre trois conceptions clés : un Biais Positionnel Conscient de la Tâche qui exploite adaptativement l'information de la vidéo de référence pour améliorer l'alignement temporel ou la cohérence d'apparence ; un Apprentissage Causal à Référence Découplée séparant les branches de référence et cible pour permettre un transfert de référence précis tout en améliorant l'efficacité ; et un Alignement Multimodal Adaptatif utilisant un guidage sémantique multimodal pour distinguer et traiter dynamiquement différentes tâches. Des expériences approfondies montrent qu'OmniTransfer surpasse les méthodes existantes en transfert d'apparence (ID et style) et temporel (mouvement de caméra et effets vidéo), tout en égalant les méthodes guidées par la pose en transfert de mouvement sans utiliser la pose, établissant un nouveau paradigme pour une génération vidéo flexible et fidèle.
Bien que les modèles de langage multimodaux de grande taille (MLLM) démontrent une forte perception omnimodale, leur capacité à prévoir les événements futurs à partir d'indices audiovisuels reste largement inexplorée, car les benchmarks existants se concentrent principalement sur la compréhension rétrospective. Pour combler cette lacune, nous présentons FutureOmni, le premier benchmark conçu pour évaluer la prévision future omnimodale à partir d'environnements audiovisuels. Les modèles évalués doivent effectuer un raisonnement causal et temporel intermodal, ainsi que tirer parti efficacement des connaissances internes pour prédire les événements futurs. FutureOmni est construit via un pipeline évolutif assisté par LLM avec intervention humaine et contient 919 vidéos et 1 034 paires de questions-réponses à choix multiples couvrant 8 domaines principaux. Les évaluations sur 13 modèles omnimodaux et 7 modèles vidéo uniquement montrent que les systèmes actuels peinent à prédire l'avenir à partir de données audiovisuelles, particulièrement dans les scénarios riches en parole, la meilleure précision de 64,8 % étant obtenue par Gemini 3 Flash. Pour atténuer cette limitation, nous constituons un jeu de données d'ajustement par instruction de 7 000 échantillons et proposons une stratégie d'entraînement Omni-Modal Future Forecasting (OFF). Les évaluations sur FutureOmni et sur les benchmarks audiovisuels et vidéo populaires démontrent qu'OFF améliore la prévision future et la généralisation. Nous publions publiquement tout le code (https://github.com/OpenMOSS/FutureOmni) et les jeux de données (https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni).
Les travaux existants adoptent de plus en plus des mécanismes centrés sur la mémoire pour traiter les longs contextes de manière segmentée, et une gestion efficace de la mémoire est l'une des capacités clés permettant aux grands modèles de langage de propager efficacement l'information sur l'ensemble de la séquence. Par conséquent, l'utilisation de modèles de récompense (RM) pour évaluer automatiquement et de manière fiable la qualité de la mémoire est cruciale. Dans ce travail, nous présentons MemoryRewardBench, le premier benchmark visant à étudier systématiquement la capacité des RM à évaluer les processus de gestion de la mémoire à long terme. MemoryRewardBench couvre à la fois les tâches de compréhension de contexte long et de génération longue, avec 10 configurations distinctes présentant différents schémas de gestion de la mémoire, et des longueurs de contexte allant de 8 000 à 128 000 tokens. Les évaluations de 13 RM de pointe indiquent un rétrécissement de l'écart de performance entre les modèles open-source et propriétaires, les modèles de nouvelle génération surpassant systématiquement leurs prédécesseurs, quel que soit leur nombre de paramètres. Nous mettons également en lumière les capacités et les limitations fondamentales des RM actuels dans l'évaluation de la gestion de la mémoire des LLM à travers diverses configurations.
Nous présentons LightOnOCR-2-1B, un modèle multimodal de vision et langage multilingue de bout en bout, doté de 1 milliard de paramètres, qui convertit des images de documents (par exemple, des PDF) en texte propre et naturellement ordonné sans recourir à des pipelines de reconnaissance optique de caractères (OCR) fragiles. Entraîné sur un mélange de distillation à grande échelle et de haute qualité offrant une couverture robuste des documents scannés, des documents français et des PDF scientifiques, LightOnOCR-2 atteint des résultats de pointe sur OlmOCR-Bench tout en étant 9 fois plus petit et substantiellement plus rapide que les modèles précédents les plus performants. Nous étendons en outre le format de sortie pour prédire des boîtes englobantes normalisées pour les images intégrées, en introduisant la localisation lors du pré-entraînement via une stratégie de reprise et en l'affinant avec RLVR à l'aide de récompenses basées sur l'IoU. Enfin, nous améliorons la robustesse par moyenne de points de contrôle et fusion par arithmétique des tâches. Nous publions les points de contrôle du modèle sous licence Apache 2.0, et rendons publics l'ensemble de données ainsi que l'évaluation LightOnOCR-bbox-bench sous leurs licences respectives.
Atteindre des performances équivalentes à l'humain en Navigation Vision-Langage (VLN) nécessite qu'un agent incarné comprenne conjointement des instructions multimodales et un contexte visuo-spatial tout en raisonnant sur de longues séquences d'actions. Des travaux récents, tels que NavCoT et NavGPT-2, démontrent le potentiel du raisonnement en Chaîne de Pensée (CoT) pour améliorer l'interprétabilité et la planification à long terme. De plus, des extensions multimodales comme OctoNav-R1 et CoT-VLA valident en outre le CoT comme une voie prometteuse vers un raisonnement de navigation semblable à celui de l'homme. Cependant, les approches existantes présentent des inconvénients critiques : les CoT purement textuels manquent d'ancrage spatial et surajustent facilement aux étapes de raisonnement annotées éparses, tandis que les CoT multimodaux entraînent une inflation sévère de tokens en générant des observations visuelles imaginées, rendant la navigation en temps réel impraticable. Dans ce travail, nous proposons FantasyVLN, un cadre de raisonnement implicite unifié qui préserve les avantages du raisonnement CoT sans surcharge explicite de tokens. Plus précisément, les tokens visuels imaginés sont encodés dans un espace latent compact à l'aide d'un AutoRégresseur Visuel (VAR) préentraîné durant l'entraînement au raisonnement CoT, et le modèle apprend conjointement à partir de modes CoT textuels, visuels et multimodaux selon une stratégie multi-CoT unifiée. Lors de l'inférence, notre modèle effectue un mapping direct instruction-action tout en bénéficiant de représentations sensibles au raisonnement. Des expériences approfondies sur LH-VLN montrent que notre approche réalise une navigation à la fois sensible au raisonnement et en temps réel, améliorant les taux de succès et l'efficacité tout en réduisant la latence d'inférence d'un ordre de grandeur par rapport aux méthodes CoT explicites.
La recherche agentique a récemment émergé comme un paradigme puissant, dans lequel un agent entrelace un raisonnement à multiples étapes avec une récupération d'informations à la demande pour résoudre des questions complexes. Malgré son succès, la conception d'un système de récupération pour la recherche agentique reste largement inexplorée. Les agents de recherche existants reposent généralement sur des systèmes de récupération par similarité, alors que des passages similaires ne sont pas toujours utiles pour la génération de la réponse finale. Dans cet article, nous proposons un nouveau cadre d'entraînement pour les systèmes de récupération spécifiquement conçu pour la recherche agentique. Contrairement aux systèmes conçus pour la génération augmentée par récupération (RAG) en tour unique qui ne reposent que sur l'utilité locale des passages, nous proposons d'utiliser à la fois la pertinence locale requête-passage et la justesse globale de la réponse pour mesurer l'utilité d'un passage dans un contexte de recherche agentique multi-tours. Nous introduisons en outre une stratégie d'entraînement itérative, où l'agent de recherche et le système de récupération sont optimisés de manière bidirectionnelle et itérative. Contrairement aux systèmes RAG qui ne sont entraînés qu'une fois avec des questions fixes, notre système de récupération est continuellement amélioré en utilisant des requêtes évolutives et de meilleure qualité provenant de l'agent. Des expériences approfondies sur sept benchmarks de questions-réponses à saut unique et multi-sauts démontrent que notre système de récupération, nommé , surpasse constamment les bases de référence solides sur différents agents de recherche. Nos codes sont disponibles à l'adresse : https://github.com/8421BCD/Agentic-R.
Malgré les progrès récents, les modèles de fondation médicaux peinent encore à unifier la compréhension visuelle et la génération, ces tâches ayant des objectifs intrinsèquement conflictuels : l'abstraction sémantique versus la reconstruction au niveau pixel. Les approches existantes, généralement basées sur des architectures autorégressives à paramètres partagés, conduisent fréquemment à une dégradation des performances sur une ou les deux tâches. Pour résoudre ce problème, nous présentons UniX, un modèle de fondation médical unifié de nouvelle génération pour la compréhension et la génération de radiographies thoraciques. UniX découple les deux tâches en une branche autorégressive pour la compréhension et une branche de diffusion pour une génération haute fidélité. Surtout, un mécanisme d'auto-attention cross-modale est introduit pour guider dynamiquement le processus de génération avec les caractéristiques de compréhension. Couplée à un pipeline rigoureux de nettoyage des données et une stratégie d'entraînement multi-étapes, cette architecture permet une collaboration synergique entre les tâches tout en exploitant les forces des modèles de diffusion pour une génération supérieure. Sur deux benchmarks représentatifs, UniX obtient une amélioration de 46,1 % des performances de compréhension (Micro-F1) et un gain de 24,2 % en qualité de génération (FD-RadDino), en utilisant seulement un quart des paramètres de LLM-CXR. En atteignant des performances comparables aux modèles spécialisés par tâche, notre travail établit un paradigme évolutif pour la compréhension et la génération synergiques d'images médicales. Les codes et modèles sont disponibles à l'adresse https://github.com/ZrH42/UniX.
Les méthodes de recherche guidée par récompense ont démontré un fort potentiel pour améliorer les agents utilisant des outils en guidant efficacement l'échantillonnage et l'exploration d'espaces d'actions complexes. Comme conception fondamentale, ces méthodes de recherche utilisent des modèles de récompense de processus (PRM) pour fournir des récompenses au niveau des étapes, permettant un suivi plus granulaire. Cependant, il manque des benchmarks d'évaluation systématiques et fiables pour les PRM dans des contextes d'utilisation d'outils. Dans cet article, nous présentons ToolPRMBench, un benchmark à grande échelle spécialement conçu pour évaluer les PRM pour les agents utilisant des outils. ToolPRMBench est construit sur plusieurs benchmarks représentatifs d'utilisation d'outils et convertit les trajectoires des agents en cas de test au niveau des étapes. Chaque cas contient l'historique des interactions, une action correcte, une alternative plausible mais incorrecte et des métadonnées d'outils pertinentes. Nous utilisons respectivement l'échantillonnage hors ligne pour isoler les erreurs locales à une étape et l'échantillonage en ligne pour capturer les échecs réalistes multi-étapes à partir de déploiements complets d'agents. Un pipeline de vérification multi-LLM est proposé pour réduire le bruit des étiquettes et garantir la qualité des données. Nous menons des expériences approfondies sur ToolPRMBench avec de grands modèles de langage, des PRM généraux et des PRM spécialisés pour les outils. Les résultats révèlent des différences nettes dans l'efficacité des PRM et mettent en évidence le potentiel des PRM spécialisés pour l'utilisation d'outils. Le code et les données seront publiés à l'adresse https://github.com/David-Li0406/ToolPRMBench.
Les grands modèles de langage (LLM) actuels présentent une déconnexion modale critique : ils possèdent de vastes connaissances sémantiques mais manquent d'ancrage procédural pour respecter les lois immuables du monde physique. Par conséquent, bien que ces agents fonctionnent implicitement comme des modèles du monde, leurs simulations souffrent souvent d'hallucinations physiques - générant des plans logiquement cohérents mais physiquement inexécutables. Les stratégies d'alignement existantes reposent principalement sur des entraînements ou des ajustements fins intensifs en ressources, qui tentent de compresser des règles environnementales dynamiques en paramètres modèles statiques. Cependant, un tel encapsulage paramétrique est intrinsèquement rigide, peinant à s'adapter à la variabilité ouverte des dynamiques physiques sans réentraînement continu et coûteux. Pour combler cette lacune, nous présentons WorldMind, un cadre qui construit autonome-ment un Référentiel de Connaissances Mondiales symbolique en synthétisant les retours environnementaux. Spécifiquement, il unifie l'Expérience de Processus pour imposer la faisabilité physique via les erreurs de prédiction, et l'Expérience de But pour guider l'optimalité des tâches à travers les trajectoires réussies. Les expériences sur EB-ALFRED et EB-Habitat démontrent que WorldMind atteint des performances supérieures aux lignes de base avec une transférabilité remarquable entre modèles et environnements.
L'auto-jeu avec des grands modèles de langage est apparu comme un paradigme prometteur pour réaliser une intelligence artificielle capable de s'auto-améliorer. Cependant, les cadres d'auto-jeu existants souffrent souvent d'une instabilité d'optimisation, due (i) à des objectifs non stationnaires induits par des retours de récompense dépendants du solveur pour le Questionneur, et (ii) à des erreurs de bootstrap provenant des pseudo-labels auto-générés utilisés pour superviser le Solveur. Pour atténuer ces défis, nous introduisons DARC (Decoupled Asymmetric Reasoning Curriculum), un cadre en deux étapes qui stabilise le processus d'auto-évolution. Premièrement, nous entraînons le Questionneur à synthétiser des questions dont la difficulté est calibrée, conditionnées par des niveaux de difficulté explicites et des corpus externes. Deuxièmement, nous entraînons le Solveur avec un mécanisme d'auto-distillation asymétrique, où un enseignant augmenté par des documents génère des pseudo-labels de haute qualité pour superviser l'élève Solveur qui n'a pas accès aux documents. Les résultats empiriques démontrent que DARC est agnostique au modèle, produisant une amélioration moyenne de 10,9 points sur neuf benchmarks de raisonnement et trois modèles de base. De plus, DARC surpasse constamment toutes les méthodes de référence et approche les performances des modèles entièrement supervisés sans dépendre d'annotations humaines. Le code est disponible à l'adresse https://github.com/RUCBM/DARC.
Les systèmes de production de LLM reposent souvent sur des modèles distincts pour la sécurité et d'autres étapes à forte composante classification, ce qui augmente la latence, l'empreinte mémoire VRAM et la complexité opérationnelle. Nous réutilisons plutôt le calcul déjà effectué par le LLM de service : nous entraînons des sondes légères sur ses états cachés et prédisons les étiquettes lors de la même passe avant utilisée pour la génération. Nous abordons la classification comme une sélection de représentations sur le tenseur complet des états cachés (couches × tokens), plutôt que de nous restreindre à un token ou une couche fixe (par exemple, les logits du premier token ou le pooling de la dernière couche). Pour implémenter cette approche, nous introduisons un agrégateur à deux étapes qui (i) résume les tokens au sein de chaque couche et (ii) agrège ces résumés de couches pour former une représentation unique destinée à la classification. Nous instancions ce modèle avec un pooling direct, une porte d'attention par scoring de 100K paramètres, et une sonde à auto-attention multi-têtes (MHA) réduite avec jusqu'à 35M paramètres entraînables. Sur des benchmarks de sécurité et de sentiment, nos sondes surpassent la réutilisation des logits seuls (par exemple, MULI) et sont compétitives avec des modèles de référence spécialisés substantiellement plus grands, tout en préservant une latence proche de celle du service et en évitant les coûts VRAM et de latence d'un pipeline séparé de modèle de garde.
Les explications basées sur les concepts quantifient comment des concepts de haut niveau (par exemple, le genre ou l'expérience) influencent le comportement des modèles, ce qui est crucial pour les décideurs dans des domaines à enjeux élevés. Des travaux récents évaluent la fidélité de ces explications en les comparant à des effets causaux de référence estimés à partir de contrefactuels. En pratique, les référentiels existants reposent sur des contrefactuels rédigés par des humains, coûteux et servant de proxy imparfait. Pour résoudre ce problème, nous présentons un cadre pour construire des ensembles de données contenant des paires contrefactuelles structurelles : LIBERTy (Benchmark interventionnel basé sur LLM pour l'explicabilité avec cibles de référence). LIBERTy s'appuie sur des Modèles Causaux Structurels (SCM) explicitement définis de la génération de texte ; les interventions sur un concept se propagent à travers le SCM jusqu'à ce qu'un LLM génère le contrefactuel. Nous présentons trois ensembles de données (détection de maladies, dépistage sur CV et prédiction de la violence au travail) ainsi qu'une nouvelle métrique d'évaluation, la fidélité à l'ordre. En les utilisant, nous évaluons un large éventail de méthodes sur cinq modèles et identifions une marge d'amélioration substantielle pour les explications basées sur les concepts. LIBERTy permet également une analyse systématique de la sensibilité des modèles aux interventions : nous constatons que les LLM propriétaires montrent une sensibilité nettement réduite aux concepts démographiques, probablement en raison de mesures d'atténuation post-entraînement. Globalement, LIBERTy fournit un référentiel très nécessaire pour développer des méthodes d'explicabilité fidèles.
Les agents d'apprentissage par renforcement basés sur pixels échouent souvent face à un simple changement de distribution visuelle, même lorsque la dynamique latente et les récompenses restent inchangées. Cependant, les benchmarks existants entremêlent plusieurs sources de variation et entravent une analyse systématique. Nous présentons KAGE-Env, une plateforme 2D native JAX qui factorise le processus d'observation selon des axes visuels indépendamment contrôlables, tout en maintenant inchangé le problème de contrôle sous-jacent. Par construction, la variation d'un axe visuel n'affecte les performances qu'à travers la distribution d'actions conditionnelle à l'état induite par une politique pixel, offrant une abstraction épurée pour l'étude de la généralisation visuelle. Sur cette base, nous définissons KAGE-Bench, un benchmark de six suites à axes connus comprenant 34 paires de configurations entraînement-évaluation qui isolent des changements visuels individuels. En utilisant un modèle de référence PPO-CNN standard, nous observons des échecs prononcés dépendants de l'axe : les changements d'arrière-plan et photométriques annulent souvent toute réussite, tandis que les modifications d'apparence de l'agent sont relativement bénignes. Certaines variations préservent le mouvement vers l'avant tout en empêchant l'accomplissement de la tâche, montrant que le seul retour cumulé peut masquer des échecs de généralisation. Enfin, l'implémentation entièrement vectorisée dans JAX permet d'atteindre jusqu'à 33 millions d'étapes environnementales par seconde sur un seul GPU, autorisant des explorations rapides et reproductibles des facteurs visuels. Code : https://avanturist322.github.io/KAGEBench/.
Les trajectoires de raisonnement en chaîne (CoT) fournissent un signal de supervision riche pour distiller le raisonnement des grands modèles de langage (LLM) enseignants vers les étudiants. Cependant, les travaux antérieurs et nos propres expériences montrent que les trajectoires provenant d'enseignants plus performants ne produisent pas nécessairement de meilleurs étudiants, soulignant l'importance de l'adéquation entre les données et l'étudiant dans la distillation. Les méthodes existantes évaluent principalement cette adéquation par la vraisemblance de l'étudiant, favorisant les trajectoires qui correspondent étroitement au comportement actuel du modèle mais négligeant celles qui sont plus informatives. Pour résoudre ce problème, nous proposons le Ratio Rang-Surprise (RSR), une métrique simple qui capture à la fois l'alignement et le caractère informatif pour évaluer la pertinence d'une trajectoire de raisonnement. RSR est motivé par l'observation que les trajectoires efficaces combinent généralement une probabilité absolue faible avec des tokens relativement bien classés sous le modèle étudiant, équilibrant ainsi la force du signal d'apprentissage et l'alignement comportemental. Concrètement, RSR est défini comme le ratio entre le rang moyen token par token d'une trajectoire et sa log-vraisemblance négative moyenne, et est simple à calculer et à interpréter. Sur cinq modèles étudiants et des trajectoires de raisonnement provenant de 11 enseignants diversifiés, RSR présente une forte corrélation avec les performances post-entraînement (Spearman moyen de 0,86), surpassant les métriques existantes. Nous démontrons en outre son utilité pratique à la fois pour la sélection des trajectoires et la sélection des enseignants.
La reconnaissance phonétique (RP) constitue l'interface élémentaire pour la modélisation indépendante de la langue dans le traitement vocal multilingue et l'analyse phonétique. Malgré des efforts prolongés pour développer des systèmes de RP, les évaluations actuelles ne mesurent que la précision superficielle de la transcription. Nous présentons PRiSM, le premier benchmark open-source conçu pour révéler les angles morts de la perception phonétique grâce à une évaluation intrinsèque et extrinsèque des systèmes de RP. PRiSM standardise l'évaluation par transcription et évalue l'utilité en aval dans des contextes cliniques, éducatifs et multilingues à l'aide de sondes de transcription et de représentation. Nous constatons qu'une exposition linguistique diversifiée pendant l'entraînement est essentielle aux performances de la RP, que les modèles encodeur-CTC sont les plus stables, et que les modèles de RP spécialisés surpassent encore les grands modèles linguistiques audio. PRiSM publie le code, les recettes et les jeux de données pour faire progresser le domaine vers des modèles vocaux multilingues dotés de solides capacités phonétiques : https://github.com/changelinglab/prism.
L'apprentissage par renforcement basé sur les résultats (RL) s'est avéré efficace pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Cependant, le RL standard n'attribue le crédit qu'au niveau de la réponse finale, pénalisant des traces de raisonnement entières lorsque le résultat est incorrect et renforçant uniformément toutes les étapes lorsqu'il est correct. Par conséquent, les étapes intermédiaires correctes peuvent être découragées dans les traces échouées, tandis que des étapes fallacieuses peuvent être renforcées dans les traces réussies. Nous qualifions ce mode d'échec de problème d'attribution du crédit. Bien qu'un remède naturel consiste à entraîner un modèle de récompense de processus, optimiser avec précision de tels modèles pour identifier les étapes de raisonnement correctives reste difficile. Nous introduisons l'Entraînement par Intervention (InT), un paradigme d'entraînement dans lequel le modèle effectue une attribution de crédit fine sur ses propres traces de raisonnement en proposant de courtes corrections ciblées qui orientent les trajectoires vers une récompense plus élevée. En utilisant les solutions de référence couramment disponibles dans les ensembles de données de raisonnement mathématique et en exploitant le fait que vérifier une solution générée par un modèle est plus facile que d'en générer une correcte à partir de zéro, le modèle identifie la première erreur dans son raisonnement et propose une intervention en une seule étape pour rediriger la trajectoire vers la solution correcte. Nous appliquons ensuite un réglage fin supervisé (SFT) au déroulement sur-politique jusqu'au point d'erreur concaténé avec l'intervention, localisant ainsi l'erreur à l'étape spécifique ayant causé l'échec. Nous montrons que le modèle résultant constitue une bien meilleure initialisation pour l'entraînement RL. Après avoir exécuté InT et un réglage fin ultérieur avec RL, nous améliorons la précision de près de 14 % par rapport à un modèle de base de 4 milliards de paramètres sur IMO-AnswerBench, surpassant des modèles open-source plus grands tels que gpt-oss-20b.
Nous présentons une méthodologie hybride pour générer des ensembles de données à grande échelle de relations sémantiques dans les langues peu dotées, démontrée par la création d'un corpus complet de relations sémantiques turques. Notre approche intègre trois phases : (1) l'utilisation d'embeddings FastText avec un clustering agglomératif pour identifier des clusters sémantiques, (2) l'emploi de Gemini 2.5-Flash pour la classification automatisée des relations sémantiques, et (3) l'intégration de sources dictionnairiques curatisées. L'ensemble de données résultant comprend 843 000 paires sémantiques turques uniques, couvrant trois types de relations (synonymes, antonymes, co-hyponymes), représentant une augmentation d'échelle par 10 par rapport aux ressources existantes pour un coût minime (65 $). Nous validons le jeu de données via deux tâches en aval : un modèle d'embedding atteignant une précision de rappel top-1 de 90 % et un modèle de classification obtenant un F1-macro de 90 %. Notre protocole scalable répond à la pénurie critique de données en TALN turc et démontre son applicabilité à d'autres langues peu dotées. Nous rendons publics le jeu de données et les modèles.
Les plongements lexicaux présentent un angle mort notoire : ils ne peuvent pas distinguer de manière fiable les synonymes des antonymes. Par conséquent, l'augmentation des seuils de similarité échoue souvent à empêcher le regroupement des termes opposés. Nous avons construit un système de clustering sémantique à grande scale conçu spécifiquement pour résoudre ce problème de front. Notre pipeline traite 15 millions d'unités lexicales, évalue 520 millions de relations potentielles, et génère in fine 2,9 millions de clusters sémantiques de haute précision. Le système apporte trois contributions principales. Premièrement, nous présentons un jeu de données annoté de 843 000 paires de concepts couvrant la synonymie, l'antonymie et la co-hyponymie, construit par augmentation via le LLM Gemini 2.5-Flash et vérifié à l'aide de ressources dictionnairiques élaborées par des experts humains. Deuxièmement, nous proposons un discriminateur spécialisé de relations sémantiques à trois voies qui atteint un score macro-F1 de 90 %, permettant une désambiguïsation robuste qui va au-delà de la simple similarité des plongements. Troisièmement, nous introduisons un nouvel algorithme de clustering progressif (« soft-to-hard ») qui atténue la dérive sémantique en empêchant les chaînes transitives erronées (par exemple, chaud -> épicé -> douleur -> dépression) tout en résolvant la polysémie. Notre approche utilise une procédure en deux étapes d'expansion-élagage sensible à la topologie avec vote topologique, garantissant que chaque terme est affecté à un et un seul cluster sémantiquement cohérent. La ressource résultante permet une recherche sémantique de haute précision et une génération augmentée par retrieval, en particulier pour les langues à morphologie riche et les langues peu dotées où les bases de données synonymiques existantes restent rares.
Alors que les modèles de langage de grande taille (LLM) sont entraînés sur des corpus de plus en plus opaques, les attaques par inférence d'appartenance (MIA) ont été proposées pour vérifier si des textes protégés par le droit d'auteur ont été utilisés lors de l'entraînement, et ce malgré des préoccupations croissantes quant à leur fiabilité dans des conditions réalistes. Nous examinons si les MIA peuvent constituer une preuve admissible dans des litiges adversariaux relatifs au droit d'auteur, où un développeur de modèle accusé pourrait brouiller les données d'entraînement tout en préservant le contenu sémantique, et nous formalisons ce cadre via un protocole de communication juge-procureur-accusé. Pour tester la robustesse dans le cadre de ce protocole, nous présentons SAGE (Structure-Aware SAE-Guided Extraction), un cadre de paraphrase guidé par des autoencodeurs épars (SAE) qui reformule les données d'entraînement pour en altérer la structure lexicale tout en préservant le contenu sémantique et l'utilité en aval. Nos expériences montrent que les MIA de pointe voient leur performance se dégrader lorsque les modèles sont affinés sur des paraphrases générées par SAGE, indiquant que leurs signaux ne sont pas robustes à des transformations préservant la sémantique. Bien qu'une certaine fuite d'information subsiste dans certains régimes d'affinage, ces résultats suggèrent que les MIA sont fragiles dans des contextes adversariaux et insuffisantes, en elles-mêmes, comme mécanisme autonome d'audit du droit d'auteur pour les LLM.
Nous présentons SciCoQA, un ensemble de données pour détecter les écarts entre les publications scientifiques et leurs bases de code afin de garantir des implémentations fidèles. Nous construisons SciCoQA à partir d'issues GitHub et d'articles sur la reproductibilité, et pour étendre notre jeu de données, nous proposons une méthode de génération de données synthétiques pour construire des incohérences papier-code. Nous analysons en détail ces incohérences et proposons une typologie et des catégories pour mieux comprendre les discordances observées. Au total, notre jeu de données comprend 611 incohérences papier-code (81 réelles, 530 synthétiques), couvrant diverses disciplines des sciences computationnelles, notamment l'IA, la physique, la biologie quantitative et d'autres. Notre évaluation de 21 modèles de langage souligne la difficulté de SciCoQA, particulièrement pour les instances impliquant des omissions de détails dans les articles, des entrées à contexte long et des données extérieures au corpus de pré-entraînement des modèles. Le meilleur modèle de notre évaluation, GPT-5, ne détecte que 45,7 % des incohérences papier-code du monde réel.
La descente de gradient stochastique à confidentialité différentielle (DP-SGD) est le paradigme dominant pour l'apprentissage privé, mais ses limitations fondamentales sous des définitions de confidentialité adversariales dans le pire des cas restent mal comprises. Nous analysons DP-SGD dans le cadre de la confidentialité différentielle en f, qui caractérise la confidentialité via des courbes de compromis test d'hypothèse, et nous étudions l'échantillonnage mélangé sur une seule époque avec M mises à jour du gradient. Nous dérivons une borne supérieure sous-optimale explicite sur la courbe de compromis réalisable. Ce résultat induit une borne inférieure géométrique sur la séparation κ, qui est la distance maximale entre la courbe de compromis du mécanisme et la ligne idéale de devinette aléatoire. Parce qu'une grande séparation implique un avantage adversarial significatif, une confidentialité significative nécessite un κ petit. Cependant, nous prouvons que l'imposition d'une petite séparation impose une borne inférieure stricte sur le multiplicateur de bruit gaussien σ, ce qui limite directement l'utilité réalisable. En particulier, sous le modèle adversarial standard dans le pire des cas, DP-SGD mélangé doit satisfaire σ ≥ 1/√(2 ln M) ou bien κ ≥ 1/8 (1 - 1/(4π ln M)), et ne peut donc pas atteindre simultanément une forte confidentialité et une haute utilité. Bien que cette borne disparaisse asymptotiquement lorsque M → ∞, la convergence est extrêmement lente : même pour des nombres de mises à jour pratiquement pertinents, l'amplitude de bruit requise reste substantielle. Nous montrons en outre que la même limitation s'étend à la sous-échantillonnage de Poisson à des facteurs constants près. Nos expériences confirment que les niveaux de bruit impliqués par cette borne entraînent une dégradation significative de la précision dans des paramètres d'entraînement réalistes, montrant ainsi un goulot d'étranglement critique dans DP-SGD sous les hypothèses adversariales standard dans le pire des cas.
Le réglage par instructions est un paradigme standard pour l'adaptation des grands modèles de langage (LLM), mais les ensembles de données d'instructions modernes sont volumineux, bruyants et redondants, ce qui rend le réglage fin sur la totalité des données coûteux et souvent inutile. Les méthodes de sélection de données existantes construisent soit des magasins de données de gradients coûteux, soit attribuent des scores statiques à partir d'un proxy faible, ignorant largement l'incertitude évolutive et manquant ainsi une source clé d'interprétabilité des LLM. Nous proposons GRADFILTERING, un cadre de sélection de données agnostique par rapport à l'objectif et conscient de l'incertitude, qui utilise un petit proxy GPT-2 avec un ensemble LoRA et agrège les gradients par exemple en un ratio signal-sur-bruit de gradient (G-SNR) comme utilité. Notre méthode égale ou dépasse les sous-ensembles aléatoires et les bases de référence solides dans la plupart des évaluations de type "LLM-en-tant-que-juge" ainsi que dans l'évaluation humaine. De plus, les sous-ensembles sélectionnés par GRADFILTERING convergent plus rapidement que les filtres compétitifs sous le même budget de calcul, reflétant l'avantage d'un score tenant compte de l'incertitude.
La détection de changements par télédétection vise à localiser et caractériser les modifications de scène entre deux instants, et est essentielle pour des applications telles que la surveillance environnementale et l'évaluation des catastrophes. Parallèlement, les modèles visuels autorégressifs (VAR) ont récemment démontré des capacités impressionnantes en génération d'images, mais leur adoption pour les tâches discriminatives au niveau pixel reste limitée en raison d'une faible contrôlabilité, de performances sous-optimales en prédiction dense et d'un biais d'exposition. Nous présentons RemoteVAR, un nouveau cadre de détection de changements basé sur les VAR qui résout ces limitations en conditionnant la prédiction autorégressive sur des caractéristiques bi-temporelles fusionnées multi-résolution via une attention croisée, et en employant une stratégie d'entraînement autorégressif conçue spécifiquement pour la prédiction de cartes de changements. Des expériences approfondies sur des benchmarks standards de détection de changements montrent que RemoteVAR apporte des améliorations constantes et significatives par rapport à des modèles de référence solides basés sur les diffusion et les transformers, établissant ainsi une alternative autorégressive compétitive pour la détection de changements en télédétection. Le code sera disponible à l'adresse https://github.com/yilmazkorkmaz1/RemoteVAR.
Les agents de données récents basés sur LLM visent à automatiser les tâches de science des données, allant de l'analyse de données au deep learning. Cependant, la nature ouverte des problèmes réels de science des données, qui couvrent souvent plusieurs taxonomies et manquent de réponses standardisées, constitue un défi majeur pour l'évaluation. Pour y remédier, nous présentons DSAEval, un benchmark comprenant 641 problèmes réels de science des données ancrés dans 285 ensembles de données diversifiés, couvrant à la fois des données structurées et non structurées (par exemple, vision et texte). DSAEval intègre trois caractéristiques distinctives : (1) la Perception Environnementale Multimodale, qui permet aux agents d'interpréter des observations provenant de multiples modalités incluant le texte et la vision ; (2) les Interactions Multi-Requêtes, qui reflètent la nature itérative et cumulative des projets réels de science des données ; et (3) l'Évaluation Multidimensionnelle, qui fournit une appréciation holistique couvrant le raisonnement, le code et les résultats. Nous évaluons systématiquement 11 LLMs agentiels avancés à l'aide de DSAEval. Nos résultats montrent que Claude-Sonnet-4.5 obtient les performances globales les plus solides, GPT-5.2 est le plus efficace, et MiMo-V2-Flash est le plus rentable. Nous démontrons en outre que la perception multimodale améliore constamment les performances sur les tâches liées à la vision, avec des gains allant de 2,04 % à 11,30 %. Globalement, bien que les agents actuels de science des données performent bien sur les données structurées et les workflows d'analyse de données routiniers, des défis substantiels subsistent dans les domaines non structurés. Enfin, nous offrons des perspectives critiques et esquissons des directions de recherche futures pour faire progresser le développement des agents de science des données.
De nombreux étudiants manquent d'accès à un mentorat de recherche expert. Nous nous demandons si un mentor IA peut guider des étudiants de premier cycle d'une idée à la publication d'un article. Nous développons METIS, un assistant conscient des étapes de rédaction et augmenté par des outils, intégrant la recherche documentaire, des directives organisées, des vérifications méthodologiques et une mémoire. Nous évaluons METIS contre GPT-5 et Claude Sonnet 4.5 sur six étapes de rédaction en utilisant des préférences par paires évaluées par un LLM-juge, des grilles d'évaluation basées sur un profil étudiant, des sessions de tutorat multi-tours courtes et des vérifications de conformité/pertinence des preuves. Sur 90 requêtes en un seul tour, les LLM-juges ont préféré METIS à Claude Sonnet 4.5 dans 71% des cas et à GPT-5 dans 54% des cas. Les scores attribués selon le profil étudiant (clarté/opérationnalité/adéquation aux contraintes ; 90 requêtes x 3 juges) sont supérieurs pour METIS à travers toutes les étapes. Dans des sessions multi-tours (cinq scénarios/agent), METIS produit une qualité finale légèrement supérieure à celle de GPT-5. Les gains se concentrent sur les étapes nécessitant une base documentaire (D-F), ce qui est cohérent avec l'aiguillage conscient des étapes et l'ancrage dans les documents. Les modes d'échec incluent un déclenchement prématuré des outils, un ancrage superficiel et une mauvaise classification occasionnelle de l'étape.
Les expressions linguistiques d'émotions telles que la dépression, l'anxiété et les états liés au trauma sont omniprésentes dans les comptes rendus cliniques, les dialogues de conseil et les communautés en ligne de santé mentale. Leur reconnaissance précise est essentielle pour le triage clinique, l'évaluation des risques et l'intervention rapide. Bien que les grands modèles de langage (LLM) aient démontré une forte capacité de généralisation dans les tâches d'analyse émotionnelle, leur fiabilité diagnostique dans des contextes médicaux à enjeux élevés et riches en contexte reste très sensible à la conception des prompts. De plus, les méthodes existantes se heurtent à deux défis majeurs : la comorbidité émotionnelle, où plusieurs états émotionnels entremêlés complexifient la prédiction, et l'exploration inefficace des indices cliniquement pertinents. Pour relever ces défis, nous proposons APOLO (Optimisation Automatisée des Prompts pour le Diagnostic Émotionnel Linguistique), un cadre explorant systématiquement un espace de prompts plus vaste et plus fin pour améliorer l'efficacité et la robustesse diagnostiques. APOLO formule l'affinement des instructions comme un Processus de Décision Markovien Partiellement Observable et adopte un mécanisme de collaboration multi-agents impliquant les rôles de Planificateur, Enseignant, Critique, Élève et Cible. Dans ce cadre en boucle fermée, le Planificateur définit une trajectoire d'optimisation, tandis que les agents Enseignant-Critique-Élève affinent itérativement les prompts pour renforcer la stabilité et l'efficacité du raisonnement. L'agent Cible détermine quant à lui la poursuite ou l'arrêt de l'optimisation sur la base de l'évaluation des performances. Les résultats expérimentaux montrent qu'APOLO améliore constamment la précision et la robustesse diagnostiques sur des benchmarks domain-spécifiques et stratifiés, démontrant un paradigme scalable et généralisable pour des applications LLM dignes de confiance dans les soins de santé mentale.
L'apprentissage actif (AL) a le potentiel de réduire considérablement les coûts d'annotation dans la segmentation d'images biomédicales 3D, où l'étiquetage expert de données volumiques est à la fois chronophage et coûteux. Pourtant, les méthodes AL existantes sont incapables de surpasser de manière constante des bases de référence d'échantillonnage aléatoire améliorées et adaptées aux données 3D, laissant le domaine sans solution fiable. Nous présentons Class-stratified Scheduled Power Predictive Entropy (ClaSP PE), une stratégie de requête simple et efficace qui aborde deux limitations clés des méthodes AL standard basées sur l'incertitude : le déséquilibre des classes et la redondance dans les sélections précoces. ClaSP PE combine un interrogatoire stratifié par classe pour assurer la couverture des structures sous-représentées et un bruit de puissance à échelle logarithmique avec une planification décroissante pour imposer la diversité des requêtes dans les premières phases de l'AL et encourager l'exploitation plus tard. Dans notre évaluation sur 24 configurations expérimentales utilisant quatre jeux de données biomédicales 3D dans le cadre de référence complet nnActive, ClaSP PE est la seule méthode qui surpasse généralement les bases de référence aléatoires améliorées en termes de qualité de segmentation avec des gains statistiquement significatifs, tout en restant efficace en annotations. De plus, nous simulons explicitement l'application réelle en testant notre méthode sur quatre jeux de données jamais vus auparavant sans adaptation manuelle, où tous les paramètres expérimentaux sont définis selon des lignes directrices prédéfinies. Les résultats confirment que ClaSP PE se généralise robustement à de nouvelles tâches sans nécessiter de réglage spécifique au jeu de données. Dans le cadre nnActive, nous présentons des preuves convaincantes qu'une méthode AL peut constamment surpasser des bases de référence aléatoires adaptées à la segmentation 3D, en termes de performance et d'efficacité des annotations dans un scénario réaliste, proche de la production. Notre implémentation open-source et nos lignes directrices de déploiement claires la rendent immédiatement applicable en pratique. Le code est disponible à l'adresse https://github.com/MIC-DKFZ/nnActive.