papers.description
L'émergence des agents IA introduit des défis complexes de sécurité et de sûreté découlant de l'utilisation autonome d'outils et des interactions environnementales. Les modèles de garde-fous actuels manquent de conscience du risque agentique et de transparence dans le diagnostic des risques. Pour introduire un garde-fou agentique couvrant des comportements risqués complexes et nombreux, nous proposons d'abord une taxonomie unifiée tridimensionnelle qui catégorise orthogonalement les risques agentiques par leur source (où), leur mode de défaillance (comment) et leur conséquence (quoi). Guidé par cette taxonomie structurée et hiérarchique, nous présentons un nouveau benchmark de sécurité agentique à granularité fine (ATBench) et un cadre de Garde-fou Diagnostique pour la sécurité et la sûreté des agents (AgentDoG). AgentDoG assure une surveillance contextuelle et fine sur l'ensemble des trajectoires des agents. Plus crucialement, AgentDoG peut diagnostiquer les causes racines des actions non sécuritaires et des actions apparemment sûres mais déraisonnables, offrant une traçabilité et une transparence dépassant les étiquettes binaires pour faciliter un alignement efficace des agents. Les variantes d'AgentDoG sont disponibles en trois tailles (4B, 7B et 8B de paramètres) au sein des familles de modèles Qwen et Llama. Des résultats expérimentaux approfondis démontrent qu'AgentDoG atteint des performances de pointe en modération de la sécurité agentique dans des scénarios interactifs diversifiés et complexes. Tous les modèles et jeux de données sont librement accessibles.
Face à des problèmes dépassant leurs capacités immédiates, les humains s’appuient sur des outils, offrant ainsi un paradigme prometteur pour améliorer le raisonnement visuel dans les modèles de langage multimodaux de grande taille (MLLM). Un raisonnement efficace dépend donc de la capacité à savoir quels outils utiliser, quand les invoquer et comment les composer sur plusieurs étapes, même face à de nouveaux outils ou à de nouvelles tâches. Nous présentons AdaReasoner, une famille de modèles multimodaux qui apprennent l’utilisation d’outils comme une compétence de raisonnement générale, plutôt que comme un comportement spécifique à un outil ou explicitement supervisé. AdaReasoner est rendu possible par (i) un pipeline d’enrichissement de données scalable exposant les modèles à des interactions longues et multi-étapes avec des outils ; (ii) Tool-GRPO, un algorithme d’apprentissage par renforcement qui optimise la sélection et l’enchaînement des outils en fonction de la réussite de la tâche finale ; et (iii) un mécanisme d’apprentissage adaptatif qui régule dynamiquement l’utilisation des outils. Ensemble, ces composants permettent aux modèles de déduire l’utilité des outils à partir du contexte de la tâche et des résultats intermédiaires, favorisant la coordination de multiples outils et la généralisation à des outils non vus auparavant. Empiriquement, AdaReasoner présente des comportements marqués d’adaptation et de généralisation : il adopte de manière autonome les outils bénéfiques, supprime ceux qui sont non pertinents et ajuste la fréquence d’utilisation des outils en fonction des exigences de la tâche, sans avoir été explicitement entraîné pour cela. Ces capacités se traduisent par des performances de pointe sur des benchmarks exigeants, améliorant le modèle de base 7B de +24,9 % en moyenne et surpassant des systèmes propriétaires robustes tels que GPT-5 sur plusieurs tâches, notamment VSP et Jigsaw.
Offrant un potentiel considérable pour la manipulation robotique, un modèle de base Vision-Langage-Action (VLA) performant est censé généraliser fidèlement les tâches et les plateformes tout en garantissant une efficacité économique (par exemple, les données et les heures de GPU nécessaires à l'adaptation). À cette fin, nous développons LingBot-VLA avec environ 20 000 heures de données réelles provenant de 9 configurations populaires de robots à deux bras. Grâce à une évaluation systématique sur 3 plateformes robotiques, chacune accomplissant 100 tâches avec 130 épisodes post-entraînement par tâche, notre modèle démontre une nette supériorité par rapport aux concurrents, mettant en évidence ses performances solides et sa grande capacité de généralisation. Nous avons également construit une base de code efficace, qui offre un débit de 261 échantillons par seconde par GPU avec une configuration d'entraînement sur 8 GPU, représentant une accélération de 1,5 à 2,8 fois (selon le modèle de base VLM utilisé) par rapport aux bases de code existantes axées sur le VLA. Les caractéristiques ci-dessus garantissent que notre modèle est bien adapté à un déploiement réel. Pour faire progresser le domaine de l'apprentissage robotique, nous fournissons un accès ouvert au code, au modèle de base et aux données de référence, avec pour objectif de permettre des tâches plus complexes et de promouvoir des normes d'évaluation rigoureuses.
Malgré les avancées significatives que représentent les modèles vision-langage (VLM), les architectures actuelles présentent souvent des limitations dans la rétention d'informations visuelles fines, conduisant à une compréhension multimodale grossière. Nous attribuons cette lacune à un paradigme d'entraînement sous-optimal inhérent aux VLM prédominants, qui présente un biais d'optimisation dominé par le texte en conceptualisant les signaux visuels simplement comme des entrées conditionnelles passives plutôt que comme des cibles de supervision. Pour y remédier, nous présentons Youtu-VL, un cadre exploitant le paradigme de Supervision Autoregressive Unifiée Vision-Langage (VLUAS), qui modifie fondamentalement l'objectif d'optimisation de « la vision comme entrée » vers « la vision comme cible ». En intégrant directement des tokens visuels dans le flux de prédiction, Youtu-VL applique une supervision autoregressive unifiée à la fois aux détails visuels et au contenu linguistique. De plus, nous étendons ce paradigme pour inclure des tâches centrées sur la vision, permettant à un VLM standard d'exécuter ces tâches sans ajouts spécifiques. Des évaluations empiriques approfondies démontrent que Youtu-VL atteint des performances compétitives à la fois sur les tâches multimodales générales et sur les tâches centrées sur la vision, établissant une base solide pour le développement d'agents visuels généralistes complets.
Les humains construisent des modèles internes du monde et raisonnent en manipulant les concepts au sein de ces modèles. Les récents progrès en IA, notamment le raisonnement par enchaînement de pensées (Chain-of-Thought, CoT), se rapprochent de ces capacités cognitives humaines, les modèles du monde étant supposés intégrés dans les grands modèles de langage. Les systèmes actuels atteignent des performances de niveau expert dans des domaines formels et abstraits comme les mathématiques et la programmation en s'appuyant principalement sur un raisonnement verbal. Cependant, ils restent très en retard sur les humains dans des domaines comme l'intelligence physique et spatiale, qui nécessitent des représentations et des connaissances préalables plus riches. L'émergence de modèles multimodaux unifiés (UMM) capables à la fois de génération verbale et visuelle a donc suscité un intérêt pour un raisonnement plus proche de l'humain, ancré dans des voies multimodales complémentaires, bien que leurs avantages restent flous. Adoptant une perspective de modélisation du monde, cet article présente la première étude fondamentale sur les conditions et les mécanismes par lesquels la génération visuelle améliore le raisonnement. Notre position clé est l'hypothèse de la supériorité visuelle : pour certaines tâches—en particulier celles ancrées dans le monde physique—la génération visuelle sert plus naturellement de modèle du monde, tandis que les modèles du monde purement verbaux rencontrent des limites dues à des contraintes de représentation ou à des connaissances préalables insuffisantes. Théoriquement, nous formalisons la modélisation interne du monde comme une composante centrale du raisonnement CoT et analysons les distinctions entre les différentes formes de modèles du monde. Empiriquement, nous identifions les tâches qui nécessitent un raisonnement CoT visuo-verbal entrelacé, en construisant une nouvelle suite d'évaluation, VisWorld-Eval. Des expériences contrôlées sur un UMM de pointe montrent que le CoT entrelacé surpasse significativement le CoT purement verbal sur les tâches favorisant la modélisation visuelle du monde, mais n'offre aucun avantage clair autrement. Ensemble, ce travail clarifie le potentiel de la modélisation multimodale du monde pour une IA multimodale plus puissante et plus humaine.
Les clips audio-visuels sur Internet transmettent du sens par le biais de sons et de mouvements variant dans le temps, ce qui va au-delà de ce que le texte seul peut représenter. Pour examiner si les modèles d'IA peuvent comprendre de tels signaux dans des contextes culturels humains, nous présentons AVMeme Exam, un benchmark organisé manuellement comprenant plus d'un millier de sons et vidéos emblématiques d'Internet, couvrant la parole, les chansons, la musique et les effets sonores. Chaque mème est associé à une question-réponse unique évaluant les niveaux de compréhension, du contenu de surface au contexte, de l'émotion à l'usage et aux connaissances générales, ainsi que des métadonnées telles que l'année d'origine, la transcription, le résumé et la sensibilité. Nous évaluons systématiquement les modèles de langage de grande taille multimodaux (MLLM) les plus avancés ainsi que des participants humains à l'aide de ce benchmark. Nos résultats révèlent une limitation constante : les modèles actuels obtiennent de mauvais résultats sur la musique sans texte et les effets sonores, et peinent à raisonner en contexte et en culture par rapport au contenu de surface. Ces résultats mettent en évidence un écart important dans l'intelligence multimodale alignée sur l'humain et appellent à des modèles capables de percevoir de manière contextuelle et culturelle au-delà de la surface de ce qu'ils entendent et voient. Page du projet : avmemeexam.github.io/public
Les modèles de langage de grande taille (LLM) motivent la simulation d'agents génératifs (par exemple, AI Town) pour créer un « monde dynamique », présentant une valeur immense dans les domaines du divertissement et de la recherche. Cependant, pour les non-experts, en particulier ceux ne possédant pas de compétences en programmation, il est difficile de personnaliser eux-mêmes un environnement visualisable. Dans cet article, nous présentons World Craft, un framework agentique de création de mondes permettant de générer une AI Town exécutable et visualisable à partir de descriptions textuelles utilisateur. Il se compose de deux modules principaux : World Scaffold et World Guild. World Scaffold est une standardisation structurée et concise pour développer des scènes de jeu interactives, servant d'échafaudage efficace permettant aux LLM de personnaliser un environnement exécutable de type AI Town. World Guild est un framework multi-agents qui analyse progressivement les intentions des utilisateurs à partir de descriptions approximatives et synthétise les contenus structurés requis (par exemple, la disposition de l'environnement et les ressources) pour World Scaffold. De plus, nous construisons un jeu de données de correction d'erreurs de haute qualité par ingénierie inverse pour enrichir les connaissances spatiales et améliorer la stabilité et la contrôlabilité de la génération des dispositions, tout en rapportant des métriques d'évaluation multidimensionnelles pour des analyses ultérieures. Des expériences approfondies démontrent que notre framework surpasse significativement les agents de code commerciaux existants (Cursor et Antigravity) et les LLM (Qwen3 et Gemini-3-Pro) dans la construction de scènes et la transmission de l'intention narrative, offrant une solution évolutive pour la démocratisation de la création d'environnements.
L'extensibilité des grands modèles de langage (LLM) atteint ses limites. L'élargissement des modèles produit des rendements décroissants, et l'extension de la longueur de contexte n'améliore pas l'expressivité fondamentale. En revanche, la mise à l'échelle en profondeur offre une expressivité théoriquement supérieure, mais les architectures Transformer actuelles peinent à s'entraîner de manière fiable à des profondeurs extrêmes. Nous revisitons la formulation Post-LayerNorm (Post-LN), dont l'instabilité à grande échelle a causé son remplacement par Pre-LN dans les LLM modernes. Nous montrons que le principal mode d'échec de Post-LN provient de la voie résiduelle de type ResNet, qui introduit un problème de gradient qui s'évanouit dans les réseaux profonds. Nous présentons Keel, un Transformer Post-LN qui remplace cette voie résiduelle par une connexion de type Highway. Cette modification préserve le flux du gradient à travers la branche résiduelle, empêchant l'évanouissement du signal des couches supérieures vers les couches inférieures. Contrairement aux méthodes antérieures, Keel permet un entraînement stable à des profondeurs extrêmes sans nécessiter d'initialisation spécialisée ou de techniques d'optimisation complexes. Keel s'entraîne robustement à des profondeurs dépassant 1000 couches et améliore constamment la perplexité et les caractéristiques de mise à l'échelle en profondeur par rapport à Pre-LN. Ces résultats indiquent que Post-LN, associé à une connexion de type Highway, constitue une base simple et efficace pour construire des LLM profondément extensibles, ouvrant la possibilité à de futures architectures à profondeur infinie.
L'apprentissage continu, qui permet aux modèles d'acquérir de nouvelles compétences et connaissances sans dégrader leurs capacités existantes, reste un défi fondamental pour les modèles de fondation. Bien que l'apprentissage par renforcement sur politique puisse réduire l'oubli, il nécessite des fonctions de récompense explicites souvent indisponibles. L'apprentissage à partir de démonstrations d'expert, l'alternative principale, est dominé par le réglage fin supervisé (SFT), qui est intrinsèquement hors politique. Nous présentons le réglage fin par autodistillation (SDFT), une méthode simple permettant un apprentissage sur politique directement à partir de démonstrations. SDFT exploite l'apprentissage en contexte en utilisant un modèle conditionné par une démonstration comme son propre enseignant, générant ainsi des signaux d'entraînement sur politique qui préservent les capacités antérieures tout en acquérant de nouvelles compétences. Sur des tâches d'acquisition de compétences et de connaissances, SDFT surpasse systématiquement le SFT, atteignant une meilleure précision sur les nouvelles tâches tout en réduisant substantiellement l'oubli catastrophique. Dans des expériences d'apprentissage séquentiel, SDFT permet à un modèle unique d'accumuler plusieurs compétences au fil du temps sans régression de performance, établissant la distillation sur politique comme une voie pratique pour l'apprentissage continu à partir de démonstrations.
Nous présentons SimpleSeg, une approche remarquablement simple mais extrêmement efficace pour doter les modèles de langage multimodaux de grande taille (MLLM) d'une perception native au niveau des pixels. Notre méthode reformule la segmentation comme un simple problème de génération de séquence : le modèle prédit directement des séquences de points (coordonnées textuelles) délimitant les contours des objets, entièrement dans son espace linguistique. Pour atteindre une haute fidélité, nous introduisons un pipeline d'entraînement en deux étapes SFtoRL, où l'apprentissage par renforcement avec une récompense basée sur l'IoU affine les séquences de points pour qu'elles correspondent précisément aux contours de référence. Nous constatons que l'architecture standard des MLLM possède une forte capacité inhérente de perception de bas niveau qui peut être libérée sans aucune architecture spécialisée. Sur les benchmarks de segmentation, SimpleSeg atteint des performances comparables, et souvent supérieures, aux méthodes reposant sur des conceptions complexes et spécifiques à la tâche. Ce travail démontre qu'une compréhension spatiale précise peut émerger d'une simple prédiction de points, remettant en cause la nécessité prédominante de composants auxiliaires et ouvrant la voie à des modèles de langage visuel plus unifiés et performants. Page d'accueil : https://simpleseg.github.io/
L'expansion rapide des modèles de langage de grande taille (LLM) à contexte long a ravivé le débat sur la nécessité de la génération augmentée par retrieval (RAG). Cependant, les preuves empiriques révèlent des limitations persistantes de l'inférence à contexte long, incluant le phénomène de perte au milieu, le coût computationnel élevé et la faible extensibilité pour le raisonnement multi-documents. À l'inverse, les systèmes RAG traditionnels, bien qu'efficaces, sont limités par un retrieval plat au niveau des segments, qui introduit du bruit sémantique et ne permet pas une synthèse structurée entre documents. Nous présentons FABLE, un cadre de retrieval amélioré par LLM, bipath et adaptatif, basé sur une structure arborescente (« forest »), qui intègre les LLM à la fois dans l'organisation des connaissances et le processus de retrieval. FABLE construit des index hiérarchiques de type forêt, enrichis par un LLM, avec des structures sémantiques multi-granularités. Il emploie ensuite une stratégie bipath combinant un parcours hiérarchique guidé par LLM avec une propagation prenant en compte la structure, pour une acquisition fine de preuves, incluant un contrôle explicite du budget pour des compromis efficacité-adaptativé. Des expériences approfondies démontrent que FABLE surpasse constamment les méthodes RAG de l'état de l'art et atteint une précision comparable à l'inférence LLM en contexte complet, avec une réduction allant jusqu'à 94 % du nombre de tokens. Cela montre que les LLM à contexte long amplifient, plutôt que de remplacer entièrement, le besoin d'un retrieval structuré.
Ces dernières années, les risques de sécurité associés aux grands modèles de langage sont devenus de plus en plus préoccupants, soulignant le besoin urgent d'atténuer la génération de contenu toxique et nuisible. Le paradigme dominant pour l'alignement sécuritaire des LLM adopte généralement un cadre collaboratif impliquant trois rôles : un attaquant pour la génération d'invites adverses, un défenseur pour la protection sécuritaire et un évaluateur pour l'évaluation des réponses. Dans cet article, nous proposons un cadre d'apprentissage par renforcement en boucle fermée appelé TriPlay-RL, qui permet une collaboration itérative et co-améliorante entre ces trois rôles avec une annotation manuelle quasi nulle. Les résultats expérimentaux montrent que l'attaquant préserve une grande diversité de sorties tout en améliorant de 20 % à 50 % son efficacité adversarial ; le défenseur obtient des gains de 10 % à 30 % en performance sécuritaire sans dégrader sa capacité de raisonnement générale ; et l'évaluateur affine continuellement sa capacité de jugement granulaire à travers les itérations, distinguant précisément les réponses non sécurisées, les refus simples et les conseils utiles. Globalement, notre cadre établit un paradigme efficace et évolutif pour l'alignement sécuritaire des LLM, permettant une co-évolution continue au sein d'une boucle d'apprentissage unifiée.
Récemment, nous avons fréquemment observé des citations ou références hallucinées ne correspondant à aucun travail existant dans des articles en cours d'examen, des prépublications ou des articles publiés. Ces citations hallucinées posent un sérieux problème pour la fiabilité scientifique. Lorsqu'elles apparaissent dans des articles acceptés, elles peuvent également nuire à la crédibilité des conférences. Dans cette étude, nous désignons les citations hallucinées sous le terme « HalluCitation » et examinons systématiquement leur prévalence et leur impact. Nous analysons tous les articles publiés à ACL, NAACL et EMNLP en 2024 et 2025, incluant les articles de la conférence principale, de Findings et des ateliers. Notre analyse révèle que près de 300 articles contiennent au moins une HalluCitation, dont la majorité a été publiée en 2025. Notamment, la moitié de ces articles ont été identifiés à EMNLP 2025, la conférence la plus récente, indiquant que ce problème est en augmentation rapide. De plus, plus de 100 de ces articles ont été acceptés comme articles de la conférence principale et de Findings à EMNLP 2025, affectant ainsi la crédibilité.
L'entraînement moderne parallèle de données (DP) privilégie les communications collectives plutôt que les serveurs de paramètres (PS) pour leur simplicité et leur efficacité sous des charges de travail équilibrées. Cependant, l'hypothèse d'une charge équilibrée ne tient plus lors du post-entraînement des grands modèles de langage (LLM) en raison de la forte variance des longueurs de séquences. Sous des charges déséquilibrées, la communication collective crée des barrières de synchronisation, entraînant une sous-utilisation des dispositifs avec des charges plus légères. Ce changement de dynamique d'entraînement justifie un réexamen du paradigme PS pour sa robustesse face à ce déséquilibre. Nous proposons la Communication à la Demande (ODC), qui intègre PS au parallélisme de données entièrement fragmenté (FSDP) en remplaçant les opérations collectives de rassemblement et de dispersion par une communication directe point à point. Par rapport à FSDP, ODC réduit la barrière de synchronisation d'une fois par couche à une fois par mini-lot et découple la charge de travail sur chaque dispositif, évitant ainsi que les workers plus rapides ne soient bloqués. Elle permet également un équilibrage de charge plus simple et plus efficace au niveau du mini-lot. Sur diverses tâches de post-entraînement de LLM, ODC améliore constamment l'utilisation des dispositifs et le débit d'entraînement, atteignant jusqu'à 36 % d'accélération par rapport au FSDP standard. Ces résultats démontrent qu'ODC est mieux adapté aux charges de travail déséquilibrées prévalentes dans le post-entraînement des LLM. Notre implémentation d'ODC et son intégration à FSDP sont open-source à l'adresse https://github.com/sail-sg/odc.
Malgré des progrès significatifs en alignement, les grands modèles de langage (LLM) restent vulnérables aux attaques adverses qui provoquent des comportements nuisibles. Les techniques de pilotage par activation offrent une approche d'intervention prometteuse au moment de l'inférence, mais les méthodes existantes souffrent de limitations critiques : l'addition d'activation nécessite un réglage minutieux des coefficients et est sensible aux variations de norme spécifiques à la couche, tandis que l'ablation directionnelle ne permet qu'un contrôle binaire. Des travaux récents sur le Pilotage Angulaire introduisent un contrôle continu via une rotation dans un sous-espace 2D, mais leur implémentation pratique viole la préservation de la norme, entraînant un décalage de distribution et un effondrement de la génération, particulièrement dans les modèles de moins de 7 milliards de paramètres. Nous proposons le Pilotage Sélectif, qui résout ces limitations par deux innovations clés : (1) une formulation mathématiquement rigoureuse de rotation préservant la norme qui maintient l'intégrité de la distribution des activations, et (2) une sélection discriminative des couches qui n'applique le pilotage qu'aux endroits où les représentations des caractéristiques présentent un alignement de classe de signe opposé. Des expériences sur neuf modèles démontrent que le Pilotage Sélectif atteint des taux de réussite d'attaque 5,5 fois supérieurs aux méthodes antérieures tout en maintenant zéro violation de perplexité et une rétention des capacités d'environ 100 % sur des benchmarks standard. Notre approche fournit un cadre principiel et efficace pour une modification contrôlée et stable du comportement des LLM. Code : https://github.com/knoveleng/steering
Les modèles de diffusion atteignent des performances de pointe mais échouent souvent à générer des résultats conformes aux préférences et intentions humaines, produisant des images de faible qualité esthétique et présentant des incohérences sémantiques. Les méthodes d'alignement existantes imposent un compromis difficile : les approches par fine-tuning souffrent d'une perte de diversité due à la suroptimisation des récompenses, tandis que les méthodes de mise à l'échelle au moment du test introduisent une surcharge computationnelle importante et tendent à sous-optimiser. Pour résoudre ces limitations, nous proposons HyperAlign, un nouveau cadre qui entraîne un hyperréseau pour un alignement efficace au moment du test. Au lieu de modifier les états latents, HyperAlign génère dynamiquement des poids d'adaptation à faible rang pour moduler les opérateurs de génération du modèle de diffusion. Cela permet d'ajuster de manière adaptative la trajectoire de débruitage en fonction des entrées latentes, des pas de temps et des prompts pour un alignement conditionné par les récompenses. Nous présentons plusieurs variantes d'HyperAlign qui diffèrent par la fréquence d'application de l'hyperréseau, équilibrant performance et efficacité. De plus, nous optimisons l'hyperréseau en utilisant un objectif de score de récompense régularisé par des données de préférence pour réduire le détournement de récompense. Nous évaluons HyperAlign sur plusieurs paradigmes génératifs étendus, incluant Stable Diffusion et FLUX. Il surpasse significativement les méthodes de référence existantes de fine-tuning et de mise à l'échelle au moment du test pour améliorer la cohérence sémantique et l'attrait visuel.
Le cycle de conception Verilog est intrinsèquement laborieux et nécessite une expertise approfondie du domaine. Bien que les modèles de langage à grande échelle (LLM) offrent une voie prometteuse vers l'automatisation, leurs données d'entraînement limitées et leur raisonnement séquentiel intrinsèque ne parviennent pas à saisir la logique formelle stricte et le parallélisme inhérents aux systèmes matériels. Pour surmonter ces obstacles, nous présentons EvolVE, le premier cadre d'analyse de multiples stratégies d'évolution sur des tâches de conception de puces, révélant que la recherche arborescente Monte Carlo (MCTS) excelle à maximiser la correction fonctionnelle, tandis que le raffinement guidé par idées (IGR) s'avère supérieur pour l'optimisation. Nous exploitons en outre la génération structurée de bancs d'essai (STG) pour accélérer le processus évolutif. Pour pallier le manque de benchmarks d'optimisation complexes, nous introduisons IC-RTL, ciblant des problèmes à l'échelle industrielle issus du Concours National de Circuits Intégrés. Les évaluations établissent EvolVE comme la nouvelle référence, atteignant 98,1 % sur VerilogEval v2 et 92 % sur RTLLM v2. De plus, sur la suite industrielle IC-RTL, notre cadre surpasse les implémentations de référence conçues par les participants au concours, réduisant le produit Performance, Puissance, Surface (PPA) jusqu'à 66 % dans le codage de Huffman et de 17 % en moyenne géométrique sur l'ensemble des problèmes. Le code source du benchmark IC-RTL est disponible à l'adresse https://github.com/weiber2002/ICRTL.
Les capteurs de profondeur sont largement déployés sur les plateformes robotiques, et les progrès en matière de simulation de profondeur rapide et haute fidélité ont permis à des politiques robotiques entraînées sur des observations de profondeur d'atteindre un transfert robuste du simulateur à la réalité pour une large gamme de tâches. Malgré cela, l'apprentissage de représentations pour la modalité de profondeur reste peu exploré comparé au RVB, où les modèles de fondation à grande échelle définissent désormais l'état de l'art. Pour combler cette lacune, nous présentons DeFM, un modèle de fondation auto-supervisé entièrement entraîné sur des images de profondeur pour des applications robotiques. En utilisant un objectif d'auto-distillation de style DINO sur un jeu de données curé de 60 millions d'images de profondeur, DeFM apprend des représentations géométriques et sémantiques qui généralisent à divers environnements, tâches et capteurs. Pour préserver la conscience métrique à travers plusieurs échelles, nous introduisons une nouvelle stratégie de normalisation des entrées. Nous distillons ensuite DeFM en modèles compacts adaptés aux systèmes robotiques à ressources limitées. Lorsqu'il est évalué sur des benchmarks de classification, segmentation, navigation, locomotion et manipulation basés sur la profondeur, DeFM atteint des performances à l'état de l'art et démontre une forte généralisation des environnements simulés aux environnements réels. Nous publions tous nos modèles pré-entraînés, qui peuvent être adoptés directement pour l'apprentissage robotique basé sur la profondeur sans réglage spécifique aux tâches. Page web : https://de-fm.github.io/
Résoudre les conflits d'équipe nécessite non seulement des compétences techniques spécifiques, mais aussi une intelligence sociale pour trouver un terrain d'entente et bâtir un consensus. Alors que les agents IA collaborent de plus en plus sur des travaux complexes, ils doivent développer des capacités de coordination pour fonctionner comme des coéquipiers efficaces. Pourtant, nous émettons l'hypothèse que les agents actuels manquent de ces capacités. Pour le vérifier, nous présentons CooperBench, un benchmark de plus de 600 tâches de programmation collaborative couvrant 12 bibliothèques dans 4 langages de programmation. Chaque tâche assigne à deux agents des fonctionnalités différentes qui peuvent être implémentées indépendamment mais peuvent entrer en conflit sans une coordination adéquate. Les tâches sont ancrées dans de véritables dépôts open-source avec des tests rédigés par des experts. En évaluant les agents de programmation les plus performants, nous observons le fléau de la coordination : les agents obtiennent en moyenne des taux de réussite 30 % inférieurs lorsqu'ils travaillent ensemble par rapport à l'exécution individuelle des deux tâches. Ce constat contraste fortement avec les équipes humaines, où l'ajout de coéquipiers améliore généralement la productivité. Notre analyse révèle trois problèmes clés : (1) les canaux de communication sont engorgés par des messages vagues, mal synchronisés et inexacts ; (2) même avec une communication efficace, les agents s'écartent de leurs engagements ; et (3) les agents ont souvent des attentes incorrectes concernant les plans et la communication des autres. Par le biais de simulations à grande échelle, nous observons également des comportements de coordination émergents rares mais intéressants, incluant la division des rôles, la répartition des ressources et la négociation. Notre recherche présente un nouveau benchmark pour la programmation collaborative et appelle à une transition : plutôt que de viser les capacités individuelles des agents, il faut développer leur intelligence sociale.
Les récepteurs couplés aux protéines G (RCPG) régissent des processus physiologiques diversifiés et occupent une place centrale en pharmacologie moderne. Cependant, la découverte de modulateurs des RCPG reste difficile car l'activation du récepteur résulte souvent d'effets allostériques complexes plutôt que d'une affinité de liaison directe, et les tests conventionnels sont lents, coûteux et non optimisés pour capturer ces dynamiques. Nous présentons ici GPCR-Filter, un cadre d'apprentissage profond spécialement conçu pour la découverte de modulateurs des RCPG. Nous avons constitué un jeu de données de haute qualité comprenant plus de 90 000 paires RCPG-ligand validées expérimentalement, offrant une base solide pour l'entraînement et l'évaluation. GPCR-Filter intègre le modèle de langage protéique ESM-3 pour obtenir des représentations séquentielles des RCPG à haute fidélité avec des réseaux de neurones graphiques qui encodent les structures des ligands, couplés par un mécanisme de fusion basé sur l'attention qui apprend les relations fonctionnelles récepteur-ligand. Dans divers contextes d'évaluation, GPCR-Filter surpasse systématiquement les modèles état-de-l'art d'interaction composé-protéine et démontre une forte généralisation à des récepteurs et ligands non vus. Fait notable, le modèle a identifié avec succès des agonistes de niveau micromolaire du récepteur 5-HT1A possédant des architectures chimiques distinctes. Ces résultats établissent GPCR-Filter comme une approche computationnelle évolutive et efficace pour la découverte de modulateurs des RCPG, faisant progresser le développement de médicaments assisté par l'IA pour les systèmes de signalisation complexes.
Les benchmarks sont des outils essentiels pour suivre les progrès dans le développement des grands modèles de langage (LLM), mais les inexactitudes dans les jeux de données et les méthodes d'évaluation compromettent systématiquement leur efficacité. Nous présentons ici Omni-MATH-2, une version révisée manuellement du jeu de données Omni-MATH comprenant un sous-ensemble propre à réponses exactes (n=4181) et un sous-ensemble étiqueté non standard (n=247). Chaque problème a été audité pour garantir sa compilabilité LaTeX, sa résolubilité et sa vérifiabilité, ce qui a impliqué l'ajout de figures ou d'informations manquantes, l'étiquetage des problèmes nécessitant une preuve, une estimation ou une image, et la suppression des éléments superflus. Ce processus réduit significativement le bruit induit par le jeu de données, offrant ainsi une évaluation plus précise des performances des modèles. Le jeu de données annoté nous permet également d'évaluer le bruit induit par l'évaluateur en comparant GPT-5 mini avec l'Omni-Judge original, révélant des écarts substantiels entre les évaluateurs sur les sous-ensembles de problèmes propres et étiquetés. Les annotations expertes révèlent que l'Omni-Judge a tort dans 96,4 % des désaccords entre évaluateurs, indiquant son incapacité à différencier les capacités des modèles, et ce bien avant la saturation du benchmark. À mesure que les problèmes deviennent plus complexes, nous constatons que des évaluateurs de plus en plus compétents deviennent essentiels pour éviter que les erreurs d'évaluation ne masquent les véritables différences entre les modèles. Enfin, aucun des évaluateurs n'identifie les modes d'échec actuels pour le sous-ensemble de problèmes étiquetés, démontrant que la qualité du jeu de données et la fiabilité de l'évaluateur sont toutes deux critiques pour développer des benchmarks précis de la performance des modèles.