papers.description
L'émergence des agents IA introduit des défis complexes de sécurité et de sûreté découlant de l'utilisation autonome d'outils et des interactions environnementales. Les modèles de garde-fous actuels manquent de conscience du risque agentique et de transparence dans le diagnostic des risques. Pour introduire un garde-fou agentique couvrant des comportements risqués complexes et nombreux, nous proposons d'abord une taxonomie unifiée tridimensionnelle qui catégorise orthogonalement les risques agentiques par leur source (où), leur mode de défaillance (comment) et leur conséquence (quoi). Guidé par cette taxonomie structurée et hiérarchique, nous présentons un nouveau benchmark de sécurité agentique à granularité fine (ATBench) et un cadre de Garde-fou Diagnostique pour la sécurité et la sûreté des agents (AgentDoG). AgentDoG assure une surveillance contextuelle et fine sur l'ensemble des trajectoires des agents. Plus crucialement, AgentDoG peut diagnostiquer les causes racines des actions non sécuritaires et des actions apparemment sûres mais déraisonnables, offrant une traçabilité et une transparence dépassant les étiquettes binaires pour faciliter un alignement efficace des agents. Les variantes d'AgentDoG sont disponibles en trois tailles (4B, 7B et 8B de paramètres) au sein des familles de modèles Qwen et Llama. Des résultats expérimentaux approfondis démontrent qu'AgentDoG atteint des performances de pointe en modération de la sécurité agentique dans des scénarios interactifs diversifiés et complexes. Tous les modèles et jeux de données sont librement accessibles.
When humans face problems beyond their immediate capabilities, they rely on tools, providing a promising paradigm for improving visual reasoning in multimodal large language models (MLLMs). Effective reasoning, therefore, hinges on knowing which tools to use, when to invoke them, and how to compose them over multiple steps, even when faced with new tools or new tasks. We introduce AdaReasoner, a family of multimodal models that learn tool use as a general reasoning skill rather than as tool-specific or explicitly supervised behavior. AdaReasoner is enabled by (i) a scalable data curation pipeline exposing models to long-horizon, multi-step tool interactions; (ii) Tool-GRPO, a reinforcement learning algorithm that optimizes tool selection and sequencing based on end-task success; and (iii) an adaptive learning mechanism that dynamically regulates tool usage. Together, these components allow models to infer tool utility from task context and intermediate outcomes, enabling coordination of multiple tools and generalization to unseen tools. Empirically, AdaReasoner exhibits strong tool-adaptive and generalization behaviors: it autonomously adopts beneficial tools, suppresses irrelevant ones, and adjusts tool usage frequency based on task demands, despite never being explicitly trained to do so. These capabilities translate into state-of-the-art performance across challenging benchmarks, improving the 7B base model by +24.9\% on average and surpassing strong proprietary systems such as GPT-5 on multiple tasks, including VSP and Jigsaw.
Offrant un potentiel considérable pour la manipulation robotique, un modèle de base Vision-Langage-Action (VLA) performant est censé généraliser fidèlement les tâches et les plateformes tout en garantissant une efficacité économique (par exemple, les données et les heures de GPU nécessaires à l'adaptation). À cette fin, nous développons LingBot-VLA avec environ 20 000 heures de données réelles provenant de 9 configurations populaires de robots à deux bras. Grâce à une évaluation systématique sur 3 plateformes robotiques, chacune accomplissant 100 tâches avec 130 épisodes post-entraînement par tâche, notre modèle démontre une nette supériorité par rapport aux concurrents, mettant en évidence ses performances solides et sa grande capacité de généralisation. Nous avons également construit une base de code efficace, qui offre un débit de 261 échantillons par seconde par GPU avec une configuration d'entraînement sur 8 GPU, représentant une accélération de 1,5 à 2,8 fois (selon le modèle de base VLM utilisé) par rapport aux bases de code existantes axées sur le VLA. Les caractéristiques ci-dessus garantissent que notre modèle est bien adapté à un déploiement réel. Pour faire progresser le domaine de l'apprentissage robotique, nous fournissons un accès ouvert au code, au modèle de base et aux données de référence, avec pour objectif de permettre des tâches plus complexes et de promouvoir des normes d'évaluation rigoureuses.
Les humains construisent des modèles internes du monde et raisonnent en manipulant les concepts au sein de ces modèles. Les récents progrès en IA, notamment le raisonnement par enchaînement de pensées (Chain-of-Thought, CoT), se rapprochent de ces capacités cognitives humaines, les modèles du monde étant supposés intégrés dans les grands modèles de langage. Les systèmes actuels atteignent des performances de niveau expert dans des domaines formels et abstraits comme les mathématiques et la programmation en s'appuyant principalement sur un raisonnement verbal. Cependant, ils restent très en retard sur les humains dans des domaines comme l'intelligence physique et spatiale, qui nécessitent des représentations et des connaissances préalables plus riches. L'émergence de modèles multimodaux unifiés (UMM) capables à la fois de génération verbale et visuelle a donc suscité un intérêt pour un raisonnement plus proche de l'humain, ancré dans des voies multimodales complémentaires, bien que leurs avantages restent flous. Adoptant une perspective de modélisation du monde, cet article présente la première étude fondamentale sur les conditions et les mécanismes par lesquels la génération visuelle améliore le raisonnement. Notre position clé est l'hypothèse de la supériorité visuelle : pour certaines tâches—en particulier celles ancrées dans le monde physique—la génération visuelle sert plus naturellement de modèle du monde, tandis que les modèles du monde purement verbaux rencontrent des limites dues à des contraintes de représentation ou à des connaissances préalables insuffisantes. Théoriquement, nous formalisons la modélisation interne du monde comme une composante centrale du raisonnement CoT et analysons les distinctions entre les différentes formes de modèles du monde. Empiriquement, nous identifions les tâches qui nécessitent un raisonnement CoT visuo-verbal entrelacé, en construisant une nouvelle suite d'évaluation, VisWorld-Eval. Des expériences contrôlées sur un UMM de pointe montrent que le CoT entrelacé surpasse significativement le CoT purement verbal sur les tâches favorisant la modélisation visuelle du monde, mais n'offre aucun avantage clair autrement. Ensemble, ce travail clarifie le potentiel de la modélisation multimodale du monde pour une IA multimodale plus puissante et plus humaine.
Les clips audio-visuels sur Internet transmettent du sens par le biais de sons et de mouvements variant dans le temps, ce qui va au-delà de ce que le texte seul peut représenter. Pour examiner si les modèles d'IA peuvent comprendre de tels signaux dans des contextes culturels humains, nous présentons AVMeme Exam, un benchmark organisé manuellement comprenant plus d'un millier de sons et vidéos emblématiques d'Internet, couvrant la parole, les chansons, la musique et les effets sonores. Chaque mème est associé à une question-réponse unique évaluant les niveaux de compréhension, du contenu de surface au contexte, de l'émotion à l'usage et aux connaissances générales, ainsi que des métadonnées telles que l'année d'origine, la transcription, le résumé et la sensibilité. Nous évaluons systématiquement les modèles de langage de grande taille multimodaux (MLLM) les plus avancés ainsi que des participants humains à l'aide de ce benchmark. Nos résultats révèlent une limitation constante : les modèles actuels obtiennent de mauvais résultats sur la musique sans texte et les effets sonores, et peinent à raisonner en contexte et en culture par rapport au contenu de surface. Ces résultats mettent en évidence un écart important dans l'intelligence multimodale alignée sur l'humain et appellent à des modèles capables de percevoir de manière contextuelle et culturelle au-delà de la surface de ce qu'ils entendent et voient. Page du projet : avmemeexam.github.io/public
Malgré les avancées significatives que représentent les modèles vision-langage (VLM), les architectures actuelles présentent souvent des limitations dans la rétention d'informations visuelles fines, conduisant à une compréhension multimodale grossière. Nous attribuons cette lacune à un paradigme d'entraînement sous-optimal inhérent aux VLM prédominants, qui présente un biais d'optimisation dominé par le texte en conceptualisant les signaux visuels simplement comme des entrées conditionnelles passives plutôt que comme des cibles de supervision. Pour y remédier, nous présentons Youtu-VL, un cadre exploitant le paradigme de Supervision Autoregressive Unifiée Vision-Langage (VLUAS), qui modifie fondamentalement l'objectif d'optimisation de « la vision comme entrée » vers « la vision comme cible ». En intégrant directement des tokens visuels dans le flux de prédiction, Youtu-VL applique une supervision autoregressive unifiée à la fois aux détails visuels et au contenu linguistique. De plus, nous étendons ce paradigme pour inclure des tâches centrées sur la vision, permettant à un VLM standard d'exécuter ces tâches sans ajouts spécifiques. Des évaluations empiriques approfondies démontrent que Youtu-VL atteint des performances compétitives à la fois sur les tâches multimodales générales et sur les tâches centrées sur la vision, établissant une base solide pour le développement d'agents visuels généralistes complets.
Large Language Models (LLMs) motivate generative agent simulation (e.g., AI Town) to create a ``dynamic world'', holding immense value across entertainment and research. However, for non-experts, especially those without programming skills, it isn't easy to customize a visualizable environment by themselves. In this paper, we introduce World Craft, an agentic world creation framework to create an executable and visualizable AI Town via user textual descriptions. It consists of two main modules, World Scaffold and World Guild. World Scaffold is a structured and concise standardization to develop interactive game scenes, serving as an efficient scaffolding for LLMs to customize an executable AI Town-like environment. World Guild is a multi-agent framework to progressively analyze users' intents from rough descriptions, and synthesizes required structured contents (\eg environment layout and assets) for World Scaffold . Moreover, we construct a high-quality error-correction dataset via reverse engineering to enhance spatial knowledge and improve the stability and controllability of layout generation, while reporting multi-dimensional evaluation metrics for further analysis. Extensive experiments demonstrate that our framework significantly outperforms existing commercial code agents (Cursor and Antigravity) and LLMs (Qwen3 and Gemini-3-Pro). in scene construction and narrative intent conveyance, providing a scalable solution for the democratization of environment creation.
L'expansion rapide des modèles de langage de grande taille (LLM) à contexte long a ravivé le débat sur la nécessité de la génération augmentée par retrieval (RAG). Cependant, les preuves empiriques révèlent des limitations persistantes de l'inférence à contexte long, incluant le phénomène de perte au milieu, le coût computationnel élevé et la faible extensibilité pour le raisonnement multi-documents. À l'inverse, les systèmes RAG traditionnels, bien qu'efficaces, sont limités par un retrieval plat au niveau des segments, qui introduit du bruit sémantique et ne permet pas une synthèse structurée entre documents. Nous présentons FABLE, un cadre de retrieval amélioré par LLM, bipath et adaptatif, basé sur une structure arborescente (« forest »), qui intègre les LLM à la fois dans l'organisation des connaissances et le processus de retrieval. FABLE construit des index hiérarchiques de type forêt, enrichis par un LLM, avec des structures sémantiques multi-granularités. Il emploie ensuite une stratégie bipath combinant un parcours hiérarchique guidé par LLM avec une propagation prenant en compte la structure, pour une acquisition fine de preuves, incluant un contrôle explicite du budget pour des compromis efficacité-adaptativé. Des expériences approfondies démontrent que FABLE surpasse constamment les méthodes RAG de l'état de l'art et atteint une précision comparable à l'inférence LLM en contexte complet, avec une réduction allant jusqu'à 94 % du nombre de tokens. Cela montre que les LLM à contexte long amplifient, plutôt que de remplacer entièrement, le besoin d'un retrieval structuré.
Ces dernières années, les risques de sécurité associés aux grands modèles de langage sont devenus de plus en plus préoccupants, soulignant le besoin urgent d'atténuer la génération de contenu toxique et nuisible. Le paradigme dominant pour l'alignement sécuritaire des LLM adopte généralement un cadre collaboratif impliquant trois rôles : un attaquant pour la génération d'invites adverses, un défenseur pour la protection sécuritaire et un évaluateur pour l'évaluation des réponses. Dans cet article, nous proposons un cadre d'apprentissage par renforcement en boucle fermée appelé TriPlay-RL, qui permet une collaboration itérative et co-améliorante entre ces trois rôles avec une annotation manuelle quasi nulle. Les résultats expérimentaux montrent que l'attaquant préserve une grande diversité de sorties tout en améliorant de 20 % à 50 % son efficacité adversarial ; le défenseur obtient des gains de 10 % à 30 % en performance sécuritaire sans dégrader sa capacité de raisonnement générale ; et l'évaluateur affine continuellement sa capacité de jugement granulaire à travers les itérations, distinguant précisément les réponses non sécurisées, les refus simples et les conseils utiles. Globalement, notre cadre établit un paradigme efficace et évolutif pour l'alignement sécuritaire des LLM, permettant une co-évolution continue au sein d'une boucle d'apprentissage unifiée.
L'extensibilité des grands modèles de langage (LLM) atteint ses limites. L'élargissement des modèles produit des rendements décroissants, et l'extension de la longueur de contexte n'améliore pas l'expressivité fondamentale. En revanche, la mise à l'échelle en profondeur offre une expressivité théoriquement supérieure, mais les architectures Transformer actuelles peinent à s'entraîner de manière fiable à des profondeurs extrêmes. Nous revisitons la formulation Post-LayerNorm (Post-LN), dont l'instabilité à grande échelle a causé son remplacement par Pre-LN dans les LLM modernes. Nous montrons que le principal mode d'échec de Post-LN provient de la voie résiduelle de type ResNet, qui introduit un problème de gradient qui s'évanouit dans les réseaux profonds. Nous présentons Keel, un Transformer Post-LN qui remplace cette voie résiduelle par une connexion de type Highway. Cette modification préserve le flux du gradient à travers la branche résiduelle, empêchant l'évanouissement du signal des couches supérieures vers les couches inférieures. Contrairement aux méthodes antérieures, Keel permet un entraînement stable à des profondeurs extrêmes sans nécessiter d'initialisation spécialisée ou de techniques d'optimisation complexes. Keel s'entraîne robustement à des profondeurs dépassant 1000 couches et améliore constamment la perplexité et les caractéristiques de mise à l'échelle en profondeur par rapport à Pre-LN. Ces résultats indiquent que Post-LN, associé à une connexion de type Highway, constitue une base simple et efficace pour construire des LLM profondément extensibles, ouvrant la possibilité à de futures architectures à profondeur infinie.
Malgré des progrès significatifs en alignement, les grands modèles de langage (LLM) restent vulnérables aux attaques adverses qui provoquent des comportements nuisibles. Les techniques de pilotage par activation offrent une approche d'intervention prometteuse au moment de l'inférence, mais les méthodes existantes souffrent de limitations critiques : l'addition d'activation nécessite un réglage minutieux des coefficients et est sensible aux variations de norme spécifiques à la couche, tandis que l'ablation directionnelle ne permet qu'un contrôle binaire. Des travaux récents sur le Pilotage Angulaire introduisent un contrôle continu via une rotation dans un sous-espace 2D, mais leur implémentation pratique viole la préservation de la norme, entraînant un décalage de distribution et un effondrement de la génération, particulièrement dans les modèles de moins de 7 milliards de paramètres. Nous proposons le Pilotage Sélectif, qui résout ces limitations par deux innovations clés : (1) une formulation mathématiquement rigoureuse de rotation préservant la norme qui maintient l'intégrité de la distribution des activations, et (2) une sélection discriminative des couches qui n'applique le pilotage qu'aux endroits où les représentations des caractéristiques présentent un alignement de classe de signe opposé. Des expériences sur neuf modèles démontrent que le Pilotage Sélectif atteint des taux de réussite d'attaque 5,5 fois supérieurs aux méthodes antérieures tout en maintenant zéro violation de perplexité et une rétention des capacités d'environ 100 % sur des benchmarks standard. Notre approche fournit un cadre principiel et efficace pour une modification contrôlée et stable du comportement des LLM. Code : https://github.com/knoveleng/steering
L'entraînement moderne parallèle de données (DP) privilégie les communications collectives plutôt que les serveurs de paramètres (PS) pour leur simplicité et leur efficacité sous des charges de travail équilibrées. Cependant, l'hypothèse d'une charge équilibrée ne tient plus lors du post-entraînement des grands modèles de langage (LLM) en raison de la forte variance des longueurs de séquences. Sous des charges déséquilibrées, la communication collective crée des barrières de synchronisation, entraînant une sous-utilisation des dispositifs avec des charges plus légères. Ce changement de dynamique d'entraînement justifie un réexamen du paradigme PS pour sa robustesse face à ce déséquilibre. Nous proposons la Communication à la Demande (ODC), qui intègre PS au parallélisme de données entièrement fragmenté (FSDP) en remplaçant les opérations collectives de rassemblement et de dispersion par une communication directe point à point. Par rapport à FSDP, ODC réduit la barrière de synchronisation d'une fois par couche à une fois par mini-lot et découple la charge de travail sur chaque dispositif, évitant ainsi que les workers plus rapides ne soient bloqués. Elle permet également un équilibrage de charge plus simple et plus efficace au niveau du mini-lot. Sur diverses tâches de post-entraînement de LLM, ODC améliore constamment l'utilisation des dispositifs et le débit d'entraînement, atteignant jusqu'à 36 % d'accélération par rapport au FSDP standard. Ces résultats démontrent qu'ODC est mieux adapté aux charges de travail déséquilibrées prévalentes dans le post-entraînement des LLM. Notre implémentation d'ODC et son intégration à FSDP sont open-source à l'adresse https://github.com/sail-sg/odc.
We present SimpleSeg, a strikingly simple yet highly effective approach to endow Multimodal Large Language Models (MLLMs) with native pixel-level perception. Our method reframes segmentation as a simple sequence generation problem: the model directly predicts sequences of points (textual coordinates) delineating object boundaries, entirely within its language space. To achieve high fidelity, we introduce a two-stage SFtoRL training pipeline, where Reinforcement Learning with an IoU-based reward refines the point sequences to accurately match ground-truth contours. We find that the standard MLLM architecture possesses a strong, inherent capacity for low-level perception that can be unlocked without any specialized architecture. On segmentation benchmarks, SimpleSeg achieves performance that is comparable to, and often surpasses, methods relying on complex, task-specific designs. This work lays out that precise spatial understanding can emerge from simple point prediction, challenging the prevailing need for auxiliary components and paving the way for more unified and capable VLMs. Homepage: https://simpleseg.github.io/
Récemment, nous avons fréquemment observé des citations ou références hallucinées ne correspondant à aucun travail existant dans des articles en cours d'examen, des prépublications ou des articles publiés. Ces citations hallucinées posent un sérieux problème pour la fiabilité scientifique. Lorsqu'elles apparaissent dans des articles acceptés, elles peuvent également nuire à la crédibilité des conférences. Dans cette étude, nous désignons les citations hallucinées sous le terme « HalluCitation » et examinons systématiquement leur prévalence et leur impact. Nous analysons tous les articles publiés à ACL, NAACL et EMNLP en 2024 et 2025, incluant les articles de la conférence principale, de Findings et des ateliers. Notre analyse révèle que près de 300 articles contiennent au moins une HalluCitation, dont la majorité a été publiée en 2025. Notamment, la moitié de ces articles ont été identifiés à EMNLP 2025, la conférence la plus récente, indiquant que ce problème est en augmentation rapide. De plus, plus de 100 de ces articles ont été acceptés comme articles de la conférence principale et de Findings à EMNLP 2025, affectant ainsi la crédibilité.
Diffusion models achieve state-of-the-art performance but often fail to generate outputs that align with human preferences and intentions, resulting in images with poor aesthetic quality and semantic inconsistencies. Existing alignment methods present a difficult trade-off: fine-tuning approaches suffer from loss of diversity with reward over-optimization, while test-time scaling methods introduce significant computational overhead and tend to under-optimize. To address these limitations, we propose HyperAlign, a novel framework that trains a hypernetwork for efficient and effective test-time alignment. Instead of modifying latent states, HyperAlign dynamically generates low-rank adaptation weights to modulate the diffusion model's generation operators. This allows the denoising trajectory to be adaptively adjusted based on input latents, timesteps and prompts for reward-conditioned alignment. We introduce multiple variants of HyperAlign that differ in how frequently the hypernetwork is applied, balancing between performance and efficiency. Furthermore, we optimize the hypernetwork using a reward score objective regularized with preference data to reduce reward hacking. We evaluate HyperAlign on multiple extended generative paradigms, including Stable Diffusion and FLUX. It significantly outperforms existing fine-tuning and test-time scaling baselines in enhancing semantic consistency and visual appeal.
Les benchmarks sont des outils essentiels pour suivre les progrès dans le développement des grands modèles de langage (LLM), mais les inexactitudes dans les jeux de données et les méthodes d'évaluation compromettent systématiquement leur efficacité. Nous présentons ici Omni-MATH-2, une version révisée manuellement du jeu de données Omni-MATH comprenant un sous-ensemble propre à réponses exactes (n=4181) et un sous-ensemble étiqueté non standard (n=247). Chaque problème a été audité pour garantir sa compilabilité LaTeX, sa résolubilité et sa vérifiabilité, ce qui a impliqué l'ajout de figures ou d'informations manquantes, l'étiquetage des problèmes nécessitant une preuve, une estimation ou une image, et la suppression des éléments superflus. Ce processus réduit significativement le bruit induit par le jeu de données, offrant ainsi une évaluation plus précise des performances des modèles. Le jeu de données annoté nous permet également d'évaluer le bruit induit par l'évaluateur en comparant GPT-5 mini avec l'Omni-Judge original, révélant des écarts substantiels entre les évaluateurs sur les sous-ensembles de problèmes propres et étiquetés. Les annotations expertes révèlent que l'Omni-Judge a tort dans 96,4 % des désaccords entre évaluateurs, indiquant son incapacité à différencier les capacités des modèles, et ce bien avant la saturation du benchmark. À mesure que les problèmes deviennent plus complexes, nous constatons que des évaluateurs de plus en plus compétents deviennent essentiels pour éviter que les erreurs d'évaluation ne masquent les véritables différences entre les modèles. Enfin, aucun des évaluateurs n'identifie les modes d'échec actuels pour le sous-ensemble de problèmes étiquetés, démontrant que la qualité du jeu de données et la fiabilité de l'évaluateur sont toutes deux critiques pour développer des benchmarks précis de la performance des modèles.
Les récepteurs couplés aux protéines G (RCPG) régissent des processus physiologiques diversifiés et occupent une place centrale en pharmacologie moderne. Cependant, la découverte de modulateurs des RCPG reste difficile car l'activation du récepteur résulte souvent d'effets allostériques complexes plutôt que d'une affinité de liaison directe, et les tests conventionnels sont lents, coûteux et non optimisés pour capturer ces dynamiques. Nous présentons ici GPCR-Filter, un cadre d'apprentissage profond spécialement conçu pour la découverte de modulateurs des RCPG. Nous avons constitué un jeu de données de haute qualité comprenant plus de 90 000 paires RCPG-ligand validées expérimentalement, offrant une base solide pour l'entraînement et l'évaluation. GPCR-Filter intègre le modèle de langage protéique ESM-3 pour obtenir des représentations séquentielles des RCPG à haute fidélité avec des réseaux de neurones graphiques qui encodent les structures des ligands, couplés par un mécanisme de fusion basé sur l'attention qui apprend les relations fonctionnelles récepteur-ligand. Dans divers contextes d'évaluation, GPCR-Filter surpasse systématiquement les modèles état-de-l'art d'interaction composé-protéine et démontre une forte généralisation à des récepteurs et ligands non vus. Fait notable, le modèle a identifié avec succès des agonistes de niveau micromolaire du récepteur 5-HT1A possédant des architectures chimiques distinctes. Ces résultats établissent GPCR-Filter comme une approche computationnelle évolutive et efficace pour la découverte de modulateurs des RCPG, faisant progresser le développement de médicaments assisté par l'IA pour les systèmes de signalisation complexes.
Les capteurs de profondeur sont largement déployés sur les plateformes robotiques, et les progrès en matière de simulation de profondeur rapide et haute fidélité ont permis à des politiques robotiques entraînées sur des observations de profondeur d'atteindre un transfert robuste du simulateur à la réalité pour une large gamme de tâches. Malgré cela, l'apprentissage de représentations pour la modalité de profondeur reste peu exploré comparé au RVB, où les modèles de fondation à grande échelle définissent désormais l'état de l'art. Pour combler cette lacune, nous présentons DeFM, un modèle de fondation auto-supervisé entièrement entraîné sur des images de profondeur pour des applications robotiques. En utilisant un objectif d'auto-distillation de style DINO sur un jeu de données curé de 60 millions d'images de profondeur, DeFM apprend des représentations géométriques et sémantiques qui généralisent à divers environnements, tâches et capteurs. Pour préserver la conscience métrique à travers plusieurs échelles, nous introduisons une nouvelle stratégie de normalisation des entrées. Nous distillons ensuite DeFM en modèles compacts adaptés aux systèmes robotiques à ressources limitées. Lorsqu'il est évalué sur des benchmarks de classification, segmentation, navigation, locomotion et manipulation basés sur la profondeur, DeFM atteint des performances à l'état de l'art et démontre une forte généralisation des environnements simulés aux environnements réels. Nous publions tous nos modèles pré-entraînés, qui peuvent être adoptés directement pour l'apprentissage robotique basé sur la profondeur sans réglage spécifique aux tâches. Page web : https://de-fm.github.io/
Resolving team conflicts requires not only task-specific competence, but also social intelligence to find common ground and build consensus. As AI agents increasingly collaborate on complex work, they must develop coordination capabilities to function as effective teammates. Yet we hypothesize that current agents lack these capabilities. To test this, we introduce CooperBench, a benchmark of over 600 collaborative coding tasks across 12 libraries in 4 programming languages. Each task assigns two agents different features that can be implemented independently but may conflict without proper coordination. Tasks are grounded in real open-source repositories with expert-written tests. Evaluating state-of-the-art coding agents, we observe the curse of coordination: agents achieve on average 30% lower success rates when working together compared to performing both tasks individually. This contrasts sharply with human teams, where adding teammates typically improves productivity. Our analysis reveals three key issues: (1) communication channels become jammed with vague, ill-timed, and inaccurate messages; (2) even with effective communication, agents deviate from their commitments; and (3) agents often hold incorrect expectations about others' plans and communication. Through large-scale simulation, we also observe rare but interesting emergent coordination behavior including role division, resource division, and negotiation. Our research presents a novel benchmark for collaborative coding and calls for a shift from pursuing individual agent capability to developing social intelligence.
Le cycle de conception Verilog est intrinsèquement laborieux et nécessite une expertise approfondie du domaine. Bien que les modèles de langage à grande échelle (LLM) offrent une voie prometteuse vers l'automatisation, leurs données d'entraînement limitées et leur raisonnement séquentiel intrinsèque ne parviennent pas à saisir la logique formelle stricte et le parallélisme inhérents aux systèmes matériels. Pour surmonter ces obstacles, nous présentons EvolVE, le premier cadre d'analyse de multiples stratégies d'évolution sur des tâches de conception de puces, révélant que la recherche arborescente Monte Carlo (MCTS) excelle à maximiser la correction fonctionnelle, tandis que le raffinement guidé par idées (IGR) s'avère supérieur pour l'optimisation. Nous exploitons en outre la génération structurée de bancs d'essai (STG) pour accélérer le processus évolutif. Pour pallier le manque de benchmarks d'optimisation complexes, nous introduisons IC-RTL, ciblant des problèmes à l'échelle industrielle issus du Concours National de Circuits Intégrés. Les évaluations établissent EvolVE comme la nouvelle référence, atteignant 98,1 % sur VerilogEval v2 et 92 % sur RTLLM v2. De plus, sur la suite industrielle IC-RTL, notre cadre surpasse les implémentations de référence conçues par les participants au concours, réduisant le produit Performance, Puissance, Surface (PPA) jusqu'à 66 % dans le codage de Huffman et de 17 % en moyenne géométrique sur l'ensemble des problèmes. Le code source du benchmark IC-RTL est disponible à l'adresse https://github.com/weiber2002/ICRTL.
L'apprentissage continu, qui permet aux modèles d'acquérir de nouvelles compétences et connaissances sans dégrader leurs capacités existantes, reste un défi fondamental pour les modèles de fondation. Bien que l'apprentissage par renforcement sur politique puisse réduire l'oubli, il nécessite des fonctions de récompense explicites souvent indisponibles. L'apprentissage à partir de démonstrations d'expert, l'alternative principale, est dominé par le réglage fin supervisé (SFT), qui est intrinsèquement hors politique. Nous présentons le réglage fin par autodistillation (SDFT), une méthode simple permettant un apprentissage sur politique directement à partir de démonstrations. SDFT exploite l'apprentissage en contexte en utilisant un modèle conditionné par une démonstration comme son propre enseignant, générant ainsi des signaux d'entraînement sur politique qui préservent les capacités antérieures tout en acquérant de nouvelles compétences. Sur des tâches d'acquisition de compétences et de connaissances, SDFT surpasse systématiquement le SFT, atteignant une meilleure précision sur les nouvelles tâches tout en réduisant substantiellement l'oubli catastrophique. Dans des expériences d'apprentissage séquentiel, SDFT permet à un modèle unique d'accumuler plusieurs compétences au fil du temps sans régression de performance, établissant la distillation sur politique comme une voie pratique pour l'apprentissage continu à partir de démonstrations.