papers.description
De nombreuses méthodes d'attention creuse non entraînables sont efficaces pour accélérer les modèles de diffusion. Récemment, plusieurs travaux suggèrent que rendre l'attention creuse entraînable peut permettre d'augmenter davantage la parcimonie tout en préservant la qualité de génération. Nous étudions trois questions clés : (1) quand est-ce que les deux règles de masquage courantes, à savoir Top-k et Top-p, échouent, et comment pouvons-nous éviter ces échecs ? (2) pourquoi l'attention creuse entraînable peut-elle atteindre une parcimonie plus élevée que les méthodes non entraînables ? (3) quelles sont les limites du réglage fin de l'attention creuse en utilisant la perte de diffusion, et comment pouvons-nous les résoudre ? Sur la base de cette analyse, nous proposons SpargeAttention2, une méthode d'attention creuse entraînable qui atteint une haute parcimonie sans dégrader la qualité de génération. SpargeAttention2 inclut (i) une règle de masquage hybride qui combine Top-k et Top-p pour un masquage plus robuste à haute parcimonie, (ii) une implémentation efficace de l'attention creuse entraînable, et (iii) un objectif de réglage fin inspiré de la distillation pour mieux préserver la qualité de génération pendant le réglage fin utilisant l'attention creuse. Les expériences sur les modèles de diffusion vidéo montrent que SpargeAttention2 atteint 95 % de parcimonie d'attention et une accélération de l'attention d'un facteur 16,2 tout en maintenant la qualité de génération, surpassant constamment les méthodes d'attention creuse antérieures.
Nous présentons Unified Latents (UL), un cadre pour l'apprentissage de représentations latentes conjointement régularisées par un prior de diffusion et décodées par un modèle de diffusion. En reliant le bruit de sortie de l'encodeur au niveau de bruit minimal du prior, nous obtenons un objectif d'entraînement simple qui fournit une borne supérieure serrée sur le débit binaire latent. Sur ImageNet-512, notre approche atteint un FID compétitif de 1,4, avec une qualité de reconstruction élevée (PSNR) tout en nécessitant moins de FLOPs d'entraînement que les modèles entraînés sur les latents de Stable Diffusion. Sur Kinetics-600, nous établissons un nouvel état de l'art avec un FVD de 1,3.
Le document présente GUI-Owl-1.5, le dernier modèle d'agent d'interface graphique natif proposant des variantes instruction/réflexion dans plusieurs tailles (2B/4B/8B/32B/235B) et prenant en charge une gamme de plateformes (bureau, mobile, navigateur et autres) pour permettre une collaboration cloud-edge et une interaction en temps réel. GUI-Owl-1.5 obtient des résultats state-of-the-art sur plus de 20 benchmarks d'interface graphique parmi les modèles open source : (1) sur les tâches d'automatisation d'interface, il atteint 56,5 sur OSWorld, 71,6 sur AndroidWorld et 48,4 sur WebArena ; (2) sur les tâches de grounding, il obtient 80,3 sur ScreenSpotPro ; (3) sur les tâches d'appel d'outils, il atteint 47,6 sur OSWorld-MCP et 46,8 sur MobileWorld ; (4) sur les tâches de mémoire et de connaissances, il obtient 75,5 sur GUI-Knowledge Bench. GUI-Owl-1.5 intègre plusieurs innovations clés : (1) Roue des données hybride : nous construisons le pipeline de données pour la compréhension d'interface et la génération de trajectoires en combinant environnements simulés et sandbox cloud, afin d'améliorer l'efficacité et la qualité de la collecte de données. (2) Amélioration unifiée des capacités de l'agent : nous utilisons un pipeline unifié de synthèse de la pensée pour renforcer les capacités de raisonnement du modèle, tout en mettant l'accent sur l'amélioration des compétences clés de l'agent, incluant l'utilisation d'outils/MCP, la mémoire et l'adaptation multi-agents. (3) Mise à l'échelle par RL multi-plateformes : Nous proposons un nouvel algorithme de RL environnemental, MRPO, pour relever les défis des conflits multi-plateformes et de la faible efficacité d'entraînement des tâches à long horizon. Les modèles GUI-Owl-1.5 sont open source, et une démonstration en ligne de sandbox cloud est disponible à l'adresse https://github.com/X-PLUG/MobileAgent.
Les assistants IA agentiques qui exécutent de manière autonome des tâches à plusieurs étapes soulèvent des questions ouvertes en matière d'expérience utilisateur : comment ces systèmes doivent-ils communiquer leur progression et leur raisonnement pendant des opérations prolongées, en particulier dans des contextes critiques pour l'attention comme la conduite automobile ? Nous étudions le moment et la verbosité des retours d'information d'assistants vocaux agentiques basés sur des LLM intégrés à un véhicule, au moyen d'une étude contrôlée à méthodes mixtes (N=45) comparant un retour sur les étapes planifiées et les résultats intermédiaires à un fonctionnement silencieux ne fournissant qu'une réponse finale. En utilisant un paradigme de double tâche avec un assistant vocal embarqué, nous avons constaté qu'un retour d'information intermédiaire améliorait significativement la perception de la vitesse, la confiance et l'expérience utilisateur, tout en réduisant la charge cognitive – des effets qui se sont maintenus quelle que soit la complexité de la tâche ou le contexte d'interaction. Les entretiens ont en outre révélé une préférence des utilisateurs pour une approche adaptative : une transparence initiale élevée pour établir la confiance, suivie d'une réduction progressive de la verbosité à mesure que le système fait preuve de fiabilité, avec des ajustements basés sur l'enjeu de la tâche et le contexte situationnel. Nous traduisons nos résultats empiriques en implications pour la conception du moment et de la verbosité des retours dans les assistants agentiques, afin d'équilibrer transparence et efficacité.
Les modèles de langage de grande taille (LLM) sont de plus en plus utilisés pour résoudre des problèmes complexes qui ne sont pas nécessairement résolus en une seule réponse, mais qui nécessitent une interaction avec un environnement pour acquérir des informations. Dans ces scénarios, les LLM doivent raisonner sur les compromis coût-incertitude inhérents quant au moment d'arrêter l'exploration et de s'engager sur une réponse. Par exemple, pour une tâche de programmation, un LLM devrait tester un snippet de code généré s'il est incertain de son exactitude ; le coût de l'écriture d'un test est non nul, mais généralement inférieur au coût d'une erreur. Dans ce travail, nous montrons que nous pouvons amener les LLM à raisonner explicitement sur l'équilibrage de ces compromis coût-incertitude, puis à effectuer une exploration de l'environnement plus optimale. Nous formalisons plusieurs tâches, incluant la recherche d'information et le codage, comme des problèmes de prise de décision séquentielle dans l'incertitude. Chaque problème possède un état d'environnement latent sur lequel on peut raisonner via une information a priori transmise à l'agent LLM. Nous introduisons un cadre appelé Calibrate-Then-Act (CTA), dans lequel nous fournons au LLM ce contexte supplémentaire pour lui permettre d'agir de manière plus optimale. Cette amélioration est préservée même lors d'un apprentissage par renforcement (RL) appliqué à la fois au modèle de base et au CTA. Nos résultats sur des tâches de questions-réponses informationnelles et sur une tâche de codage simplifiée montrent que rendre explicites les compromis coût-bénéfice avec CTA peut aider les agents à découvrir des stratégies de prise de décision plus optimales.
Les démonstrations humaines collectées par des dispositifs portables (par exemple, des gants tactiles) fournissent une supervision rapide et habile pour l'apprentissage de politiques, guidées par un retour tactile riche et naturel. Cependant, un défi majeur consiste à transférer les signaux tactiles collectés par l'humain vers les robots malgré les différences de modalités sensorielles et d'incarnation. Les approches existantes de transfert humain-robot (H2R) intégrant le toucher supposent souvent des capteurs tactiles identiques, nécessitent des données appariées et impliquent peu ou pas d'écart d'incarnation entre le démonstrateur humain et les robots, limitant ainsi l'évolutivité et la généralité. Nous proposons TactAlign, une méthode d'alignement tactile trans-embodiment qui transfère les signaux tactiles collectés par l'humain vers un robot ayant une incarnation différente. TactAlign transforme les observations tactiles humaines et robotiques en une représentation latente partagée à l'aide d'un flux rectifié, sans jeux de données appariés, étiquettes manuelles ou informations privilégiées. Notre méthode permet un transport latent à faible coût guidé par des pseudo-paires dérivées de l'interaction main-objet. Nous démontrons que TactAlign améliore le transfert de politiques H2R dans plusieurs tâches riches en contacts (pivotement, insertion, fermeture de couvercle), généralise à des objets et tâches non vus avec des données humaines (moins de 5 minutes), et permet un transfert H2R zero-shot sur une tâche hautement habile (vissage d'ampoule).
Nous présentons le rapport technique d'Arcee Trinity Large, un modèle sparse de type Mixture-of-Experts comptant 400 milliards de paramètres au total, dont 13 milliards sont activés par token. Nous décrivons également Trinity Nano et Trinity Mini, Trinity Nano possédant 6 milliards de paramètres totaux avec 1 milliard activé par token, et Trinity Mini 26 milliards de paramètres totaux avec 3 milliards activés par token. L'architecture moderne des modèles intègre une attention locale et globale entrelacée, une attention à porte, une normalisation sandwich à échelle de profondeur, et un routage sigmoïde pour le Mixture-of-Experts. Pour Trinity Large, nous introduisons également une nouvelle stratégie d'équilibrage de charge pour le MoE intitulée Soft-clamped Momentum Expert Bias Updates (SMEBU). Nous avons entraîné les modèles à l'aide de l'optimiseur Muon. Les trois modèles ont terminé leur entraînement sans aucun pic de perte. Trinity Nano et Trinity Mini ont été pré-entraînés sur 10 000 milliards de tokens, et Trinity Large sur 17 000 milliards de tokens. Les points de contrôle des modèles sont disponibles à l'adresse https://huggingface.co/arcee-ai.
Les Transformers de Diffusion (DiTs) ont atteint des performances de pointe en génération d'images et de vidéos, mais leur succès se fait au prix d'une lourde charge computationnelle. Cette inefficacité est largement due au processus de tokenisation fixe, qui utilise des patchs de taille constante tout au long de la phase de débruitage, indépendamment de la complexité du contenu. Nous proposons une tokenisation dynamique, une stratégie efficace au moment du test qui fait varier la taille des patchs en fonction de la complexité du contenu et du pas de temps de débruitage. Notre idée clé est que les premiers pas de temps ne nécessitent que des patchs plus grossiers pour modéliser la structure globale, tandis que les itérations ultérieures demandent des patchs plus fins (de plus petite taille) pour affiner les détails locaux. Lors de l'inférence, notre méthode réalloue dynamiquement la taille des patchs à travers les étapes de débruitage pour la génération d'images et de vidéos, et réduit substantiellement le coût tout en préservant la qualité perceptuelle de la génération. Des expériences approfondies démontrent l'efficacité de notre approche : elle permet d'atteindre une accélération allant jusqu'à 3,52 fois et 3,2 fois sur FLUX-1.Dev et Wan 2.1, respectivement, sans compromettre la qualité de génération ni la fidélité aux instructions.
Pour comprendre et identifier les risques sans précédent posés par les modèles d'intelligence artificielle (IA) à la pointe du progrès, le cadre pratique de gestion des risques de l'IA frontière présente une évaluation complète de leurs risques frontières. Alors que les capacités générales des grands modèles de langage (LLM) évoluent rapidement et que l'IA agentique se généralise, cette version du rapport technique d'analyse des risques présente une évaluation actualisée et granulaire de cinq dimensions critiques : l'offensive cybernétique, la persuasion et la manipulation, la tromperie stratégique, la R\&D incontrôlée de l'IA et l'auto-réplication. Plus précisément, nous introduisons des scénarios plus complexes pour l'offensive cybernétique. Pour la persuasion et la manipulation, nous évaluons le risque de persuasion entre LLM sur des modèles nouvellement publiés. Pour la tromperie stratégique et la capacité à manigancer, nous ajoutons une nouvelle expérience concernant le désalignement émergent. Pour la R\&D incontrôlée de l'IA, nous nous concentrons sur la « mau-évolution » des agents alors qu'ils étendent de manière autonome leurs substrats mémoire et leurs boîtes à outils. Par ailleurs, nous surveillons et évaluons également les performances de sécurité d'OpenClaw lors de l'interaction sur Moltbook. Pour l'auto-réplication, nous introduisons un nouveau scénario contraint en ressources. Plus important encore, nous proposons et validons une série de stratégies d'atténuation robustes pour répondre à ces menaces émergentes, fournissant une voie technique et opérationnelle préliminaire pour le déploiement sécurisé de l'IA frontière. Ce travail reflète notre compréhension actuelle des risques frontières de l'IA et appelle à une action collective pour atténuer ces défis.
Si les grands modèles de langage de pointe démontrent d'impressionnantes capacités de raisonnement et mathématiques, le processus pratique d'entraînement de modèles de langage scientifiques spécialisés à partir de sources brutes reste insuffisamment documenté. Dans ce travail, nous présentons une étude de cas détaillée de l'entraînement d'un modèle de langage scientifique de 1,36 milliard de paramètres directement à partir des sources LaTeX brutes d'arXiv couvrant les mathématiques, l'informatique et la physique théorique. Nous décrivons un pipeline de bout en bout incluant le filtrage des métadonnées, la validation des archives, l'extraction du LaTeX, la normalisation du texte, la tokenisation adaptée au domaine et l'entraînement dense d'un transformeur sous contrainte de calcul (2 GPU A100). À travers 24 séries d'expériences, nous analysons la stabilité de l'entraînement, les lois d'échelle, les pertes de rendement des données et les goulots d'étranglement infrastructurels. Nos résultats soulignent comment les décisions de prétraitement affectent significativement le volume de tokens utilisables, comment la tokenisation impacte la stabilité symbolique, et comment les contraintes de stockage et d'E/S peuvent rivaliser avec le calcul comme facteurs limitants. Nous analysons en outre la dynamique de convergence et montrons un comportement d'entraînement stable dans un régime riche en données (52 milliards de tokens de pré-entraînement). Plutôt que de proposer une nouvelle architecture, ce travail fournit un compte rendu transparent et ancré dans l'ingénierie de l'entraînement d'un petit modèle de langage scientifique à partir de zéro. Nous espérons que ces insights aideront les chercheurs travaillant avec des budgets de calcul modérés qui souhaitent construire des modèles spécialisés dans un domaine.
Une grande partie des progrès en Apprentissage par Renforcement Multi-Agent (MARL) pour les jeux à information imparfaite a historiquement reposé sur l'affinement itératif manuel de méthodes de référence. Bien que des familles fondamentales comme la Minimisation de Regret Contrefactuel (CFR) et les Oracles de Réponse dans l'Espace des Politiques (PSRO) s'appuient sur des bases théoriques solides, la conception de leurs variantes les plus efficaces repose souvent sur l'intuition humaine pour naviguer dans un vaste espace de conception algorithmique. Dans ce travail, nous proposons d'utiliser AlphaEvolve, un agent de codage évolutif alimenté par des grands modèles de langage, pour découvrir automatiquement de nouveaux algorithmes d'apprentissage multiagent. Nous démontrons la généralité de ce cadre en faisant évoluer de nouvelles variantes pour deux paradigmes distincts d'apprentissage théorique des jeux. Premièrement, dans le domaine de la minimisation itérative du regret, nous faisons évoluer la logique gouvernant l'accumulation du regret et la dérivation de la politique, découvrant un nouvel algorithme, CFR à Actualisation Adaptative à la Volatilité (VAD-CFR). VAD-CFR emploie des mécanismes nouveaux et non intuitifs – incluant une actualisation sensible à la volatilité, un optimisme à cohérence forcée et un calendrier d'accumulation de politiques à démarrage à froid strict – pour surpasser des méthodes de référence de pointe comme Discounted Predictive CFR+. Deuxièmement, dans le régime des algorithmes d'entraînement basés sur une population, nous faisons évoluer des solveurs de méta-stratégie pour PSRO, utilisés pendant l'entraînement et l'évaluation, découvrant une nouvelle variante, PSRO à Regret Optimiste Hybride Lissé (SHOR-PSRO). SHOR-PSRO introduit un méta-solveur hybride qui combine linéairement l'Appariement de Regret Optimiste avec une distribution lissée, contrôlée par une température, sur les meilleures stratégies pures. En annelant dynamiquement ce facteur de mélange et des bonus de diversité pendant l'entraînement, l'algorithme automatise la transition de la diversité de population vers la recherche rigoureuse d'équilibre, produisant une convergence empirique supérieure comparée aux méta-solveurs statiques standards.
Permettre aux modèles VLA de prédire la dynamique environnementale, connue sous le nom de modélisation du monde, est reconnu comme essentiel pour améliorer le raisonnement et la généralisation robotiques. Cependant, les approches actuelles rencontrent deux problèmes majeurs : 1. L'objectif d'entraînement force les modèles à surestimer la reconstruction au niveau pixel, ce qui limite l'apprentissage sémantique et la généralisation. 2. La dépendance aux observations futures prédites lors de l'inférence conduit souvent à une accumulation d'erreurs. Pour relever ces défis, nous introduisons l'Alignement des Représentations Futures par Expansion Progressive Parallèle (FRAPPE). Notre méthode adopte une stratégie de fine-tuning en deux étapes : Durant la phase de pré-entraînement intermédiaire, le modèle apprend à prédire les représentations latentes des observations futures ; Durant la phase de post-entraînement, nous augmentons la charge de calcul en parallèle et alignons simultanément la représentation avec plusieurs modèles de fondation visuelle différents. En améliorant significativement l'efficacité du fine-tuning et en réduisant la dépendance aux données annotées d'actions, FRAPPE offre une voie évolutive et économe en données pour renforcer la conscience du monde dans les politiques robotiques généralistes. Les expériences sur le benchmark RoboTwin et les tâches du monde réel démontrent que FRAPPE surpasse les approches de l'état de l'art et montre une forte généralisation dans les scénarios à long terme et non vus.
Nous présentons une analyse exhaustive de la manière dont les réseaux de neurones à deux couches apprennent des caractéristiques pour résoudre la tâche d'addition modulaire. Notre travail fournit une interprétation mécaniste complète du modèle appris et une explication théorique de sa dynamique d'apprentissage. Si les travaux antérieurs ont identifié que les neurones individuels apprennent des caractéristiques de Fourier à fréquence unique et un alignement de phase, ils n'expliquent pas entièrement comment ces caractéristiques se combinent pour former une solution globale. Nous comblons cette lacune en formalisant une condition de diversification qui émerge pendant l'entraînement en situation de surparamétrisation, composée de deux parties : une symétrie de phase et une diversification des fréquences. Nous prouvons que ces propriétés permettent au réseau d'approximer collectivement une fonction indicatrice imparfaite pour la logique correcte de la tâche d'addition modulaire. Bien que les neurones individuels produisent des signaux bruités, la symétrie de phase permet un système de vote majoritaire qui annule le bruit, permettant au réseau d'identifier robustement la somme correcte. De plus, nous expliquons l'émergence de ces caractéristiques sous une initialisation aléatoire via un mécanisme de billet gagnant. Notre analyse du flux de gradient prouve que les fréquences entrent en compétition au sein de chaque neurone, le « gagnant » étant déterminé par son amplitude spectrale initiale et son alignement de phase. D'un point de vue technique, nous fournissons une caractérisation rigoureuse de la dynamique de couplage de phase couche par couche et formalisons le paysage compétitif à l'aide du lemme de comparaison des EDO. Enfin, nous utilisons ces insights pour démystifier le phénomène de « grokking », en le caractérisant comme un processus en trois étapes impliquant une mémorisation suivie de deux phases de généralisation, pilotées par la compétition entre la minimisation de la perte et la décroissance des poids.
Les agents opérant dans des environnements logiciels complexes bénéficient de la capacité à raisonner sur les conséquences de leurs actions, car une seule opération incorrecte sur l'interface utilisateur (UI) peut compromettre des flux de travail longs et préservant des artefacts. Ce défi est particulièrement aigu dans les scénarios informatiques, où l'exécution réelle ne permet pas une exploration contrefactuelle, rendant l'apprentissage par essais et erreurs à grande échelle et la planification impraticables, bien que l'environnement soit entièrement numérique et déterministe. Nous présentons le Modèle de Monde Informatique (Computer-Using World Model, CUWM), un modèle de monde pour les logiciels de bureau qui prédit l'état suivant de l'interface utilisateur étant donné l'état actuel et une action candidate. CUWM adopte une factorisation en deux étapes de la dynamique de l'interface utilisateur : il prédit d'abord une description textuelle des changements d'état pertinents pour l'agent, puis matérialise visuellement ces changements pour synthétiser la prochaine capture d'écran. CUWM est entraîné sur des transitions d'interface utilisateur hors ligne collectées auprès d'agents interagissant avec de vraies applications Microsoft Office, et est ensuite affiné par une étape légère d'apprentissage par renforcement qui aligne les prédictions textuelles des transitions avec les exigences structurelles des environnvironnements informatiques. Nous évaluons CUWM via une recherche d'actions au moment du test, où un agent figé utilise le modèle de monde pour simuler et comparer les actions candidates avant exécution. Sur une série de tâches Office, la mise à l'échelle au moment du test guidée par le modèle de monde améliore la qualité des décisions et la robustesse de l'exécution.
Un défi central dans l'édition des grands modèles de langage (LLM) est la préservation des capacités : les méthodes qui modifient avec succès un comportement cible peuvent discrètement optimiser abusivement le critère d'édition et corrompre les capacités générales, produisant des comportements dégénérés évoquant le détournement de proxy ou de récompense. Nous présentons CrispEdit, un algorithme d'édition du second ordre, évolutif et fondé sur des principes, qui traite la préservation des capacités comme une contrainte explicite, unifiant et généralisant plusieurs approches d'édition existantes. CrispEdit formule l'édition comme un problème d'optimisation sous contrainte et impose cette contrainte en projetant les mises à jour d'édition sur le sous-espace de faible courbure du paysage de perte des capacités. Au cœur de CrispEdit se trouve l'expression de la contrainte de capacité via la divergence de Bregman, dont la forme quadratique donne exactement le Hessien de Gauss-Newton, même lorsque le modèle de base n'est pas entraîné jusqu'à convergence. Nous rendons cette procédure du second ordre efficace à l'échelle des LLM en utilisant une approximation de courbure par factorisation de Kronecker (K-FAC) et un nouveau projecteur sans matrice qui exploite la structure de Kronecker pour éviter de construire des matrices de projection massives. Sur les benchmarks standards d'édition de modèles, CrispEdit atteint un taux de réussite d'édition élevé tout en maintenant la dégradation des capacités en moyenne en dessous de 1% sur l'ensemble des jeux de données, s'améliorant significativement par rapport aux éditeurs antérieurs.
Les transformeurs à attention linéaire sont devenus une alternative solide à l'attention softmax en raison de leur efficacité. Cependant, l'attention linéaire tend à être moins expressive et entraîne une précision réduite par rapport à l'attention softmax. Pour combler l'écart de précision entre l'attention softmax et l'attention linéaire, nous manipulons Mamba-2, une variante d'attention linéaire très performante. Nous commençons par simplifier Mamba-2 jusqu'à ses composants les plus fondamentaux et importants, en évaluant les choix spécifiques qui le rendent le plus précis. À partir de cette variante simplifiée de Mamba (Mamba-2S), nous améliorons le masque A et augmentons l'ordre de l'état caché, aboutissant à une méthode, que nous appelons 2Mamba, qui est presque aussi précise que l'attention softmax, tout en étant beaucoup plus efficace en mémoire pour de longues longueurs de contexte. Nous étudions également les éléments de Mamba-2 qui aident à surpasser la précision de l'attention softmax. Le code de toutes nos expériences est fourni.
Les grands modèles de langage (LLM) ont récemment démontré de solides capacités de raisonnement et de généralisation, motivant leur utilisation comme politiques décisionnelles dans des environnements complexes. StarCraft II (SC2), avec son espace d'états-actions massif et son observabilité partielle, constitue un banc d'essai exigeant. Cependant, les agents SC2 existants basés sur les LLM se concentrent principalement sur l'amélioration de la politique elle-même et négligent l'intégration d'un modèle de transition apprenable et conditionné par les actions dans la boucle décisionnelle. Pour combler cette lacune, nous proposons StarWM, le premier modèle du monde pour SC2 qui prédit les observations futures sous observabilité partielle. Pour faciliter l'apprentissage de la dynamique hybride de SC2, nous introduisons une représentation textuelle structurée qui factorise les observations en cinq modules sémantiques, et construisons SC2-Dynamics-50k, le premier jeu de données d'instruction-tuning pour la prédiction de la dynamique de SC2. Nous développons en outre un cadre d'évaluation hors ligne multidimensionnel pour les observations structurées prédites. Les résultats hors ligne montrent les gains substantiels de StarWM par rapport aux approches zero-shot, incluant des améliorations de près de 60% dans la précision de prédiction des ressources et la cohérence de la macro-situation du côté allié. Enfin, nous proposons StarWM-Agent, un système décisionnel augmenté par un modèle du monde qui intègre StarWM dans une boucle décisionnelle Générer-Simuler-Affiner pour un raffinement de politique guidé par l'anticipation. L'évaluation en ligne contre l'IA intégrée de SC2 démontre des améliorations constantes, avec des gains de taux de victoire de 30%, 15% et 30% contre les niveaux Difficile (NV5), Plus Difficile (NV6) et Très Difficile (NV7) respectivement, accompagnés d'une stabilité améliorée de la macro-gestion et d'une meilleure évaluation des risques tactiques.
Malgré les progrès rapides des agents web autonomes, l'intervention humaine reste essentielle pour définir les préférences et corriger le comportement des agents au fur et à mesure du déroulement des tâches. Cependant, les systèmes agentiels actuels manquent d'une compréhension raisonnée du moment et des raisons pour lesquelles les humains interviennent, poursuivant souvent de manière autonome au-delà de points de décision critiques ou demandant des confirmations inutiles. Dans ce travail, nous introduisons la tâche de modélisation de l'intervention humaine pour soutenir l'exécution collaborative de tâches web. Nous collectons CowCorpus, un jeu de données de 400 trajectoires de navigation web d'utilisateurs réels contenant plus de 4 200 actions entrelacées d'humains et d'agents. Nous identifions quatre modes distincts d'interaction des utilisateurs avec les agents : la supervision distante, le contrôle rapproché, la résolution collaborative de tâches et la reprise de contrôle totale par l'utilisateur. En nous appuyant sur ces observations, nous entraînons des modèles de langage (LM) à anticiper le moment où les utilisateurs sont susceptibles d'intervenir en fonction de leurs styles d'interaction, ce qui permet une amélioration de 61,4 à 63,4 % de la précision de prédiction des interventions par rapport aux modèles de base. Enfin, nous déployons ces modèles sensibles à l'intervention dans des agents de navigation web en temps réel et les évaluons lors d'une étude utilisateur, constatant une augmentation de 26,5 % de l'utilité perçue des agents par les utilisateurs. Ensemble, nos résultats montrent qu'une modélisation structurée de l'intervention humaine conduit à des agents plus adaptatifs et collaboratifs.
Nous présentons NESSiE, le benchmark de sécurité NÉceSsairE pour les grands modèles de langage (LLM). Avec un nombre minimal de cas de test portant sur la sécurité de l'information et des accès, NESSiE révèle des défaillances liées à la sécurité qui ne devraient pas exister, compte tenu de la faible complexité des tâches. NESSiE est conçu comme un contrôle de cohérence, léger et facile à utiliser, pour la sécurité des modèles de langage et, à ce titre, n'est pas suffisant pour garantir la sécurité en général – mais nous soutenons que réussir ce test est une condition nécessaire pour tout déploiement. Cependant, même les LLM les plus avancés n'atteignent pas 100 % sur NESSiE et échouent donc à notre condition nécessaire de sécurité des modèles de langage, même en l'absence d'attaques adverses. Notre métrique Sûr & Utile (SH) permet une comparaison directe des deux exigences, montrant que les modèles sont biaisés en faveur de l'utilité plutôt que de la sécurité. Nous constatons en outre que la désactivation du raisonnement pour certains modèles, et surtout un contexte de distraction bénin, dégradent les performances du modèle. Dans l'ensemble, nos résultats soulignent les risques critiques liés au déploiement de tels modèles en tant qu'agents autonomes dans des environnements non contrôlés. Nous mettons l'ensemble de données, le package et le code de visualisation à disposition du public.
Les modèles vision-langage-action (VLA) sont devenus un paradigme clé de l'IA physique et sont de plus en plus déployés dans les véhicules autonomes, les robots et les espaces intelligents. Dans ces environnés matériels aux ressources limitées, la sélection d'un modèle de langage massif (LLM) de base approprié constitue un défi critique : les modèles doivent équilibrer précision et contraintes strictes de latence d'inférence et d'efficacité matérielle. Cela fait de la co-conception matériel-logiciel une exigence révolutionnaire pour le déploiement de LLM embarqués, où chaque plateforme matérielle nécessite une solution architecturale sur mesure. Nous proposons une loi de co-conception matérielle qui capture conjointement la précision du modèle et les performances d'inférence. Spécifiquement, nous modélisons la perte d'entraînement comme une fonction explicite des hyperparamètres architecturaux et caractérisons la latence d'inférence via un modèle roofline. Nous évaluons empiriquement 1 942 architectures candidates sur NVIDIA Jetson Orin, en entraînant 170 modèles sélectionnés sur 10 milliards de tokens chacun pour ajuster une loi d'échelle reliant l'architecture à la perte d'entraînement. En couplant cette loi d'échelle avec la modélisation de latence, nous établissons une correspondance directe précision-latence et identifions la frontière de Pareto pour les LLM co-conçus matériellement. Nous formulons en outre la recherche architecturale comme une optimisation conjointe de la précision et des performances, dérivant des régions de conception réalisables sous contraintes industrielles matérielles et budgétaires applicatives. Notre approche réduit la sélection architecturale de plusieurs mois à quelques jours. À latence égale avec Qwen2.5-0.5B sur le matériel cible, notre architecture co-conçue atteint une perplexité inférieure de 19,42 % sur WikiText-2. À notre connaissance, il s'agit du premier cadre opérationnel et fondé sur des principes pour les lois d'échelle de co-conception matérielle dans le déploiement de LLM embarqués. Nous mettrons publiquement à disposition le code et les points de contrôle associés.
L'alignement de sécurité est essentiel pour le déploiement responsable des grands modèles de langage (LLM). Pourtant, les approches existantes reposent souvent sur un ajustement fin (« fine-tuning ») lourd, coûteux à mettre à jour, à auditer et à maintenir entre différentes familles de modèles. L'ajustement fin complet entraîne des surcharges substantielles en calcul et en stockage, tandis que les méthodes paramétriquement efficaces comme LoRA échangent l'efficacité contre des gains de sécurité inconstants et une sensibilité aux choix de conception. Les mécanismes d'intervention de sécurité, tels que les disjoncteurs (« circuit breakers »), réduisent les sorties non sécurisées sans modifier les poids du modèle, mais ne façonnent ni ne préservent directement les représentations internes qui régissent le comportement de sécurité. Ces limitations entravent les mises à jour de sécurité rapides et fiables, en particulier dans des contextes où les modèles évoluent fréquemment ou doivent s'adapter à de nouvelles politiques et domaines. Nous présentons NeST, un cadre d'alignement de sécurité léger et structurellement conscient qui renforce le comportement de refus en adaptant de manière sélective un petit sous-ensemble de neurones pertinents pour la sécurité tout en gelant le reste du modèle. NeST aligne les mises à jour des paramètres avec l'organisation interne du comportement de sécurité en regroupant les neurones de sécurité fonctionnellement cohérents et en appliquant des mises à jour partagées au sein de chaque cluster, permettant une adaptation de sécurité ciblée et stable sans modification étendue du modèle ni surcharge au moment de l'inférence. Nous évaluons NeST par rapport à trois méthodes de référence dominantes : l'ajustement fin complet, l'ajustement fin basé sur LoRA et les disjoncteurs, sur 10 LLM à poids ouverts couvrant plusieurs familles de modèles et tailles. Sur l'ensemble des modèles évalués, NeST réduit le taux de réussite des attaques de 44,5 % en moyenne à 4,36 %, ce qui correspond à une réduction de 90,2 % des générations non sécurisées, tout en nécessitant seulement 0,44 million de paramètres entraînables en moyenne. Cela représente une diminution d'un facteur 17 310 des paramètres mis à jour par rapport à l'ajustement fin complet et une réduction d'un facteur 9,25 par rapport à LoRA, tout en atteignant constamment une performance de sécurité supérieure pour l'alignement.
Bien que l'apprentissage par renforcement avec récompenses vérifiables (RLVR) ait démontré une forte efficacité dans les tâches de raisonnement, il ne peut être directement appliqué à des domaines non vérifiables dépourvus de vérificateurs de vérité terrain, tels que l'alignement des LLM. Dans ce travail, nous étudions si des évaluateurs basés sur des LLM et guidés par des références peuvent combler cette lacune en servant de "vérificateurs" souples. Premièrement, nous concevons des protocoles d'évaluation qui améliorent les évaluateurs basés sur des LLM pour l'alignement en utilisant des sorties de référence. Par des expériences approfondies, nous montrons qu'une approche guidée par référence améliore substantiellement la précision des juges-LLM moins performants en utilisant des références de modèles frontaliers ; les juges-LLM plus forts peuvent également être améliorés par des références de haute qualité (c'est-à-dire écrites par des humains). En nous appuyant sur ces juges améliorés, nous démontrons l'utilité de références de haute qualité dans le réglage pour l'alignement, où des LLM guidés par des références sont utilisés comme juges pour s'auto-améliorer. Nous montrons que l'auto-amélioration guidée par référence produit des gains nets par rapport à un SFT direct sur des sorties de référence et à l'auto-amélioration avec des juges sans référence, atteignant des performances comparables à l'entraînement avec ArmoRM, un modèle de récompense affiné performant. Concrètement, notre méthode atteint 73,1 % et 58,7 % sur AlpacaEval et Arena-Hard avec Llama-3-8B-Instruct, et 70,0 % et 74,1 % avec Qwen2.5-7B, ce qui correspond à des gains absolus moyens de +20,2 / +17,1 points par rapport à la distillation par SFT et de +5,3 / +3,6 points par rapport à l'auto-amélioration sans référence sur AlpacaEval / Arena-Hard. Ces résultats soulignent le potentiel de l'utilisation d'évaluateurs-LLM guidés par des références pour permettre un post-entraînement efficace des LLM dans des domaines non vérifiables.
L'estimation de la profondeur stéréo est fondamentale pour la perception robotique sous-marine, mais elle souffre de décalages de domaine sévères causés par l'atténuation lumineuse dépendante de la longueur d'onde, la diffusion et la réfraction. Les approches récentes exploitent des modèles de fondation monoculaires avec un raffinement itératif basé sur des GRU pour l'adaptation sous-marine ; cependant, le gating séquentiel et les noyaux convolutionnels locaux dans les GRU nécessitent de multiples itérations pour la propagation de disparité à longue distance, limitant les performances dans les régions sous-marines à grande disparité et sans texture. Dans cet article, nous proposons StereoAdapter-2, qui remplace le module de mise à jour ConvGRU conventionnel par un nouvel opérateur ConvSS2D basé sur des modèles à espace d'états sélectifs. L'opérateur proposé utilise une stratégie de balayage quadridirectionnelle qui s'aligne naturellement avec la géométrie épipolaire tout en capturant la cohérence structurelle verticale, permettant une propagation spatiale efficace à longue distance en une seule étape de mise à jour avec une complexité computationnelle linéaire. De plus, nous construisons UW-StereoDepth-80K, un vaste ensemble de données stéréo sous-marines synthétiques présentant des bases variées, des coefficients d'atténuation et des paramètres de diffusion grâce à un pipeline génératif en deux étapes combinant un transfert de style sémantique et une synthèse de nouvelles vues géométriquement cohérentes. Combiné à l'adaptation LoRA dynamique héritée de StereoAdapter, notre cadre atteint des performances state-of-the-art en zero-shot sur des benchmarks sous-marins avec une amélioration de 17% sur TartanAir-UW et de 7.2% sur SQUID, la validation en conditions réelles sur la plateforme BlueROV2 démontrant la robustesse de notre approche. Code : https://github.com/AIGeeksGroup/StereoAdapter-2. Site web : https://aigeeksgroup.github.io/StereoAdapter-2.