Articles de recherche IA sélectionnés quotidiennement avec traductions
Les modèles vision-langage (VLM) formulent couramment l'ancrage visuel et la détection comme un problème de génération de jetons de coordonnées, en sérialisant chaque boîte 2D en plusieurs jetons 1D appris et décodés de manière largement indépendante. Ce décodage jeton par jeton est en décalage avec la structure couplée de la géométrie des boîtes et crée un goulet d'étranglement d'inférence pratique en raison d'une génération strictement séquentielle. Nous introduisons LocateAnything, un cadre unifié d'ancrage et de détection génératif basé sur le décodage parallèle des boîtes (Parallel Box Decoding, PBD). En décodant des éléments géométriques tels que les boîtes englobantes et les points comme des unités atomiques en une seule étape, LocateAnything préserve la cohérence géométrique intra-boîte et débloque un parallélisme substantiel. Nous montrons que PBD améliore à la fois le débit de décodage et la précision de localisation. Nous développons en outre un moteur de données évolutif et organisons LocateAnything-Data, un ensemble de données à grande échelle comprenant plus de 138 millions d'échantillons d'entraînement, augmentant considérablement la diversité des données pour une localisation de haute précision. Des évaluations approfondies montrent que LocateAnything repousse la frontière vitesse-précision, atteignant un débit de décodage nettement plus élevé tout en améliorant la qualité de localisation à haut IoU sur divers bancs d'essai. Les résultats soulignent les avantages complémentaires du décodage parallèle des boîtes et des données d'entraînement à grande échelle pour permettre un ancrage visuel et une détection unifiés, efficaces et précis.
L'évolution rapide des modèles fondamentaux de vidéo générative a propulsé le domaine vers une synthèse cinématographique de qualité professionnelle. Pour atteindre un niveau d'exigence si élevé, la communauté s'oriente vers l'apprentissage par renforcement (RL) et les flux de travail agentiques. Cependant, une évaluation fiable est devenue un goulot d'étranglement critique. Les références existantes évaluent principalement « si c'est correct » (respect basique des instructions) tout en négligeant fondamentalement « si c'est bon » (qualité cinématographique, jeu d'acteur et esthétique). De plus, les métriques automatisées actuelles manquent de la rigueur spécifique au domaine nécessaire pour fournir des signaux fiables, créant un grave fossé de crédibilité entre la perception esthétique humaine et la notation machine. Pour combler ce fossé, nous introduisons EvalVerse, un cadre d'évaluation complet, conscient du pipeline et calibré par des experts. Nous traitons l'évaluation de la génération vidéo non pas comme une simple tâche d'ingénierie, mais comme un problème scientifique fondamental : la numérisation systématique de l'expertise cinématographique subjective. Premièrement, nous organisons les connaissances du domaine en une taxonomie d'évaluation alignée sur le flux de travail professionnel de la réalisation cinématographique (préproduction, production et postproduction). Deuxièmement, nous distillons les jugements d'experts humains dans un ensemble de données organisé avec des annotations humaines à grande échelle. Troisièmement, nous injectons ces connaissances dans les modèles de langage-vision (VLM) via une stratégie de réglage fin calibrée par des experts, permettant au VLM d'effectuer un raisonnement explicite en chaîne de pensée. Par rapport aux travaux antérieurs, EvalVerse conserve non seulement la compatibilité avec les métriques fondamentales de « justesse », mais étend également considérablement les critères à la « qualité » et élargit la couverture des tâches au séquençage complexe multi-plans et à l'intégration audiovisuelle. Par conséquent, en fournissant des signaux de diagnostic granulaires, EvalVerse transcende un classement statique et établit une infrastructure fondamentale pour les travaux futurs, tels que les modèles de récompense et les agents évaluateurs.
Bien que les modèles de fondation spatiale aient démontré des performances impressionnantes sur des ensembles de données standard, une question cruciale demeure : sont-ils véritablement des acteurs polyvalents capables de généraliser de manière robuste à travers diverses tâches en aval, des points de vue arbitraires, des domaines de scène changeants, des densités d'entrée variables et des contraintes matérielles spécifiques ? Répondre à cette question globale nécessite une évaluation holistique, mais les modèles actuels sont principalement évalués sur des domaines spécifiques pour lesquels ils ont été spécialement conçus ou entraînés. De telles évaluations sont intrinsèquement limitées par une couverture paradigmatique étroite, des domaines de scène restreints et un échantillonnage arbitraire d'images, rendant fondamentalement difficile l'évaluation de leurs véritables capacités de généralisation. Pour combler cette lacune, nous présentons SpatialBench, un benchmark inter-paradigme et diversifié en domaines pour les modèles de fondation spatiale avec échantillonnage déterministe. SpatialBench offre une échelle sans précédent et une conception déterministe rigoureuse, comprenant 19 ensembles de données et 546 scènes couvrant 5 domaines spatiaux divers. Il évalue de manière exhaustive 41 modèles à travers 6 paradigmes sur 5 suites de tâches sous 4 paramètres de densité d'entrée différents. Notre évaluation approfondie révèle que les modèles actuels ne sont pas encore des acteurs polyvalents, et met en lumière des perspectives cruciales pour les avancées futures. En particulier, nous démontrons que l'attention au contexte complet maximise la précision, tandis que les stratégies à mémoire bornée déverrouillent l'évolutivité des séquences longues. De plus, nos évaluations empiriques sur des tâches incarnées et égocentriques difficiles montrent qu'un alignement strict du domaine et une qualité élevée des données sont bien plus critiques pour la performance qu'un simple passage à l'échelle des ensembles de données. Enfin, pour combler le plus grand manque de données identifié dans notre analyse, nous allons au-delà de l'évaluation en introduisant un ensemble de données à grande échelle, DA-Next-5M, et un modèle de référence solide, DA-Next, repoussant les limites de l'apprentissage de représentations spatiales.
Nous présentons MobileGym, un environnement léger, entièrement contrôlable et hébergé dans un navigateur pour une utilisation mobile quotidienne, visant la fidélité d'interaction sans reproduire de serveurs propriétaires. Il permet deux capacités jusqu'alors inaccessibles aux applications courantes : des signaux de résultats vérifiables grâce à une évaluation déterministe basée sur l'état à partir d'un état JSON structuré, et un apprentissage par renforcement (RL) en ligne évolutive par des déploiements parallèles à faible coût. L'état complet de l'environnement est capturé, configuré, dupliqué et comparé sous forme de JSON structuré, et un seul serveur peut héberger des centaines d'instances parallèles, avec environ 400 Mo de mémoire par instance et un démarrage à froid d'environ 3 s. Un modèle d'état en couches et un cadre déclaratif de définition de tâches maintiennent la programmabilité de l'état et la création de tâches à grande échelle, et un mécanisme d'évaluation programmatique unique fournit à la fois des verdicts d'évaluation déterministes et des récompenses RL denses. L'ensemble MobileGym-Bench associé propose 416 modèles de tâches paramétrés, dont 256 modèles de test et 160 d'entraînement, répartis sur 28 applications, avec des évaluateurs déterministes et un protocole AnswerSheet structuré évitant les échecs de correspondance en texte libre. Dans une étude de cas Sim-to-Réel, GRPO sur Qwen3-VL-4B-Instruct gagne +12,8 points de pourcentage sur l'ensemble de test de 256 tâches, et sur un sous-ensemble de signaux sur appareil réel de 59 tâches, l'exécution sur appareil réel conserve 95,1 % du gain d'entraînement côté simulation. Page du projet : https://mobilegym.github.io.
La reconstruction 3D multi-vue a réalisé des progrès remarquables grâce à l'avènement des modèles de reconstruction 3D par anticipation. Cependant, ces modèles sont généralement entraînés et évalués dans des conditions d'imagerie idéales, sans dégradation, alors que les observations réelles présentent souvent des dégradations qui diffèrent considérablement de ces conditions. Améliorer la robustesse de la reconstruction 3D multi-vue en présence de dégradations reste donc un défi important. Nous présentons GARD (Geometry-Aware Representation Denoising), un nouveau cadre qui effectue une restauration multi-vue par diffusion directement dans l'espace des caractéristiques d'un modèle de reconstruction 3D par anticipation. Cette conception exploite les représentations de caractéristiques conscientes de la géométrie du reconstructeur 3D pour rétablir efficacement une géométrie de scène précise. De plus, en utilisant un décodeur d'image RVB supplémentaire, les représentations affinées peuvent également être employées pour restaurer des images RVB de haute qualité, permettant ainsi une récupération simultanée de la géométrie de la scène 3D et de l'imagerie de haute qualité. Des expériences approfondies sur le benchmark Depth Anything 3 (DA3) démontrent l'efficacité du cadre GARD proposé.
La génération audiovisuelle progresse rapidement, passant de courts extraits à des contenus d'une minute, tandis que les protocoles d'évaluation existants restent largement confinés aux formats courts. Les référentiels actuels se concentrent principalement sur la génération conditionnée par du texte de 5 à 10 secondes et soutiennent rarement une évaluation unifiée couvrant les modalités textuelles, image et vidéo. De plus, ils offrent un aperçu limité de la façon dont la cohérence d'identité, la cohérence narrative et l'alignement audiovisuel se dégradent sur des horizons temporels étendus. Pour combler cette lacune, nous présentons LongAV-Compass, un référentiel systématique pour la génération audiovisuelle d'une minute. LongAV-Compass contient 284 cas de test organisés couvrant la génération texte-vers-audio-vidéo (T2AV), image-vers-audio-vidéo (I2AV) et vidéo-vers-audio-vidéo (V2AV), classés par scénario d'application et complexité de génération. Le référentiel combine une construction guidée par une taxonomie avec un cadre d'évaluation unifié qui intègre une évaluation assistée par MLLM et des métriques perceptuelles et multimodales complémentaires, notamment DINO-v2, ArcFace, CLIP et ImageBind. Le cadre évalue plus de 20 dimensions fines couvrant la qualité intra-segment, la cohérence inter-segment, la cohérence narrative globale, l'alignement sémantique et la synchronisation audiovisuelle. À travers des expériences sur 11 modèles représentatifs ainsi qu'une validation par alignement humain, LongAV-Compass fournit un banc d'essai diagnostique pour analyser les limites des systèmes actuels à soutenir une génération audiovisuelle cohérente, alignée sémantiquement et temporellement cohérente à l'échelle de la minute, toutes modalités d'entrée confondues.
Malgré l'émergence des modèles de langage de grande taille à diffusion (D-LLMs) comme alternative aux modèles de langage de grande taille autorégressifs (AR-LLMs), la surveillance de la sécurité pour les D-LLMs reste largement inexplorée. Contrairement aux AR-LLMs, les D-LLMs génèrent du texte via un processus de débruitage multi-étapes, exposant des représentations cachées intermédiaires qui peuvent contenir des informations pertinentes pour la sécurité, non disponibles dans les configurations de surveillance standard à une seule étape. Motivés par l'adéquation des sondes légères pour une surveillance permanente, nous analysons quels signaux au niveau de la trajectoire indiquent le mieux quand de telles sondes sont susceptibles d'échouer. Nous constatons que le signal le plus informatif est l'hésitation de sécurité : des états cachés intermédiaires tombant à plusieurs reprises dans une marge étroite de la frontière de décision de la sonde. Le nombre de ces pas d'hésitation dans la trajectoire du D-LLM prédit efficacement l'échec de la sonde, fournissant un proxy de la difficulté de l'échantillon. Sur la base de cette analyse, nous proposons D²-Monitor, un moniteur de sécurité à deux niveaux pour les D-LLMs. D²-Monitor adopte une sonde légère comme moniteur permanent pour estimer conjointement l'hésitation et effectuer la classification de base. Lorsque le niveau d'hésitation dépasse un seuil, une sonde plus expressive mais plus coûteuse en calcul est activée. Ce mécanisme de routage dynamique alloue efficacement les ressources de surveillance au moment du test. Évalué sur 3 jeux de données (WildguardMix, ToxicChat, OpenAI-Moderation) sur 4 D-LLMs, D²-Monitor atteint des performances de pointe avec une empreinte de paramètres compacte (≤ 0,85 million de paramètres), et présente le meilleur compromis entre efficacité et efficience par rapport à 8 références.
Nous présentons la série MiniMax-M2, une famille de modèles de langage basés sur le mélange d’experts (Mixture-of-Experts), construite autour du principe que des activations minimales peuvent libérer une intelligence maximale dans le monde réel. Le modèle phare M2 totalise 229,9 milliards de paramètres, avec seulement 9,8 milliards activés par token. Conçue de bout en bout pour un déploiement agentique, la série M2 repose sur trois composants : (i) des pipelines de données pilotés par des agents, produisant à grande échelle des trajectoires vérifiables dans les domaines du codage agentique et du coworking agentique, chacun ancré dans un espace de travail exécutable et une récompense alignée sur les artefacts ; (ii) Forge, un système RL scalable natif pour agents qui s’adapte aux trajectoires agentiques à long horizon, associé à un ordonnancement FIFO fenêtré, une fusion d’arbres de préfixes, une optimisation de l’inférence et un découplage clair entre entraînement, inférence et agent, prenant en charge aussi bien les agents en boîte blanche qu’en boîte noire ; (iii) le dernier point de contrôle M2.7 franchit une première étape vers l’auto-évolution – en déboguant de manière autonome les cycles d’entraînement et en modifiant son propre échafaudage. De M2 à M2.7, cette combinaison traduit une empreinte d’activation minimale en performances de pointe sur les benchmarks de codage agentique, de recherche approfondie, de tâches bureautiques et de raisonnement.
Nous étudions le remake cinématographique au niveau de la série, un problème de génération vidéo-à-vidéo à long horizon qui localise des épisodes ou films entiers par stylisation ou remplacement d'acteurs, tout en préservant strictement la structure narrative, la chorégraphie des mouvements et l'identité des personnages sur des centaines de plans. Les pipelines existants de génération et d'édition vidéo échouent souvent dans ce régime en raison d'une dérive identitaire cumulative, d'une mutation de l'arrière-plan et d'une érosion sémantique sous l'effet de grands mouvements de caméra et de changements de point de vue. Nous proposons Soap2Soap, un cadre multi-agents qui impose une cohérence langage-visuel à long terme via un mécanisme de cohérence à double pont : un scénario JSON sensible à la scène servant de colonne vertébrale sémantique persistante, et des ancres de référence visuelle allouées dynamiquement au niveau de la scène et du plan. Pour supprimer la dérive avant la synthèse vidéo, nous introduisons la cohérence par lots d'images clés, générant conjointement plusieurs images clés dans un contexte latent partagé via une formulation basée sur une grille. Un agent de vérification en boucle fermée audite en outre l'identité, la stabilité et l'alignement pour déclencher une régénération sélective. Les expériences sur SoapBench démontrent des améliorations significatives par rapport aux API commerciales de génération vidéo en termes de cohérence à long terme et de fidélité narrative.
La mise à l'échelle au moment du test (TTS) améliore les capacités de raisonnement des grands modèles de langage en allouant des ressources de calcul d'inférence supplémentaires pour explorer l'espace des solutions. Cependant, les méthodes TTS parallèles existantes maintiennent généralement les branches isolées pendant la recherche : les découvertes intermédiaires restent propres à chaque branche et ne peuvent pas guider les autres branches en temps réel. Cet isolement informationnel entraîne une exploration redondante substantielle, car les branches rediscovernt de manière répétée des informations déjà trouvées ailleurs et nécessitent davantage d'étapes de recherche pour collecter les informations décisionnelles complètes nécessaires à l'obtention de réponses correctes. Pour combler cette lacune, nous proposons la Pensée Parallèle Collaborative (CPT), un cadre d'inférence sans entraînement qui permet un partage d'informations en cours de recherche entre branches parallèles. La CPT extrait des informations intermédiaires compactes des branches en cours, maintient un pool d'informations au niveau de la requête, dédupliqué, et diffuse les entrées de ce pool à travers le contexte d'entrée, permettant à chaque branche, lors des étapes de recherche ultérieures, de réutiliser les découvertes faites par d'autres branches plutôt que de redécouvrir les mêmes informations. Empiriquement, les expériences sur les benchmarks HMMT et AIME montrent que la CPT établit une frontière de Pareto précision-latence plus forte que les bases de référence solides, sur différents budgets de déploiement et échelles de modèles, soulignant que la collaboration en cours de recherche constitue une direction efficace pour une TTS parallèle efficiente.
Nous présentons LLaVA-OneVision-2 (LLaVA-OV-2), le modèle vision-langage le plus performant de la série LLaVA-OneVision à ce jour, atteignant des résultats supérieurs sur un large éventail de benchmarks multimodaux. Le modèle repose sur un encodeur OneVision natif et intègre une Attention Fenêtrée pour un calcul local efficace tout en maintenant une résolution native. Son avancée clé réside dans la tokenisation en flux codec : il traite la vidéo compressée comme un flux continu de coût binaire, où la dynamique du coût binaire détermine des groupes temporels adaptatifs, et où les indices résiduels de mouvement sélectionnent les preuves saillantes dans des toiles visuelles compactes. Cette allocation concentre un budget limité de tokens sur le contenu porteur d’événements, permettant une compression plus stable des tokens vidéo longs que les groupes fixes d’images. Un 3D RoPE partagé place en outre les toiles codec, les images échantillonnées et les images fixes dans un système de coordonnées spatiotemporelles unifié. De plus, nous construisons la pile de données et d’entraînement de LLaVA-OV-2 autour d’une supervision ouverte à grande échelle : environ 8 millions d’échantillons vidéo re-légendés pour le pré-entraînement, un corpus spatial de 4 millions d’échantillons pour le réglage fin. Nous introduisons également JumpScore, un benchmark de localisation temporelle ciblant l’ancrage fin dans des mouvements fréquents et densément répétés, un régime sous-représenté par les évaluations vidéo existantes. Une capacité remarquable de LLaVA-OV-2 est sa perception unifiée à travers la compréhension vidéo, l’ancrage temporel, l’ancrage spatial et le raisonnement sur les traces de manipulation. Sur JumpScore, LLaVA-OneVision-2-8B atteint un mAP de 74,9, surpassant Qwen3-VL-8B (30,1) de +44,8 points ; sous des budgets de tokens visuels appariés sur le même benchmark, les entrées en flux codec améliorent l’ancrage temporel de +9,7 points par rapport à l’échantillonnage d’images. Sur les benchmarks standards, LLaVA-OneVision-2-8B surpasse en outre Qwen3-VL-8B de +4,3 points en moyenne sur les tâches vidéo, +5,3 sur les tâches spatiales, et +15,6 de J&F moyen sur les tâches de suivi.
Les couches de normalisation dans les grands modèles de langage (LLMs) modernes se composent d'une opération de normalisation déterministe et d'un vecteur d'échelle apprenable. Alors que l'opération de normalisation a été largement étudiée, le vecteur d'échelle reste mal compris malgré son utilisation omniprésente. Dans ce travail, nous présentons une étude systématique des vecteurs d'échelle dans les LLMs sous les angles de l'expressivité, de l'optimisation et de la structure architecturale. Premièrement, nous montrons empiriquement que, bien que les vecteurs d'échelle ne constituent qu'une fraction négligeable des paramètres du modèle, leur suppression dégrade considérablement le pré-entraînement des LLMs. Notre théorie montre en outre que, dans les architectures Pre-Norm, les vecteurs d'échelle n'augmentent pas l'expressivité ; ils améliorent plutôt l'optimisation via un effet de préconditionnement auto-amplifiant sur les applications linéaires subséquentes. Deuxièmement, nous étudions le rôle de la décroissance du poids pour les vecteurs d'échelle. En distinguant les couches Input-Norm et Output-Norm, nous montrons théoriquement que la décroissance du poids est bénéfique pour les premières mais nuisible pour les secondes, en raison de leurs rôles distincts dans l'optimisation et l'expressivité. Troisièmement, motivés par cette compréhension, nous proposons trois améliorations légères et complémentaires des vecteurs d'échelle : l'hétérogénéité propre à chaque branche, un placement amélioré autour des applications linéaires, et une reparamétrisation magnitude-direction. La théorie et les expériences montrent que chaque amélioration apporte des gains constants. Enfin, nous combinons ces améliorations en une stratégie unifiée de vecteur d'échelle et l'évaluons via des expériences approfondies de pré-entraînement de LLMs sur des modèles denses et à mélange d'experts, de 0,12B à 2B paramètres, avec plusieurs optimiseurs et programmes de taux d'apprentissage, sous des budgets de tokens à l'échelle industrielle. La stratégie unifiée atteint systématiquement une perte terminale plus faible que les lignes de base bien réglées et présente un comportement de passage à l'échelle plus favorable, tout en ajoutant une surcharge négligeable en paramètres et en calcul.
Les modèles Vision-Langage-Action (VLA) adoptent largement des modèles Vision-Langage (VLM) pré-entraînés comme architectures de base pour les politiques, mais il reste flou quel type de représentation VLM pré-entraînée est utile en tant qu'initialisation VLA. Dans cet article, nous étudions l'initialisation VLA comme un problème de conception de représentation contrôlé selon trois axes : la supervision VQA incarnée au niveau des capacités, la stratégie de mise à jour des paramètres et le pré-entraînement sur données robotiques. Nos expériences montrent que la représentation VLM pré-entraînée originale est une source clé de la performance des actions. Cependant, l'adaptation VQA incarnée ne produit pas des gains uniformes : son bénéfice dépend des goulots d'étranglement en aval, et les gains provenant de différents domaines de capacités ne sont pas simplement additifs. Pour la stratégie de mise à jour, LoRA fournit une initialisation plus fiable que le Fine-tuning complet, indiquant qu'une remodelisation excessive de la représentation pré-entraînée peut affaiblir l'initialisation VLA. Le pré-entraînement sur données robotiques améliore davantage l'initialisation VLA, la variante la plus forte étant obtenue par un entraînement progressif basé sur LoRA. Ensemble, ces résultats suggèrent qu'une adaptation efficace de VLM à VLA devrait injecter des signaux incarnés et de trajectoire robotique pertinents pour l'action, tout en préservant la représentation VLM pré-entraînée qui reste utile pour l'apprentissage des actions.
Le flow matching avec prédiction des données propres a montré que la régression du point propre peut exploiter la structure de faible dimension plus efficacement que la prédiction d'une quantité bruitée ambiante. Nous nous demandons si ce principe reste utile après que les images ont été projetées dans un espace latent appris, où la compression a déjà éliminé une grande partie de la variabilité des pixels bruts. Nous présentons JLT, un Transformer de diffusion latent de 130M sur des codes VAE FLUX.2 figés, et comparons la prédiction du latent propre avec un DiT de prédiction de vitesse apparié, sous les mêmes représentation, architecture et paramètres d'entraînement. Bien que les trois variables x, epsilon et v soient linéairement convertibles pour un temps de corruption fixé, une analyse gaussienne locale montre que la régression de vitesse hérite d'un plancher de covariance cible isotrope et amplifie les directions latentes à faible variance, tandis que la prédiction propre les atténue. Sur ImageNet 256 × 256, JLT-B/1 obtient un FID-50K de 2,50 avec guidage sans classifieur, avec un écart important cible appariée par rapport à la prédiction de vitesse. Ces résultats suggèrent que les cibles de prédiction en diffusion latente sont des choix géométriques dépendants de la représentation, et non des paramétrisations algébriques interchangeables.
L'apprentissage par renforcement agentique (RL) s'est avéré efficace pour former des agents basés sur des LLM capables d'utiliser des outils externes. Cependant, nous constatons que l'entraînement RL agentique induit un nombre croissant d'appels d'outils redondants et brouille la frontière intrinsèque des connaissances du modèle, où celui-ci n'arrive plus à distinguer quand les outils sont nécessaires versus quand la connaissance paramétrique suffit. Les solutions existantes basées sur le façonnage de récompenses créent des objectifs d'optimisation à gros grain qui tendent à encourager une suppression indifférenciée des appels d'outils, conduisant à une manipulation de récompenses. Dans cet article, nous proposons AKBE (Agentic Knowledge Boundary Enhancement), une méthode on-policy qui explore dynamiquement la frontière intrinsèque des connaissances du modèle via des déploiements à double chemin (avec outil et sans outil) durant l'entraînement. Nous définissons la frontière des connaissances comme la détermination par instance de la nécessité d'utiliser des outils et du nombre minimal d'appels d'outils requis. En comparant la justesse entre les chemins, AKBE catégorise les trajectoires et construit des signaux de supervision ciblés qui guident des schémas d'utilisation efficaces des outils pour chaque question. Ces signaux sont intégrés de manière transparente dans la boucle d'entraînement RL agentique. Les expériences sur sept référentiels de questions-réponses montrent qu'AKBE améliore la précision des tâches de +1,85 en moyenne et réduit les appels d'outils de 18 % par rapport au RL agentique standard, ce qui produit une productivité des outils supérieure de 25 % sans compromis entre précision et efficacité. Une analyse plus approfondie suggère sa compatibilité plug-and-play avec différents algorithmes de RL et le mécanisme de chaque catégorie de signal. Notre code est disponible à l'adresse https://github.com/CuSO4-Chen/AKBE.
Les agents basés sur les grands modèles de langage (LLM) s'appuient sur des compétences réutilisables pour résoudre des tâches complexes. Cependant, les approches existantes de création de compétences les traitent comme des artefacts isolés et statiques, limitant leur réutilisabilité, leur fiabilité et leur amélioration à long terme. Nous proposons MUSE-Autoskill Agent (Memory-Utilizing Skill Evolution), un cadre agent centré sur les compétences qui permet aux agents d'améliorer continuellement leur capacité à résoudre des tâches en créant, réutilisant et affinant des compétences dans le cadre d'un cycle de vie unifié (création, mémoire, gestion, évaluation et raffinement). Notre cadre permet aux agents de créer des compétences à la demande, de les stocker et de les réutiliser entre les tâches, de les organiser et de les sélectionner efficacement, et de les évaluer via des tests unitaires et des retours d'exécution pour un raffinement continu. Nous introduisons également une mémoire au niveau des compétences qui accumule l'expérience de chaque compétence à travers les tâches, permettant une réutilisation et une adaptation plus efficaces au fil du temps. Des expériences sur SkillsBench fournissent des preuves préliminaires que les compétences gérées par cycle de vie peuvent améliorer le succès des tâches, l'efficacité, la réutilisation et le transfert inter-agents, soulignant l'importance de traiter les compétences comme des actifs durables, tenant compte de l'expérience et testables.
Les jeux de déduction sociale sont devenus un banc d'essai populaire pour sonder le raisonnement, la tromperie, la coordination et la modélisation des croyances dans les agents basés sur des modèles de langage de grande taille (LLM). Cependant, la plupart des environnements ne sont évalués que par les résultats des jeux, comme les taux de victoire, et restent largement limités à une interaction textuelle, ce qui rend difficile de déterminer si le langage d'un agent est réellement ancré dans ce qu'il a perçu et fait, ou d'identifier les modes de défaillance sous-jacents à son comportement. Pour combler cette lacune, nous présentons QUACK, un environnement open source et un cadre d'évaluation pour auditer l'ancrage du langage des agents dans le raisonnement social multimodal. QUACK évalue les agents à trois niveaux : les résultats des jeux, les trajectoires comportementales et la cohérence au niveau des énoncés. Son pipeline central de vérification des déclarations reconstruit la trajectoire de vérité terrain de chaque agent à partir des journaux du moteur et vérifie chaque affirmation de discussion par rapport à celle-ci, signalant automatiquement les hallucinations spatiales, les accusations non fondées, l'effondrement de la tromperie et l'incohérence entre le langage et l'action. En évaluant trois VLMs de pointe dans des configurations adverses homogènes et inter-modèles, nous constatons que même l'agent le plus performant hallucine 15,1 % de ses affirmations spatiales vérifiables et formule plus de la moitié de ses accusations sans preuve fondée. Nous publions l'intégralité du moteur, du cadre d'évaluation, de la boîte à outils et des journaux sur https://github.com/AAAAA-Academia-Attractions/QUACK.
Le raisonnement visuel via l'apprentissage par renforcement avec récompenses vérifiables (RLVR) a connu des progrès remarquables. Cependant, face à des entrées multi-sources, les approches existantes tendent à les traiter comme une simple accumulation d'informations, sans disposer de mécanismes explicites permettant de distinguer si l'intégration de sources supplémentaires apporte un gain d'information ou introduit des interférences. Par conséquent, elles peinent à modéliser efficacement l'interaction dynamique lors de l'intégration de sources multiples, en particulier lorsque celles-ci diffèrent considérablement par leurs propriétés physiques et leur sémantique, par exemple dans le cas de l'infrarouge et de la profondeur, ce qui entraîne des performances inférieures au raisonnement mono-source lorsqu'une source particulière porte le signal dominant. Pour résoudre ce problème, nous proposons MARS, un nouveau cadre de raisonnement multi-source à ancrage unique qui modélise chaque modalité visuelle comme une source d'information indépendante. Plus précisément, en traitant les récompenses mono-source comme des ancres dynamiques, notre méthode intègre explicitement le gain d'information introduit par la fusion multi-source dans la normalisation des avantages et adapte de manière dynamique la promotion mutuelle entre les sources tout en supprimant les bruits ou conflits potentiels durant le RLVR. D'un point de vue théorique, notre méthode quantifie efficacement le gain d'information introduit par l'intégration multi-source dans l'estimation du gradient, permettant une régulation cohérente des modalités. Les résultats empiriques montrent également des gains de performance impressionnants de 3,2 % et 4,9 % sur GRPO et DAPO, respectivement, sur divers ensembles de données, confirmant l'efficacité de notre méthode.
Les grands modèles de langage (LLMs) ont évolué pour devenir des agents interactifs qui collaborent avec les utilisateurs dans des tâches du monde réel. Une collaboration efficace dans ces contextes dépend de plus en plus d'une compréhension de l'utilisateur au-delà de ce qui est explicitement énoncé, car l'intention de l'utilisateur se reflète souvent dans des interactions quotidiennes fragmentées et nécessite à la fois une modélisation personnalisée et une interaction proactive. Cependant, les référentiels d'évaluation d'agents existants se concentrent principalement sur le raisonnement et l'utilisation d'outils, négligeant largement les défis liés à l'inférence et à l'exploitation des préférences des utilisateurs dans des scénarios réalistes. Pour combler cette lacune, nous présentons VitaBench 2.0, un référentiel conçu pour évaluer le comportement personnalisé et proactif des agents dans le cadre d'interactions utilisateur à long terme. Dans VitaBench 2.0, les tâches sont organisées sous forme de séquences temporelles ordonnées pour chaque utilisateur, où les préférences sont intégrées dans des interactions fragmentées et hétérogènes. La réussite des tâches exige que l'agent extraie, utilise et mette à jour en continu les préférences des utilisateurs à partir de ces interactions. Nous évaluons également la proactivité à travers des tâches qui nécessitent que l'agent reconnaisse les informations manquantes et les acquière activement auprès des utilisateurs ou de l'environnement avant de prendre des décisions. Pour soutenir une analyse systématique, nous fournissons une interface mémoire extensible permettant une comparaison contrôlée entre différentes architectures de mémoire. Nous évaluons un ensemble diversifié de LLMs propriétaires et open-source de pointe. Les résultats montrent que la personnalisation dans le monde réel reste extrêmement difficile, même pour les modèles les plus avancés, révélant un écart substantiel entre les capacités actuelles et les exigences pratiques. Une analyse approfondie met en lumière les modes d'échec et les goulets d'étranglement capacitaires des agents actuels dans la prise de décision personnalisée en situation réelle, fournissant des pistes pour les améliorations futures des modèles.
Les oracles d'activation visent à rendre les activations d'autres modèles compréhensibles pour les humains et donnent des résultats prometteurs par rapport aux techniques d'interprétabilité en boîte blanche. Cependant, la quantification de l'incertitude (UQ) pour les sorties en langage naturel de ces oracles d'activation reste peu étudiée à ce jour. Ici, nous examinons six méthodes différentes pour estimer la confiance des oracles d'activation et évaluons à quel point leurs scores de confiance sont bien calibrés. Nos expériences sur 6 000 échantillons par oracle (en faisant varier le verbaliseur et les invites de contexte) révèlent que la fréquence du mode bootstrap est la méthode la mieux calibrée parmi celles testées (ECE de 5,7 % contre 25,5 % pour la log-probabilité du mot de réponse sur Qwen3-8B ; 10,3 % contre 13,1 % sur Qwen3.6-27B), et que la référence basée sur le log-prob peut servir de signal de tri rapide pour une fraction du coût. Le code et l'entraîneur patché sont disponibles à l'adresse https://github.com/federicotorrielli/probabilistic_activation_oracles.
Les grands modèles de langage (LLMs) sont de plus en plus déployés en tant qu'agents autonomes capables de raisonner, d'utiliser des outils et d'agir sur plusieurs étapes. Pourtant, la plupart des benchmarks d'hallucination n'évaluent encore que la sortie finale, omettant les défaillances issues des étapes intermédiaires Pensée-Action-Observation. Nous présentons Trajel, un ensemble de données et un cadre d'évaluation pour auditer les hallucinations au niveau des trajectoires dans les flux de travail industriels multi-agents. Trajel introduit une taxonomie à cinq types d'hallucination (factuelle, référentielle, logique, procédurale et de portée) basée sur des traces d'agents annotées par des experts provenant d'AssetOpsBench. Nous évaluons des modèles de détection supervisée aux niveaux de la sous-tâche, de la trajectoire et du contexte long. Nos résultats montrent que les modes de défaillance les plus courants échappent aux benchmarks existants, que près de la moitié des trajectoires hallucinées impliquent simultanément plusieurs types d'hallucination, et que les détecteurs automatisés à haute précision binaire classifient encore mal les types les plus subtils. La détection sensible à la trajectoire surpasse significativement la vérification post-hoc standard, rendant nécessaire une évaluation ancrée dans la taxonomie pour un déploiement agentique plus sûr.
Les systèmes multi-agents basés sur des LLM améliorent le raisonnement en combinant les sorties de multiples agents, mais les méthodes fortement interactives peuvent introduire une propagation d'erreurs et une surcharge de communication élevée. Lorsque les agents échangent des réponses brutes ou des traces de raisonnement, un raisonnement intermédiaire incorrect peut être adopté et amplifié, conduisant à un consensus erroné mais exprimé avec confiance ; les communications multi-tours augmentent également la consommation de tokens, la latence et le coût d'inférence. Dans cet article, nous proposons un cadre de coordination à communication contrôlée nommé DarkForest. DarkForest maintient d'abord les agents indépendants, de sorte que chaque agent produise une réponse sans voir les sorties des autres. Il analyse ensuite les réponses brutes en enregistrements candidats structurés, regroupe les candidats sémantiquement équivalents en clusters, et estime une distribution de croyance calibrée sur ces clusters en utilisant la fiabilité des agents, la confiance, la qualité d'analyse, la fiabilité des schémas de support et des corrections d'indépendance. Un coordinateur ne reçoit que les preuves autorisées par la politique issues de cet état de croyance avec une communication contrôlée. Les expériences sur six benchmarks de raisonnement montrent que DarkForest atteint une qualité globale de premier plan, améliore la baseline la plus performante jusqu'à 30,7 % sur les métriques des benchmarks, et réduit la consommation de tokens jusqu'à 6,5 fois par rapport aux baselines fortement communicantes.
Le Mixture-of-Experts (MoE) est devenu l'architecture de facto pour les modèles de langage à centaines de milliards de paramètres, mais ses avantages à des échelles inférieures au milliard pour le déploiement sur appareil restent largement inexplorés. Pour combler cette lacune, nous présentons MobileMoE, une famille de modèles de langage MoE sur appareil avec des paramètres actifs inférieurs au milliard (0,3-0,9 milliard actifs et 1,3-5,3 milliards au total) qui établissent une nouvelle frontière de Pareto pour les LLM sur appareil. Nous formulons d'abord une loi d'échelle MoE sur appareil qui optimise conjointement l'architecture MoE sous contraintes de mémoire et de calcul mobiles, identifiant un point idéal sur appareil – une parcimonie modérée avec des experts fins et partagés – qui est simultanément optimal en mémoire et en calcul. En nous appuyant sur les architectures dérivées, nous entraînons MobileMoE avec un processus en quatre étapes couvrant le pré-entraînement, l'entraînement intermédiaire, l'ajustement fin sur instructions et l'entraînement tenant compte de la quantification, le tout sur des ensembles de données open source. Sur 14 benchmarks, MobileMoE égalise ou dépasse les principaux LLM denses sur appareil avec 2 à 4 fois moins de FLOPs d'inférence, et égalise ou surpasse le MoE de pointe OLMoE-1B-7B avec jusqu'à 60 % de paramètres en moins. Pour franchir le dernier kilomètre vers le déploiement mobile, nous fournissons la première inférence MoE efficace sur des smartphones grand public avec un profilage complet sur appareil. Avec une mémoire de poids INT4 comparable, MobileMoE-S offre un préremplissage 1,8 à 3,8 fois plus rapide et un décodage 2,2 à 3,4 fois plus rapide que la base dense MobileLLM-Pro.
La génération d'images dirigée par un sujet vise à synthétiser de nouvelles images qui préservent l'identité d'un sujet donné tout en suivant des instructions textuelles. Les approches existantes encodent souvent séparément le texte et les images de référence, ce qui limite les capacités de raisonnement intermodal et provoque des artefacts de copier-coller. Des cadres récents qui connectent les modèles multimodaux et les modèles de diffusion améliorent le suivi des instructions, mais négligent largement la préservation de l'identité. Pour remédier à ces limitations, nous conditionnons les modèles de diffusion sur des Modèles de Langage Multimodaux de Grande Taille (MLLMs) qui encodent conjointement le texte et les images de référence, et nous les augmentons avec un conditionnement d'identité basé sur VAE. Un nouveau module d'Agrégation en Deux Couches (DLA) est conçu pour agréger les caractéristiques multi-niveaux du MLLM afin d'obtenir un conditionnement optimal, et une stratégie de débruitage en plusieurs étapes est appliquée pour équilibrer progressivement les informations sémantiques du MLLM et les détails fins d'identité du VAE lors de l'inférence. Des expériences approfondies démontrent que notre approche harmonise la compréhension multimodale avec la préservation de l'identité, atténue les problèmes de copier-coller et atteint des performances supérieures en termes de préférence humaine pour la génération d'images dirigée par un sujet. Notre site web de projet est accessible à l'adresse https://zsh2000.github.io/squeeze-mllm-subject-gen/.
Nous présentons Gemini Embedding 2, un modèle d’intégration multimodal natif qui permet d’intégrer des modalités vidéo, audio, image et texte dans un espace de représentation unifié. Nous exploitons les capacités multimodales de Gemini pour produire des embeddings pour des combinaisons arbitraires d’entrées entrelacées dans toutes ces modalités, qui se généralisent bien à une grande variété de tâches. En appliquant un apprentissage contrastif à grande échelle dans un cadre d’entraînement multi-tâches et multi-étapes, nous atteignons des performances de pointe sur des benchmarks d’embedding clés, notamment en recherche unimo-dale, cross-modale et multimodale, couvrant un ensemble diversifié de tâches. Nous montrons que notre modèle d’intégration démontre des performances robustes (avec un score de 62,9 R@1 sur MSCOCO, 68,8 NDCG@10 sur Vatex, 69,9 sur MTEB multilingue et 84,0 sur MTEB Code) sur une variété de tâches, dépassant les performances de modèles spécialisés. Ces capacités unifiées font de Gemini Embedding 2 un candidat prometteur pour des cas d’usage en aval tels que le RAG, la recommandation et la recherche. De plus, ses performances robustes en zero-shot dans des domaines distincts – de l’astronomie et la biologie aux beaux-arts et aux arts culinaires – en font une représentation prête à l’emploi hautement fiable, même pour des domaines spécialisés.
Les avancées récentes dans les grands modèles de langage (LLMs) ont facilité le déploiement à grande échelle de ces modèles en tant qu’agents interactifs capables de raisonnement, de planification et d’utilisation d’outils. Malgré des performances solides sur les bancs d’essai existants, ces agents présentent souvent une dégradation notable lorsqu’ils sont déployés dans des contextes réels, où les environnements sont intrinsèquement stochastiques et imparfaits. Nous soutenons que cet écart provient d’une inadéquation fondamentale entre les contextes d’entraînement idéalisés et les dynamiques d’interaction réelles, les paradigmes actuels reposant sur des instructions de tâche soigneusement sélectionnées et des environnements stables et bien contrôlés. Pour combler cette lacune, nous proposons NoisyAgent, un cadre d’entraînement agentique qui intègre explicitement les imperfections environnementales dans le processus d’apprentissage de l’agent. Nous identifions deux sources majeures de bruit d’interaction dans les scénarios réels : le bruit utilisateur, qui capture l’ambiguïté et la variabilité des interactions avec l’utilisateur, et le bruit d’outil, qui reflète les échecs et anomalies dans l’exécution des outils. Nous introduisons ces perturbations dans le pipeline d’entraînement en modifiant les schémas d’interaction utilisateur et en simulant les résultats d’exécution des outils dans l’environnement d’entraînement. Pour stabiliser l’entraînement tout en encourageant les agents à gérer des imperfections de plus en plus difficiles, le bruit n’est appliqué qu’à un sous-ensemble des déploiements et sa difficulté est augmentée progressivement à mesure que le modèle s’adapte au niveau de bruit courant. Des expériences approfondies montrent que notre approche améliore systématiquement la robustesse des agents dans des environnements bruyants et dynamiques. Notre analyse révèle que l’entraînement en présence de bruit génère également des gains de performance sur les bancs d’essai idéalisés, ce qui suggère qu’une exposition contrôlée au bruit environnemental favorise des comportements de raisonnement et de prise de décision plus généralisables. Nos résultats soulignent l’importance de modéliser les imperfections d’interaction pour combler l’écart entre l’entraînement des agents et leur déploiement dans le monde réel.
Les agents basés sur des LLM pour la génération de noyaux GPU progressent rapidement, mais leur avancée est fondamentalement contrainte par les benchmarks qu'ils optimisent. Les benchmarks existants sont mal alignés avec les cadres d'inférence de production : ils évaluent les noyaux sur un seul GPU avec des entrées synthétiques, ignorent la pile de compilation environnante et récompensent la reproduction d'optimisations connues plutôt que la découverte de nouvelles. Les signaux de récompense qui en résultent sont trompeurs : les agents apprennent à générer des noyaux qui obtiennent de bons scores dans des environnements sandbox, mais introduisent des incompatibilités d'interface, des conflits avec la pile de compilation et une dégradation silencieuse de l'exactitude lors de l'intégration dans des systèmes réels. Nous présentons FastKernels, un benchmark de noyaux construit autour d'un ensemble minimal de 46 architectures représentatives couvrant 8 catégories, dont les noyaux englobent collectivement ceux de 96,2 % (409/425) des architectures HuggingFace Transformers. FastKernels fait également office de cadre d'inférence de qualité production minimaliste, qui fonctionne à parité avec des systèmes robustes tels que vLLM et SGLang pour le service de LLM grand public, et dépasse largement les références amont sur les architectures mal desservies ; l'interface de chaque tâche reflète le module correspondant dans la bibliothèque à l'état de l'art pour sa famille d'architectures, permettant un déploiement direct des noyaux optimisés dans les bases de code de production. En évaluant les agents de noyaux de pointe sur FastKernels, nous constatons que même l'agent le plus performant n'obtient qu'une accélération globale de 0,94 fois par rapport aux références de production, les agents les plus faibles atteignant 0,78 fois et 0,53 fois — ce qui confirme que le désalignement entre benchmarks et production constitue un goulot d'étranglement critique pour le domaine. Nous publions FastKernels comme un tremplin vers des agents de noyaux dont les gains sur les benchmarks se traduisent directement en améliorations de débit en production. Le code est disponible à l'adresse https://github.com/Snowflake-AI-Research/fastkernels.
Les grands modèles de langage conservent inévitablement des informations sensibles, définies comme des entrées pouvant induire des générations nuisibles, en raison de leur entraînement sur de vastes corpus web, ce qui soulève des préoccupations en matière de confidentialité et de sécurité. Les méthodes existantes de désapprentissage automatique reposent principalement sur le réentraînement ou un réglage fin agressif, qui sont soit coûteux en calcul, soit susceptibles de dégrader les connaissances connexes et l'utilité globale du modèle. Dans ce travail, nous reformulons le désapprentissage automatique comme un problème de remappage précis des connaissances via l'édition de modèle. Nous proposons ZeroUnlearn, un cadre de désapprentissage en quelques exemples. Il écrase les entrées sensibles en les mappant vers un état cible neutre et en supprimant leurs représentations originales. ZeroUnlearn impose une orthogonalité représentationnelle via une mise à jour multiplicative des paramètres avec une solution de forme fermée, permettant un désapprentissage efficace et ciblé. Nous étendons ensuite ZeroUnlearn à une variante basée sur le gradient pour le désapprentissage multi-échantillons. Les expériences montrent que notre approche surpasse les références existantes tout en préservant l'utilité générale du modèle. Notre code est disponible sur github : https://github.com/XMUDeepLIT/ZeroUnlearn.
Le raisonnement agentique à long horizon nécessite que les grands modèles de langage agissent sur de longues historiques d'interaction contenant des pensées, des appels d'outils, des observations et des conclusions partielles. Le défi n'est pas seulement que ces historiques s'allongent, mais que les informations nécessaires à la décision courante peuvent être dispersées à travers des étapes éloignées et ne devenir pertinentes que plus tard. Les approches existantes traitent cette difficulté en tronquant l'historique d'interaction, en le compressant en des substituts plus courts, ou en récupérant des parties sélectionnées pour les réutiliser, mais elles ne modélisent pas explicitement comment l'accès à l'interaction passée devrait s'adapter à l'état évolutif de l'agent. Nous formulons plutôt le raisonnement à long horizon comme un problème de mémoire adaptative à l'état. À cette fin, nous proposons State-Adaptive Memory~(SAM), un cadre autonome qui consolide l'interaction en cours en indices de mémoire compacts tout en préservant les pages brutes de trajectoire pour un rappel piloté par l'intention. Ces indices ne sont pas considérés comme des remplacements de l'historique ; ils servent plutôt de poignées légères qui permettent à l'agent de reconstruire des informations temporellement distantes selon ses besoins actuels, sans réentraîner le modèle sous-jacent. Nous optimisons en outre le module de mémoire par supervision guidée par des experts et apprentissage par renforcement, en l'alignant sur l'utilité au niveau de la trajectoire. Sur BrowseComp, BrowseComp-ZH, WideSearch et HLE, SAM surpasse systématiquement les références solides sur divers modèles d'agents de base. Nos résultats suggèrent que la modélisation explicite de la mémoire offre une base simple et efficace pour le raisonnement agentique à long horizon.
La génération et l'édition d’images en couches constituent une capacité fondamentale permettant la réutilisation, l’édition et la composition par couches de contenu visuel généré, de manière analogue à l’édition au niveau du mot en langage naturel. Malgré son importance, ce domaine reste peu exploré à grande échelle. Pour combler cette lacune, nous présentons MRT, un modèle de diffusion par régions masquées de 20 milliards de paramètres, conçu pour la génération et l’édition d’images transparentes multicouches, entraîné sur plus de 10 millions d’échantillons de conception multilingues couvrant divers rapports d’aspect et invites textuelles. Afin de tirer pleinement parti de cette échelle, nous apportons deux contributions techniques clés. Premièrement, nous unifions trois tâches complémentaires – texte-vers-couches, image-vers-couches et couches-vers-couches – au sein d’un cadre partagé de diffusion par régions masquées, où le masquage sélectif des tokens permet une génération et une édition flexibles par couche. Deuxièmement, pour permettre la génération de couches de débordement, nous introduisons une couche de canevas tenant compte du débordement, qui gère les incohérences de bordure et prend en charge la synthèse d’arrière-plans semi-transparents, permettant ainsi d’obtenir des couches entièrement modifiables s’étendant au-delà des limites visibles du canevas. De plus, nous appliquons une distillation de diffusion pour atteindre une génération multicouche en 8 étapes, en temps réel, avec une dégradation minimale de la qualité. Des expériences approfondies montrent que notre cadre surpasse largement les approches antérieures de l’état de l’art, y compris divers systèmes commerciaux, dans les trois tâches, établissant ainsi une nouvelle référence pour la génération d’images transparentes multicouches. Notamment, selon les résultats d’une étude utilisateur, notre modèle dépasse significativement le modèle concurrent Qwen-Image-Layered en termes de qualité image-vers-couches, tout en offrant une inférence 10 à 100 fois plus rapide et en réduisant de 50 à 90 % la consommation de mémoire GPU d’activation lors de l’inférence image-vers-couches.
Les Transformers de Diffusion (DiT) atteignent des performances élevées en génération d'images, mais entraînent des coûts d'inférence substantiels. Bien que des travaux antérieurs aient réduit ce coût via la quantification et la distillation, la parcimonie semi-structurée, qui peut quasiment diviser par deux le nombre de FLOPs, reste peu explorée. Une raison clé est que la plupart des approches existantes se concentrent sur l'élagage des poids, et qu'élaguer 50 % des poids peut supprimer une capacité critique du modèle et dégrader la qualité de génération. Notre étude montre cependant que les activations des DiT sont intrinsèquement parcimonieuses et significativement plus robustes à la parcimonie semi-structurée N:M que les poids. Motivés par cette observation, nous préconisons un changement de paradigme, passant de l'élagage des poids à l'élagage des activations. Nous proposons RT-Lynx, qui applique la parcimonie N:M aux activations et intègre des techniques de compensation d'erreur pour atténuer la perte de précision. Nous implémentons en outre des noyaux CUDA hautement optimisés, adaptés à ce contexte, permettant d'atteindre une accélération moyenne allant jusqu'à 1,55x dans les couches linéaires. Des expériences approfondies sur plusieurs modèles de diffusion démontrent que notre méthode préserve la qualité de génération des modèles originaux tout en accélérant substantiellement l'inférence.
Les systèmes agentiques deviennent de plus en plus capables : ils définissent des stratégies, prennent des décisions et interagissent avec divers environnements. Cette autonomie pose des défis majeurs pour la supervision et l’évaluation de leur comportement. La plupart des outils actuels sont limités, se concentrant sur l’observabilité avec des capacités d’évaluation basiques, ou imposant des taxonomies d’erreurs statiques et artisanales qui ne peuvent s’adapter à de nouveaux domaines. Pour combler cette lacune, nous présentons Agentic CLEAR, un cadre d’évaluation automatique, dynamique et facile à utiliser. Il produit des éclairages textuels sur le comportement de l’agent à trois niveaux de granularité : système, trace et nœud. Agentic CLEAR opère au-dessus de la couche d’observabilité, permettant une intégration transparente, et propose une interface utilisateur intuitive qui rend l’évaluation des agents très accessible. Dans nos expérimentations sur quatre benchmarks, sept configurations agentiques et des dizaines de milliers d’appels LLM, nous montrons qu’Agentic CLEAR génère des retours de haute qualité, fondés sur les données et riches en enseignements. Notre analyse révèle une forte concordance avec les erreurs annotées par des humains ainsi que la capacité à prédire le taux de réussite des tâches.
Les grands modèles de langage (LLMs) sont généralement entraînés sur des corpus mélangés aléatoirement, produisant des modèles dont les connaissances sont figées au moment de l’entraînement et dont l’ancrage temporel reste mal compris. Dans ce travail, nous étudions l’impact de la dynamique de pré-entraînement sur l’acquisition de connaissances factuelles sensibles au temps, en nous concentrant spécifiquement sur l’ordre des données. Nos contributions principales sont doubles. Premièrement, nous introduisons un benchmark complet de plus de 7 000 questions ancrées temporellement et un protocole d’évaluation permettant d’analyser si les modèles associent correctement les faits à leurs périodes temporelles correspondantes. Deuxièmement, nous pré-entraînons des modèles de 6 milliards de paramètres sur des instantanés Common Crawl ordonnés temporellement et les comparons à un pré-entraînement standard avec mélange aléatoire. Nos résultats montrent que les modèles entraînés séquentiellement égalent les références aléatoires en compréhension générale du langage et en connaissances communes, tout en présentant systématiquement des connaissances plus récentes et temporellement plus précises. Le pré-entraînement ordonné temporellement améliore l’actualité des faits, tandis que le pré-entraînement aléatoire culmine sur les données plus anciennes, possiblement en raison d’une répétition factuelle accrue. Ces résultats, ainsi que la publication de notre code à l’adresse https://github.com/kyutai-labs/kairos , des points de contrôle et des ensembles de données à https://huggingface.co/collections/kyutai/kairos , fournissent une base pour les futures recherches sur l’apprentissage continu pour les LLMs.
Les grands modèles de langage peuvent-ils détecter et signaler leurs propres états internes ? Plusieurs études ont soutenu que la réponse à cette question est oui. Nous soutenons, en nous appuyant sur les leçons de la recherche en métacognition humaine, que cette conclusion pourrait être prématurée : pour être convaincus de cette conclusion, nous devons distinguer l'introspection authentique de la reconnaissance de motifs basée sur des indices de surface. De plus, nous argumentons que les preuves comportementales seules sont intrinsèquement insuffisantes pour établir des affirmations introspectives fortes. Nous réexaminons deux paradigmes d'évaluation récemment introduits à la lumière de cette considération. Dans le premier paradigme, on s'attend à ce que les modèles détectent si leurs états internes ont été altérés. Nous constatons que les modèles ne parviennent pas à distinguer de manière fiable ces interventions sur leurs états internes des manipulations de l'entrée, ce qui suggère que leur succès dans les études originales reflète leur capacité à détecter les anomalies de manière plus générale, plutôt que les interventions sur leurs états internes en particulier. Dans le second paradigme que nous examinons, les modèles ont pour tâche de prédire des étiquettes dérivées de leurs propres états cachés. Ici, nous constatons que les classifieurs qui n'ont accès qu'à l'entrée atteignent des performances équivalentes aux prédictions en contexte du modèle lui-même, indiquant que les résultats originaux ne démontrent pas de manière concluante que le modèle a un accès privilégié à ses représentations internes. Nous introduisons en outre un cadre de contrôle avec réétiquetage, où les modèles ne peuvent pas s'appuyer sur la sémantique de la tâche pour la résoudre, et doivent plutôt s'appuyer sur la représentation interne ; les modèles obtiennent des performances proches du hasard dans cette version mieux contrôlée de la tâche. Pris ensemble, ces résultats indiquent que les preuves actuelles sont insuffisantes pour établir que les LLMs présentent un monitoring métacognitif.
Nous présentons NSF-SciFy, un ensemble de données complet d'affirmations scientifiques et de propositions d'investigation extraites des résumés de projets de la National Science Foundation. Alors que les précédents ensembles de données de vérification d'affirmations scientifiques étaient limités en taille et en portée, NSF-SciFy constitue une avancée significative avec 2,8 millions d'affirmations provenant de 400 000 résumés couvrant toutes les disciplines scientifiques et mathématiques. Nous proposons deux sous-ensembles ciblés : NSF-SciFy-MatSci, avec 114 000 affirmations issues de projets en science des matériaux, et NSF-SciFy-20K, comprenant 135 000 affirmations réparties sur cinq directions de la NSF. En utilisant l'incitation zero-shot, nous développons une approche évolutive pour l'extraction conjointe d'affirmations scientifiques et de propositions d'investigation. Nous démontrons l'utilité de cet ensemble de données à travers trois tâches en aval : la génération de résumés non techniques, l'extraction d'affirmations et l'extraction de propositions d'investigation. Le réglage fin des modèles de langage sur notre ensemble de données entraîne des améliorations substantielles, avec des gains relatifs dépassant souvent 100 %, en particulier pour les tâches d'extraction d'affirmations et de propositions. Notre analyse des erreurs révèle que les affirmations extraites présentent une précision élevée mais un rappel plus faible, ce qui suggère des possibilités d'affinement méthodologique supplémentaire. NSF-SciFy ouvre de nouvelles pistes de recherche dans la vérification d'affirmations à grande échelle, le suivi des découvertes scientifiques et l'analyse métascientifique. Le code et les données sont disponibles à l'adresse https://github.com/darpa-scify/NSFSciFy.
Des travaux antérieurs établissent que le contraste contrôlé entre les réponses auto-générées par de grands modèles de langage, défini par des scores de récompense, améliore le réglage aval des préférences en anglais. Nous étendons cette méthode à plusieurs langues et évaluons deux modèles sur un total de 14 langues, à ressources élevées et faibles, dans un ensemble diversifié de tâches. Notre résultat central est que le réglage contrastif translinguistique des préférences sur les auto-générations (CroCo) se transfère sans annotation de préférence spécifique à la langue. Un modèle de récompense entraîné sur des préférences en anglais (sur une base multilingue) produit des classements intra-langue utiles dans la plupart des langues, et l'appariement, que ce soit dans un cadre monolingue ou multilingue, améliore chaque modèle dans la majorité des configurations tout en empêchant l'oubli catastrophique du réglage fin supervisé. Nous observons que les gains nécessitent des données on-policy. Les réponses off-policy réduisent le bénéfice et l'optimisation en ligne des préférences ne parvient pas à améliorer la variante hors ligne. Plus précisément, sur les tâches structurées, notre méthode égale ou dépasse la référence dans 6/7 langues pour EuroLLM-9B et dans 4/7 configurations pour Aya-3B. Sur la génération ouverte, les deux modèles réglés l'emportent sur leur référence respective dans les 11 langues évaluées. Dans l'ensemble, nous montrons des directions prometteuses pour le réglage multilingue des préférences.
Les politiques robotiques modernes s'appuient de plus en plus sur le découpage en actions (action chunking) pour exécuter des tâches complexes dans le monde physique. Bien que cette approche améliore la cohérence temporelle à des fréquences d'action modérées, elle devient insuffisante lorsque la fréquence d'action est augmentée (par exemple jusqu'à 60 Hz). À de telles hautes fréquences, les politiques échouent souvent à générer des actions à la fois temporellement lisses et spatialement cohérentes. Nous relevons ce défi en transférant l'apprentissage d'actions à haute fréquence de l'espace d'action vers un espace latent à l'aide d'un autoencodeur variationnel (VAE). Cette formulation améliore significativement la cohérence temporelle et spatiale du contrôle à haute fréquence. Pour permettre une exécution fluide en temps réel, nous introduisons Reuse-then-Refine, une stratégie de raffinement au niveau des chunks qui améliore la continuité entre les chunks d'actions adjacents lors d'une inférence asynchrone. Ainsi, les robots contrôlés par notre politique peuvent exécuter des tâches complexes impliquant des contacts de manière continue, avec moins de pauses et de mouvements saccadés. Des expériences sur trois tâches robotiques réelles avec contacts montrent que notre approche accomplit systématiquement les tâches avec des mouvements fluides. Notre code et nos données sont disponibles à l'adresse https://github.com/tars-robotics/RTR.
Nous proposons EverAnimate, une méthode de post-entraînement efficace pour la génération de vidéos animées sur de longs horizons, préservant la qualité visuelle et l'identité des personnages. L'animation de longue durée reste difficile car des mouvements humains très dynamiques doivent être synthétisés dans des environnements relativement statiques, rendant la génération par chunks sujette à une dérive accumulée : (i) dérive de qualité de bas niveau, telle que la dégradation progressive des arrière-plans statiques, et (ii) dérive sémantique de haut niveau, telle que l'identité incohérente des personnages et les attributs dépendants de la vue. Pour résoudre ce problème, EverAnimate restaure les trajectoires de flux dérivées en ancrant la génération à une mémoire de contexte latent persistante, composée de deux mécanismes complémentaires. (i) La propagation latente persistante maintient une mémoire de contexte entre les chunks pour propager l'identité et le mouvement dans l'espace latent tout en atténuant l'oubli temporel. (ii) L'appariement de flux restaurateur introduit un objectif de restauration implicite lors de l'échantillonnage par ajustement de la vélocité, améliorant la fidélité intra-chunk. Avec seulement un réglage LoRA léger, EverAnimate surpasse les méthodes de pointe en animation longue dans les contextes d'horizons courts et longs : à 10 secondes, il améliore le PSNR/SSIM de 8 %/7 % et réduit le LPIPS/FID de 22 %/11 % ; à 90 secondes, les gains augmentent respectivement à 15 %/15 % et 32 %/27 %.
Les grands modèles de langage pour les domaines verticaux sont limités par la rareté des dialogues orientés tâches, complexes et spécifiques au domaine. Les pipelines d'acquisition de données existants sont confrontés à un trilemme persistant : l'annotation experte est coûteuse, les conversations de service réelles sont contraintes par des restrictions de confidentialité et commerciales, et les corpus statiques deviennent rapidement obsolètes sur le plan temporel. Nous proposons Stream, un cadre centré sur les données qui exploite les médias en streaming accessibles au public (flux en direct et vidéos courtes) pour synthétiser à grande échelle des dialogues de service à haute valeur ajoutée. Stream extrait les signaux d'interaction authentiques des flux bruités et synthétise des conversations en intégrant la construction de persona ancrée dans les rôles (role-grounded persona construction) à la construction de plans conversationnels (Conversational Blueprint) ; il adopte en outre la génération augmentée par récupération (retrieval-augmented generation, RAG) pour soutenir des réponses conscientes des connaissances. Basé sur Stream, nous publions StreamDial, un ensemble de données multi-domaines à grande échelle couvrant l'automobile, la restauration et l'hôtellerie. StreamDial contient 87 498 sessions de dialogue et 1 497 320 tours au total, avec une moyenne de 17,11 tours par session et une échelle comparable d'un domaine à l'autre. Chaque session est organisée sous forme d'un quadruplet structuré ⟨P_u, P_a, B, H⟩ qui associe l'historique du dialogue à des personae explicites d'utilisateur et d'agent et à un plan conversationnel, capturant des comportements de service réalistes tels que l'exploration des besoins, les conflits de contraintes, la négociation et le rétablissement. Les évaluations réalisées par des juges automatiques et des tâches en aval montrent que StreamDial améliore la qualité intrinsèque des dialogues par rapport aux bases de référence solides, et que les modèles entraînés avec StreamDial améliorent le suivi d'état du dialogue (Dialogue State Tracking) sur différentes architectures ; nous rapportons en outre un ensemble d'évaluation humaine complet et un transfert multilingue prometteur sur Qwen3-8B sous un budget d'entraînement contrôlé. Les données sont publiées à l'adresse https://github.com/hitxueliang/DialogDataSetBySTREAM.