Articles de recherche IA sélectionnés quotidiennement avec traductions
Les agents de codage IA sont de plus en plus utilisés pour le travail scientifique, mais leur capacité de recherche autonome de bout en bout reste difficile à vérifier. Nous présentons ResearchClawBench, un benchmark pour évaluer la recherche scientifique autonome à travers 40 tâches provenant de 10 domaines scientifiques. Chaque tâche est ancrée dans un article publié réel, fournit la littérature connexe et les données brutes, et masque l'article cible pendant l'évaluation. Des rubriques multimodales élaborées par des experts décomposent les artefacts scientifiques cibles en critères pondérés, permettant d'évaluer la redécouverte au niveau de l'article cible tout en laissant place à de nouvelles découvertes. Nous évaluons sept agents de recherche autonome (auto-recherche) selon un protocole unifié et dix-sept LLM natifs via le ResearchHarness léger. Les systèmes actuels restent loin d'une redécouverte fiable : l'agent autonome le plus performant, Claude Code, obtient une moyenne de 21,5, et le LLM ResearchHarness le plus performant, Claude-Opus-4.7, une moyenne de 20,7, avec une moyenne de pointe des LLM de seulement 26,5. L'analyse des erreurs montre que les échecs se concentrent sur l'inadéquation du protocole expérimental, l'inadéquation des preuves et l'absence de noyau scientifique. ResearchClawBench fournit une frontière d'évaluation reproductible pour mesurer les progrès vers la recherche scientifique autonome.
Les modèles de langage visuel (VLM) excellent dans de nombreuses tâches mais peinent encore avec le raisonnement spatial lorsque des informations cruciales ne sont pas directement observables. Bon nombre de ces problèmes nécessitent une perception imaginative : déduire ce qui serait vu depuis un point de vue non visible, tracer des chemins à travers des espaces occultés, ou intégrer des observations partielles en une représentation spatiale cohérente. Nous introduisons les jetons de perception imaginative (IPT), des représentations perceptuelles intermédiaires qui externalisent ce qu'un VLM percevrait sous des configurations spatiales alternatives tout en restant cohérents avec l'entrée observée. Pour étudier cette capacité, nous formulons trois tâches, la prise de perspective (PET), le traçage de chemin (PT) et le comptage multivue (MVC), et construisons des jeux de données d'environ 20 000 exemples avec des imaginations de vérité terrain, des réponses et des benchmarks d'évaluation. En utilisant le VLM unifié BAGEL comme backbone, la supervision IPT améliore systématiquement le raisonnement spatial et surpasse souvent l'entraînement par chaîne de pensée textuelle, même sans générer d'images au moment de l'inférence. Sur MVC, IPT améliore la précision de 3,4 % et atteint des performances compétitives avec des modèles propriétaires puissants sur PT. Nous constatons en outre que la combinaison de l'IPT et de la supervision par étiquettes seules apporte des gains supplémentaires, tandis que la chaîne de pensée textuelle peut considérablement dégrader les performances, ce qui suggère une inadéquation de modalité lorsque le calcul spatial est imposé par le langage. Dans l'ensemble, IPT fournit un signal de supervision fondé sur des principes pour raisonner sur la structure spatiale non observée, améliorant la généralisation tout en produisant des représentations intermédiaires interprétables.
Les grands modèles de langage présentent des capacités zero-shot impressionnantes dans un large éventail de tâches en aval. Cependant, ils peinent à fonctionner comme des modèles d'encodage prêts à l'emploi, ce qui conduit à des performances sous-optimales sur les benchmarks massifs d'encodage de texte. Dans cet article, nous identifions une cause potentielle de cette lacune. Notre motivation découle d'une observation inattendue : les encodages de texte tendent à s'aligner sur des tokens fréquents mais peu informatifs lorsqu'ils sont projetés dans l'espace du vocabulaire. Nous soutenons que cette expression excessive des tokens fréquents entrave la capacité du modèle à capturer des nuances sémantiques. Pour y remédier, nous introduisons EmbedFilter, une simple transformation linéaire conçue pour affiner directement les encodages de texte issus de LLM. Plus précisément, nous découvrons que la matrice de désencodage au sein des LLM encode un espace latent qui inscrit activement ces tokens fréquents dans l'espace d'encodage. En filtrant ce sous-espace, EmbedFilter supprime l'influence des tokens fréquents, améliorant ainsi les représentations sémantiques. Comme sous-produit intéressant, cela permet une réduction de dimensionnalité inhérente, abaissant le stockage d'index et accélérant la recherche tout en préservant pleinement la qualité des encodages affinés. Nos expériences sur plusieurs architectures de LLM démontrent que les LLM équipés d'EmbedFilter atteignent des performances zero-shot supérieures en aval, même avec des dimensions d'encodage considérablement réduites. Nous espérons que nos résultats fourniront des perspectives plus approfondies sur les mécanismes des représentations basées sur les LLM et inspireront des conceptions plus fondées pour améliorer l'apprentissage d'encodages de texte. Notre code est disponible à l'adresse https://github.com/CentreChen/EmbFilter.
Évaluer les médiateurs LLM reste difficile, car la médiation se déploie comme une trajectoire en temps réel façonnée par les émotions, intentions et contextes changeants des parties en conflit. Les bancs d’essai existants s’appuient sur quelques domaines rédigés par des experts, varient principalement en posture stratégique et évaluent chaque tour de parole par rapport à chaque sujet, introduisant ainsi un bruit hors-sujet. Nous présentons SoCRATES, un benchmark pour évaluer les médiateurs LLM proactifs dans des bancs d’essai réalistes et multi-domaines. Il construit des scénarios à partir de conflits réels via un pipeline agentique couvrant huit domaines, explore cinq axes d’adaptation socio-cognitive (posture stratégique, composition des parties, longueur de l’historique, réactivité émotionnelle et identité culturelle) et n’évalue chaque sujet que sur les tours de parole qui le font progresser, grâce à un évaluateur localisé par sujet. Cet évaluateur atteint un alignement de 0,82 avec des experts humains, plus du double d’un score de référence par tour. En évaluant huit LLM de pointe, nous constatons que même le meilleur médiateur ne comble qu’environ un tiers de l’écart de consensus non médié dans des bancs d’essai diversifiés et réalistes, avec des performances variant fortement selon l’axe socio-cognitif, soulignant que le progrès réside dans l’adaptation sociale à des conditions diverses.
Il est difficile d'évaluer les progrès des modèles de fondation génomiques en raison de la fragmentation des référentiels, de l'incompatibilité des protocoles d'évaluation et des rapports spécifiques aux tâches. Par conséquent, les affirmations de supériorité ou de généralité entre les modèles ne sont souvent pas directement comparables. Nous présentons GENEB, un référentiel diagnostique à grande échelle qui évalue les représentations figées de 40 modèles de fondation génomiques sur 100 tâches couvrant 13 catégories fonctionnelles, sous un protocole unifié basé sur le sondage, incluant des régimes *few-shot*. GENEB permet une comparaison contrôlée entre l'échelle des modèles, l'architecture, la tokenisation et les données de préentraînement, tout en exposant explicitement les compromis au niveau des tâches. Notre analyse montre que les classements agrégés sont instables : les classements des modèles varient fortement selon les catégories de tâches, l'échelle n'apporte que des gains modestes et irréguliers, et l'alignement architectural et de préentraînement l'emporte fréquemment sur le nombre de paramètres. Ces résultats mettent en évidence les limites des pratiques d'évaluation actuelles et positionnent GENEB comme un cadre de référence pour une comparaison de principe et une sélection de modèles tenant compte des catégories dans l'apprentissage automatique génomique.
Nous présentons MMAE, un benchmark d'édition audio multitâche massif, constituant le premier banc d'essai d'évaluation complet conçu pour l'édition audio généraliste basée sur des instructions. Encouragé par l'évolution vers la création intelligente, l'édition interactive s'est rapidement étendue des domaines visuels — pionnière avec des modèles comme Nano-banana 2 pour les images et Gemini-Omni pour la vidéo — au domaine audio. Cependant, l'infrastructure d'évaluation actuelle accuse un retard important, restant très fragmentée et limitée à des sous-domaines spécifiques ou à des opérations de base. Contrairement aux benchmarks existants, dont la portée est limitée, MMAE couvre un large éventail de scénarios réels, englobant 7 modalités audio distinctes, incluant le son, la parole, la musique et leurs mélanges. De plus, nous établissons une taxonomie complète comprenant 6 niveaux de complexité des tâches, allant des modifications de base au raisonnement à étapes multiples et à l'édition en plusieurs tours, 2 niveaux de granularité et 8 types d'opérations distincts. Minutieusement organisé grâce à une collaboration humain-agent, MMAE comprend 2 000 échantillons haute-fidélité associés à un cadre d'évaluation novateur basé sur une grille d'évaluation. En décomposant les tâches libres en 17 741 critères vérifiables, ce paradigme robuste basé sur une grille permet une évaluation précise et multidimensionnelle à la fois du respect des instructions et de la cohérence contextuelle. Notre évaluation approfondie des modèles leaders révèle que les systèmes actuels sont encore loin d'atteindre des éditions fiables. Fait frappant, le taux de correspondance exacte (EMR) reste systématiquement inférieur à 5 % et chute à 0 % absolu dans les tâches complexes à modalités mixtes, mettant en évidence des goulots d'étranglement critiques dans l'exécution précise et la robustesse structurelle. Nous espérons que MMAE servira de catalyseur pour les futures avancées dans la communauté de la création intelligente, en fournissant une feuille de route diagnostique claire et en établissant un paradigme d'évaluation standardisé et durable pour les systèmes d'édition audio de nouvelle génération.
Bien qu'étant une frontière cruciale, la modélisation interactive du monde reste sous-explorée en termes de contrôlabilité polyvalente requise par les scénarios pratiques. Pour combler cette lacune, nous présentons AnchorWorld, un cadre qui fait progresser la simulation égocentrique grâce à une intégrité d'interaction améliorée et un mécanisme flexible de personnalisation du monde. Premièrement, nous utilisons le mouvement humain 3D comme modalité d'interaction principale. Pour compléter les parties du corps hors champ ou tronquées dans les vues égocentriques, nous introduisons une supervision d'entraînement auxiliaire qui intègre des points de vue exogènes découplés du sensorium en première personne de l'agent. Cela permet au modèle d'observer le positionnement complet du corps de l'agent par rapport à l'environnement, facilitant un ancrage spatial plus robuste des interactions homme-monde. De plus, nous proposons un mécanisme simple mais efficace pour personnaliser des mondes auto-évolutifs. Ceci est réalisé en définissant des vues d'ancrage dans un système de coordonnées mondiales unifié, couplé à des descriptions textuelles dictant l'évolution dynamique des scènes locales. Les résultats expérimentaux montrent qu'AnchorWorld dépasse significativement les références de l'état de l'art, tandis que des études d'ablation valident l'efficacité de nos conceptions clés. Notamment, notre schéma de personnalisation présente une prometteuse cohérence géométrique spatio-temporelle et respecte strictement les dynamiques évolutives prescrites.
L'intelligence robotique généraliste est souvent présentée comme un problème de mise à l'échelle des politiques : collecter davantage de démonstrations robotiques, entraîner des modèles Vision-Langage-Action (VLA) plus grands, et s'attendre à une généralisation plus large. Dans cet article de position, nous soutenons que ce cadrage est incomplet. Le goulot d'étranglement central ne réside pas seulement dans l'apprentissage des politiques, mais dans l'absence de mécanismes permettant de convertir les données comportementales non structurées abondantes du monde en supervision robotique incarnée. Les mouvements humains, les vidéos internet, les déroulements de simulation et les démonstrations interactives contiennent des informations riches sur les tâches, les objectifs, les contacts, les échecs et les contraintes physiques, mais la plupart de ces informations ne sont pas directement exploitables par les politiques robotiques car elles manquent d'étiquettes d'action spécifiques à l'incarnation, de sémantique de tâche et de structure de récompense. Nous identifions quatre composants manquants pour la prochaine génération de robotique : des interfaces de données pour l'étiquetage automatique du comportement non structuré, des interfaces d'incarnation pour le reciblage des mouvements humains vers des actions robotiques, des interfaces de modèle du monde pour un raisonnement 3D ancré dans la physique, et des interfaces de récompense pour inférer la progression et le succès des tâches à partir de vidéos et de langage. Nous passons en revue les progrès récents dans les modèles fondamentaux de robotique, les ensembles de données inter-incarnations, l'apprentissage à partir de vidéos, les modèles du monde et la modélisation des récompenses, et proposons un agenda de recherche pour construire des systèmes robotiques capables d'apprendre non seulement à partir de démonstrations robotiques, mais aussi à partir du monde physique plus large.
L'insertion d'objets vise à composer de manière transparente un objet de référence dans une région spécifiée d'une image d'arrière-plan. Les méthodes récentes basées sur la diffusion atteignent une haute qualité visuelle mais formulent l'insertion comme une simple tâche d'inpainting 2D, sans offrir de contrôle explicite sur la pose 3D de l'objet, ce qui limite leur applicabilité pratique. Nous proposons DIRECT (Decomposed Injection for Reference Composition and Target-integration), un nouveau cadre qui intègre la manipulation interactive de la pose avec une synthèse d'image 2D haute-fidélité pour permettre une insertion d'objets contrôlable par la pose. Notre méthode décompose les conditions d'insertion en trois composantes complémentaires : le guidage d'apparence capturant les détails visuels de l'objet de référence, le guidage géométrique dérivé du proxy 3D ajusté par l'utilisateur, et le guidage contextuel provenant de l'arrière-plan cible. En les injectant via des voies séparées, DIRECT évite l'enchevêtrement des caractéristiques et préserve simultanément l'apparence de référence, suit la pose spécifiée par l'utilisateur et adapte l'objet à la scène cible. Nous introduisons également un pipeline automatisé de construction de données pour améliorer la diversité et la qualité des données d'entraînement. Les expériences montrent que DIRECT surpasse les méthodes précédentes à la fois en termes de contrôlabilité géométrique et de qualité visuelle.
Les agents auto-évolutifs nécessitent une adaptation après le déploiement, mais les approches existantes supposent l'existence d'une boucle d'apprentissage utilisable, telle que des compétences organisées, des trajectoires réussies ou des signaux de vérificateur. Les déploiements réels en monde ouvert peuvent n'en fournir aucun, n'offrant qu'une invite de tâche. Dans ce travail, nous étudions l'auto-évolution en monde ouvert, où un agent doit construire à la fois ses compétences et ses propres signaux de vérification à partir de zéro, en utilisant des ressources du monde ouvert mais sans supervision de la tâche cible. Nous proposons OpenSkill, un cadre qui amorce cette boucle : il acquiert des connaissances ancrées et des points d'ancrage de vérification à partir de la documentation, des dépôts et du web, les synthétise en compétences transférables, et affine ces compétences par rapport à des tâches virtuelles auto-construites ancrées dans les points d'ancrage plutôt que dans des réponses cibles. Le monde ouvert fournit ainsi à la fois les connaissances à apprendre et un environnement d'entraînement indépendant de la supervision, la supervision de la tâche cible étant réservée à l'évaluation finale. Sur trois points de repère et deux agents cibles, OpenSkill atteint le meilleur taux de réussite automatisé tout en satisfaisant la contrainte de non-supervision. L'analyse montre que ses compétences se transfèrent entre modèles sans adaptation spécifique au modèle, et que son vérificateur auto-construit s'aligne sur les résultats de référence bien qu'il n'y ait jamais accès.
Les référentiels existants évaluent le Raisonnement Intégré à l'Outillage (RIO) dans les LLMs sur des « parcours idéaux » idéalisés, négligeant largement les défaillances d'outils réelles. Nous présentons ToolMaze, un référentiel pour la découverte dynamique de chemins et la récupération d'erreurs dans les agents RIO. Afin de distinguer la replanification systématique du simple essai-erreur aveugle, ToolMaze adopte une conception bidimensionnelle : une complexité topologique basée sur des DAG et une taxonomie 2×2 des perturbations d'outils (explicites/implicites, transitoires/permanentes). Les évaluations montrent que les perturbations dégradent les performances de presque tous les modèles, avec les baisses les plus marquées lors des défaillances sémantiques implicites. Sous l'effet d'une confiance systémique excessive dans les sorties corrompues, le Taux de Récupération des Perturbations (TRP) chute d'environ 37 % dans ces scénarios, tandis que les topologies complexes piègent les agents dans des boucles d'essai-erreur infructueuses. Crucialement, la tolérance aux pannes agentive s'améliore avec la taille du modèle 3,66 fois plus lentement que l'exécution de tâches de base, ce qui souligne que la replanification dynamique constitue un goulot d'étranglement distinct, non résolu par la mise à l'échelle des modèles ou l'amorçage. Les données et le code sont disponibles à l'adresse https://github.com/Zhudongsheng75/ToolMaze.
La compréhension vidéo est rapidement transformée par les modèles de langage multimodaux de grande taille (MLLMs), à mesure que la recherche passe de courtes séquences à des scénarios vidéo longs, multimodaux et intensifs en connaissances. Ces scénarios exigent des modèles qu'ils traitent des preuves éparses, des dépendances à longue portée, un alignement multimodal et une inférence fiable sous des budgets computationnels limités. Ce travail présente une perspective centrée sur l'humain pour la compréhension vidéo basée sur les LLM, organisée autour de trois capacités fonctionnelles : l'observation, la mémorisation et le raisonnement. Plutôt que de traiter les tâches vidéo comme des benchmarks isolés, cette perspective offre une structure unifiée pour analyser comment les MLLMs vidéo acquièrent des preuves, préservent le contexte et produisent des sorties ancrées. Nous introduisons une formulation qui caractérise les systèmes de compréhension vidéo par leurs représentations perceptuelles, leurs états de mémoire, leurs traces de raisonnement et leurs prédictions finales. Sur la base de cette formulation, nous identifions des défis dans la perception spatio-temporelle, le traitement efficace des longues vidéos, la modélisation de la mémoire, la compréhension en flux et le raisonnement fidèle. Les méthodes représentatives sont organisées selon leurs rôles dans les systèmes MLLM vidéo. L'observation couvre la perception fine, complète, audiovisuelle et efficace. La mémorisation inclut la mémoire hors ligne et en flux, tandis que le raisonnement couvre le raisonnement textuel seul et le raisonnement avec vidéos. Nous examinons en outre des domaines d'application tels que les vidéos égocentriques, sportives, pédagogiques, médicales et narratives, et couvrons les ensembles de données d'entraînement et les bancs d'essai selon les types de tâches, les formats de supervision, les modalités et les dimensions de capacité. Enfin, nous décrivons les problèmes ouverts et les orientations futures pour une intelligence vidéo scalable, consciente de la mémoire et ancrée dans les preuves. Les travaux connexes seront suivis en continu à l'adresse https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding.
Les assistants IA persistants, tels qu'OpenClaw, accumulent de vastes collections de souvenirs liés au fil d'interactions à long terme. À mesure que ces souvenirs s'accroissent, ils peuvent se renforcer mutuellement, diverger selon les contextes ou entrer en conflit direct, ce qui rend la bonne assistance dépendante des relations entre souvenirs plutôt que d'un simple rappel isolé. Les benchmarks existants de mémoire à long terme évaluent rarement la manière dont les agents préservent et exploitent ces relations lors de tâches en aval. Pour combler cette lacune, nous présentons SubtleMemory, un benchmark pour la discrimination fine de la mémoire relationnelle chez les agents IA à longue durée de vie. SubtleMemory construit des artefacts sémantiques latents contrôlés par les relations, dont les variantes instancient des relations complémentaires, nuancées ou contradictoires, et les intègre dans des historiques réalistes utilisateur-agent, obligeant les agents à retrouver des structures relationnelles distribuées lors de requêtes et instructions ultérieures. Le benchmark comprend 1 522 instances d'évaluation réparties sur 10 longs historiques, fondées sur 1 090 ensembles de variantes de mémoire contrôlés par les relations, et couvre à la fois des requêtes liées et non liées à l'utilisateur. En évaluant six systèmes de mémoire autonomes, deux agents de type Claw dotés de modules de mémoire natifs et trois agents de type Claw dotés de modules de mémoire plugin, nous constatons que les systèmes actuels restent faibles en discrimination fine de la mémoire relationnelle. Nous introduisons en outre des protocoles de diagnostic qui révèlent des profils de capacité distincts à travers les étapes de préservation, de récupération et de raisonnement en aval de la mémoire.
Nous présentons UnpredictaBench, une évaluation qui teste la capacité des grands modèles de langage (LLM) à capturer les véritables distributions sous-jacentes. Alors que les LLM sont de plus en plus utilisés comme substituts d’autres entités (par exemple, pour représenter des humains dans des simulations économiques), la tendance de nombreux modèles à converger vers une seule réponse plausible entraîne une incapacité à saisir l’imprévisibilité des systèmes réels. Les travaux récents visant à améliorer la diversité des sorties sont insuffisants dans ce contexte : la simulation requiert des échantillons calibrés sur une distribution cible, et non simplement des sorties variées. UnpredictaBench isole une version simplifiée mais fondamentale de ce problème : l’échantillonnage de résultats à partir de distributions cibles individuelles, incluant des distributions statistiques canoniques, des distributions induites par des programmes stochastiques, et des scénarios en langage naturel décrivant des processus aléatoires. Nous introduisons 448 problèmes de ce type, accompagnés de KS@N, une métrique d’évaluation polyvalente qui quantifie dans quelle mesure un modèle produit des distributions cibles approximatives en boîte noire via le test statistique de Kolmogorov-Smirnov. Il s’agit du taux auquel nous ne parvenons pas à rejeter les échantillons de taille N générés par le modèle par rapport à des échantillons de référence, une valeur N plus élevée indiquant une plus grande difficulté. Testés sur des modèles ouverts et propriétaires, nous observons une large dispersion des capacités distributionnelles. Par exemple, lorsque les modèles génèrent des échantillons de taille 100 (KS@100, notre métrique standard), les scores varient de près de 0 à plus de 20 %. Aucun modèle n’atteint 40 % à KS@100, ce qui montre une marge de progression significative dans la capacité d’échantillonnage distributionnel. Bien que l’ajout de raisonnement puisse légèrement améliorer les scores, nous ne trouvons pas de solution immédiate à ce problème. UnpredictaBench démontre que même une simulation distributionnelle simple reste difficile, ce qui en fait une première étape nécessaire vers l’utilisation des LLM comme substituts de systèmes complexes.
Les graphes causaux fournissent un langage de haut niveau pour rendre les mécanismes transparents. Des travaux récents utilisent les grands modèles de langage (LLMs) pour reconstruire les graphes causaux de processus du monde extérieur. Au contraire, dans cet article, nous utilisons les graphes causaux pour modéliser l'inférence même des LLMs, offrant aux parties prenantes une vue transparente de la façon dont le modèle perçoit et organise les concepts de haut niveau pour produire une prédiction. Nous proposons une méthode en quatre phases pour construire de tels graphes. Étant donné un LLM cible et un ensemble d'exemples textuels, notre méthode découvre des concepts discriminants de classe et interprétables par l'humain, et associe chaque entrée à des états de concepts perçus par le LLM. Nous introduisons ensuite une procédure d'augmentation contrefactuelle inspirée de MCMC qui étend les données d'observation éparses à travers des chaînes de contrefactuels. Cela permet une découverte causale stable avec σ-CG, produisant des graphes informatifs et interprétables. Nous appliquons notre méthode à trois LLMs dans des tâches de diagnostic de maladies, d'analyse de sentiments et de classification LLM-en-tant-que-juge. Nous évaluons les graphes appris pour la fidélité prédictive et la stabilité structurelle, et l'augmentation inspirée de MCMC pour la convergence et l'utilité en aval. Nos résultats montrent que les graphes causaux découverts capturent des dépendances significatives cohérentes avec le raisonnement des LLMs. Dans l'ensemble, cet article fournit une base pour l'explicabilité au niveau des concepts des LLMs.
Bien que les modèles de vision-langage (VLM) aient démontré de solides capacités de raisonnement visuel, leurs compétences en raisonnement spatial restent largement limitées aux images observées et à la chaîne de pensée orientée texte. Ils peinent souvent à inférer des agencements non observés, à maintenir une cohérence inter-vues et à raisonner à partir de points de vue alternatifs lorsque seules des observations égocentriques limitées sont disponibles. Dans ce travail, nous étudions ce problème sous l'angle de la réflexion avec imagination, où un VLM acquiert activement des preuves visuelles imaginaires en interagissant avec un simulateur de monde au cours du raisonnement. Nous proposons Astra, un cadre de raisonnement spatial agentique qui confère aux VLM une imagination visuelle conditionnée par l'action. Plus précisément, Astra couple Astra-VL, une politique de VLM entraînée par RL, avec Astra-WM, un simulateur de monde basé sur Bagel qui génère des observations sous de nouvelles vues à partir d'images contextuelles et de mouvements de caméra exprimés en langage naturel. Pour fournir des preuves imaginaires fiables, Astra-WM est entraîné avec un ajustement de cohérence de vue afin d'améliorer la cohérence de pose et de contenu entre les vues. Dans la phase de RL, nous proposons un curriculum d'apprentissage par renforcement en deux phases avec le simulateur de monde en boucle, pour stabiliser l'exploration de l'utilisation d'outils et améliorer la capacité du modèle à invoquer le simulateur uniquement lorsque les observations imaginaires apportent une amélioration par rapport à une réponse directe. Les expériences démontrent que le simulateur de monde et la politique agentique sont tous deux nécessaires : Astra-WM améliore les performances de Gemini-3-Flash augmenté par simulateur sur MMSI-Bench de 45,1 à 49,5, tandis qu'Astra-VL améliore le modèle de base Qwen3-VL de 29,8 à 38,8 sur MMSI-Bench et de 36,8 à 42,7 sur MindCube. Ces résultats montrent que les observations imaginaires peuvent fournir des preuves spatiales utiles, mais qu'un raisonnement efficace assisté par un modèle du monde nécessite d'apprendre quand, où et comment imaginer.
Dans ce travail, nous nous concentrons sur l'extension de SHARP, la méthode populaire de synthèse d'images photoréalistes, pour le rendu monoculaire universel sur un continuum de systèmes de caméras, allant des caméras conventionnelles à perspective aux configurations à grand champ de vision, fisheye et panoramiques omnidirectionnelles. Pour surmonter les hypothèses spécifiques au sténopé de SHARP, notre idée clé est d'aligner diverses images dans un espace latent omnidirectionnel unifié. Ainsi, nous proposons UniSHARP, qui effectue un alignement implicite à la fois dans les espaces de caractéristiques et gaussiens. Plus précisément, les primitives gaussiennes sont disposées le long de rayons et de distances radiales dans une représentation universelle basée sur les rayons, tandis que les caractéristiques sémantiques 2D et spatiales 3D extraites d'encodeurs inspirés d'UniK3D sont conjointement décodées pour générer le nuage gaussien complet. Pour évaluer de manière exhaustive notre méthode, nous construisons un référentiel couvrant divers systèmes d'imagerie à travers différentes scènes. Le référentiel est en outre stratifié par champ de vision (FoV) pour permettre une évaluation fine de la tâche de rendu monoculaire universel. Des expériences approfondies sur le référentiel proposé démontrent l'efficacité d'UniSHARP, surpassant largement les méthodes alternatives. La page du projet se trouve à l'adresse : https://insta360-research-team.github.io/Unisharp-website/
Nous soutenons que des données de mouvement de haute qualité peuvent guider les politiques de suivi vers de meilleures trajectoires d'optimisation dès le début de l'entraînement. Dans ce travail, nous présentons LIMMT (Less Is More for Motion Tracking). À notre connaissance, il s'agit de la première étude centrée sur les données pour le suivi de mouvement humanoïde basé sur la physique. Nous allons au-delà de la simple suppression des clips de mauvaise qualité et erronés, et définissons la qualité des données de mouvement selon trois dimensions : la faisabilité physique, la diversité et la complexité. Nous montrons que même un entraînement avec moins de 3 % d'AMASS permet d'obtenir de meilleures performances de suivi qu'un entraînement avec l'ensemble complet des données. Nous procédons également à un nettoyage des données sur les données de capture de mouvement estimées provenant du web. Des expériences et analyses approfondies valident l’efficacité de notre cadre.
Nous présentons dots.tts, un modèle fondamental de synthèse vocale (text-to-speech, TTS) autorégressif continu de 2 milliards de paramètres, qui modélise la parole dans un espace latent continu. Par rapport aux modèles autorégressifs continus existants, nos innovations principales sont au nombre de trois. Premièrement, nous entraînons un AudioVAE avec des objectifs multiples afin de construire un espace de parole continu, sémantiquement structuré et favorable à la prédiction. Deuxièmement, nous utilisons un conditionnement sur l'historique complet dans la tête de matching de flux (flow-matching) pour préserver la cohérence à longue portée et réduire la dérive lors de la génération. Troisièmement, nous appliquons un post-entraînement auto-correctif sans récompense à la tête de matching de flux afin d'améliorer davantage la robustesse et la qualité acoustique. Après avoir été entraîné sur un corpus multilingue à grande échelle, dots.tts atteint la meilleure performance moyenne sur Seed-TTS-Eval, avec des taux d'erreur de mots (WER) de 0,94 % / 1,30 % / 6,60 % et des scores de similarité (SIM) de 81,0 / 77,1 / 79,5 sur les ensembles de test zh/en/zh-hard respectivement. Sur d'autres bancs d'essai, dots.tts démontre également de manière constante des performances de pointe en source ouverte, faisant preuve d'une forte stabilité de génération, d'une capacité de clonage vocal et d'une expressivité émotionnelle. Pour une inférence efficace, nous appliquons en outre une distillation MeanFlow tenant compte du CFG, permettant une génération vocale à faible latence avec des latences de premier paquet de 85/54 ms respectivement en modes de sortie en continu et de double flux. Afin de faciliter la recherche reproductible et le déploiement pratique, nous publions le code d'entraînement et d'inférence, ainsi que les points de contrôle pré-entraînés, post-entraînés et distillés par MeanFlow, sous la licence Apache 2.0.
Les modèles de diffusion d'image à vidéo exploitent des images d'entrée pour générer un contenu visuellement saisissant, mais produisent fréquemment des mouvements qui violent les lois physiques. Nous révélons un résultat surprenant : une génération en 2 étapes présente souvent une meilleure cohérence physique qu'une sortie en 50 étapes du même modèle. Grâce à une analyse spectrale, nous attribuons ce phénomène à l'érosion de phase pendant le débruitage ; la phase se dégrade significativement (chute d'environ 18 % de l'étape 2 à l'étape 50), tandis que la magnitude reste relativement stable. À partir de cette observation, nous proposons PhaseLock, un cadre sans entraînement qui préserve les a priori de mouvement valides issus d'une inférence en quelques étapes tout au long de la trajectoire de débruitage. Plutôt que de se fier à une inférence complète pour la cohérence physique, PhaseLock extrait un a priori de mouvement à partir de seulement 2 étapes et l'impose à la génération haute-fidélité via un Guidage Delta Latent. Notre approche atténue efficacement la dégradation de phase, améliorant la cohérence physique de 6,2 points en moyenne sur divers modèles tout en maintenant largement la fidélité visuelle, avec une surcharge négligeable (1,06 fois le temps, 1,02 fois la mémoire) et une dépendance réduite aux méthodes de guidage externe coûteuses (environ 5 fois le temps).
Les humains constituent le goulot d'étranglement dans la construction et l'amélioration de l'IA. Les modèles, ainsi que les agents qui les encapsulent, sont écrits, ajustés et corrigés par des personnes. L'objectif à long terme d'une IA capable de trouver par elle-même comment s'améliorer reste ouvert. Deux axes de recherche largement disjoints s'attaquent à ce goulot d'étranglement. L'école de la mise à jour du harnais (harness-update) fait réécrire par un méta-agent l'échafaudage d'un agent spécialisé dans une tâche (ses outils, invites, logique de réessai et procédure de recherche) tandis que les poids du modèle restent fixes. L'école de l'entraînement au moment du test (test-time training) utilise des pipelines d'apprentissage par renforcement écrits manuellement pour mettre à jour les propres poids du modèle à partir du retour d'information sur la tâche, tandis que le harnais reste fixe. Ces deux silos fonctionnent de manière isolée. Nous proposons SIA, une boucle d'auto-amélioration dans laquelle un agent modèle de langage (l'Agent de Rétroaction) met à jour à la fois le harnais et les poids d'un agent spécialisé dans une tâche. Nous évaluons sur trois domaines contrastés : la classification des charges légales chinoises, l'optimisation de noyaux GPU bas niveau et le débruitage d'ARN monocellulaire. Combiner les deux leviers surpasse l'itération seule de l'échafaudage sur les trois références. Les gains sont de 56,6 % sur LawBench, une réduction de 91,9 % du temps d'exécution sur les noyaux GPU et de 502 % sur le débruitage par rapport à la référence initiale. Les mises à jour du harnais rendent l'agent agentique, façonnant la manière dont il recherche et agit, tandis que les mises à jour des poids construisent l'intuition du domaine qu'aucune invite ou échafaudage ne peut insuffler.
La recommandation d'articles scientifiques est généralement évaluée comme un classement statique sur un ensemble fixe de candidats, alors que la lecture scientifique réelle se déroule comme un processus quotidien et longitudinal dans lequel les intérêts évoluent et le feedback s'accumule. Nous présentons PaperFlow, un cadre qui l'organise en trois étapes couplées : le Profilage, qui construit et maintient un profil académique structuré et inspectable à partir de preuves hétérogènes de démarrage à froid ; la Recommandation, qui classe chaque flux d'articles spécifique à une date via une agrégation multi-signaux sous un budget d'affichage fixe ; et l'Adaptation, qui met à jour l'état de l'utilisateur à partir de signaux de feedback sémantiquement distincts et modélise la dérive des intérêts au fil des jours. Nous définissons en outre un benchmark longitudinal utilisateur-jour qui fixe les utilisateurs, les dates, les pools de candidats, les entrées visibles et les étiquettes de pertinence simulées cachées sous une frontière d'information temporelle partagée. Le benchmark contient 24 utilisateurs de recherche simulés, 50 flux d'articles quotidiens, 1 200 épisodes utilisateur-jour, 20 727 articles uniques et 497 448 enregistrements épisode-article. Nous spécifions en outre un protocole d'évaluation humaine en aveugle pour valider l'alignement entre les métriques automatiques et les jugements d'experts. Les expériences contre cinq bases de référence de recommandation scientifique montrent que PaperFlow obtient le meilleur classement basé sur oracle, le meilleur alignement comportemental avec les sélections de lecture simulées et le meilleur score d'évaluation humaine en aveugle.
Les agents d'ingénierie logicielle pilotés par les LLM sont devenus un banc d'essai central pour évaluer les capacités des modèles de langage en conditions réelles, mais leur entraînement reste limité par la disponibilité de tâches de génie logiciel de haute qualité. Les méthodes existantes de données synthétiques créent généralement des tâches via des procédures fixes de mutation ou d'injection de bogues, rendant les distributions résultantes largement indépendantes des faiblesses propres à l'agent et de sa progression d'entraînement. Nous introduisons Socratic-SWE, un cadre d'auto-évolution en boucle fermée qui réutilise les traces historiques de résolution de l'agent comme source de signal d'apprentissage. Plutôt que de traiter les traces uniquement comme des preuves pour le calcul des récompenses, Socratic-SWE les distille en compétences d'agent structurées qui résument les échecs récurrents et les schémas de réparation efficaces. Ces compétences guident ensuite la génération de tâches de réparation ciblées dans des dépôts réels. Les tâches candidates sont vérifiées par une validation basée sur l'exécution et notées à l'aide d'une récompense d'alignement de gradient du solveur, de sorte que les tâches retenues soient à la fois vérifiables et utiles pour améliorer le solveur. Le solveur mis à jour produit de nouvelles traces, permettant au curriculum de tâches de s'adapter au fil des itérations successives. Sur SWE-bench Verified, SWE-bench Lite, SWE-bench Pro et Terminal-Bench 2.0, Socratic-SWE améliore systématiquement les références d'auto-évolution sous le même budget de calcul, atteignant 50,40 % sur SWE-bench Verified après trois itérations. Ces résultats suggèrent que les traces de résolution peuvent servir de substrat évolutif pour les agents de génie logiciel auto-évolutifs.
Les agents LLM sont de plus en plus amenés à opérer dans des régimes de tâches hétérogènes qui exigent des paradigmes d'exécution distincts. Cela remet en cause les systèmes d'agents fixes et motive une méta-adaptation au niveau du système, au-delà des mises à jour isolées de composants. Bien que des travaux existants aient adapté un harnais externe ou entraîné les politiques de raisonnement sous-jacentes, l'adaptation complète du système reste insuffisamment caractérisée. L'espace d'adaptation entre structure et exécution est rarement rendu explicite, et la compatibilité entre le harnais externe et le raisonneur interne n'est pas optimisée conjointement. Nous proposons HarnessForge, un cadre méta-adaptatif pour l'évolution des systèmes d'agents LLM. HarnessForge formule un système d'agent comme une paire harnais-politique, définissant un espace d'adaptation stable qui sépare la structure d'exécution au niveau du harnais du comportement de raisonnement au niveau de la politique. Il effectue ensuite une co-évolution harnais-politique via un ajustement du harnais guidé par les fautes et un alignement de la politique conditionné par le harnais. Des expériences sur cinq bancs d'essai provenant de domaines divers montrent que HarnessForge améliore systématiquement les backbones Qwen3-4B et Qwen3-8B, surpassant les lignes de base ne modifiant que le harnais ou que la politique avec des gains allant jusqu'à 12,0 % par rapport à la meilleure ligne de base, et atteignant des compromis déploiement-efficacité favorables. Cela démontre que la co-évolution harnais-politique est efficace et que la compatibilité exécutable entre le harnais et la politique de raisonnement est essentielle pour l'adaptation des systèmes d'agents. Le code est disponible à l'adresse https://github.com/mingju-c/HarnessForge.
Malgré les progrès rapides des Modèles Vision-Langage (VLM), le domaine manque de références capables de diagnostiquer rigoureusement leurs véritables capacités de raisonnement et de tracer des progrès significatifs vers une intelligence multimodale de type humain. La plupart des évaluations existantes se concentrent sur des tâches fragmentaires ou déconnectées, occultant des lacunes cognitives critiques et offrant peu d'indications pour des améliorations ciblées. Pour combler cette lacune, nous présentons BloomBench, faisant partie de la série de références Almieyar, la première référence multimodale bilingue (anglais-arabe) ancrée cognitivement dans l'humain pour les VLM. Fondée sur la Taxonomie de Bloom, BloomBench évalue systématiquement six niveaux de cognition (Se souvenir, Comprendre, Appliquer, Analyser, Évaluer, Créer) à travers des tâches soigneusement conçues d'image-question-réponse. Construite via un pipeline semi-automatisé et validée par un protocole d'assurance qualité hybride stratifié, elle garantit l'évolutivité, l'inclusivité culturelle et la fidélité linguistique. En exploitant ce cadre, nous menons une étude approfondie des VLM de pointe pour diagnostiquer leurs profils cognitifs. Notre analyse révèle une asymétrie cognitive marquée : alors que les modèles de pointe atteignent des plafonds de performance élevés en compréhension sémantique, ils éprouvent des difficultés substantielles en rappel factuel et en synthèse créative. Cela démontre que la compétence multimodale générale actuelle masque des limites plus profondes dans des couches cognitives spécifiques. De plus, notre étude met en évidence un écart de performance critique entre l'arabe et l'anglais, exposant les limites du raisonnement multimodal cross-lingue actuel. Ces résultats établissent une base pour développer des VLM plus alignés cognitivement et inclusifs. Le cadre de référence et l'ensemble de données sont disponibles à l'adresse : https://github.com/qcri/Almieyar-Oryx-BloomBench.
Les modèles de vision-langage (VLMs) sont de plus en plus déployés dans des environnements incarnés, où ils doivent produire des sorties numériques telles que des amplitudes d'action et des coordonnées spatiales. Bien que ces nombres paraissent significatifs, il n'est pas clair que ces sorties numériques soient véritablement ancrées dans la perception spatiale. Ainsi, dans ce travail, nous revisitons la compréhension numérique spatiale à travers SpaceNum, un cadre unifié qui capture deux configurations complémentaires : les nombres en tant que transitions dynamiques lors de l'exploration spatiale, et les nombres en tant que dispositions statiques dans le raisonnement spatial. Nous formulons deux tâches bidirectionnelles, Num2Space et Space2Num, pour évaluer dans quelle mesure les VLMs effectuent une cartographie entre la structure spatiale du côté visuel et les représentations numériques du côté langagier. Nous étudions systématiquement si les VLMs actuels comprennent véritablement les valeurs numériques dans des contextes spatiaux. À travers les transitions dynamiques et les dispositions statiques, nous constatons que les modèles échouent largement à ancrer les nombres dans une signification spatiale et se comportent souvent proche d'une estimation aléatoire. Grâce à l'analyse des erreurs, à l'analyse des traces de raisonnement et à des interventions contrôlées, nous montrons que les VLMs actuels s'appuient fortement sur des indices spatiaux superficiels, peinent à construire des représentations stables et conscientes des coordonnées, et échouent à abstraire des dispositions spatiales structurées à partir d'observations visuelles. Nous montrons en outre que le raisonnement explicite n'apporte que des gains marginaux, tandis que le réglage (fine-tuning) peut améliorer partiellement la compréhension spatiale des nombres et se transférer à des référentiels externes de raisonnement spatial.
Malgré les avancées dans la compréhension de scènes 3D, les grands modèles multimodaux 3D existants fonctionnent dans des contextes hors ligne, nécessitant des observations complètes de la scène ou des clips vidéo prédéfinis. Dans cet article, nous présentons un modèle 3D vision-langage en ligne qui permet une compréhension spatiale en temps réel à partir de vidéos en continu. Notre approche adopte une modélisation de contrôle de flux autorégressif basée sur l'objectif de prédiction du jeton suivant du LLM pour apprendre quand répondre, et utilise un module léger d'Intégration de Caractéristiques Visuelles-Spatiales (VSFI) pour injecter de manière incrémentale des a priori géométriques alignés temporellement dans le flux visuel. Afin de réduire la surcharge de décodage en contexte long, nous proposons un module de Compression de Voxels Adaptative à la Géométrie (GAVC) prêt à l'emploi pour une compression efficace des jetons visuels. Pour remédier à la rareté des données 3D-langage en continu, nous développons en outre un pipeline de génération de données évolutif qui organise plus d'un million de paires de questions-réponses 3D spatio-temporelles en ligne et établit un benchmark complet couvrant 29 tâches. Des expériences approfondies montrent que notre approche surpasse significativement à la fois les modèles propriétaires et open-source dans les tâches de compréhension spatiale 3D, de raisonnement et d'ancrage, aussi bien en ligne qu'hors ligne. La page du projet est disponible à l'adresse https://stream3d-vlm.github.io/.
La vision 3D a rapidement évolué, portée par des représentations de données, des paradigmes d'apprentissage et des stratégies de modélisation de plus en plus diversifiés. Pourtant, le domaine reste fragmenté entre représentations et jeux de référence, ce qui rend difficile le développement de perspectives unifiées sur l'efficacité, la fidélité et la scalabilité. Ce travail propose une taxonomie centrée sur les données de la vision 3D qui relie les représentations géométriques, les jeux de données, les cadres d'apprentissage et les applications au sein d'une carte conceptuelle unique. Nous commençons par analyser les principales représentations structurelles des données 3D—nuages de points, maillages, voxels et gaussiennes 3D—ainsi que leurs pipelines d'acquisition. Nous examinons ensuite comment la conception des jeux de données, la construction des références et les régimes de supervision façonnent les avancées récentes, couvrant l'apprentissage 3D supervisé en 2D, les représentations neurales implicites et la modélisation du monde 4D. À travers cette perspective intégrative, nous clarifions les relations entre représentations, paradigmes d'apprentissage et tâches aval en reconstruction, génération et modélisation vidéo, offrant une vision consolidée des tendances émergentes vers un équilibre entre efficacité et fidélité et vers un ancrage géométrique multimodal.
La recherche pour les agents de recherche est encore héritée de la recherche d'information non agentique : un système de recherche classe le corpus et l'agent lit un petit ensemble de documents retournés. De récents travaux sur l'interaction directe avec le corpus (DCI) montrent que les agents peuvent interagir directement avec le corpus brut via des outils shell tels que grep et la lecture de fichiers. Mais une interaction illimitée ne passe pas à l'échelle : chaque commande shell large implique un balayage de l'ensemble du corpus, et la latence se dégrade fortement à mesure que le corpus grandit. Nous soutenons que le rôle de la recherche pour la recherche agentique n'est pas seulement de sélectionner des documents qui tiennent dans la fenêtre de contexte du LLM, mais de construire un espace d'interaction : un sous-ensemble borné du corpus que l'agent peut explorer à l'aide d'outils associés. Deux conséquences de conception en découlent. L'espace a besoin d'une frontière fournie par la recherche, et les objets qu'il contient doivent être traités pour l'interaction. Comme preuve de concept, nous proposons RISE (Retrieving Interaction SpacE) : nous utilisons BM25 pour construire l'espace d'interaction ; parallèlement, ses documents sont traités lors de l'indexation pour une navigation de type shell. Sur BrowseComp-Plus, RISE égalise la ligne de base DCI en pur shell avec une précision de 78 % avec gpt-5.4-mini pour environ un quart du coût par requête. À 1 million de documents, RISE-BM25 atteint 81 % sur gpt-5.4-mini, tandis que DCI sur gpt-5.4-nano se dégrade à 60 % avec 33 échecs de temps réel sur 100.
La pondération de la perte basée sur la confiance est généralement évitée dans les modèles génératifs car elle accélère les erreurs lorsque le modèle est confiant mais erroné, mais cette intuition ne tient pas dans l'apprentissage supervisé par diffusion. Nous introduisons la barrière logarithmique d'Eisbach, un poids sans paramètre dérivé de l'entropie de la distribution d'énergie spatiale de la sortie du DiT : une entropie élevée atténue le gradient, tandis qu'une entropie faible le préserve. Appliquée au fine-tuning LoRA de Stable Audio 3 Medium sur MusicCaps, elle produit de manière inattendue un développement thématique plus fort, une différenciation acoustique plus nette et une diversité texturale plus élevée que l'entraînement non pondéré, soit l'inverse de l'effondrement modal. Cela fonctionne parce que dans la diffusion supervisée, la direction du gradient est verrouillée sur la vérité terrain, de sorte que la confiance ne fait que mettre à l'échelle la taille du pas, et parce que l'entropie temporelle réduit le poids des échantillons plats tout en préservant ceux à fort contraste. Le résultat est un programme de données auto-référentiel en ligne qui émerge uniquement du passage avant, avec une analyse des dynamiques de niveau de bruit et des prédictions testables.
Les modèles de langage peuvent utiliser des récompenses vérifiables pour s'améliorer dans une grande variété de tâches de raisonnement. Cependant, les approches paramétriques (par exemple, RLVR) et non paramétriques (par exemple, l'optimisation de prompt) pour y parvenir nécessitent généralement des centaines d'échantillons d'entraînement et des milliers de passages de modèle, ce qui les rend coûteuses dans le meilleur des cas et intraîtables dans le pire. Pour relever ce défi, nous introduisons la Réflexion Contrastive (CORE), un algorithme d'apprentissage non paramétrique qui compare les traces de raisonnement passées pour générer des insights : de courtes descriptions en langage naturel de stratégies et de contraintes de raisonnement qui capturent les différences entre les tentatives de résolution réussies et échouées. À travers quatre tâches de raisonnement, nous démontrons que CORE permet une amélioration plus rapide que les méthodes paramétriques (GRPO) et non paramétriques (GEPA, RAG épisodique et MemRL), tout en utilisant moins de passages. Avec des budgets de passages fixes et aussi peu que cinq échantillons d'entraînement, nous montrons ensuite que CORE obtient des gains de performance comparables ou supérieurs à chaque baseline. Enfin, nous soulignons que CORE est également considérablement plus efficace en termes de contexte que les baselines non paramétriques, nécessitant moins de tokens de prompt tout en stockant les connaissances apprises sous forme d'insights compacts et interprétables en langage naturel. Nos résultats suggèrent donc que distiller les contrastes entre les traces de raisonnement réussies et échouées en insights abstraits et utiles peut offrir une voie plus efficace et interprétable vers l'auto-amélioration des modèles que les mises à jour de poids, l'optimisation de prompt ou la réutilisation directe des traces de raisonnement stockées.
La personnalisation d’un juge LLM pour une tâche ou un domaine spécifique implique souvent l’optimisation de son prompt selon plusieurs critères d’évaluation simultanément. Les méthodes de gradient textuel automatisent ce processus pour un unique critère de jugement, mais produisent des critiques en langage naturel, et non des vecteurs numériques. Ainsi, la boîte à outils de résolution de conflits de l’apprentissage multitâche (PCGrad, MGDA) ne s’applique pas au cadre du gradient textuel multi-objectif. Nous testons cinq modes de décomposition des optimiseurs de gradient textuel en faisant varier la quantité d’informations inter-tâches partagées entre les L LM de perte, de gradient et d’optimisation. Dans 6 configurations sur 10, nous observons que l’optimisation n’améliore jamais le prompt initial. La spécificité du gradient chute de 59 % (de 9,0 à 3,7) lorsque le L LM de gradient traite plusieurs critères conjointement. Par ailleurs, nous observons que la combinaison naïve des instructions par tâche en un seul prompt dégrade le rho de Spearman de -5,3 %. Ces résultats identifient deux modes de défaillance distincts : la dilution du gradient au moment de l’optimisation et l’interférence des instructions au moment de l’inférence, qui contraignent ensemble l’espace de conception pour la personnalisation multi-objectif du juge par retour textuel.
Les modèles de raisonnement ont progressé rapidement, mais la recette dominante de l'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) reste étonnamment étroite : échantillonner de nombreuses réponses et récompenser chacune avec un seul bit indiquant si la réponse finale est correcte. Pourtant, de nombreux contextes fournissent un retour d'information riche, incluant des traces d'exécution, des sorties d'outils, des corrections d'experts et des auto-évaluations du modèle. Nous étudions comment utiliser un tel retour d'information à travers une variante distributionnelle de l'algorithme classique d'apprentissage par imitation DAgger, où l'apprenant a un accès local à une distribution experte sur les états visités par la politique courante. Cela donne un objectif simple d'entropie croisée directe qui admet un expert en boîte noire et dont le gradient au niveau de la séquence {effectue un riche assignement de crédit en propageant} le futur désaccord expert-étudiant vers les décisions antérieures. Nous montrons que les approches antérieures de renforcement avec des objectifs d'auto-distillation basés sur la KL inverse ou la divergence de Jensen-Shannon ne garantissent pas une amélioration monotone de la politique : même lorsque l'expert obtient une récompense plus élevée, leurs mises à jour peuvent augmenter la probabilité d'actions pires. En revanche, nous montrons que l'entropie croisée directe permet une amélioration monotone de la politique et bénéficie de garanties sur le regret. Nous montrons en outre que notre objectif optimise une borne inférieure de la vraisemblance pondérée par l'enseignant du succès, conduisant à une amélioration du Pass@N. Empiriquement, notre approche, DistIL, surpasse les méthodes de référence RLVR et RL avec auto-distillation dans divers domaines : raisonnement scientifique, codage et résolution de problèmes mathématiques difficiles.
Les modèles de raisonnement produisent de longues traces de chaînes de pensée qui sont coûteuses à distiller et favorisent des sorties verbeuses des étudiants. Nous étudions la compression post-hoc de ces traces avant la distillation de connaissances. Deux enseignants, Qwen3.5-397B-A17B et gpt-oss-120B, génèrent chacun environ 283 000 traces correctes ; deux modèles ajustés par instructions les compressent ensuite à 8,6–21,0 % de leur longueur originale en caractères. Sur une grille principale de 48 exécutions plus sept ablations par troncature avec l'enseignant Qwen, les traces compressées réduisent les jetons d'entraînement à 12–30 % des jetons bruts, accélèrent l'entraînement de 2,0 à 7,6 fois, et raccourcissent les sorties d'inférence de 3 à 19 fois, avec des réductions moindres sous l'enseignant gpt-oss plus court. Cependant, les traces brutes conservent la plus haute précision en aval à toutes les échelles et pour les deux enseignants. Une ablation par troncature des traces brutes appariée en longueur montre que la compression ne bénéficie pas simplement d'un budget de jetons plus faible : les traces compressées par modèle surpassent ou égalent généralement la troncature naïve, en particulier pour les étudiants plus petits, tout en maintenant des sorties d'inférence plus courtes. Dans l'ensemble, la compression des traces de raisonnement offre un compromis précision-efficacité plutôt qu'une amélioration gratuite : les étudiants conservent jusqu'à 96 % de la précision des traces brutes tout en obtenant une efficacité par jeton jusqu'à 18 fois supérieure, et à l'échelle 0,8B avec LoRA, les traces compressées réduisent l'écart entre brutes et compressées mais ne dépassent pas les brutes.
Les systèmes de modèles de langage agentiques alternent entre deux types d'étapes structurellement distincts : les appels d'outils structurés (courts, déterministes, à faible perplexité) et les étapes de planification/raisonnement ouvertes (longues, complexes, à forte perplexité). Malgré cette hétérogénéité, les systèmes d'inférence actuels appliquent un calcul identique à chaque étape. Nous introduisons LayerRoute, un adaptateur léger qui apprend à ignorer sélectivement des blocs de transformeur par entrée. LayerRoute enrichit chacun des 24 blocs de transformeur de Qwen2.5-0.5B-Instruct avec : (1) un routeur par couche (~897 paramètres, Linear(896,1)) qui produit une porte binaire dure via l'estimateur à passage direct, et (2) des adaptateurs LoRA (rang 8, ~1,08M paramètres) sur les projections d'attention Q/K/V/O. Les poids du backbone restent gelés. Un unique passage d'entraînement de bout en bout sur des données agentiques (Hermes, Glaive, GSM8K, Turing) avec un terme de régularisation de porte force le système à découvrir quels blocs peuvent être ignorés par type d'entrée. Après 3 000 pas (6,4 minutes sur un A100 40 Go), LayerRoute atteint un différentiel de saut de 12,91 % : les appels d'outils sautent 15,25 % des FLOPs tandis que les étapes de planification n'en sautent que 2,34 %, en utilisant seulement 1,10 M de paramètres entraînables (0,22 % des 494 M du backbone). La qualité s'améliore par rapport au modèle de base grâce à l'adaptation LoRA, avec un delta de perplexité de -1,29 pour les appels d'outils et de -1,30 pour la planification.
Les grands modèles de langage (LLMs) ont récemment été adoptés comme agents synthétiques pour la simulation de l'opinion publique, offrant une alternative prometteuse aux enquêtes humaines coûteuses et lentes. Malgré leur évolutivité, les méthodes actuelles de simulation basées sur les LLMs ne parviennent pas à capturer la diversité sociale, produisant des différences inter-groupes nivelées et des réponses excessivement homogènes selon les groupes démographiques. Nous identifions cette limitation comme un phénomène d'effondrement de la diversité (Diversity Collapse) dans les représentations cachées des LLMs, où des identités sociales distinctes deviennent de plus en plus indistinguables à travers les couches. Motivés par cette observation, nous proposons l'injection paramétrique d'identité sociale (PSII), un cadre général qui injecte des représentations explicites et paramétriques des attributs démographiques et des orientations de valeurs directement dans les états cachés intermédiaires des LLMs. Contrairement au conditionnement de persona basé sur les invites, PSII permet une modulation d'identité fine et contrôlable au niveau des représentations. Des expériences approfondies sur la World Values Survey utilisant plusieurs LLMs open source montrent que PSII améliore significativement la fidélité distributionnelle et la diversité, réduisant la divergence KL par rapport aux données d'enquête réelles tout en améliorant la diversité globale. Ce travail fournit de nouvelles perspectives sur le contrôle au niveau des représentations des agents LLM et fait progresser la simulation d'opinion publique évolutive et sensible à la diversité.
La reconnaissance automatique de la parole (RAP) est un composant central de l'interaction homme-machine et un frontal de plus en plus important pour les assistants et agents basés sur les grands modèles de langage (LLM). Cependant, la plupart des systèmes de RAP actuels suivent encore un paradigme à passage unique, qui s'aligne mal avec la communication humaine, où les malentendus sont résolus par clarification et raffinement itératifs. Ce décalage rend difficile la correction des erreurs critiques pour le sens une fois qu'elles se sont produites. Par ailleurs, les métriques au niveau des tokens, telles que le Taux d'Erreur de Mots (TEM) ou le Taux d'Erreur de Caractères (TEC), ne peuvent pas refléter adéquatement ce problème. Pour pallier ces limitations, nous formulons la RAP Interactive comme une tâche de raffinement multi-tour et proposons Agentic RAP, un cadre en boucle fermée qui combine un frontal de RAP à passage unique avec une correction sémantique, un routage d'intention et une édition basée sur le raisonnement. Nous introduisons également le Taux d'Erreur Sémantique au Niveau de la Phrase (S²ER), une métrique d'évaluation sémantique basée sur un LLM, ainsi qu'un Système de Simulation Interactive pour un benchmarking évolutif et reproductible. Les expériences sur des benchmarks multilingues, intensifs en entités nommées et en alternance codique montrent que l'interaction itérative réduit systématiquement les erreurs sémantiques, avec des gains beaucoup plus importants en S²ER qu'avec les métriques conventionnelles au niveau des tokens. Des études d'alignement humain-IA et d'ablation valident davantage la fiabilité du juge sémantique et la robustesse du cadre proposé. Le code est disponible à l'adresse : https://interactiveasr.github.io/ et la démonstration en direct est accessible à https://i-asr.sjtuxlance.com/.
Les attaques par distillation créent un compromis de déploiement pour les fournisseurs de modèles : les mêmes sorties qui rendent un modèle plus utile peuvent également faciliter son imitation. Nous étudions ce compromis à travers un jeu minimax entre un enseignant contraint par l’utilité et un étudiant adaptatif. Notre cadre fournit des règles de réponse unilatérales exploitables : une règle d’évaluation adaptative où l’étudiant repondère les exemples de grande valeur, et un modèle de défense côté enseignant qui supprime les sorties les plus utiles pour la distillation. À partir d’un proxy bon marché de la valeur des exemples, nous dérivons Product-of-Experts (PoE), une défense simple ne nécessitant qu’un passage avant, qui combine l’enseignant avec un étudiant proxy lors de la génération. Empiriquement, l’évaluation adaptative révèle un grand écart passif-adaptatif : sur les défenses les plus récentes, les étudiants adaptatifs récupèrent significativement plus de capacités que ce que suggère l’évaluation passive sur GSM8K et MATH. Sous cette évaluation plus forte, l’écart apparent de robustesse entre les défenses coûteuses et PoE se réduit considérablement, tandis que PoE reste nettement moins cher et préserve des traces de raisonnement de meilleure qualité. Dans l’ensemble, nos résultats suggèrent qu’il est difficile d’empêcher une distillation forte, et que les progrès en matière d’anti-distillation devraient être jugés par rapport à des étudiants adaptatifs plutôt que passifs. Notre code est disponible à l’adresse : https://github.com/ysfalh/distillation-game.
Nous présentons StreamForce, un framework de génération vidéo en continu permettant un contrôle physiquement fondé via des entrées de force continues. Contrairement aux modèles vidéo antérieurs qui entraînent des modèles séparés pour différents types de force, supposent des forces fixes ou reposent sur un traitement non causal, StreamForce est un modèle causal et unifié qui répond instantanément et de manière cohérente à des forces locales et globales variant dans le temps. Pour y parvenir, nous concevons une représentation unifiée des forces comme signal de contrôle et développons un pipeline de distillation pour la génération vidéo contrôlable par forces. Notre modèle combine l'efficacité autorégressive avec la réactivité aux forces, maintenant une stabilité photométrique et un réalisme dynamique. StreamForce atteint jusqu'à 16,6 FPS sur un seul GPU, obtenant des performances de pointe tant en matière d'adhérence aux forces que de réalisme du mouvement. Site web du projet : https://neu-vi.github.io/StreamForce/
La sélection de sources négatives difficiles pour la recherche dense est généralement décidée seulement après le fine-tuning et l'évaluation en aval. Nous proposons ECI_{sem}, une variante résiduelle sémantique de l'Information Contrastive Effective (ECI), qui classe les sources négatives candidates en utilisant les plongements gelés d'un encodeur cible. ECI_{sem} ne nécessite pas d'entraînement, mais n'est pas sans étiquettes : chaque exemple évalué nécessite une requête, un positif labellisé et un négatif candidat explicite. ECI_{sem} construit une matrice d'information résiduelle pondérée à partir de la cohérence cible, de la localité sémantique, de la résidualité lexicale et d'un objectif de diversité basé sur le log-déterminant. Sur les sources négatives de MS MARCO, ECI_{sem} intra-famille classe les négatifs issus de LLM les plus élevés parmi les sources non hybrides, et Dense+LLM le plus élevé parmi les sources hybrides, correspondant aux meilleurs résultats agrégés de transfert BEIR pour DistilBERT, E5-base et Contriever. Des ablations contrôlées montrent que cet alignement dépend de l'utilisation de la famille d'encodeurs cibles, tandis que des ablations supplémentaires montrent une stabilité face aux perturbations de taille d'échantillon, température, tokenizer et corpus IDF. La théorie établit un lien local linéarisé avec la réduction de la perte, tandis que l'étude empirique considère l'évaluation en aval comme le test final.
Les développeurs utilisent de plus en plus des outils d’IA tels que ChatGPT, Copilot et Claude dans leurs flux de travail logiciels quotidiens, mais les études antérieures évaluent souvent les sorties des LLM de manière isolée, sans examiner comment les développeurs les adaptent dans des projets réels. Nous analysons 35 361 commentaires de code GitHub faisant explicitement référence à l’utilisation de l’IA ainsi que les blocs de code associés. Nous codons d’abord manuellement 500 commentaires et blocs de code uniques pour élaborer une taxonomie des activités de développement assistées par l’IA, puis annotons l’ensemble du jeu de données à l’aide de deux classificateurs basés sur des LLM et agrégcons les prédictions par maximisation de l’espérance selon Dawid-Skene. Nous analysons également 12 996 messages de commit ultérieurs pour étudier l’évolution du code assisté par l’IA après son introduction, et examinons les tendances temporelles de décembre 2022 à mars 2026. Nos résultats montrent que les développeurs utilisent principalement les LLM pour l’implémentation de code, suivie par l’amélioration du code, le débogage, la documentation et les tests. Les commits ultérieurs impliquent fréquemment du refactoring et du nettoyage, l’intégration et l’extension de fonctionnalités, ainsi que la correction de bogues, ce qui indique une supervision humaine continue dans l’adaptation du code assisté par l’IA. Au fil du temps, les commentaires faisant référence à l’IA passent de la génération directe de code au soutien conceptuel et à l’amélioration du code. Ces résultats suggèrent que les outils d’IA s’intègrent non seulement comme des aides à la génération de code, mais aussi comme des mécanismes de soutien collaboratif dont les sorties sont affinées, étendues et corrigées par les développeurs au fil du temps.
La robustesse des réseaux de neurones profonds est cruciale pour les déploiements critiques en matière de sécurité, mais les méthodes d'évaluation existantes dépendent souvent des attaques et manquent d'interprétabilité. Nous proposons une métrique de robustesse fondée sur des principes, indépendante des attaques, basée sur la norme spectrale de la matrice d'information de Fisher (FIM), qui quantifie la sensibilité dans le pire cas de la distribution de sortie du modèle aux perturbations d'entrée. Théoriquement, nous établissons que la FIM est égale à la variance du Jacobien d'entrée et dérivons des bornes spectrales sous forme fermée pour des architectures courantes, notamment VGG, ResNet, DenseNet et Transformer, fournissant ainsi le premier classement théorique de robustesse. Pour permettre une évaluation à grande échelle, nous développons des algorithmes efficaces, incluant l'itération par puissance et l'estimation basée sur Hutchinson, qui prennent en charge à la fois les contextes en boîte blanche et en boîte noire. Des expériences approfondies sur plusieurs ensembles de données, dont CIFAR, ImageNet et des images médicales, ainsi que sur plusieurs architectures, montrent une forte corrélation entre notre métrique et la vulnérabilité aux attaques adverses. Notre cadre sert d'outil diagnostique interprétable complétant les évaluations basées sur les attaques, offrant des perspectives sur la sensibilité architecturale et guidant la conception de modèles plus robustes. Le code est disponible à l'adresse : https://github.com/franz-chang/SRP/.
Nous étudions la transformation des modèles autorégressifs (ARLM) en modèles de langage à diffusion (DLM). Plutôt que de pré-entraîner un modèle de zéro, les travaux précédents remplacent l'attention causale dans les ARLM par une attention bidirectionnelle, puis entraînent le modèle résultant à l'aide d'un objectif DLM. Cependant, ces approches introduisent deux décalages distributionnels. Premièrement, le passage d'un objectif de prédiction du token suivant à un objectif DLM peut faire perdre les connaissances acquises par l'ARLM lors de l'entraînement. Deuxièmement, les DLM standard souffrent d'un décalage entre l'entraînement et l'inférence, car la fonction de perte d'entraînement est définie sur des séquences masquées aléatoirement plutôt que sur les trajectoires rencontrées lors de l'inférence, produites par un décodage basé sur la confiance. Pour relever ces deux défis, nous introduisons un modèle de langage à diffusion sur politique (OPDLM), dans lequel la distillation sur politique (OPD) est utilisée pour la transformation ARLM-DLM. Concrètement, OPDLM est entraîné via auto-OPD, où l'étudiant, un ARLM à attention bidirectionnelle, génère ses propres trajectoires, et l'enseignant, l'ARLM original figé, distille ses connaissances en fournissant des logits cibles sur ces trajectoires. En s'entraînant directement de manière sur politique, OPDLM élimine le décalage entre entraînement et inférence dans les DLM, tandis que la distillation à partir du modèle original améliore la rétention des connaissances de l'ARLM. Les résultats empiriques montrent qu'OPDLM nécessite 15 à 7 000 fois moins de tokens d'entraînement tout en obtenant des performances solides sur une grande variété de tâches. OPDLM évite le coût prohibitif du pré-entraînement DLM et positionne la transformation DLM comme une forme de post-entraînement d'ARLM.
Les modèles Vision-Langage-Action (VLA) discrets formulent généralement la génération d’actions comme une prédiction du prochain jeton sur des espaces d’actions discrétisés, chaque jeton étant conditionné de manière autorégressive sur le contexte antérieur. Bien qu’efficace, ce paradigme entraîne une latence d’inférence élevée et néglige largement la structure temporelle inhérente aux trajectoires d’actions. Des travaux récents introduisent le décodage parallèle pour améliorer l’efficacité, permettant une inférence plus rapide, mais ils manquent de mécanismes explicites pour modéliser les dépendances entre jetons. Nous présentons TBD-VLA, un cadre VLA à base de jetons discrets qui intègre la diffusion par blocs pour permettre une génération temporelle d’actions. Nous partitionnons les séquences d’actions en blocs temporels et appliquons une diffusion discrète masquée à l’intérieur de chaque bloc, tout en maintenant une génération autorégressive entre les blocs. Cette conception unifie l’autorégression temporelle et le décodage parallèle d’actions, obtenant à la fois une forte cohérence temporelle et une vitesse d’inférence améliorée. De plus, la modélisation temporelle explicite permet l’exécution asynchrone de blocs d’actions (par exemple, Real-Time Chunking) via un in-painting temporel. TBD-VLA surpasse significativement les approches VLA antérieures dans des tâches de manipulation en simulation et dans le monde réel, offrant une voie évolutive vers des modèles VLA discrets, rapides et temporellement conscients. Page web du projet : https://tbd-vla.github.io/
Dans les applications réelles, les modèles sont censés fonctionner de manière fiable dans des contextes variés. Pourtant, de nombreux benchmarks multimodaux existants élargissent les types de tâches sans capturer la diversité visuelle nécessaire pour traiter des entrées visuelles ouvertes. Nous présentons WorldBench, un benchmark de raisonnement exigeant et visuellement diversifié, conçu pour évaluer les grands modèles de langage multimodaux (MLLMs). Nous construisons une taxonomie de milliers de concepts visuels couvrant plusieurs domaines (par exemple, les êtres vivants). Guidés par cette taxonomie, nous rassemblons une vaste collection d'images provenant de moteurs de recherche et de jeux de données existants afin de représenter de manière exhaustive le monde visuel. Grâce à un processus structuré d'essais et d'erreurs, nous concevons manuellement des questions complexes que les MLLMs les plus avancés échouent à résoudre. D'après les évaluations quantitatives et humaines, WorldBench atteint une diversité visuelle supérieure à celle de tout autre benchmark diversifié existant. L'évaluation de 15 MLLMs sur WorldBench révèle des lacunes dans la compréhension visuelle : même le modèle le plus performant n'atteint que 64,0 % de précision, tandis que certains modèles obtiennent des résultats à peine supérieurs au hasard. Nous espérons que notre travail souligne l'importance de la diversité visuelle dans la construction de benchmarks multimodaux.
Les systèmes de recherche agentiques interagissent de manière itérative avec les modèles de recherche pour répondre à des requêtes complexes. Malgré des progrès substantiels, l'optimisation des modèles de recherche pour la recherche agentique reste difficile, nécessitant souvent un co-apprentissage intensif ou des annotations de référence qui limitent leur applicabilité dans des contextes réels. Nous proposons Critic-R, un cadre qui ferme explicitement la boucle de rétroaction entre l'agent de raisonnement et le modèle de recherche, tant pendant l'inférence que l'apprentissage. Critic-R introduit un modèle critique qui évalue la trace de raisonnement introspectif de l'agent après avoir consommé les preuves récupérées, afin de déterminer si le contexte extrait soutient suffisamment l'étape de raisonnement suivante. Critic-R comporte deux mécanismes complémentaires : Critic-R-Zero, une boucle d'affinement de requête en temps d'inférence qui réécrit itérativement les requêtes et les instructions de recherche, et Critic-Embed, une approche d'optimisation des modèles de recherche qui utilise les trajectoires d'affinement réussies et échouées comme supervision automatique, sans nécessiter d'annotation manuelle de pertinence. Nous évaluons Critic-R sur HotpotQA, 2WikiMultihopQA, MuSiQue et Bamboogle. Les résultats montrent que Critic-R améliore significativement à la fois la qualité de la recherche et la précision des réponses en aval.
L'inférence efficace est cruciale pour les modèles de langage à long contexte, où le calcul de l'attention et l'accès au cache KV dominent le coût. Des travaux récents, RAT+, introduisent une architecture d'attention augmentée par récurrence qui permet une attention dilatée flexible au moment de l'inférence. Dans cet article, nous examinons si cette mémoire à décroissance exponentielle peut également améliorer les méthodes d'inférence parcimonieuse existantes qui tiennent compte des requêtes. En utilisant des méthodes représentatives telles que Quest, MoBA et SnapKV, nous montrons que RAT+ améliore constamment la précision par rapport à l'attention standard sur différents budgets d'inférence parcimonieuse pour huit tâches de type « aiguille dans une botte de foin ». Nous validons ces gains à la fois sur les points de contrôle publiés dans l'article RAT+ et sur OLMo2-7B, que nous continuons à pré-entraîner avec le module de mémoire ajouté pour 10 milliards de tokens. Enfin, nous proposons deux hypothèses expliquant pourquoi ce module de mémoire bénéficie à l'inférence parcimonieuse tenant compte des requêtes et nous concevons des expériences ciblées pour les étayer.
L'harmonie est une couche symbolique compacte où se rencontrent les relations mathématiques de hauteur, la consonance acoustique et la convention musicale. Ce rapport considère les séquences de symboles d'accords non pas comme une représentation complète de la musique, mais comme une série temporelle interprétable et contrôlable pour la modélisation harmonique locale au genre. À partir d'un point de contrôle gelé d'un Music Transformer pop-jazz, j'évalue dans quelle mesure de petites interfaces d'adaptation peuvent étendre le modèle à onze genres cibles : blues, bossa nova, chorals de Bach, country, électronique, folk, funk, gospel, hip-hop, R&B/soul et rock. L'évaluation principale compare LoRA, IA3, BitFit, le réglage par préfixe et le fine-tuning complet sur 11 genres et 3 graines aléatoires, soit une grille complète de 165 cellules. Les cinq méthodes améliorent toutes la base gelée sur la prédiction d'accords hors échantillon, avec des gains macro allant de +2,89 à +3,61 points ; LoRA et IA3 obtiennent les meilleurs scores, mais les tests de Wilcoxon avec correction de Holm et Benjamini-Hochberg ne permettent pas de désigner un vainqueur décisif. Un contrôle par taille de données appariée affine cette observation : lorsque les genres sont sous-échantillonnés à une taille de corpus commune, IA3 reste en tête mais l'avantage de LoRA sur les données complètes disparaît et il tombe en dernière position, ce qui indique que les petits écarts sont en partie liés aux données. Une ligne de base par jeton de contrôle est également performante, et des adaptateurs de genre erroné surpassent souvent la base gelée, ce qui suggère qu'une grande partie de l'effet provient d'un conditionnement léger sur une base harmonique réutilisable plutôt que d'une famille d'adaptateurs particulière. Des diagnostics supplémentaires (balayages de rang, rotation de genre erroné, ablation du point de contrôle de base, classification de genre uniquement par accords, statistiques de sortie générée, évaluation sur des chansons réelles et analyse des doublons) soutiennent une conclusion limitée : l'adaptation par symboles d'accords améliore de manière fiable la prédiction harmonique locale au genre, mais les symboles d'accords seuls ne portent pas une identité de genre complète. Ce rapport évite donc les affirmations sur l'authenticité perçue du genre ou la qualité musicale globale, qui nécessitent une évaluation contrôlée par des auditeurs ou des musiciens.