papers.description
Dans les scénarios réels de question-réponse vidéo, les vidéos fournissent souvent des indices visuels localisés, tandis que les réponses vérifiables sont distribuées sur le web ouvert ; les modèles doivent donc simultanément réaliser une extraction d'indices inter-images, un retrieval itératif et une vérification par raisonnement multi-sauts. Pour combler cette lacune, nous construisons le premier benchmark de recherche approfondie vidéo, VideoDR. VideoDR se concentre sur la question-réponse vidéo ouverte conditionnée par la vidéo, nécessitant l'extraction d'ancres visuelles inter-images, un retrieval web interactif et un raisonnement multi-sauts sur des preuves conjointes vidéo-web ; grâce à une annotation humaine rigoureuse et un contrôle qualité, nous obtenons des échantillons de recherche approfondie vidéo de haute qualité couvrant six domaines sémantiques. Nous évaluons plusieurs modèles de langage multimodaux fermés et open-source selon les paradigmes Workflow et Agentique, et les résultats montrent que l'approche Agentique n'est pas systématiquement supérieure à Workflow : ses gains dépendent de la capacité d'un modèle à maintenir les ancres vidéo initiales sur de longues chaînes de retrieval. Une analyse plus poussée indique que la dérive d'objectif et la cohérence à long terme sont les goulots d'étranglement centraux. En somme, VideoDR fournit un benchmark systématique pour étudier les agents vidéo en environnement web ouvert et révèle les défis clés pour les prochaines générations d'agents de recherche approfondie vidéo.
Alors que les humains développent des compétences visuelles fondamentales bien avant l'acquisition du langage, les modèles de langage multimodaux (MLLM) contemporains reposent encore largement sur des prérequis linguistiques pour compenser leur compréhension visuelle fragile. Nous avons mis au jour un fait crucial : les MLLM les plus avancés échouent systématiquement à des tâches visuelles basiques que les humains, même des enfants de 3 ans, résolvent sans effort. Pour étudier cet écart de manière systématique, nous présentons BabyVision, un benchmark conçu pour évaluer les capacités visuelles fondamentales des MLLM indépendamment des connaissances linguistiques. BabyVision couvre un large éventail de tâches, avec 388 items répartis en 22 sous-classes à travers quatre catégories clés. Les résultats empiriques et l'évaluation humaine révèlent que les MLLM leaders performent significativement en deçà des niveaux de référence humains. Gemini3-Pro-Preview obtient un score de 49.7, à la traîne des enfants de 6 ans et loin derrière le score adulte moyen de 94.1. Ces résultats montrent que, malgré leur excellence dans les évaluations exigeant de vastes connaissances, les MLLM actuels manquent encore de primitives visuelles fondamentales. Les progrès sur BabyVision représentent une étape vers des capacités de perception et de raisonnement visuel de niveau humain. Nous explorons également la résolution du raisonnement visuel avec des modèles de génération en proposant BabyVision-Gen et une boîte à outils d'évaluation automatique. Notre code et les données du benchmark sont disponibles à l'adresse https://github.com/UniPat-AI/BabyVision pour permettre la reproduction.
Nous présentons Parallel Coordinated Reasoning (PaCoRe), un cadre d'apprentissage et d'inférence conçu pour surmonter une limitation centrale des modèles de langage contemporains : leur incapacité à faire évoluer le calcul au moment du test (TTC) bien au-delà du raisonnement séquentiel sous une fenêtre de contexte fixe. PaCoRe s'écarte du paradigme séquentiel traditionnel en pilotant le TTC via une exploration massive parallèle coordonnée via une architecture de passage de messages en plusieurs tours. Chaque tour lance de nombreuses trajectoires de raisonnement parallèles, condense leurs résultats en messages limités par le contexte, et synthétise ces messages pour guider le tour suivant et produire finalement la réponse définitive. Entraîné de bout en bout par un apprentissage par renforcement à grande échelle basé sur les résultats, le modèle maîtrise les capacités de synthèse requises par PaCoRe et passe à un TTC effectif de plusieurs millions de jetons sans dépasser les limites du contexte. Cette approche produit de fortes améliorations dans divers domaines, et pousse notamment le raisonnement au-delà des systèmes de pointe en mathématiques : un modèle de 8B atteint 94,5 % sur HMMT 2025, surpassant les 93,2 % de GPT-5 en faisant évoluer le TTC effectif à environ deux millions de jetons. Nous mettons en open source les points de contrôle du modèle, les données d'entraînement et la pipeline d'inférence complète pour accélérer les travaux de suivi.
Bien que l'architecture Transformer domine de nombreux domaines, sa complexité attentionnelle quadratique entrave son utilisation dans les applications à grande échelle. L'attention linéaire offre une alternative efficace, mais son application directe dégrade souvent les performances, les correctifs existants réintroduisant généralement une surcharge computationnelle via des modules supplémentaires (par exemple, la convolution séparable en profondeur) qui contredisent l'objectif initial. Dans ce travail, nous identifions un mode d'échec clé de ces méthodes : l'effondrement du contexte global, où le modèle perd sa diversité représentationnelle. Pour y remédier, nous proposons l'Attention Linéaire Multi-Têtes (MHLA), qui préserve cette diversité en calculant l'attention au sein de têtes divisées le long de la dimension des tokens. Nous démontrons que MHLA maintient une complexité linéaire tout en retrouvant une grande partie de la puissance expressive de l'attention softmax, et vérifions son efficacité dans plusieurs domaines, obtenant une amélioration de 3,6 % sur la classification ImageNet, un gain de 6,3 % en TAL, une amélioration de 12,6 % sur la génération d'images et une augmentation de 41 % sur la génération vidéo à complexité temporelle égale.
La programmation compétitive présente des défis majeurs pour les modèles de langage de code (Code LLMs) en raison de ses exigences intensives en raisonnement et de sa haute complexité logique. Cependant, les Code LLMs actuels dépendent encore largement de données du monde réel, ce qui limite leur évolutivité. Dans cet article, nous explorons une approche entièrement synthétique : entraîner des Code LLMs avec des tâches, des solutions et des cas de test entièrement générés, pour renforcer les modèles de raisonnement sur le code sans dépendre de données réelles. Pour soutenir cette approche, nous utilisons une synthèse basée sur les caractéristiques pour proposer une nouvelle pipeline de synthèse de données appelée SynthSmith. SynthSmith démontre un fort potentiel pour produire des tâches diverses et difficiles, accompagnées de solutions et de tests vérifiés, supportant à la fois le fine-tuning supervisé et l'apprentissage par renforcement. Sur la base des ensembles de données synthétiques SFT et RL proposés, nous introduisons la série de modèles X-Coder, qui atteint un taux de réussite notable de 62,9 avg@8 sur LiveCodeBench v5 et 55,8 sur v6, surpassant DeepCoder-14B-Preview et AReal-boba2-14B malgré seulement 7 milliards de paramètres. Une analyse approfondie révèle que les lois d'échelle s'appliquent à notre ensemble de données synthétiques, et nous explorons quelles dimensions sont les plus efficaces à mettre à l'échelle. Nous fournissons en outre des insights sur l'apprentissage par renforcement centré sur le code et mettons en évidence les facteurs clés qui déterminent la performance grâce à des ablations et analyses détaillées. Nos résultats démontrent que la mise à l'échelle de données synthétiques de haute qualité et l'adoption d'un entraînement par étapes peuvent grandement faire progresser le raisonnement sur le code, tout en réduisant la dépendance aux données de codage du monde réel.
Les récents progrès des modèles de raisonnement et des systèmes d'IA agentiques ont conduit à une dépendance accrue envers des informations externes diverses. Cependant, cette évolution introduit des contextes d'entrée intrinsèquement bruités, une réalité que les bancs d'essai aseptisés actuels ne capturent pas. Nous présentons NoisyBench, un banc d'essai complet qui évalue systématiquement la robustesse des modèles sur 11 jeux de données pour des tâches de RAG, de raisonnement, d'alignement et d'utilisation d'outils, face à divers types de bruit, incluant des documents aléatoires, des historiques de discussion non pertinents et des distracteurs négatifs difficiles. Notre évaluation révèle une chute catastrophique des performances allant jusqu'à 80% chez les modèles de pointe confrontés à des distracteurs contextuels. Fait crucial, nous constatons que les workflows agentiques amplifient souvent ces erreurs en faisant excessivement confiance aux sorties bruitées des outils, et que les distracteurs peuvent provoquer un désalignement émergent même sans intention antagoniste. Nous montrons que l'incitation par prompt, l'ingénierie du contexte, le SFT et le RL basé uniquement sur la récompense des résultats échouent à assurer la robustesse ; en revanche, notre Récompense Sensible au Raisonnement (RARE) renforce significativement la résilience en incitant à l'identification d'informations utiles au sein du bruit. Enfin, nous mettons en évidence une tendance à l'échelle inverse où une augmentation du calcul au moment du test dégrade les performances dans des contextes bruités, et nous démontrons par visualisation de l'attention que les modèles se concentrent de manière disproportionnée sur les tokens distracteurs, fournissant ainsi des insights vitaux pour construire la prochaine génération d'agents robustes et capables de raisonner.
Les grands modèles de raisonnement (Large Reasoning Models - LRMs) obtiennent des performances remarquables en générant explicitement des chaînes de pensée à plusieurs étapes, mais cette capacité entraîne une latence d'inférence et un coût computationnel substantiels. L'inférence collaborative offre une solution prometteuse en allouant sélectivement le travail entre des modèles légers et de grands modèles, mais un défi fondamental persiste : déterminer quand une étape de raisonnement nécessite la capacité d'un grand modèle ou l'efficacité d'un petit modèle. Les stratégies de routage existantes reposent soit sur des probabilités locales de tokens, soit sur une vérification a posteriori, introduisant une surcharge d'inférence significative. Dans ce travail, nous proposons une nouvelle perspective sur la collaboration étape par étape : la difficulté d'une étape de raisonnement peut être déduite dès son tout premier token. Inspirés par le phénomène de "l'eurêka" (Aha Moment) dans les LRMs, nous montrons que l'entropie du token initial sert de prédicteur robuste de la difficulté de l'étape. Sur la base de cette intuition, nous présentons GlimpRouter, un cadre de collaboration étape par étape ne nécessitant pas d'entraînement. GlimpRouter utilise un modèle léger pour générer uniquement le premier token de chaque étape de raisonnement et achemine l'étape vers un modèle plus grand uniquement lorsque l'entropie du token initial dépasse un seuil. Les expériences sur plusieurs benchmarks démontrent que notre approche réduit significativement la latence d'inférence tout en préservant la précision. Par exemple, GlimpRouter atteint une amélioration substantielle de 10,7 % en précision tout en réduisant la latence d'inférence de 25,9 % par rapport à un grand modèle autonome sur AIME25. Ces résultats suggèrent un mécanisme de raisonnement simple mais efficace : allouer le calcul sur la base d'un aperçu de la pensée plutôt que sur une évaluation complète de l'étape.
Si les modèles vision-langage (VLM) ont considérablement fait progresser les agents informatiques, les cadres actuels peinent à assurer la robustesse dans les workflows à long terme et la généralisation dans de nouveaux domaines. Ces limitations proviennent d'un manque de contrôle granulaire sur la curation du contexte visuel historique et de l'absence de récupération de tutoriels visuellement conscients. Pour combler ces lacunes, nous présentons OS-Symphony, un cadre holistique comprenant un Orchestrateur coordonnant deux innovations clés pour une automatisation robuste : (1) un Agent à Mémoire-Réflexion qui utilise une mémoire à long terme pilotée par des étapes clés pour permettre une autocorrection au niveau de la trajectoire, atténuant efficacement la perte de contexte visuel dans les tâches à long terme ; (2) des Agents-Outils Polyvalents dotés d'un Moteur de Recherche Multimodal qui adopte un paradigme Voir-Agir pour naviguer dans un bac à sable basé sur un navigateur afin de synthétiser des tutoriels en direct et alignés visuellement, résolvant ainsi les problèmes de fidélité dans des scénarios non vus. Les résultats expérimentaux démontrent qu'OS-Symphony offre des gains de performances substantiels à différentes échelles de modèles, établissant de nouveaux records sur trois benchmarks en ligne, atteignant notamment 65,84 % sur OSWorld.
Les modèles de langage par diffusion (DLM) offrent une alternative prometteuse pour la modélisation du langage en permettant un décodage parallèle par raffinement itératif. Cependant, la plupart des DLM reposent sur un masquage binaire strict et des assignations discrètes de tokens, ce qui entrave la révision des décisions précoces et sous-utilise les représentations probabilistes intermédiaires. Dans cet article, nous proposons EvoToken-DLM, une nouvelle approche de modélisation du langage basée sur la diffusion qui remplace les masques binaires stricts par des distributions souples et évolutives de tokens. EvoToken-DLM permet une transition progressive des états masqués vers des sorties discrètes, supportant un décodage révisable. Pour soutenir efficacement cette évolution, nous introduisons une supervision continue des trajectoires, qui aligne les objectifs d'entraînement avec les mises à jour probabilistes itératives. Des expériences approfondies sur plusieurs benchmarks montrent qu'EvoToken-DLM atteint constamment des performances supérieures, surpassant les modèles de référence solides basés sur la diffusion et les DLM masqués. Page web du projet : https://aim-uofa.github.io/EvoTokenDLM.
Le développement rapide des systèmes d'IA interactifs et autonomes marque notre entrée dans l'ère agentique. L'entraînement et l'évaluation d'agents sur des tâches agentiques complexes telles que l'ingénierie logicielle et l'utilisation informatique nécessitent non seulement un calcul efficace des modèles, mais aussi une infrastructure sophistiquée capable de coordonner de vastes interactions agent-environnement. Cependant, aucune infrastructure open-source ne peut actuellement prendre en charge efficacement l'entraînement et l'évaluation à grande échelle sur ce type de tâches complexes. Pour relever ce défi, nous présentons MegaFlow, un système d'orchestration distribué à grande échelle qui permet une planification efficace, une allocation des ressources et une gestion granulaire des charges de travail agent-environnement. MegaFlow abstrait l'infrastructure d'entraînement des agents en trois services indépendants (Service de Modèles, Service d'Agents et Service d'Environnement) qui interagissent via des interfaces unifiées, permettant une mise à l'échelle indépendante et une allocation flexible des ressources sur diverses configurations agent-environnement. Dans nos déploiements d'entraînement d'agents, MegaFlow orchestre avec succès des dizaines de milliers de tâches agent concurrentes tout en maintenant une stabilité système élevée et en atteignant une utilisation efficace des ressources. En permettant un tel entraînement d'agents à grande échelle, MegaFlow comble une lacune infrastructurelle critique dans le paysage émergent de l'IA agentique.
Les agents basés sur modèles de langage (LLM) étant de plus en plus utilisés dans des interactions à long terme, la mémoire cumulative est essentielle pour permettre la personnalisation et maintenir une cohérence stylistique. Cependant, la plupart des systèmes existants adoptent une approche « tout-ou-rien » de l'utilisation de la mémoire : l'incorporation de toutes les informations passées pertinentes peut entraîner un Ancrage Mémoriel, où l'agent reste piégé par les interactions passées, tandis que l'exclusion totale de la mémoire conduit à une sous-utilisation et à la perte d'historique d'interaction important. Nous montrons que la dépendance d'un agent à la mémoire peut être modélisée comme une dimension explicite et contrôlable par l'utilisateur. Nous introduisons d'abord une métrique comportementale de dépendance mémorielle pour quantifier l'influence des interactions passées sur les sorties actuelles. Nous proposons ensuite Steerable Memory Agent (SteeM), un cadre qui permet aux utilisateurs de réguler dynamiquement la dépendance à la mémoire, allant d'un mode recommencement qui favorise l'innovation à un mode haute fidélité qui suit étroitement l'historique des interactions. Des expériences menées dans différents scénarios démontrent que notre approche surpasse constamment les stratégies conventionnelles de prompting et de masquage rigide de la mémoire, offrant un contrôle plus nuancé et plus efficace pour la collaboration personnalisée humain-agent.
Alors que l’obtention de données de haute qualité devient de plus en plus difficile, l’auto-évolution sans données s’impose comme un paradigme prometteur. Cette approche permet aux grands modèles de langage (LLM) de générer et de résoudre de manière autonome des problèmes complexes, améliorant ainsi leurs capacités de raisonnement. Cependant, les agents de recherche multi-tours peinent dans ce cadre en raison de la diversité limitée des questions et des ressources computationnelles importantes requises pour le raisonnement multi-étapes et l’utilisation d’outils. Dans ce travail, nous présentons Dr. Zero, un cadre permettant aux agents de recherche de s’auto-évoluer efficacement sans aucune donnée d’entraînement. Nous concevons notamment une boucle de rétroaction d’auto-évolution dans laquelle un proposeur génère des questions variées pour entraîner un solveur initialisé à partir du même modèle de base. Au fur et à mesure que le solveur évolue, il incite le proposeur à produire des tâches de plus en plus difficiles mais solubles, établissant ainsi un curriculum automatisé pour perfectionner les deux agents. Pour améliorer l’efficacité de l’entraînement, nous introduisons également l’optimisation relative des politiques par groupement de sauts (HRPO). Cette méthode regroupe les questions structurellement similaires pour construire des bases de référence au niveau du groupe, réduisant efficacement la surcharge d’échantillonnage liée à l’évaluation individuelle de la difficulté et de la solvabilité de chaque requête. Par conséquent, HRPO réduit significativement les besoins computationnels pour l’entraînement du solveur sans compromettre les performances ou la stabilité. Des résultats expérimentaux approfondis démontrent que Dr. Zero, bien que sans données, égale ou dépasse les agents de recherche supervisés, prouvant que des capacités complexes de raisonnement et de recherche peuvent émerger uniquement par auto-évolution.
Les modèles de génération vidéo, en tant que forme de modèles du monde, sont apparus comme l'une des frontières les plus excitantes de l'IA, promettant aux agents la capacité d'imaginer le futur en modélisant l'évolution temporelle de scènes complexes. Dans la conduite autonome, cette vision donne naissance aux modèles du monde de la conduite : des simulateurs génératifs qui imaginent les futurs de l'ego et des agents, permettant une simulation évolutive, des tests sécurisés de cas limites et une génération riche de données synthétiques. Pourtant, malgré une activité de recherche en croissance rapide, le domaine manque d'un benchmark rigoureux pour mesurer les progrès et guider les priorités. Les évaluations existantes restent limitées : les métriques vidéo génériques négligent les facteurs d'imagerie critiques pour la sécurité ; la plausibilité des trajectoires est rarement quantifiée ; la cohérence temporelle et au niveau des agents est négligée ; et la contrôlabilité par conditionnement de l'ego est ignorée. De plus, les jeux de données actuels ne couvrent pas la diversité des conditions requises pour un déploiement réel. Pour combler ces lacunes, nous présentons DrivingGen, le premier benchmark complet pour les modèles génératifs du monde de la conduite. DrivingGen combine un jeu de données d'évaluation diversifié, constitué à partir de jeux de données de conduite et de sources vidéo à l'échelle d'Internet, couvrant diverses conditions météorologiques, moments de la journée, régions géographiques et manœuvres complexes, avec une série de nouvelles métriques évaluant conjointement le réalisme visuel, la plausibilité des trajectoires, la cohérence temporelle et la contrôlabilité. L'évaluation de 14 modèles de pointe révèle des compromis clairs : les modèles généraux semblent meilleurs mais violent la physique, tandis que ceux spécifiques à la conduite capturent le mouvement de manière réaliste mais accusent un retard en qualité visuelle. DrivingGen offre un cadre d'évaluation unifié pour favoriser le développement de modèles du monde de la conduite fiables, contrôlables et déployables, permettant une simulation évolutive, la planification et une prise de décision fondée sur les données.
Les modèles de diffusion latente (LDM) génèrent des images de haute qualité en opérant dans un espace latent compressé, généralement obtenu via des tokeniseurs d'image tels que les autoencodeurs variationnels (VAE). Dans la quête d'un VAE favorable à la génération, des études récentes ont exploré l'utilisation de modèles de fondation en vision (VFM) comme cibles d'alignement des représentations pour les VAE, reprenant l'approche couramment adoptée pour les LDM. Bien que cela procure certains gains de performance, utiliser la même cible d'alignement pour les VAE et les LDM néglige leurs besoins représentationnels fondamentalement différents. Nous soutenons que si les LDM bénéficient de latents conservant des concepts sémantiques de haut niveau, les VAE devraient exceller dans le désentremêlement sémantique, permettant l'encodage d'informations au niveau des attributs de manière structurée. Pour résoudre ce problème, nous proposons le VAE à sémantique désentremêlée (Send-VAE), explicitement optimisé pour l'apprentissage de représentations désentremêlées en alignant son espace latent avec la hiérarchie sémantique de VFM pré-entraînés. Notre approche utilise un réseau de projection non linéaire pour transformer les latents du VAE, en les alignant avec les VFM afin de combler l'écart entre le désentremêlement au niveau des attributs et la sémantique de haut niveau, facilitant un guidage efficace pour l'apprentissage du VAE. Nous évaluons le désentremêlement sémantique via du sondage linéaire sur des tâches de prédiction d'attributs, montrant une forte corrélation avec l'amélioration des performances de génération. Enfin, en utilisant Send-VAE, nous entraînons des transformers à base de flux (SiT) ; les expériences montrent que Send-VAE accélère significativement l'entraînement et atteint un FID de pointe de 1,21 et 1,75 avec et sans guidage sans classifieur sur ImageNet 256x256.
Les modèles de langage de grande taille (LLM) peuvent étendre leurs limites de connaissances paramétriques en adoptant le paradigme de raisonnement à outils intégrés (TIR). Cependant, les frameworks d'entraînement d'agents existants basés sur les LLM se concentrent souvent sur la précision des réponses, négligeant l'alignement spécifique des patterns comportementaux. Par conséquent, l'agent présente souvent des actions inefficaces lors des tâches TIR, telles que des appels d'outils redondants ou insuffisants. La manière de calibrer les patterns comportementaux erronés lors de l'exécution des tâches TIR, afin d'explorer des trajectoires efficaces, reste un problème non résolu. Dans cet article, nous proposons ET-Agent, un framework d'entraînement pour calibrer le comportement d'utilisation d'outils de l'agent à travers deux perspectives synergiques : la roue de données auto-évolutive et l'entraînement par calibration comportementale. Plus précisément, nous introduisons une roue de données auto-évolutive pour générer des données améliorées, utilisées pour affiner le LLM afin d'améliorer sa capacité d'exploration. Sur cette base, nous mettons en œuvre un framework d'entraînement en deux phases pour la calibration comportementale. Il est conçu pour calibrer progressivement les patterns comportementaux erronés vers des comportements optimaux. Des expérimentations approfondies confirment la supériorité d'ET-Agent à travers de multiples dimensions, incluant la justesse, l'efficacité, la concision du raisonnement et la précision d'exécution des outils. Notre framework ET-Agent fournit des perspectives pratiques pour la recherche dans le domaine du TIR. Les codes sont disponibles sur https://github.com/asilverlight/ET-Agent
Les benchmarks actuels en vision et langage sont principalement constitués de questions bien structurées avec des instructions claires et explicites. Cependant, les requêtes réelles des utilisateurs sont souvent informelles et sous-spécifiées. Les utilisateurs omettent naturellement beaucoup d'informations, s'appuyant sur les images pour fournir le contexte. Nous présentons HAERAE-Vision, un benchmark de 653 questions visuelles issues du monde réel, provenant de communautés en ligne coréennes (0,76 % de taux de conservation sur 86 000 candidats), chacune étant associée à une reformulation explicite, totalisant ainsi 1 306 variantes de requêtes. En évaluant 39 modèles de vision et langage (VLM), nous constatons que même les modèles les plus avancés (GPT-5, Gemini 2.5 Pro) obtiennent moins de 50 % de précision sur les requêtes originales. Fait crucial, la simple explicitation des requêtes entraîne des gains de 8 à 22 points, les modèles plus petits en bénéficiant le plus. Nous montrons en outre que même avec une recherche web, les requêtes sous-spécifiées obtiennent de moins bonnes performances que les requêtes explicites sans recherche, révélant que les systèmes de recherche actuels ne peuvent compenser ce que les utilisateurs omettent. Nos résultats démontrent qu'une part substantielle des difficultés des VLM provient de la sous-spécification naturelle des requêtes plutôt que des capacités des modèles, mettant en lumière un écart critique entre l'évaluation sur benchmark et le déploiement en conditions réelles.
Si le raisonnement en chaîne (Chain-of-Thought) dote les grands modèles vision-langage d'une capacité de raisonnement étape par étape, les justifications textuelles explicites souffrent d'un goulot d'étranglement informationnel, où les détails visuels continus sont perdus lors de la tokenisation discrète. Les méthodes récentes de raisonnement latent tentent de résoudre ce problème, mais succombent souvent à un effondrement sémantique prématuré dû à des objectifs autogressifs trop rigides. Dans cet article, nous proposons Laser, un nouveau paradigme qui reformule la déduction visuelle via l'Apprentissage d'Alignement Dynamique par Fenêtrage (Dynamic Windowed Alignment Learning, DWAL). Au lieu de forcer une prédiction point par point, Laser aligne l'état latent avec une fenêtre de validité dynamique des sémantiques futures. Ce mécanisme impose une hiérarchie cognitive « Forêt avant les Arbres », permettant au modèle de maintenir une superposition probabiliste des caractéristiques globales avant de se concentrer sur les détails locaux. Fait crucial, Laser préserve l'interprétabilité via des trajectoires décodables tout en stabilisant l'apprentissage non contraint par une Superposition Auto-affinée. Des expériences poussées sur 6 benchmarks démontrent que Laser atteint des performances à l'état de l'art parmi les méthodes de raisonnement latent, dépassant la base de référence robuste Monet de 5,03 % en moyenne. Notamment, il obtient ces gains avec une efficacité extrême, réduisant les tokens d'inférence de plus de 97 %, tout en faisant preuve d'une généralisation robuste à des domaines hors distribution.
La planification de voyage est un processus décisionnel sophistiqué qui nécessite la synthèse d'informations multidimensionnelles pour construire des itinéraires. Cependant, les approches existantes de planification de voyage rencontrent plusieurs défis : (1) La réduction de l'ensemble des points d'intérêt (POI) candidats tout en maintenant un taux de rappel élevé ; (2) Un chemin de raisonnement unique limite la capacité d'exploration de l'espace des solutions réalisables ; (3) L'optimisation simultanée des contraintes rigides et des contraintes souples reste une difficulté majeure. Pour relever ces défis, nous proposons TourPlanner, un cadre complet intégrant un raisonnement multi-chemins et un apprentissage par renforcement à porte de contraintes. Plus précisément, nous introduisons d'abord un workflow d'Optimisation Spatiale et de Rappel Personnalisé (PReSO) pour construire un ensemble de POI candidats spatialement cohérent. Ensuite, nous proposons la Chaîne de Pensée à Consensus Compétitif (CCoT), un paradigme de raisonnement multi-chemins qui améliore la capacité d'exploration de l'espace des solutions réalisables. Pour affiner davantage le plan, nous intégrons un mécanisme de porte sigmoïde dans la phase d'apprentissage par renforcement, qui priorise dynamiquement la satisfaction des contraintes souples uniquement après que les contraintes rigides sont respectées. Les résultats expérimentaux sur des benchmarks de planification de voyage démontrent que TourPlanner atteint des performances de pointe, surpassant significativement les méthodes existantes tant en matière de faisabilité que d'alignement sur les préférences utilisateur.
Alors que les modèles de langage évoluent d'interfaces de dialogue statiques vers des agents généraux autonomes, une mémoire efficace est primordiale pour assurer une cohérence à long terme. Cependant, les benchmarks existants se concentrent principalement sur les conversations informelles ou les dialogues orientés tâches, ne parvenant pas à capturer les interactions **« orientées projet à long terme »** où les agents doivent suivre des objectifs évolutifs. Pour combler cette lacune, nous présentons **RealMem**, le premier benchmark ancré dans des scénarios de projet réalistes. RealMem comprend plus de 2 000 dialogues intersessions couvrant onze scénarios, utilisant des requêtes utilisateur naturelles pour l'évaluation. Nous proposons un pipeline de synthèse qui intègre la Construction de Fondation de Projet, la Génération de Dialogue Multi-Agent, et la Gestion de Mémoire et de Planification pour simuler l'évolution dynamique de la mémoire. Les expériences révèlent que les systèmes de mémoire actuels rencontrent des défis significatifs dans la gestion des états de projet à long terme et des dépendances contextuelles dynamiques inhérentes aux projets réels. Notre code et nos jeux de données sont disponibles à l'adresse [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).
Nous présentons OpenTinker, une infrastructure destinée à l'apprentissage par renforcement (RL) d'agents basés sur des grands modèles de langage (LLM), conçue autour d'une séparation des préoccupations entre la conception algorithmique, l'exécution et l'interaction agent-environnement. Plutôt que de s'appuyer sur des pipelines RL monolithiques de bout en bout, OpenTinker décompose les systèmes d'apprentissage agentiels en composants légers et assemblables, dotés de frontières d'abstraction clairement définies. Les utilisateurs spécifient les agents, les environnements et les protocoles d'interaction, tandis que l'inférence et l'entraînement sont délégués à un moteur d'exécution managé. OpenTinker introduit un ordonnanceur centralisé pour gérer les charges de travail d'entraînement et d'inférence, incluant le RL basé sur LoRA et à paramètres complets, le fine-tuning supervisé et l'inférence, sur des ressources partagées. Nous discutons en outre des principes de conception pour étendre OpenTinker à l'entraînement multi-agents. Enfin, nous présentons un ensemble de cas d'usage en RL qui démontrent l'efficacité du cadre dans des scénarios pratiques d'apprentissage agentiel.
Les systèmes d'information modernes manipulent fréquemment différents types d'éléments, tels qu'une requête textuelle, une image, un clip vidéo ou un segment audio. Cette réalité motive le développement de modèles d'embedding omnimodaux qui projettent des modalités hétérogènes dans un espace partagé pour permettre une comparaison directe. Cependant, la plupart des embeddings omnimodaux récents reposent encore largement sur un alignement implicite hérité des modèles de base pré-entraînés vision-langage (VLM). En pratique, cela engendre trois problèmes courants : (i) les logits de similarité présentent une netteté dépendante de la modalité, de sorte que les scores ne sont pas sur une échelle cohérente ; (ii) les négatifs intra-lot deviennent moins efficaces avec le temps car les lots multimodaux créent une distribution de difficulté déséquilibrée ; par conséquent, de nombreux négatifs deviennent rapidement triviaux et contribuent peu au gradient ; et (iii) les embeddings entre les modalités présentent des statistiques du premier et du second ordre non alignées, ce qui rend les classements moins stables. Pour résoudre ces problèmes, nous proposons e5-omni, une méthode légère d'alignement explicite qui adapte des VLM standards en modèles d'embedding omnimodaux robustes. e5-omni combine trois composants simples : (1) un étalonnage de température sensible à la modalité pour aligner les échelles de similarité, (2) un curriculum négatif contrôlable avec débiaisage pour se concentrer sur les négatifs ambigus tout en réduisant l'impact des faux négatifs, et (3) un blanchiment de lot avec régularisation de covariance pour mieux faire correspondre la géométrie intermodale dans l'espace d'embedding partagé. Les expériences sur MMEB-V2 et AudioCaps montrent des gains constants par rapport à des lignes de base bi-modales et omnimodales solides, et la même méthode se transpose également bien à d'autres architectures VLM. Nous publions notre point de contrôle de modèle à l'adresse https://huggingface.co/Haon-Chen/e5-omni-7B.
Les approches actuelles de la mémoire dans les grands modèles de langage (LLM) reposent principalement sur la génération augmentée par récupération statique (RAG), ce qui entraîne souvent une récupération dispersée et échoue à capturer les dépendances structurelles nécessaires au raisonnement complexe. Pour les agents autonomes, ces architectures passives et plates manquent de l'organisation cognitive requise pour modéliser la nature dynamique et associative des interactions à long terme. Pour remédier à cela, nous proposons la Mémoire Épisodique d'Événements Structurée (SEEM), un cadre hiérarchique qui associe une couche de mémoire graphique pour les faits relationnels à une couche de mémoire épisodique dynamique pour la progression narrative. Fondée sur la théorie des schémas cognitifs, SEEM transforme les flux d'interaction en Cadres d'Événements Épisodiques (EEF) structurés, ancrés par des pointeurs de provenance précis. De plus, nous introduisons un mécanisme de fusion associative agentique et d'Expansion de Provenance Inverse (RPE) pour reconstruire des contextes narratifs cohérents à partir de preuves fragmentées. Les résultats expérimentaux sur les benchmarks LoCoMo et LongMemEval démontrent que SEEM surpasse significativement les méthodes de référence, permettant aux agents de maintenir une cohérence narrative et une consistance logique supérieures.
Les êtres humains comprennent principalement le monde à travers des concepts (par exemple, chien), des représentations mentales abstraites qui structurent la perception, le raisonnement et l'apprentissage. Cependant, la manière dont les grands modèles de langage (LLMs) acquièrent, retiennent et oublient ces concepts lors d'un pré-entraînement continu reste mal comprise. Dans ce travail, nous étudions comment les concepts individuels sont acquis et oubliés, ainsi que la manière dont plusieurs concepts interagissent via l'interférence et la synergie. Nous lions ces dynamiques comportementales aux Circuits Conceptuels internes des LLMs, des sous-graphes computationnels associés à des concepts spécifiques, et intégrons des Métriques de Graphes pour caractériser la structure des circuits. Notre analyse révèle : (1) Les circuits conceptuels des LLMs fournissent un signal non trivial et statistiquement significatif de l'apprentissage et de l'oubli des concepts ; (2) Les circuits conceptuels présentent un motif temporel par étapes durant le pré-entraînement continu, avec une augmentation initiale suivie d'une diminution graduelle puis d'une stabilisation ; (3) Les concepts avec des gains d'apprentissage plus importants tendent à présenter un oubli plus marqué lors des entraînements ultérieurs ; (4) Les concepts sémantiquement similaires induisent une interférence plus forte que les concepts faiblement liés ; (5) Les connaissances conceptuelles diffèrent dans leur transférabilité, certaines facilitant significativement l'apprentissage d'autres. Ensemble, nos résultats offrent une vue au niveau des circuits de la dynamique d'apprentissage des concepts et éclairent la conception de stratégies d'entraînement plus interprétables et robustes, conscientes des concepts, pour les LLMs.
Les grands modèles de langage (LLM) peuvent produire des estimations étonnamment sophistiquées de leur propre incertitude. Cependant, on ignore encore dans quelle mesure cette confiance exprimée est liée au raisonnement, aux connaissances ou à la prise de décision du modèle. Pour tester cela, nous présentons RiskEval : un cadre conçu pour évaluer si les modèles ajustent leurs politiques d'abstention en réponse à des pénalités d'erreur variables. Notre évaluation de plusieurs modèles de pointe révèle une dissociation critique : les modèles ne sont ni sensibles aux coûts lorsqu'ils articulent leur confiance verbale, ni stratégiquement réactifs lorsqu'ils décident de s'engager ou de s'abstenir dans des conditions de pénalité élevée. Même lorsque des pénalités extrêmes rendent l'abstention fréquente mathématiquement optimale, les modèles s'abstiennent presque jamais, entraînant un effondrement de l'utilité. Cela indique que des scores de confiance verbale calibrés pourraient ne pas suffire à créer des systèmes d'IA fiables et interprétables, car les modèles actuels manquent de l'agence stratégique nécessaire pour convertir les signaux d'incertitude en décisions optimales et sensibles au risque.
Alors que l'innovation en IA accélère rapidement, le processus intellectuel derrière les percées – comment les chercheurs identifient les lacunes, synthétisent les travaux antérieurs et génèrent des idées – reste mal compris. Le manque de données structurées sur le raisonnement scientifique entrave l'analyse systématique et le développement d'agents de recherche en IA. Nous présentons Sci-Reasoning, le premier jeu de données capturant la synthèse intellectuelle à l'origine de recherches en IA de haute qualité. En utilisant des signaux de qualité validés par la communauté et un pipeline accéléré par LLM et vérifié par des humains, nous retraçons les articles Oral et Spotlight des conférences NeurIPS, ICML et ICLR (2023-2025) jusqu'à leurs prédécesseurs clés, en articulant des liens de raisonnement spécifiques dans un format structuré. Notre analyse identifie 15 schémas de pensée distincts, trois stratégies dominantes représentant 52,7 % : le Recadrage par les Lacunes (24,2 %), la Synthèse Transdisciplinaire (18,0 %) et le Changement de Représentation (10,5 %). Les recettes d'innovation les plus puissantes combinent plusieurs schémas : Recadrage par les Lacunes + Changement de Représentation, Synthèse Transdisciplinaire + Changement de Représentation, et Recadrage par les Lacunes + Synthèse Transdisciplinaire. Ce jeu de données permet des études quantitatives du progrès scientifique et fournit des trajectoires de raisonnement structurées pour former la prochaine génération d'agents de recherche en IA.
Alors que les grands modèles de langage (LLM) tels que ChatGPT, Copilot, Claude et Gemini s'intègrent aux flux de travail de développement logiciel, les développeurs laissent de plus en plus de traces de l'implication de l'IA dans leurs commentaires de code. Parmi ceux-ci, certains commentaires reconnaissent explicitement à la fois l'utilisation de l'IA générative et la présence de lacunes techniques. En analysant 6 540 commentaires de code faisant référence à des LLM provenant de dépôts GitHub publics basés sur Python et JavaScript (novembre 2022-juillet 2025), nous avons identifié 81 commentaires qui admettent également une dette technique auto-déclarée (SATD). Les développeurs décrivent le plus souvent des tests reportés, une adaptation incomplète et une compréhension limitée du code généré par l'IA, suggérant que l'assistance par l'IA affecte à la fois le moment et les raisons pour lesquelles la dette technique émerge. Nous proposons le terme de Dette Technique Auto-déclarée Induite par l'IA Générative (GIST) comme cadre conceptuel pour décrire les cas récurrents où les développeurs intègrent du code généré par l'IA tout en exprimant explicitement des incertitudes quant à son comportement ou à son exactitude.
La préfiguration et la résolution sont des procédés narratifs omniprésents par lesquels les auteurs introduisent des engagements tôt dans un récit et les résolvent par des conséquences concrètes et observables. Cependant, malgré les progrès en génération narrative, les grands modèles de langage (LLM) échouent fréquemment à établir ces dépendances narratives à long terme, laissant souvent des « fusils de Tchekhov » non déclenchés, même lorsque le contexte nécessaire est présent. Les évaluations existantes négligent largement cet échec structurel, se concentrant sur la cohérence superficielle plutôt que sur l'accomplissement logique des préparations narratives. Dans cet article, nous présentons la Génération de Préfiguration-Résolution Codifiée (CFPG), un nouveau cadre qui reformule la qualité narrative à travers le prisme de la réalisation des résolutions. Constatant que les LLM peinent à saisir intuitivement le « mécanisme de déclenchement » d'un événement préfiguré, le CFPG transforme la continuité narrative en un ensemble de prédicats causaux exécutables. En extrayant et en encodant des triplets Préfiguration-Déclencheur-Résolution du corpus BookSum, nous fournissons une supervision structurée qui garantit que les engagements préfigurés sont non seulement mentionnés, mais aussi temporellement et logiquement accomplis. Les expériences démontrent que le CFPG surpasse significativement les approches par prompt standard en précision des résolutions et en alignement narratif. Nos résultats suggèrent qu'une codification explicite des mécaniques narratives est essentielle pour faire évoluer les LLM d'une aisance superficielle vers une véritable compétence narrative.
Les grands modèles de langage (LLM) peuvent être adaptés à de nouvelles tâches grâce à des méthodes de réglage fin à efficacité de paramètres (PEFT) qui ne modifient qu'un petit nombre de paramètres entraînables, souvent via des mises à jour de faible rang. Dans ce travail, nous adoptons une perspective inspirée de la théorie de l'information quantique pour comprendre leur efficacité. De ce point de vue, les paramétrisations de faible rang correspondent naturellement à des représentations de type États Produit de Matrices (MPS) de faible dimension, qui permettent des caractérisations de la structure des paramètres basées sur l'intrication. Ainsi, nous définissons et mesurons l'« Intrication Artificielle », définie comme l'entropie d'intrication des paramètres dans les réseaux de neurones artificiels (en particulier les LLMs). Nous étudions d'abord la méthode PEFT représentative qu'est l'adaptation de faible rang (LoRA), ainsi que le réglage fin complet (FFT), en utilisant des modèles LLaMA aux échelles 1B et 8B entraînés sur les ensembles de données Tulu3 et OpenThoughts3, et découvrons : (i) L'intrication artificielle interne dans les mises à jour des matrices de projection de requêtes et de valeurs dans LoRA suit une loi volumique avec une suppression centrale (appelée « Vallée de l'Intrication »), sensible aux hyperparamètres et distincte de celle observée en FFT ; (ii) L'intrication artificielle externe dans les matrices d'attention, correspondant aux corrélations jeton-jeton dans l'espace de représentation, suit une loi surfacique avec des corrections logarithmiques et reste robuste aux hyperparamètres de LoRA et aux étapes d'entraînement. En établissant un parallèle avec le théorème de l'absence de chevelure (No-Hair Theorem) en physique des trous noirs, nous proposons que bien que LoRA et FFT induisent des signatures d'intrication interne distinctes, ces différences ne se manifestent pas dans les sorties d'attention, suggérant une propriété de type « absence de chevelure » qui explique l'efficacité des mises à jour de faible rang. Nous apportons également un support théorique basé sur la théorie des matrices aléatoires et étendons notre analyse à une méthode PEFT d'Adaptation MPS, qui présente des comportements qualitativement similaires.
Les interfaces graphiques (GUI) sont centrales pour l'interaction humain-machine, mais l'automatisation des tâches complexes sur GUI reste un défi majeur pour les agents autonomes, principalement en raison du manque de données d'entraînement évolutives et de haute qualité. Bien que les enregistrements de démonstrations humaines constituent une source de données riche, elles sont généralement longues, non structurées et manquent d'annotations, ce qui les rend difficiles à exploiter pour l'apprentissage des agents. Pour résoudre ce problème, nous présentons ShowUI-Aloha, un pipeline complet qui transforme les enregistrements d'écran humains non structurés, issus d'environnements de bureau, en tâches structurées et actionnables. Notre framework comprend quatre composants clés : Un enregistreur qui capture la vidéo d'écran ainsi que les interactions utilisateur précises comme les clics de souris, les frappes au clavier et les défilements. Un apprenant qui interprète sémantiquement ces interactions brutes et le contexte visuel environnant, en les traduisant en légendes descriptives en langage naturel. Un planificateur qui lit les démonstrations analysées, maintient les états des tâches et formule dynamiquement le prochain plan d'action de haut niveau basé sur un raisonnement contextuel. Un exécuteur qui exécute fidèlement ces plans d'action au niveau du système d'exploitation, effectuant des clics, des glisser-déposer, des saisies de texte et des opérations sur les fenêtres avec précision, incluant des contrôles de sécurité et un retour d'information en temps réel. Ensemble, ces composants fournissent une solution évolutive pour collecter et analyser des données humaines réalistes, démontrant une voie viable pour construire des agents GUI polyvalents capables d'apprendre efficacement simplement en observant les humains.
L'entraînement postérieur des grands modèles de langage alterne systématiquement le réglage fin supervisé (SFT) avec l'apprentissage par renforcement (RL). Ces deux méthodes poursuivent des objectifs distincts : le SFT minimise la perte d'entropie croisée entre les sorties du modèle et les réponses d'expert, tandis que le RL maximise les signaux de récompense dérivés de préférences humaines ou de vérificateurs basés sur des règles. Les modèles de raisonnement modernes ont largement adopté la pratique consistant à alterner l'entraînement SFT et RL. Cependant, aucune explication théorique n'existe quant à la possibilité de les dissocier. Nous démontrons que la dissociation est impossible dans les deux ordres : (1) Couplage SFT-puis-RL : le RL augmente la perte SFT sous optimalité SFT et (2) Couplage RL-puis-SFT : le SFT réduit la récompense atteinte par le RL. Des expériences sur Qwen3-0.6B confirment la dégradation prédite, vérifiant que le SFT et le RL ne peuvent être séparés sans perte de performance antérieure dans l'entraînement postérieur.
Les journaux système sont cruciaux pour la surveillance et le diagnostic des infrastructures informatiques modernes, mais leur volume et leur complexité nécessitent une interprétation automatisée fiable et efficace. Étant donné que les niveaux de sévérité sont des métadonnées prédéfinies dans les messages de journaux système, un modèle qui se contente de les classer offre une valeur pratique autonome limitée, révélant peu sur sa capacité sous-jacente à interpréter les journaux. Nous soutenons que la classification de la sévérité est plus instructive lorsqu'elle est traitée comme un benchmark pour sonder la compréhension des journaux en temps réel plutôt que comme une tâche finale. En utilisant des données journalctl réelles provenant de serveurs de production Linux, nous évaluons neuf petits modèles de langage (SLM) et petits modèles de raisonnement (SRLM) avec des prompts zero-shot, few-shot et par génération augmentée par retrieval (RAG). Les résultats révèlent une forte stratification. Qwen3-4B atteint la précision la plus élevée à 95,64% avec RAG, tandis que Gemma3-1B s'améliore de 20,25% en few-shot à 85,28% avec RAG. Notamment, le minuscule Qwen3-0.6B atteint 88,12% de précision malgré des performances faibles sans retrieval. En revanche, plusieurs SRLM, dont Qwen3-1.7B et DeepSeek-R1-Distill-Qwen-1.5B, se dégradent substantiellement lorsqu'associés à RAG. Les mesures d'efficacité distinguent davantage les modèles : la plupart des variantes Gemma et Llama terminent l'inférence en moins de 1,2 seconde par journal, tandis que Phi-4-Mini-Reasoning dépasse 228 secondes par journal tout en atteignant moins de 10% de précision. Ces résultats suggèrent que (1) la conception architecturale, (2) les objectifs d'entraînement et (3) la capacité à intégrer un contexte récupéré sous des contraintes de sortie strictes déterminent conjointement les performances. En privilégiant les modèles petits et déployables, ce benchmark s'aligne sur les exigences en temps réel des systèmes de jumeaux numériques (DT) et montre que la classification de la sévérité sert de loupe pour évaluer la compétence des modèles et leur déployabilité en temps réel, avec des implications pour l'analyse des causes racines (RCA) et une intégration plus large des DT.
Les modèles génératifs de langage parlé pré-entraînés sur de larges corpus d'audio brut peuvent poursuivre un énoncé oral avec un contenu approprié tout en préservant des attributs comme le locuteur et l'émotion, servant ainsi de modèles de base pour le dialogue oral. Dans la littérature antérieure, ces modèles sont souvent évalués à l'aide de la « perplexité globale des tokens », qui applique directement la formulation de la perplexité textuelle aux tokens vocaux. Cependant, cette pratique néglige les différences fondamentales entre les modalités de la parole et du texte, pouvant conduire à une sous-estimation des caractéristiques vocales. Dans ce travail, nous proposons diverses méthodes d'évaluation basées sur la vraisemblance et la génération, destinées à remplacer la perplexité naïve des tokens globaux. Nous démontrons que les évaluations proposées reflètent plus fidèlement la qualité perçue de la génération, comme en témoignent des corrélations plus fortes avec les scores d'opinion moyens (MOS) évalués par des humains. Lorsqu'elles sont évaluées selon les nouvelles métriques, la hiérarchie de performance relative des modèles de langage parlé est remodelée, révélant un écart considérablement réduit entre le modèle le plus performant et la référence humaine. Ensemble, ces résultats suggèrent qu'une évaluation appropriée est cruciale pour estimer avec précision les progrès dans la modélisation du langage parlé.
La conception d'un réseau neuronal unifié capable de traiter efficacement et intrinsèquement des données séquentielles de longueur arbitraire constitue un problème central et difficile dans la modélisation de séquences. Les choix de conception du Transformer, incluant sa complexité quadratique et sa faible extrapolation en longueur, ont limité sa capacité à passer à l'échelle pour de longues séquences. Dans ce travail, nous proposons Gecko, une architecture neuronale qui hérite de la conception de Mega et Megalodon (moyenne mobile exponentielle avec attention gated), et introduit en outre plusieurs composants techniques pour améliorer sa capacité à capturer les dépendances à longue portée, incluant une normalisation par décroissance temporelle, un mécanisme d'attention par fenêtre glissante et une mémoire de travail adaptative. Dans une comparaison d'apprentissage préalable contrôlée avec Llama2 et Megalodon à l'échelle de 7 milliards de paramètres et 2000 milliards de tokens d'entraînement, Gecko atteint une meilleure efficacité et une meilleure extensibilité au contexte long. Gecko atteint une perte d'entraînement de 1,68, surpassant significativement Llama2-7B (1,75) et Megalodon-7B (1,70), et se rapprochant de Llama2-13B (1,67). Fait notable, sans recourir à aucune technique d'extension de contexte, Gecko présente des capacités intrinsèques de traitement et de récupération en contexte long, gérant de manière stable des séquences allant jusqu'à 4 millions de tokens et récupérant des informations dans des contextes jusqu'à 4 fois plus longs que sa fenêtre d'attention. Code : https://github.com/XuezheMax/gecko-llm
Les drones (UAV) sont de plus en plus déployés à proximité des humains pour des applications telles que la livraison de colis, la surveillance du trafic, la gestion des catastrophes et l'inspection des infrastructures. Garantir un fonctionnement sûr et fiable dans ces environnements peuplés nécessite une perception précise des postures et des actions humaines depuis un point de vue aérien. Cette perspective pose des défis aux méthodes existantes en raison de la faible résolution, des angles de vue abrupts et des (auto-)occlusions, particulièrement si l'application exige des modèles réalisables en temps réel. Nous entraînons et déployons FlyPose, un pipeline léger d'estimation de la posture humaine de type « top-down » pour l'imagerie aérienne. Grâce à un entraînement multi-jeux de données, nous obtenons une amélioration moyenne de 6,8 mAP dans la détection de personnes sur les ensembles de test de Manipal-UAV, VisDrone, HIT-UAV ainsi que notre jeu de données personnalisé. Pour l'estimation de la posture humaine 2D, nous rapportons une amélioration de 16,3 mAP sur le jeu de données complexe UAV-Human. FlyPose fonctionne avec une latence d'inférence d'environ 20 millisecondes, incluant le prétraitement, sur un Jetson Orin AGX Developer Kit et est déployé à bord d'un drone quadrirotor lors d'expériences en vol. Nous publions également FlyPose-104, un petit jeu de données complexe pour l'estimation de la posture humaine aérienne, qui inclut des annotations manuelles réalisées depuis des perspectives aériennes difficiles : https://github.com/farooqhassaan/FlyPose.
L'inférence déterministe est un idéal rassurant dans le logiciel classique : le même programme avec la même entrée devrait toujours produire la même sortie. Alors que les grands modèles de langage se déploient dans le monde réel, cet idéal a été importé en bloc dans les piles d'inférence. Des travaux récents du Thinking Machines Lab ont présenté une analyse détaillée du non-déterminisme dans l'inférence des LLM, montrant comment des noyaux invariants par lot et une attention déterministe peuvent imposer des sorties identiques au niveau binaire, positionnant l'inférence déterministe comme un prérequis pour la reproductibilité et la fiabilité en entreprise. Dans cet article, nous adoptons la position inverse. Nous soutenons que, pour les LLM, l'inférence déterministe tue. Elle tue la capacité à modéliser l'incertitude, supprime les capacités émergentes, réduit le raisonnement à un chemin unique et fragile, et affaiblit l'alignement de sécurité en masquant les risques de queue. Les LLM implémentent des distributions conditionnelles sur les sorties, et non des fonctions fixes. Réduire ces distributions à un seul résultat canonique peut sembler rassurant, mais cela occulte systématiquement des propriétés centrales à la cognition artificielle. Nous préconisons plutôt le CHAOS Stochastique, traitant la variabilité distributionnelle comme un signal à mesurer et à contrôler. Empiriquement, nous montrons que l'inférence déterministe est systématiquement trompeuse. L'évaluation déterministe à un seul échantillon sous-estime à la fois les capacités et la fragilité, masquant la probabilité d'échec face à des paraphrases ou du bruit. Les transitions de phase associées aux capacités émergentes disparaissent avec un décodage glouton. Le raisonnement multi-voies se dégrade lorsqu'il est contraint sur des architectures déterministes, réduisant la précision et la capacité de diagnostic. Enfin, l'évaluation déterministe sous-estime le risque de sécurité en cachant des comportements rares mais dangereux qui n'apparaissent que sous une évaluation multi-échantillons.
Si les modèles de langage multimodaux (MLLM) ont réalisé des progrès remarquables dans la compréhension visuelle, ils éprouvent souvent des difficultés face à la nature non structurée et ambiguë des croquis générés par l'homme. Cette limitation est particulièrement prononcée dans la tâche encore peu explorée de l'évaluation visuelle, où les modèles ne doivent pas seulement résoudre un problème mais aussi diagnostiquer les erreurs dans les diagrammes dessinés à la main. De telles capacités de diagnostic dépendent d'un raisonnement structurel, sémantique et métacognitif complexe. Pour combler cette lacune, nous présentons SketchJudge, un nouveau benchmark conçu pour évaluer les MLLM en tant qu'évaluateurs de diagrammes STEM dessinés à la main. SketchJudge comprend 1 015 réponses d'étudiants dessinées à la main couvrant quatre domaines : la géométrie, la physique, les graphiques et les organigrammes, présentant des variations stylistiques diverses et des types d'erreurs distincts. Les évaluations sur SketchJudge démontrent que même les MLLM avancés restent significativement en retard par rapport aux humains, validant l'efficacité du benchmark pour révéler la fragilité de l'alignement vision-langage actuel dans des contextes symboliques et bruités. Toutes les données, le code et les scripts d'évaluation sont disponibles publiquement à l'adresse https://github.com/yuhangsu82/SketchJudge.
Les modèles de traitement linguistique multimodaux (MLLM) présentent des capacités polyvalentes remarquables, mais peinent encore sur la classification visuelle fine (FGVC), une tâche de perception fondamentale qui nécessite une discrimination visuelle subtile et qui est cruciale pour de nombreuses applications réelles. Une stratégie largement adoptée pour améliorer les performances sur des tâches complexes comme les mathématiques et la programmation est le raisonnement en chaîne de pensée (CoT). Cependant, plusieurs travaux antérieurs ont rapporté que le CoT peut en réalité nuire aux performances sur les tâches de perception visuelle. Ces études, toutefois, examinent la question sous des angles relativement restreints et laissent ouverte la question de savoir pourquoi le CoT dégrade les performances fortement liées à la perception. Nous réexaminons systématiquement le rôle du CoT dans la FGVC sous l'angle de l'évaluation zero-shot et de multiples paradigmes d'apprentissage. À travers ces configurations, nous mettons au jour un paradoxe central : la dégradation induite par le CoT est largement pilotée par la longueur du raisonnement, où un raisonnement textuel plus long réduit systématiquement la précision de la classification. Nous nommons ce phénomène le « Coût de la Réflexion ». En nous appuyant sur cette découverte, nous apportons deux contributions clés : (1) \alg, une méthode de normalisation simple et générale, prête à l'emploi, pour l'optimisation multi-récompenses qui équilibre les signaux de récompense hétérogènes, et (2) ReFine-RFT, un cadre qui combine des récompenses d'ensemble avec \alg pour contraindre la longueur du raisonnement tout en fournissant un retour d'information dense axé sur la précision. Des expérimentations approfondies démontrent l'efficacité de nos résultats et du ReFine-RFT proposé, atteignant des performances de pointe sur les benchmarks de FGVC. Le code et les modèles sont disponibles à l'adresse https://github.com/jiezhu23/ReFine-RFT{Lien du projet}.
La cohérence interne (self-consistency) est devenue une technique populaire pour améliorer la précision des grands modèles de langage sur les tâches de raisonnement. L'approche est simple : générer plusieurs chemins de raisonnement et sélectionner la réponse la plus fréquente par vote majoritaire. Bien que cette méthode améliore fiabilité la précision, il reste incertain si ces gains reflètent une réelle amélioration de la qualité du raisonnement. Nous étudions une question fondamentale jamais explorée auparavant : la mise à l'échelle par inférence améliore-t-elle la fidélité du raisonnement ? Nous menons une étude empirique complète sur quatre modèles de pointe (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview et DeepSeek-v3.2) à l'aide de 100 problèmes de raisonnement mathématique GSM8K. Notre analyse utilise des intervalles de confiance bootstrap, des tests de McNemar pour les comparaisons appariées et les tailles d'effet de Cohen pour quantifier rigoureusement les effets. Les résultats révèlent des différences frappantes entre les modèles qui remettent en cause les hypothèses courantes sur la cohérence interne. GPT-5.2 montre le schéma attendu : la précision s'améliore de 78 % à 90 % pour N=5, tandis que la fidélité reste relativement stable (0,540 à 0,510). Claude Opus 4.5 présente une histoire complètement différente. Sa précision chute de 78 % à 74,3 % tandis que sa fidélité bondit considérablement de 0,270 à 0,891 pour N=5. DeepSeek-v3.2, déjà à 98 % de précision, montre des effets de plafond avec des gains de fidélité modestes (0,440 à 0,541). Gemini-3-flash s'améliore de 81 % à 86 % en précision avec une légère baisse de fidélité (0,260 à 0,212). L'analyse de la difficulté des problèmes révèle que GPT-5.2 résout 82 % des problèmes difficiles tout en échouant sur seulement 13 % des problèmes faciles. Claude, en revanche, échoue sur 23 % des problèmes faciles, ce qui explique sa baisse de précision. Ces résultats sont importants pour les praticiens : la cohérence interne n'est pas universellement bénéfique, et les équipes doivent tester leurs modèles spécifiques avant le déploiement. Nous publions notre code et fournissons des recommandations pratiques pour naviguer ces compromis.
Les expressions non compositionnelles (par exemple, les idiotismes, proverbes et métaphores) posent des défis significatifs aux systèmes de traduction automatique neuronale car leur sens ne peut être dérivé de la simple somme des mots individuels. Ces expressions codent une signification culturelle riche et possèdent à la fois des sens figurés et littéraux, rendant la traduction précise difficile. Étant donné que les modèles sont relativement performants pour traduire du texte compositionnel, nous étudions un fine-tuning de type GRPO utilisant des modèles d'Estimation de la Qualité de la Traduction Automatique (MTQE) comme fonctions de récompense pour entraîner les modèles à mieux traduire les idiotismes. En utilisant des jeux de données d'idiotismes chinois et hindi, nous constatons que les capacités de traduction des idiotismes s'améliorent d'environ 14 points, la traduction générale non idiomatique s'améliore implicitement d'environ 8 points, et les capacités de traduction multilingue (entraîné sur une langue, évalué sur une autre) s'améliorent d'environ 6 points. Globalement, notre travail quantifie l'écart de traduction non compositionnelle et offre des perspectives pour développer des LLM ayant une meilleure compréhension du langage figuré et interculturel.
L'optimisation directe des préférences (DPO) constitue une alternative rigoureuse et évolutive au RLHF pour l'alignement des grands modèles de langage à partir de préférences par paires, mais son empreinte géométrique interne reste mal caractérisée, limitant les audits, les comparaisons de points de contrôle et la prédiction des défaillances. Nous présentons SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers), un diagnostic qui mesure comment l'alignement reconfigure les représentations en profondeur en traçant le changement structurel localisé couche par couche. À travers différentes familles de modèles, DPO produit un effet d'étalonnage par couches concentré dans les derniers blocs décodeurs (souches les couches 21 à 30), où les gradients de préférence affectent le plus directement la distribution du token suivant. SPINAL encode chaque point de contrôle comme une trace de profondeur sur (indice de couche, score de contraction, score de transport). Le score de contraction résume la rapidité avec laquelle la queue du spectre d'une couche décroît (vitesse à laquelle les petits modes disparaissent) ; des valeurs plus élevées indiquent une contraction plus forte en moins de directions effectives. Le score de transport résume l'ampleur du déplacement de la distribution des tokens entre couches adjacentes à l'aide d'une mesure de chevauchement bornée ; des valeurs plus faibles indiquent des étapes plus courtes et plus lisses dans l'espace de représentation. Les points de contrôle alignés montrent une augmentation tardive de la contraction dans les dernières couches et une réduction régulière du transport, cohérente avec un resserrement et une stabilisation de la masse de la politique, tandis que les modèles non alignés tracent des chemins de profondeur à courbure plus élevée, plus entropiques et géométriquement incohérents. Globalement, l'alignement est géométriquement localisé : les dernières couches encodent les corrections dominantes induites par les préférences. SPINAL transforme cette localisation en un signal d'audit pratique, quantifiant où l'alignement se concentre, avec quelle intensité il se manifeste, et quand il commence à se déstabiliser pendant l'entraînement.
L'intelligence spatiale désigne la capacité à percevoir, raisonner et décrire les objets et leurs relations dans des environnements tridimensionnels, formant une base pour la perception incarnée et la compréhension de scènes. La légende 3D vise à décrire des scènes 3D en langage naturel ; cependant, elle reste difficile en raison de la parcimonie et de l'irrégularité des nuages de points et, plus crucialement, de l'ancrage faible et de la généralisation limitée hors distribution (OOD) des légendeurs existants dans des environnements radicalement différents, incluant les scènes 3D intérieures et extérieures. Pour relever ce défi, nous proposons 3D CoCa v2, un cadre de légende 3D généralisable qui unifie l'apprentissage vision-langage contrastif avec la génération de légendes 3D et améliore davantage la robustesse via une recherche au moment du test (TTS) sans mise à jour des paramètres du légendeur. 3D CoCa v2 s'appuie sur un préalable sémantique figé basé sur CLIP, un encodeur de scène 3D spatialement conscient pour la géométrie, et un décodeur multimodal optimisé conjointement avec des objectifs contrastifs et de légende, évitant les détecteurs externes ou les propositions artisanales. Lors de l'inférence, TTS produit des candidats de légende diversifiés et effectue une sélection guidée par récompense en utilisant un résumé compact de la scène. Les expériences montrent des améliorations par rapport à 3D CoCa de +1,50 CIDEr@0,5IoU sur ScanRefer et +1,61 CIDEr@0,5IoU sur Nr3D, et +3,8 CIDEr@0,25 en évaluation OOD zero-shot sur TOD3Cap. Le code sera disponible sur https://github.com/AIGeeksGroup/3DCoCav2.
L'évaluation des modèles de langage (LM) dans des domaines spécialisés à enjeux élevés comme la finance reste un défi majeur en raison de la rareté des jeux de données ouverts, de haute qualité et spécifiques au domaine. Les benchmarks généralistes existants offrent une couverture étendue mais manquent de la profondeur et de la fidélité au domaine nécessaires pour évaluer les capacités des LM en matière de raisonnement financier réel, qui exige à la fois une compréhension conceptuelle et une rigueur quantitative. Pour combler cette lacune, nous présentons FinForge, un pipeline semi-synthétique et évolutif pour construire des benchmarks d'évaluation spécifiques à la finance grâce à un hybride de curation de données guidée par des experts et de synthèse contrôlée basée sur des LM. FinForge combine une construction de corpus manuelle et programmatique à partir de sources financières autorisées avec une génération de questions structurée et une validation utilisant Gemini 2.5 Flash. Pour démontrer l'efficacité du pipeline, nous produisons FinForge-5k, un benchmark instantané comprenant plus de 5 000 paires question-réponse validées par des humains couvrant 11 sous-domaines financiers, dérivé d'un corpus trié de 100 000 documents vérifiés totalisant 143 millions de tokens. L'évaluation des modèles open-source et propriétaires les plus avancés sur FinForge-5k révèle des différences significatives dans le raisonnement financier, les modèles leaders atteignant des niveaux de précision proches de 80 %. Ces résultats soulignent l'utilité du cadre pour diagnostiquer les limitations actuelles des modèles et guider les futures améliorations de la compétence dans le domaine financier. Tous les codes et données sont disponibles à l'adresse https://github.com/gtfintechlab/FinForge.