Articles de recherche IA sélectionnés quotidiennement avec traductions
Nous présentons Green-VLA, un cadre Vision-Langage-Action (VLA) modulaire conçu pour le déploiement en conditions réelles sur le robot humanoïde Green, tout en préservant la généralisation à travers diverses incarnations matérielles. Green-VLA suit un curriculum en cinq étapes : (L0) modèles de vision-langage de base, (L1) ancrage multimodal, (R0) pré-entraînement multi-incarnations, (R1) adaptation spécifique à l'incarnation, et (R2) alignement de la politique par apprentissage par renforcement (RL). Nous associons un pipeline évolutif de traitement de données (3 000 heures de démonstrations) avec un alignement temporel et un filtrage qualité, et utilisons une interface d'action unifiée et sensible à l'incarnation, permettant à une politique unique de contrôler des humanoïdes, des manipulateurs mobiles et des bras à base fixe. Lors de l'inférence, le contrôleur VLA est enrichi par une prédiction de la progression de l'épisode, une détection des données hors distribution et un guidage basé sur la prédiction articulaire pour améliorer la sécurité et la sélection précise des cibles. Les expériences sur les environnements Simpler BRIDGE WidowX et CALVIN ABC-D, ainsi que les évaluations sur robot réel, démontrent une forte généralisation et des gains de performance dus à l'alignement par RL en termes de taux de réussite, de robustesse et d'efficacité sur des tâches à long horizon.
Nous présentons Kimi K2.5, un modèle agentiel multimodal open-source conçu pour faire progresser l'intelligence agentielle générale. K2.5 met l'accent sur l'optimisation conjointe du texte et de la vision afin que ces deux modalités se renforcent mutuellement. Cela inclut une série de techniques telles que le pré-entraînement texte-vision conjoint, le SFT à vision zéro et l'apprentissage par renforcement texte-vision conjoint. S'appuyant sur cette base multimodale, K2.5 introduit Agent Swarm, un framework d'orchestration d'agents parallèles autodirigés qui décompose dynamiquement les tâches complexes en sous-problèmes hétérogènes et les exécute de manière concurrente. Des évaluations approfondies montrent que Kimi K2.5 obtient des résultats state-of-the-art dans divers domaines, notamment le codage, la vision, le raisonnement et les tâches agentielles. Agent Swarm réduit également la latence jusqu'à 4,5 fois par rapport aux modèles de référence à agent unique. Nous publions le point de contrôle du modèle Kimi K2.5 après son entraînement afin de faciliter les recherches futures et les applications pratiques de l'intelligence agentielle.
Les modèles de langage multimodaux (MLLM) ont obtenu un succès remarquable sur un large éventail de tâches visuelles. Cependant, limités par la capacité de leurs connaissances internes du monde, les travaux antérieurs ont proposé d'augmenter les MLLM via une approche de « raisonnement-puis-appel-d'outil » pour les moteurs de recherche visuels et textuels, afin d'obtenir des gains substantiels sur les tâches nécessitant des informations factuelles étendues. Ces approches définissent généralement la recherche multimodale dans un cadre naïf, supposant qu'une seule requête image de haut niveau ou au niveau des entités et quelques requêtes textuelles suffisent à récupérer les preuves clés pour répondre à la question, ce qui est irréaliste dans les scénarios réels comportant un bruit visuel important. De plus, elles sont souvent limitées en profondeur de raisonnement et en étendue de recherche, rendant difficile la résolution de questions complexes nécessitant l'agrégation de preuves provenant de sources visuelles et textuelles diverses. Sur cette base, nous proposons Vision-DeepResearch, qui introduit un nouveau paradigme de recherche approfondie multimodale, effectuant une recherche visuelle et textuelle multi-tours, multi-entités et multi-échelles pour interagir robustement avec les moteurs de recherche réels malgré un bruit important. Notre Vision-DeepResearch supporte des dizaines d'étapes de raisonnement et des centaines d'interactions avec les moteurs, tout en internalisant les capacités de recherche approfondie dans le MLLM via un apprentissage supervisé à froid et un entraînement par apprentissage par renforcement, produisant un MLLM multimodal de recherche approfondie fort et de bout en bout. Il surpasse substantiellement les MLLM multimodaux existants dédiés à la recherche approfondie, ainsi que les workflows construits sur des modèles fondateurs propriétaires performants tels que GPT-5, Gemini-2.5-pro et Claude-4-Sonnet. Le code sera publié sur https://github.com/Osilly/Vision-DeepResearch.
Les modèles de langage de grande taille multimodaux (MLLMs) ont fait progresser les systèmes de question-réponse visuelle (VQA) et prennent désormais en charge les systèmes Vision-DeepResearch qui utilisent des moteurs de recherche pour la recherche complexe de faits visuels-textuels. Cependant, l'évaluation de ces capacités de recherche visuelle et textuelle reste difficile, et les benchmarks existants présentent deux limitations majeures. Premièrement, les benchmarks actuels ne sont pas centrés sur la recherche visuelle : les réponses qui devraient nécessiter une recherche visuelle sont souvent divulguées par des indices textuels croisés dans les questions ou peuvent être déduites des connaissances mondiales préalables des MLLMs actuels. Deuxièmement, un scénario d'évaluation trop idéalisé : côté recherche d'images, les informations requises peuvent souvent être obtenues par correspondance quasi exacte avec l'image entière, tandis que la recherche textuelle est trop directe et insuffisamment stimulante. Pour résoudre ces problèmes, nous construisons le benchmark Vision-DeepResearch (VDR-Bench) comprenant 2 000 instances VQA. Toutes les questions sont créées via un pipeline de curation multi-étapes rigoureux et une revue experte, conçus pour évaluer le comportement des systèmes Vision-DeepResearch dans des conditions réalistes du monde réel. De plus, pour pallier les capacités de récupération visuelle insuffisantes des MLLMs actuels, nous proposons un workflow simple de recherche par recadrage multi-tours. Cette stratégique s'avère efficace pour améliorer les performances des modèles dans des scénarios réalistes de récupération visuelle. Globalement, nos résultats fournissent des orientations pratiques pour la conception de futurs systèmes de recherche approfondie multimodaux. Le code sera publié sur https://github.com/Osilly/Vision-DeepResearch.
Les agents de dépôt actuels rencontrent un déficit de raisonnement dû à des représentations fragmentées, car les méthodes existantes reposent sur une documentation API isolée ou des graphes de dépendances manquant de profondeur sémantique. Nous considérons la compréhension et la génération de dépôts comme des processus inverses au sein d'un cycle unifié : la génération développe l'intention en implémentation, tandis que la compréhension comprime l'implémentation en intention. Pour résoudre ce problème, nous proposons RPG-Encoder, un cadre qui généralise le Graphe de Planification de Dépôt (RPG) d'un plan génératif statique en une représentation unifiée et haute fidélité. RPG-Encoder referme la boucle de raisonnement via trois mécanismes : (1) Encoder le code brut dans le RPG qui combine des caractéristiques sémantiques abstraites avec les dépendances du code ; (2) Faire évoluer la topologie de manière incrémentale pour découpler les coûts de maintenance de l'échelle du dépôt, réduisant la surcharge de 95,7 % ; et (3) Fonctionner comme une interface unifiée pour une navigation sensible à la structure. Lors des évaluations, RPG-Encoder établit l'état de l'art en compréhension de dépôts sur SWE-bench Verified avec 93,7 % Acc@5 et dépasse la meilleure base de référence de plus de 10 % sur SWE-bench Live Lite. Ces résultats soulignent notre précision de localisation fine supérieure dans des bases de code complexes. De plus, il atteint 98,5 % de couverture de reconstruction sur RepoCraft, confirmant la capacité haute fidélité du RPG à refléter la base de code originale et refermant la boucle entre l'intention et l'implémentation.
Les modèles multimodaux unifiés peinent souvent avec les tâches de synthèse complexes exigeant un raisonnement approfondi, et traitent généralement la génération texte-image et l'édition d'image comme des capacités isolées plutôt que comme des étapes de raisonnement interconnectées. Pour résoudre ce problème, nous proposons UniReason, un cadre unifié qui harmonise ces deux tâches via un paradigme de raisonnement dual. Nous formulons la génération comme une planification enrichie par les connaissances du monde pour injecter des contraintes implicites, et exploitons les capacités d'édition pour un raffinement visuel à granularité fine afin de corriger davantage les erreurs visuelles via l'auto-réflexion. Cette approche unifie la génération et l'édition dans une représentation partagée, reflétant le processus cognitif humain de planification suivie de raffinement. Nous soutenons ce cadre en construisant systématiquement un jeu de données à grande échelle centré sur le raisonnement (~300 000 échantillons) couvrant cinq domaines de connaissances majeurs (par exemple, le sens commun culturel, la physique, etc.) pour la planification, parallèlement à un corpus généré par agent pour l'auto-correction visuelle. Des expériences approfondies démontrent qu'UniReason obtient des performances avancées sur des benchmarks intensifs en raisonnement comme WISE, KrisBench et UniREditBench, tout en maintenant des capacités de synthèse générale supérieures.
Nous proposons SWE-Universe, un cadre évolutif et efficace pour la construction automatique d'environnements vérifiables en génie logiciel (SWE) à partir de demandes de tirage (PR) GitHub. Pour surmonter les défis courants de la construction automatique, tels que le faible rendement de production, la faiblesse des vérificateurs et les coûts prohibitifs, notre cadre utilise un agent de construction alimenté par un modèle efficace entraîné sur mesure. Cet agent emploie une auto-vérification itérative et une détection de piratage en boucle pour assurer la génération fiable de tâches vérifiables de haute fidélité. En utilisant cette méthode, nous portons le nombre d'environnements SWE multilingues réels à l'échelle du million (807 693). Nous démontrons la valeur profonde de nos environnements grâce à un pré-entraînement agentique à grande échelle et à l'apprentissage par renforcement. Enfin, nous avons appliqué cette technique à Qwen3-Max-Thinking et obtenu un score de 75,3 % sur SWE-Bench Verified. Notre travail fournit à la fois une ressource critique et une méthodologie robuste pour faire progresser la prochaine génération d'agents de codage.
La recherche approfondie émerge comme une tâche représentative à long horizon pour les agents de grands modèles de langage (LLM). Cependant, les trajectoires longues dans la recherche approfondie dépassent souvent les limites du contexte des modèles, comprimant le budget de tokens alloué à la collecte de preuves et à la rédaction du rapport, et empêchant une mise à l'échelle efficace au moment du test. Nous présentons FS-Researcher, un cadre à double agents basé sur un système de fichiers, qui permet de mettre à l'échelle la recherche approfondie au-delà de la fenêtre de contexte via un espace de travail persistant. Concrètement, un agent « Constructeur de Contexte » agit comme un bibliothécaire qui navigue sur Internet, rédige des notes structurées et archive les sources brutes dans une base de connaissances hiérarchique pouvant s'étendre bien au-delà de la longueur du contexte. Un agent « Rédacteur de Rapport » compose ensuite le rapport final section par section, en traitant la base de connaissances comme source de faits. Dans ce cadre, le système de fichiers sert de mémoire externe durable et de médium de coordination partagé entre les agents et les sessions, permettant un affinage itératif au-delà de la fenêtre de contexte. Les expériences sur deux benchmarks ouverts (DeepResearch Bench et DeepConsult) montrent que FS-Researcher atteint une qualité de rapport de pointe sur différents modèles de base. Des analyses plus poussées démontrent une corrélation positive entre la qualité du rapport final et le calcul alloué au Constructeur de Contexte, validant ainsi une mise à l'échelle efficace au moment du test sous le paradigme du système de fichiers. Le code et les données sont open-source de manière anonyme à l'adresse https://github.com/Ignoramus0817/FS-Researcher.
La diffusion pixel génère des images directement dans l'espace pixel de manière end-to-end, évitant les artéfacts et goulots d'étranglement introduits par les VAE dans la diffusion latente en deux étapes. Cependant, l'optimisation des variétés pixel de haute dimension contenant de nombreux signaux perceptuellement non pertinents reste difficile, ce qui explique le retard des méthodes existantes de diffusion pixel par rapport aux modèles de diffusion latente. Nous proposons PixelGen, un cadre simple de diffusion pixel avec supervision perceptuelle. Au lieu de modéliser la variété image complète, PixelGen introduit deux pertes perceptuelles complémentaires pour guider le modèle de diffusion vers l'apprentissage d'une variété perceptuelle plus significative. Une perte LPIPS facilite l'apprentissage de meilleures structures locales, tandis qu'une perte perceptuelle basée sur DINO renforce la sémantique globale. Avec cette supervision perceptuelle, PixelGen surpasse les solides modèles de référence en diffusion latente. Il atteint un FID de 5.11 sur ImageNet-256 sans guidance classifieur-libre en seulement 80 époques d'entraînement, et démontre des performances d'extensibilité favorables pour la génération texte-image à grande échelle avec un score GenEval de 0.79. PixelGen ne nécessite ni VAE, ni représentations latentes, ni étapes auxiliaires, offrant ainsi un paradigme génératif plus simple mais plus puissant. Les codes sont disponibles publiquement à l'adresse https://github.com/Zehong-Ma/PixelGen.
L'apprentissage progressif (AP) réduit la surcharge computationnelle du pré-entraînement en augmentant progressivement l'échelle du modèle. Si les travaux antérieurs ont largement exploré l'expansion en profondeur, l'expansion en largeur reste considérablement sous-étudiée, les rares méthodes existantes étant limitées aux premières phases de l'entraînement. Pourtant, l'expansion en largeur en phase intermédiaire est essentielle pour maximiser les économies computationnelles, mais elle reste un défi de taille en raison de sévères instabilités d'entraînement. Empiriquement, nous montrons qu'une initialisation naïve à ce stade perturbe les statistiques d'activation, déclenchant des pics de loss, tandis qu'une initialisation par copie introduit une symétrie des gradients qui entrave la diversité des caractéristiques. Pour résoudre ces problèmes, nous proposons SPARKLING (équilibrage de la {P}reservation du {S}ignal et de la {R}upture de symétrie pour l'apprentissage {L}argeur-{PROG}ressif), un nouveau cadre pour l'expansion en largeur en phase intermédiaire. Notre méthode préserve le signal via la cohérence d'échelle RMS, stabilisant les statistiques d'activation lors de l'expansion. La rupture de symétrie est assurée par une réinitialisation asymétrique de l'état de l'optimiseur et un ré-échauffement du taux d'apprentissage. Des expériences approfondies sur des modèles Mixture-of-Experts (MoE) démontrent que, sur de multiples axes de largeur et familles d'optimiseurs, SPARKLING surpasse systématiquement l'entraînement from scratch et réduit le coût d'entraînement jusqu'à 35 % pour une expansion de largeur par 2.
La recommandation basée sur les identifiants sémantiques (SID) est un paradigme prometteur pour la mise à l'échelle des systèmes de recommandation séquentiels, mais les méthodes existantes suivent largement un pipeline sémantico-centrique : les embeddings d'items sont appris à partir de modèles de fond puis discrétisés via des schémas de quantification génériques. Cette conception est en décalage avec les objectifs de la recommandation générative : les embeddings sémantiques sont faiblement couplés avec la prédiction collaborative, et la quantification générique est inefficace pour réduire l'incertitude séquentielle nécessaire à la modélisation autoregressive. Pour y remédier, nous proposons ReSID, un cadre SID fondamental et natif pour la recommandation, qui repense l'apprentissage des représentations et la quantification sous l'angle de la préservation de l'information et de la prévisibilité séquentielle, sans recourir aux grands modèles de langage (LLM). ReSID se compose de deux éléments : (i) le Auto-Encodage Masqué Sensible aux Champs (FAMAE), qui apprend des représentations d'items suffisamment prédictives à partir de caractéristiques structurées, et (ii) la Quantification Orthogonale à Alignement Global (GAOQ), qui produit des séquences SID compactes et prévisibles en réduisant conjointement l'ambiguïté sémantique et l'incertitude conditionnelle au préfixe. L'analyse théorique et des expériences poussées sur dix jeux de données démontrent l'efficacité de ReSID. Notre méthode surpasse systématiquement des bases de référence solides, qu'elles soient séquentielles ou génératives basées sur les SID, avec une amélioration moyenne de plus de 10 %, tout en réduisant le coût de tokenisation jusqu'à 122 fois. Le code est disponible à l'adresse https://github.com/FuCongResearchSquad/ReSID.
Le post-entraînement des LLMs de raisonnement est un processus holistique qui consiste généralement en une phase SFT hors ligne suivie d'une phase d'apprentissage par renforcement (RL) en ligne. Cependant, le SFT est souvent optimisé de manière isolée pour maximiser uniquement ses performances propres. Nous démontrons qu'après un entraînement RL identique, les modèles initialisés à partir de points de contrôle SFT plus performants peuvent obtenir des résultats significativement inférieurs à ceux initialisés à partir de points de contrôle plus faibles. Nous attribuons cela à un décalage typique dans les pipelines SFT-RL actuels : la distribution qui génère les données SFT hors ligne peut différer substantiellement de la politique optimisée durant le RL en ligne, laquelle apprend à partir de ses propres déroulements. Nous proposons PEAR (Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting), une méthode pour la phase SFT qui corrige ce décalage et prépare mieux le modèle pour le RL. PEAR utilise l'échantillonnage d'importance pour repondérer la perte SFT, avec trois variantes opérant aux niveaux du token, du bloc et de la séquence. Elle peut être utilisée pour augmenter les objectifs SFT standard et n'engendre qu'une faible surcharge computationnelle supplémentaire une fois que les probabilités pour les données hors ligne sont collectées. Nous menons des expériences contrôlées sur des jeux de raisonnement vérifiables et des tâches de raisonnement mathématique avec les modèles Qwen 2.5, 3 et DeepSeek-distilled. PEAR améliore constamment les performances post-RL par rapport au SFT canonique, avec des gains de "pass@8" allant jusqu'à 14,6 % sur AIME2025. Nos résultats suggèrent que PEAR constitue une étape efficace vers un post-entraînement plus holistique des LLMs, en concevant et en évaluant le SFT en tenant compte du RL en aval plutôt que de manière isolée.
Les modèles de monde (WMs) d'interface graphique mobile (GUI) offrent une voie prometteuse pour améliorer les performances des agents GUI mobiles lors de l'entraînement et de l'inférence. Cependant, les approches actuelles sont confrontées à un compromis critique : les WMs textuels sacrifient la fidélité visuelle, tandis que l'incapacité des WMs visuels à restituer précisément le texte les contraint à recourir à des pipelines lents et complexes dépendant de nombreux modèles externes. Nous proposons un nouveau paradigme : la modélisation visuelle du monde par génération de code rendu, où un seul modèle vision-langage (VLM) prédit l'état GUI suivant sous forme de code web exécutable qui s'affiche en pixels, plutôt que de générer directement les pixels. Cela combine les forces des deux approches : les VLM conservent leurs connaissances linguistiques pour un rendu textuel précis, tandis que leur pré-entraînement sur du code web structuré permet une génération visuelle haute fidélité. Nous présentons gWorld (8B, 32B), les premiers WMs visuels ouverts pour GUI mobiles construits sur ce paradigme, accompagnés d'un cadre de génération de données (gWorld) qui synthétise automatiquement des données d'entraînement basées sur du code. Lors d'une évaluation approfondie sur 4 benchmarks en distribution et 2 hors distribution, gWorld établit une nouvelle frontière de Pareto en précision versus taille de modèle, surpassant 8 modèles ouverts de pointe jusqu'à 50,25 fois plus grands. Des analyses complémentaires montrent que (1) l'augmentation des données d'entraînement via gWorld procure des gains significatifs, (2) chaque composant de notre pipeline améliore la qualité des données, et (3) une modélisation du monde plus robuste améliore les performances des politiques d'action sur GUI mobiles en aval.
La Génération de Texte Augmentée par Récupération basée sur les Graphes (GraphRAG) organise les connaissances externes sous la forme d'un graphe hiérarchique, permettant une récupération et une agrégation efficaces de preuves éparpillées à travers de multiples documents. Cependant, de nombreux benchmarks existants pour GraphRAG s'appuient sur des passages courts et sélectionnés comme connaissances externes, échouant à évaluer de manière adéquate les systèmes dans des contextes réalistes impliquant de longs documents et de vastes corpus hétérogènes. Pour combler cette lacune, nous présentons WildGraphBench, un benchmark conçu pour évaluer les performances de GraphRAG en conditions réelles. Nous tirons parti de la structure unique de Wikipédia, où des récits cohérents s'appuient sur de longs documents de référence externes et hétérogènes, pour construire un benchmark reflétant des scénarios du monde réel. Plus précisément, nous échantillonnons des articles couvrant 12 thèmes de haut niveau, en utilisant leurs références externes comme corpus de récupération et les affirmations liées aux citations comme vérité terrain, ce qui donne 1 100 questions réparties sur trois niveaux de complexité : questions-réponses sur un fait unique, questions-réponses sur multiples faits, et synthèse au niveau de la section. Des expériences sur plusieurs modèles de référence révèlent que les pipelines GraphRAG actuels aident à l'agrégation de multiples faits lorsque les preuves proviennent d'un nombre modéré de sources, mais ce paradigme d'agrégation peut surestimer les affirmations de haut niveau au détriment des détails fins, conduisant à des performances plus faibles sur les tâches de synthèse. Page du projet : https://github.com/BstWPY/WildGraphBench.
Le raisonnement en chaîne de pensée a permis aux grands modèles linguistiques d'évoluer d'une réflexion basée sur le texte vers une réflexion intégrant images et vidéos. Cependant, les différentes modalités présentent encore des limites évidentes : les images statiques peinent à représenter la structure temporelle, tandis que les vidéos introduisent une redondance substantielle et un coût computationnel élevé. Dans ce travail, nous proposons la Réflexion par Bandes Dessinées, un paradigme de raisonnement visuel qui utilise la bande dessinée comme médium à haute densité informationnelle, positionné entre l'image et la vidéo. Les bandes dessinées préservent la structure temporelle, intègrent du texte et assurent une cohérence narrative tout en nécessitant un coût de raisonnement significativement moindre. Nous étudions systématiquement deux voies de raisonnement basées sur les bandes dessinées et les évaluons sur une série de tâches de raisonnement et de compréhension de contexte long. Les résultats expérimentaux montrent que la Réflexion par Bandes Dessinées surpasse la Réflexion par Images sur les tâches de raisonnement temporel et causal multi-étapes, tout en restant nettement plus efficace que la Réflexion par Vidéo. Des analyses complémentaires indiquent que les différentes structures narratives et styles de bandes dessinées influencent constamment les performances across les tâches, suggérant que la bande dessinée constitue une représentation visuelle intermédiaire efficace pour améliorer le raisonnement multimodal.
Nous proposons RLAnything, un cadre d'apprentissage par renforcement qui forge dynamiquement les modèles d'environnement, de politique et de récompense par une optimisation en boucle fermée, amplifiant les signaux d'apprentissage et renforçant le système RL global pour tout scénario LLM ou agentique. Concrètement, la politique est entraînée avec un retour intégré combinant des signaux pas-à-pas et des signaux de résultat, tandis que le modèle de récompense est optimisé conjointement via un retour de cohérence, ce qui améliore à son tour l'entraînement de la politique. De plus, notre adaptation automatique de l'environnement, motivée théoriquement, améliore l'entraînement des modèles de récompense et de politique en exploitant le retour critique de chacun, permettant l'apprentissage par l'expérience. Empiriquement, chaque composant ajouté améliore constamment le système global, et RLAnything apporte des gains substantiels sur diverses tâches représentatives LLM et agentiques, augmentant les performances de Qwen3-VL-8B-Thinking de 9,1% sur OSWorld et celles de Qwen2.5-7B-Instruct de 18,7% et 11,9% respectivement sur AlfWorld et LiveBench. Nous montrons également que les signaux du modèle de récompense optimisé surpassent les résultats qui reposent sur des annotations humaines. Code : https://github.com/Gen-Verse/Open-AgentRL
Les agents de recherche approfondie (DRA) ont démontré des capacités remarquables en matière de récupération autonome d'informations et de génération de rapports, montrant un grand potentiel pour assister les humains dans des tâches de recherche complexes. Les cadres d'évaluation actuels reposent principalement sur des références générées par des LLM ou des dimensions d'évaluation dérivées des LLM. Bien que ces approches offrent une évolutivité, elles manquent souvent de la fiabilité d'un contenu vérifié par des experts et peinent à fournir des évaluations objectives et granulaires des dimensions critiques. Pour combler cette lacune, nous présentons Wiki Live Challenge (WLC), un benchmark dynamique qui exploite les articles de qualité (AdQ) les plus récents de Wikipédia comme références de niveau expert. Les normes strictes de Wikipédia en matière de neutralité, d'exhaustivité et de vérifiabilité constituent un défi de taille pour les DRA, les AdQ en représentant le summum. Nous avons constitué un jeu de données de 100 articles de qualité récents et proposons Wiki Eval, un cadre d'évaluation complet comprenant une méthode d'évaluation granulaire avec 39 critères pour la qualité rédactionnelle et des métriques rigoureuses pour la vérifiabilité factuelle. Des expériences approfondies sur divers systèmes DRA démontrent un écart significatif entre les DRA actuels et les articles Wikipédia de niveau expert humain, validant l'efficacité de WLC pour faire progresser la recherche sur les agents. Nous publions notre benchmark à l'adresse https://github.com/WangShao2000/Wiki_Live_Challenge.
Les méthodes d'optimisation directe des préférences sont apparues comme une alternative efficace au renforcement par apprentissage à partir des retours humains (RLHF) pour l'alignement des grands modèles de langage. Les approches récentes ont rationalisé ce processus en dérivant des fonctions de récompense implicites, mais elles souffrent souvent d'un problème fondamental d'inadéquation des objectifs : optimiser la marge relative entre les réponses choisies et rejetées ne garantit pas la préservation de la vraisemblance absolue des réponses préférées. Ceci peut entraîner un « désapprentissage », où le modèle dégrade la probabilité des sorties de haute qualité pour satisfaire les contraintes de marge, et un « effondrement du formatage » dû à la sur-pénalisation des séquences rejetées. Dans ce travail, nous présentons SLIME (Stabilized Likelihood Implicit Margin Enforcement), un objectif d'alignement sans référence conçu pour découpler l'apprentissage des préférences de la qualité générative. SLIME intègre un objectif triple : (1) un terme d'ancrage pour maximiser la vraisemblance des réponses préférées ; (2) une pénalité stabilisatrice empêchant l'effondrement vers zéro des probabilités des tokens rejetés ; et (3) un mécanisme à double marge combinant des contraintes rigides et souples pour un façonnage précis des frontières. Nos résultats démontrent que SLIME surpasse les méthodes de référence tout en maintenant une stabilité générative supérieure.
Les modèles de diffusion vidéo autorégressifs permettent une génération en flux continu, ouvrant la voie à la synthèse de longs contenus, aux modèles de monde vidéo et aux moteurs de jeux neuronaux interactifs. Cependant, leurs couches d'attention centrales deviennent un goulot d'étranglement majeur lors de l'inférence : au fur et à mesure de la génération, le cache des clés et valeurs (KV) s'agrandit, entraînant à la fois une latence croissante et une utilisation mémoire GPU escaladante, ce qui restreint le contexte temporel utilisable et nuit à la cohérence à long terme. Dans ce travail, nous étudions la redondance dans la diffusion vidéo autorégressive et identifions trois sources persistantes : des clés en cache quasi-dupliquées entre les frames, des requêtes/clés à évolution lente (largement sémantiques) qui rendent de nombreux calculs d'attention redondants, et l'attention croisée sur de longs prompts où seul un petit sous-ensemble de tokens importe par frame. En nous appuyant sur ces observations, nous proposons un framework d’attention unifié et sans entraînement pour la diffusion autorégressive : TempCache compresse le cache KV via la correspondance temporelle pour limiter sa croissance ; AnnCA accélère l'attention croisée en sélectionnant les tokens du prompt pertinents pour la frame via un appariement approximatif par plus proches voisins (ANN) rapide ; et AnnSA sparse l'auto-attention en restreignant chaque requête aux clés sémantiquement correspondantes, en utilisant également un ANN léger. Ensemble, ces modules réduisent l'attention, le calcul et la mémoire, et sont compatibles avec les architectures de diffusion autorégressive et les modèles de monde existants. Les expériences démontrent des accélérations de bout en bout allant jusqu'à x5–x10 tout en préservant une qualité visuelle quasi identique et, crucialement, en maintenant un débit stable et une utilisation mémoire GPU de pointe presque constante sur de longues séquences, là où les méthodes précédentes ralentissent progressivement et souffrent d'une utilisation mémoire croissante.
Pour réaliser une génération vidéo interactive en temps réel, les méthodes actuelles distillent des modèles de diffusion vidéo bidirectionnels pré-entraînés en modèles autorégressifs (AR) à faible nombre d'étapes, ce qui crée un écart architectural lorsque l'attention complète est remplacée par une attention causale. Cependant, les approches existantes ne comblent pas cet écart théoriquement. Elles initialisent l'étudiant AR via une distillation EDO, ce qui nécessite une injectivité au niveau des images, où chaque image bruitée doit correspondre à une image propre unique sous la PF-ODE d'un enseignant AR. Distiller un étudiant AR à partir d'un enseignant bidirectionnel viole cette condition, empêchant la récupération de la carte de flux de l'enseignant et induisant plutôt une solution d'espérance conditionnelle, ce qui dégrade les performances. Pour résoudre ce problème, nous proposons Causal Forcing, qui utilise un enseignant AR pour l'initialisation EDO, comblant ainsi l'écart architectural. Les résultats empiriques montrent que notre méthode surpasse toutes les approches de référence sur toutes les métriques, dépassant l'état de l'art Self Forcing de 19,3 % en Dynamic Degree, 8,7 % en VisionReward et 16,7 % en Instruction Following. Page du projet et code : https://thu-ml.github.io/CausalForcing.github.io/
La génération texte-vidéo (T2V) vise à synthétiser des vidéos présentant une haute qualité visuelle et une cohérence temporelle, tout en étant sémantiquement alignées sur le texte d'entrée. L’après-entraînement par récompense s'est imposé comme une approche prometteuse pour améliorer la qualité et l'alignement sémantique des vidéos générées. Cependant, les méthodes récentes reposent soit sur de vastes annotations de préférences humaines, soit opèrent sur des embeddings non alignés issus de modèles vision-langage pré-entraînés, ce qui limite leur extensibilité ou conduit à un sous-optimal. Nous présentons PISCES, un algorithme d’après-entraînement sans annotation qui résout ces limitations via un nouveau module de Récompenses Alignées par Transport Optimal (TO) Dual. Pour aligner les signaux de récompense sur le jugement humain, PISCES utilise le TO pour rapprocher les embeddings texte et vidéo à la fois aux niveaux distributionnel et token discret, permettant à la supervision par récompense de remplir deux objectifs : (i) une Récompense de Qualité Alignée par TO Distributionnel qui capture la qualité visuelle globale et la cohérence temporelle ; et (ii) une Récompense Sémantique Alignée par TO au Niveau des Tokens Discrets qui assure une correspondance sémantique spatio-temporelle entre les tokens texte et vidéo. À notre connaissance, PISCES est le premier à améliorer la supervision par récompense sans annotation dans l’après-entraînement génératif via l'angle du TO. Les expériences sur la génération de vidéos courtes et longues montrent que PISCES surpasse les méthodes avec et sans annotation sur VBench pour les scores de Qualité et Sémantique, des études de préférence humaine validant en outre son efficacité. Nous montrons que le module de Récompenses Alignées par TO Dual est compatible avec plusieurs paradigmes d'optimisation, incluant la rétropropagation directe et le réglage fin par apprentissage par renforcement.
Bien que la génération texte-image ait atteint une fidélité sans précédent, la grande majorité des modèles existants fonctionnent fondamentalement comme des décodeurs statiques texte-pixels. Par conséquent, ils échouent souvent à saisir les intentions implicites de l'utilisateur. Bien que les modèles unifiés émergents de compréhension-génération aient amélioré la compréhension de l'intention, ils peinent encore à accomplir des tâches impliquant un raisonnement complexe sur les connaissances au sein d'un modèle unique. De plus, contraints par des connaissances a priori statiques, ces modèles restent incapables de s'adapter à la dynamique évolutive du monde réel. Pour combler ces lacunes, nous présentons Mind-Brush, un cadre agentiel unifié qui transforme la génération en un flux de travail dynamique et piloté par la connaissance. Simulant un paradigme humain « penser-rechercher-créer », Mind-Brush récupère activement des preuves multimodales pour ancrer des concepts hors distribution et utilise des outils de raisonnement pour résoudre des contraintes visuelles implicites. Pour évaluer rigoureusement ces capacités, nous proposons Mind-Bench, un benchmark complet comprenant 500 échantillons distincts couvrant l'actualité en temps réel, les concepts émergents et des domaines tels que le raisonnement mathématique et géographique. Des expériences approfondies démontrent que Mind-Brush améliore significativement les capacités des modèles unifiés, réalisant un saut capacitaire de zéro à un pour la baseline Qwen-Image sur Mind-Bench, tout en obtenant des résultats supérieurs sur des benchmarks établis comme WISE et RISE.
Les efforts croissants pour améliorer la distillation des connaissances (KD) dans les grands modèles de langage (LLM) remplacent la supervision dense des enseignants par une distillation sélective, qui utilise un sous-ensemble de positions de tokens, de classes de vocabulaire ou d'échantillons d'entraînement pour la supervision. Cependant, il reste incertain quels signaux d'importance, quelles politiques de sélection et quelles interactions entre eux sont les plus efficaces. Dans ce travail, nous revisitons où et comment distiller dans les LLM autogrégressifs. Nous dissocions la KD sélective selon les axes de position, de classe et d'échantillon, et comparons systématiquement les signaux d'importance et les politiques de sélection. Ensuite, guidés par cette analyse, nous identifions des opportunités sous-explorées et introduisons la sélection de position guidée par l'entropie de l'étudiant (SE-KD). Sur une série de benchmarks, la SE-KD améliore souvent la précision, l'adhérence aux tâches en aval et l'efficacité mémoire par rapport à la distillation dense. L'extension de cette approche aux axes de classe et d'échantillon (SE-KD 3X) produit des gains d'efficacité complémentaires qui rendent possible la mise en cache hors ligne des enseignants. En pratique, cela réduit le temps d'exécution de 70 % et la mémoire maximale de 18 %, tout en diminuant l'utilisation du stockage de 80 % par rapport aux méthodes antérieures, sans sacrifier les performances.
Les agents de recherche approfondie basés sur LLM sont largement construits sur le cadre ReAct. Cette conception linéaire rend difficile la révision d'états antérieurs, l'exploration de directions de recherche alternatives ou le maintien d'une conscience globale dans des contextes longs, conduisant souvent à des optima locaux, des explorations redondantes et des recherches inefficaces. Nous proposons Re-TRAC, un cadre agentiel qui effectue une exploration transversale des trajectoires en générant une représentation structurée de l'état après chaque trajectoire pour résumer les preuves, les incertitudes, les échecs et les plans futurs, et en conditionnant les trajectoires suivantes sur cette représentation d'état. Cela permet une réflexion itérative et une planification globalement informée, redéfinissant la recherche comme un processus progressif. Les résultats empiriques montrent que Re-TRAC surpasse systématiquement ReAct de 15 à 20 % sur BrowseComp avec des LLM de pointe. Pour les modèles plus petits, nous introduisons un fine-tuning supervisé conscient de Re-TRAC, atteignant des performances de pointe à des échelles comparables. Notamment, Re-TRAC montre une réduction monotone des appels d'outils et de l'utilisation de tokens sur plusieurs rounds, indiquant une exploration progressivement ciblée pilotée par la réflexion transversale plutôt que par une recherche redondante.
Nous présentons FSVideo, un cadre de diffusion image-vers-vidéo (I2V) rapide basé sur un transformateur. Notre architecture repose sur les composants clés suivants : 1.) un nouvel autoencodeur vidéo doté d'un espace latent hautement compressé (ratio d'échantillonnage spatio-temporel de 64×64×4), offrant une qualité de reconstruction compétitive ; 2.) une architecture de transformateur de diffusion (DIT) intégrant une nouvelle conception de mémoire intercouche pour améliorer le flux d'information entre les couches et la réutilisation du contexte au sein du DIT ; et 3.) une stratégie de génération multi-résolution via un suréchantillonneur DIT à faible nombre d'étapes pour accroître la fidélité vidéo. Notre modèle final, comprenant un modèle de base DIT de 14B et un suréchantillonneur DIT de 14B, atteint des performances compétitives par rapport aux autres modèles open-source populaires, tout en étant jusqu'à un ordre de grandeur plus rapide. Ce rapport détaille la conception de notre modèle ainsi que nos stratégies d'entraînement.
La finance japonaise combine une structure linguistique agglutinante à tête finale, des systèmes d'écriture mixtes et des normes de communication hautement contextuelles reposant sur l'expression indirecte et l'engagement implicite, ce qui représente un défi substantiel pour les LLM. Nous présentons Ebisu, un benchmark pour la compréhension linguistique financière native japonaise, comprenant deux tâches expertes, ancrées linguistiquement et culturellement : JF-ICR, qui évalue la reconnaissance de l'engagement implicite et du refus dans les questions-réponses destinées aux investisseurs, et JF-TE, qui évalue l'extraction hiérarchique et le classement de terminologies financières imbriquées issues de documents professionnels. Nous évaluons un ensemble varié de LLM open-source et propriétaires, incluant des modèles généralistes, adaptés au japonais et spécialisés en finance. Les résultats montrent que même les systèmes les plus avancés peinent sur les deux tâches. Si l'augmentation de l'échelle des modèles apporte des améliorations limitées, l'adaptation linguistique et domain-specific n'améliore pas de manière fiable les performances, laissant des écarts substantiels non résolus. Ebisu fournit un benchmark ciblé pour faire progresser le TAL financier ancré linguistiquement et culturellement. Tous les jeux de données et scripts d'évaluation sont publiés publiquement.
La métaphore visuelle constitue une forme supérieure de créativité humaine, employant une fusion sémantique transdomaine pour transformer des concepts abstraits en une rhétorique visuelle percutante. Malgré les progrès remarquables de l'IA générative, les modèles existants restent largement confinés à l'alignement sur des instructions au niveau pixeliel et à la préservation d'apparences superficielles, échouant à capturer la logique abstraite sous-jacente nécessaire à une véritable génération métaphorique. Pour combler cette lacune, nous introduisons la tâche de Transfert de Métaphore Visuelle (VMT), qui défie les modèles à découpler autonome-ment "l'essence créative" d'une image de référence et à re-matérialiser cette logique abstraite sur un sujet cible spécifié par l'utilisateur. Nous proposons un cadre multi-agent inspiré par la cognition qui opérationnalise la Théorie de l'Intégration Conceptuelle (CBT) via une nouvelle Grammaire de Schéma ("G"). Cette représentation structurée découple les invariants relationnels des entités visuelles spécifiques, fournissant une base rigoureuse pour la ré-instanciation logique transdomaine. Notre pipeline exécute le VMT via un système collaboratif d'agents spécialisés : un agent de perception qui distille la référence en un schéma, un agent de transfert qui préserve l'invariance de l'espace générique pour découvrir des porteurs appropriés, un agent de génération pour la synthèse haute fidélité et un agent de diagnostic hiérarchique qui imite un critique professionnel, effectuant une rétroaction en boucle fermée pour identifier et rectifier les erreurs au niveau de la logique abstraite, de la sélection des composants et de l'encodage des prompts. Des expériences approfondies et des évaluations humaines démontrent que notre méthode surpasse significativement les bases de référence de l'état de l'art en cohérence métaphorique, pertinence analogique et créativité visuelle, ouvrant la voie à des applications créatives automatisées à fort impact dans la publicité et les médias. Le code source sera rendu public.
Les modèles de langage multimodaux (MLLM) ont obtenu un succès remarquable dans les tâches perceptives à vocabulaire ouvert, mais leur capacité à résoudre des problèmes cognitifs complexes reste limitée, particulièrement lorsque les détails visuels sont abstraits et nécessitent une mémoire visuelle. Les approches actuelles augmentent principalement le raisonnement en chaîne de pensées (CoT) dans l'espace textuel, même lorsque le langage seul est insuffisant pour un raisonnement clair et structuré, et négligent largement les mécanismes de raisonnement visuel analogues au calepin visuospatial humain et à l'imagerie mentale visuelle. Pour pallier cette lacune, nous introduisons la Supersensation Cognitive, un nouveau paradigme d'entraînement qui dote les MLLM de capacités d'imagerie visuelle semblables à celles des humains en intégrant une tête de prédiction d'imagerie visuelle latente (LVIP) qui apprend conjointement des séquences d'incorporations latentes visuocognitives et les aligne avec la réponse, formant ainsi des chaînes de raisonnement internes basées sur la vision. Nous introduisons en outre une étape d'apprentissage par renforcement qui optimise les chemins de raisonnement textuel sur la base de ce latent visuel ancré. Pour évaluer les capacités cognitives des MLLM, nous présentons CogSense-Bench, un benchmark complet de question-réponse visuelle (VQA) évaluant cinq dimensions cognitives. Des expériences approfondies démontrent que les MLLM entraînés avec la Supersensation Cognitive surpassent significativement les meilleures méthodes de référence sur CogSense-Bench et présentent une généralisation supérieure sur des benchmarks VQA de mathématiques et sciences hors domaine, suggérant que l'imagerie visuelle interne est potentiellement clé pour combler l'écart entre la reconnaissance perceptive et la compréhension cognitive. Nous ouvrirons en accès libre CogSense-Bench et les poids de notre modèle.
Les modèles génératifs récents ont accompli des progrès remarquables en matière d'édition d'images. Cependant, les systèmes et benchmarks existants restent largement guidés par le texte. En revanche, la communication humaine est intrinsèquement multimodale, où des instructions visuelles telles que des esquisses transmettent efficacement une intention spatiale et structurelle. Pour combler cette lacune, nous présentons VIBE, le Benchmark d'Instruction Visuelle pour l'Édition d'Images, avec une hiérarchie d'interaction à trois niveaux qui capture l'ancrage déictique, la manipulation morphologique et le raisonnement causal. À travers ces niveaux, nous constituons des cas de test de haute qualité et diversifiés qui reflètent une complexité progressivement croissante dans le suivi d'instructions visuelles. Nous proposons en outre un cadre d'évaluation robuste de type LMM-comme-juge avec des métriques spécifiques aux tâches pour permettre une évaluation évolutive et fine. Grâce à une évaluation complète de 17 modèles d'édition d'images représentatifs, open-source et propriétaires, nous constatons que les modèles propriétaires présentent des capacités précoces de suivi d'instructions visuelles et surpassent systématiquement les modèles open-source. Cependant, les performances se dégradent notablement avec l'augmentation de la difficulté des tâches, même pour les systèmes les plus performants, ce qui met en lumière des pistes prometteuses pour la recherche future.
La génération d'avatars parlants est une tâche fondamentale dans la génération vidéo. Bien que les méthodes existantes puissent générer des avatars parlants en pied avec des mouvements humains simples, l'extension de cette tâche à l'interaction humain-objet ancrée (GHOI) reste un défi ouvert, nécessitant que l'avatar effectue des interactions alignées sur le texte avec les objets environnants. Ce défi découle du besoin de perception environnementale et du dilemme contrôle-qualité dans la génération GHOI. Pour y remédier, nous proposons une nouvelle architecture à double flux, InteractAvatar, qui découple la perception et la planification de la synthèse vidéo pour l'interaction humain-objet ancrée. Tirant parti de la détection pour améliorer la perception environnementale, nous introduisons un Module de Perception et d'Interaction (PIM) pour générer des mouvements d'interaction alignés sur le texte. De plus, un Module de Génération Sensible à l'Audio-Interaction (AIM) est proposé pour synthétiser des avatars parlants vivants effectuant des interactions avec des objets. Grâce à un aligneur mouvement-vidéo spécialement conçu, le PIM et l'AIM partagent une structure de réseau similaire et permettent une co-génération parallèle des mouvements et de vidéos plausibles, atténuant efficacement le dilemme contrôle-qualité. Enfin, nous établissons un benchmark, GroundedInter, pour évaluer la génération de vidéos GHOI. Des expériences et comparaisons approfondies démontrent l'efficacité de notre méthode pour générer des interactions humain-objet ancrées pour des avatars parlants. Page du projet : https://interactavatar.github.io
Les modèles de récompense standards prédisent généralement des scores scalaires qui ne parviennent pas à capturer la nature multidimensionnelle de la qualité des réponses dans des domaines non vérifiables, tels que l'écriture créative ou l'exécution d'instructions ouvertes. Pour remédier à cette limitation, nous proposons Rubric-ARM, un cadre qui optimise conjointement un générateur de grille d'évaluation et un évaluateur en utilisant l'apprentissage par renforcement à partir de retours de préférence. Contrairement aux méthodes existantes qui reposent sur des grilles statiques ou des pipelines d'entraînement disjoints, notre approche traite la génération de grilles comme une action latente apprise pour maximiser la précision du jugement. Nous introduisons une stratégie d'optimisation alternée pour atténuer la non-stationnarité des mises à jour simultanées, en fournissant une analyse théorique qui démontre comment cette planification réduit la variance du gradient pendant l'entraînement. Des expériences approfondies montrent que Rubric-ARM atteint des performances de pointe parmi les méthodes de référence sur plusieurs benchmarks et améliore significativement l'alignement des politiques en aval dans des contextes d'apprentissage par renforcement hors ligne et en ligne.
Les agents informatiques (Computer-Using Agents, CUA) visent à utiliser de manière autonome les systèmes informatiques pour accomplir des tâches du monde réel. Cependant, les systèmes agentiques existants restent difficiles à mettre à l'échelle et leurs performances sont inférieures à celles des humains. Une limitation clé est l'absence d'abstractions de compétences structurées et réutilisables qui capturent la manière dont les humains interagissent avec les interfaces graphiques et comment exploiter ces compétences. Nous présentons CUA-Skill, une base de compétences pour agents informatiques qui encode les connaissances humaines en matière d'utilisation de l'ordinateur sous forme de compétences couplées à des graphes d'exécution paramétrés et de composition. CUA-Skill est une bibliothèque à grande échelle de compétences soigneusement conçues couvrant les applications Windows courantes, servant d'infrastructure pratique et de substrat d'outils pour le développement d'agents évolutifs et fiables. Sur la base de cette bibliothèque de compétences, nous construisons CUA-Skill Agent, un agent informatique de bout en bout qui prend en charge la récupération dynamique des compétences, l'instanciation des arguments et la récupération après erreur avec mémoire contextuelle. Nos résultats démontrent que CUA-Skill améliore considérablement les taux de réussite d'exécution et la robustesse sur des benchmarks agentiques de bout en bout exigeants, établissant une base solide pour le futur développement des agents informatiques. Sur WindowsAgentArena, CUA-Skill Agent atteint un taux de réussite record de 57,5 % (meilleur de trois essais) tout en étant significativement plus efficace que les approches antérieures et concurrentes. La page du projet est disponible à l'adresse https://microsoft.github.io/cua_skill/.
Les méthodes de contrôle des grands modèles de langage (LLM), incluant le fine-tuning local des poids, l'adaptation basée sur LoRA et les interventions par activation, sont souvent étudiées isolément, occultant leurs liens et rendant les comparaisons difficiles. Dans ce travail, nous présentons une vision unifiée qui cadre ces interventions comme des mises à jour dynamiques des poids induites par un signal de contrôle, les plaçant dans un cadre conceptuel unique. Sur cette base, nous proposons une analyse préférence-utilité unifiée qui sépare les effets de contrôle entre la préférence, définie comme la tendance vers un concept cible, et l'utilité, définie comme une génération cohérente et valide pour la tâche, en mesurant les deux sur une échelle commune de log-odds à l'aide d'exemples contrastifs à polarité opposée. Pour toutes les méthodes, nous observons un compromis constant entre préférence et utilité : un contrôle plus fort augmente la préférence tout en réduisant l'utilité de manière prévisible. Nous expliquons en outre ce comportement par une perspective des variétés d'activation, où le contrôle décale les représentations le long des directions du concept cible pour renforcer la préférence, tandis que l'utilité décline principalement lorsque les interventions poussent les représentations hors de la variété de génération valide du modèle. Enfin, nous introduisons une nouvelle approche de pilotage, SPLIT, guidée par cette analyse, qui améliore la préférence tout en préservant mieux l'utilité. Le code est disponible à l'adresse https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.
Dans cet article, nous identifions un sous-système de récompense éparse au sein des états cachés des grands modèles de langage (LLM), en établissant une analogie avec le sous-système de récompense biologique du cerveau humain. Nous démontrons que ce sous-système contient des neurones de valeur qui représentent l'espérance interne du modèle concernant la valeur d'un état, et grâce à des expériences d'intervention, nous établissons l'importance de ces neurones pour le raisonnement. Nos expériences révèlent que ces neurones de valeur sont robustes sur divers jeux de données, échelles de modèles et architectures ; de plus, ils présentent une transférabilité significative entre différents jeux de données et modèles affinés à partir du même modèle de base. En examinant les cas où les prédictions de valeur et les récompenses réelles divergent, nous identifions des neurones dopaminergiques au sein du sous-système de récompense qui codent les erreurs de prédiction de la récompense (RPE). Ces neurones présentent une activation élevée lorsque la récompense est supérieure aux attentes et une activation faible lorsque la récompense est inférieure aux attentes.
Les progrès récents en raisonnement visuel ont exploité les transformers visionnels pour aborder le benchmark ARC-AGI. Cependant, nous soutenons que l'architecture feed-forward, où la profondeur computationnelle est strictement liée à la taille des paramètres, ne parvient pas à capturer la nature itérative et algorithmique de l'induction humaine. Dans ce travail, nous proposons une architecture récursive appelée Loop-ViT, qui découple la profondeur de raisonnement de la capacité du modèle via une récurrence à poids partagés. Loop-ViT itère un Bloc Hybride à poids partagés, combinant des convolutions locales et une attention globale, pour former une chaîne de pensée latente. Plus crucial encore, nous introduisons un mécanisme de Sortie Dynamique sans paramètre basé sur l'entropie prédictive : le modèle interrompt l'inférence lorsque son état interne se « cristallise » en un attracteur à faible incertitude. Les résultats empiriques sur le benchmark ARC-AGI-1 valident cette perspective : notre modèle de 18 millions de paramètres atteint une précision de 65,8 %, surpassant des ensembles massifs de 73 millions de paramètres. Ces résultats démontrent que le calcul itératif adaptatif offre un axe de mise à l'échelle bien plus efficace pour le raisonnement visuel que la simple augmentation de la largeur du réseau. Le code est disponible à l'adresse https://github.com/WenjieShu/LoopViT.
Les grands modèles de langage (LLM) ont démontré d'importantes capacités de raisonnement grâce à l'approche séquentielle de la chaîne de pensée (CoT). Néanmoins, aux limites de leurs capacités, la méthode CoT s'avère souvent insuffisante, et sa nature strictement séquentielle limite son extensibilité lors des tests. Une alternative potentielle est le raisonnement par division et conquête (DAC), qui décompose un problème complexe en sous-problèmes pour faciliter une exploration plus efficace de la solution. Bien que prometteuse, notre analyse révèle un décalage fondamental entre l'inférence post-entraînement généraliste et le style DAC, limitant la capacité du modèle à exploiter pleinement ce potentiel. Pour combler cet écart et libérer entièrement les capacités de raisonnement des LLM sur les tâches les plus difficiles, nous proposons un cadre d'apprentissage par renforcement (RL) de bout en bout pour améliorer leur capacité de raisonnement de type DAC. À chaque étape, la politique décompose un problème en un groupe de sous-problèmes, les résout séquentiellement, et traite le problème initial en fonction des solutions des sous-problèmes, l'intégration de la décomposition et de la solution étant incluse dans l'entraînement par RL. Avec un entraînement comparable, notre cadre de style DAC dote le modèle d'un plafond de performance plus élevé et d'une extensibilité accrue lors des tests, surpassant la méthode CoT de 8,6 % en Pass@1 et de 6,3 % en Pass@32 sur des benchmarks de niveau compétitif.
La génération texte-image (T2I) a réalisé des progrès remarquables, mais les méthodes existantes manquent souvent de la capacité à raisonner et à raffiner dynamiquement pendant la génération – une caractéristique de la créativité humaine. Les paradigmes actuels augmentés par le raisonnement reposent principalement sur des processus de pensée explicites, où le raisonnement intermédiaire est décodé en texte discret à des étapes fixes avec un décodage et un ré-encodage fréquents de l'image, entraînant des inefficacités, une perte d'information et des inadéquations cognitives. Pour combler cette lacune, nous présentons LatentMorph, un nouveau cadre qui intègre de manière transparente un raisonnement latent implicite dans le processus de génération T2I. Au cœur de LatentMorph se trouvent quatre composants légers : (i) un condenseur pour résumer les états de génération intermédiaires en une mémoire visuelle compacte, (ii) un traducteur pour convertir les pensées latentes en guidance actionnable, (iii) un façonneur pour orienter dynamiquement les prédictions des prochains tokens d'image, et (iv) un invoqueur entraîné par RL pour déterminer de manière adaptive quand invoquer le raisonnement. En effectuant le raisonnement entièrement dans des espaces latents continus, LatentMorph évite les goulots d'étranglement du raisonnement explicite et permet un auto-raffinement plus adaptatif. Des expériences approfondies démontrent que LatentMorph (I) améliore le modèle de base Janus-Pro de 16% sur GenEval et de 25% sur T2I-CompBench ; (II) surpasse les paradigmes explicites (par exemple, TwiG) de 15% et 11% sur des tâches de raisonnement abstrait comme WISE et IPV-Txt, (III) tout en réduisant le temps d'inférence de 44% et la consommation de tokens de 51% ; et (IV) présente un alignement cognitif de 71% avec l'intuition humaine sur l'invocation du raisonnement.
La capacité des agents d'IA à traiter efficacement des tâches de durée et de complexité croissantes continue de progresser, démontrant des performances exceptionnelles dans les évaluations de codage, de recherche approfondie et de résolution de problèmes complexes. Cependant, dans les scénarios quotidiens, la perception de ces capacités avancées d'IA parmi les utilisateurs grand public reste limitée. Nous soutenons que les évaluations actuelles privilégient l'augmentation de la difficulté des tâches sans aborder suffisamment la diversité des tâches agentielles nécessaires pour couvrir les activités quotidiennes de travail, de vie et d'apprentissage d'une large démographie. Pour remédier à cela, nous proposons AgentIF-OneDay, visant à déterminer si les utilisateurs grand public peuvent utiliser des instructions en langage naturel et des agents d'IA pour accomplir un éventail diversifié de tâches quotidiennes. Ces tâches nécessitent non seulement de résoudre des problèmes par le dialogue, mais aussi de comprendre divers types de pièces jointes et de fournir des résultats tangents sous forme de fichiers. Le benchmark est structuré autour de trois catégories centrées sur l'utilisateur : l'Exécution de Workflow Ouvert, qui évalue le respect de workflows explicites et complexes ; l'Instruction Latente, qui exige que les agents infèrent des instructions implicites à partir de pièces jointes ; et le Raffinement Itératif, qui implique de modifier ou d'enrichir un travail en cours. Nous utilisons des grilles d'évaluation au niveau de l'instance et un pipeline d'évaluation raffiné qui aligne la vérification basée sur les LLM avec le jugement humain, atteignant un taux de concordance de 80,1 % avec Gemini-3-Pro. AgentIF-OneDay comprend 104 tâches couvrant 767 points d'évaluation. Nous avons évalué quatre agents d'IA généralistes leaders et constaté que les produits agents construits sur des API et les agents ChatGPT basés sur l'apprentissage par renforcement agentiel se maintiennent simultanément dans le premier tier. Les API de LLM leaders et les modèles open source ont internalisé des capacités agentielles, permettant aux équipes d'applications d'IA de développer des produits Agent à la pointe.
Alors que les agents basés sur LLM sont déployés dans des environnements réels de plus en plus complexes, les benchmarks existants sous-représentent des défis clés tels que l'application de contraintes globales, la coordination de raisonnements multi-outils et l'adaptation à l'évolution du comportement utilisateur lors d'interactions longues et multi-tours. Pour combler cette lacune, nous présentons TRIP-Bench, un benchmark à long horizon ancré dans des scénarios réalistes de planification de voyage. TRIP-Bench s'appuie sur des données réelles, propose 18 outils sélectionnés et plus de 40 exigences de voyage, et prend en charge l'évaluation automatisée. Il inclut des jeux de données de difficulté variable ; le jeu difficile met l'accent sur des interactions longues et ambiguës, des changements de style, des évolutions de faisabilité et des révisions itératives de versions. Les dialogues peuvent s'étendre jusqu'à 15 tours utilisateur, impliquer plus de 150 appels d'outils et dépasser 200 000 tokens de contexte. Les expériences montrent que même les modèles avancés n'atteignent au maximum que 50 % de réussite sur le jeu facile, avec une performance tombant en dessous de 10 % sur les sous-ensembles difficiles. Nous proposons en outre GTPO, une méthode d'apprentissage par renforcement en ligne multi-tours avec une normalisation de récompense spécialisée et un différenciel de récompense. Appliquée à Qwen2.5-32B-Instruct, GTPO améliore la satisfaction des contraintes et la robustesse des interactions, surpassant Gemini-3-Pro dans notre évaluation. Nous espérons que TRIP-Bench fera progresser les agents interactifs pratiques à long horizon, et que GTPO fournira une recette efficace de RL en ligne pour un entraînement robuste sur des horizons longs.
Les modèles de flow matching (FM) ont révolutionné la génération texte-image (T2I), l'apprentissage par renforcement (RL) constituant une stratégie d'après-entraînement cruciale pour l'alignement sur des objectifs de récompense. Dans cette recherche, nous montrons que les pipelines RL actuels pour les FM souffrent de deux limitations sous-estimées mais importantes : une inefficacité d'échantillonnage due à une diversité de génération insuffisante, et un sur-apprentissage prononcé aux prompts, où les modèles mémorisent des formulations d'entraînement spécifiques et subissent un effondrement dramatique des performances lorsqu'ils sont évalués sur des prompts sémantiquement équivalents mais stylistiquement variés. Nous présentons PromptRL (Prompt Matters in RL for Flow-Based Image Generation), un cadre qui intègre des modèles de langage (LM) en tant qu'agents d'affinement de prompts entraînables directement dans la boucle d'optimisation RL basée sur les flows. Cette conception offre deux avantages complémentaires : le développement rapide de capacités sophistiquées de réécriture de prompts et, surtout, un régime d'entraînement synergique qui remodelle la dynamique d'optimisation. PromptRL atteint des performances de pointe sur plusieurs benchmarks, obtenant des scores de 0,97 sur GenEval, 0,98 sur la précision OCR et 24,05 sur PickScore. De plus, nous validons l'efficacité de notre approche RL sur des modèles d'édition d'image à grande échelle, améliorant l'EditReward de FLUX.1-Kontext de 1,19 à 1,43 avec seulement 0,06 million de rollouts, surpassant Gemini 2.5 Flash Image (également connu sous le nom de Nano Banana), qui obtient 1,37, et atteignant des performances comparables à ReasonNet (1,44), lequel reposait sur des annotations de données fines et un entraînement multi-étapes complexe. Nos expériences approfondies démontrent empiriquement que PromptRL atteint systématiquement des plafonds de performance plus élevés tout en nécessitant plus de 2 fois moins de rollouts qu'une approche RL naïve basée uniquement sur les flows. Notre code est disponible à l'adresse https://github.com/G-U-N/UniRL.
Les autoencodeurs parcimonieux (SAE) sont apparus comme une méthode prometteuse pour interpréter les représentations des réseaux neuronaux en décomposant les activations en combinaisons parcimonieuses d'atomes de dictionnaire. Cependant, les SAE supposent que les caractéristiques se combinent de manière additive via une reconstruction linéaire, une hypothèse qui ne peut pas capturer la structure compositionnelle : les modèles linéaires ne peuvent pas distinguer si "Starbucks" provient de la composition des caractéristiques "star" et "café" ou simplement de leur co-occurrence. Cela force les SAE à allouer des caractéristiques monolithiques pour les concepts composés plutôt que de les décomposer en constituants interprétables. Nous présentons PolySAE, qui étend le décodeur SAE avec des termes d'ordre supérieur pour modéliser les interactions entre caractéristiques tout en préservant l'encodeur linéaire essentiel à l'interprétabilité. Grâce à une factorisation tensorielle de faible rang sur un sous-espace de projection partagé, PolySAE capture les interactions par paires et triples entre caractéristiques avec une faible surcharge paramétrique (3% sur GPT2). Sur quatre modèles de langage et trois variantes de SAE, PolySAE obtient une amélioration moyenne d'environ 8% du F1 en probing tout en maintenant une erreur de reconstruction comparable, et produit des distances de Wasserstein 2 à 10 fois plus grandes entre les distributions conditionnelles de caractéristiques par classe. Fait crucial, les poids d'interaction appris présentent une corrélation négligeable avec la fréquence de co-occurrence (r = 0,06 contre r = 0,82 pour la covariance des caractéristiques SAE), suggérant que les termes polynomiaux capturent la structure compositionnelle, telle que la liaison morphologique et la composition phrastique, largement indépendante des statistiques de surface.
Les grands modèles de raisonnement (LRM) bénéficient considérablement d'un entraînement sur des questions difficiles de niveau concours. Cependant, les méthodes existantes de synthèse automatisée de questions manquent de contrôle précis de la difficulté, entraînent des coûts de calcul élevés et peinent à générer à grande échelle des questions de niveau compétition. Dans cet article, nous proposons CoDiQ (Génération de Questions à Difficulté Contrôlable), un nouveau cadre permettant un contrôle fin de la difficulté via un ajustement au moment du test tout en garantissant la résolubilité des questions. Plus précisément, nous identifions d'abord une tendance d'ajustement au moment du test (un budget de tokens de raisonnement étendu augmente la difficulté mais réduit la résolubilité) et les propriétés intrinsèques définissant la limite supérieure de la capacité d'un modèle à générer des questions valides et difficiles. Ensuite, nous développons CoDiQ-Generator à partir de Qwen3-8B, qui améliore la limite supérieure de génération de questions difficiles, le rendant particulièrement adapté à la construction de questions complexes. Sur la base du cadre CoDiQ, nous constituons CoDiQ-Corpus (44 000 séquences de questions de niveau compétition). Les évaluations humaines montrent que ces questions sont significativement plus difficiles que celles de LiveCodeBench/AIME tout en maintenant une résolubilité supérieure à 82 %. L'entraînement de LRM sur CoDiQ-Corpus améliore substantiellement les performances en raisonnement, confirmant qu'augmenter le nombre de questions d'entraînement à difficulté contrôlée renforce les capacités de raisonnement. Nous ouvrons en accès libre CoDiQ-Corpus, CoDiQ-Generator et les implémentations pour soutenir la recherche connexe.
Le déploiement de modèles de langage de parole modernes (SpeechLMs) dans des contextes de streaming nécessite des systèmes offrant une faible latence, un débit élevé et de solides garanties de fluidité. Les systèmes existants ne parviennent pas à prendre en charge de manière flexible et efficace une diversité de modèles. Nous présentons VoxServe, un système de service unifié pour les SpeechLMs qui optimise les performances en streaming. VoxServe introduit une abstraction de l'exécution des modèles qui découple l'architecture du modèle des optimisations au niveau du système, permettant ainsi la prise en charge de diverses architectures SpeechLM dans un cadre unique. S'appuyant sur cette abstraction, VoxServe met en œuvre un ordonnancement adapté au streaming et un pipeline d'inférence asynchrone pour améliorer l'efficacité de bout en bout. Les évaluations sur plusieurs SpeechLMs modernes montrent que VoxServe atteint un débit 10 à 20 fois supérieur à celui des implémentations existantes pour une latence comparable, tout en maintenant une grande viabilité du streaming. Le code de VoxServe est disponible à l'adresse https://github.com/vox-serve/vox-serve.
La séparation sonore universelle basée sur des requêtes est fondamentale pour les systèmes auditifs intelligents, visant à isoler des sources spécifiques à partir de mélanges. Malgré les progrès récents, les méthodes existantes continuent de souffrir d'interférences résiduelles dans les scènes acoustiques complexes. Cette limitation de performance découle largement d'un goulot d'étranglement lié aux données : les ensembles de données « in-the-wild » contiennent des étiquettes faibles et une co-occurrence sévère d'événements. Ces défauts amènent les modèles à apprendre des corrélations fallacieuses entre le bruit de fond et les catégories cibles, plutôt que des caractéristiques acoustiques robustes. Pour remédier à cela, nous proposons une pipeline automatisée qui élimine la co-occurrence d'événements en extrayant des segments à événement unique de haute pureté à partir d'ensembles de données « in-the-wild » via un protocole de synthèse sémantiquement cohérent. En utilisant cette pipeline, nous avons construit Hive, un ensemble de données synthétiques de haute qualité comprenant 2,4k heures d'audio brut. Les résultats expérimentaux démontrent que, par rapport au modèle state-of-the-art SAM-Audio qui a été entraîné sur un énorme ensemble de données environ 500 fois plus grand que Hive, certains modèles open-source entraînés sur Hive atteignent une précision de séparation et une qualité perceptive compétitives. De plus, ces modèles ont montré une généralisation zero-shot remarquable sur des benchmarks d'évaluation hors distribution. Ces résultats soulignent que la priorisation de la pureté des signaux supervisés permet une efficacité significative des données, offrant un nouveau paradigme pour l'entraînement de modèles de fondation auditifs robustes avec des coûts de calcul réduits. Le code et l'ensemble de données sont disponibles à l'adresse https://shandaai.github.io/Hive.
Les modèles de langage multimodaux (MLLM) souffrent de coûts computationnels élevés dus à un nombre excessif de tokens visuels, particulièrement dans les scénarios haute résolution et vidéo. Les méthodes existantes de réduction de tokens se concentrent généralement sur des composants isolés du pipeline et négligent souvent l'alignement textuel, entraînant une dégradation des performances. Dans cet article, nous proposons VisionTrim, un cadre unifié d'accélération des MLLM sans entraînement, intégrant deux modules plug-and-play efficaces : 1) le module de sélection des tokens visuels dominants (DVTS), qui préserve les tokens visuels essentiels via une vue globale-locale, et 2) le module de complément visuel guidé par le texte (TGVC), qui facilite la fusion contextuelle des tokens guidée par des indices textuels. Des expériences approfondies sur divers benchmarks multimodaux d'images et de vidéos démontrent la supériorité des performances de notre VisionTrim, faisant progresser le déploiement pratique des MLLM dans des applications réelles. Le code est disponible à l'adresse : https://github.com/hanxunyu/VisionTrim.
Les modèles de monde apprennent une représentation interne de la dynamique de l'environnement, permettant aux agents de simuler et de raisonner sur les états futurs dans un espace latent compact pour des tâches telles que la planification, la prédiction et l'inférence. Cependant, l'exécution des modèles de monde repose sur un coût computationnel et une empreinte mémoire importants, rendant la quantification des modèles essentielle pour un déploiement efficace. À ce jour, les effets de la quantification post-entraînement (PTQ) sur les modèles de monde restent largement inexplorés. Dans ce travail, nous présentons une étude empirique systématique de la quantification des modèles de monde en utilisant DINO-WM comme cas représentatif, évaluant diverses méthodes PTQ dans des configurations de quantification des poids uniquement et conjointe poids-activations. Nous menons des expériences approfondies sur différentes tâches de planification visuelle couvrant une large gamme de précisions binaires, de granularités de quantification et d'horizons de planification allant jusqu'à 50 itérations. Nos résultats montrent que les effets de la quantification dans les modèles de monde vont au-delà des compromis standards entre précision et nombre de bits : la quantification groupée des poids peut stabiliser les déploiements en basse précision, la granularité de quantification des activations offre des bénéfices inconstants, et la sensibilité à la quantification est fortement asymétrique entre les modules encodeur et prédicteur. De plus, une quantification agressive en basse précision dégrade significativement l'alignement entre l'objectif de planification et la réussite de la tâche, entraînant des échecs qui ne peuvent être corrigés par une optimisation supplémentaire. Ces résultats révèlent des modes d'échec distincts induits par la quantification dans la planification basée sur les modèles de monde et fournissent des conseils pratiques pour le déploiement de modèles de monde quantifiés sous contraintes computationnelles strictes. Le code sera disponible à l'adresse https://github.com/huawei-noah/noah-research/tree/master/QuantWM.
Les grands modèles de langage (LLM) sont largement utilisés comme évaluateurs sans référence par simple prompting, mais ce paradigme du "LLM-en-tant-que-juge" est coûteux, opaque et sensible à la conception des prompts. Dans ce travail, nous étudions si des modèles plus petits peuvent servir d'évaluateurs efficaces en exploitant leurs représentations internes plutôt que la génération de texte de surface. Nous mettons en évidence un schéma empirique constant : les petits modèles de langage, bien que dotés d'une faible capacité générative, encodent des signaux évaluatifs riches dans leurs états cachés. Cela nous motive à proposer l'Hypothèse d'Asymétrie de Capacité Sémantique : l'évaluation requiert une capacité sémantique significativement moindre que la génération et peut être ancrée dans des représentations intermédiaires, suggérant que l'évaluation n'a pas nécessairement besoin de s'appuyer sur de grands modèles génératifs mais peut plutôt exploiter les caractéristiques latentes de modèles plus petits. Nos résultats motivent un changement de paradigme, passant du "LLM-en-tant-que-juge" à la "Représentation-en-tant-que-juge", une stratégie d'évaluation sans déco-dage qui sonde la structure interne du modèle plutôt que de s'appuyer sur une sortie générée par prompt. Nous concrétisons ce paradigme via INSPECTOR, un framework basé sur le probing qui prédit les scores d'évaluation par aspect à partir des représentations de petits modèles. Les expériences sur des benchmarks de raisonnement (GSM8K, MATH, GPQA) montrent qu'INSPECTOR surpasse substantiellement les petits LLM basés sur le prompting et se rapproche des performances des juges LLM complets, tout en offrant une alternative plus efficace, fiable et interprétable pour une évaluation scalable.
L'agence attendue des modèles de langage de grande taille agentiques va au-delà de la simple capacité à répondre correctement, exigeant une autonomie pour définir des objectifs et décider des pistes à explorer. Nous qualifions cette capacité d'**intelligence investigatrice**, la distinguant ainsi de l'**intelligence exécutive**, qui se contente d'accomplir des tâches assignées. La science des données offre un terrain d'évaluation naturel, puisque l'analyse en conditions réelles part de données brutes plutôt que de requêtes explicites, mais peu de benchmarks s'y concentrent. Pour remédier à cela, nous présentons **Deep Data Research (DDR)**, une tâche ouverte où les LLM extraient de manière autonome des insights clés de bases de données, et **DDR-Bench**, un benchmark à grande échelle basé sur des listes de contrôle permettant une évaluation vérifiable. Les résultats montrent que si les modèles de pointe font preuve d'une agence émergente, l'exploration sur le long terme reste un défi. Notre analyse souligne qu'une intelligence investigatrice efficace dépend non seulement de l'échafaudage agentique ou d'un simple passage à l'échelle, mais aussi des stratégies intrinsèques des modèles agentiques.
Les grands modèles de vision et de langage (LVLM) obtiennent de bonnes performances sur les tâches à image unique, mais leurs résultats déclinent lorsqu’on leur fournit plusieurs images en entrée. Une raison majeure est la fuite d’information inter-images, où le modèle peine à distinguer les informations provenant de différentes images. Les LVLM existants utilisent déjà des tokens délimiteurs pour marquer le début et la fin de chaque image, mais notre analyse révèle que ces tokens ne parviennent pas à bloquer efficacement cette fuite. Pour renforcer leur efficacité, nous proposons une méthode qui met à l’échelle les états cachés des tokens délimiteurs. Cela améliore la capacité du modèle à préserver les informations spécifiques à chaque image en renforçant les interactions intra-image et en limitant les interactions inter-images indésirables. Par conséquent, le modèle distingue mieux les images et raisonne plus précisément sur celles-ci. Les expériences montrent des gains de performance sur des benchmarks multi-images tels que Mantis, MuirBench, MIRB et QBench2. Nous évaluons également notre méthode sur des tâches purement textuelles nécessitant une distinction claire. La méthode améliore les performances sur des benchmarks de compréhension multi-documents et multi-tableaux, incluant TQABench, MultiNews et WCEP-10. Fait notable, notre méthode ne nécessite aucun coût supplémentaire d’entraînement ou d’inférence.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a démontré un potentiel considérable pour améliorer la capacité de raisonnement des grands modèles de langage (LLM). Cependant, en raison de la quantité limitée d'informations fournies pendant le processus RLVR, le modèle ne peut procéder qu'à une exploration largement aveugle, ce qui entraîne souvent un échec sur des problèmes complexes. Pour fournir des informations supplémentaires au processus RLVR sans dépendre d'un modèle enseignant, nous proposons A²D, une méthode de Décomposition Adaptative des Abilités visant à améliorer l'efficacité du RLVR. Plus précisément, nous commençons par entraîner un décomposeur via du RLVR sans distillation, lui permettant de décomposer des questions complexes en un ensemble de sous-questions plus simples. Ensuite, nous utilisons ce décomposeur pour annoter les sous-questions de chaque question dans l'ensemble de données d'entraînement, puis nous entraînons le raisonneur sous RLVR avec le guidage des sous-questions. Pour mieux comprendre A²D, nous comparons d'abord ses performances avec des bases de référence compétitives, démontrant ainsi son efficacité. Ensuite, nous observons que notre méthode fonctionne comme un module prêt-à-l'emploi qui peut être appliqué à différents algorithmes RLVR. De plus, nous menons une analyse du décomposeur, révélant comment le processus RLVR affecte ses performances et son comportement, et quel type de guidage est mieux adapté pour améliorer les capacités d'exploration et d'exploitation du raisonneur.
La cartographie 3D de lignes à partir d'images RVB multi-vues fournit une représentation visuelle compacte et structurée des scènes. Nous étudions ce problème d'un point de vue physique et topologique : une ligne 3D émerge naturellement comme l'arête d'une plaque plane 3D finie. Nous présentons LiP-Map, un cadre d'optimisation conjointe lignes-plans qui modélise explicitement des primitives apprenables de lignes et de plans. Ce couplage permet une cartographie 3D de lignes précise et détaillée tout en maintenant une forte efficacité (reconstruction généralement achevée en 3 à 5 minutes par scène). LiP-Map innove en intégrant la topologie planaire dans la cartographie de lignes 3D, non pas en imposant des contraintes de coplanarité par paires, mais en construisant explicitement des interactions entre les primitives planes et linéaires, offrant ainsi une voie rigoureuse vers une reconstruction structurée dans les environnements artificiels. Sur plus de 100 scènes de ScanNetV2, ScanNet++, Hypersim, 7Scenes et Tanks\&Temple, LiP-Map améliore à la fois la précision et l'exhaustivité par rapport aux méthodes de l'état de l'art. Au-delà de la qualité de cartographie des lignes, LiP-Map améliore significativement la localisation visuelle assistée par lignes, établissant des performances solides sur 7Scenes. Notre code est publié à https://github.com/calmke/LiPMAP pour une recherche reproductible.
Des travaux récents ont montré que l'élagage de couches peut comprimer les grands modèles de langage (LLM) tout en conservant de bonnes performances sur des benchmarks de classification avec peu ou pas de réglage fin. Cependant, les techniques d'élagage existantes subissent souvent une dégradation sévère sur les tâches de raisonnement génératif. Par une étude systématique sur plusieurs familles de modèles, nous constatons que les tâches nécessitant un raisonnement en plusieurs étapes sont particulièrement sensibles à la réduction de profondeur. Au-delà d'une dégénérescence superficielle du texte, nous observons une dégradation des capacités algorithmiques critiques, incluant le calcul arithmétique pour le raisonnement mathématique et la génération de parenthèses équilibrées pour la synthèse de code. Dans des contraintes réalistes de post-formation, sans accès à des données ou une puissance de calcul à l'échelle du pré-entraînement, nous évaluons une stratégie d'atténuation simple basée sur un réglage fin supervisé avec des Réponses Auto-Générées. Cette approche permet une récupération robuste sur les tâches de classification, conservant jusqu'à 90 % des performances de référence, et procure des gains substantiels allant jusqu'à 20-30 points de pourcentage sur les benchmarks génératifs par rapport aux techniques post-élagage antérieures. Fait crucial, malgré ces gains, la récupération pour le raisonnement génératif reste fondamentalement limitée par rapport aux tâches de classification et n'est viable principalement qu'à des taux d'élagage faibles. Globalement, nous caractérisons les limites pratiques de l'élagage de couches pour le raisonnement génératif et fournissons des conseils sur les conditions où la réduction de profondeur peut être appliquée efficacement sous des régimes de post-formation contraints.
La distillation des connaissances offre une voie prometteuse pour transférer les capacités de raisonnement des grands modèles enseignants vers des modèles étudiants efficients. Cependant, les méthodes existantes de distillation sur la politique au niveau des tokens nécessitent un alignement token par token entre les modèles étudiant et enseignant, ce qui restreint la capacité d'exploration du modèle étudiant, empêche une utilisation efficace des retours de l'environnement interactif et souffre de sévères goulots d'étranglement mémoire en apprentissage par renforcement. Nous introduisons la Distillation Verbale sur la Politique (OVD), un cadre efficace en mémoire qui remplace l'appariement des probabilités au niveau des tokens par un appariement des trajectoires utilisant des scores verbaux discrets (0–9) provenant des modèles enseignants. OVD réduit considérablement la consommation mémoire tout en permettant une distillation sur la politique à partir de modèles enseignants avec un retour verbal, et évite l'alignement au niveau des tokens, permettant au modèle étudiant d'explorer librement l'espace de sortie. Des expériences approfondies sur des tâches de question-réponse sur le Web et de raisonnement mathématique montrent qu'OVD surpasse substantiellement les méthodes existantes, offrant jusqu'à +12,9 % d'amélioration absolue de la moyenne EM sur les tâches de Q&R Web et un gain allant jusqu'à +25,7 % sur les benchmarks mathématiques (lorsqu'elle est entraînée avec seulement un échantillon aléatoire), tout en présentant une efficacité d'entraînement supérieure. Notre page projet est disponible à l'adresse https://OVD.github.io.
Le calcul au moment de l'inférence a refait surface comme une méthode pratique pour améliorer le raisonnement des grands modèles de langage. La plupart des algorithmes de mise à l'échelle au moment du test reposent sur un décodage autorégressif, qui est mal adapté aux modèles de langage à diffusion discrète en raison de leur décodage parallèle sur l'ensemble de la séquence. Par conséquent, le développement de méthodes de mise à l'échelle au moment du test efficaces et efficientes pour libérer le plein potentiel génératif des modèles de langage à diffusion discrète reste un défi peu exploré. Pour y remédier, nous proposons Prism (Méthode d'élagage, de remasquage et d'auto-vérification intégrée), un cadre efficace de mise à l'échelle au moment du test pour les modèles de langage à diffusion discrète qui (i) effectue une recherche hiérarchique de trajectoire qui élagage dynamiquement et réalloue le calcul dans une fenêtre de débruitage précoce à moyenne, (ii) introduit un branchement local avec remasquage partiel pour explorer des implémentations diverses tout en préservant les jetons à haute confiance, et (iii) remplace les vérificateurs externes par une rétroaction auto-vérifiée obtenue via des invites d'auto-évaluation sur des complétions intermédiaires. Sur quatre benchmarks de raisonnement mathématique et de génération de code avec trois modèles de langage à diffusion discrète, incluant LLaDA 8B Instruct, Dream 7B Instruct et LLaDA 2.0-mini, notre méthode Prism atteint un compromis performance-efficacité favorable, égalant les performances du meilleur-de-N avec un nombre d'évaluations de fonction substantiellement réduit. Le code est disponible à l'adresse https://github.com/viiika/Prism.
Si les grands modèles de langage (LLM) représentent une avancée majeure en intelligence artificielle, leurs coûts matériels et computationnels d'entraînement restent très lourds. Parmi les optimiseurs de pointe, AdamW s'appuie sur des estimations de courbure diagonale et ignore les propriétés structurelles, tandis que Muon applique une normalisation spectrale globale au prix d'une perte d'information sur la courbure. Dans cette étude, nous réexaminons les méthodes d'optimisation sur variétés pour l'entraînement des LLM, susceptibles de pallier les limites de ces deux approches, alors que les méthodes conventionnelles d'optimisation sur variétés ont été largement négligées en raison de leurs médiocres performances sur les modèles à grande échelle. En projetant innovamment la quantité de mouvement dans l'espace tangent des paramètres du modèle et en la contraignant sur une variété oblique rotationnelle, nous proposons **Mano**, un optimiseur novateur, puissant et efficace, premier à combler l'écart de performance entre l'optimisation sur variétés et les optimiseurs modernes. Des expériences approfondies sur les modèles LLaMA et Qwen3 montrent que Mano surpasse constamment et significativement AdamW et Muon, avec respectivement une consommation mémoire et une complexité computationnelle réduites, suggérant un élargissement de la frontière de Pareto en termes d'efficacité spatio-temporelle.
Les Transformers de Diffusion sont fondamentaux pour la génération vidéo et d'images, mais leur efficacité est limitée par la complexité quadratique de l'attention. Bien que l'attention parcimonieuse par blocs accélère les calculs en ne considérant que les blocs clés-valeurs critiques, elle souffre d'une dégradation à haute sparsité en éliminant du contexte. Dans ce travail, nous découvrons que les scores d'attention des blocs non critiques présentent une stabilité distributionnelle, permettant de les approximer de manière précise et efficace plutôt que de les ignorer, ce qui est essentiel pour la conception d'attention parcimonieuse. Motivés par cette intuition clé, nous proposons PISA, une attention parcimonieuse par morceaux (Piecewise Sparse Attention) ne nécessitant pas d'entraînement supplémentaire, qui couvre l'intégralité de la portée attentionnelle avec une complexité sous-quadratique. Contrairement au paradigme classique de conservation ou suppression qui élimine directement l'information des blocs non critiques, PISA introduit une nouvelle stratégie exacte ou approchée : elle maintient un calcul exact pour les blocs critiques tout en approximant efficacement le reste via un développement de Taylor par blocs. Cette conception permet à PISA de servir de proxy fidèle à l'attention complète, comblant efficacement l'écart entre vitesse et qualité. Les résultats expérimentaux démontrent que PISA atteint des accélérations respectives de 1,91 et 2,57 fois sur Wan2.1-14B et Hunyuan-Video, tout en maintenant constamment la qualité la plus élevée parmi les méthodes d'attention parcimonieuse. Fait notable, même pour la génération d'images sur FLUX, PISA réalise une accélération de 1,2 fois sans compromettre la qualité visuelle. Le code est disponible à l'adresse : https://github.com/xie-lab-ml/piecewise-sparse-attention.
Nous étudions la relation entre la géométrie des représentations et les performances des réseaux de neurones. En analysant 52 modèles pré-entraînés sur ImageNet couvrant 13 familles architecturales, nous montrons que la dimension effective — une mesure géométrique non supervisée — prédit fortement la précision. La dimension effective en sortie atteint un r partiel de 0,75 (p < 10^(-10)) après contrôle de la capacité du modèle, tandis que la compression totale atteint un r partiel de -0,72. Ces résultats se reproduisent sur ImageNet et CIFAR-10, et se généralisent au TAL : la dimension effective prédit les performances pour 8 modèles encodeurs sur SST-2/MNLI et 15 LLMs décodeurs uniquement sur AG News (r=0,69, p=0,004), contrairement à la taille du modèle (r=0,07). Nous établissons une causalité bidirectionnelle : la dégradation de la géométrie par du bruit entraîne une perte de précision (r=-0,94, p < 10^(-9)), tandis que l'amélioration de la géométrie par ACP maintient la précision across architectures (-0,03pp à 95% de variance). Cette relation est indépendante du type de bruit — les bruits gaussien, uniforme, d'abandon et poivre et sel montrent tous |r| > 0,90. Ces résultats établissent que la dimension effective fournit une information prédictive et causale indépendante du domaine concernant les performances des réseaux de neurones, calculée entièrement sans étiquettes.
L'apprentissage par renforcement est devenu central pour le post-entraînement des grands modèles de langage, mais les algorithmes dominants reposent sur des mécanismes de seuillage qui introduisent des problèmes d'optimisation à grande échelle, incluant des régions à gradient nul, du détournement de récompense et une instabilité de l'entraînement. Nous proposons l'Optimisation de Politique Sans Seuillage (CFPO), qui remplace le seuillage heuristique par une pénalité quadratique convexe dérivée de contraintes de divergence de la Variation Totale, produisant un objectif différentiable partout qui impose des mises à jour de politique stables sans limites strictes. Nous évaluons CFPO dans des contextes de raisonnement et d'alignement. En raisonnement, CFPO égale les méthodes basées sur le seuillage sur les benchmarks en aval tout en étendant le régime d'entraînement stable. En alignement, CFPO atténue l'exploitation de la verbosité et réduit la dégradation des capacités, tout en atteignant des performances compétitives de suivi d'instructions. CFPO ne nécessite qu'un changement d'une ligne de code et aucun hyperparamètre supplémentaire. Nos résultats suggèrent que CFPO est une alternative prometteuse, prête à l'emploi, aux méthodes basées sur le seuillage pour le post-entraînement des LLM.
Les modèles de raisonnement intégrant des outils (TIR) existants ont étendu efficacement les capacités de question-réponse des LLM en incorporant des outils externes. Cependant, les scénarios réels présentent de nombreux problèmes ouverts pour lesquels les outils fixes échouent souvent à répondre aux exigences des tâches. De plus, l'absence de mécanismes d'auto-optimisation signifie que les sorties erronées des outils peuvent induire en erreur les réponses des LLM. Par ailleurs, la construction des outils existants nécessite un effort manuel important, ce qui limite conséquemment leur applicabilité. Considérant que les traces de raisonnement des LLM encapsulent des capacités implicites de résolution de problèmes, nous proposons UCT, un nouveau cadre sans entraînement qui transforme les agents d'utilisateurs d'outils en créateurs d'outils. Cette approche récolte les expériences de raisonnement et les distille en ressources réutilisables. Cette méthode transforme l'agent d'un simple utilisateur d'outils en un créateur d'outils, permettant la création adaptative d'outils et leur auto-actualisation pendant le processus d'inférence. Nous introduisons également un mécanisme de consolidation de la mémoire pour maintenir la bibliothèque d'outils, garantissant une haute réutilisabilité de la mémoire expérientielle retenue pour les tâches de raisonnement ultérieures. Ce nouveau paradigme de construction automatisée d'outils améliore continuellement la qualité des outils pendant le raisonnement, permettant au système agent global de progresser sans entraînement supplémentaire. Des expériences approfondies démontrent que notre méthode constitue un nouveau paradigme pour améliorer les capacités des modèles TIR. En particulier, les gains de performance significatifs atteints (+20,86% ↑ et +23,04% ↑) sur des benchmarks couvrant des tâches de raisonnement mathématique et scientifique multi-domaines valident la capacité d'auto-évolution de l'agent.
Les garde-fous culturellement conscients sont essentiels pour l'alignement des IA dans des contextes réels, où la sécurité dépasse le bon sens et englobe des valeurs locales, des normes et des réglementations spécifiques à chaque région. Cependant, la création d'ensembles de données à grande échelle ancrés culturellement est difficile en raison de ressources limitées et d'une pénurie d'annotateurs natifs. Par conséquent, de nombreux modèles de sécurité reposent sur la traduction automatique de jeux de données anglais, omettant souvent les nuances régionales et culturelles. Nous présentons un nouveau cadre agentiel de génération de données pour créer de manière évolutive des ensembles de données de sécurité authentiques et spécifiques à la région de l'Asie du Sud-Est (ASE). Sur cette base, nous introduisons la famille SEA-Guard, les premiers modèles de sécurité multilingues ancrés dans les contextes culturels de l'ASE. Évalués sur plusieurs benchmarks et variantes culturelles, les modèles SEA-Guard surpassent systématiquement les garde-fous existants dans la détection de contenus sensibles ou nuisibles régionaux tout en maintenant de solides performances de sécurité générale.
L'apprentissage par renforcement améliore les capacités de raisonnement des grands modèles de langage, mais implique souvent des coûts computationnels élevés en raison d'une optimisation intensive en déploiements. La sélection en ligne d'invites présente une solution plausible en hiérarchisant les invites informatives pour améliorer l'efficacité de l'entraînement. Cependant, les méthodes actuelles dépendent soit d'évaluations exactes coûteuses, soit construisent des modèles prédictifs spécifiques aux invites, manquant de généralisation entre les invites. Cette étude introduit la Sélection Prédictive Généralisable d'Invites (GPS), qui effectue une inférence bayésienne sur la difficulté des invites en utilisant un modèle génératif léger entraîné sur l'historique partagé d'optimisation. Une priorisation des difficultés intermédiaires et une diversité ancrée dans l'historique sont intégrées au principe d'acquisition par lots pour sélectionner des lots d'invites informatifs. Le petit modèle prédictif généralise également au moment du test pour une allocation computationnelle efficace. Les expériences sur divers benchmarks de raisonnement indiquent que GPS apporte des améliorations substantielles en efficacité d'entraînement, performance finale et efficacité au moment du test par rapport à des méthodes de référence supérieures.
Introduction. L'éthique de l'IA est cadrée différemment selon les acteurs et les groupes de parties prenantes. Nous présentons les résultats d'une étude de cas d'OpenAI analysant le discours sur l'IA éthique. Méthode. La recherche a abordé la question suivante : Comment le discours public d'OpenAI a-t-il mobilisé les concepts d'« éthique », de « sûreté », d'« alignement » et les concepts adjacents au fil du temps, et que révèle ce discours sur le cadrage pratique ? Un corpus structuré, différenciant la communication destinée au grand public de celle destinée au public universitaire, a été constitué à partir de la documentation publique. Analyse. L'analyse qualitative de contenu des thèmes éthiques a combiné des codes dérivés inductivement et appliqués déductivement. L'analyse quantitative a exploité des méthodes d'analyse de contenu computationnelles via le TAL pour modéliser les sujets et quantifier l'évolution de la rhétorique dans le temps. Des visualisations présentent les résultats agrégés. Pour des résultats reproductibles, nous avons publié notre code à l'adresse https://github.com/famous-blue-raincoat/AI_Ethics_Discourse. Résultats. Les résultats indiquent que le discours sur la sûreté et les risques domine la communication et la documentation publique d'OpenAI, sans recourir aux cadres ou vocabulaires éthiques universitaires et militants. Conclusions. Les implications pour la gouvernance sont présentées, ainsi qu'une discussion sur les pratiques d'éthicoblanchiment (ethics-washing) dans l'industrie.
Les grands modèles de langage (LLM) sont de plus en plus utilisés comme évaluateurs pour juger des performances des agents, particulièrement dans des contextes non vérifiables où les jugements reposent sur les trajectoires des agents incluant leur raisonnement en chaîne de pensée (CoT). Ce paradigme suppose implicitement que le CoT de l'agent reflète fidèlement à la fois son raisonnement interne et l'état sous-jacent de l'environnement. Nous montrons que cette hypothèse est fragile : les évaluateurs LLM sont très sensibles à la manipulation des traces de raisonnement des agents. En réécrivant systématiquement les CoT des agents tout en maintenant fixes les actions et observations, nous démontrons que la seule manipulation du raisonnement peut augmenter les taux de faux positifs des évaluateurs VLM de pointe jusqu'à 90% sur 800 trajectoires couvrant diverses tâches web. Nous étudions des stratégies de manipulation allant d'approches basées sur le style, qui modifient uniquement la présentation du raisonnement, à des approches basées sur le contenu, qui fabriquent des signaux de progression de la tâche, et constatons que les manipulations de contenu sont systématiquement plus efficaces. Nous évaluons des techniques basées sur l'invite contextuelle et l'augmentation des ressources de calcul lors de l'évaluation, qui réduisent mais n'éliminent pas complètement la sensibilité à la manipulation. Nos résultats révèlent une vulnérabilité fondamentale dans l'évaluation basée sur les LLM et soulignent la nécessité de mécanismes d'évaluation qui vérifient les affirmations du raisonnement par rapport aux preuves observables.
L'inpainting moderne basé sur l'apprentissage profond permet une manipulation locale réaliste des images, ce qui soulève des défis critiques pour une détection fiable. Cependant, nous observons que les détecteurs actuels s'appuient principalement sur des artéfacts globaux qui apparaissent comme des effets secondaires de l'inpainting, plutôt que sur le contenu synthétisé localement. Nous montrons que ce comportement se produit parce que la reconstruction basée sur les VAE induit un décalage spectral subtil mais omniprésent sur l'ensemble de l'image, y compris dans les régions non éditées. Pour isoler cet effet, nous introduisons l'Échange d'Inpainting (INP-X), une opération qui restaure les pixels originaux en dehors de la région éditée tout en préservant l'intégralité du contenu synthétisé. Nous créons un jeu de données de test de 90K images incluant des images réelles, inpaintées et échangées pour évaluer ce phénomène. Sous cette intervention, les détecteurs pré-entraînés à la pointe, y compris commerciaux, présentent une chute dramatique de précision (par exemple, de 91\% à 55\%), approchant fréquemment le niveau du hasard. Nous fournissons une analyse théorique reliant ce comportement à une atténuation des hautes fréquences causée par les goulots d'étranglement informationnels des VAE. Nos résultats soulignent la nécessité d'une détection sensible au contenu. En effet, l'entraînement sur notre jeu de données permet une meilleure généralisation et localisation que l'inpainting standard. Notre jeu de données et notre code sont disponibles publiquement à l'adresse https://github.com/emirhanbilgic/INP-X.
Les systèmes multi-agents sont apparus comme un paradigme puissant pour automatiser la découverte scientifique. Pour différencier le comportement des agents dans un système multi-agent, les cadres actuels attribuent généralement des rôles génériques tels que « réviseur » ou « rédacteur », ou s'appuient sur des profils basés sur des mots-clés à granularité grossière. Bien que fonctionnelle, cette approche simplifie excessivement le fonctionnement des scientifiques humains, dont les contributions sont façonnées par leurs trajectoires de recherche uniques. En réponse, nous proposons INDIBATOR, un cadre pour la découverte moléculaire qui ancre les agents dans des profils scientifiques individualisés construits à partir de deux modalités : l'historique des publications pour les connaissances issues de la littérature et l'historique moléculaire pour les préconceptions structurelles. Ces agents participent à des débats en plusieurs tours à travers des phases de proposition, de critique et de vote. Notre évaluation démontre que ces agents fondés sur une individualité à granularité fine surpassent constamment les systèmes reposant sur des profils à granularité grossière, atteignant des performances compétitives ou de pointe. Ces résultats valident que la capture de « l'ADN scientifique » des agents individuels est essentielle pour une découverte de haute qualité.
Les systèmes de recherche dense généralistes en domaine ouvert sont généralement entraînés avec un vaste mélange éclectique de corpus et de tâches de recherche. Comment ces corpus et tâches diversifiés doivent-ils être échantillonnés pour l'entraînement ? Les approches conventionnelles les échantillonnent de manière uniforme, proportionnellement à la taille de leur population d'instances, ou dépendent d'une supervision experte humaine. Il est bien connu que la stratégie d'échantillonnage des données d'entraînement peut grandement influencer les performances du modèle. Cependant, la manière de trouver la stratégie optimale n'a pas été suffisamment étudiée dans le contexte des modèles d'embedding. Nous proposons Inf-DDS, un nouveau cadre d'échantillonnage piloté par apprentissage par renforcement qui repondère adaptativement les jeux de données d'entraînement guidé par des signaux de récompense basés sur l'influence, et qui est bien plus léger en termes de consommation GPU. Notre technique affine itérativement la politique d'échantillonnage, en priorisant les jeux de données qui maximisent les performances du modèle sur un jeu de développement cible. Nous évaluons l'efficacité de notre stratégie d'échantillonnage sur un large éventail de tâches de recherche textuelle, démontrant de fortes améliorations des performances de recherche et une meilleure adaptation par rapport aux méthodes d'échantillonnage basées sur le gradient existantes, tout en étant également 1,5 à 4 fois moins coûteuse en calcul GPU. Notre stratégie d'échantillonnage atteint une amélioration absolue de 5,03 points du NDCG@10 lors de l'entraînement du modèle multilingue bge-m3 et une amélioration absolue de 0,94 point du NDCG@10 lors de l'entraînement du modèle all-MiniLM-L6-v2, et ce même en partant de pondérations assignées par des experts sur un large pool de jeux de données d'entraînement.
L'évaluation multilingue des grands modèles de langage (LLM) confond généralement deux sources de variance : les différences de performance réelle des modèles et l'instabilité des mesures. Nous étudions la fiabilité de l'évaluation en maintenant constantes les conditions de génération tout en faisant varier la langue cible. En utilisant des dialogues de support client synthétiques générés avec des paramètres identiques en estonien, finnois et hongrois, nous testons si les métriques automatiques et l'évaluation par LLM-en-tant-que-juge produisent des classements de modèles stables à travers ces langues finno-ougriennes apparentées et morphologiquement riches. En nous appuyant sur un petit ensemble d'annotations de locuteurs natifs estoniens comme point de référence, nous constatons des instabilités systématiques de classement : les métriques de surface (diversité lexicale, similarité de surface et sémantique) maintiennent une stabilité translinguistique, mais les jugements pragmatiques (cohérence, respect des instructions) présentent des inversions de classement et des corrélations quasi nulles. La génération étant contrôlée, ces incohérences reflètent le fait que le jugement par évaluation se comporte différemment selon les langues, plutôt que de véritables différences entre modèles. Cette conception contrôlée fournit une sonde diagnostique : les méthodes d'évaluation qui ne parviennent pas à maintenir la stabilité dans des conditions de génération identiques signalent un échec du transfert avant le déploiement. Nos résultats suggèrent que le transfert zero-shot d'un juge est peu fiable pour l'évaluation au niveau du discours dans les langues à morphologie riche, ce qui plaide en faveur d'un étalonnage spécifique à chaque langue par rapport à des bases de référence humaines ciblées. Nous publions notre protocole de génération contrôlée, nos données synthétiques et notre cadre d'évaluation pour permettre la reproduction à travers les familles de langues à l'adresse https://github.com/isaac-chung/cross-lingual-stability-judges.
Ce document présente YOLOE-26, un cadre unifié qui intègre l'architecture YOLO26 (ou YOLOv26) optimisée pour le déploiement avec le paradigme d'apprentissage en vocabulaire ouvert de YOLOE pour la segmentation d'instances en temps réel en vocabulaire ouvert. S'appuyant sur la conception end-to-end et sans NMS de YOLOv26, l'approche proposée préserve l'efficacité et le déterminisme caractéristiques de la famille YOLO tout en étendant ses capacités au-delà de la reconnaissance en ensemble fermé. YOLOE-26 utilise un squelette convolutionnel avec une agrégation de caractéristiques multi-échelles de type PAN/FPN, suivi de têtes de régression et de segmentation d'instances end-to-end. Une contribution architecturale clé est le remplacement des logits de classe fixes par une tête d'incorporation d'objets, qui formule la classification comme une mise en correspondance par similarité avec des incorporations d'invites dérivées de descriptions textuelles, d'exemples visuels ou d'un vocabulaire intégré. Pour permettre un raisonnement efficace en vocabulaire ouvert, le cadre intègre un Alignement Région-Texte Re-paramétrisable (RepRTA) pour l'invite textuelle sans surcoût, un Encodeur d'Invite Visuelle à Activation Sémantique (SAVPE) pour la segmentation guidée par l'exemple, et un Contraste d'Invite Région Paresseux pour l'inférence sans invite. Toutes les modalités d'invite opèrent dans un espace d'incorporation d'objets unifié, permettant une commutation transparente entre la segmentation par invite textuelle, par invite visuelle et entièrement autonome. Des expériences approfondies démontrent un comportement d'échelle cohérent et des compromis précision-efficacité favorables pour toutes les tailles de modèle, dans des configurations avec et sans invite. La stratégie d'entraînement exploite des ensembles de données de détection et d'ancrage à grande échelle avec une optimisation multi-tâche et reste entièrement compatible avec l'écosystème Ultralytics pour l'entraînement, la validation et le déploiement. Globalement, YOLOE-26 fournit une solution pratique et évolutive pour la segmentation d'instances en temps réel en vocabulaire ouvert dans des environnements dynamiques du monde réel.
Le calcul par réservoir (RC) s'est imposé comme un paradigme efficace pour le traitement temporel. Cependant, son extensibilité reste sévèrement limitée par (i) la nécessité de traiter les données temporelles séquentiellement et (ii) l'empreinte mémoire prohibitive des réservoirs de haute dimension. Dans ce travail, nous revisitons le RC sous l'angle des opérateurs structurés et de la modélisation par espace d'états pour surmonter ces limitations, en introduisant le *Parallel Echo State Network* (ParalESN). ParalESN permet la construction de réservoirs haute dimension et efficaces basés sur une récurrence linéaire diagonale dans l'espace complexe, permettant un traitement parallèle des données temporelles. Nous fournissons une analyse théorique démontrant que ParalESN préserve la propriété d'écho et les garanties d'universalité des réseaux à écho traditionnels, tout en admettant une représentation équivalente de tout réservoir linéaire arbitraire sous forme diagonale complexe. Empiriquement, ParalESN atteint la précision prédictive du RC traditionnel sur des benchmarks de séries temporelles, tout en réalisant des économies de calcul substantielles. Sur des tâches de classification 1D au niveau pixel, ParalESN obtient une précision compétitive avec des réseaux de neurones entièrement entraînables, tout en réduisant les coûts de calcul et la consommation d'énergie de plusieurs ordres de grandeur. Globalement, ParalESN offre une voie prometteuse, évolutive et fondée sur des principes pour intégrer le RC dans l'écosystème de l'apprentissage profond.
La représentation neuronale implicite (INR) s'est avérée précise et efficace dans divers domaines. Dans ce travail, nous explorons comment différents réseaux neuronaux peuvent être conçus comme une nouvelle texture INR, qui opère de manière continue plutôt que discrète sur l'espace de coordonnées UV d'entrée. Par des expériences approfondies, nous démontrons que ces INR performent bien en termes de qualité d'image, avec une utilisation mémoire considérable et un temps d'inférence de rendu raisonnable. Nous analysons l'équilibre entre ces objectifs. De plus, nous étudions diverses applications connexes dans le rendu en temps réel et les tâches en aval, telles que l'ajustement de mipmap et la génération d'espace INR.
Les grands modèles de langage peuvent générer des réponses fluides mais infidèles au contexte fourni, tandis que de nombreux mécanismes de sécurité reposent sur une vérification externe ou un jugement séparé après la génération. Nous introduisons des signatures de flux internes qui auditent la formation des décisions à partir de la dynamique en profondeur au niveau d'une frontière de surveillance inter-bloc fixe. La méthode stabilise le mouvement token par token via une surveillance centrée sur les biais, puis résume les trajectoires dans des sous-espaces compacts alignés sur les lectures mobiles, construits à partir du token principal et de ses proches concurrents dans chaque fenêtre de profondeur. Les trames de fenêtres adjacentes sont alignées par un transport orthogonal, produisant des longueurs de pas transportées comparables en profondeur, des angles de rotation et des résumés de dérive des sous-espaces invariants aux choix de base intra-fenêtre. Un validateur GRU léger entraîné sur ces signatures effectue une auto-vérification sans modifier le modèle de base. Au-delà de la détection, le validateur localise un événement de profondeur responsable et permet un raffinement ciblé : le modèle revient au token fautif et corrige un pas transporté anormal au bloc identifié tout en préservant le résidu orthogonal. Le pipeline résultant fournit une localisation actionnable et une auto-vérification à faible surcharge à partir de la dynamique décisionnelle interne. Le code est disponible sur github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs.
Nous proposons Parabolic Position Encoding (PaPE), un encodage de position basé sur une parabole pour les modalités visuelles dans les architectures basées sur l'attention. Étant donné un ensemble de tokens visuels - tels que des images, des nuages de points, des vidéos ou des flux de caméras événementielles - notre objectif est d'encoder leurs positions tout en tenant compte des caractéristiques des modalités visuelles. Les travaux antérieurs ont largement étendu les encodages de position des séquences 1D du langage aux structures nD de la vision, mais seulement en tenant partiellement compte des caractéristiques visuelles. Nous comblons cette lacune en concevant PaPE à partir de principes distillés des travaux antérieurs : l'invariance par translation, l'invariance par rotation (PaPE-RI), la décroissance avec la distance, la directivité et la sensibilité au contexte. Nous évaluons PaPE sur 8 jeux de données couvrant 4 modalités. Nous constatons que PaPE ou PaPE-RI obtient les meilleures performances sur 7 des 8 jeux de données. Des expériences d'extrapolation sur ImageNet-1K montrent que PaPE extrapole remarquablement bien, améliorant en termes absolus jusqu'à 10,5 % par rapport au meilleur encodage de position suivant. Le code est disponible à l'adresse https://github.com/DTU-PAS/parabolic-position-encoding.
Bien que l'utilisation des LLM en tant qu'évaluateurs soit largement répandue dans l'évaluation automatisée, les pratiques de validation existantes opèrent principalement au niveau des résultats observés, offrant une vision limitée quant à savoir si les juges LLM eux-mêmes fonctionnent comme des instruments de mesure stables et fiables. Pour remédier à cette limite, nous proposons un cadre diagnostique en deux phases pour évaluer la fiabilité des LLM en tant qu'évaluateurs, fondé sur la théorie de la réponse à l'item (TRI). Ce cadre adopte le modèle de réponse graduée (GRM) de la TRI et formalise la fiabilité selon deux dimensions complémentaires : (1) la cohérence intrinsèque, définie comme la stabilité du comportement de mesure face à des variations des prompts, et (2) l'alignement humain, qui capture la correspondance avec les évaluations humaines de la qualité. Nous examinons empiriquement divers juges LLM avec ce cadre et montrons que l'utilisation du modèle TRI-GRM produit des signaux interprétables pour diagnostiquer systématiquement les jugements. Ces signaux fournissent des indications pratiques pour vérifier la fiabilité des LLM en tant qu'évaluateurs et identifier les causes potentielles de leur manque de fiabilité.