Articles de recherche IA sélectionnés quotidiennement avec traductions
L'auto-distillation sur politique, où un étudiant est attiré vers une copie de lui-même conditionnée par un contexte privilégié (par exemple, une solution vérifiée ou un retour d'information), offre une voie prometteuse pour améliorer la capacité de raisonnement sans recourir à un enseignant externe plus fort. Cependant, dans le raisonnement mathématique, les gains sont irréguliers, même lorsque la même approche réussit ailleurs. Une analyse par information mutuelle ponctuelle attribue cet échec au contexte privilégié lui-même : il augmente la confiance de l'enseignant sur les jetons déjà impliqués par la solution (connecteurs structurels, affirmations vérifiables) et la diminue sur les jetons de délibération (« Attends », « Soit », « Peut-être ») qui sous-tendent la recherche multi-étapes. Nous proposons l'Anti-Auto-Distillation (AntiSD), qui augmente une divergence entre l'étudiant et l'enseignant plutôt que de la diminuer : cela inverse le signe par jeton et produit un avantage naturellement borné en une seule étape. Une porte déclenchée par l'entropie désactive le terme une fois que l'entropie de l'enseignant s'effondre, complétant un remplacement direct de l'auto-distillation par défaut. Sur cinq modèles de 4 à 30 milliards de paramètres, évalués sur des références de raisonnement mathématique, l'AntiSD atteint la précision de la baseline GRPO en 2 à 10 fois moins d'étapes d'entraînement et améliore la précision finale jusqu'à 11,5 points. L'AntiSD ouvre une voie vers une auto-amélioration scalable, où un modèle de langage améliore par amorçage son propre raisonnement à travers son signal d'apprentissage.
Automatiser la découverte scientifique nécessite bien plus que la génération d'articles à partir d'idées. La recherche réelle est itérative : les hypothèses sont remises en question sous de multiples perspectives, les expériences échouent et informent la tentative suivante, et les leçons s'accumulent au fil des cycles. Les systèmes de recherche autonomes existants modélisent souvent ce processus comme un pipeline linéaire : ils reposent sur un raisonnement mono-agent, s'arrêtent en cas d'échec d'exécution et ne capitalisent pas l'expérience entre les exécutions. Nous présentons AutoResearchClaw, un pipeline de recherche autonome multi-agent fondé sur cinq mécanismes : un débat structuré multi-agent pour la génération d'hypothèses et l'analyse des résultats, un exécuteur auto-réparateur avec une boucle de décision Pivot/Refine qui transforme les échecs en informations, un rapport de résultats vérifiable qui empêche les chiffres fabriqués et les citations hallucinées, une collaboration humain-dans-la-boucle avec sept modes d'intervention allant de l'autonomie totale à une supervision pas à pas, et une évolution inter-exécutions qui convertit les erreurs passées en garde-fous futurs. Sur ARC-Bench, un banc d'essai de 25 sujets au stade expérimental, AutoResearchClaw surpasse AI Scientist v2 de 54,7 %. Une ablation humain-dans-la-boucle à travers sept modes d'intervention révèle qu'une collaboration précise et ciblée aux points de décision à fort impact surpasse systématiquement à la fois l'autonomie complète et la supervision exhaustive pas à pas. Nous positionnons AutoResearchClaw comme un amplificateur de recherche qui augmente le jugement scientifique humain sans le remplacer. Le code est disponible à l'adresse https://github.com/aiming-lab/AutoResearchClaw.
Malgré les progrès rapides des MLLM capables de traiter la vidéo, nous constatons que leur apparente compréhension audio dans les vidéos est souvent pilotée par la vision : les modèles s'appuient sur des indices visuels pour inférer ou halluciner des informations acoustiques, plutôt que de vérifier le flux audio. Ce problème se manifeste aussi bien dans les modèles omniscients open-source de pointe que dans les principaux modèles closed-source de fournisseurs tels que Google et OpenAI. Nous caractérisons ce mode de défaillance comme un effet Clever Hans audiovisuel, dans lequel les modèles semblent (faussement) ancrés dans l'audio, mais exploitent en réalité des corrélations visuo-acoustiques sans vérifier si les flux audio et visuels sont véritablement alignés. Pour étudier systématiquement ce comportement, nous introduisons Thud, un cadre de sondage basé sur des interventions reposant sur trois modifications audio contrefactuelles : Shift, qui teste la synchronisation temporelle ; Mute, qui teste l'existence du son ; et Swap, qui teste la cohérence audiovisuelle. Au-delà du diagnostic, nous étudions également une recette d'alignement en deux étapes : des paires de préférences dérivées d'interventions enseignent la vérification audio, tandis que des préférences vidéo générales au niveau des événements régularisent le modèle contre la sur-spécialisation. Notre meilleure recette sur 10 000 échantillons améliore la performance moyenne sur les trois dimensions d'intervention de 28 points de pourcentage, tout en améliorant légèrement les performances sur les références générales de vidéo et de questions-réponses audiovisuelles.
Le Pairwise Ranking Prompting (PRP) sollicite des jugements de préférence par paires de la part d'un LLM, qui sont ensuite agrégés en un classement, généralement via des algorithmes de tri classiques. Cependant, ces jugements sont bruités, sensibles à l'ordre et parfois intransitifs, de sorte que les hypothèses de tri ne correspondent pas au contexte. Étant donné que le tri vise à reconstruire une permutation complète, le tronquer pour respecter un budget d'appels ne produit pas un top-K fiable. Nous reformulons donc le reclassement par PRP comme un apprentissage actif à partir de comparaisons par paires bruitées et montrons que les classeurs actifs sont des remplacements directs qui améliorent le NDCG@10 par appel dans le régime contraint en appels. Notre cadre robuste au bruit introduit également un oracle à direction aléatoire qui utilise un seul appel LLM par paire. Cette approche convertit le biais de position systématique en bruit à moyenne nulle, permettant un classement agrégé non biaisé sans le coût des appels bidirectionnels.
Nous présentons OpenComputer, un cadre ancré sur des vérificateurs pour construire des mondes logiciels vérifiables pour des agents d'utilisation d'ordinateur. OpenComputer intègre quatre composants : (1) des vérificateurs d'état spécifiques aux applications qui exposent des points de terminaison d'inspection structurés sur des applications réelles, (2) une couche de vérification auto-évolutive qui améliore la fiabilité des vérificateurs en utilisant un retour fondé sur l'exécution, (3) un pipeline de génération de tâches qui synthétise des tâches de bureau réalistes et vérifiables par machine, et (4) un dispositif d'évaluation qui enregistre les trajectoires complètes et calcule des récompenses de crédit partiel auditable. Dans sa forme actuelle, OpenComputer couvre 33 applications de bureau et 1 000 tâches finalisées couvrant les navigateurs, les outils bureautiques, les logiciels créatifs, les environnements de développement, les gestionnaires de fichiers et les applications de communication. Les expériences montrent que les vérificateurs codés en dur d'OpenComputer s'alignent plus étroitement sur l'arbitrage humain que l'évaluation par LLM en tant que juge, en particulier lorsque le succès dépend de l'état d'application à grain fin. Les agents de pointe peinent à réaliser un achèvement de bout en bout malgré des progrès partiels, et les modèles open-source présentent des chutes brutales par rapport à leurs scores OSWorld-Verified, révélant un écart persistant dans l'automatisation informatique robuste.
Nous présentons GoLongRL, une recette de post-entraînement entièrement open source et orientée capacités pour l'apprentissage par renforcement en contexte long avec récompenses vérifiables (RLVR). Les méthodes RL en contexte long existantes considèrent souvent la construction de données comme une question de conception de chemins de récupération de plus en plus complexes, conduisant à une couverture de tâches homogène et à des formulations de récompenses qui reflètent inadéquatement les exigences pratiques du contexte long. Notre travail apporte deux contributions. (1) Construction de données orientée capacités avec libération complète en open source. Nous libérons ouvertement un ensemble de données de 23 000 échantillons RLVR, le pipeline complet de construction et tout le code d'entraînement. Guidé par une taxonomie des capacités en contexte long, l'ensemble de données couvre 9 types de tâches, chacun associé à sa métrique d'évaluation naturelle. Il comprend des échantillons open source sélectionnés provenant de corpus établis et des échantillons synthétiques dont les paires Q/R sont générées à partir de documents sources réels tels que des livres, des articles académiques et des dialogues multi-tours. Avec la même configuration GRPO standard, notre seul ensemble de données surpasse l'ensemble de données closed-source QwenLong-L1.5. De plus, notre modèle Qwen3-30B-A3B entraîné sur ces données offre des performances en contexte long comparables à celles de DeepSeek-R1-0528 et Qwen3-235B-A22B-Thinking-2507, suggérant qu'une couverture plus large et une plus grande diversité de récompenses bénéficient substantiellement à l'amélioration des capacités en contexte long. (2) TMN-Reweight pour l'optimisation multitâche hétérogène. Pour relever les défis d'optimisation issus de récompenses hétérogènes, nous proposons TMN-Reweight, qui combine une normalisation par la moyenne au niveau des tâches pour l'alignement des échelles de récompenses entre tâches avec une pondération adaptative à la difficulté pour une estimation plus fiable de l'avantage. TMN-Reweight améliore en outre les performances moyennes par rapport au GRPO standard, les capacités générales étant préservées ou améliorées dans les évaluations rapportées.
Les Modèles de Récompense de Processus (PRMs) fournissent un retour d'information au niveau des étapes pour le raisonnement, mais les PRMs actuels ne produisent généralement qu'un seul score de récompense pour chaque étape. Les méthodes en aval doivent donc traiter des prédictions de récompense imparfaites au niveau des étapes comme des signaux de décision fiables, sans indication quant au moment où ces prédictions doivent être considérées comme dignes de confiance. Nous proposons BetaPRM, un PRM distributionnel qui prédit à la fois une probabilité de succès au niveau des étapes et la fiabilité de cette prédiction. À partir d'une supervision de succès par étapes issue de continuations Monte Carlo, BetaPRM apprend une croyance Beta qui explique le nombre observé de continuations réussies via une vraisemblance Beta-Binomiale, plutôt que de régresser vers le ratio de succès sur un échantillon fini comme cible ponctuelle. Ce signal de fiabilité appris indique quand une récompense par étape doit être considérée comme fiable, permettant aux applications en aval de distinguer les récompenses fiables des récompenses incertaines. Comme application, nous introduisons l'Allocation Adaptative de Calcul (ACA) pour le raisonnement Best-of-N guidé par PRM. ACA utilise le signal de fiabilité appris pour s'arrêter lorsqu'une solution à haute récompense est fiable et pour consacrer du calcul supplémentaire sur des préfixes candidats incertains. Des expériences menées sur quatre architectures de base et quatre benchmarks de raisonnement montrent que BetaPRM améliore la sélection Best-of-N guidée par PRM tout en préservant la détection d'erreurs standard au niveau des étapes. Reposant sur ce signal, ACA améliore le compromis précision–tokens par rapport au Best-of-16 à budget fixe, réduisant l'utilisation de tokens jusqu'à 33,57 % tout en améliorant la précision de la réponse finale.
L'équipement des LLMs en capacités d'utilisation d'outils via l'Apprentissage par Renforcement Agentique (Agentic RL) est limité par deux défis : le manque d'environnements d'exécution robustes et évolutifs, et la rareté de données d'entraînement réalistes capturant le raisonnement humain implicite. Les approches existantes reposent sur des API réelles coûteuses, des simulateurs de LLM sujets aux hallucinations, ou des environnements synthétiques souvent à tour unique ou dépendants de documents pré-collectés. De plus, les trajectoires synthétiques sont fréquemment sur-spécifiées, ressemblant à des séquences d'instructions plutôt qu'à des intentions humaines naturelles, réduisant ainsi leur efficacité pour l'entraînement par RL. Nous présentons EnvFactory, un cadre entièrement automatisé qui répond à ces deux défis. EnvFactory explore et vérifie de manière autonome des environnements d'outils exécutables et avec état à partir de ressources authentiques, et synthétise des trajectoires naturelles multi-tours via un échantillonnage sensible à la topologie et un affinage calibré, produisant des requêtes ancrées avec des intentions implicites. En utilisant seulement 85 environnements vérifiés dans 7 domaines, EnvFactory génère 2 575 trajectoires SFT et RL. Bien qu'il utilise nettement moins d'environnements que les travaux antérieurs (souvent 5 fois plus), EnvFactory atteint une efficacité d'entraînement et des performances aval supérieures, améliorant les modèles de la série Qwen3 jusqu'à +15 % sur BFCLv3, +8,6 % sur MCP-Atlas, et +6 % sur les benchmarks conversationnels incluant τ^2-Bench et VitaBench. En automatisant entièrement à la fois la construction des environnements et la synthèse des trajectoires, EnvFactory offre une base évolutive, extensible et robuste pour l'Agentic RL.
Les modèles de diffusion récents atteignent un fort photoréalisme et une grande fluidité dans la génération vidéo, mais restent fragiles dans des conditions abstraites, clairsemées ou complexes, ce qui conduit à de mauvaises performances dans les flux de production professionnels tels que les croquis de storyboard et les conditions de rendu en argile. Les modèles de génération vidéo existants injectent soit des conditions via des adaptateurs, soit couplent un modèle vision-langage (VLM) générique dans un backbone de diffusion, laissant un écart de capacité et échouant à produire des vidéos alignées sur l'intention créative de l'utilisateur. Nous présentons CogOmniControl, un cadre basé sur le raisonnement qui factorise la génération vidéo contrôlable en cognition de l'intention créative et en génération. Plus précisément, nous entraînons un CogVLM spécialisé à l'aide de données authentiques de production d'anime. Comparé aux VLM génériques, il génère des sorties plus professionnelles et claires, cognisant avec précision l'intention créative de l'utilisateur à partir de conditions clairsemées et abstraites et transformant ces indications en une sortie de raisonnement dense. De plus, CogOmniDiT unifie les contrôles de diverses conditions via la génération en contexte et est aligné sur les sorties de raisonnement de CogVLM par apprentissage par renforcement. En outre, en tirant parti de la capacité robuste de CogVLM à guider la génération vidéo, nous libérons son potentiel pour planifier des évaluateurs spécifiques et permettons une sélection Best-of-N pour les vidéos générées. Cette intégration transforme l'ensemble du cadre en une architecture en boucle fermée de type « harnais ». Nous introduisons également CogReasonBench et CogControlBench, construits à partir de données de flux de travail professionnels portant une véritable intention créative plutôt que simulée. Les expériences sur deux bancs d'essai montrent que CogOmniControl a surpassé les modèles open source existants. Le site web du projet : https://um-lab.github.io/CogOmniControl/
Doter les agents LLM de compétences réutilisables issues de l'expérience passée est devenu une approche populaire et efficace pour traiter des tâches complexes et à long horizon. Cependant, ces enseignements sont souvent encodés sous forme de directives textuelles qui restent largement consultatives, sans mécanismes explicites pour déterminer quand et comment intervenir dans la boucle de l'agent. Pour combler cette lacune, nous présentons HASP (Harnessing LLM Agents with Skill Programs), un nouveau cadre qui fait évoluer les compétences en fonctions de programme exécutables (PFs). Au lieu de fournir des conseils passifs, les PFs agissent comme des garde-fous exécutables qui s'activent sur des états sujets aux échecs et modifient l'action suivante ou injectent un contexte correctif. HASP est hautement modulaire : il peut être appliqué au moment de l'inférence pour une intervention directe dans la boucle de l'agent, lors du post-entraînement pour fournir une supervision structurée, ou pour l'auto-amélioration en faisant évoluer des PFs validés et révisés par un enseignant. Empiriquement, HASP génère des gains substantiels par rapport aux méthodes sans entraînement et avec entraînement sur des tâches de recherche web, de raisonnement mathématique et de codage. Par exemple, sur le raisonnement en recherche web, les PFs utilisés à l'inférence améliorent seuls la performance moyenne de 25 % par rapport à l'agent ReAct (à boucles multiples), tandis que le post-entraînement et l'évolution contrôlée atteignent un gain de 30,4 % par rapport à Search-R1. Pour fournir des aperçus plus approfondis de HASP, notre analyse des mécanismes révèle comment les PFs se déclenchent et interviennent, comment les compétences sont internalisées, et l'exigence d'une évolution stable de la bibliothèque de compétences.
Les modèles récents de montage vidéo convergent vers une conception de conditionnement unifiée : un transformateur de diffusion unique consomme conjointement du texte, une vidéo source et des images de référence, et un seul ensemble de poids couvre le remplacement, la suppression, le transfert de style et l'insertion pilotée par référence. Cette conception est flexible, mais elle suppose que l'utilisateur fournisse déjà du texte prêt pour le modèle, des images de référence et un ancrage spatial pour les modifications locales, ce que les requêtes réelles omettent souvent. Nous présentons Aurora, un cadre de montage vidéo agentique qui associe un agent de modèle vision-langage (VLM) augmenté par outils à un transformateur de diffusion vidéo unifié. L'agent VLM transforme une requête utilisateur brute en un plan de montage structuré aligné sur les canaux de conditionnement du transformateur, résolvant ainsi la sous-spécification textuelle et visuelle avant la génération. Nous entraînons l'agent VLM avec des données supervisées pour la planification complète du montage et la sélection des images de référence, ainsi que des paires de préférence pour une utilisation robuste des outils et un affinement des instructions. Nous introduisons AgentEdit-Bench pour évaluer le montage vidéo amélioré par agent en cas de sous-spécification textuelle et visuelle. Les expériences sur AgentEdit-Bench et deux bancs d'essai de montage vidéo existants montrent qu'Aurora améliore les bases de référence utilisant uniquement des instructions et que l'agent VLM se transfère à des modèles de montage vidéo figés compatibles. Page du projet : https://yeates.github.io/Aurora-Page
Les récents modèles génératifs vidéo ont considérablement amélioré le réalisme des vidéos générées par intelligence artificielle, mais leurs sorties présentent encore des artefacts tels que des incohérences temporelles, des distorsions structurelles et une incohérence sémantique. Bien que les modèles de langage multimodaux de grande taille (MLLMs) démontrent de fortes capacités de compréhension visuelle, leur capacité à percevoir et à raisonner sur de tels artefacts reste incertaine. Les benchmarks existants manquent souvent d'une évaluation systématique de la perception des artefacts et du raisonnement diagnostique à grain fin, en particulier à travers divers domaines de vidéos générées par IA au-delà du contenu photoréaliste. Pour combler cette lacune, nous présentons Artifact-Bench, un benchmark complet pour évaluer les MLLMs sur la détection et l'analyse des artefacts dans les vidéos générées par IA. Nous établissons d'abord une taxonomie hiérarchique à trois niveaux des artefacts de réalisme, couvrant les vidéos photoréalistes, animées et de style CG. Sur la base de cette taxonomie, Artifact-Bench définit trois tâches complémentaires : classification des vidéos réelles vs générées par IA, comparaison par paires du réalisme, et identification fine des artefacts. Des expériences sur 19 MLLMs de premier plan révèlent des limitations substantielles dans la perception et le raisonnement des artefacts, de nombreux modèles approchant des performances aléatoires, voire inférieures au hasard dans des contextes difficiles. Nous observons en outre un désalignement significatif entre les jugements des MLLMs et les préférences perceptuelles humaines, soulignant leur fiabilité limitée en tant qu'évaluateurs généraux du réalisme des vidéos générées par IA.
L'intelligence artificielle conversationnelle touche désormais des milliards d'utilisateurs, mais les jeux de données existants ne capturent que ce que les gens disent, et non ce qu'ils pensent. Nous présentons ThoughtTrace, le premier jeu de données à grande échelle qui associe des conversations réelles multi-tours entre humains et IA aux pensées auto-rapportées des utilisateurs : leurs raisons d'envoyer des requêtes et leurs réactions aux réponses de l'assistant. ThoughtTrace comprend 1 058 utilisateurs, 2 155 conversations, 17 058 tours et 10 174 annotations de pensées collectées sur 20 modèles de langage. Notre analyse montre que ThoughtTrace capture des interactions à long horizon et thématiquement diverses, et que les pensées sont sémantiquement distinctes des messages, difficiles à inférer du contexte par les LLMs de pointe, diversifiées dans leur contenu et liées aux étapes de la conversation. Nous démontrons en outre l'utilité des pensées pour la modélisation en aval. Premièrement, les pensées améliorent la prédiction du comportement des utilisateurs en tant que contexte au moment de l'inférence. Deuxièmement, les réécritures guidées par les pensées fournissent des signaux d'alignement fins pour l'entraînement d'assistants personnalisés. Ensemble, ThoughtTrace établit les pensées des utilisateurs comme une nouvelle modalité de données pour étudier la dynamique cognitive derrière l'interaction humain-IA et offre une base pour construire des assistants qui comprennent et s'adaptent mieux aux objectifs, préférences et besoins latents des utilisateurs.
Les benchmarks actuels pour les agents d’interfaces utilisateur graphiques (GUI) reposent principalement sur des captures d’écran statiques. Pourtant, l’interaction avec un smartphone dans un contexte réel exige régulièrement que les agents traitent des indices audio transitoires et des dynamiques vidéo temporelles étroitement liés au moment de l’action. Pour combler cette lacune, nous présentons OmniGUI, le premier benchmark au niveau des étapes conçu pour évaluer les agents GUI dans des environnements de smartphone omni-modaux. OmniGUI fournit des entrées multimodales continues et entrelacées, comprenant des images statiques, de l’audio synchrone et des clips vidéo à chaque étape d’action. Le jeu de données couvre 709 épisodes démontrés par des experts (2 579 étapes d’action) répartis sur 29 applications, annotés systématiquement avec des niveaux objectifs de dépendance multimodale. En raison du stade embryonnaire des frameworks d’agents GUI omni-modaux dédiés, nous sélectionnons des modèles omni-modaux fondamentaux capables de traiter nativement des entrées entrelacées pour servir de proxies d’agents pour nos lignes de base initiales. Notre évaluation empirique révèle que, bien que les modèles actuels soient compétents pour les tâches visuellement statiques, leurs performances de prédiction d’action se dégradent significativement dans des environnements nécessitant des signaux temporels et auditifs synchrones. De plus, des études d’ablation isolent des goulots d’étranglement opérationnels spécifiques, notamment l’interférence intermodale lors du traitement d’un bruit environnemental non pertinent pour la tâche. Le jeu de données complet, le pipeline d’évaluation et les invites de base sont fournis dans le matériel supplémentaire. Page du projet : https://omni-gui.github.io.
La génération vidéo évolue rapidement de la synthèse en un seul plan à des récits audio-vidéo multi-plans (MSAV) complexes pour répondre aux exigences du monde réel. Cependant, l'évaluation de ces modèles de pointe reste un défi fondamental. Les référentiels existants sont limités en termes de portée et de diversité des données, et reposent sur des pipelines d'évaluation rigides, empêchant une évaluation systématique et fiable des modèles MSAV modernes. Pour combler ces lacunes, nous présentons MSAVBench, le premier référentiel complet et cadre d'évaluation hybride adaptatif pour la génération audio-vidéo multi-plans. Notre référentiel couvre quatre dimensions clés — vidéo, audio, plan et référence — en intégrant diverses configurations de tâches, un nombre variable de plans allant jusqu'à 15, et des scénarios non réalistes exigeants. Notre cadre d'évaluation améliore la robustesse grâce à un mécanisme d'auto-correction adaptatif pour la segmentation des plans, des grilles d'évaluation par instance pour les métriques subjectives, et une extraction de preuves basée sur des outils pour les jugements complexes. De plus, MSAVBench atteint un alignement élevé avec les jugements humains, avec une corrélation de rang de Spearman de 91,5 %. Notre évaluation systématique de 19 modèles propriétaires et open source de pointe montre que les systèmes actuels peinent encore à assurer un contrôle au niveau du réalisateur et une synchronisation audio-visuelle fine, tandis que les pipelines de génération modulaires ou agentiques offrent une voie prometteuse pour réduire l'écart entre les modèles open source et propriétaires. Nous publierons les données du référentiel et le code d'évaluation pour faciliter les recherches futures.
L'évaluation de l'IA connaît un changement structurel. Les grands modèles de langage (LLMs) sont de plus en plus déployés comme des systèmes qui agissent dans le temps via des outils, des environnements, des utilisateurs et d'autres agents, alors que de nombreuses pratiques d'évaluation héritent encore d'hypothèses issues de benchmarks centrés sur les réponses (par exemple, entrées fixes, sorties isolées et jugements de résultat pouvant être portés à partir d'une seule réponse). Le domaine a commencé à construire des benchmarks interactifs, mais le paysage résultant est fragmenté : les benchmarks diffèrent selon les artefacts d'interaction qu'ils admettent, la manière dont les trajectoires sont évaluées et les affirmations que leurs résultats soutiennent. Cet article de position soutient que l'évaluation interactive devrait être considérée comme un paradigme d'évaluation fondé sur des principes, et non simplement comme une nouvelle famille de benchmarks pour agents. Adopter simplement les paradigmes d'évaluation précédents ne suffit pas. Nous définissons l'évaluation comme un mappage autonome des preuves aux jugements, et montrons que l'évaluation interactive modifie les deux aspects de ce mappage : les preuves deviennent des trajectoires générées par l'interaction, tandis que la procédure d'évaluation doit évaluer le processus, la récupérabilité, la coordination, la robustesse et la performance au niveau du système. Sur la base de cette définition, nous proposons une taxonomie à deux axes, dérivons des principes de conception et des normes de rapport, examinons des scénarios représentatifs et analysons comment des défis d'évaluation de longue date réapparaissent au niveau de la trajectoire.
Lorsqu’un modèle produit une solution correcte dans le cadre d’un apprentissage par renforcement avec récompenses vérifiables (RLVR), chaque jeton reçoit le même signal de récompense, qu’il s’agisse d’une étape de raisonnement décisive ou d’un élément grammatical de remplissage. Une solution naturelle consiste à conditionner le modèle sur la réponse correcte en tant qu’enseignant, en identifiant les jetons qu’il aurait générés différemment s’il avait connu cette réponse. Des travaux antérieurs montrent que cette approche soit corrompt l’apprentissage en faisant fuiter la réponse dans le gradient, soit produit un signal faible incapable de distinguer les étapes décisives des éléments de remplissage, ces derniers paraissant tout aussi surprenants par rapport à la ligne de base du modèle. Nous proposons l’Optimisation de Politique par Preuve Contrastive (CEPO), qui pose une question plus précise à chaque jeton : non pas seulement « la réponse correcte favorise-t-elle ce jeton ? », mais « la réponse correcte le favorise-t-elle tandis que la réponse incorrecte le défavorise-t-elle ? » Un jeton satisfaisant les deux conditions constitue une véritable étape de raisonnement ; un jeton n’en satisfaisant aucune est un élément de remplissage. L’enseignant basé sur la réponse incorrecte est construit à partir des rollouts rejetés déjà présents dans le lot d’apprentissage, sans coût d’échantillonnage supplémentaire. Nous prouvons que CEPO hérite de toutes les garanties structurelles de sécurité de l’état de l’art antérieur, tout en affinant strictement le crédit attribué aux jetons décisifs, l’amélioration disparaissant exactement aux positions de remplissage. Empiriquement, CEPO atteint une précision moyenne de 43,43 % et 60,56 % sur cinq benchmarks de raisonnement mathématique multimodal aux échelles 2B et 4B respectivement, contre 41,17 % et 57,43 % pour GRPO sous des budgets d’apprentissage identiques. Les méthodes d’auto-distillation par correspondance de distributions (OPSD, SDPO) tombent en dessous de la ligne de base non entraînée, confirmant empiriquement la fuite d’information prédite par notre théorie. Notre code est disponible à l’adresse https://github.com/ahmedheakl/CEPO.
La Modélisation Énergétique des Bâtiments Urbains (MEBU) joue un rôle crucial dans la réalisation des Objectifs de Développement Durable 7 et 11 des Nations Unies. Bien que les études existantes basées sur l'imagerie satellite et l'apprentissage profond aient accompli des progrès remarquables, de nombreux défis subsistent : la plupart des études actuelles sont intrinsèquement prédictives, ne reflétant pas la nature générative de la planification urbaine ; bien que l'IA générative et les modèles de diffusion aient connu une croissance explosive dans le domaine de l'imagerie satellite, ils manquent de génération fonctionnelle urbaine (par exemple, la couche énergétique) ; troisièmement, les données énergétiques de bâtiments alignées, de haute qualité et haute résolution, associées à l'imagerie satellite, sont limitées et rares. Nous proposons ici SENSE (Synthèse Énergétique par Satellite pour un Environnement Durable), un cadre génératif unifié de MEBU qui synthétise conjointement des images satellite urbaines réalistes et des cartes alignées de consommation énergétique et de hauteur des bâtiments, de haute qualité. En se conditionnant sur les réseaux routiers et les métriques de densité urbaine, SENSE, basé sur un modèle de diffusion contrôlable, exploite les connaissances acquises par les grands modèles de vision pour générer, dans l'espace latent, des informations sur la consommation énergétique et la hauteur des bâtiments urbains (annotations). Des expériences menées dans quatre villes (New York, Boston, Lyon, Busan) démontrent que SENSE atteint une haute fidélité visuelle et une forte cohérence physique, satisfaisant la métrique standard de l'ASHRAE. Les expériences montrent que SENSE peut générer suffisamment de données synthétiques annotées en utilisant moins de 20 % des données énergétiques étiquetées, améliorant de 10 % l'IoU de la performance de prédiction en aval. Comparé aux méthodes de prédiction énergétique urbaine de pointe, SENSE réduit significativement l'erreur de prédiction (réduction de 3 % à 11 % du NMBE et de 1 % à 9 % du CVRMSE). Cette étude offre une solution de planification urbaine économe en énergie et de génération physique pour la science urbaine, la science de l'énergie et la science du bâtiment. Jeu de données et code : https://huggingface.co/datasets/skl24/MUSE et https://github.com/kailaisun/GenAI4Urban-Energy/.
Les modèles de diffusion vidéo ont réalisé des progrès rapides en termes de réalisme perceptuel et de cohérence temporelle, mais ils demeurent principalement optimisés pour une génération plausible plutôt que pour un raisonnement vérifiable. Cette limitation est particulièrement prononcée dans les tâches où les vidéos générées doivent satisfaire des contraintes spatiales, temporelles ou logiques explicites. Inspirés par le rôle de l'apprentissage par renforcement avec récompenses vérifiables (RLVR) dans les modèles de langage orientés raisonnement, nous introduisons VideoRLVR, une approche pratique pour optimiser les modèles de diffusion vidéo à l'aide d'un retour fondé sur des règles. VideoRLVR formule le raisonnement vidéo comme la génération de trajectoires visuelles vérifiables et se compose d'un noyau d'optimisation SDE-GRPO, de récompenses denses décomposées et d'une stratégie de focalisation sur les premières étapes (Early-Step Focus) pour un entraînement efficace. Cette stratégie restreint l'optimisation de la politique à la phase précoce de débruitage, réduisant la latence d'entraînement d'environ 40 % tout en préservant les performances. Nous évaluons VideoRLVR sur Maze, FlowFree et Sokoban, trois domaines générés procéduralement avec des critères de succès objectifs. Dans ces tâches, VideoRLVR améliore constamment les bases de référence du fine-tuning supervisé, les récompenses denses décomposées s'avérant particulièrement importantes dans les contextes à faible taux de réussite. Notre modèle optimisé par RL surpasse également les modèles de génération vidéo propriétaires et open source évalués sur ces benchmarks de raisonnement vérifiable ainsi que sur des benchmarks hors domaine. Ces résultats suggèrent que la RL vérifiable peut faire évoluer les modèles vidéo au-delà de l'imitation perceptuelle vers un raisonnement visuel plus fiable et conforme aux règles.
Les modèles Texte-Image (T2I) ont récemment connu des progrès notables autour des résolutions 1K et 2K. Avec le désir extrême d'une meilleure expérience visuelle et le développement rapide des technologies d'imagerie, la demande pour la génération d'images en Ultra-Haute Résolution (UHR) a considérablement augmenté. Cependant, la génération d'images UHR pose des défis majeurs en raison de la rareté et de la complexité du contenu haute résolution. Dans cet article, nous présentons d'abord PixVerve-95K, un ensemble de données UHR T2I de haute qualité et open-source, élaboré grâce à un pipeline de données soigneusement conçu, comprenant 95 000 images couvrant divers scénarios (chaque image ayant un nombre minimal de pixels de 100 millions) et des annotations sur sept dimensions. En nous appuyant sur notre ensemble de données image-texte à grande échelle, nous faisons un pas de pionnier en étendant divers modèles de base T2I à la génération native de 100MP grâce à trois schémas d'entraînement. Enfin, en utilisant à la fois des métriques conventionnelles et des évaluations basées sur des modèles de langage multimodaux à grande échelle, notre benchmark proposé, PixVerve-Bench, établit un protocole d'évaluation complet pour les images UHR, couvrant la qualité visuelle et l'alignement sémantique. Des résultats expérimentaux étendus sur notre benchmark et l'exploration constructive des stratégies d'entraînement fournissent ensemble des perspectives précieuses pour les futures avancées.
Les modèles multimodaux unifiés (UMMs) s'efforcent de consolider la compréhension visuelle et la génération visuelle au sein d'une seule architecture. Cependant, les paradigmes d'entraînement dominants optimisent indépendamment la compréhension via des signaux textuels épars et la génération via des objectifs de pixels denses. Une telle stratégie découplée produit des espaces de représentation mal alignés, isolant la compréhension visuelle de la génération et entravant leur renforcement mutuel. Ce travail présente la première investigation systématique du post-entraînement génératif, où nous formulons des tâches visuelles hiérarchiques comme proxies génératifs pour combler l'isolement dans les UMMs. Notre investigation empirique révèle que les tâches sémantiques de haut niveau, en particulier la segmentation d'image, servent de proxies optimaux. Contrairement aux tâches de bas niveau qui distraient les modèles avec des détails de texture, la segmentation fournit une sémantique structurelle qui améliore significativement à la fois la perception centrée sur la vision et la fidélité de la disposition générative. En nous appuyant sur ces observations, nous introduisons le Semantic Generative Tuning (SGT), un nouveau paradigme qui exploite la segmentation comme proxy génératif pour aligner et synergiser les capacités multimodales. Des analyses mécanistiques démontrent en outre que SGT améliore fondamentalement la séparabilité linéaire des caractéristiques et optimise le motif d'allocation d'attention visuo-textuelle. Des évaluations approfondies montrent que SGT améliore constamment à la fois la compréhension multimodale et la fidélité générative sur les benchmarks courants. Notre code est disponible sur https://song2yu.github.io/SGT/.
La génération de maillage 4D a récemment émergé comme un paradigme puissant pour reconstruire des structures 3D dynamiques à partir de vidéos, mais les méthodes existantes restent lentes, coûteuses en calcul et difficiles à généraliser à des séquences plus longues. Nous introduisons une approche sans entraînement qui accélère la génération de maillage 4D tout en améliorant la qualité des correspondances temporelles. Notre observation clé est que les correspondances temporelles émergent au sein d'un modèle de base 4D bien avant que ses maillages générés ne deviennent visuellement précis. Nous exploitons cela avec un cadre général que nous appelons Chaîne d'Attention Spatio-Temporelle, qui propage l'information à travers l'espace et le temps. Partant des sommets d'un maillage de référence, la chaîne mappe les sommets vers des jetons latents. Elle suit ensuite les correspondances temporelles dans l'espace latent et récupère des sommets spécifiques à chaque image via une attention latente-à-sommet. Cette conception évite un appariement explicite coûteux tout en préservant les détails du maillage de référence, améliorant ainsi la géométrie du maillage dynamique et la cohérence temporelle. Comparée à l'état de l'art, notre méthode génère un maillage 4D en 9 secondes, réalisant une accélération de 13 fois tout en produisant des résultats de meilleure qualité. De plus, notre approche s'adapte à des vidéos jusqu'à 16 fois plus longues sans dégrader la qualité du maillage. Au-delà de la génération, les correspondances améliorées permettent des performances zero-shot compétitives sur deux tâches en aval : le suivi d'objets 2D et le suivi 4D. Nous montrons également que notre cadre permet une estimation fiable de la caméra, une capacité non prise en charge par les méthodes antérieures de génération de maillage 4D.
La méthode 3D Gaussian Splatting (3DGS) permet une synthèse de vue novatrice en temps réel avec une qualité visuelle élevée. Cependant, les méthodes existantes rencontrent des difficultés avec les surfaces spéculaires semi-transparentes qui présentent à la fois des réflexions complexes et une transmission claire, produisant souvent des réflexions floues ou une transmission trop occultée. Pour y remédier, nous présentons RT-Splatting, un cadre qui dissocie l'occupation géométrique de chaque gaussienne de son opacité optique. Cette factorisation donne une représentation unifiée surface-volume de la scène avec un seul ensemble de primitives gaussiennes. Notre rendu hybride interprète cette représentation à la fois comme une surface pour capturer les réflexions haute fréquence et comme un volume pour préserver la transmission claire. Afin d'atténuer l'ambiguïté dans l'optimisation conjointe de la réflexion et de la transmission, nous introduisons le Filtrage de Gradient Sensible aux Spécularités, qui supprime les gradients trompeurs provenant des régions fortement spéculaires dans la branche de transmission, réduisant ainsi efficacement les artefacts flottants gênants. Les expériences sur des scènes semi-transparentes difficiles montrent que RT-Splatting atteint des performances de pointe, offrant des réflexions haute fidélité et une transmission claire avec un rendu en temps réel. De plus, notre factorisation permet naturellement une édition flexible des scènes. La page du projet est disponible à l'adresse https://sjj118.github.io/RT-Splatting.
Les Attention Residuals remplacent les connexions résiduelles additives standard par une attention softmax apprise sur les sorties des couches précédentes, permettant un routage sélectif entre couches. Cependant, les Attention Residuals standard portent toujours leur attention sur les états cachés cumulatifs des couches antérieures, qui sont hautement redondants. Nous montrons que cette redondance conduit à un effondrement du routage dans les couches profondes : les poids d'attention deviennent à faible contraste et se rapprochent de l'uniformité (poids maximal d’environ 0,2), limitant la capacité du modèle à sélectionner des états informatifs dans les couches précédentes. Cela soulève une question de conception clé mais peu explorée : quelles représentations par couche doivent être routées dans les Attention Residuals ? Pour répondre à cette question, nous proposons les Delta Attention Residuals, qui portent leur attention sur les deltas — le changement induit par chaque sous-couche (v_i = h_{i+1} - h_i) — plutôt que sur les états cumulatifs. Les représentations delta sont structurellement diverses et produisent des distributions d'attention à plus fort contraste (poids maximal d’environ 0,6), permettant un routage plus sélectif et efficace entre les couches. Ce principe s'applique à la fois au niveau de chaque sous-couche et à la granularité d'un bloc. À toutes les échelles testées (220M–7,6B), les Delta Attention Residuals surpassent systématiquement à la fois les résidus standards et les Attention Residuals, avec des gains de perplexité de validation de 1,7 à 8,2 %. Les Delta Attention Residuals permettent également de convertir des modèles pré-entraînés en Delta Attention Residuals via un fine-tuning standard. Le code est disponible à l'adresse https://github.com/wdlctc/delta-attention-residuals-code.
Des études récentes suggèrent que l'Ajustement Fin par Renforcement (RFT) est intrinsèquement plus résistant à l'oubli catastrophique que l'Ajustement Fin Supervisé (SFT). Cependant, la question de savoir si le RFT (par exemple, GRPO) peut effectivement surmonter l'oubli dans des contextes exigeants d'apprentissage continu visuel, tels que l'apprentissage incrémental par classe (CIL) et l'apprentissage incrémental par domaine (DIL), reste un problème ouvert. Grâce à une étude pilote, nous confirmons que bien que le RFT surpasse systématiquement le SFT, il souffre encore d'un oubli non négligeable. Nous attribuons empiriquement ce goulot d'étranglement à l'Agnosticisme de Dérive au Niveau des Trajectoires : parmi les déroulements candidats obtenant des récompenses de tâche identiques, la divergence KL par rapport à la politique de la tâche précédente varie considérablement, ce qui est fortement corrélé à l'oubli catastrophique entre les tâches séquentielles. Motivés par cette observation, nous proposons l'Optimisation de Politique avec Prise en Compte de la Rétention (RaPO), une méthode RFT simple mais efficace qui atténue explicitement l'oubli grâce à un façonnage de récompense au niveau des trajectoires. Spécifiquement, RaPO comprend deux composantes principales : (1) la Récompense de Rétention qui convertit la dérive de distribution au niveau des trajectoires en un signal de récompense continu, renforçant préférentiellement les déroulements préservant les connaissances au sein de chaque groupe ; (2) la Normalisation de l'Avantage Inter-Tâches (CTAN), qui maintient une moyenne mobile exponentielle persistante des statistiques de récompense à travers les frontières des tâches afin de stabiliser la progression de l'optimisation durant l'apprentissage continu. En exploitant la généralisation textuelle libre des MLLMs, nous évaluons de manière exhaustive RaPO sur cinq contextes d'apprentissage continu visuel. Des expériences approfondies démontrent que RaPO atteint des performances de premier plan, réduisant considérablement l'oubli catastrophique tout en préservant une forte plasticité. À notre connaissance, ce travail représente la première exploration systématique du RFT dans l'apprentissage continu visuel, offrant des perspectives que nous espérons inspireront les recherches futures.
Les agents basés sur de grands modèles de langage (LLM) opèrent de plus en plus fréquemment sur des contextes externes longs et récurrents, tels que des corpus documentaires et des référentiels de code. Au fil des invocations, les approches existantes préservent soit la trajectoire de l'agent, soit un accès passif au matériau brut, soit des stratégies au niveau de la tâche. Aucune d'elles ne préserve ce que nous considérons comme le plus nécessaire pour des charges de travail répétées dans un même contexte : une connaissance d'orientation réutilisable (par exemple, ce que contient le contexte, comment il est organisé, et quelles entités, constantes et schémas se sont historiquement avérés utiles) concernant le contexte récurrent lui-même. Nous introduisons PEEK, un système qui met en cache et maintient cette connaissance d'orientation sous la forme d'une carte de contexte : un artefact de taille constante et réduite dans le prompt de l'agent, lui offrant un aperçu persistant du contexte externe. La carte est gérée par une politique de cache programmable comprenant trois modules : un Distillateur qui extrait des connaissances transférables à partir de signaux d'inférence, un Cartographe qui les traduit en modifications structurées, et un Évinceur basé sur la priorité qui impose un budget de jetons fixe. En matière de raisonnement sur de longs contextes et d'agrégation d'informations, PEEK améliore les performances par rapport à des références solides de 6,3 à 34,0 %, tout en utilisant 93 à 145 itérations de moins et en engendrant un coût 1,7 à 5,8 fois inférieur à celui du framework d'apprentissage de prompts le plus avancé, ACE. Pour l'apprentissage contextuel, PEEK améliore le taux de résolution et la précision du barème de correction de 6,0 à 14,0 % et de 7,8 à 12,1 %, respectivement, avec un coût 1,4 fois inférieur à celui d'ACE. Ces gains se généralisent à travers les modèles de langage et les architectures d'agents, y compris OpenAI Codex, un agent de codage de niveau production. Ensemble, ces résultats montrent qu'une carte de contexte aide les agents LLM à interagir avec des contextes externes récurrents de manière plus précise et plus efficace.
Le décodage spéculatif (DS) accélère l'inférence des grands modèles de langage en exploitant un paradigme d'ébauche puis vérification. Pour maximiser le taux d'acceptation, les méthodes récentes construisent des arbres d'ébauche étendus, ce qui entraîne malheureusement de lourdes surcharges en bande passante VRAM et en calcul, limitant les accélérations de bout en bout. Un élagage à profondeur dynamique peut réduire cette latence en supprimant les branches marginales, mais il écarte également des candidats potentiellement valides, empêchant le taux d'acceptation d'atteindre la borne supérieure des arbres denses. Dans cet article, nous identifions une opportunité cruciale dans l'allocation des ressources : le passage d'une ébauche dense à une ébauche élaguée libère un budget de calcul significatif. Pour briser ce compromis de Pareto, nous introduisons Greffe, un cadre de compensation qui couple élagage et récupération comme des opérations mutuellement renforcées. L'élagage fournit un budget suffisant pour la récupération, tandis que la récupération compense la perte de couverture induite par l'élagage et récupère la longueur acceptée. En employant un mécanisme séquentiel « élaguer puis greffer », Greffe attache des tokens hautement prédictifs récupérés aux positions libérées par l'élagage, comblant les lacunes topologiques avec un surcoût quasi nul. Greffe est entièrement sans entraînement et sans perte. Des évaluations complètes montrent que Greffe établit une nouvelle frontière de Pareto dans diverses configurations de déploiement pratiques, notamment la génération en contexte court, la génération en contexte long et les modèles à grande échelle. Sur les benchmarks à contexte court, il atteint une accélération jusqu'à 5,41 fois et améliore l'accélération moyenne par rapport à EAGLE-3 jusqu'à 21,8 % sur le modèle à grande échelle Qwen3-235B. Nous fournissons également une exploration préliminaire de l'application de Greffe au paradigme d'ébauche par blocs de style DFlash, offrant des preuves et des perspectives initiales pour étendre la greffe au-delà des arbres d'ébauche autorégressifs.
L'entraînement de l'Éclaboussure de Gaussiennes 3D (3DGS) à l'échelle de milliards de primitives est fondamentalement limité par la mémoire : chaque primitive gaussienne porte un grand vecteur d'attributs, et la table de paramètres agrégée dépasse rapidement la capacité du GPU, limitant les systèmes antérieurs à des dizaines de millions de gaussiennes sur du matériel à GPU unique grand public. Nous observons que l'entraînement 3DGS est intrinsèquement sparse et conditionné par la trajectoire : chaque itération n'active que les gaussiennes visibles depuis le lot de caméras actuel, de sorte que la mémoire GPU peut servir de cache d'espace de travail plutôt que de stockage persistant de paramètres. En nous appuyant sur cette observation, nous introduisons TideGS, un framework d'entraînement hors mémoire centrale qui gère les paramètres à travers une hiérarchie SSD-CPU-GPU via trois techniques synergiques : une géométrie virtualisée par blocs pour une localité spatiale alignée sur le SSD, un pipeline asynchrone hiérarchique pour chevaucher les E/S avec le calcul, et un streaming différentiel adaptatif à la trajectoire qui transfère uniquement les deltas incrémentaux de l'espace de travail entre les itérations. Les expériences montrent que TideGS permet un entraînement avec plus d'un milliard de gaussiennes sur un seul GPU de 24 Go tout en atteignant la meilleure qualité de reconstruction parmi les références sur GPU unique évaluées sur des scènes à grande échelle, dépassant les références hors mémoire antérieures (par exemple, environ 100 millions de gaussiennes) et l'entraînement standard en mémoire (par exemple, environ 11 millions de gaussiennes).
L'apprentissage par renforcement avec récompenses vérifiables a rendu le post-entraînement très efficace lorsque l'exactitude peut être vérifiée automatiquement. Cependant, de nombreux comportements importants des modèles nécessitent de satisfaire simultanément plusieurs critères qualitatifs. Les récompenses basées sur des grilles d'évaluation (rubric-based rewards) répondent à ce contexte en notant des critères spécifiques à chaque requête et en les agrégeant en une récompense scalaire. Pourtant, les agrégations statiques standard confondent l'importance attribuée par un humain à un critère avec son utilité actuelle en tant que signal d'optimisation. Nous montrons que cette hypothèse est erronée dans le RL basé sur des grilles : de nombreux critères importants sont déjà saturés ou actuellement inaccessibles, tandis que les critères qui distinguent les rollouts ne sont pas nécessairement ceux ayant les poids humains les plus élevés. Nous introduisons POW3R, un cadre de récompense basé sur des grilles et conscient de la politique, qui préserve les poids humains et l'équilibre des catégories comme objectif de la grille tout en adaptant les poids des récompenses au niveau des critères durant l'entraînement. POW3R utilise un contraste au niveau des rollouts pour mettre l'accent sur les critères qui séparent actuellement les sorties de la politique, rendant la récompense GRPO plus informative sans modifier la cible d'évaluation sous-jacente. Sur trois politiques de base et deux jeux de données couvrant des contextes multimodaux et textuels, POW3R remporte 24 des 30 comparaisons politique de base/métrique, améliorant à la fois la récompense moyenne de la grille et l'achèvement strict (la fraction de requêtes dont la réponse satisfait tous les critères requis de la grille) par rapport à GRPO standard avec récompenses basées sur des grilles, et atteint le même plateau en 2,5 à 4 fois moins d'étapes d'entraînement. Les récompenses basées sur des grilles doivent donc distinguer ce qui devrait compter dans la réponse finale de ce qui peut enseigner la politique actuelle.
Cet article aborde la tâche d'apprentissage de la génération de signaux sur des maillages triangulaires d'une manière indépendante de la triangulation, ce qui signifie que le modèle entraîné peut être appliqué efficacement à différents maillages et triangulations. En pratique, l'article adapte le paradigme du flow matching (FM) à un contexte basé sur des maillages et indépendant de la triangulation. Théoriquement, il propose une distribution de bruit spécifique, indépendante de la triangulation, à utiliser dans le processus de débruitage du modèle FM. Alors que les distributions de bruit sont généralement triviales à concevoir pour, par exemple, les images, concevoir une distribution indépendante de la triangulation s'avère être une tâche bien plus difficile. Nous formulons une définition mathématique de l'indépendance à la triangulation des distributions, via leur spectre. Nous montrons ensuite qu'une discrétisation d'un champ aléatoire gaussien spécifique appelé processus de Matérn possède ces propriétés souhaitées, et fournit un algorithme d'échantillonnage simple et efficace. Nous l'utilisons comme modèle de bruit, et adaptons FM au contexte indépendant de la triangulation en utilisant une approche de pointe pour l'apprentissage de signaux sur des maillages dans le domaine des gradients — PoissonNet — comme débruiteur. Nous menons des expériences sur des tâches élaborées telles que l'échantillonnage d'états de repos élastiques et la génération de poses d'humanoïdes. Notre méthode se révèle capable de produire des résultats très réalistes pour des maillages de plus d'un million de triangles, dépassant significativement l'état de l'art en termes de qualité et de diversité.
La manipulation dextre est très exigeante en termes de physique et extrêmement sensible aux erreurs de modélisation et au bruit de perception, ce qui rend le transfert sim-vers-réel particulièrement difficile. La randomisation de domaine (DR) est couramment utilisée pour améliorer la robustesse des politiques apprises pour de telles tâches, mais la DR conventionnelle randomise une instance par épisode, offrant ainsi une exposition très limitée à la variabilité des dynamiques du monde réel. À cette fin, nous proposons l’Ensemble d’Instances Randomisées de Domaine (DRIS), qui représente et propage simultanément un ensemble d’instances randomisées, offrant une approximation plus riche des dynamiques incertaines et permettant aux politiques d’apprendre des actions tenant compte de multiples résultats possibles. Soutenu par une analyse théorique, nous montrons que DRIS génère des politiques plus robustes et réduit le besoin de réglage fin dans le monde réel, même avec un nombre modeste d’instances (par exemple, 10). Nous le démontrons sur une tâche exigeante de rattrapage réactif. Contrairement aux configurations de rattrapage traditionnelles qui utilisent des effecteurs conçus pour stabiliser mécaniquement l’objet (par exemple, des surfaces courbes ou enveloppantes), notre système utilise une plaque plate n’offrant aucune stabilisation passive, rendant la tâche très sensible au bruit et nécessitant des mouvements réactifs rapides. Les politiques apprises présentent une forte robustesse face aux incertitudes et réalisent un transfert sim-vers-réel zero-shot fiable.
Les benchmarks de questions à choix multiples évaluent généralement les petits modèles de langage (SLM) en tant que répondeurs directs, mais les systèmes de modèles de langage déployés s'appuient de plus en plus sur des échafaudages externes tels que des outils, du code et des appels répétés au modèle. Nous présentons le raisonnement guidé par le code (CGR), un protocole d'évaluation et une ressource de programmes générés pour mesurer quand les échafaudages de raisonnement exécutables améliorent les performances des SLM sur les tâches MCQA. CGR standardise six composants : une interface normalisée pour les items, un prompt de solveur direct, un prompt de générateur, un échafaudage Python, des aides pour l'appel au solveur et l'extraction, ainsi qu'un enregistrement de résultats à trois canaux. Sur 20 498 lignes de résultats retenues provenant d'un ensemble MCQA préparé localement et de six modèles solveurs enregistrés avec métadonnées, la partition de base non nulle observée montre une précision assistée macro de 66,21 % contre une précision directe de 38,11 %, soit une différence de +28,10 points de pourcentage avec un intervalle de bootstrap par paires de [20,32, 36,43]. Sous une condition de seuil plus stricte Ab > 30 % de signal direct, la différence macro est de +14,11 points. Ces estimations sont descriptives. L'inférence assistée utilise un budget d'appels au solveur plus important, l'extraction de réponses est fragile, Time-MQA contient les régressions observées, et certains programmes générés violent l'instruction d'absence de codage en dur. CGR fournit le paquet de traces nécessaire pour interpréter ces résultats, y compris les réponses directes, assistées et du côté du générateur, les définitions de partitions, les programmes générés, les métadonnées de réponse et les audits.
Les applications modernes des grands modèles de langage (LLM) reposent de plus en plus sur de longs préfixes de conditionnement pour contrôler le comportement du modèle au moment de l'inférence. Bien que l'inférence augmentée par préfixe soit efficace, elle souffre de deux limitations structurelles : i) l'influence du préfixe s'estompe à mesure que la génération progresse, et ii) le calcul d'attention sur le préfixe évolue linéairement avec sa longueur. Les approches existantes conservent soit le préfixe dans l'attention tout en le compressant, soit l'internalisent dans les paramètres du modèle via un entraînement basé sur les gradients. La première méthode continue de traiter le préfixe lors de l'inférence, tandis que la seconde est coûteuse en entraînement et mal adaptée aux mises à jour du préfixe. Pour résoudre ces problèmes, nous proposons la mémoire d'état d'attention, une approche sans entraînement qui externalise le préfixe dans une mémoire légère basée sur une recherche d'états d'attention précalculés entre les jetons du préfixe et ceux de la requête. Sur ManyICLBench avec LLaMA-3.1-8B, notre méthode améliore la précision par rapport à l'apprentissage en contexte pour des budgets mémoire de 1K à 8K, tout en réduisant la latence d'attention d'un facteur 1,36 à 8K, et dépasse les performances RAG à attention complète sur le benchmark NBA en utilisant seulement 20 % de son empreinte mémoire.
Un seul système d'optimisation basé sur un LLM peut-il égaler des outils spécialisés dans des domaines fondamentalement différents ? Nous montrons que, lorsque les problèmes d'optimisation sont formulés comme l'amélioration d'un artefact textuel évalué par une fonction de score, un unique système d'optimisation basé sur l'IA — prenant en charge la recherche mono-tâche, la recherche multi-tâches avec transfert inter-problèmes et la généralisation à des entrées inédites — obtient des résultats de pointe sur six tâches diverses. Notre système découvre des architectures d'agent qui triplent presque la précision ARC-AGI de Gemini Flash (de 32,5 % à 89,5 %), trouve des algorithmes d'ordonnancement qui réduisent de 40 % les coûts dans le cloud, génère des noyaux CUDA dont 87 % égalent ou surpassent PyTorch, et surpasse la solution d'empilement de cercles rapportée par AlphaEvolve (n=26). Des ablations menées sur trois domaines révèlent que des informations contextuelles exploitables permettent une convergence plus rapide et des scores finaux nettement supérieurs à un simple retour de score, et que la recherche multi-tâches surpasse l'optimisation indépendante à budget par problème équivalent grâce au transfert inter-tâches, les bénéfices augmentant avec le nombre de tâches connexes. Ensemble, nous montrons pour la première fois que l'optimisation de texte par recherche basée sur un LLM constitue un paradigme de résolution de problèmes à usage général, unifiant sous un même cadre des tâches qui nécessitaient traditionnellement des algorithmes spécifiques à chaque domaine. Nous publions en open source optimize_anything avec le support de plusieurs backends dans le cadre du projet GEPA à l'adresse https://github.com/gepa-ai/gepa .
Les modèles d'attribution d'auteur affinés avec le même encodeur pré-entraîné, les mêmes données et la même fonction de perte peuvent présenter une différence de performance quadruple selon uniquement leur mécanisme de scoring. Nous utilisons des outils d'interprétabilité mécaniste pour expliquer cet écart. Les caractéristiques stylistiques telles que la longueur des mots, la densité de ponctuation et la fréquence des mots-outils sont également disponibles à chaque couche dans chaque modèle, y compris dans un encodeur de contrôle standard, d'où le fait que l'écart ne provienne pas de la qualité de la représentation. Au contraire, l'intervention causale montre que le scoreur détermine où l'encodeur consolide le signal d'auteur. Le pooling moyen force la consolidation dans les couches précoces à intermédiaires, tandis que l'interaction tardive la reporte aux couches ultérieures. Nous dérivons en outre cette différence de la structure de gradient de chaque scoreur, et la dynamique d'entraînement révèle des trajectoires d'apprentissage distinctes découlant de cette différence.
L'intelligence spatiale se déploie dans une boucle perception-action : les agents agissent pour acquérir des observations et raisonnent sur la manière dont les observations varient en fonction de l'action. Plutôt que de traiter passivement ce qui est vu, ils découvrent activement ce qui est invisible — structures occultées, dynamiques, contenance et fonctionnalités qui ne peuvent être résolues par la seule perception passive. Nous dépassons les formulations antérieures de l'intelligence spatiale qui supposent des observations de type oracle en redéfinissant l'observateur comme un acteur. Nous introduisons ESI-BENCH, un benchmark complet pour l'intelligence spatiale incarnée couvrant 10 catégories de tâches et 29 sous-catégories, construit sur OmniGibson et ancré dans les systèmes de connaissances fondamentaux de Spelke. Les agents doivent décider quelles capacités déployer — perception, locomotion et manipulation — et comment les séquencer pour accumuler activement des preuves pertinentes pour la tâche. Nous menons des expériences approfondies sur des MLLMs de pointe et constatons que l'exploration active surpasse largement les approches passives, les agents découvrant spontanément des stratégies spatiales émergentes sans instructions explicites, tandis que les vues multiples aléatoires ajoutent souvent du bruit plutôt que du signal, malgré une consommation bien supérieure d'images. La plupart des échecs ne proviennent pas d'une perception faible mais d'une cécité d'action : de mauvais choix d'action entraînent de mauvaises observations, qui à leur tour génèrent des erreurs en cascade. Alors que l'ancrage explicite en 3D stabilise le raisonnement sur les tâches dépendantes de la profondeur, une représentation 3D imparfaite s'avère plus nuisible que les références 2D en déformant les relations spatiales. Des études humaines révèlent en outre que, contrairement aux humains qui recherchent des points de vue infirmants et révisent leurs croyances face à une contradiction, les modèles s'engagent prématurément avec une confiance élevée, quelle que soit la qualité des preuves, exposant un fossé métacognitif que ni une meilleure perception ni une interaction incarnée plus poussée ne peuvent combler à elles seules.
Les grands modèles de langage omnimodaux (om-LLMs) parviennent à une compréhension audiovisuelle unifiée en encodant la vidéo et l'audio en séquences de tokens temporellement alignées, entrelacées au niveau de la fenêtre. Cependant, le traitement de ces tokens non textuels denses tout au long du LLM entraîne une surcharge computationnelle substantielle. Bien qu'une sélection de tokens sans entraînement puisse réduire ce coût, les méthodes existantes se concentrent soit sur des entrées uniquement visuelles, soit élaguent les tokens des om-LLMs uniquement avant le LLM avec des ratios fixes par modalité, sans parvenir à capturer l'évolution de l'importance des tokens inter-modaux à travers les couches. Pour pallier cette limitation, nous analysons d'abord la dépendance des tokens par couche dans les om-LLMs. Nous constatons que les dépendances visuelles et audio suivent un motif par blocs et s'affaiblissent progressivement avec la profondeur, ce qui indique que de nombreux tokens non textuels des couches tardives deviennent redondants après la fusion inter-modale. Motivés par cette observation, nous proposons SEATS, une méthode de sélection de tokens sans entraînement et adaptative par étapes pour une inférence efficace des om-LLMs. Avant le LLM, SEATS supprime la redondance spatio-temporelle via une sélection de diversité pondérée par l'attention. À l'intérieur du LLM, elle élimine progressivement les tokens à travers les blocs et alloue dynamiquement le budget de rétention des fenêtres temporelles aux modalités à l'aide de scores de pertinence des requêtes. Dans les couches tardives, elle supprime tous les tokens non textuels restants une fois la fusion inter-modale terminée. Les expériences menées sur Qwen2.5-Omni et Qwen3-Omni montrent que SEATS améliore efficacement l'efficacité d'inférence. En ne conservant que 10% des tokens visuels et audio, elle obtient une réduction de 9,3 fois des FLOPs et une accélération de 4,8 fois du pré-remplissage, tout en préservant 96,3% des performances originales.
Les modèles de diffusion vidéo autorégressifs permettent une génération ouverte grâce à l'attention locale et à la mise en cache KV. Cependant, les méthodes d'optimisation de vidéos longues sans entraînement existantes se concentrent principalement sur l'extension stable sous une seule invite, ce qui les rend difficiles à appliquer aux scénarios interactifs impliquant des changements d'invite, l'oubli de scènes anciennes et le rappel de scènes historiques. Nous identifions le goulot d'étranglement principal comme l'enchevêtrement fonctionnel des états KV historiques : les ancres stables et les dynamiques récentes sont gérées par la même politique de cache, entraînant une contamination par l'arrière-plan obsolète, une réponse retardée aux nouvelles invites et une perte de mémoire à long terme. Pour résoudre ce problème, nous proposons Echo-Forcing, un cadre de mémoire de scène sans entraînement spécifiquement conçu pour la génération interactive de vidéos longues, avec trois mécanismes principaux : (1) Mémoire Temporelle Hiérarchique, qui désolidarise les ancres stables, l'historique compressé et les fenêtres récentes sous RoPE relatif ; (2) Images de Rappel de Scène, qui compriment les scènes historiques en représentations KV spatialement structurées pour soutenir le rappel à long terme ; et (3) Déclin de Mémoire Différentiel, qui oublie adaptativement les jetons conflictuels en fonction de l'écart entre les scènes anciennes et nouvelles. Basé sur ces conceptions, Echo-Forcing supporte uniformément les transitions douces, les coupures franches et le rappel de scène à longue portée sous un budget de cache limité. Des évaluations approfondies sur VBench-Long démontrent en outre qu'Echo-Forcing atteint la meilleure performance globale dans les contextes de génération de vidéos longues et de génération de vidéos interactives. Notre code est publié sur https://github.com/mingqiangWu/Echo-Forcing.
L'efficacité de l'Apprentissage par Renforcement (AR) dans les Grands Modèles de Langage (GML) dépend de la nature et de la diversité des données utilisées avant et pendant l'AR. En particulier, les problèmes de raisonnement peuvent souvent être abordés de multiples manières reposant sur différentes formes de raisonnement, et une exposition à un éventail trop restreint de ces approches dans les données d'entraînement peut limiter l'efficacité de l'AR. Motivés par ce constat, nous étudions l'utilisation de données auto-générées diversifiées lors d'un entraînement intermédiaire, en tant qu'étape préalable à l'entraînement par AR. Plus précisément, nous adoptons un cadre de génération de données bootstrap guidé par les approches de résolution de problèmes de George Pólya, afin de produire plusieurs variantes de réponses correctes pour chaque question dans les données d'entraînement, puis nous effectuons un fine-tuning. Nous présentons d'abord une perspective théorique sur la manière dont l'entraînement intermédiaire sur de telles données améliore l'AR, et expliquons comment les mises à jour par gradient de politique peuvent inciter à combiner plusieurs approches. Nous démontrons ensuite empiriquement que les modèles entraînés par AR, initialisés avec nos données d'entraînement intermédiaire, obtiennent des améliorations cohérentes sur divers critères de raisonnement mathématique ainsi que sur d'autres tâches hors distribution (OOD), telles que la génération de code et le raisonnement narratif. Dans l'ensemble, notre étude exploratoire montre que l'apprentissage de multiples approches de résolution de problèmes par un modèle de langage, via des données auto-générées, favorise l'AR ultérieur.
Alors que les systèmes agentiques autonomes se déploient à grande échelle dans des infrastructures critiques régulées, l’absence de mise en œuvre mécanique ancrée dans le matériel pour des mises à jour de politiques à haute fréquence constitue une lacune fondamentale en matière de sécurité. Nous présentons Ethical Hyper-Velocity (EHV), un nouveau cadre architectural pour la vérification formelle en temps réel des politiques de gouvernance en IA. Contrairement aux cadres d’audit rétrospectifs (ISO/IEC 42001, NIST AI RMF) qui introduisent des latences de 14 à 30 jours, EHV replace le Point d’Application des Politiques (PEP) dans le pipeline d’inférence via un Compilateur Juste-à-Temps (JIT) Sensible à la Gouvernance. En intégrant des Types de Données Répliquées sans Conflit (CRDT) pour la synchronisation des politiques et une Mémoire Cache d’Attestation par Époques dans des Environnements d’Exécution de Confiance (TEE), EHV atteint un Déterminisme Formel Sous-Milliseconde (SMFD). Nous démontrons, via la vérification formelle TLA+, que les actions agentiques non conformes sont inaccessibles par le calcul dans l’espace d’état opérationnel borné du système. Nous prouvons que la mise en œuvre à temps d’exécution en O(1) peut éliminer le compromis traditionnel entre vélocité de déploiement et intégrité de la gouvernance, réduisant la Latence de Gouvernance de O(jours) à O(1).
Le raisonnement en chaîne (chain-of-thought, CoT) est une approche standard pour extraire les capacités de raisonnement des grands modèles de langage (LLMs). Cependant, le paradigme courant du CoT considère la réflexion comme un prérequis à la réponse, ce qui peut retarder l'accès à des réponses plausibles et engendrer des coûts inutiles en jetons, même lorsque le modèle est capable d'identifier une réponse avant une réflexion approfondie, un comportement connu sous le nom de raisonnement performatif. Dans cet article, nous introduisons CopT, un pipeline de raisonnement reformulé qui inverse l'ordre habituel de la réflexion et de la réponse. Au lieu de réfléchir avant de répondre, CopT sollicite d'abord une réponse provisoire, puis déclenche un raisonnement on-policy ultérieur conditionné par sa propre réponse provisoire pour la réflexion et la correction. Pour évaluer si la réponse provisoire doit être considérée comme fiable, CopT reconfigure les plongements continus en vérificateurs contrastifs au moment de l'inférence. Plus précisément, il oppose le soutien du modèle pour les mêmes jetons générés sous des entrées à jetons discrets et des entrées à plongements continus, produisant un estimateur de KL inverse au niveau de la séquence pour la fiabilité de la réponse. Notre analyse montre que, sous certaines hypothèses, l'estimation attendue égale l'information mutuelle entre l'état latent non résolu et le jeton de réponse émis, expliquant pourquoi elle capture l'incertitude pertinente à la réponse plutôt qu'une incertitude arbitraire dans l'état latent. Lorsque la réponse est jugée insuffisamment fiable, CopT effectue un raisonnement on-policy supplémentaire, où un second estimateur de KL contrôle dynamiquement la visibilité de la réponse provisoire, préservant des informations partielles utiles tout en réduisant le risque d'être induit en erreur par un contenu peu fiable. Dans des tâches de mathématiques, de codage et de raisonnement agentique, CopT améliore la précision maximale jusqu'à 23 % et réduit l'utilisation de jetons jusqu'à 57 % avec une précision comparable ou supérieure, sans aucun entraînement supplémentaire. Le code est disponible à l'adresse https://github.com/sdc17/CopT.
Les humains communiquent naturellement par des concepts abstraits comme l'« humeur ». Cependant, les repères actuels en édition d'images se concentrent principalement sur des commandes explicites et littérales, laissant les instructions abstraites largement sous-explorées. Dans ce travail, nous formalisons d'abord la définition et la taxonomie de l'édition d'images abstraite. Pour mesurer le suivi d'instructions dans ce domaine difficile, nous introduisons Entity-Rubrics, un cadre qui décompose les modifications abstraites en évaluations individuelles au niveau des entités et obtient une forte corrélation avec le jugement humain. Parallèlement à ce cadre, nous contribuons à AbstractEdit, le premier repère dédié à l'édition d'images abstraite dans des scènes réelles diverses. L'évaluation de 11 modèles leaders sur cet ensemble de données révèle un défi fondamental : les architectures standard peinent à équilibrer l'intention et la préservation, adoptant par défaut soit la sous-édition, soit la sur-édition. Notre analyse démontre que des améliorations significatives reposent largement sur l'intégration d'encodeurs de texte LLM avancés et d'une réflexion itérative. En perspective, notre paradigme basé sur les entités peut se généraliser au-delà de l'évaluation pour servir de modèle de récompense, permettre aux modèles d'interpréter correctement la communication abstraite, ou mettre en évidence des échecs spécifiques dans les boucles de critique pendant l'inférence. Enfin, nous espérons que ce travail servira de tremplin vers une interaction multimodale fluide, comblant le fossé entre l'exécution rigide des machines et la manière naturelle et ouverte dont les humains communiquent.
Les attaques par porte dérobée sur les modèles de langage constituent une préoccupation de sécurité croissante, mais les mécanismes internes par lesquels une séquence déclencheuse détourne les calculs du modèle restent mal compris. Nous identifions un circuit sous-jacent à une porte dérobée de commutation linguistique dans un modèle de langage autorégressif de 8 milliards de paramètres, où un déclencheur latin de trois mots (neuf tokens) redirige la sortie en anglais vers le français. Nous décomposons le circuit en trois phases : (1) des têtes d'attention distribuées dans les premières couches composent les tokens déclencheurs dans la dernière position séquentielle ; (2) le signal résultant se propage à travers les couches intermédiaires dans un sous-espace orthogonal à la direction naturelle d'identité linguistique du modèle ; (3) le MLP de la dernière couche convertit ce signal latent en logits français. L'ensemble du circuit transite par un goulot d'étranglement sériel en une seule position : corrompre cette position à n'importe quelle couche atténue entièrement le déclencheur mais entrave également les capacités du modèle. L'encodage latent orthogonal suggère que les défenses recherchant des signaux de type linguistique dans les représentations intermédiaires manqueraient complètement ce déclencheur.
La compréhension de documents multilingues reste limitée pour les langues peu dotées en ressources en raison de la rareté des données d'entraînement et de pipelines d'annotation basés sur des modèles qui perpétuent les biais existants. Nous présentons DocAtlas, un cadre qui construit des ensembles de données OCR haute-fidélité et des benchmarks couvrant 82 langues et 9 tâches d'évaluation. Nos deux pipelines, le rendu différentiel de documents DOCX natifs et la génération synthétique basée sur LaTeX pour les écritures de droite à gauche, produisent des annotations structurelles précises dans un format unifié DocTag encodant la mise en page, le texte et les types de composants, sans modèles appris pour l'annotation de base. L'évaluation de 16 modèles de pointe révèle des lacunes persistantes dans les écritures peu dotées en ressources. Nous montrons que l'Optimisation par Préférence Directe (DPO) utilisant la vérité terrain dérivée du rendu comme signal positif permet une adaptation multilingue stable, améliorant à la fois la précision intra-domaine (+1,9%) et hors domaine (+1,8%) sans dégradation mesurable de la langue de base, tandis que le fine-tuning supervisé dégrade les performances hors domaine jusqu'à 21%. Notre meilleure variante, DocAtlas-DeepSeek, améliore de +1,7% par rapport au baseline le plus fort.
L'interaction duplex en temps réel est essentielle pour les systèmes d'IA multimodaux opérant dans des scénarios réels, où les modèles doivent traiter en continu des flux d'entrée et répondre à des moments appropriés. Cependant, la plupart des modèles de langage multimodaux de grande taille (MLLMs) existants sont évalués dans des contextes hors ligne, où la totalité de l'entrée vidéo est traitée avant de générer une réponse. Bien que des travaux récents aient commencé à explorer les MLLMs duplex en temps réel, il n'existe toujours pas de référentiel complet ni de méthode d'évaluation automatique pour ce cadre. Pour combler cette lacune, nous proposons Omni-DuplexEval, un référentiel pour évaluer systématiquement l'interaction duplex en temps réel. Ce référentiel comprend deux scénarios complémentaires : (1) la description en temps réel, qui évalue la capacité à générer des réponses continues et temporellement alignées qui suivent l'évolution des entrées multimodales, et (2) le rappel proactif, qui évalue la capacité à identifier des événements saillants et à répondre à des moments appropriés. Omni-DuplexEval contient 660 vidéos avec des annotations fines réalisées par des humains et des métadonnées temporelles précises, couvrant 9 tâches ancrées dans des scénarios réels, où toutes les questions sont formulées sous forme de requêtes ouvertes. Nous introduisons également un cadre d'évaluation automatique basé sur le LLM en tant que juge, qui permet une évaluation systématique en jugeant conjointement l'alignement contenu-réponse et le moment de la réponse via un raisonnement temporel et séquentiel conscient des horodatages, atteignant ainsi une forte concordance avec les jugements humains. Les expériences menées sur des MLLMs duplex de pointe révèlent des limitations substantielles. Le modèle le plus performant n'atteint que 39,6 % de score global, et seulement 20,0 % sur le rappel proactif. Notre analyse identifie deux défis clés : les modèles peinent à équilibrer des réponses rapides avec une génération de contenu cohérente et globale, et ils échouent souvent à déterminer à la fois quand répondre et quoi produire. Nous espérons que notre travail favorisera de nouveaux progrès dans les MLLMs.
Les récents progrès des grands modèles de langage ont conduit à l'émergence de modèles de raisonnement, qui démontrent de solides performances sur des tâches complexes grâce à des procédures d'ajustement fin spécialisées. Bien que ces méthodes améliorent de manière fiable la précision pass@1, des travaux antérieurs ont observé qu'elles présentent un comportement de rétrécissement de la couverture, où le pass@k se dégrade par rapport au modèle de base. Dans cet article, nous étudions l'origine du rétrécissement du raisonnement dans le cadre du post-entraînement basé sur SFT. Nous émettons l'hypothèse que ce comportement est motivé par les propriétés des données d'ajustement fin, en particulier en ce qui concerne les points de décision ou les scénarios de « bifurcations » où le modèle est confronté à des modèles indéchiffrables avec plusieurs chemins de raisonnement valides. Pour tester cette hypothèse, nous concevons des études de cas contrôlées qui simulent de tels contextes de points de décision, couvrant des nœuds indéchiffrables dans le branchement de graphes et les modes de raisonnement. En suivant la dynamique du post-entraînement dans ces contextes, nous constatons que le phénomène de rétrécissement est étroitement corrélé à la prévalence de scénarios de points de décision dans les données d'entraînement. Nous démontrons également que ce comportement de rétrécissement peut être partiellement atténué grâce à une conception ciblée de synthèse de données des points de décision et à un mécanisme de décodage systématique favorisant la diversité. Nos résultats identifient les facteurs centrés sur les données comme un moteur clé du rétrécissement dans les modèles de raisonnement et soulignent les conceptions sensibles à la diversité comme un levier efficace pour le contrôler.
La conception des architectures neuronales modernes a convergé par des choix empiriques incrémentaux, mais les mécanismes régissant leurs dynamiques d'apprentissage ne sont encore que partiellement compris. Nous identifions et analysons une dérive négative des poids induite par l'interaction entre les pertes standard et les fonctions d'activation à biais positif. Nous prouvons que sous la perte MSE ou l'entropie croisée, le gradient par rapport aux pré-activations positives est non négatif en espérance à l'initialisation, entraînant les poids aval vers des valeurs négatives en début d'apprentissage. La dérive est intrinsèque à l'optimisation plutôt qu'aux données, et persiste à travers les architectures (MLP, ResNet, ViT, GPT-nano, MP-SENe) et les fonctions d'activation asymétriques (ReLU, GELU, SiLU). Couplée à ReLU, la dérive des poids produit une parcimonie d'activation atteignant jusqu'à 90 % dans GPT-nano. Nous caractérisons le compromis parcimonie-précision sur 79 configurations et identifions un précipice de précision au-delà d'environ 70 % de parcimonie d'activation. Bien que ReLU^2 atteigne un bon rapport parcimonie-précision dans GPT-nano, il amplifie pathologiquement les pics d'activation identifiés dans les couches intermédiaires du transformeur. Le clipping résout ce problème tout en préservant les avantages représentationnels de l'élévation au carré : ReLU^2 avec clipping surpasse sa version non clippée, et GELU^2 atteint la perte de validation la plus faible sur GPT-nano. Le code est disponible à l'adresse https://github.com/On-Point-RND/BugOrFeature.
Les grands modèles de langage (LLM) sont très vulnérables aux attaques par porte dérobée (BA), dans lesquelles des échantillons d’apprentissage sont empoisonnés à l’aide de contenu nuisible basé sur des déclencheurs. De plus, les défenses existantes se sont révélées inefficaces lorsqu’elles sont testées de manière approfondie sur différents schémas de BA. Pour mieux lutter contre les BA, nous explorons l’utilisation de la réécriture par LLM comme défense proactive contre l’empoisonnement des données. Premièrement, nous montrons théoriquement que lorsque la réécriture par LLM utilise des échantillons bénins à livre ouvert – ce que nous appelons la réécriture bénigne à livre ouvert (OBBR) – la probabilité qu’une sortie réécrite soit bénigne est strictement supérieure à celle de la réécriture à livre fermé. Ainsi, l’OBBR neutralise le contenu nuisible en projetant les échantillons d’apprentissage dans l’espace des invites bénignes. Nous montrons ensuite que, contrairement aux défenses précédentes, l’OBBR atténue efficacement un grand nombre de BA existantes : sur cinq BA connues et quatre LLM largement utilisés, l’OBBR augmente les performances de sécurité de 51 % en moyenne par rapport aux défenses BA de pointe, et de 25,7 % par rapport aux méthodes de réécriture à livre fermé. Enfin, nous montrons que l’OBBR est efficace en termes de calcul par rapport aux autres défenses BA, ne dégrade pas les performances du modèle sur les tâches de langage naturel après un réglage fin, et est capable de se défendre contre les attaques par empoisonnement de données sans déclencheur.
Alors que les textes générés par l’IA entrent dans le monde réel à grande échelle, les institutions utilisent de plus en plus des détecteurs commerciaux de texte IA, en particulier dans les contextes éducatifs et les flux de travail liés à l’intégrité académique. Nous rapportons un résultat empirique surprenant concernant ces systèmes : lorsqu’ils sont évalués par GPTZero et Pangram, les textes générés par les modèles de base sont souvent jugés comme très largement humains, tandis que ceux générés par leurs homologues ajustés par instructions ne le sont pas. À partir de cette observation, nous proposons l’Humanisation par Paraphrase Itérative (HIP), un pipeline indépendant du détecteur qui ajuste minimalement un modèle de base en paraphraseur et l’applique de façon itérative. Comparé aux approches de référence testées, HIP offre un meilleur compromis entre préservation du sens et contournement des détecteurs commerciaux. Pour les familles Llama-3 et Qwen-3, couvrant des tailles de modèle de 0,6B à 70B, HIP améliore systématiquement la ressemblance humaine selon les détecteurs. Nos résultats suggèrent que les détecteurs actuels traquent davantage les artefacts de l’ajustement par instructions et du contexte local qu’une quelconque notion invariante de texte généré par machine. Ce constat appelle en retour des conceptions de détecteurs qui modélisent ces facteurs de manière plus explicite.
Ce document de position soutient que les conférences en informatique devraient exiger des attestations inviolables et non répudiables des résultats expérimentaux. Nous nommons le problème sous-jacent la non-répudiation des expériences : un protocole conforme doit lier les chiffres d’un article à une exécution réelle de calcul de manière à ce que l’auteur ne puisse ni les modifier ni les nier ultérieurement. Le système actuel repose sur des listes de contrôle auto-déclarées, un partage facultatif du code et une journalisation contrôlée par l’auteur. Aucun de ces mécanismes ne répond à la question qu’un relecteur ne peut vérifier : le code décrit dans l’article a-t-il produit les chiffres rapportés dans l’article ? Nous définissons formellement le problème, énonçons les propriétés de sécurité que tout protocole conforme doit satisfaire, et décrivons un modèle de menace incluant des attaques que les approches actuelles ne préviennent pas. Pour montrer que le problème est soluble, nous avons développé K-Veritas, une implémentation de référence en Go qui génère des rapports signés sans accéder aux données d’entraînement. K-Veritas est un banc d’essai, non une réponse définitive. Nous appelons les conférences et la communauté à traiter la non-répudiation comme une exigence de premier ordre et à contribuer à l’élaboration d’une norme ouverte et indépendante en la matière.
Des agents LLM concurrents partageant un état mutable en langage naturel produisent des conditions de concurrence structurelles (SRC) : des conflits d'écriture-écriture et de lecture obsolète inter-shard qui corrompent silencieusement la sortie des agents. Les cadres multi-agents existants (LangGraph, CrewAI, AutoGen) ne fournissent pas de sémantique de propriété d'écriture sur l'état partagé. Nous présentons S-Bus, un middleware HTTP dont le mécanisme central est un DeliveryLog côté serveur : un journal par agent des opérations HTTP GET qui reconstruit automatiquement l'ensemble de lectures de chaque agent au moment de la validation sans modification du SDK de l'agent sous HTTP/1.1. La propriété de cohérence que fournit le DeliveryLog — l'isolement de lecture observable (ORI), une cohérence causale partielle sur la projection observable via HTTP de l'ensemble de lectures — empêche les conditions de concurrence structurelles lorsque les agents collaborent via des shards partagés. Trois contributions : (C1) Le mécanisme DeliveryLog pour la reconstruction automatique de l'ensemble de lectures basée sur le trafic HTTP, avec une preuve mécanisée à trois niveaux : ReadSetSoundness et ORICommitSafety vérifiées par machine dans TLAPS (modulo un axiome de typage retenu) ; TLC exhaustif à N=3 (20 763 484 états distincts, zéro violation) ; Dafny décharge 9 lemmes de solidité inductive. (C2) Parité empirique de prévention des conflits structurels par rapport à PostgreSQL 17 SERIALIZABLE et Redis 7 WATCH/MULTI sur des balayages de contention de shard partagé avec 427 308 conflits HTTP-409 actifs : zéro corruption de type I sur les trois backends. (C3) Le domaine d'opération d'ORI est conditionné par la topologie : sémantiquement neutre dans les charges de travail avec shards dédiés ; nuisible dans l'écriture collaborative sur un seul shard car la préservation propage les contradictions concurrentes. Code source : https://github.com/sajjadanwar0/sbus
Les modèles de microsimulation utilisés par les ministères des finances et les banques centrales reposent sur des processus paramétriques pour les revenus de la vie entière qui ne capturent que les premier et second moments de la distribution conditionnelle et omettent la structure non linéaire à long terme. Nous proposons SAGA, un transformeur à décodeur seul pour séquences de panel tabulaires irrégulières, associé à une enveloppe de calibrage conforme divisé qui fournit des intervalles de prédiction individuels avec des garanties de couverture marginale pour échantillon fini. Entraîné sur le registre longitudinal suédois LISA de 1990 à 2022, comprenant 2 143 817 individus et 61 284 903 années-personnes, le modèle prévoit les revenus annuels du travail à des horizons d'un à trente ans et les agrège par Monte Carlo en distributions de revenus actualisés de la vie entière. Par rapport au processus paramétrique canonique de Guvenen, Karahan, Ozkan et Song et aux bases de référence tabulaires et récurrentes, SAGA réduit le score de probabilité continue classée de 31,9 % à l'horizon de dix ans et l'erreur absolue moyenne de 37,7 % à l'horizon de vingt ans. Les intervalles conformes atteignent une couverture nominale à moins de 0,4 point de pourcentage en couverture marginale et à moins de 2,4 points de pourcentage sur le sous-groupe démographique le plus défavorable. Le coefficient de Gini reconstruit des revenus de la vie entière est de 0,327 contre la vérité partiellement observée de 0,341 et l'estimation GKOS de 0,378. Les poids du modèle, les tables de calibrage et un jeu de données synthétique équivalent sont publiés pour réplication en dehors de l'environnement protégé SCB MONA.
Nous identifions des limitations intrinsèques des Rotary Positional Embeddings (RoPE) dans les modèles de langage à contexte long basés sur les Transformers. Notre analyse théorique fait abstraction du contenu spécifique du contexte et ne dépend que de sa longueur. Nous prouvons qu'à mesure que la longueur du contexte augmente, l'attention basée sur RoPE devient imprévisible et perd deux propriétés essentielles à son efficacité. Premièrement, elle perd son biais de localité : RoPE n'est plus plus susceptible de favoriser des positions proches que des positions nettement plus éloignées. Deuxièmement, elle perd la cohérence dans la pertinence des tokens : un vecteur clé qui reçoit un score d'attention plus élevé qu'un autre à une position donnée peut recevoir un score plus faible à une autre position. Dans les deux cas, la probabilité d'échec approche 0,5, soit pas mieux qu'une supposition aléatoire. Nous prouvons également que le score d'attention peut rester inchangé lorsqu'un token clé est déplacé vers une position différente, ou même remplacé par un autre token, ce qui indique une incapacité à distinguer les positions ou les tokens. Ajuster la base de RoPE établit un compromis entre la distinction des positions et celle des tokens, sans pouvoir préserver les deux simultanément. Augmenter l'hyperparamètre de base de RoPE, une pratique courante dans les modèles à contexte long actuels, aide à distinguer différents tokens, mais sacrifie inévitablement la capacité à distinguer les positions. Notre analyse empirique montre que les architectures multi-têtes et multi-couches sont insuffisantes pour surmonter ces limitations. Nos résultats suggèrent que des mécanismes fondamentalement nouveaux pour encoder la position et l'ordre des tokens pourraient être nécessaires dans les futurs modèles de langage à contexte long basés sur les Transformers.