Articles de recherche IA sélectionnés quotidiennement avec traductions
Chaque interaction d’un agent génère un signal d’état suivant, à savoir la réponse de l’utilisateur, le résultat d’un outil, ou un changement d’état dans le terminal ou l’interface graphique qui suit chaque action. Pourtant, aucun système existant d’apprentissage par renforcement (RL) agentique ne l’utilise comme source d’apprentissage en ligne et en temps réel. Nous présentons OpenClaw-RL, un cadre fondé sur une observation simple : les signaux d’état suivant sont universels, et une politique peut apprendre de tous simultanément. Les conversations personnelles, les exécutions en terminal, les interactions avec une interface graphique, les tâches de génie logiciel (SWE) et les traces d’appels d’outils ne constituent pas des problèmes d’entraînement distincts. Ce sont toutes des interactions qui peuvent servir à entraîner la même politique dans la même boucle. Les signaux d’état suivant encodent deux formes d’information : des signaux évaluatifs, qui indiquent la performance de l’action et sont extraits sous forme de récompenses scalaires via un évaluateur PRM ; et des signaux directifs, qui indiquent comment l’action aurait dû être différente et sont récupérés via une distillation sur politique guidée par rétrospection (Hindsight-Guided On-Policy Distillation, OPD). Nous extrayons des indices textuels de l’état suivant, construisons un contexte d’enseignant enrichi et fournissons une supervision directionnelle au niveau des tokens, plus riche qu’une simple récompense scalaire. Grâce à la conception asynchrone, le modèle sert des requêtes en direct, l’évaluateur PRM juge les interactions en cours et l’entraîneur met à jour la politique simultanément, sans aucune surcharge de coordination entre eux. Appliqué à des agents personnels, OpenClaw-RL permet à un agent de s’améliorer simplement en étant utilisé, en récupérant des signaux conversationnels à partir des reformulations, corrections et retours explicites des utilisateurs. Appliqué à des agents généraux, la même infrastructure prend en charge un RL scalable dans des contextes de terminal, d’interface graphique, de SWE et d’appels d’outils, où nous démontrons également l’utilité des récompenses de processus. Code : https://github.com/Gen-Verse/OpenClaw-RL
Traditionnellement, k-means a été considéré principalement comme une primitive de traitement hors ligne, généralement utilisé pour l'organisation de jeux de données ou le prétraitement d'embeddings, plutôt que comme un composant à part entière dans les systèmes en ligne. Dans ce travail, nous revisitons cet algorithme classique sous l'angle de la conception moderne des systèmes d'IA et permettons à k-means de fonctionner comme une primitive en ligne. Nous soulignons que les implémentations existantes de k-means sur GPU restent fondamentalement limitées par des contraintes système de bas niveau plutôt que par la complexité algorithmique théorique. Plus précisément, l'étape d'affectation souffre d'un goulot d'étranglement sévère des E/S dû à la matérialisation explicite massive de la matrice de distance N fois K dans la mémoire à haute bande passante (HBM). Simultanément, l'étape de mise à jour des centroïdes est fortement pénalisée par les conflits d'écriture atomique au niveau matériel, causés par des agrégations de tokens irrégulières de type scatter. Pour combler cet écart de performance, nous proposons flash-kmeans, une implémentation de k-means consciente des E/S et sans contention pour les charges de travail modernes sur GPU. Flash-kmeans introduit deux innovations fondamentales au niveau du noyau : (1) FlashAssign, qui fusionne le calcul de distance avec un argmin en ligne pour contourner complètement la matérialisation intermédiaire en mémoire ; (2) la mise à jour par inverse-tri, qui construit explicitement un mapping inverse pour transformer des scatters atomiques à haute contention en réductions localisées au niveau des segments, à haute bande passante. De plus, nous intégrons des co-conceptions algorithme-système, incluant le chevauchement par flux en tronçons et des heuristiques de compilation sensibles au cache, pour garantir une déployabilité pratique. Des évaluations approfondies sur les GPU NVIDIA H200 démontrent que flash-kmeans atteint une accélération de bout en bout allant jusqu'à 17,9 fois par rapport aux meilleures bases de référence, tout en surpassant les bibliothèques standard de l'industrie comme cuML et FAISS par des facteurs de 33 fois et plus de 200 fois, respectivement.
À mesure que les modèles incarnés gagnent en puissance, les humains collaboreront à l’avenir avec plusieurs agents d’IA incarnés sur leur lieu de travail ou à domicile. Pour garantir une meilleure communication entre les utilisateurs humains et le système multi-agents, il est essentiel d’interpréter en parallèle les informations provenant des agents et de se référer au contexte approprié pour chaque requête. Les défis actuels incluent la compression et la transmission efficace de volumes élevés de données sensorielles individuelles sous forme vidéo, ainsi que l’agrégation correcte de multiples vidéos égocentriques pour construire une mémoire systémique. Dans ce travail, nous définissons d’abord formellement un nouveau problème : la compréhension de multiples vidéos égocentriques de long horizon collectées simultanément auprès d’agents incarnés. Pour favoriser la recherche dans cette direction, nous présentons MultiAgent-EgoQA (MA-EgoQA), un benchmark conçu pour évaluer systématiquement les modèles existants dans notre scénario. MA-EgoQA propose 1 700 questions spécifiques aux flux égocentriques multiples, couvrant cinq catégories : interaction sociale, coordination de tâches, théorie de l’esprit, raisonnement temporel et interaction environnementale. Nous proposons en outre un modèle de base simple pour MA-EgoQA, nommé EgoMAS, qui exploite une mémoire partagée entre les agents incarnés et une récupération dynamique par agent. Grâce à une évaluation complète de divers modèles de référence et d’EgoMAS sur MA-EgoQA, nous constatons que les approches actuelles sont incapables de traiter efficacement plusieurs flux égocentriques, soulignant la nécessité de progrès futurs dans la compréhension systémique à travers les agents. Le code et le benchmark sont disponibles à l’adresse https://ma-egoqa.github.io.
Les encodeurs de texte basés sur LLM encodent typiquement le contenu sémantique de leur entrée. Cependant, les tâches d'embedding nécessitent de mapper des entrées diverses vers des sorties similaires. Typiquement, cette relation entrée-sortie est abordée en entraînant des modèles d'embedding avec des données appariées en utilisant l'apprentissage contrastif. Dans ce travail, nous proposons une nouvelle approche auto-supervisée, LLM2Vec-Gen, qui adopte un paradigme différent : plutôt que d'encoder l'entrée, nous apprenons à représenter la réponse potentielle du modèle. Spécifiquement, nous ajoutons des tokens spéciaux entraînables au vocabulaire du LLM, les ajoutons à l'entrée, et les optimisons pour représenter la réponse du LLM dans une séquence de longueur fixe. L'entraînement est guidé par la propre complétion du LLM pour la requête, ainsi que par un enseignant d'embedding non supervisé qui fournit des cibles de distillation. Cette formulation aide à combler l'écart entrée-sortie et transfère des capacités du LLM telles que l'alignement de sécurité et le raisonnement vers les tâches d'embedding. Crucialement, l'architecture de base du LLM reste gelée et l'entraînement ne nécessite que des requêtes non étiquetées. LLM2Vec-Gen atteint des performances auto-supervisées de pointe sur le *Massive Text Embedding Benchmark* (MTEB), s'améliorant de 9,3 % par rapport au meilleur enseignant d'embedding non supervisé. Nous observons également une réduction allant jusqu'à 43,2 % du contenu nuisible récupéré et une amélioration de 29,3 % des capacités de raisonnement pour les tâches d'embedding. Enfin, les embeddings appris sont interprétables et peuvent être décodés en texte pour révéler leur contenu sémantique.
Les adaptateurs à faible rang (LoRAs) constituent une technique de réglage fin efficace en paramètres qui injecte des matrices de faible rang entraînables dans des modèles préentraînés pour les adapter à de nouvelles tâches. Les modèles à mélange de LoRAs (Mixture-of-LoRAs) étendent les réseaux de neurones de manière efficace en acheminant chaque entrée de couche vers un petit sous-ensemble de LoRAs spécialisés de la couche. Les routeurs Mixture-of-LoRAs existants attribuent un poids d'acheminement appris à chaque LoRA pour permettre un entraînement de bout en bout du routeur. Malgré leurs résultats empiriques prometteurs, nous observons qu'en pratique, les poids d'acheminement sont typiquement extrêmement déséquilibrés entre les LoRAs, un ou deux LoRAs dominant souvent les poids d'acheminement. Ceci limite essentiellement le nombre de LoRAs effectifs et entrave ainsi sévèrement la puissance expressive des modèles Mixture-of-LoRAs existants. Dans ce travail, nous attribuons cette faiblesse à la nature des poids d'acheminement apprenables et repensons la conception fondamentale du routeur. Pour résoudre ce problème critique, nous proposons une nouvelle conception de routeur que nous appelons Renforcement de l'Acheminement pour Mélange de LoRAs (ReMix). Notre idée clé est d'utiliser des poids d'acheminement non apprenables pour garantir que tous les LoRAs actifs soient également efficaces, sans qu'aucun LoRA ne domine les poids d'acheminement. Cependant, nos routeurs ne peuvent pas être entraînés directement par descente de gradient en raison de nos poids d'acheminement non apprenables. Par conséquent, nous proposons en outre un estimateur de gradient non biaisé pour le routeur en employant la technique de renforcement leave-one-out (RLOO), où nous considérons la perte de supervision comme la récompense et le routeur comme la politique en apprentissage par renforcement. Notre estimateur de gradient permet également de mettre à l'échelle la puissance de calcul d'entraînement pour améliorer les performances prédictives de notre ReMix. Des expériences approfondies démontrent que notre ReMix proposé surpasse significativement les méthodes état de l'art de réglage fin efficace en paramètres avec un nombre comparable de paramètres activés.
Bien que les grands modèles de langage (LLM) présentent de solides capacités de raisonnement, leurs performances sur des tâches complexes sont souvent limitées par les contraintes de leurs connaissances internes. Une approche prometteuse pour surmonter ce défi consiste à enrichir ces modèles avec des outils externes, tels que des interpréteurs Python pour les calculs mathématiques ou des moteurs de recherche pour la récupération d'informations factuelles. Cependant, permettre aux modèles d'utiliser efficacement ces outils reste un défi majeur. Les méthodes existantes reposent généralement sur des pipelines à froid qui commencent par un fine-tuning supervisé (SFT), suivi d'un apprentissage par renforcement (RL). Ces approches nécessitent souvent de grandes quantités de données étiquetées pour le SFT, dont l'annotation ou la synthèse est coûteuse. Dans ce travail, nous proposons l'Apprentissage par Renforcement en Contexte (ICRL), un framework basé uniquement sur le RL qui élimine le besoin de SFT en exploitant l'apprentissage par quelques exemples (few-shot) pendant la phase de déploiement du RL. Plus précisément, ICRL introduit des exemples en contexte dans les invites de déploiement pour apprendre au modèle à invoquer des outils externes. De plus, au fur et à mesure de l'entraînement, le nombre d'exemples en contexte est progressivement réduit, pour finalement atteindre un contexte zéro-shot où le modèle apprend à appeler les outils de manière autonome. Nous menons des expériences approfondies sur une série de benchmarks de raisonnement et d'utilisation d'outils. Les résultats montrent qu'ICRL atteint des performances à l'état de l'art, démontrant son efficacité en tant qu'alternative évolutive et économe en données aux pipelines traditionnels basés sur le SFT.
Les Transformers de Diffusion (DiTs) sont devenus une architecture de référence pour la génération vidéo, mais leur coût attentionnel quadratique reste un goulot d'étranglement majeur. L'attention parcimonieuse réduit ce coût en ne calculant qu'un sous-ensemble des blocs d'attention. Cependant, les méthodes existantes suppriment souvent les blocs restants, ce qui entraîne une perte d'information, ou s'appuient sur des prédicteurs appris pour les approximer, introduisant une surcharge d'entraînement et un décalage potentiel de la distribution de sortie. Dans cet article, nous montrons que les contributions manquantes peuvent être récupérées sans apprentissage : après un regroupement sémantique, les clés et les valeurs au sein de chaque bloc présentent une forte similarité et peuvent être bien résumées par un petit ensemble de centroïdes de cluster. Sur la base de cette observation, nous introduisons SVG-EAR, une branche de compensation linéaire sans paramètres qui utilise le centroïde pour approximer les blocs ignorés et récupérer leurs contributions. Bien que la compensation par centroïde soit précise pour la plupart des blocs, elle peut échouer sur un petit sous-ensemble. La sparsification standard sélectionne typiquement les blocs par les scores d'attention, qui indiquent où le modèle concentre sa masse attentionnelle, mais pas où l'erreur d'approximation serait la plus grande. SVG-EAR effectue donc un routage sensible à l'erreur : une sonde légère estime l'erreur de compensation pour chaque bloc, et nous calculons exactement les blocs ayant le ratio erreur-sur-coût le plus élevé tout en compensant les blocs ignorés. Nous fournissons des garanties théoriques qui relient l'erreur de reconstruction de l'attention à la qualité du clustering, et montrons empiriquement que SVG-EAR améliore le compromis qualité-efficacité et augmente le débit pour une fidélité de génération équivalente sur des tâches de diffusion vidéo. Globalement, SVG-EAR établit une frontière de Pareto clairement supérieure aux approches précédentes, atteignant des accélérations allant jusqu'à 1,77x et 1,93x tout en maintenant des PSNR allant jusqu'à 29,759 et 31,043 sur Wan2.2 et HunyuanVideo, respectivement.
Les modèles de langage évoluant dans des contextes réels dynamiques sont souvent confrontés à des connaissances qui évoluent continuellement ou émergent de manière incrémentale. Pour rester précis et efficaces, les modèles doivent s'adapter à de nouvelles informations arrivant en temps réel. Nous présentons l'Adaptation en Ligne aux Flux de Connaissances Continus (OAKS) pour évaluer cette capacité, en établissant un benchmark pour l'adaptation en ligne sur des connaissances fluides et continuellement mises à jour. Plus précisément, le benchmark est structuré comme une séquence de fragments de contexte à granularité fine où les faits changent dynamiquement à travers des intervalles temporels. OAKS comprend deux ensembles de données : OAKS-BABI et OAKS-Novel, dans lesquels des faits individuels évoluent plusieurs fois à travers les fragments de contexte. Ces ensembles de données incluent des annotations denses pour mesurer si les modèles suivent les changements avec précision. En évaluant 14 modèles avec diverses approches d'inférence, nous observons des limitations significatives dans les méthodologies actuelles. Les modèles les plus performants et les systèmes de mémoire agentique échouent à s'adapter robustement sur OAKS, démontrant des retards dans le suivi d'état et une sensibilité à la distraction dans des environnements de flux continu.
Le guidage par mise en évidence (Prompt Highlighting) oriente un grand modèle de langage pour qu'il priorise les segments de texte spécifiés par l'utilisateur durant la génération. Un défi majeur consiste à extraire des directives de guidage qui capturent la différence entre les contextes pertinents et non pertinents, plutôt que les motifs structurels communs aux deux. Nous proposons PRISM-Δ (Projection-based Relevance-Informed Steering Method), qui décompose la différence entre les matrices de covariance croisées positives et négatives pour maximiser l'énergie discriminative tout en éliminant les directions partagées. Chaque tête d'attention reçoit un poids d'importance continu (softplus), permettant aux têtes faibles mais utiles de contribuer avec une intensité réduite. Le cadre s'étend naturellement aux représentations de Value, capturant le signal du canal de contenu que les méthodes basées uniquement sur Key laissent inutilisé. Sur quatre benchmarks et cinq modèles, PRISM-Δ égale ou dépasse la meilleure méthode existante dans 19 configurations sur 20, avec des gains relatifs allant jusqu'à +10,6 %, tout en réduisant de moitié le coût en fluidité du guidage. PRISM-Δ s'adapte également à la recherche en contexte long, surpassant la meilleure méthode existante avec un gain relatif allant jusqu'à +4,8 %. PRISM-Δ est compatible avec FlashAttention et ajoute une surcharge mémoire négligeable.
Les méthodes existantes de personnalisation vidéo préservent la ressemblance visuelle mais traitent la vidéo et l'audio séparément. Sans accès à la scène visuelle, les modèles audio ne peuvent pas synchroniser les sons avec les actions à l'écran ; et parce que les modèles classiques de clonage vocal se basent uniquement sur un enregistrement de référence, une instruction textuelle ne peut pas réorienter le style d'élocution ou l'environnement acoustique. Nous proposons ID-LoRA (Identity-Driven In-Context LoRA), qui génère conjointement l'apparence et la voix d'un sujet dans un modèle unique, permettant à une instruction textuelle, une image de référence et un court extrait audio de régir les deux modalités ensemble. ID-LoRA adapte l'architecture de diffusion audio-vidéo conjointe LTX-2 via un In-Context LoRA efficace en paramètres et, à notre connaissance, est la première méthode à personnaliser l'apparence visuelle et la voix en une seule passe générative. Deux défis émergent. Les tokens de référence et de génération partagent le même espace de codage positionnel, les rendant difficiles à distinguer ; nous résolvons ce problème avec des positions temporelles négatives, plaçant les tokens de référence dans une région RoPE disjointe tout en préservant leur structure temporelle interne. Les caractéristiques du locuteur ont aussi tendance à être diluées pendant le débruitage ; nous introduisons le guidage d'identité, une variante de guidage sans classificateur qui amplifie les caractéristiques spécifiques au locuteur en contrastant les prédictions avec et sans le signal de référence. Dans les études de préférence humaine, ID-LoRA est préféré à Kling 2.6 Pro par 73 % des annotateurs pour la similarité vocale et 65 % pour le style d'élocution. Sur des configurations trans-environnementales, la similarité du locuteur s'améliore de 24 % par rapport à Kling, l'écart s'accentuant avec la divergence des conditions. Une étude utilisateur préliminaire suggère en outre que la génération conjointe fournit un biais inductif utile pour la synthèse sonore physiquement fondée. ID-LoRA obtient ces résultats avec seulement ~3 000 paires d'entraînement sur un seul GPU. Le code, les modèles et les données seront publiés.
Les agents basés sur de grands modèles de langage (LLM) et entraînés par apprentissage par renforcement (RL) ont démontré un fort potentiel pour les tâches interactives complexes. Cependant, les paradigmes standards du RL privilégient la résolution statique de problèmes par rapport à l'adaptation continue : les agents convergent souvent vers des stratégies sous-optimales en raison d'une exploration insuffisante, tandis que les connaissances acquises restent implicites dans les paramètres plutôt qu'explicitement récupérables, limitant ainsi un apprentissage expérientiel efficace. Pour remédier à ces limitations, nous présentons RetroAgent, un cadre de RL en ligne qui permet aux agents de maîtriser des environnements interactifs complexes non seulement en résolvant des problèmes, mais en évoluant. Concrètement, RetroAgent intègre un mécanisme d'auto-réflexion a posteriori qui produit un retour intrinsèque dual : (1) un retour numérique intrinsèque qui suit l'achèvement incrémental des sous-tâches par rapport aux tentatives précédentes, récompensant les explorations prometteuses, et (2) un retour linguistique intrinsèque qui distille des leçons réutilisables dans un tampon de mémoire, récupéré via notre stratégie proposée Similarity & Utility-Aware Upper Confidence Bound (SimUtil-UCB), qui équilibre la pertinence, l'utilité et l'exploitation pour tirer efficacement parti des expériences passées. Des expériences approfondies sur deux familles de modèles et quatre tâches agentielles difficiles démontrent que RetroAgent surpasse significativement les méthodes existantes, obtenant des résultats à la pointe de l'état de l'art — par exemple, en dépassant les agents entraînés par l'Optimisation de Politique Relative par Groupe (GRPO) de +18,3 % sur ALFWorld, +15,4 % sur WebShop, +27,1 % sur Sokoban et +8,9 % sur MineSweeper — tout en présentant une forte capacité d'adaptation et de généralisation en phase de test à des scénarios hors distribution.
Lorsque les MLLM échouent en raisonnement visuel pour les sciences, technologies, ingénierie et mathématiques (STEM), une question fondamentale se pose : est-ce dû à des déficiences perceptuelles ou à des limitations de raisonnement ? Par une analyse systématique de mise à l'échelle qui fait évoluer indépendamment les composantes de perception et de raisonnement, nous mettons en lumière un constat crucial : augmenter l'échelle de la perception surpasse systématiquement l'augmentation de l'échelle du raisonnement. Cela révèle que la perception est le véritable levier limitant le raisonnement visuel STEM actuel. Motivés par cette observation, nos travaux se concentrent sur l'amélioration systématique des capacités perceptuelles des MLLM en établissant le code comme un puissant médium perceptuel – le code exécutable fournit une sémantique précise qui s'aligne naturellement avec la nature structurée des visuels STEM. Plus précisément, nous construisons ICC-1M, un jeu de données à grande échelle comprenant 1 million de triplets Image-Légende-Code qui matérialise ce paradigme du code-comme-perception via deux approches complémentaires : (1) la Génération de Légendes Ancrée sur le Code considère le code exécutable comme vérité terrain pour les légendes d'images, éliminant les hallucinations inhérentes aux méthodes existantes de distillation des connaissances ; (2) la Traduction d'Image STEM en Code incite les modèles à générer du code de reconstruction, atténuant l'ambiguïté du langage naturel pour l'amélioration perceptuelle. Pour valider ce paradigme, nous introduisons en outre STEM2Code-Eval, une nouvelle référence d'évaluation qui mesure directement la perception visuelle dans les domaines STEM. Contrairement aux travaux existants qui s'appuient sur la précision de résolution de problèmes comme proxy ne mesurant que la compréhension pertinente au problème, notre référence exige une compréhension visuelle complète via la génération de code exécutable pour la reconstruction d'image, fournissant une évaluation déterministe et vérifiable. Le code est disponible à l'adresse https://github.com/TongkunGuan/Qwen-CodePercept.
Dans l'apprentissage par renforcement avec récompenses vérifiables (RLVR), la construction d'une baseline robuste de l'avantage est cruciale pour les méthodes de gradient de politique, guidant efficacement le modèle de politique à renforcer les comportements souhaités. Des recherches récentes ont introduit des modèles de valeur généralistes (tels que V_0), qui réalisent une estimation de valeur pré-entraînée en encodant explicitement les capacités du modèle en contexte, éliminant ainsi le besoin de mettre à jour synchroniquement le modèle de valeur avec le modèle de politique. Dans cet article, nous proposons V_{0,5}, qui fusionne de manière adaptative la baseline prédite par un tel modèle de valeur (agissant comme un a priori) avec la moyenne empirique dérivée de rollouts épars. Cela construit une baseline robuste qui équilibre l'efficacité computationnelle avec une variance extrêmement faible. Plus précisément, nous introduisons un test statistique en temps réel et une allocation dynamique du budget. Ceci équilibre la forte variance causée par l'échantillonnage épars avec le biais systématique (ou les hallucinations) inhérent à l'a priori du modèle de valeur. En construisant un test d'hypothèse pour évaluer la fiabilité de l'a priori en temps réel, le système alloue dynamiquement un budget de rollout supplémentaire à la demande. Ce mécanisme minimise l'erreur quadratique moyenne (EQM) de l'estimateur de baseline, garantissant des gradients de politique stables, même sous une extrême parcimonie avec une taille de groupe de 4. Des évaluations approfondies sur six benchmarks de raisonnement mathématique démontrent que V_{0,5} surpasse significativement GRPO et DAPO, atteignant une convergence plus rapide et une amélioration des performances d'environ 10 %.
Les grands modèles de langage (LLM) sont de plus en plus utilisés dans le processus scientifique, notamment pour rédiger des rapports d'évaluation par les pairs. Cependant, de nombreuses évaluations générées par l'IA sont superficielles et manquent d'opérationnalité, laissant les auteurs sans conseils concrets et applicables, ce qui motive l'objectif de ce travail. Nous proposons RbtAct, qui vise à générer des retours d'évaluation actionnables et place la rédaction des réponses aux évaluations existantes au cœur de l'apprentissage. Les réponses aux évaluations révèlent quels commentaires ont conduit à des révisions concrètes ou à des plans spécifiques, et lesquels n'ont fait l'objet que de défenses. En nous appuyant sur cette observation, nous utilisons les réponses comme supervision implicite pour optimiser directement un générateur de feedback en fonction de son actionnabilité. Pour soutenir cet objectif, nous proposons une nouvelle tâche appelée génération de feedback d'évaluation conditionnée par perspective au niveau segment, où le modèle doit produire un commentaire unique et ciblé basé sur l'article complet et une perspective spécifique telle que les expériences ou la rédaction. Nous construisons également un vaste ensemble de données nommé RMR-75K qui met en correspondance les segments d'évaluation avec les segments de réponse qui les adressent, incluant des labels de perspective et des catégories d'impact hiérarchisant l'adoption par les auteurs. Nous entraînons ensuite le modèle Llama-3.1-8B-Instruct par fine-tuning supervisé sur des segments d'évaluation, suivi d'une optimisation des préférences utilisant des paires dérivées des réponses. Les expériences avec des experts humains et une évaluation par LLM démontrent des gains constants en actionnabilité et spécificité par rapport à des bases de référence solides, tout en maintenant l'ancrage factuel et la pertinence.
Les grands modèles de langage (LLM) reçoivent généralement des retours en langage naturel variés via leurs interactions avec l'environnement. Cependant, les algorithmes d'apprentissage par renforcement (RL) actuels s'appuient exclusivement sur des récompenses scalaires, laissant sous-utilisées les informations riches contenues dans les retours en langage naturel et conduisant à une exploration inefficace. Dans ce travail, nous proposons GOLF, un cadre RL qui exploite explicitement les retours langagiers au niveau du groupe pour guider l'exploration ciblée via des améliorations actionnables. GOLF agrège deux sources de retours complémentaires : (i) les critiques externes qui identifient les erreurs ou proposent des corrections ciblées, et (ii) les tentatives intra-groupe qui fournissent des idées partielles alternatives et divers modèles d'échec. Ces retours au niveau du groupe sont agrégés pour produire des améliorations de haute qualité, qui sont injectées de manière adaptative dans l'entraînement comme échafaudages hors politique pour fournir un guidage ciblé dans les régions à récompense éparse. Parallèlement, GOLF optimise conjointement la génération et l'amélioration dans une boucle RL unifiée, créant un cercle vertueux qui améliore continuellement les deux capacités. Les expériences sur des benchmarks vérifiables et non vérifiables montrent que GOLF atteint des performances et une efficacité d'exploration supérieures, obtenant une amélioration de 2,2 fois l'efficacité d'échantillonnage par rapport aux méthodes RL entraînées uniquement sur des récompenses scalaires. Le code est disponible à l'adresse https://github.com/LuckyyySTA/GOLF.
Les Transformers de Diffusion ont établi un nouvel état de l'art en synthèse d'images, mais le coût computationnel élevé de l'échantillonnage itératif entrave sévèrement leur déploiement pratique. Si les méthodes d'accélération existantes se concentrent souvent sur le domaine temporel, elles négligent la redondance spatiale substantielle inhérente au processus génératif, où les structures globales émergent bien avant que les détails fins ne se forment. Le traitement computationnel uniforme de toutes les régions spatiales représente une inefficacité critique. Dans cet article, nous présentons Just-in-Time (JiT), un nouveau cadre sans entraînement qui relève ce défi via une accélération dans le domaine spatial. JiT formule une équation différentielle ordinaire (EDO) générative spatialement approximée qui pilote l'évolution complète de l'état latent en se basant sur des calculs issus d'un sous-ensemble sparse et dynamiquement sélectionné de tokens d'ancrage. Pour assurer des transitions transparentes lors de l'incorporation de nouveaux tokens pour étendre les dimensions de l'état latent, nous proposons un micro-flux déterministe, une EDO simple et efficace à temps fini qui maintient à la fois la cohérence structurelle et l'exactitude statistique. Des expériences approfondies sur le modèle FLUX.1-dev, état de l'art, démontrent que JiT permet une accélération allant jusqu'à 7x avec des performances quasi sans perte, surpassant significativement les méthodes d'accélération existantes et établissant un compromis nouveau et supérieur entre la vitesse d'inférence et la fidélité de génération.
Nous proposons un système d'IA entièrement automatisé qui produit de courtes vidéos comiques similaires à des émissions de sketches telles que Saturday Night Live. En partant de références de personnages, le système utilise une population d'agents vaguement inspirés des rôles réels d'un studio de production, structurée pour optimiser la qualité et la diversité des idées et des productions grâce à une compétition itérative, une évaluation et une amélioration continues. Une contribution clé est l'introduction de critiques basés sur des LLM, alignés sur les préférences réelles des spectateurs grâce à l'analyse d'un corpus de vidéos comiques sur YouTube, afin d'évaluer automatiquement l'humour. Nos expériences montrent que notre cadre produit des résultats approchant la qualité des sketches produits professionnellement, tout en démontrant des performances de pointe en génération vidéo.
Les modèles multimodaux unifiés actuels reposent généralement sur des tokeniseurs visuels discrets pour combler l'écart modal. Cependant, la discrétisation élimine inévitablement les informations sémantiques fines, conduisant à des performances sous-optimales dans les tâches de compréhension visuelle. À l'inverse, modéliser directement des représentations sémantiques continues (comme CLIP ou SigLIP) présente des défis significatifs en modélisation générative haute dimension, entraînant une convergence lente et une instabilité lors de l'entraînement. Pour résoudre ce dilemme, nous présentons UniCom, un cadre unifié qui harmonise la compréhension et la génération multimodales via une représentation continue compressée. Nous démontrons empiriquement que la réduction de la dimension des canaux est nettement plus efficace que le sous-échantillonnage spatial pour la reconstruction et la génération. En conséquence, nous concevons un compresseur sémantique basé sur l'attention pour distiller les caractéristiques denses en une représentation unifiée compacte. De plus, nous validons que l'architecture de transfusion surpasse les conceptions basées sur des requêtes en termes de convergence et de cohérence. Les expériences démontrent qu'UniCom atteint des performances de génération à la pointe parmi les modèles unifiés. Notamment, en préservant de riches préalables sémantiques, il offre une contrôlabilité exceptionnelle en édition d'image et maintient la cohérence visuelle même sans recourir à un VAE.
Les agents de modèles de langage de grande taille (LLM) sont souvent confrontés à des défis significatifs d'attribution de crédit dans les tâches à long horizon et multi-étapes en raison de récompenses éparses. Les méthodes existantes sans fonction de valeur, telles que l'optimisation de politique relative par groupe (GRPO), rencontrent deux goulots d'étranglement fondamentaux : une estimation imprécise des valeurs Q au niveau de l'étape et des valeurs de référence désalignées pour les états intermédiaires. Pour remédier à ces limitations, nous présentons HCAPO, le premier cadre à intégrer l'attribution de crédit rétrospective dans les agents LLM. HCAPO exploite le LLM lui-même comme un critique a posteriori pour affiner les valeurs Q au niveau de l'étape grâce à un raisonnement rétrospectif. De plus, le mécanisme d'avantage multi-échelle de HCAPO complète efficacement les valeurs de référence imprécises aux états décisionnels critiques. Les évaluations sur trois benchmarks exigeants, incluant WebShop et ALFWorld, démontrent que HCAPO surpasse constamment les méthodes d'apprentissage par renforcement les plus avancées. Notamment, HCAPO réalise une amélioration de 7,7 % du taux de réussite sur WebShop et de 13,8 % sur ALFWorld par rapport à GRPO en utilisant le modèle Qwen2.5-7B-Instruct. Ces résultats indiquent qu'HCAPO améliore significativement l'efficacité de l'exploration, favorise une prise de décision concise et assure une évolutivité dans les tâches complexes et à long horizon.
Les autoencodeurs épars peuvent localiser où les concepts résident dans les modèles de langage, mais pas comment ils interagissent lors de raisonnements multi-étapes. Nous proposons les Graphes de Concepts Causaux (CCG) : un graphe acyclique orienté sur des caractéristiques latentes éparses et interprétables, où les arêtes capturent des dépendances causales apprises entre les concepts. Nous combinons des autoencodeurs épars conditionnés par tâche pour la découverte de concepts avec un apprentissage de structure différentiable de style DAGMA pour la récupération du graphe, et introduisons le Score de Fidélité Causale (CFS) pour évaluer si les interventions guidées par le graphe induisent des effets en aval plus importants que des interventions aléatoires. Sur ARC-Challenge, StrategyQA et LogiQA avec GPT-2 Medium, sur cinq initialisations (n=15 exécutions appariées), CCG atteint un CFS=5,654±0,625, surpassant le traçage de style ROME (3,382±0,233), le classement par SAE seul (2,479±0,196) et une base de référence aléatoire (1,032±0,034), avec p<0,0001 après correction de Bonferroni. Les graphes appris sont épars (densité d'arêtes de 5-6%), spécifiques au domaine et stables entre les initialisations.
La dernière couche des modèles de langage neuronaux projette les caractéristiques de sortie de dimension D vers des logits de dimension V, la taille du vocabulaire, où généralement D ≪ V. On sait que cette inadéquance accroît les risques de limitation de l'expressivité dans les modèles de langage neuronaux, créant ce qu'on appelle un goulot d'étranglement du softmax. Nous montrons que ce goulot d'étranglement n'est pas seulement une limitation de l'expressivité mais aussi une limitation de l'optimisation. La rétropropagation de gradients de dimension V à travers une couche linéaire de rang D induit une compression inévitable, ce qui altère la rétroaction d'apprentissage fournie à la grande majorité des paramètres. Nous présentons une analyse théorique de ce phénomène et mesurons empiriquement que 95 à 99 % de la norme du gradient est supprimée par la couche de sortie, résultant en des directions de mise à jour largement sous-optimales. Nous menons des expériences d'apprentissage préalable contrôlé montrant que ce goulot d'étranglement du gradient rend des motifs triviaux inapprenables et affecte considérablement la dynamique d'apprentissage des grands modèles de langage. Nous soutenons que ce défaut inhérent contribue aux inefficacités d'entraînement à grande échelle, indépendamment de l'architecture du modèle, et soulève la nécessité de nouvelles conceptions de tête de modèle de langage.
Les modèles de grands langages multimodaux (MM-LLM) démontrent des performances solides dans la compréhension d'images médicales et le raisonnement clinique. Les systèmes d'agents médicaux récents les étendent avec l'utilisation d'outils et la collaboration multi-agents, permettant une prise de décision complexe. Cependant, ces systèmes reposent presque entièrement sur des modèles de pointe (par exemple, GPT), dont le déploiement par API entraîne un coût élevé, une latence importante et des risques pour la confidentialité incompatibles avec les exigences cliniques sur site. Nous présentons Meissa, un MM-LLM médical léger de 4 milliards de paramètres qui apporte les capacités agentielles hors ligne. Au lieu d'imiter des réponses statiques, Meissa apprend à la fois quand engager une interaction externe (sélection de stratégie) et comment exécuter une interaction multi-étapes (exécution de stratégie) en distillant des trajectoires structurées à partir de modèles de pointe. Plus précisément, nous proposons : (1) Modélisation unifiée des trajectoires : les trajectoires (traces de raisonnement et d'action) sont représentées dans un formalisme unique état-action-observation, permettant à un modèle de généraliser à travers des environnements médicaux hétérogènes. (2) Supervision stratifiée à trois niveaux : les erreurs du modèle déclenchent une escalade progressive du raisonnement direct vers l'interaction outillée et multi-agents, apprenant explicitement une sélection de stratégie sensible à la difficulté. (3) Supervision prospective-rétrospective : l'appariement de traces prospectives d'exploration avec des traces d'exécution rationalisées a posteriori permet un apprentissage stable de politiques d'interaction efficaces. Entraîné sur 40 000 trajectoires curatées, Meissa égale ou dépasse les agents propriétaires de pointe dans 10 des 16 scénarios d'évaluation sur 13 benchmarks médicaux couvrant la radiologie, la pathologie et le raisonnement clinique. Utilisant plus de 25 fois moins de paramètres que les modèles de pointe typiques comme Gemini-3, Meissa fonctionne entièrement hors ligne avec une latence de bout en bout 22 fois inférieure par rapport au déploiement par API. Les données, modèles et environnements sont disponibles à l'adresse https://github.com/Schuture/Meissa.
La génération de musique alignée temporellement avec les événements vidéo représente un défi pour les modèles texte-musique existants, qui manquent de contrôle temporel fin. Nous présentons V2M-Zero, une approche de génération vidéo-vers-musique sans paires d'apprentissage qui produit une musique temporellement alignée avec la vidéo. Notre méthode est motivée par une observation clé : la synchronisation temporelle nécessite de faire correspondre le moment et l'ampleur des changements, et non leur nature. Bien que les événements musicaux et visuels diffèrent sémantiquement, ils présentent une structure temporelle commune qui peut être capturée indépendamment au sein de chaque modalité. Nous capturons cette structure via des courbes d'événements calculées à partir de la similarité intra-modale en utilisant des encodeurs de musique et de vidéo pré-entraînés. En mesurant le changement temporel au sein de chaque modalité indépendamment, ces courbes fournissent des représentations comparables entre les modalités. Cela permet une stratégie d'entraînement simple : affiner un modèle texte-vers-musique sur des courbes d'événements musicaux, puis substituer des courbes d'événements vidéo lors de l'inférence, sans entraînement inter-modal ni données appariées. Sur OES-Pub, MovieGenBench-Music et AIST++, V2M-Zero obtient des gains substantiels par rapport aux bases de référence utilisant des données appariées : une qualité audio supérieure de 5 à 21 %, un alignement sémantique amélioré de 13 à 15 %, une synchronisation temporelle supérieure de 21 à 52 %, et un alignement rythmique 28 % plus élevé sur les vidéos de danse. Nous obtenons des résultats similaires via un vaste test d'écoute subjectif crowdsourcé. Globalement, nos résultats valident que l'alignement temporel via des caractéristiques intra-modales, plutôt qu'un apprentissage supervisé inter-modal apparié, est efficace pour la génération vidéo-vers-musique. Les résultats sont disponibles à l'adresse https://genjib.github.io/v2m_zero/
Le Renforcement de l'Apprentissage avec Récompenses Vérifiables (RLVR) a considérablement amélioré la capacité de raisonnement des Grands Modèles de Langage (LLM). Cependant, le RLVR s'appuie uniquement sur les réponses finales comme récompenses de résultat, négligeant la justesse des étapes de raisonnement intermédiaires. L'entraînement sur ces séquences où le processus est erroné mais le résultat correct peut entraîner des hallucinations et du copiage de réponses, compromettant gravement la généralisation et la robustesse du modèle. Pour résoudre ce problème, nous intégrons un mécanisme d'Apprentissage Contrastif dans l'Optimisation de Politique (CLIPO) pour généraliser le processus RLVR. En optimisant une perte contrastive sur les séquences réussies, CLIPO guide le LLM pour capturer la structure invariante partagée par tous les chemins de raisonnement corrects. Cela fournit une régularisation inter-trajectoires plus robuste que la supervision à chemin unique originale du RLVR, atténuant efficacement les incohérences de raisonnement au niveau des étapes et supprimant les artefacts hallucinatoires. Lors des expériences, CLIPO améliore constamment plusieurs modèles de référence RLVR sur divers benchmarks de raisonnement, démontrant des améliorations uniformes en généralisation et en robustesse pour l'optimisation de politique des LLM. Notre code et nos protocoles d'entraînement sont disponibles à l'adresse https://github.com/Qwen-Applications/CLIPO.
Les modèles génératifs vidéo (VGMs), pré-entraînés sur de vastes données internet, peuvent produire des séquences vidéo cohérentes temporellement qui capturent une dynamique riche des objets, offrant une base prometteuse pour la manipulation robotique zero-shot. Cependant, les VGMs produisent souvent des séquences physiquement improbables, et la conversion de leur mouvement dans l'espace pixel en actions robotiques via un recalage géométrique introduit en outre des erreurs cumulatives provenant de l'estimation de profondeur imparfaite et du suivi de points-clés. Pour relever ces défis, nous présentons , un cadre sans données qui aligne les sorties des VGMs avec des contraintes compositionnelles générées par des modèles vision-langage (VLMs) au moment de l'inférence. L'idée clé est que les VLMs offrent une capacité complémentaire aux VGMs : un raisonnement spatial structuré qui peut identifier les contraintes physiques cruciales pour le succès et la sécurité de l'exécution de la manipulation. Étant donné une instruction en langage naturel, utilise un VLM pour extraire automatiquement un ensemble de contraintes compositionnelles capturant les exigences spécifiques à la tâche, qui sont ensuite appliquées à deux étapes : (1) la sélection de séquences guidée par les contraintes, qui évalue et filtre un lot de séquences VGMs pour conserver le candidat le plus physiquement plausible, et (2) l'optimisation de trajectoire basée sur les contraintes, qui utilise la séquence sélectionnée comme initialisation et affine la trajectoire du robot sous le même ensemble de contraintes pour corriger les erreurs de recalage. Nous évaluons sur six tâches de manipulation en robotique réelle nécessitant une exécution précise et sensible aux contraintes, améliorant le taux de réussite global de 43,3 points de pourcentage par rapport à la baseline la plus forte, et ce sans aucune donnée d'entraînement spécifique à la tâche.
Les assistants IA personnalisés doivent mémoriser et raisonner sur la mémoire à long terme de l'utilisateur, qui s'étend naturellement sur plusieurs modalités et sources telles que les images, les vidéos et les courriels. Cependant, les benchmarks existants sur la mémoire à long terme se concentrent principalement sur l'historique des dialogues, ne parvenant pas à capturer les références personnalisées réalistes ancrées dans l'expérience vécue. Nous présentons ATM-Bench, le premier benchmark pour la question-réponse mnésique référentielle personnalisée multimodale et multi-source. ATM-Bench contient environ quatre années de données de mémoire personnelle préservant la confidentialité et des paires question-réponse annotées manuellement avec des preuves mnésiques de référence, incluant des requêtes qui nécessitent la résolution de références personnelles, le raisonnement multi-preuve à partir de sources multiples et la gestion de preuves conflictuelles. Nous proposons la Mémoire à Schéma Guidé (SGM) pour représenter structurellement les éléments de mémoire provenant de différentes sources. Lors des expériences, nous implémentons 5 systèmes de mémoire state-of-the-art ainsi qu'une baseline RAG standard, et évaluons des variantes avec différentes techniques d'ingestion, de récupération et de génération de réponses. Nous constatons de faibles performances (moins de 20 % de précision) sur l'ensemble ATM-Bench-Difficile, et que SGM améliore les performances par rapport à la Mémoire Descriptive couramment adoptée dans les travaux antérieurs. Code disponible à : https://github.com/JingbiaoMei/ATM-Bench
Les récents progrès en apprentissage par renforcement multi-agent, particulièrement les Oracles de Réponse dans l'Espace des Politiques (PSRO), ont permis le calcul d'équilibres de théorie des jeux approximatifs dans des domaines de plus en plus complexes. Cependant, ces méthodes reposent sur des oracles d'apprentissage par renforcement profond qui produisent des politiques sous forme de réseaux de neurones « boîte noire », les rendant difficiles à interpréter, à faire confiance ou à déboguer. Nous présentons les Oracles de Réponse dans l'Espace du Code (CSRO), un nouveau cadre qui relève ce défi en remplaçant les oracles d'apprentissage par renforcement par des modèles de langage de grande taille (LLM). Le CSRO reformule le calcul de la meilleure réponse comme une tâche de génération de code, en incitant un LLM à générer des politiques directement sous forme de code lisible par un humain. Cette approche produit non seulement des politiques intrinsèquement interprétables, mais exploite également les connaissances pré-entraînées du LLM pour découvrir des stratégies complexes, semblables à celles des humains. Nous explorons plusieurs méthodes pour construire et améliorer un oracle basé sur un LLM : l'incitation zero-shot, le raffinement itératif et AlphaEvolve, un système évolutif distribué basé sur les LLM. Nous démontrons que le CSRO atteint des performances compétitives par rapport aux méthodes de référence tout en produisant un ensemble diversifié de politiques explicables. Notre travail offre une nouvelle perspective sur l'apprentissage multi-agent, déplaçant l'attention de l'optimisation de paramètres de politique opaques vers la synthèse de comportements algorithmiques interprétables.
L'estimation précise et dense de la profondeur est cruciale pour la perception robotique, mais les capteurs grand public produisent souvent des mesures éparses ou incomplètes en raison de limitations matérielles. Les méthodes existantes de complétion de profondeur par fusion RGBD apprennent des prérequis conditionnés conjointement sur la distribution RGB d'entraînement et des motifs de profondeur spécifiques, limitant la généralisation inter-domaine et la robustesse à divers motifs de profondeur. Des travaux récents exploitent des modèles d'estimation de profondeur monoculaire (MDE) pour introduire des prérequis géométriques indépendants du domaine, mais les stratégies d'intégration en deux étapes reposant sur un alignement explicite relatif-vers-métrique entraînent des calculs supplémentaires et introduisent des distorsions structurelles. À cette fin, nous présentons Any2Full, un framework unifié, indépendant du domaine et agnostique au motif, qui reformule la complétion comme une adaptation par prompts d'échelle d'un modèle MDE préentraîné. Pour gérer les niveaux variables de sparsité et les distributions spatiales irrégulières, nous concevons un Encodeur de Prompts Sensible à l'Échelle. Celui-ci distille les indices d'échelle des entrées éparses en des prompts d'échelle unifiés, guidant le modèle MDE vers des prédictions globalement cohérentes en échelle tout en préservant ses prérequis géométriques. Des expériences approfondies démontrent qu'Any2Full atteint une robustesse et une efficacité supérieures. Il surpasse OMNI-DC de 32,2% en AbsREL moyenne et offre une accélération de 1,4 fois par rapport à PriorDA avec le même backbone MDE, établissant un nouveau paradigme pour la complétion universelle de profondeur. Les codes et checkpoints sont disponibles à l'adresse https://github.com/zhiyuandaily/Any2Full.
Les modèles vision-langage (VLM) établissent un pont entre la perception visuelle et le raisonnement linguistique. Dans la conduite autonome (AD), cette synergie a permis le développement de modèles vision-langage-action (VLA), qui traduisent une compréhension multimodale de haut niveau en comportements de conduite, généralement représentés par des trajectoires futures. Cependant, les modèles VLA existants génèrent principalement des trajectoires génériques sans collision. Au-delà de l'évitement de collisions, l'adaptation à différents styles de conduite (par exemple, sportif, confortable) est essentielle pour une conduite personnalisée. De plus, de nombreuses méthodes traitent la génération de trajectoires comme une simple prédiction de tokens, ce qui peut produire des actions cinématiquement irréalisables. Pour résoudre ces limitations, nous présentons StyleVLA, un cadre VLA informé par la physique pour générer des comportements de conduite diversifiés et physiquement plausibles. Nous introduisons une fonction de perte hybride qui combine une contrainte de cohérence cinématique avec une tête de régression continue pour améliorer la faisabilité des trajectoires. Pour entraîner StyleVLA, construit sur Qwen3-VL-4B, nous avons constitué un jeu de données d'instructions à grande échelle avec plus de 1 200 scénarios, 76 000 échantillons en vue de dessus (BEV) et 42 000 échantillons en vue à la première personne (FPV), comprenant des trajectoires de référence pour cinq styles de conduite et des instructions en langage naturel. Les expériences montrent que notre StyleVLA à 4 milliards de paramètres surpasse significativement les modèles propriétaires (par exemple, Gemini-3-Pro) et les modèles VLA de l'état de l'art. En utilisant un score de conduite composite mesurant le taux de réussite, la faisabilité physique et l'adhésion au style, StyleVLA atteint 0,55 sur BEV et 0,51 sur FPV, contre 0,32 et 0,35 pour Gemini-3-Pro. Ces résultats démontrent qu'un modèle spécialisé, informé par la physique et léger, peut surpasser des modèles privateurs sur des tâches spécifiques à un domaine.