papers.description
La diversité des données post-entraînement est cruciale pour une performance efficace en aval des grands modèles de langage (LLM). De nombreuses approches existantes pour construire ces données quantifient la diversité à l'aide de métriques textuelles qui capturent la variation linguistique, mais ces métriques ne fournissent que des signaux faibles pour les caractéristiques pertinentes à la tâche qui déterminent la performance en aval. Dans ce travail, nous introduisons la Couverture de l'Activation des Caractéristiques (FAC), qui mesure la diversité des données dans un espace de caractéristiques interprétable. En nous appuyant sur cette métrique, nous proposons en outre un cadre de synthèse de données axé sur la diversité, nommé FAC Synthesis, qui utilise d'abord un autoencodeur creux pour identifier les caractéristiques manquantes dans un jeu de données de départ, puis génère des échantillons synthétiques qui reflètent explicitement ces caractéristiques. Les expériences montrent que notre approche améliore constamment à la fois la diversité des données et la performance en aval sur diverses tâches, incluant le suivi d'instructions, la détection de toxicité, la modélisation de récompense et le guidage comportemental. Fait intéressant, nous identifions un espace de caractéristiques interprétable partagé entre différentes familles de modèles (c'est-à-dire LLaMA, Mistral et Qwen), permettant un transfert de connaissances inter-modèles. Notre travail fournit une méthodologie solide et pratique pour explorer l'optimisation des LLM centrée sur les données.
La recherche par requête vocale est un mode d'interaction important dans les systèmes modernes de recherche d'information. Cependant, les ensembles de données d'évaluation existants se limitent souvent à des requêtes simples dans des conditions de bruit contraintes, ce qui les rend inadéquats pour évaluer la robustesse des systèmes de recherche vocale face à des perturbations acoustiques complexes. Pour remédier à cette limitation, nous présentons SQuTR, un benchmark de robustesse pour la recherche par requête vocale comprenant un jeu de données à grande échelle et un protocole d'évaluation unifié. SQuTR agrège 37 317 requêtes uniques provenant de six jeux de données de recherche textuelle couramment utilisés en anglais et en chinois, couvrant de multiples domaines et divers types de requêtes. Nous synthétisons la parole en utilisant des profils vocaux de 200 locuteurs réels et mélangeons 17 catégories de bruits environnementaux réalistes à des niveaux de RSB contrôlés, permettant une évaluation reproductible de la robustesse depuis des conditions calmes jusqu'à des environnements fortement bruyants. Selon le protocole unifié, nous menons des évaluations à grande échelle sur des systèmes de recherche en cascade et de bout en bout représentatifs. Les résultats expérimentaux montrent que les performances de recherche diminuent avec l'augmentation du bruit, avec des baisses substantiellement différentes selon les systèmes. Même les modèles de recherche à grande échelle peinent dans des conditions de bruit extrême, indiquant que la robustesse reste un goulot d'étranglement critique. Globalement, SQuTR fournit un banc d'essai reproductible pour l'évaluation comparative et l'analyse diagnostique, et facilite les recherches futures sur la robustesse dans la recherche textuelle par requête vocale.
Nous présentons MedXIAOHE, un modèle fondateur vision-langue médical conçu pour faire progresser la compréhension et le raisonnement médical généraliste dans les applications cliniques réelles. MedXIAOHE obtient des performances de pointe sur divers benchmarks médicaux et surpasse les systèmes multimodaux propriétaires leaders sur de multiples capacités. Pour y parvenir, nous proposons un cadre d’apprentissage continu conscient des entités qui organise des corpus médicaux hétérogènes pour élargir la couverture des connaissances et réduire les lacunes de la longue traîne (par exemple, les maladies rares). Pour un raisonnement et une interaction de niveau expert médical, MedXIAOHE intègre divers schémas de raisonnement médical via l’apprentissage par renforcement et un entraînement agentique assisté d’outils, permettant un raisonnement diagnostique multi-étapes avec des traces de décision vérifiables. Pour améliorer la fiabilité en usage réel, MedXIAOHE intègre des grilles de préférences utilisateur, un raisonnement fondé sur des preuves et une génération de rapports détaillés à faible hallucination, avec une meilleure adhérence aux instructions médicales. Nous publions ce rapport pour documenter nos choix de conception pratiques, nos insights sur le passage à l’échelle et notre cadre d’évaluation, espérant inspirer des recherches futures.
Les modèles de langage multimodaux à grande échelle (MLLM) excellent dans la compréhension visuelle globale mais peinent encore avec la perception fine, où les preuves décisives sont petites et facilement noyées dans le contexte global. Les méthodes récentes de "raisonnement avec les images" atténuent ce problème en zoomant itérativement sur les régions d'intérêt lors de l'inférence, mais génèrent une latence élevée due aux appels répétés d'outils et au ré-encodage visuel. Pour résoudre ce problème, nous proposons la distillation région-vers-image, qui transforme le zoom d'un outil d'inférence en une primitive d'apprentissage, internalisant ainsi les bénéfices du zoom agentique dans une seule passe avant d'un MLLM. En particulier, nous zoomons d'abord sur des régions micro-rognées pour permettre à des modèles enseignants performants de générer des données VQA de haute qualité, puis distillons cette supervision ancrée régionalement vers l'image complète. Après entraînement sur ces données, le modèle étudiant plus petit améliore la perception fine "en un seul coup d'œil" sans utilisation d'outils. Pour évaluer rigoureusement cette capacité, nous présentons ZoomBench, un benchmark hybride annoté de 845 données VQA couvrant six dimensions perceptives fines, accompagné d'un protocole à double vue qui quantifie "l'écart de zoom" global-régional. Les expériences montrent que nos modèles obtiennent des performances leaders sur plusieurs benchmarks de perception fine, et améliorent également la cognition multimodale générale sur des benchmarks tels que le raisonnement visuel et les agents d'interface graphique. Nous discutons en outre des cas où le "raisonnement avec les images" est nécessaire versus ceux où ses gains peuvent être distillés en une seule passe avant. Notre code est disponible à l'adresse https://github.com/inclusionAI/Zooming-without-Zooming.
Hypothèse. L'intelligence artificielle générale est, fondamentalement, un problème de compression. Une compression efficace exige une résonance : l'apprentissage profond est d'autant plus performant que son architecture s'aligne sur la structure fondamentale des données. Tels sont les principes fondamentaux. Pourtant, les architectures visuelles modernes se sont éloignées de ces vérités : les signaux visuels sont hautement redondants, tandis que l'information discriminante, la surprise, est sparse. Les modèles actuels traitent de manière uniforme des grilles denses de pixels, gaspillant d'immenses ressources de calcul sur des arrière-plans statiques plutôt que de se concentrer sur les résidus prédictifs qui définissent le mouvement et la signification. Nous soutenons que pour résoudre la compréhension visuelle, nous devons aligner nos architectures sur les principes informationnels de la vidéo, à savoir les Codecs. Méthode. OneVision-Encoder encode la vidéo en compressant la structure visuelle prédictive en un sens sémantique. En adoptant la Patchification de Codec, OV-Encoder abandonne le calcul uniforme pour se concentrer exclusivement sur les 3,1 % à 25 % des régions riches en entropie du signal. Pour unifier le raisonnement spatial et temporel sous des dispositions de tokens irrégulières, OneVision-Encoder utilise un RoPE 3D partagé et est entraîné avec un objectif de discrimination par clusters à grande échelle sur plus d'un million de concepts sémantiques, capturant conjointement la permanence des objets et la dynamique du mouvement. Preuve. Les résultats valident notre hypothèse centrale : l'efficacité et la précision ne sont pas un compromis ; elles sont positivement corrélées. Intégré dans un LLM, il surpasse systématiquement des backbones visuels solides tels que Qwen3-ViT et SigLIP2 sur 16 benchmarks de compréhension d'images, de vidéos et de documents, et ce bien qu'il utilise sensiblement moins de tokens visuels et de données de pré-entraînement. Notamment, sur les tâches de compréhension vidéo, OV-Encoder obtient une amélioration moyenne de 4,1 % par rapport à Qwen3-ViT. La sparsité au niveau des patches, alignée sur les codecs, est un principe fondateur, permettant à OV-Encoder d'agir comme un moteur évolutif pour la prochaine génération d'agents généralistes visuels.
Les modèles de langage vidéo (VideoLMs) permettent aux systèmes d'IA de comprendre la dynamique temporelle des vidéos. Pour respecter la contrainte de la fenêtre contextuelle maximale, les méthodes actuelles utilisent l'échantillonnage d'images clés, ce qui peut omettre à la fois les événements de niveau macro et les détails de niveau micro en raison de la couverture temporelle éparse. De plus, le traitement des images complètes et de leurs tokens pour chaque frame entraîne une surcharge computationnelle substantielle. Pour remédier à ces limitations, nous proposons d'exploiter les primitives des codecs vidéo (spécifiquement les vecteurs de mouvement et les résidus) qui encodent naturellement la redondance et la sparsité vidéo sans nécessiter un encodage d'image complet coûteux pour la plupart des frames. À cette fin, nous introduisons des encodeurs légers basés sur des transformers qui agrègent les primitives des codecs et alignent leurs représentations avec les embeddings des encodeurs d'images grâce à une stratégie de pré-entraînement qui accélère la convergence lors du fine-tuning de bout en bout. Notre approche réduit le temps jusqu'au premier token jusqu'à 86 % et l'utilisation de tokens jusqu'à 93 % par rapport aux VideoLMs standard. De plus, en faisant varier les densités d'images clés et de primitives de codec, nous sommes capables de maintenir ou de dépasser les performances sur 14 benchmarks diversifiés de compréhension vidéo couvrant la question-réponse générale, le raisonnement temporel, la compréhension de long terme et la compréhension spatiale des scènes.
Ce document présente GeoAgent, un modèle capable de raisonner de manière proche des humains et de déduire des adresses granulaires. Les méthodes précédentes basées sur l'apprentissage par renforcement ont réalisé des percées en performances et interprétabilité, mais soulèvent encore des préoccupations en raison de leur dépendance aux données de chaîne de pensée générées par IA et à des stratégies d'entraînement qui entrent en conflit avec les caractéristiques géographiques. Pour résoudre ces problèmes, nous introduisons d'abord GeoSeek, un nouveau jeu de données de géolocalisation comprenant des chaînes de pensée annotées par des experts géographes et des joueurs professionnels. Nous explorons ensuite minutieusement les caractéristiques inhérentes aux tâches géographiques et proposons une récompense de similarité géographique ainsi qu'une récompense de cohérence évaluée par un agent de cohérence pour assister l'entraînement. Cette approche encourage le modèle à converger vers des réponses correctes d'un point de vue géographique tout en garantissant l'intégrité et la cohérence de son processus de raisonnement. Les résultats expérimentaux montrent que GeoAgent surpasse les méthodes existantes et une série de grands modèles linguistiques visuels généraux à plusieurs niveaux de granularité, tout en générant un raisonnement étroitement aligné sur celui des humains.
La récupération de vidéos basée sur le mouvement sémantique est un problème fondamental qui reste non résolu. Les approches existantes de représentation vidéo reposent excessivement sur l'apparence statique et le contexte scénique plutôt que sur la dynamique du mouvement, un biais hérité de leurs données d'entraînement et de leurs objectifs. À l'inverse, les entrées traditionnelles centrées sur le mouvement, comme le flux optique, manquent de fondement sémantique nécessaire pour comprendre le mouvement de haut niveau. Pour démontrer ce biais inhérent, nous présentons les benchmarks SimMotion, combinant des données synthétiques contrôlées avec un nouveau jeu de données réel annoté manuellement. Nous montrons que les modèles existants obtiennent de mauvaises performances sur ces benchmarks, échouant souvent à dissocier le mouvement de l'apparence. Pour combler cette lacune, nous proposons SemanticMoments, une méthode simple, sans entraînement, qui calcule des statistiques temporelles (spécifiquement, des moments d'ordre supérieur) sur les caractéristiques issues de modèles sémantiques pré-entraînés. Sur l'ensemble de nos benchmarks, SemanticMoments surpasse systématiquement les méthodes existantes basées sur RVB, le flux optique et la supervision par texte. Cela démontre que les statistiques temporelles dans un espace de caractéristiques sémantiques fournissent une base évolutive et perceptuellement fondée pour la compréhension vidéo centrée sur le mouvement.
L'apprentissage par renforcement (RL) avec récompenses vérifiables est devenu une étape standard de post-entraînement pour améliorer le raisonnement visuel dans les modèles vision-langage. Pourtant, il reste difficile de déterminer quelles capacités le RL améliore réellement par rapport au fine-tuning supervisé utilisé comme initialisation à froid (IN). Les gains obtenus sur les benchmarks de bout en bout amalgament de multiples facteurs, rendant complexe l'attribution des améliorations à des compétences spécifiques. Pour combler cette lacune, nous proposons un cadre d'analyse de type Frankenstein incluant : (i) la localisation fonctionnelle par sondage causal ; (ii) la caractérisation des mises à jour par comparaison des paramètres ; et (iii) le test de transférabilité par fusion de modèles. Au contraire, le RL induit un décalage cohérent au moment de l'inférence principalement dans les couches intermédiaires à tardives, et ces affinages intermédiaires-tardifs sont à la fois transférables (par fusion) et nécessaires (par gel) pour les gains du RL. Globalement, nos résultats suggèrent que la contribution fiable du RL dans le raisonnement visuel n'est pas une amélioration uniforme de la perception visuelle, mais un affinage systématique du calcul dans les couches intermédiaires et tardives des transformeurs, qui améliore l'alignement vision-raisonnement et les performances de raisonnement, soulignant ainsi les limites d'une évaluation basée uniquement sur les benchmarks pour comprendre les améliorations du raisonnement multimodal.
Les agents IA sont capables de traiter des tâches de plus en plus complexes. Pour atteindre des objectifs plus ambitieux, ils doivent pouvoir décomposer les problèmes de manière significative en sous-composants gérables et en déléguer la réalisation en toute sécurité à d'autres agents IA comme à des humains. Pourtant, les méthodes existantes de décomposition et de délégation des tâches reposent sur des heuristiques simples et sont incapables de s'adapter dynamiquement aux changements environnementaux ou de gérer robustement les défaillances inattendues. Nous proposons ici un cadre adaptatif pour une délégation intelligente de l'IA - une séquence de décisions impliquant l'allocation des tâches, qui intègre également le transfert d'autorité, de responsabilité, de redevabilité, des spécifications claires concernant les rôles et les limites, la clarté de l'intention, et des mécanismes pour établir la confiance entre les deux (ou plusieurs) parties. Le cadre proposé s'applique à la fois aux délégants et aux délégués humains et IA dans des réseaux de délégation complexes, visant à éclairer le développement de protocoles dans le web agentiel émergent.
La création d'agents incarnés généralistes sur des matériels diversifiés reste un défi central en robotique, souvent conceptualisé sous le paradigme « un-cerveau, multiples-formes ». Les progrès sont entravés par la fragmentation des données, l'incohérence des représentations et le désalignement des objectifs d'entraînement. Nous présentons ABot-M0, un cadre qui établit un pipeline systématique de curation des données tout en optimisant conjointement l'architecture du modèle et les stratégies d'apprentissage, permettant la transformation de bout en bout de données brutes hétérogènes en représentations unifiées et efficaces. À partir de six jeux de données publics, nous nettoyons, standardisons et équilibrons les échantillons pour constituer UniACT-dataset, un jeu de données à grande échelle comprenant plus de 6 millions de trajectoires et 9 500 heures de données, couvrant diverses morphologies de robots et scénarios de tâches. Le pré-entraînement unifié amène le transfert de connaissances et la généralisation entre plates-formes et tâches, soutenant l'intelligence incarnée généraliste. Pour améliorer l'efficacité et la stabilité de la prédiction d'actions, nous proposons l'Hypothèse de la Variété des Actions : les actions robotiques efficaces résident non pas dans l'espace complet de haute dimension, mais sur une variété lisse de faible dimension régie par les lois physiques et les contraintes de la tâche. Sur cette base, nous introduisons l'Apprentissage de la Variété des Actions (AML), qui utilise une architecture DiT pour prédire directement des séquences d'actions propres et continues. Cela fait passer l'apprentissage du débruitage à la projection sur des variétés faisables, améliorant la vitesse de décodage et la stabilité de la politique. ABot-M0 prend en charge une perception modulaire via un mécanisme à double flux qui intègre la sémantique des VLM avec des connaissances géométriques a priori et des entrées multi-vues provenant de modules 3D plug-and-play tels que VGGT et Qwen-Image-Edit, améliorant la compréhension spatiale sans modifier l'architecture de base et atténuant les limitations standards des VLM en raisonnement 3D. Les expériences montrent que les composants fonctionnent indépendamment avec des bénéfices additifs. Nous publierons l'intégralité du code et des pipelines pour assurer la reproductibilité et les recherches futures.
La simulation offre un moyen évolutif et peu coûteux d'enrichir l'entraînement vision-langage-action (VLA), réduisant la dépendance aux démonstrations onéreuses sur robots réels. Cependant, la plupart des méthodes de co-entraînement simulation-réel reposent sur du fine-tuning supervisé (SFT), qui traite la simulation comme une source statique de démonstrations et n'exploite pas l'interaction en boucle fermée à grande échelle. Par conséquent, les gains en conditions réelles et la généralisation sont souvent limités. Dans cet article, nous proposons un cadre de \textit{Co}-entraînement simulation-réel basé sur l'\textit{Apprentissage par Renforcement} (RL-Co) qui tire parti de la simulation interactive tout en préservant les capacités en monde réel. Notre méthode suit une conception générique en deux étapes : nous initialisons d'abord la politique par SFT sur un mélange de démonstrations réelles et simulées, puis nous l'affinons par apprentissage par renforcement en simulation tout en ajoutant une perte supervisée auxiliaire sur les données du monde réel pour ancrer la politique et atténuer l'oubli catastrophique. Nous évaluons notre cadre sur quatre tâches de manipulation réelles sur tabletop en utilisant deux architectures VLA représentatives, OpenVLA et π_{0.5}, et observons des améliorations constantes par rapport au fine-tuning uniquement sur données réelles et au co-entraînement basé sur SFT, incluant +24% de succès en réel pour OpenVLA et +20% pour π_{0.5}. Au-delà de taux de réussite plus élevés, le co-entraînement par RL produit une meilleure généralisation à des variations de tâches non vues et améliore substantiellement l'efficacité des données réelles, offrant une voie pratique et évolutive pour exploiter la simulation afin d'améliorer le déploiement des robots réels.
La compréhension vidéo universelle nécessite de modéliser des informations visuelles et auditives fines dans le temps, dans divers scénarios du monde réel. Cependant, les performances des modèles existants sont principalement limitées par des données d'instruction vidéo qui représentent un contenu audiovisuel complexe par des descriptions uniques et incomplètes, manquant d'organisation fine et d'annotations fiables. Pour résoudre ce problème, nous présentons : (i) ASID-1M, une collection open-source d'un million d'annotations d'instruction audiovisuelle structurées et granulaires, avec une supervision à attributs unique et multiples ; (ii) ASID-Verify, un pipeline d'enrichissement de données évolutif pour l'annotation, avec vérification et amélioration automatiques qui imposent une cohérence sémantique et temporelle entre les descriptions et le contenu audiovisuel correspondant ; et (iii) ASID-Captioner, un modèle de compréhension vidéo entraîné par Fine-Tuning Supervisé (SFT) sur ASID-1M. Les expériences sur sept benchmarks couvrant la description audiovisuelle, la description par attributs, les questions-réponses basées sur les descriptions et le repérage temporel basé sur les descriptions montrent qu'ASID-Captioner améliore la qualité des descriptions granulaires tout en réduisant les hallucinations et en améliorant le suivi des instructions. Il obtient des performances à l'état de l'art parmi les modèles open-source et est compétitif avec Gemini-3-Pro.
L'inférence des grands modèles de langage (LLM) est souvent limitée par l'empreinte mémoire et la bande passante mémoire dans les déploiements à ressources contraintes, faisant de la quantification une technique fondamentale pour un service efficace. Si la quantification après entraînement (PTQ) maintient une haute fidélité sur 4 bits, elle se dégrade sur 2-3 bits. Fondamentalement, les méthodes existantes imposent une grille de quantification invariante en forme (par exemple, les intervalles uniformes fixes de UINT2) pour chaque groupe, restreignant sévèrement l'ensemble des solutions réalisables pour la minimisation de l'erreur. Pour résoudre ce problème, nous proposons la Quantification par Décomposition en Plan de Bits (BPDQ), qui construit une grille de quantification variable via des plans de bits et des coefficients scalaires, et les affine itérativement en utilisant une information de second ordre approximative tout en compensant progressivement les erreurs de quantification pour minimiser l'écart en sortie. Dans le régime 2 bits, BPDQ permet d'utiliser Qwen2.5-72B sur une seule RTX 3090 avec une précision GSM8K de 83,85 % (contre 90,83 % en 16 bits). De plus, nous fournissons une analyse théorique montrant que la grille variable étend l'ensemble des solutions réalisables, et que le processus de quantification s'aligne systématiquement avec l'objectif d'optimisation dans la géométrie induite par le Hessien. Code : github.com/KingdalfGoodman/BPDQ.
Les modèles de langage à grande échelle par diffusion (dLLM) émergent comme une alternative convaincante aux LLM autorégressifs (AR), grâce à leur capacité à générer des jetons en parallèle. Ce paradigme est particulièrement adapté à la génération de code, où la planification structurelle holistique et l'affinement non séquentiel sont essentiels. Malgré ce potentiel, l'adaptation des dLLM à la génération de noyaux CUDA reste difficile, entravée non seulement par la haute spécialisation requise, mais aussi par le manque criant de données d'entraînement de haute qualité. Pour relever ces défis, nous avons construit CuKe, un jeu de données d'affinage supervisé optimisé pour les noyaux CUDA hautes performances. Sur cette base, nous proposons un cadre d'apprentissage par renforcement à double phase (BiC-RL) comprenant une étape de remplissage de noyaux CUDA et une étape de génération de noyaux CUDA de bout en bout. En tirant parti de ce cadre d'entraînement, nous présentons DICE, une série de modèles de langage à grande échelle par diffusion conçus pour la génération de noyaux CUDA, couvrant trois échelles de paramètres : 1,7B, 4B et 8B. Des expériences approfondies sur KernelBench démontrent que DICE surpasse significativement les LLM autorégressifs et par diffusion d'échelle comparable, établissant un nouvel état de l'art pour la génération de noyaux CUDA.
Le raisonnement scientifique exige intrinsèquement l'intégration de boîtes à outils sophistiquées pour naviguer dans les connaissances spécifiques à un domaine. Pourtant, les benchmarks actuels négligent largement la capacité des agents à orchestrer des outils pour de tels workflows rigoureux. Pour combler cette lacune, nous présentons SciAgentGym, un environnement interactif et évolutif comprenant 1 780 outils spécialisés répartis sur quatre disciplines des sciences naturelles, soutenu par une infrastructure d'exécution robuste. En complément, nous présentons SciAgentBench, une suite d'évaluation à plusieurs niveaux conçue pour tester en profondeur les capacités des agents, des actions élémentaires aux workflows à long terme. Notre évaluation identifie un goulot d'étranglement critique : les modèles de pointe éprouvent des difficultés avec l'utilisation complexe d'outils scientifiques. Même pour un modèle leader comme GPT-5, les taux de réussite chutent brutalement de 60,6 % à 30,9 % à mesure que les horizons d'interaction s'allongent, principalement en raison d'échecs dans l'exécution de workflows multi-étapes. Pour y remédier, nous proposons SciForge, une méthode de synthèse de données qui modélise l'espace d'action des outils sous forme de graphe de dépendances pour générer des trajectoires d'entraînement logiques. En affinant le modèle sur ces trajectoires, notre SciAgent-8B surpasse le modèle Qwen3-VL-235B-Instruct pourtant bien plus grand, tout en démontrant un transfert positif interdomaine des capacités d'utilisation d'outils scientifiques. Ces résultats soulignent le potentiel prometteur des prochaines générations d'agents scientifiques autonomes.
L'affinage par apprentissage par renforcement (RL) est devenu une technique clé pour améliorer les grands modèles de langage (LLM) sur les tâches intensives en raisonnement, motivant son extension aux modèles de vision et de langage (VLM). Bien que les VLM affinés par RL s'améliorent sur les benchmarks de raisonnement visuel, ils restent vulnérables à un ancrage visuel faible, aux hallucinations et à une dépendance excessive aux indices textuels. Nous montrons que de simples perturbations textuelles contrôlées – des légendes trompeuses ou des traces de raisonnement en chaîne (CoT) incorrectes – provoquent des baisses substantielles de robustesse et de confiance, et que ces effets sont plus prononcés lorsque la cohérence du CoT est prise en compte dans les modèles de raisonnement multimodal open-source. Des métriques basées sur l'entropie montrent en outre que ces perturbations remodèlent l'incertitude du modèle et la masse de probabilité sur l'option correcte, révélant des tendances spécifiques aux modèles en matière de maujustement. Pour mieux comprendre ces vulnérabilités, nous analysons plus avant la dynamique de l'affinage par RL et découvrons un compromis précision-fidélité : l'affinage augmente la précision sur les benchmarks, mais peut simultanément éroder la fiabilité du CoT qui l'accompagne et sa robustesse aux changements contextuels. Bien qu'une augmentation adversarial améliore la robustesse, elle ne prévient pas à elle seule la dérive de la fidélité. L'intégration d'une récompense sensible à la fidélité peut rétablir l'alignement entre les réponses et le raisonnement, mais, associée à l'augmentation, l'entraînement risque de s'effondrer sur des stratégies de raccourci et la robustesse reste insaisissable. Ensemble, ces résultats mettent en lumière les limites des évaluations basées uniquement sur la précision et motivent des protocoles d'entraînement et d'évaluation qui mettent conjointement l'accent sur l'exactitude, la robustesse et la fidélité du raisonnement ancré visuellement.
Les politiques génératives itératives, telles que les modèles de diffusion et l'appariement de flux, offrent une expressivité supérieure pour le contrôle continu, mais compliquent l'apprentissage par renforcement à entropie maximale car leurs log-densités d'action ne sont pas directement accessibles. Pour résoudre ce problème, nous proposons Field Least-Energy Actor-Critic (FLAC), un cadre sans vraisemblance qui régule la stochasticité de la politique en pénalisant l'énergie cinétique du champ de vitesse. Notre idée clé est de formuler l'optimisation de la politique comme un problème de Pont de Schrödinger Généralisé (PSG) par rapport à un processus de référence à haute entropie (par exemple, uniforme). Selon cette perspective, le principe d'entropie maximale émerge naturellement comme le fait de rester proche d'une référence à haute entropie tout en optimisant le rendement, sans nécessiter de densités d'action explicites. Dans ce cadre, l'énergie cinétique sert de proxy physiquement fondé pour la divergence par rapport à la référence : minimiser l'énergie dans l'espace des chemins borne l'écart de la distribution d'action terminale induite. En nous appuyant sur cette perspective, nous dérivons un schéma d'itération de politique régularisé par l'énergie et un algorithme pratique hors politique qui ajuste automatiquement l'énergie cinétique via un mécanisme dual Lagrangien. Empiriquement, FLAC obtient des performances supérieures ou comparables sur des benchmarks de haute dimension par rapport à des bases de référence solides, tout en évitant l'estimation explicite de la densité.
Dans ce rapport, nous présentons Xiaomi-Robotics-0, un modèle vision-langage-action (VLA) avancé optimisé pour des performances élevées et une exécution rapide et fluide en temps réel. La clé de notre méthode réside dans une stratégie d'entraînement et de déploiement soigneusement conçue. Xiaomi-Robotics-0 est d'abord pré-entraîné sur de vastes ensembles de données de trajectoires robotiques à incarnation croisée et de données vision-langage, ce qui lui confère des capacités de génération d'actions étendues et généralisables tout en évitant l'oubli catastrophique des connaissances visuo-sémantiques du modèle de langage visuel (VLM) pré-entraîné sous-jacent. Durant le post-entraînement, nous proposons plusieurs techniques pour entraîner le modèle VLA à une exécution asynchrone afin de résoudre la latence d'inférence lors des déploiements sur de vrais robots. Pendant le déploiement, nous alignons soigneusement les pas de temps des segments d'actions prédits consécutifs pour garantir des déploiements en temps réel continus et homogènes. Nous évaluons Xiaomi-Robotics-0 de manière extensive sur des benchmarks en simulation et sur deux tâches robotiques réelles exigeantes qui nécessitent une manipulation bimanuelle précise et dextre. Les résultats montrent que notre méthode atteint des performances de pointe sur l'ensemble des benchmarks en simulation. De plus, Xiaomi-Robotics-0 peut se déployer rapidement et fluidement sur des robots réels en utilisant un GPU de gamme grand public, atteignant des taux de réussite et un débit élevés sur les deux tâches robotiques réelles. Pour faciliter les recherches futures, le code et les points de contrôle du modèle sont open-source à l'adresse https://xiaomi-robotics-0.github.io.
Atteindre une intelligence spatiale nécessite de dépasser la plausibilité visuelle pour construire des simulateurs mondiaux fondés sur les lois physiques. Si les LLM de codage ont fait progresser la génération de scènes 3D statiques, l'extension de ce paradigme à la dynamique 4D reste une frontière critique. Cette tâche présente deux défis fondamentaux : l'intrication contextuelle multi-échelle, où la génération monolithique échoue à équilibrer les structures d'objets locales avec les dispositions environnementales globales ; et un fossé sémantique-physique d'exécution, où la génération de code en boucle ouverte conduit à des hallucinations physiques manquant de fidélité dynamique. Nous présentons Code2Worlds, un framework qui formule la génération 4D comme une génération de code de simulation à partir du langage. Premièrement, nous proposons une architecture à double flux qui dissocie la génération d'objets augmentée par retrieval de l'orchestration environnementale hiérarchique. Deuxièmement, pour garantir la fidélité dynamique, nous établissons un mécanisme en boucle fermée conscient de la physique dans lequel un Agent PostProcess scripte la dynamique, couplé à un Critique VLM-Mouvement qui effectue une auto-réflexion pour affiner itérativement le code de simulation. Les évaluations sur le benchmark Code4D montrent que Code2Worlds surpasse les bases de référence avec un gain SGS de 41 % et une Richesse supérieure de 49 %, tout en générant uniquement une dynamique consciente de la physique absente des méthodes statiques antérieures. Code : https://github.com/AIGeeksGroup/Code2Worlds. Site web : https://aigeeksgroup.github.io/Code2Worlds.
Les récents progrès des modèles génératifs basés sur la diffusion ont établi un nouveau paradigme pour le rééclairage d'images et de vidéos. Cependant, l'extension de ces capacités au rééclairage 4D reste un défi, principalement en raison de la rareté des données d'apprentissage appariées pour le rééclairage 4D et de la difficulté à maintenir la cohérence temporelle lors de changements de viewpoint extrêmes. Dans ce travail, nous proposons Light4D, un nouveau cadre d'apprentissage sans entraînement conçu pour synthétiser des vidéos 4D cohérentes sous un éclairage cible, même lors de changements de viewpoint extrêmes. Premièrement, nous introduisons le « Disentangled Flow Guidance », une stratégie prenant en compte le temps qui injecte efficacement le contrôle de l'éclairage dans l'espace latent tout en préservant l'intégrité géométrique. Deuxièmement, pour renforcer la cohérence temporelle, nous développons une « Temporal Consistent Attention » au sein de l'architecture IC-Light et incorporons en outre une régularisation déterministe pour éliminer le scintillement d'apparence. Des expériences approfondies démontrent que notre méthode atteint des performances compétitives en matière de cohérence temporelle et de fidélité de l'éclairage, gérant robustement des rotations de caméra allant de -90° à 90°. Code : https://github.com/AIGeeksGroup/Light4D. Site web : https://aigeeksgroup.github.io/Light4D.
Nous proposons UniDFlow, un cadre unifié de flux discret pour la compréhension, la génération et l'édition multimodales. Il dissocie compréhension et génération via des adaptateurs à faible rang spécifiques aux tâches, évitant les interférences d'objectifs et l'enchevêtrement des représentations, tandis qu'un nouvel alignement des préférences multimodales basé sur des références optimise les résultats relatifs sous conditionnement identique, améliorant la fidélité et la contrôlabilité sans réentraînement à grande échelle. UniDFlow atteint des performances état de l'art sur huit benchmarks et présente une forte généralisation zero-shot à des tâches incluant l'inpainting, la génération d'images contextuelles, l'édition par référence et la génération compositionnelle, malgré l'absence d'entraînement explicite spécifique à ces tâches.
Les méthodes traditionnelles d'automatisation de la conception des systèmes de recommandation, telles que la recherche d'architecture neuronale (NAS), sont souvent limitées par un espace de recherche fixe défini par des connaissances a priori humaines, ce qui restreint l'innovation à des opérateurs prédéfinis. Bien que les frameworks récents d'évolution de code pilotés par LLM transforment la cible d'un espace de recherche fixe en des espaces de programmes ouverts, ils reposent principalement sur des métriques scalaires (par exemple, NDCG, taux de succès) qui ne fournissent pas d'analyses qualitatives sur les défaillances du modèle ni d'orientation directionnelle pour l'amélioration. Pour résoudre ce problème, nous proposons Self-EvolveRec, un nouveau framework qui établit une boucle de rétroaction directionnelle en intégrant un simulateur d'utilisateurs pour des critiques qualitatives et un outil de diagnostic de modèle pour une vérification interne quantitative. De plus, nous introduisons une stratégie de co-évolution modèle - outil de diagnostic pour garantir que les critères d'évaluation s'adaptent dynamiquement à l'évolution de l'architecture de recommandation. Des expériences approfondies démontrent que Self-EvolveRec surpasse significativement les méthodes de référence actuelles en matière de NAS et d'évolution de code pilotée par LLM, à la fois en performance de recommandation et en satisfaction utilisateur. Notre code est disponible à l'adresse https://github.com/Sein-Kim/self_evolverec.
Les modèles de diffusion audio peuvent synthétiser de la musique haute fidélité à partir de texte, mais leurs mécanismes internes de représentation des concepts de haut niveau restent mal compris. Dans ce travail, nous utilisons le "activation patching" pour démontrer que des concepts musicaux sémantiques distincts, tels que la présence d'instruments spécifiques, de voix ou de caractéristiques de genre, sont contrôlés par un petit sous-ensemble partagé de couches d'attention dans les architectures de diffusion audio de pointe. Ensuite, nous montrons que l'application de l'"Addition d'Activation Contrastive" et des "Autoencodeurs Faiblement Connectés" dans ces couches permet un contrôle plus précis de l'audio généré, indiquant un bénéfice direct du phénomène de spécialisation. En orientant les activations des couches identifiées, nous pouvons modifier des éléments musicaux spécifiques avec une grande précision, comme moduler le tempo ou changer l'ambiance d'un morceau.
Steering methods influence Large Language Model behavior by identifying semantic directions in hidden representations, but are typically realized through inference-time activation interventions that apply a fixed, global modification to the model's internal states. While effective, such interventions often induce unfavorable attribute-utility trade-offs under strong control, as they ignore the fact that many behaviors are governed by a small and heterogeneous subset of model components. We propose Steer2Edit, a theoretically grounded, training-free framework that transforms steering vectors from inference-time control signals into diagnostic signals for component-level rank-1 weight editing. Instead of uniformly injecting a steering direction during generation, Steer2Edit selectively redistributes behavioral influence across individual attention heads and MLP neurons, yielding interpretable edits that preserve the standard forward pass and remain compatible with optimized parallel inference. Across safety alignment, hallucination mitigation, and reasoning efficiency, Steer2Edit consistently achieves more favorable attribute-utility trade-offs: at matched downstream performance, it improves safety by up to 17.2%, increases truthfulness by 9.8%, and reduces reasoning length by 12.2% on average. Overall, Steer2Edit provides a principled bridge between representation steering and weight editing by translating steering signals into interpretable, training-free parameter updates.
Les modèles de langage de grande taille (LLM) représentent une frontière prometteuse pour les systèmes de recommandation, mais leur développement a été entravé par l'absence de lois d'évolutivité prévisibles, pourtant cruciales pour orienter la recherche et optimiser l'allocation des ressources. Nous émettons l'hypothèse que cela pourrait être attribué au bruit, aux biais et à l'incomplétude inhérents aux données brutes d'interaction utilisateur dans les efforts antérieurs de pré-entraînement continu (CPT). Cet article introduit un nouveau cadre stratifié pour générer des données synthétiques de haute qualité qui contourne ces problèmes en créant un programme pédagogique structuré pour le LLM. Nous fournissons des preuves directes et convaincantes de l'utilité de notre curriculum en démontrant que les modèles séquentiels standard entraînés sur nos données synthétiques fondées surpassent significativement (+130% sur recall@100 pour SasRec) les modèles entraînés sur des données réelles dans les tâches de classement en aval, ce qui démontre sa supériorité pour l'apprentissage de modèles de préférences utilisateur généralisables. Sur cette base, nous démontrons empiriquement, pour la première fois, une évolutivité robuste suivant une loi de puissance pour un LLM pré-entraîné continuellement sur nos données de haute qualité spécifiques à la recommandation. Nos expériences révèlent une réduction de perplexité cohérente et prévisible sur plusieurs modalités de données synthétiques. Ces résultats établissent une méthodologie fondamentale pour une mise à l'échelle fiable des capacités des LLM dans le domaine de la recommandation, déplaçant ainsi l'axe de recherche de la compensation des déficiences des données vers l'exploitation d'informations structurées de haute qualité.
Les grands modèles de fondation ont démontré une forte capacité de généralisation en monde ouvert pour résoudre des problèmes complexes en vision et langage, mais un niveau similaire de généralisation n'a pas encore été atteint en robotique. Un défi fondamental est que ces modèles présentent des capacités limitées en zero-shot, ce qui entrave leur aptitude à généraliser efficacement à des scénarios non vus. Dans ce travail, nous proposons GeneralVLA (Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning), un modèle hiérarchique vision-langage-action (VLA) qui permet une utilisation plus efficace de la généralisation des modèles de fondation, en permettant une manipulation zero-shot et une génération automatique de données pour la robotique. Plus précisément, nous étudions une classe de modèle VLA hiérarchique où le module de haut niveau ASM (Affordance Segmentation Module) est fine-tuné pour percevoir les affordances par points-clés dans l'image de la scène ; l'agent 3D de niveau intermédiaire réalise la compréhension de la tâche, l'acquisition des connaissances sur les compétences et la planification de trajectoire pour produire un chemin 3D indiquant la trajectoire souhaitée de l'effecteur robotique. La prédiction du chemin 3D intermédiaire sert ensuite de guide à la politique de contrôle de bas niveau, consciente de la 3D, capable d'une manipulation précise. Par rapport aux approches alternatives, notre méthode ne nécessite aucune collecte de données robotiques réelles ni démonstration humaine, la rendant bien plus scalable à des tâches et points de vue divers. Empiriquement, GeneralVLA génère avec succès des trajectoires pour 14 tâches, surpassant significativement les méthodes state-of-the-art telles que VoxPoser. Les démonstrations générées permettent d'entraîner des politiques de clonage comportemental plus robustes qu'avec des démonstrations humaines ou des données générées par VoxPoser, Scaling-up et Code-As-Policies. Nous pensons que GeneralVLA peut devenir la méthode scalable pour à la fois générer des données pour la robotique et résoudre de nouvelles tâches dans un cadre zero-shot. Code : https://github.com/AIGeeksGroup/GeneralVLA. Site web : https://aigeeksgroup.github.io/GeneralVLA.
La quantification post-entraînement (PTQ) est essentielle pour déployer les grands modèles de langage (LLM) sur des appareils à mémoire limitée, mais elle rend les modèles statiques et difficiles à affiner. Les paradigmes standards de réglage fin, y compris l'apprentissage par renforcement (RL), reposent fondamentalement sur la rétropropagation et des poids en haute précision pour calculer les gradients. Ils ne peuvent donc pas être utilisés sur des modèles quantifiés, où l'espace des paramètres est discret et non différentiable. Bien que les stratégies d'évolution (ES) offrent une alternative sans rétropropagation, l'optimisation des paramètres quantifiés peut encore échouer en raison d'un gradient qui s'annule ou devient inexact. Cet article présente les Stratégies d'Évolution Quantifiées (QES), un paradigme d'optimisation qui effectue un réglage fin des paramètres complets directement dans l'espace quantifié. QES repose sur deux innovations : (1) elle intègre une rétroaction d'erreur accumulée pour préserver les signaux de gradient en haute précision, et (2) elle utilise une relecture de graine sans état pour réduire l'utilisation de la mémoire à des niveaux équivalents à l'inférence en basse précision. QES surpasse significativement la méthode de réglage fin d'ordre zéro la plus avancée sur les tâches de raisonnement arithmétique, rendant ainsi possible le réglage fin direct pour les modèles quantifiés. Elle ouvre par conséquent la possibilité de mettre à l'échelle les LLM entièrement dans l'espace quantifié. Le code source est disponible à l'adresse https://github.com/dibbla/Quantized-Evolution-Strategies.
Nous présentons scPilot, le premier cadre systématique pour pratiquer le raisonnement natif des omiques : un grand modèle de langage (LLM) converse en langage naturel tout en inspectant directement des données de séquençage d'ARN unicellulaire (scRNA-seq) et des outils bioinformatiques à la demande. scPilot convertit les analyses fondamentales en biologie unicellulaire, à savoir l'annotation des types cellulaires, la reconstruction des trajectoires développementales et le ciblage des facteurs de transcription, en problèmes de raisonnement étape par étape que le modèle doit résoudre, justifier et, si nécessaire, réviser avec de nouvelles preuves. Pour mesurer les progrès, nous publions scBench, une suite de 9 jeux de données expertement constitués et d'évaluateurs qui testent fidèlement la capacité de raisonnement natif des omiques de scPilot par rapport à divers LLMs. Les expériences avec o1 montrent que le raisonnement natif itératif améliore la précision moyenne de 11 % pour l'annotation des types cellulaires, et Gemini-2.5-Pro réduit la distance d'édition des graphes de trajectoire de 30 % par rapport à l'invocation directe (one-shot prompting), tout en générant des traces de raisonnement transparentes qui expliquent l'ambiguïté des gènes marqueurs et la logique régulatoire. En ancrant les LLMs dans les données omiques brutes, scPilot permet des analyses unicellulaires vérifiables, interprétables et riches en informations diagnostiques. Le code, les données et le package sont disponibles à l'adresse https://github.com/maitrix-org/scPilot.
La cartographie des couronnes individuelles des arbres est essentielle pour des tâches telles que la mise à jour des inventaires d'arbres urbains et le suivi de la santé des forêts, qui nous aident à comprendre et à protéger notre environnement. Cependant, la séparation automatique des couronnes les unes des autres dans les images aériennes est difficile en raison de facteurs tels que la texture et les chevauchements partiels des cimes. Dans cette étude, nous présentons une méthode pour entraîner des modèles d'apprentissage profond qui segmentent et séparent les arbres individuels à partir d'images RVB et multispectrales, en utilisant des pseudo-labels dérivés de données de scan laser aéroporté (ALS). Notre étude montre que ces pseudo-labels issus de l'ALS peuvent être améliorés à l'aide d'un modèle de segmentation d'instances sans apprentissage préalable, le Segment Anything Model 2 (SAM 2). Notre méthode offre un moyen d'obtenir des annotations d'entraînement spécifiques au domaine pour les modèles basés sur l'imagerie optique sans aucun coût d'annotation manuelle, conduisant à des modèles de segmentation qui surpassent les modèles disponibles conçus pour un déploiement dans un domaine général sur la même tâche.
L'identification des commits de correction de vulnérabilités correspondant aux CVE divulgués est essentielle pour la maintenance sécurisée des logiciels, mais reste difficile à grande échelle, car les grands dépôts contiennent des millions de commits dont seule une petite fraction traite des problèmes de sécurité. Les approches automatisées existantes, incluant les techniques d'apprentissage automatique traditionnelles et les méthodes récentes basées sur les grands modèles de langage (LLM), souffrent souvent d'un compromis précision-rappel médiocre. Fréquemment évaluées sur des commits échantillonnés aléatoirement, nous révélons qu'elles sous-estiment considérablement la difficulté réelle, où les commits candidats sont déjà pertinents pour la sécurité et très similaires. Nous proposons Favia, un cadre médico-légal (forensic) et agentiel pour l'identification des corrections de vulnérabilités, qui combine un classement scalable des candidats avec un raisonnement sémantique profond et itératif. Favia emploie d'abord une étape de classement efficace pour réduire l'espace de recherche des commits. Chaque commit est ensuite rigoureusement évalué à l'aide d'un agent LLM basé sur ReAct. En fournissant à l'agent un dépôt pré-commit comme environnement, ainsi que des outils spécialisés, l'agent tente de localiser les composants vulnérables, navigue dans la base de code et établit un alignement causal entre les modifications du code et les causes racines des vulnérabilités. Ce processus fondé sur des preuves permet une identification robuste des corrections indirectes, multi-fichiers et non triviales qui échappent aux méthodes à passage unique ou basées sur la similarité. Nous évaluons Favia sur CVEVC, un jeu de données à grande échelle que nous avons constitué comprenant plus de 8 millions de commits provenant de 3 708 dépôts réels, et montrons qu'il surpasse constamment les méthodes de référence traditionnelles et basées sur les LLM dans un scénario réaliste de sélection des candidats, atteignant les compromis précision-rappel les plus solides et les scores F1 les plus élevés.
L'identification linguistique (LID) est une étape essentielle dans la construction de jeux de données multilingues de haute qualité à partir de données web. Les outils de LID existants (tels qu'OpenLID ou GlotLID) peinent souvent à identifier les langues étroitement apparentées et à distinguer un langage naturel valide du bruit, ce qui contamine les sous-ensembles spécifiques à une langue, en particulier pour les langues peu dotées. Dans ce travail, nous étendons le classifieur OpenLID en ajoutant davantage de données d'apprentissage, en fusionnant des clusters de variantes linguistiques problématiques et en introduisant une étiquette spéciale pour marquer le bruit. Nous nommons ce système étendu OpenLID-v3 et l'évaluons contre GlotLID sur plusieurs benchmarks. Lors du développement, nous nous concentrons sur trois groupes de langues étroitement apparentées (bosniaque, croate et serbe ; variétés romanes du nord de l'Italie et du sud de la France ; et langues scandinaves) et contribuons par de nouveaux jeux de données d'évaluation lorsque les existants sont inadéquats. Nous constatons que les approches par ensemble améliorent la précision mais réduisent aussi substantiellement la couverture pour les langues peu dotées. OpenLID-v3 est disponible sur https://huggingface.co/HPLT/OpenLID-v3.