papers.description
Nous présentons 4KAgent, un système généraliste unifié de super-résolution agentique conçu pour augmenter universellement la résolution de n'importe quelle image à 4K (et même au-delà, si appliqué de manière itérative). Notre système peut transformer des images de résolutions extrêmement basses avec des dégradations sévères, par exemple des entrées fortement distordues à 256x256, en sorties 4K nettes et photoréalistes. 4KAgent comprend trois composants principaux : (1) Profilage, un module qui personnalise le pipeline de 4KAgent en fonction de cas d'utilisation spécifiques ; (2) Un Agent de Perception, qui exploite des modèles vision-langage ainsi que des experts en évaluation de la qualité d'image pour analyser l'image d'entrée et élaborer un plan de restauration sur mesure ; et (3) Un Agent de Restauration, qui exécute le plan en suivant un paradigme d'exécution-réflexion récursive, guidé par une politique de mélange d'experts axée sur la qualité pour sélectionner la sortie optimale à chaque étape. De plus, 4KAgent intègre un pipeline spécialisé de restauration faciale, améliorant significativement les détails du visage dans les photos de portrait et les selfies. Nous évaluons rigoureusement notre 4KAgent à travers 11 catégories de tâches distinctes couvrant un total de 26 benchmarks variés, établissant de nouveaux records dans un large spectre de domaines d'imagerie. Nos évaluations incluent des images naturelles, des photos de portrait, du contenu généré par IA, des images satellitaires, de la microscopie à fluorescence, et de l'imagerie médicale comme la fundoscopie, l'échographie et les rayons X, démontrant une performance supérieure en termes de métriques perceptuelles (par exemple, NIQE, MUSIQ) et de fidélité (par exemple, PSNR). En établissant un nouveau paradigme agentique pour les tâches de vision de bas niveau, nous visons à catalyser un intérêt et une innovation plus larges pour les agents autonomes centrés sur la vision à travers diverses communautés de recherche. Nous publierons l'intégralité du code, des modèles et des résultats sur : https://4kagent.github.io.
Nous présentons Skywork-R1V3, un modèle vision-langage (VLM) open-source avancé qui inaugure une nouvelle approche du raisonnement visuel. Son innovation clé réside dans le transfert efficace des compétences de raisonnement des modèles de langage massifs (LLMs) textuels vers des tâches visuelles. La performance remarquable de Skywork-R1V3 découle principalement de notre cadre élaboré de post-entraînement par apprentissage par renforcement (RL), qui active et améliore efficacement la capacité de raisonnement du modèle, sans nécessiter de pré-entraînement supplémentaire. Grâce à ce cadre, nous mettons en lumière le rôle fondamental du module connecteur dans l'alignement intermodal robuste des modèles de raisonnement multimodal. Par ailleurs, nous introduisons un indicateur unique de capacité de raisonnement, l'entropie des tokens critiques de raisonnement, qui s'est avéré très efficace pour la sélection des points de contrôle lors de l'entraînement RL. Skywork-R1V3 atteint des résultats de pointe sur MMMU, passant de 64,3 % à 76,0 %, une performance comparable aux capacités humaines de niveau débutant. Fait notable, notre approche de post-entraînement par RL permet même au modèle de 38 milliards de paramètres de rivaliser avec les meilleurs VLMs propriétaires. L'implémentation réussit à transférer le raisonnement mathématique à d'autres tâches de raisonnement liées à des sujets spécifiques. Nous incluons également une analyse des stratégies d'apprentissage curriculaire et de réglage fin par renforcement, ainsi qu'une discussion plus large sur le raisonnement multimodal. Skywork-R1V3 représente un bond en avant significatif dans le raisonnement multimodal, démontrant que le RL est un moteur puissant pour faire progresser les capacités des VLMs open-source.
Bien que les capacités de mémoire des agents d'IA attirent une attention croissante, les solutions existantes restent fondamentalement limitées. La plupart reposent sur des composants de mémoire plats et à portée étroite, ce qui limite leur capacité à personnaliser, abstraire et rappeler de manière fiable des informations spécifiques à l'utilisateur au fil du temps. À cette fin, nous présentons MIRIX, un système de mémoire modulaire et multi-agents qui redéfinit l'avenir de la mémoire en IA en relevant le défi le plus critique du domaine : permettre aux modèles de langage de véritablement se souvenir. Contrairement aux approches précédentes, MIRIX transcende le texte pour intégrer des expériences visuelles et multimodales riches, rendant la mémoire véritablement utile dans des scénarios réels. MIRIX se compose de six types de mémoire distincts et soigneusement structurés : Mémoire de Base, Épisodique, Sémantique, Procédurale, Mémoire des Ressources et Coffre de Connaissances, associés à un cadre multi-agents qui contrôle et coordonne dynamiquement les mises à jour et les récupérations. Cette conception permet aux agents de persister, de raisonner et de récupérer avec précision des données utilisateur diversifiées et à long terme à grande échelle. Nous validons MIRIX dans deux contextes exigeants. Premièrement, sur ScreenshotVQA, un benchmark multimodal complexe comprenant près de 20 000 captures d'écran haute résolution par séquence, nécessitant une compréhension contextuelle profonde et où aucun système de mémoire existant ne peut être appliqué, MIRIX atteint une précision 35 % supérieure à la base de référence RAG tout en réduisant les besoins de stockage de 99,9 %. Deuxièmement, sur LOCOMO, un benchmark de conversation longue avec une entrée textuelle unimodale, MIRIX atteint une performance de pointe de 85,4 %, surpassant largement les bases de référence existantes. Ces résultats montrent que MIRIX établit une nouvelle norme de performance pour les agents LLM augmentés par la mémoire. Pour permettre aux utilisateurs d'expérimenter notre système de mémoire, nous fournissons une application emballée alimentée par MIRIX. Elle surveille l'écran en temps réel, construit une base de mémoire personnalisée et offre une visualisation intuitive ainsi qu'un stockage local sécurisé pour garantir la confidentialité.
La génération de séquences de mouvements humains diversifiés et naturels à partir de descriptions textuelles constitue un domaine de recherche fondamental et complexe dans les champs de la vision par ordinateur, des graphismes et de la robotique. Malgré des avancées significatives dans ce domaine, les méthodologies actuelles rencontrent souvent des difficultés concernant les capacités de généralisation en zero-shot, principalement en raison de la taille limitée des ensembles de données d’entraînement. De plus, l’absence d’un cadre d’évaluation complet freine les progrès dans cette tâche en ne permettant pas d’identifier les axes d’amélioration. Dans ce travail, nous visons à propulser la génération de mouvements à partir de texte dans une nouvelle ère, c’est-à-dire à atteindre la capacité de généralisation en zero-shot. Pour ce faire, nous développons d’abord un pipeline d’annotation efficace et introduisons MotionMillion, le plus grand ensemble de données de mouvements humains à ce jour, comprenant plus de 2 000 heures et 2 millions de séquences de mouvements de haute qualité. En outre, nous proposons MotionMillion-Eval, le benchmark le plus complet pour évaluer la génération de mouvements en zero-shot. En exploitant une architecture évolutive, nous augmentons notre modèle à 7 milliards de paramètres et validons ses performances sur MotionMillion-Eval. Nos résultats démontrent une forte généralisation à des mouvements hors domaine et de composition complexe, marquant une étape significative vers la génération de mouvements humains en zero-shot. Le code est disponible à l’adresse suivante : https://github.com/VankouF/MotionMillion-Codes.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) s'est avéré être une stratégie hautement efficace pour doter les grands modèles de langage (LLM) de solides capacités de raisonnement multi-étapes. Cependant, sa conception et ses optimisations restent adaptées à des domaines purement textuels, ce qui entraîne des performances sous-optimales lorsqu'elles sont appliquées à des tâches de raisonnement multimodal. En particulier, nous observons qu'une source majeure d'erreur dans le raisonnement multimodal actuel réside dans la perception des entrées visuelles. Pour remédier à ce goulot d'étranglement, nous proposons l'Optimisation de Politique Consciente de la Perception (PAPO), une extension simple mais efficace de GRPO qui encourage le modèle à apprendre à percevoir tout en apprenant à raisonner, entièrement à partir de signaux de supervision internes. Notamment, PAPO ne repose pas sur une curation de données supplémentaire, des modèles de récompense externes ou des modèles propriétaires. Plus précisément, nous introduisons la Perte de Perception Implicite sous la forme d'un terme de divergence KL dans l'objectif GRPO, ce qui, malgré sa simplicité, apporte des améliorations globales significatives (4,4 %) sur divers benchmarks multimodaux. Les améliorations sont plus marquées, approchant 8,0 %, sur les tâches fortement dépendantes de la vision. Nous observons également une réduction substantielle (30,5 %) des erreurs de perception, indiquant des capacités perceptives améliorées avec PAPO. Nous menons une analyse approfondie de PAPO et identifions un problème unique de piratage de la perte, que nous analysons rigoureusement et atténuons grâce à une Perte d'Entropie Double. Globalement, notre travail introduit une intégration plus profonde de la supervision consciente de la perception dans les objectifs d'apprentissage RLVR et pose les bases d'un nouveau cadre RL qui encourage le raisonnement visuellement ancré. Page du projet : https://mikewangwzhl.github.io/PAPO.
Les grands modèles de langage (LLMs) ont récemment obtenu des succès notables dans des benchmarks de génération de code tels que HumanEval et LiveCodeBench. Cependant, un examen approfondi révèle que ces suites d'évaluation comprennent souvent un nombre limité de cas de test homogènes, ce qui entraîne la non-détection de fautes subtiles. Cela non seulement gonfle artificiellement les performances mesurées, mais compromet également l'estimation précise des récompenses dans les cadres d'apprentissage par renforcement utilisant des récompenses vérifiables (RLVR). Pour remédier à ces lacunes critiques, nous étudions systématiquement la tâche de génération de cas de test (TCG) en proposant des métriques multidimensionnelles conçues pour quantifier rigoureusement l'exhaustivité des suites de test. De plus, nous introduisons une méthode collaborative humain-LLM (SAGA), exploitant l'expertise en programmation humaine et la capacité de raisonnement des LLMs, visant à améliorer significativement à la fois la couverture et la qualité des cas de test générés. Par ailleurs, nous développons un TCGBench pour faciliter l'étude de la tâche TCG. Les expériences montrent que SAGA atteint un taux de détection de 90,62 % et une précision du vérificateur de 32,58 % sur TCGBench. La précision du vérificateur (Verifier Acc) du benchmark d'évaluation de génération de code synthétisé par SAGA est 10,78 % plus élevée que celle de LiveCodeBench-v6. Ces résultats démontrent l'efficacité de notre méthode proposée. Nous espérons que ce travail contribue à construire une base scalable pour une évaluation fiable du code généré par les LLMs, à faire progresser davantage le RLVR dans la génération de code, et à ouvrir la voie à la synthèse automatisée de tests adversariaux et à l'intégration adaptative de benchmarks.
L'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) améliore les capacités de raisonnement des grands modèles de langage (LLMs), mais il rencontre des difficultés avec une exploration instable. Nous proposons FR3E (First Return, Entropy-Eliciting Explore), un cadre d'exploration structuré qui identifie les points de décision à forte incertitude dans les trajectoires de raisonnement et effectue des déploiements ciblés pour construire un retour d'information intermédiaire sémantiquement ancré. Notre méthode fournit un guidage ciblé sans dépendre d'une supervision dense. Les résultats empiriques sur des benchmarks de raisonnement mathématique (AIME24) montrent que FR3E favorise un entraînement plus stable, produit des réponses plus longues et plus cohérentes, et augmente la proportion de trajectoires entièrement correctes. Ces résultats mettent en évidence l'efficacité du cadre pour améliorer le raisonnement des LLMs grâce à une exploration plus robuste et structurée.
Les Transformers rencontrent des problèmes de complexité quadratique et de mémoire avec les longues séquences, ce qui a conduit à l'adoption de mécanismes d'attention linéaire utilisant des états cachés de taille fixe. Cependant, les modèles linéaires souffrent souvent de performances de rappel limitées, ce qui a donné lieu à des architectures hybrides combinant des couches d'attention linéaire et complète. Malgré des recherches approfondies sur les architectures hybrides, le choix du composant d'attention linéaire n'a pas été exploré en profondeur. Nous évaluons systématiquement divers modèles d'attention linéaire à travers les générations - des récurrences vectorielles aux mécanismes de gating avancés - à la fois de manière autonome et hybridée. Pour permettre cette analyse exhaustive, nous avons entraîné et ouvert l'accès à 72 modèles : 36 avec 340 millions de paramètres (20 milliards de tokens) et 36 avec 1,3 milliard de paramètres (100 milliards de tokens), couvrant six variantes d'attention linéaire sur cinq ratios d'hybridation. L'évaluation sur des tâches standard de modélisation du langage et de rappel révèle que les modèles linéaires autonomes supérieurs n'excellent pas nécessairement dans les hybrides. Alors que la modélisation du langage reste stable à travers les ratios d'attention linéaire à complète, le rappel s'améliore significativement avec l'augmentation des couches d'attention complète, en particulier en dessous d'un ratio de 3:1. Notre étude met en évidence le gating sélectif, la récurrence hiérarchique et l'oubli contrôlé comme étant critiques pour des modèles hybrides efficaces. Nous recommandons des architectures telles que HGRN-2 ou GatedDeltaNet avec un ratio linéaire à complet entre 3:1 et 6:1 pour atteindre un rappel de niveau Transformer de manière efficace. Nos modèles sont accessibles à l'adresse suivante : https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e.
Le développement de noyaux en apprentissage profond nécessite l'optimisation des unités de calcul sur le matériel tout en équilibrant la gestion de la mémoire, le parallélisme et les optimisations spécifiques au matériel grâce à un réglage empirique approfondi. Bien que les langages spécifiques à un domaine comme Triton simplifient la programmation GPU en masquant les détails de bas niveau, les développeurs doivent encore ajuster manuellement des paramètres critiques tels que les tailles de tuiles et les modèles d'accès à la mémoire par le biais d'expérimentations itératives, ce qui crée des obstacles importants à l'obtention de performances optimales et à une adoption plus large. Dans ce travail, nous présentons AutoTriton, le premier modèle dédié à la programmation Triton alimenté par l'apprentissage par renforcement (RL). AutoTriton effectue un réglage supervisé (SFT) pour acquérir une expertise essentielle en programmation Triton en utilisant un pipeline de collecte de données de haute qualité, et mène un apprentissage par renforcement avec l'algorithme Group Relative Policy Optimization (GRPO), combinant une récompense basée sur des règles et une récompense basée sur l'exécution pour améliorer séquentiellement les capacités de programmation Triton. Les expériences menées sur cinq canaux d'évaluation de TritonBench et KernelBench montrent que notre modèle AutoTriton de 8B atteint des performances comparables aux grands modèles dominants, notamment Claude-4-Sonnet et DeepSeek-R1-0528. Une analyse expérimentale approfondie démontre le rôle crucial de chaque module au sein d'AutoTriton, y compris l'étape SFT, l'étape RL et la stratégie de conception des récompenses. Ces résultats soulignent le potentiel de l'apprentissage par renforcement pour générer automatiquement des noyaux haute performance, et puisque les noyaux haute performance sont des composants essentiels des systèmes d'IA, cette percée établit une base importante pour la construction de systèmes d'IA plus efficaces. Le modèle et le code seront disponibles à l'adresse https://github.com/AI9Stars/AutoTriton.
La démonstration automatique de théorèmes (ATP) dans les langages formels constitue un défi fondamental pour l'intelligence artificielle. Bien que les modèles de langage à grande échelle (LLMs) aient permis des avancées remarquables, un écart significatif persiste entre leurs puissantes capacités de raisonnement informel et leurs faibles performances en démonstration formelle. Des études récentes montrent que la précision informelle dépasse 80 %, tandis que le taux de succès formel reste inférieur à 8 % sur des benchmarks comme PutnamBench. Nous soutenons que cet écart persiste parce que les prouveurs actuels, en couplant étroitement raisonnement et démonstration, sont entraînés selon des paradigmes qui pénalisent involontairement le raisonnement approfondi au profit de stratégies superficielles basées sur des tactiques. Pour combler cet écart fondamental, nous proposons un cadre novateur qui découple le raisonnement de haut niveau de la génération de preuves de bas niveau. Notre approche utilise deux modèles distincts et spécialisés : un Raisonneur polyvalent et puissant pour générer des lemmes de sous-objectifs stratégiques et diversifiés, et un Prouveur efficace pour les vérifier rigoureusement. Cette conception modulaire libère le potentiel de raisonnement complet du modèle et évite les écueils de l'apprentissage de bout en bout. Nous évaluons notre méthode sur un ensemble difficile de problèmes post-2000 des Olympiades internationales de mathématiques (IMO), un ensemble de problèmes sur lequel aucun prouveur open-source n'a rapporté de succès auparavant. Notre cadre découplé résout avec succès 5 de ces problèmes, démontrant une avancée significative vers le raisonnement automatisé sur des défis mathématiques exceptionnellement difficiles. Pour encourager les recherches futures, nous publions notre ensemble complet de données de lemmes générés et vérifiés pour une large gamme de problèmes IMO, disponible à l'adresse https://tencent-imo.github.io/.
Les progrès rapides des modèles de langage multimodaux de grande taille (MLLM) ont ouvert la voie aux paradigmes Vision-Langage-Action (VLA), qui intègrent la perception visuelle, la compréhension du langage naturel et le contrôle au sein d'une seule politique. Les chercheurs en conduite autonome adaptent activement ces méthodes au domaine des véhicules. De tels modèles promettent des véhicules autonomes capables d'interpréter des instructions de haut niveau, de raisonner sur des scènes de trafic complexes et de prendre leurs propres décisions. Cependant, la littérature reste fragmentée et s'étend rapidement. Cette étude offre le premier aperçu complet des VLA pour la Conduite Autonome (VLA4AD). Nous (i) formalisons les blocs de construction architecturaux communs aux travaux récents, (ii) retraçons l'évolution des premiers modèles explicatifs aux modèles VLA centrés sur le raisonnement, et (iii) comparons plus de 20 modèles représentatifs selon les progrès des VLA dans le domaine de la conduite autonome. Nous consolidons également les ensembles de données et les benchmarks existants, en mettant en avant les protocoles qui mesurent conjointement la sécurité de conduite, la précision et la qualité des explications. Enfin, nous détaillons les défis ouverts - robustesse, efficacité en temps réel et vérification formelle - et esquissons les directions futures des VLA4AD. Cette étude fournit une référence concise mais complète pour faire progresser les véhicules autonomes interprétables et socialement alignés. Le dépôt Github est disponible à l'adresse suivante : https://github.com/JohnsonJiang1996/Awesome-VLA4AD{SicongJiang/Awesome-VLA4AD}.
L'élucidation de la structure moléculaire à partir des spectres constitue un problème fondamental en chimie, avec des implications profondes pour l'identification des composés, la synthèse et le développement de médicaments. Les méthodes traditionnelles reposent fortement sur l'interprétation experte et manquent de scalabilité. Les méthodes pionnières d'apprentissage automatique ont introduit des stratégies basées sur la recherche, mais leur dépendance à des bibliothèques finies limite la généralisation à des molécules nouvelles. Les modèles génératifs offrent une alternative prometteuse, mais la plupart adoptent des architectures autoregressives basées sur SMILES qui négligent la géométrie 3D et peinent à intégrer des modalités spectrales diverses. Dans ce travail, nous présentons DiffSpectra, un cadre génératif qui infère directement les structures moléculaires 2D et 3D à partir de données spectrales multi-modales en utilisant des modèles de diffusion. DiffSpectra formule l'élucidation de la structure comme un processus de génération conditionnelle. Son réseau de débruîtage est paramétré par Diffusion Molecule Transformer, une architecture SE(3)-équivariante qui intègre des informations topologiques et géométriques. Le conditionnement est assuré par SpecFormer, un encodeur spectral basé sur les transformers qui capture les dépendances intra- et inter-spectrales à partir de spectres multi-modaux. Des expériences approfondies démontrent que DiffSpectra atteint une grande précision dans l'élucidation de la structure, retrouvant les structures exactes avec une précision top-1 de 16,01 % et une précision top-20 de 96,86 % par échantillonnage. Le modèle bénéficie significativement de la modélisation géométrique 3D, du pré-entraînement de SpecFormer et du conditionnement multi-modal. Ces résultats mettent en évidence l'efficacité de la modélisation par diffusion conditionnée par les spectres pour relever le défi de l'élucidation de la structure moléculaire. À notre connaissance, DiffSpectra est le premier cadre à unifier le raisonnement spectral multi-modal et la modélisation générative conjointe 2D/3D pour l'élucidation de novo de la structure moléculaire.
Les récentes avancées en modélisation du langage ont démontré l'efficacité des modèles à espace d'états (State Space Models, SSMs) pour la modélisation efficace de séquences. Bien que des architectures hybrides telles que Samba et l'architecture décodeur-décodeur, YOCO, aient montré des gains de performance prometteurs par rapport aux Transformers, les travaux antérieurs n'ont pas exploré le potentiel d'efficacité du partage de représentations entre les couches de SSM. Dans cet article, nous introduisons l'Unité de Mémoire à Porte (Gated Memory Unit, GMU), un mécanisme simple mais efficace pour le partage de mémoire entre les couches. Nous l'appliquons pour créer SambaY, une architecture hybride décodeur-décodeur qui intègre des GMUs dans le décodeur croisé pour partager les états de lecture de mémoire d'un auto-décodeur basé sur Samba. SambaY améliore significativement l'efficacité du décodage, préserve la complexité temporelle linéaire du pré-remplissage et améliore les performances sur des contextes longs, tout en éliminant le besoin d'encodage positionnel explicite. À travers des expériences d'échelle approfondies, nous démontrons que notre modèle présente une perte irréductible significativement plus faible par rapport à une base de référence YOCO solide, indiquant une scalabilité de performance supérieure dans des régimes de calcul à grande échelle. Notre plus grand modèle, amélioré avec l'Attention Différentielle, Phi4-mini-Flash-Reasoning, obtient des performances significativement meilleures que Phi4-mini-Reasoning sur des tâches de raisonnement telles que Math500, AIME24/25 et GPQA Diamond sans aucun apprentissage par renforcement, tout en offrant un débit de décodage jusqu'à 10 fois supérieur sur des prompts de longueur 2K avec une longueur de génération de 32K sous le framework d'inférence vLLM. Nous publions notre base de code d'entraînement sur des données open-source à l'adresse https://github.com/microsoft/ArchScale.
Nous présentons FlexOlmo, une nouvelle classe de modèles de langage (LMs) qui prend en charge (1) l'entraînement distribué sans partage de données, où différents paramètres du modèle sont entraînés indépendamment sur des ensembles de données fermés, et (2) l'inférence flexible des données, où ces paramètres ainsi que leurs données associées peuvent être inclus ou exclus de manière flexible des inférences du modèle sans nécessiter d'entraînement supplémentaire. FlexOlmo utilise une architecture de mélange d'experts (MoE) où chaque expert est entraîné indépendamment sur des ensembles de données fermés, puis intégré via un nouveau routage informé par le domaine sans aucun entraînement conjoint. FlexOlmo est entraîné sur FlexMix, un corpus que nous avons constitué comprenant des ensembles de données publiques ainsi que sept ensembles spécifiques à des domaines, représentant des approximations réalistes d'ensembles fermés. Nous évaluons des modèles allant jusqu'à 37 milliards de paramètres (20 milliards actifs) sur 31 tâches en aval variées. Nous montrons qu'un expert général entraîné sur des données publiques peut être efficacement combiné avec des experts entraînés indépendamment par d'autres propriétaires de données, conduisant à une amélioration relative moyenne de 41 % tout en permettant aux utilisateurs de se retirer de certaines données en fonction des licences ou des exigences d'autorisation. Notre approche surpasse également les méthodes précédentes de fusion de modèles de 10,1 % en moyenne et dépasse le MoE standard entraîné sans restrictions de données en utilisant le même nombre de FLOPs d'entraînement. Dans l'ensemble, cette recherche propose une solution pour les propriétaires de données et les chercheurs dans des industries réglementées avec des données sensibles ou protégées. FlexOlmo permet de bénéficier des données fermées tout en respectant les préférences des propriétaires de données en gardant leurs données locales et en offrant un contrôle granulaire de l'accès aux données lors de l'inférence.
Malgré les avancées dans le raisonnement vidéo basé sur l'apprentissage par renforcement (RL) avec des modèles de langage à grande échelle (LLM), la collecte de données et le réglage fin restent des défis majeurs. Ces méthodes reposent souvent sur un réglage fin supervisé (SFT) à grande échelle nécessitant des données vidéo étendues et des annotations longues de type Chaîne de Pensée (CoT), ce qui les rend coûteuses et difficiles à étendre. Pour résoudre ce problème, nous présentons Video-RTS, une nouvelle approche visant à améliorer les capacités de raisonnement vidéo avec une efficacité accrue des données en combinant un RL économe en données avec une stratégie de mise à l'échelle adaptative au moment du test (TTS). En nous basant sur des observations concernant la mise à l'échelle des échantillons de RL, nous sautons l'étape de SFT gourmande en ressources et utilisons un entraînement RL pur basé sur des récompenses liées aux sorties, ne nécessitant aucune annotation supplémentaire ni réglage fin étendu. De plus, pour utiliser les ressources de calcul plus efficacement, nous introduisons une stratégie TTS vidéo allant de sparse à dense qui améliore l'inférence en ajoutant itérativement des trames basées sur la cohérence des sorties. Nous validons notre approche sur plusieurs benchmarks de raisonnement vidéo, montrant que Video-RTS surpasse les modèles existants de raisonnement vidéo avec une amélioration moyenne de 2,4 % en précision en utilisant seulement 3,6 % des échantillons d'entraînement. Par exemple, Video-RTS obtient une amélioration de 4,2 % sur Video-Holmes, un benchmark récent et difficile de raisonnement vidéo, et une amélioration de 2,6 % sur MMVU. Notamment, notre entraînement RL pur et la TTS vidéo adaptative offrent des avantages complémentaires, permettant à Video-RTS d'obtenir de solides performances en raisonnement.
Le raisonnement sur des contextes longs nécessite une identification précise des informations pertinentes dans des contextes d'entrée étendus et bruyants. Les recherches précédentes montrent que l'utilisation de l'apprentissage au moment du test pour encoder directement le contexte dans les paramètres du modèle peut permettre efficacement un raisonnement sur des informations bruyantes. Cependant, les méthodes de méta-apprentissage pour activer l'apprentissage au moment du test sont excessivement gourmandes en mémoire, empêchant leur application dans des contextes longs. Dans ce travail, nous proposons PERK (Parameter Efficient Reasoning over Knowledge), une approche évolutive pour apprendre à encoder des contextes d'entrée longs en utilisant des mises à jour de gradient sur un adaptateur de modèle léger au moment du test. Plus précisément, PERK emploie deux boucles d'optimisation imbriquées lors d'une phase de méta-entraînement. La boucle interne encode rapidement les contextes dans un adaptateur de faible rang (LoRA) qui sert de module de mémoire efficace en paramètres pour le modèle de base. Simultanément, la boucle externe apprend à utiliser l'adaptateur mis à jour pour rappeler et raisonner avec précision sur les informations pertinentes du contexte long encodé. Nos évaluations sur plusieurs tâches de raisonnement sur des contextes longs montrent que PERK surpasse significativement la base de référence standard basée sur des prompts pour les contextes longs, atteignant des gains de performance absolus moyens allant jusqu'à 90 % pour les modèles plus petits (GPT-2) et jusqu'à 27 % pour notre plus grand modèle évalué, Qwen-2.5-0.5B. En général, PERK est plus robuste face à la complexité du raisonnement, à l'extrapolation de longueur et à la localisation des informations pertinentes dans les contextes. Enfin, nous montrons que bien que PERK soit gourmand en mémoire pendant l'entraînement, il est plus efficace à l'inférence que l'inférence basée sur des prompts pour les contextes longs.
La détection automatique de langage toxique est essentielle pour créer des espaces en ligne sûrs et inclusifs. Cependant, il s'agit d'une tâche hautement subjective, où les perceptions du langage toxique sont influencées par les normes communautaires et les expériences vécues. Les modèles existants de détection de toxicité sont généralement entraînés sur des annotations qui réduisent les perspectives diverses des annotateurs à une seule vérité de référence, effaçant ainsi des notions contextuelles importantes de toxicité, comme le langage réapproprié. Pour remédier à cela, nous présentons MODELCITIZENS, un ensemble de données comprenant 6,8K publications sur les réseaux sociaux et 40K annotations de toxicité couvrant divers groupes identitaires. Pour capturer l'impact du contexte conversationnel sur la toxicité, typique des publications sur les réseaux sociaux, nous enrichissons les publications de MODELCITIZENS avec des scénarios conversationnels générés par des modèles de langage (LLM). Les outils de détection de toxicité de pointe (par exemple, OpenAI Moderation API, GPT-o4-mini) sous-performent sur MODELCITIZENS, avec une dégradation supplémentaire sur les publications enrichies par le contexte. Enfin, nous publions LLAMACITIZEN-8B et GEMMACITIZEN-12B, des modèles basés sur LLaMA et Gemma affinés sur MODELCITIZENS, qui surpassent GPT-o4-mini de 5,5 % lors d'évaluations en distribution. Nos résultats soulignent l'importance des annotations et de la modélisation informées par la communauté pour une modération de contenu inclusive. Les données, modèles et code sont disponibles à l'adresse https://github.com/asuvarna31/modelcitizens.
Nova Premier est le modèle de fondation multimodal le plus performant d'Amazon et un enseignant pour la distillation de modèles. Il traite le texte, les images et les vidéos avec une fenêtre contextuelle d'un million de tokens, permettant l'analyse de vastes bases de code, de documents de 400 pages et de vidéos de 90 minutes en une seule requête. Nous présentons la première évaluation complète du profil de risque critique de Nova Premier dans le cadre du Frontier Model Safety Framework. Les évaluations ciblent trois domaines à haut risque — Chimique, Biologique, Radiologique et Nucléaire (CBRN), les opérations cyber offensives et la R&D automatisée en IA — et combinent des benchmarks automatisés, des exercices de red-teaming par des experts et des études d'impact pour déterminer si le modèle dépasse les seuils de publication. Nous résumons notre méthodologie et rapportons les principales conclusions. Sur la base de cette évaluation, nous concluons que Nova Premier est sûr pour une publication publique conformément à nos engagements pris lors du Sommet sur la sécurité de l'IA de Paris en 2025. Nous continuerons à améliorer nos pipelines d'évaluation de la sécurité et de mitigation à mesure que de nouveaux risques et capacités associés aux modèles de pointe seront identifiés.
La recherche sur la chirurgie autonome s'est principalement concentrée sur l'automatisation de tâches simples dans des environnements contrôlés. Cependant, les applications chirurgicales réelles nécessitent une manipulation habile sur de longues durées et une généralisation à la variabilité inhérente des tissus humains. Ces défis restent difficiles à relever en utilisant les approches logiques existantes ou les méthodes d'apprentissage conventionnelles de bout en bout. Pour combler cette lacune, nous proposons un cadre hiérarchique pour exécuter des étapes chirurgicales habiles et à long terme. Notre approche utilise une politique de haut niveau pour la planification des tâches et une politique de bas niveau pour générer les trajectoires du robot. Le planificateur de haut niveau planifie dans l'espace linguistique, générant des instructions au niveau de la tâche ou correctives qui guident le robot à travers les étapes à long terme et corrigent les erreurs de la politique de bas niveau. Nous validons notre cadre à travers des expériences ex vivo sur la cholécystectomie, une procédure mini-invasive couramment pratiquée, et menons des études d'ablation pour évaluer les composants clés du système. Notre méthode atteint un taux de réussite de 100 % sur huit vésicules biliaires ex vivo non vues précédemment, fonctionnant de manière entièrement autonome sans intervention humaine. Ce travail démontre l'autonomie au niveau des étapes dans une procédure chirurgicale, marquant une étape importante vers le déploiement clinique des systèmes chirurgicaux autonomes.
Les récentes avancées dans les modèles de langage multimodaux de grande échelle (MLLMs) ont permis des capacités de réponse à des questions basées sur des images. Cependant, une limitation majeure réside dans l'utilisation de CLIP comme encodeur visuel ; bien qu'il puisse capturer des informations globales approximatives, il manque souvent des détails fins pertinents pour la requête d'entrée. Pour remédier à ces lacunes, ce travail étudie si les modèles de diffusion pré-entraînés de texte à image peuvent servir d'encodeurs visuels sensibles aux instructions. À travers une analyse de leurs représentations internes, nous constatons que les caractéristiques de diffusion sont à la fois riches en sémantique et capables d'encoder un fort alignement image-texte. De plus, nous constatons que nous pouvons exploiter le conditionnement textuel pour focaliser le modèle sur les régions pertinentes à la question posée. Nous explorons ensuite comment aligner ces caractéristiques avec les modèles de langage de grande échelle et découvrons un phénomène de fuite, où le LLM peut récupérer involontairement des informations de l'invite de diffusion originale. Nous analysons les causes de cette fuite et proposons une stratégie d'atténuation. Sur la base de ces observations, nous explorons une stratégie de fusion simple qui utilise à la fois les caractéristiques de CLIP et de diffusion conditionnelle. Nous évaluons notre approche sur des benchmarks généraux de VQA et spécialisés de MLLM, démontrant le potentiel des modèles de diffusion pour la compréhension visuelle, en particulier dans les tâches centrées sur la vision qui nécessitent un raisonnement spatial et compositionnel. Notre page de projet est disponible à l'adresse https://vatsalag99.github.io/mustafar/.
Les grands modèles de langage (LLM) et leurs classificateurs de sécurité performent souvent mal sur les langues peu dotées en raison de données d'entraînement et de benchmarks d'évaluation limités. Cet article présente RabakBench, un nouveau benchmark de sécurité multilingue localisé pour le contexte linguistique unique de Singapour, couvrant le singlish, le chinois, le malais et le tamoul. RabakBench est construit via un pipeline évolutif en trois étapes : (i) Génération - création d'exemples adverses par augmentation de contenu web réel en singlish avec un red teaming piloté par LLM ; (ii) Étiquetage - annotation semi-automatisée multi-labels de sécurité utilisant des classificateurs LLM alignés sur les jugements humains par vote majoritaire ; et (iii) Traduction - traduction haute fidélité préservant les nuances linguistiques et la toxicité entre les langues. Le jeu de données final comprend plus de 5 000 exemples étiquetés pour la sécurité dans quatre langues et six catégories de sécurité granulaires avec des niveaux de gravité. Les évaluations de 11 classificateurs de sécurité open-source et propriétaires populaires révèlent une dégradation significative des performances. RabakBench permet non seulement une évaluation robuste de la sécurité dans des contextes multilingues d'Asie du Sud-Est, mais offre également un cadre reproductible pour la construction de jeux de données de sécurité localisés dans des environnements à faibles ressources. Le benchmark, incluant les traductions vérifiées par des humains, et le code d'évaluation sont disponibles publiquement.
La prolifération des mèmes multimodaux à l'ère des réseaux sociaux exige que les modèles de langage multimodaux de grande envergure (mLLMs) comprennent efficacement la nocivité des mèmes. Les benchmarks existants pour évaluer les mLLMs sur la compréhension des mèmes nocifs reposent sur des évaluations basées sur la précision, indépendantes du modèle, utilisant des ensembles de données statiques. Ces benchmarks sont limités dans leur capacité à fournir des évaluations à jour et approfondies, car les mèmes en ligne évoluent de manière dynamique. Pour remédier à cela, nous proposons AdamMeme, un cadre d'évaluation flexible et basé sur des agents, qui sonde de manière adaptative les capacités de raisonnement des mLLMs dans le décryptage de la nocivité des mèmes. Grâce à une collaboration multi-agents, AdamMeme fournit des évaluations complètes en mettant à jour itérativement les données de mèmes avec des échantillons difficiles, exposant ainsi les limites spécifiques dans la manière dont les mLLMs interprètent la nocivité. Des expériences approfondies montrent que notre cadre révèle systématiquement les performances variables des différents mLLMs cibles, offrant des analyses approfondies et granulaires des faiblesses spécifiques à chaque modèle. Notre code est disponible à l'adresse suivante : https://github.com/Lbotirx/AdamMeme.