papers.description
Les méthodes existantes d'estimation de profondeur sont fondamentalement limitées à la prédiction de la profondeur sur des grilles d'images discrètes. De telles représentations restreignent leur extensibilité à des résolutions de sortie arbitraires et entravent la récupération des détails géométriques. Cet article présente InfiniDepth, qui représente la profondeur sous forme de champs implicites neuronaux. Grâce à un décodeur implicite local simple mais efficace, nous pouvons interroger la profondeur à des coordonnées 2D continues, permettant une estimation de profondeur à résolution arbitraire et à grain fin. Pour mieux évaluer les capacités de notre méthode, nous constituons un benchmark synthétique 4K de haute qualité à partir de cinq jeux différents, couvrant des scènes variées avec de riches détails géométriques et d'apparence. Des expériences approfondies démontrent qu'InfiniDepth atteint des performances de pointe sur des benchmarks synthétiques et réels, pour les tâches d'estimation de profondeur relative et métrique, excellant particulièrement dans les régions à détails fins. Il bénéficie également à la tâche de synthèse de nouvelles vues sous de grands changements de point de vue, produisant des résultats de haute qualité avec moins de trous et d'artefacts.
La Transcription avec Attribution du Locuteur et Horodatage (SATS) vise à transcrire les paroles et à déterminer précisément la temporalité de chaque locuteur, ce qui est particulièrement précieux pour la transcription de réunions. Les systèmes SATS existants adoptent rarement une formulation de bout en bout et sont en outre limités par des fenêtres de contexte restreintes, une mémoire des locuteurs à long terme faible et l'incapacité à produire des horodatages. Pour résoudre ces limitations, nous présentons MOSS Transcribe Diarize, un modèle de langage multimodal unifié qui effectue conjointement la Transcription avec Attribution du Locuteur et Horodatage selon un paradigme de bout en bout. Entraîné sur de vastes données réelles non structurées et doté d'une fenêtre de contexte de 128k pour des entrées allant jusqu'à 90 minutes, MOSS Transcribe Diarize s'adapte efficacement et généralise de manière robuste. Lors d'évaluations exhaustives, il surpasse les systèmes commerciaux de pointe sur plusieurs benchmarks publics et internes.
Les récents modèles de diffusion texte-vidéo peuvent générer des séquences vidéo convaincantes, mais ils restent silencieux, privant ainsi le contenu des indices sémantiques, émotionnels et atmosphériques fournis par l'audio. Nous présentons LTX-2, un modèle fondateur open-source capable de générer de manière unifiée un contenu audiovisuel de haute qualité et temporellement synchronisé. LTX-2 se compose d'un transformateur à double flux asymétrique, avec un flux vidéo de 14 milliards de paramètres et un flux audio de 5 milliards de paramètres, couplés via des couches d'attention croisée audio-vidéo bidirectionnelles utilisant des encodages positionnels temporels et un mécanisme AdaLN intermodal pour un conditionnement partagé par l'étape temporelle. Cette architecture permet un entraînement et une inférence efficaces d'un modèle audiovisuel unifié, tout en allouant plus de capacité à la génération vidéo qu'à la génération audio. Nous utilisons un encodeur de texte multilingue pour une meilleure compréhension des instructions et introduisons un mécanisme de guidage sans classifieur sensible aux modalités (modality-CFG) pour améliorer l'alignement audiovisuel et la contrôlabilité. Au-delà de la génération de parole, LTX-2 produit des pistes audio riches et cohérentes qui suivent les personnages, l'environnement, le style et l'émotion de chaque scène, incluant des éléments naturels d'ambiance sonore et de bruitage. Nos évaluations montrent que le modèle atteint une qualité audiovisuelle et une adhérence aux instructions de pointe parmi les systèmes open-source, tout en fournissant des résultats comparables aux modèles propriétaires pour une fraction de leur coût computationnel et de leur temps d'inférence. Tous les poids du modèle et le code sont publiés publiquement.
Nous présentons SciEvalKit, une boîte à outils unifiée d'évaluation conçue pour tester les modèles d'IA dédiés à la science sur un vaste éventail de disciplines scientifiques et de capacités de tâches. Contrairement aux plateformes d'évaluation généralistes, SciEvalKit se concentre sur les compétences fondamentales de l'intelligence scientifique, incluant la Perception Multimodale Scientifique, le Raisonnement Multimodal Scientifique, la Compréhension Multimodale Scientifique, le Raisonnement Symbolique Scientifique, la Génération de Code Scientifique, la Génération d'Hypothèses Scientifiques et la Compréhension des Connaissances Scientifiques. Elle prend en charge six domaines scientifiques majeurs, allant de la physique et la chimie à l'astronomie et la science des matériaux. SciEvalKit constitue un socle de référentiels d'évaluation de niveau expert, élaborés à partir de jeux de données réels et spécifiques à chaque domaine, garantissant que les tâches reflètent des défis scientifiques authentiques. La boîte à outils intègre un pipeline d'évaluation flexible et extensible qui permet une évaluation par lots sur différents modèles et jeux de données, prend en charge l'intégration de modèles et de jeux de données personnalisés, et fournit des résultats transparents, reproductibles et comparables. En reliant l'évaluation par capacités et la diversité disciplinaire, SciEvalKit offre une infrastructure standardisée mais personnalisable pour évaluer la prochaine génération de modèles fondationnels scientifiques et d'agents intelligents. La boîte à outils est open source et activement maintenue pour favoriser un développement communautaire et les progrès dans le domaine de l'IA pour la Science.
Bien que les modèles multimodaux unifiés (UMM) aient obtenu un succès remarquable en compréhension cross-modale, un écart significatif persiste dans leur capacité à exploiter ces connaissances internes pour une génération de haute qualité. Nous formalisons cet écart sous le nom d'Aphasie de Conduction, un phénomène où les modèles interprètent avec précision les entrées multimodales mais peinent à traduire cette compréhension en une synthèse fidèle et contrôlable. Pour y remédier, nous proposons UniCorn, un cadre d'auto-amélioration simple mais élégant qui élimine le besoin de données externes ou de supervision par un enseignant. En partitionnant un seul UMM en trois rôles collaboratifs : Proposant, Solveur et Juge, UniCorn génère des interactions de haute qualité via l'auto-jeu et utilise la reconstruction de motifs cognitifs pour distiller la compréhension latente en signaux génératifs explicites. Pour valider la restauration de la cohérence multimodale, nous introduisons UniCycle, un benchmark de cohérence cyclique basé sur une boucle de reconstruction Texte vers Image vers Texte. Des expériences approfondies démontrent qu'UniCorn obtient des améliorations complètes et substantielles par rapport au modèle de base sur six benchmarks généraux de génération d'images. Notamment, il atteint des performances SOTA sur TIIF (73,8), DPG (86,8), CompBench (88,5) et UniCycle, tout en réalisant des gains substantiels supplémentaires de +5,0 sur WISE et +6,5 sur OneIG. Ces résultats soulignent que notre méthode améliore significativement la génération T2I tout en maintenant une compréhension robuste, démontrant l'évolutivité d'un raffinement entièrement auto-supervisé pour l'intelligence multimodale unifiée.
Nous présentons NitroGen, un modèle de base vision-action pour agents de jeu généralistes, entraîné sur 40 000 heures de vidéos de jeu couvrant plus de 1 000 jeux. Notre approche intègre trois éléments clés : 1) un jeu de données vidéo-action à l'échelle d'Internet, construit par extraction automatique des actions des joueurs à partir de vidéos de gameplay publiques, 2) un environnement d'évaluation multi-jeux permettant de mesurer la généralisation inter-jeux, et 3) un modèle unifié vision-action entraîné par clonage comportemental à grande échelle. NitroGen démontre de fortes compétences dans divers domaines, incluant les combats dans les jeux d'action 3D, le contrôle de haute précision dans les jeux de plateforme 2D, et l'exploration de mondes générés procéduralement. Le modèle transfère efficacement à des jeux non vus, atteignant jusqu'à 52 % d'amélioration relative des taux de réussite par rapport aux modèles entraînés à partir de zéro. Nous publions le jeu de données, la suite d'évaluation et les poids du modèle pour faire progresser la recherche sur les agents incarnés généralistes.
Les modèles vision-langage-action (VLA) atteignent une forte généralisation grâce à un pré-entraînement à grande échelle, mais leur déploiement en conditions réelles exige une maîtrise experte des tâches en plus d'une large polyvalence. Les approches de post-entraînement existantes pour les modèles VLA sont généralement hors ligne, mono-robot ou spécifiques à une tâche, limitant ainsi l'adaptation en politique et l'apprentissage scalable à partir d'interactions réelles. Nous présentons un système de Post-entraînement en Ligne et Évolutif (SOP) qui permet un post-entraînement en ligne, distribué et multi-tâches de modèles VLA généralistes directement dans le monde physique. SOP couple étroitement l'exécution et l'apprentissage via une architecture en boucle fermée dans laquelle une flotte de robots transmet en continu des expériences en politique et des signaux d'intervention humaine à un apprenant cloud centralisé, et reçoit de manière asynchrone des politiques mises à jour. Cette conception permet une correction rapide en politique, met à l'échelle la collecte d'expérience par déploiement parallèle et préserve la généralité lors de l'adaptation. SOP est agnostique au choix de l'algorithme de post-entraînement ; nous l'instancions avec de l'apprentissage par imitation interactive (HG-DAgger) et de l'apprentissage par renforcement (RECAP). Sur une gamme de tâches de manipulation réelles incluant le pliage de linge, l'assemblage de boîtes et le réapprovisionnement d'épicerie, nous montrons que SOP améliore substantiellement les performances de grands modèles VLA pré-entraînés tout en maintenant une politique unique et partagée entre les tâches. Un post-entraînement efficace peut être atteint en quelques heures d'interaction réelle, et les performances augmentent de manière quasi-linéaire avec le nombre de robots dans la flotte. Ces résultats suggèrent que le couplage étroit entre l'apprentissage en ligne et le déploiement à l'échelle d'une flotte est essentiel pour permettre un post-entraînement efficace, fiable et scalable de politiques robotiques généralistes dans le monde physique.
La stylisation vidéo, une tâche en aval importante des modèles de génération vidéo, n'a pas encore été explorée de manière approfondie. Ses conditions de style en entrée incluent généralement du texte, une image de référence stylistique et une première image stylisée. Chaque condition présente un avantage caractéristique : le texte offre plus de flexibilité, l'image de référence fournit un ancrage visuel plus précis, et la première image stylisée rend réalisable la stylisation de vidéos longues. Cependant, les méthodes existantes se limitent largement à un seul type de condition de style, ce qui restreint leur champ d'application. De plus, l'absence de jeux de données de haute qualité entraîne des incohérences stylistiques et un scintillement temporel. Pour résoudre ces limitations, nous présentons DreamStyle, un framework unifié pour la stylisation vidéo, prenant en charge (1) la stylisation guidée par texte, (2) guidée par image de référence, et (3) guidée par première image, accompagné d'un pipeline de curation de données bien conçu pour acquérir des données vidéo appariées de haute qualité. DreamStyle est construit sur un modèle Image-to-Vidéo (I2V) standard et entraîné en utilisant une Adaptation de Bas Rang (LoRA) avec des matrices ascendantes spécifiques aux tokens, réduisant la confusion entre les différents tokens de condition. Les évaluations qualitatives et quantitatives démontrent que DreamStyle est compétent dans les trois tâches de stylisation vidéo et surpasse les méthodes concurrentes en termes de cohérence stylistique et de qualité vidéo.
Nous présentons MiMo-V2-Flash, un modèle à mélange d'experts (MoE) totalisant 309 milliards de paramètres avec 15 milliards de paramètres actifs, conçu pour offrir des capacités de raisonnement et agentielles rapides et performantes. MiMo-V2-Flash adopte une architecture d'attention hybride qui alterne l'attention par fenêtre glissante (SWA) avec l'attention globale, utilisant une fenêtre glissante de 128 jetons selon un ratio hybride de 5:1. Le modèle est pré-entraîné sur 27 000 milliards de jetons avec une prédiction multi-jetons (MTP), employant une longueur de contexte native de 32k ultérieurement étendue à 256k. Pour optimiser l'échelle de calcul post-entraînement, MiMo-V2-Flash introduit un nouveau paradigme de distillation sur politique par enseignants multiples (MOPD). Dans ce cadre, des enseignants spécialisés par domaine (par exemple, entraînés par apprentissage par renforcement à grande échelle) fournissent des récompenses denses et au niveau des jetons, permettant au modèle étudiant de maîtriser parfaitement l'expertise des enseignants. MiMo-V2-Flash rivalise avec les meilleurs modèles open-weight tels que DeepSeek-V3.2 et Kimi-K2, bien qu'il n'utilise respectivement que la moitié et le tiers de leurs paramètres totaux. Lors de l'inférence, en réutilisant la MTP comme modèle d'ébauche pour le décodage spéculatif, MiMo-V2-Flash atteint jusqu'à 3,6 jetons acceptés en longueur moyenne et une accélération du décodage de 2,6x avec trois couches MTP. Nous ouvrons en open-source à la fois les poids du modèle et les poids des trois couches MTP pour favoriser la recherche ouverte et la collaboration communautaire.
Malgré des progrès significatifs, les grands modèles de langage multimodaux continuent de rencontrer des difficultés dans la résolution de problèmes mathématiques visuels. Certains travaux récents reconnaissent que la perception visuelle constitue un goulot d'étranglement dans le raisonnement mathématique visuel, mais leurs solutions se limitent à améliorer l'extraction et l'interprétation des entrées visuelles. Fait notable, ils ignorent tous la question cruciale de savoir si les indices visuels extraits sont fidèlement intégrés et correctement utilisés dans le raisonnement ultérieur. Motivés par ce constat, nous présentons CogFlow, un nouveau cadre cognitif inspiré en trois étapes qui intègre une phase d'intériorisation des connaissances, simulant explicitement le flux hiérarchique du raisonnement humain : perception ⇒ intériorisation ⇒ raisonnement. Conformément à ce flux hiérarchique, nous améliorons de manière holistique toutes ses étapes. Nous concevons des Récompenses Visuelles Synergétiques pour renforcer les capacités de perception dans les espaces paramétriques et sémantiques, améliorant conjointement l'extraction d'informations visuelles à partir de symboles et de diagrammes. Pour garantir une intégration fidèle des indices visuels extraits dans le raisonnement ultérieur, nous introduisons un modèle de Récompense d'Intériorisation des Connaissances lors de l'étape d'intériorisation, faisant le lien entre la perception et le raisonnement. De plus, nous concevons un algorithme d'Optimisation de Politique à Porte Visuelle pour contraindre davantage le raisonnement à s'appuyer sur les connaissances visuelles, empêchant les modèles de rechercher des raccourcis sous forme de chaînes de raisonnement qui semblent cohérentes mais ne sont pas ancrées visuellement. Par ailleurs, nous contribuons avec un nouveau jeu de données, MathCog, pour l'entraînement des modèles, qui contient des échantillons avec plus de 120 000 annotations de haute qualité alignant la perception et le raisonnement. Des expériences et analyses approfondies sur des benchmarks de raisonnement mathématique visuel couramment utilisés valident la supériorité de CogFlow proposé.
Les jumeaux numériques, en tant que représentations précises de systèmes physiques, ont évolué d'outils de simulation passifs vers des entités intelligentes et autonomes grâce à l'intégration des technologies d'intelligence artificielle. Cet article présente un cadre unifié à quatre étapes qui caractérise systématiquement l'intégration de l'IA tout au long du cycle de vie du jumeau numérique, couvrant la modélisation, la mise en miroir, l'intervention et la gestion autonome. En synthétisant les technologies et pratiques existantes, nous dégageons un cadre unifié à quatre étapes qui caractérise systématiquement l'intégration des méthodologies d'IA dans le cycle de vie du jumeau numérique : (1) modélisation du jumeau physique via des approches d'IA basées sur la physique et informées par la physique, (2) mise en miroir du système physique dans un jumeau numérique avec synchronisation en temps réel, (3) intervention sur le jumeau physique par la modélisation prédictive, la détection d'anomalies et les stratégies d'optimisation, et (4) réalisation d'une gestion autonome grâce aux grands modèles de langage, modèles fondateurs et agents intelligents. Nous analysons la synergie entre la modélisation physique et l'apprentissage par données, soulignant le passage des solveurs numériques traditionnels aux modèles informés par la physique et aux modèles fondateurs pour les systèmes physiques. De plus, nous examinons comment les technologies d'IA générative, incluant les grands modèles de langage et les modèles génératifs de mondes, transforment les jumeaux numériques en systèmes cognitifs proactifs et auto-améliorés capables de raisonnement, de communication et de génération de scénarios créatifs. À travers une revue transversale couvrant onze domaines d'application, incluant la santé, l'aérospatial, la fabrication intelligente, la robotique et les villes intelligentes, nous identifions les défis communs liés à l'évolutivité, l'explicabilité et la fiabilité, et esquissons des orientations pour des systèmes de jumeaux numériques pilotés par une IA responsable.
Les grands modèles de langage (LLM), bien qu'excellant dans la résolution de problèmes mathématiques complexes, présentent des limitations systématiques dans les tâches de dénombrement. Ce problème découle des contraintes architecturales des transformateurs, où le comptage s'effectue à travers les couches, entraînant une perte de précision pour les grands dénombrements en raison des limites de profondeur. Pour pallier cette limitation, nous proposons une stratégie simple d'exécution, inspirée des processus cognitifs de type Système 2, qui décompose les grands dénombrements en sous-problèmes plus petits et indépendants que le modèle peut résoudre de manière fiable. Nous évaluons cette approche à l'aide d'analyses observationnelles et de médiation causale pour comprendre le mécanisme sous-jacent de cette stratégie analogue au Système 2. Notre analyse mécanistique identifie des composants clés : des comptes latents sont calculés et stockés dans les représentations finales de chaque élément, transférés vers les étapes intermédiaires via des têtes d'attention dédiées, puis agrégés à l'étape finale pour produire le dénombrement total. Les résultats expérimentaux démontrent que cette stratégie permet aux LLM de surpasser leurs limitations architecturales et d'atteindre une grande précision sur les tâches de dénombrement à grande échelle. Ce travail offre un éclairage mécanistique sur le comptage de type Système 2 dans les LLM et présente une approche généralisable pour améliorer et comprendre leur comportement raisonné.
Nous présentons WebGym, l'environnement open-source le plus vaste à ce jour pour l'entraînement d'agents web visuels réalistes. Les sites web réels étant non stationnaires et diversifiés, les ensembles de tâches artificiels ou à petite échelle s'avèrent insuffisants pour un apprentissage robuste des politiques. WebGym contient près de 300 000 tâches avec des évaluations basées sur des grilles critériées, couvrant divers sites web réels et niveaux de difficulté. Nous entraînons les agents à l'aide d'une méthode simple d'apprentissage par renforcement (RL), qui s'entraîne sur les traces d'interaction propres de l'agent (rollouts), en utilisant les récompenses des tâches comme feedback pour guider l'apprentissage. Pour permettre la mise à l'échelle du RL, nous accélérons l'échantillonnage des trajectoires dans WebGym en développant un système asynchrone à haut débit spécialement conçu pour les agents web. Notre système permet une accélération des rollouts d'un facteur 4 à 5 par rapport aux implémentations naïves. Deuxièmement, nous augmentons l'étendue, la profondeur et la taille de l'ensemble de tâches, ce qui se traduit par une amélioration continue des performances. Le fine-tuning d'un modèle de base vision-langue performant, Qwen-3-VL-8B-Instruct, sur WebGym permet d'augmenter le taux de réussite sur un ensemble de test hors distribution de 26,2 % à 42,9 %, surpassant significativement les agents basés sur des modèles propriétaires tels que GPT-4o et GPT-5-Thinking, qui obtiennent respectivement 27,1 % et 29,8 %. Cette amélioration est substantielle car notre ensemble de test est constitué uniquement de tâches sur des sites web jamais vus pendant l'entraînement, contrairement à de nombreux travaux antérieurs sur l'entraînement d'agents web visuels.
Nous présentons Muses, la première méthode sans entraînement pour la génération de créatures 3D fantastiques dans un paradigme de traitement direct. Les méthodes antérieures, qui reposent sur une optimisation consciente des parties, un assemblage manuel ou la génération d'images 2D, produisent souvent des assets 3D irréalistes ou incohérents en raison des défis liés à la manipulation détaillée au niveau des parties et à la génération limitée hors domaine. En revanche, Muses exploite le squelette 3D, une représentation fondamentale des formes biologiques, pour composer explicitement et rationnellement des éléments divers. Cette fondation squelettique formalise la création de contenu 3D comme un pipeline de conception, de composition et de génération conscient de la structure. Muses commence par construire un squelette 3D créativement composé avec une cohérence de disposition et d'échelle grâce à un raisonnement sous contraintes de graphes. Ce squelette guide ensuite un processus d'assemblage basé sur les voxels dans un espace latent structuré, intégrant des régions provenant de différents objets. Enfin, une modélisation d'apparence guidée par image sous conditions squelettiques est appliquée pour générer une texture harmonieuse et cohérente de style pour la forme assemblée. Des expériences approfondies établissent les performances de pointe de Muses en termes de fidélité visuelle et d'alignement avec les descriptions textuelles, ainsi que son potentiel pour l'édition flexible d'objets 3D. Page du projet : https://luhexiao.github.io/Muses.github.io/.
L'intégration rapide des modèles de langage multimodaux (MLLM) dans des applications critiques est de plus en plus entravée par des vulnérabilités persistantes en matière de sécurité. Cependant, les benchmarks existants de test d'intrusion (« red-teaming ») sont souvent fragmentés, limités à des interactions textuelles à tour unique et manquent de l'évolutivité nécessaire pour une évaluation systématique. Pour remédier à cela, nous présentons OpenRT, un cadre de test d'intrusion unifié, modulaire et à haut débit conçu pour une évaluation complète de la sécurité des MLLM. Au cœur d'OpenRT se trouve un changement de paradigme dans le test d'intrusion automatisé, matérialisé par un noyau adversaire qui permet une séparation modulaire selon cinq dimensions critiques : l'intégration des modèles, la gestion des jeux de données, les stratégies d'attaque, les méthodes de jugement et les métriques d'évaluation. En standardisant les interfaces d'attaque, il découple la logique adverse d'un moteur d'exécution asynchrone à haut débit, permettant une mise à l'échelle systématique sur divers modèles. Notre cadre intègre 37 méthodologies d'attaque diverses, couvrant les gradients en boîte blanche, les perturbations multimodales et des stratégies évolutives multi-agents sophistiquées. Grâce à une étude empirique approfondie sur 20 modèles avancés (incluant GPT-5.2, Claude 4.5 et Gemini 3 Pro), nous exposons des lacunes critiques en matière de sécurité : même les modèles les plus performants échouent à généraliser leur robustesse face aux différents paradigmes d'attaque, les meilleurs modèles affichant un taux de réussite d'attaque moyen pouvant atteindre 49,14 %. Il est particulièrement notable que nos résultats révèlent que les modèles de raisonnement ne possèdent pas intrinsèquement une robustesse supérieure contre les contournements complexes et multi-tours. En ouvrant le code d'OpenRT, nous fournissons une infrastructure durable, extensible et continuellement maintenue qui accélère le développement et la standardisation de la sécurité de l'IA.
La Propagation par Première Image (FFP) représente un paradigme prometteur pour l'édition vidéo contrôlable, mais les méthodes existantes sont entravées par leur dépendance à des guidages en temps d'exécution lourds. Nous identifions la cause fondamentale de cette limitation comme étant l'inadéquation des jeux de données d'entraînement actuels, souvent trop courts, en basse résolution, et manquant de la diversité de tâches nécessaire pour enseigner des préalables temporels robustes. Pour combler ce déficit de données fondamental, nous introduisons d'abord FFP-300K, un nouveau jeu de données à grande échelle comprenant 300 000 paires vidéo haute fidélité en résolution 720p et d'une longueur de 81 images, construit via un pipeline structuré à deux volets pour des modifications locales et globales variées. S'appuyant sur ce jeu de données, nous proposons une nouvelle architecture conçue pour une FFP véritablement sans guidage, résolvant la tension critique entre le maintien de l'apparence de la première image et la préservation du mouvement de la vidéo source. Sur le plan architectural, nous introduisons le RoPE Spatio-Temporel Adaptatif (AST-RoPE), qui remappe dynamiquement les encodages positionnels pour dissocier les références d'apparence et de mouvement. Au niveau de l'objectif, nous employons une stratégie d'auto-distillation où une tâche de propagation d'identité agit comme un régularisateur puissant, garantissant une stabilité temporelle à long terme et empêchant la dérive sémantique. Des expériences exhaustives sur le benchmark EditVerseBench démontrent que notre méthode surpasse significativement les modèles académiques et commerciaux existants, avec une amélioration d'environ 0,2 point sur le PickScore et 0,3 point sur le score VLM par rapport à ces concurrents.
La géolocalisation vise à déterminer l'origine géographique d'un signal donné. En vision par ordinateur, la géolocalisation a servi de référence exigeante pour le raisonnement compositionnel et présente un intérêt pour la sécurité publique. En revanche, les progrès en géolocalisation audio ont été limités par le manque de paires audio-localisation de haute qualité. Pour combler cette lacune, nous présentons AGL1K, le premier benchmark de géolocalisation audio pour les modèles de langage audio (ALM), couvrant 72 pays et territoires. Pour extraire des échantillons fiables d'une plateforme participative, nous proposons la métrique de Localisabilité Audio qui quantifie le caractère informatif de chaque enregistrement, produisant 1 444 clips audio sélectionnés. Les évaluations sur 16 ALM montrent que ces modèles ont développé une capacité de géolocalisation audio. Nous constatons que les modèles propriétaires surpassent largement les modèles open-source, et que les indices linguistiques servent souvent de support principal pour les prédictions. Nous analysons également les traces de raisonnement des ALM, les biais régionaux, les causes d'erreur et l'interprétabilité de la métrique de localisabilité. Globalement, AGL1K établit une référence pour la géolocalisation audio et pourrait faire progresser les ALM vers une meilleure capacité de raisonnement géospatial.
La capture de préférences utilisateur complexes à partir de séquences comportementales éparses reste un défi fondamental dans la recommandation séquentielle. Les méthodes récentes de raisonnement latent ont montré leur potentiel en étendant le calcul au moment du test grâce à un raisonnement à plusieurs étapes, mais elles reposent exclusivement sur une mise à l'échelle en profondeur le long d'une seule trajectoire, souffrant de rendements décroissants à mesure que la profondeur de raisonnement augmente. Pour remédier à cette limitation, nous proposons le Raisonnement Latent Parallèle (PLR), un nouveau cadre qui innove en matière de mise à l'échelle computationnelle en largeur en explorant simultanément plusieurs trajectoires de raisonnement diverses. PLR construit des flux de raisonnement parallèles via des jetons déclencheurs apprenables dans un espace latent continu, préserve la diversité entre les flux via une régularisation globale du raisonnement, et synthétise de manière adaptive les sorties multi-flux grâce à une agrégation de type mélange de flux de raisonnement. Des expériences approfondies sur trois jeux de données réels démontrent que PLR surpasse substantiellement les méthodes de référence tout en maintenant une efficacité d'inférence en temps réel. L'analyse théorique valide en outre l'efficacité du raisonnement parallèle pour améliorer la capacité de généralisation. Notre travail ouvre de nouvelles voies pour renforcer la capacité de raisonnement dans la recommandation séquentielle au-delà de la mise à l'échelle en profondeur existante.
Malgré des progrès impressionnants en synthèse d’images haute fidélité, les modèles génératifs peinent encore à suivre des instructions logiquement complexes, révélant un écart persistant entre raisonnement et exécution. Parallèlement, des systèmes fermés (par exemple, Nano Banana) ont démontré une forte capacité de génération d’images pilotée par le raisonnement, soulignant un écart substantiel avec les modèles open-source actuels. Nous soutenons que combler cet écart nécessite non seulement de meilleurs générateurs visuels, mais aussi un raisonnement exécutable : décomposer les intentions de haut niveau en plans ancrés et vérifiables qui guident directement le processus génératif. À cette fin, nous proposons Unified Thinker, une architecture de raisonnement agnostique aux tâches pour la génération d’images générale, conçue comme un noyau de planification unifié pouvant s’intégrer à divers générateurs et flux de travail. Unified Thinker dissocie un module de raisonnement (Thinker) dédié du générateur d’images (Generator), permettant des mises à niveau modulaires du raisonnement sans réentraîner l’ensemble du modèle génératif. Nous introduisons en outre un paradigme d’apprentissage en deux étapes : nous construisons d’abord une interface de planification structurée pour le Thinker, puis nous appliquons l’apprentissage par renforcement pour ancrer sa politique dans des retours au niveau pixel, encourageant des plans qui optimisent la justesse visuelle plutôt que la vraisemblance textuelle. Des expériences approfondies sur la génération d’images à partir de texte et l’édition d’images montrent qu’Unified Thinker améliore substantiellement le raisonnement et la qualité de génération d’images.
Les grands modèles de raisonnement (LRM) obtiennent des performances solides sur les tâches de raisonnement mathématique, souvent attribuées à leur capacité à générer des explications explicites de type chaîne de pensée (CoT). Cependant, des travaux récents montrent que les LRM parviennent souvent à la bonne réponse avant d'avoir terminé ces étapes de raisonnement textuelles, ce qui indique la présence d'un *raisonnement latent* – un calcul interne non verbal encodé dans les états cachés. Bien que ce phénomène ait été exploré en anglais, son comportement multilingue reste largement méconnu. Dans cet article, nous menons une investigation systématique du raisonnement latent multilingue dans les LRM à travers 11 langues. En utilisant une stratégie basée sur la troncation, nous examinons comment la bonne réponse émerge lorsque le modèle ne reçoit que des traces de raisonnement partielles, nous permettant de mesurer la formation pas-à-pas des prédictions latentes. Nos résultats révèlent des preuves claires de raisonnement latent multilingue, bien que de manière inégale : fort dans les langues riches en ressources, plus faible dans les langues à faibles ressources, et globalement moins observable sur des benchmarks plus difficiles. Pour comprendre si ces différences reflètent des mécanismes internes distincts, nous effectuons ensuite des analyses représentationnelles. Malgré des disparités superficielles, nous constatons que l'évolution interne des prédictions est très cohérente à travers les langues et s'aligne largement avec l'anglais – un schéma qui suggère l'existence d'une voie de raisonnement latent centrée sur l'anglais.
La détection de manipulations par deepfake inconnues demeure l'un des problèmes les plus difficiles dans le domaine de la détection de falsifications faciales. Les approches actuelles les plus performantes échouent à généraliser à des manipulations non vues, car elles reposent principalement sur un apprentissage supervisé avec des deepfakes existants ou des pseudo-faux, ce qui conduit à un surapprentissage de motifs de falsification spécifiques. En revanche, les méthodes auto-supervisées offrent un plus grand potentiel de généralisation, mais les travaux existants peinent à apprendre des représentations discriminantes uniquement à partir de l'auto-supervision. Dans cet article, nous proposons ExposeAnyone, une approche entièrement auto-supervisée basée sur un modèle de diffusion qui génère des séquences d'expressions à partir de l'audio. L'idée clé est que, une fois le modèle personnalisé à des sujets spécifiques à l'aide d'ensembles de référence, il peut calculer les distances d'identité entre des vidéos suspectes et les sujets personnalisés via les erreurs de reconstruction par diffusion, permettant ainsi une détection de falsification faciale centrée sur une personne d'intérêt. Des expériences approfondies démontrent que 1) notre méthode surpasse la méthode précédente la plus performante de 4,22 points de pourcentage en AUC moyenne sur les jeux de données DF-TIMIT, DFDCP, KoDF et IDForge, 2) notre modèle est également capable de détecter les vidéos générées par Sora2, domaine où les approches précédentes obtiennent de mauvais résultats, et 3) notre méthode est très robuste face à des altérations telles que le flou et la compression, soulignant son applicabilité dans la détection réelle de falsifications faciales.
Nous présentons AceFF, un potentiel interatomique par apprentissage automatique pré-entraîné optimisé pour la découverte de médicaments à petites molécules. Bien que les potentiels interatomiques par apprentissage automatique soient apparus comme des alternatives efficaces à la théorie de la fonctionnelle de la densité (DFT), leur généralisation à divers espaces chimiques reste difficile. AceFF résout ce problème via une architecture TensorNet2 raffinée, entraînée sur un jeu de données complet de composés de type médicamenteux. Cette approche produit un champ de force qui équilibre vitesse d'inférence à haut débit et précision au niveau DFT. AceFF prend entièrement en charge les éléments essentiels de la chimie médicinale (H, B, C, N, O, F, Si, P, S, Cl, Br, I) et est explicitement entraîné pour gérer les états chargés. La validation par rapport à des benchmarks rigoureux, incluant des scans d'énergie torsionnelle complexes, des trajectoires de dynamique moléculaire, des minimisations par lots, ainsi que la précision des forces et de l'énergie, démontre qu'AceFF établit un nouvel état de l'art pour les molécules organiques. Les poids du modèle AceFF-2 et le code d'inférence sont disponibles à l'adresse https://huggingface.co/Acellera/AceFF-2.0.
La suppression de brume d'image constitue un défi majeur en vision par ordinateur, essentielle pour améliorer la clarté des images dans des conditions brumeuses. Les méthodes traditionnelles s'appuient souvent sur des modèles de diffusion atmosphérique, tandis que les techniques récentes d'apprentissage profond, notamment les réseaux neuronaux convolutifs (CNN) et les Transformers, ont amélioré les performances en analysant efficacement les caractéristiques des images. Cependant, les CNN peinent à capturer les dépendances à longue portée, et les Transformers exigent d'importantes ressources computationnelles. Pour remédier à ces limitations, nous proposons DehazeSNN, une architecture innovante qui intègre une conception de type U-Net avec des réseaux neuronaux à impulsions (SNN). DehazeSNN capture les caractéristiques multi-échelles des images tout en gérant efficacement les dépendances locales et à longue portée. L'introduction du bloc orthogonal de type Leaky-Integrate-and-Fire (OLIFBlock) améliore la communication inter-canaux, permettant d'obtenir des performances de débrumage supérieures avec une charge computationnelle réduite. Nos expérimentations approfondies montrent que DehazeSNN est très compétitif par rapport aux méthodes de l'état de l'art sur des bases de données de référence, produisant des images de haute qualité sans brume avec une taille de modèle réduite et moins d'opérations de multiplication-accumulation. La méthode de débrumage proposée est disponible publiquement à l'adresse https://github.com/HaoranLiu507/DehazeSNN.
La détection des discours haineux sur les réseaux sociaux est confrontée à des défis en matière de précision et d’explicabilité, en particulier pour les langues indiennes peu étudiées. Nous proposons un nouveau cadre d’entraînement guidé par l’explicabilité, X-MuTeST (eXplainable Multilingual haTe Speech deTection), pour la détection des discours haineux, qui combine le raisonnement sémantique de haut niveau des grands modèles de langage (LLM) avec des techniques traditionnelles d’amélioration de l’attention. Nous étendons cette recherche à l’hindi et au télougou, en plus de l’anglais, en fournissant des justifications annotées manuellement servant de référence pour chaque mot afin de justifier l’étiquette de classe attribuée. La méthode d’explicabilité X-MuTeST calcule la différence entre les probabilités de prédiction du texte original et celles des unigrammes, bigrammes et trigrammes. Les explications finales sont calculées comme l’union des explications des LLM et des explications X-MuTeST. Nous montrons que l’utilisation de justifications humaines pendant l’entraînement améliore à la fois les performances de classification et l’explicabilité. De plus, combiner les justifications humaines avec notre méthode d’explicabilité pour affiner l’attention du modèle permet d’obtenir des améliorations supplémentaires. Nous évaluons l’explicabilité à l’aide de métriques de plausibilité telles que Token-F1 et IOU-F1, et de métriques de fidélité telles que l’exhaustivité (Comprehensiveness) et la suffisance (Sufficiency). En nous concentrant sur les langues sous-dotées, notre travail fait progresser la détection des discours haineux dans divers contextes linguistiques. Notre jeu de données comprend des annotations de justifications au niveau token pour 6 004 échantillons en hindi, 4 492 en télougou et 6 334 en anglais. Les données et le code sont disponibles sur https://github.com/ziarehman30/X-MuTeST.
Nous examinons deux propriétés des systèmes d'IA : la capacité (ce qu'un système peut faire) et la pilotabilité (la fiabilité avec laquelle on peut orienter le comportement vers des résultats souhaités). Une question centrale est de savoir si la croissance des capacités réduit la pilotabilité et risque d'entraîner un effondrement du contrôle. Nous distinguons également la pilotabilité autorisée (les concepteurs atteignant de manière fiable les comportements souhaités) de la pilotabilité non autorisée (les attaquants provoquant des comportements interdits). Cette distinction souligne un dilemme fondamental de sécurité-sûreté des modèles d'IA : la sûreté nécessite une pilotabilité élevée pour imposer un contrôle (par ex., arrêt/refus), tandis que la sécurité nécessite une pilotabilité faible pour empêcher les acteurs malveillants de provoquer des comportements nuisibles. Cette tension représente un défi significatif pour les modèles à poids ouverts, qui présentent actuellement une pilotabilité élevée via des techniques courantes comme le fine-tuning ou les attaques adverses. En utilisant Qwen3 et InstrumentalEval, nous constatons qu'un court suffixe de prompt anti-instrumental réduit fortement le taux de convergence mesuré (par ex., évitement de l'arrêt, auto-réplication). Pour Qwen3-30B Instruct, le taux de convergence chute de 81,69 % sous un suffixe pro-instrumental à 2,82 % sous un suffixe anti-instrumental. Sous l'influence d'un prompt anti-instrumental, les modèles alignés plus grands affichent des taux de convergence plus faibles que les plus petits (Instruct : 2,82 % contre 4,23 % ; Thinking : 4,23 % contre 9,86 %). Le code est disponible à l'adresse github.com/j-hoscilowicz/instrumental_steering.