Articles de recherche IA sélectionnés quotidiennement avec traductions
Nous rêvons d'un avenir où les nuages de points de tous les domaines pourront s'unir pour former un modèle unique bénéfique à tous. Pour atteindre cet objectif, nous présentons Utonia, une première étape vers l'entraînement d'un encodeur Transformer unique pour nuages de points, en auto-supervision, sur des domaines variés : télédétection, LiDAR extérieur, séquences RGB-D intérieures, modèles CAO centrés sur les objets et nuages de points générés à partir de vidéos RGB uniquement. Malgré leurs géométries d'acquisition, densités et priors distincts, Utonia apprend un espace de représentation cohérent qui se transfère entre les domaines. Cette unification améliore les capacités de perception tout en révélant des comportements émergents intrigants qui n'apparaissent que lorsque les domaines sont entraînés conjointement. Au-delà de la perception, nous observons que les représentations d'Utonia peuvent également bénéficier au raisonnement incarné et multimodal : conditionner des politiques vision-langage-action sur les caractéristiques d'Utonia améliore la manipulation robotique, et leur intégration dans des modèles vision-langage améliore les performances en raisonnement spatial. Nous espérons qu'Utonia pourra constituer une étape vers des modèles de fond pour les données 3D éparses, et soutenir des applications en aval dans la RA/RV, la robotique et la conduite autonome.
Le monde visuel constitue un axe essentiel pour faire progresser les modèles de fondation au-delà du langage. Malgré l'intérêt croissant pour cette direction, l'espace de conception des modèles multimodaux natifs demeure opaque. Nous apportons une clarification empirique grâce à des expériences contrôlées de pré-entraînement à partir de zéro, isolant les facteurs qui régissent le pré-entraînement multimodal sans interférence avec le pré-entraînement linguistique. Nous adoptons le cadre Transfusion, utilisant la prédiction de token suivant pour le langage et la diffusion pour la vision, pour entraîner sur des données diverses incluant du texte, de la vidéo, des paires image-texte, et même de la vidéo conditionnée par l'action. Nos expériences produisent quatre insights clés : (i) l'autoencodeur de représentation (RAE) fournit une représentation visuelle unifiée optimale en excellant à la fois en compréhension et en génération visuelles ; (ii) les données visuelles et linguistiques sont complémentaires et produisent une synergie pour les capacités en aval ; (iii) le pré-entraînement multimodal unifié mène naturellement à la modélisation du monde, avec des capacités émergeant de l'entraînement général ; et (iv) le mélange d'experts (MoE) permet une mise à l'échelle multimodale efficace et efficiente tout en induisant naturellement une spécialisation modale. Par une analyse IsoFLOP, nous calculons les lois d'échelle pour les deux modalités et découvrons une asymétrie d'échelle : la vision est nettement plus gourmande en données que le langage. Nous démontrons que l'architecture MoE harmonise cette asymétrie d'échelle en fournissant la forte capacité de modèle requise par le langage tout en accommodant la nature intensive en données de la vision, ouvrant la voie à des modèles multimodaux véritablement unifiés.
Les modèles multimodaux unifiés ont récemment démontré de fortes capacités génératives, mais la question de savoir si et quand la génération améliore la compréhension reste peu claire. Les benchmarks existants ne permettent pas une exploration systématique des tâches spécifiques où la génération facilite la compréhension. Pour pallier cela, nous présentons UniG2U-Bench, un benchmark complet qui catégorise l'évaluation de la génération vers la compréhension (G2U) en 7 régimes et 30 sous-tâches, nécessitant divers degrés de transformations visuelles implicites ou explicites. L'évaluation approfondie de plus de 30 modèles révèle trois résultats fondamentaux : 1) Les modèles unifiés obtiennent généralement des performances inférieures à leurs modèles de base vision-langage (VLM), et l'inférence Générer-puis-Répondre (GtA) dégrade généralement les performances par rapport à l'inférence directe. 2) Des améliorations constantes émergent dans les sous-tâches d'intelligence spatiale, d'illusions visuelles ou de raisonnement multi-tours, où une perception spatiale et des formes améliorée, ainsi que des états intermédiaires d'image multi-étapes, s'avèrent bénéfiques. 3) Les tâches avec des structures de raisonnement similaires et les modèles partageant des architectures présentent des comportements corrélés, suggérant que le couplage génération-compréhension induit des biais inductifs cohérents par classe sur les tâches, les données de pré-entraînement et les architectures de modèles. Ces résultats soulignent la nécessité de données d'entraînement plus diversifiées et de nouveaux paradigmes pour libérer pleinement le potentiel de la modélisation multimodale unifiée.
Nous présentons Qwen3-Coder-Next, un modèle de langage à poids ouvert spécialisé pour les agents de codage. Qwen3-Coder-Next est un modèle de 80 milliards de paramètres qui n'en active que 3 milliards lors de l'inférence, offrant ainsi de solides capacités de codage avec une inférence efficace. Dans ce travail, nous explorons jusqu'où des méthodes d'entraînement robustes peuvent repousser les limites des capacités des modèles ayant un faible nombre de paramètres actifs. Pour y parvenir, nous réalisons un entraînement agentique via la synthèse à grande échelle de tâches de codage vérifiables couplées à des environnements exécutables, permettant un apprentissage direct à partir des retours de l'environnement via un apprentissage par renforcement et un entraînement intermédiaire. Sur des benchmarks centrés sur les agents, notamment SWE-Bench et Terminal-Bench, Qwen3-Coder-Next obtient des performances compétitives par rapport à son nombre de paramètres actifs. Nous publions des versions à poids ouvert de base et optimisées par instruction pour soutenir la recherche et le développement d'agents de codage en conditions réelles.
Les benchmarks actuels pour les agents de code évaluent principalement des correctifs étroits et spécifiques à un dépôt, négligeant des défis critiques du monde réel tels que le raisonnement inter-dépôts, la résolution de problèmes spécialisés par domaine, la migration pilotée par les dépendances et la génération complète de dépôts. Pour combler cette lacune, nous présentons BeyondSWE, un benchmark complet qui élargit les évaluations existantes selon deux axes - la portée de résolution et la portée des connaissances - en utilisant 500 instances réelles réparties dans quatre contextes distincts. Les résultats expérimentaux révèlent un écart significatif de capacités : même les modèles les plus avancés plafonnent en dessous de 45% de succès, et aucun modèle unique ne performe de manière constante across les types de tâches. Pour étudier systématiquement le rôle des connaissances externes, nous développons SearchSWE, un framework qui intègre la recherche approfondie avec les capacités de codage. Nos expériences montrent que l'augmentation par recherche produit des gains inconstants et peut dans certains cas dégrader les performances, soulignant la difficulté à reproduire des workflows similaires à ceux des développeurs qui entrelacent recherche et raisonnement durant les tâches de programmation. Ce travail offre à la fois un benchmark d'évaluation réaliste et exigeant, et un framework flexible pour faire progresser la recherche vers des agents de code plus performants.
Les avancées récentes des Modèles de Génératifs de Récompense (GRM) démontrent que l'augmentation de la longueur du raisonnement en Chaîne de Pensée (CoT) améliore considérablement la fiabilité de l'évaluation. Cependant, les travaux actuels reposent principalement sur un accroissement non structuré de la longueur, négligeant l'efficacité divergente des différents mécanismes de raisonnement : la CoT en Largeur (B-CoT, c'est-à-dire la couverture multidimensionnelle des principes) et la CoT en Profondeur (D-CoT, c'est-à-dire la solidité du jugement substantiel). Pour remédier à cela, nous présentons Mix-GRM, un cadre qui reconfigure les rationalités brutes en B-CoT et D-CoT structurées via un pipeline de synthèse modulaire, puis utilise le Fine-Tuning Supervisé (SFT) et l'Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR) pour internaliser et optimiser ces mécanismes. Des expériences approfondies démontrent que Mix-GRM établit un nouvel état de l'art sur cinq benchmarks, surpassant les principaux GRM open-source de 8,2 % en moyenne. Nos résultats révèlent une divergence claire dans le raisonnement : la B-CoT profite aux tâches de préférence subjective, tandis que la D-CoT excelle dans les tâches de justesse objective. Par conséquent, un désalignement entre le mécanisme de raisonnement et la tâche dégrade directement les performances. De plus, nous démontrons que le RLVR agit comme un amplificateur commutateur, induisant une polarisation émergente où le modèle alloue spontanément son style de raisonnement pour correspondre aux exigences de la tâche. Les données et modèles synthétisés sont publiés sur https://huggingface.co/collections/DonJoey/mix-grm{Hugging Face}, et le code est publié sur https://github.com/Don-Joey/Mix-GRM{Github}.
L'animation de personnages vise à générer des vidéos réalistes en transférant la dynamique du mouvement d'une vidéo pilote vers une image de référence. Les progrès récents des modèles génératifs ont ouvert la voie à une animation de personnages de haute fidélité. Dans ce travail, nous présentons Kling-MotionControl, un framework unifié basé sur DiT, conçu spécifiquement pour une animation de personnage holistique robuste, précise et expressive. Tirant parti d'une stratégie de division pour mieux régner au sein d'un système cohérent, le modèle orchestre des représentations de mouvement hétérogènes adaptées aux caractéristiques distinctes du corps, du visage et des mains, conciliant efficacement la stabilité structurelle à grande échelle avec l'expressivité articulatoire fine. Pour assurer une généralisation robuste trans-identité, nous intégrons un apprentissage adaptatif indépendant de l'identité, facilitant le retargeting naturel du mouvement pour divers personnages, allant des humains réalistes aux dessins animés stylisés. Simultanément, nous garantissons une préservation fidèle de l'apparence grâce à des designs méticuleux d'injection et de fusion d'identité, soutenus en outre par un mécanisme de bibliothèque de sujets qui exploite des contextes de référence complets. Pour assurer l'utilité pratique, nous mettons en œuvre un framework d'accélération avancé utilisant une distillation multi-étapes, augmentant la vitesse d'inférence de plus de 10 fois. Kling-MotionControl se distingue par sa compréhension sémantique intelligente du mouvement et sa réactivité précise au texte, permettant un contrôle flexible au-delà des entrées visuelles. Les évaluations par préférence humaine démontrent que Kling-MotionControl offre des performances supérieures aux solutions commerciales et open-source leaders, atteignant une fidélité exceptionnelle dans le contrôle holistique du mouvement, la généralisation en domaine ouvert, ainsi que la qualité visuelle et la cohérence. Ces résultats établissent Kling-MotionControl comme une solution robuste pour une animation de personnage de haute qualité, contrôlable et réaliste.
Les modèles de langage de grande taille (LLM) sont de plus en plus déployés dans des domaines socialement sensibles, mais leurs comportements imprévisibles, allant d'une intention non alignée à une personnalité incohérente, présentent des risques significatifs. Nous présentons SteerEval, un benchmark hiérarchique pour évaluer la contrôlabilité des LLM dans trois domaines : les caractéristiques linguistiques, le sentiment et la personnalité. Chaque domaine est structuré en trois niveaux de spécification : L1 (quoi exprimer), L2 (comment l'exprimer) et L3 (comment l'instancier), reliant l'intention comportementale de haut niveau à la production textuelle concrète. En utilisant SteerEval, nous évaluons systématiquement les méthodes de pilotage contemporaines, révélant que le contrôle se dégrade souvent aux niveaux les plus fins. Notre benchmark offre un cadre principiel et interprétable pour un comportement des LLM sûr et contrôlable, servant de fondement aux recherches futures.
L'édition vidéo basée sur des instructions a connu des progrès rapides, mais les méthodes actuelles peinent souvent à assurer un contrôle visuel précis, car le langage naturel est intrinsèquement limité pour décrire des nuances visuelles complexes. Bien que l'édition guidée par référence offre une solution robuste, son potentiel est actuellement freiné par la rareté de données d'entraînement appariées de haute qualité. Pour combler cette lacune, nous introduisons un pipeline de génération de données scalable qui transforme des paires d'édition vidéo existantes en quadruplets d'entraînement haute fidélité, en exploitant des modèles génératifs d'images pour créer des échafaudages de référence synthétisés. En utilisant ce pipeline, nous construisons RefVIE, un jeu de données à grande échelle conçu pour les tâches de suivi d'instructions et de références, et nous établissons RefVIE-Bench pour une évaluation complète. De plus, nous proposons une architecture d'édition unifiée, Kiwi-Edit, qui combine des requêtes apprenables et des caractéristiques visuelles latentes pour un guidage sémantique par référence. Notre modèle atteint des gains significatifs en matière de suivi des instructions et de fidélité à la référence via un curriculum d'entraînement multi-étapes progressif. Des expériences approfondies démontrent que nos données et notre architecture établissent un nouvel état de l'art dans l'édition vidéo contrôlable. Tous les jeux de données, modèles et codes sont publiés à l'adresse https://github.com/showlab/Kiwi-Edit.
La capture des dépendances temporelles est cruciale pour l'apprentissage par renforcement basé sur un modèle (MBRL) dans des domaines partiellement observables et de haute dimension. Nous présentons NE-Dreamer, un agent MBRL sans décodeur qui exploite un transformeur temporel pour prédire les plongements de l'encodeur à l'étape suivante à partir de séquences d'états latents, optimisant directement l'alignement prédictif temporel dans l'espace de représentation. Cette approche permet à NE-Dreamer d'apprendre des représentations d'état cohérentes et prédictives sans pertes de reconstruction ni supervision auxiliaire. Sur le DeepMind Control Suite, NE-Dreamer égale ou dépasse les performances de DreamerV3 et des principaux agents sans décodeur. Sur un sous-ensemble complexe de tâches DMLab impliquant la mémoire et le raisonnement spatial, NE-Dreamer obtient des gains substantiels. Ces résultats établissent la prédiction du plongement suivant avec des transformeurs temporels comme un cadre efficace et évolutif pour le MBRL dans des environnements complexes et partiellement observables.
Les méthodes DEEPTHINK améliorent le raisonnement en générant, en affinant et en agrégeant des populations de solutions candidates, ce qui permet d'obtenir de fortes performances sur des tâches mathématiques et scientifiques complexes. Cependant, les cadres existants manquent souvent de signaux de fiabilité durant l'inférence, créant un goulot d'étranglement dans l'amélioration de la population où une délibération plus profonde amplifie les erreurs, supprime les solutions correctes minoritaires et donne un faible retour sur le calcul supplémentaire investi. Dans cet article, nous introduisons une décomposition fonctionnelle des systèmes DEEPTHINK et proposons PRISM, un algorithme d'inférence guidé par un modèle de récompense de processus (PRM) qui utilise une vérification étape par étape pour guider à la fois l'affinement de la population et l'agrégation des solutions. Durant l'affinement, PRISM traite les solutions candidates comme des particules dans un paysage énergétique défini par le PRM et remodèle la population par un rééchantillonnage guidé par les scores et un affinement stochastique, ce qui concentre la masse de probabilité sur un raisonnement de meilleure qualité tout en préservant la diversité. Sur divers benchmarks de mathématiques et de sciences, PRISM est compétitif ou surpasse les méthodes DEEPTHINK existantes, atteignant 90,0 %, 75,4 % et 71,4 % avec gpt-oss-20b sur AIME25, HMMT25 et GPQA Diamond, respectivement, tout en égalant ou dépassant les performances de gpt-oss-120b. De plus, notre analyse montre que PRISM produit une correction directionnelle nette cohérente durant l'affinement, reste fiable lorsque la population initiale contient peu de candidats corrects, et se situe souvent sur la frontière de Pareto précision-calcul.
Alors que les modèles de langage de grande taille (LLM) améliorent leurs capacités mathématiques vers le niveau des Olympiades internationales de mathématiques (OIM), la rareté des problèmes complexes et de haute qualité pour l'entraînement et l'évaluation est devenue un goulot d'étranglement majeur. Parallèlement, les agents de code récents ont démontré des compétences sophistiquées en programmation et raisonnement agentiques, suggérant que l'exécution de code peut servir d'environnement évolutif pour l'expérimentation mathématique. Dans cet article, nous étudions le potentiel des agents de code à faire évoluer de manière autonome des problèmes mathématiques existants vers des variations plus complexes. Nous introduisons un cadre multi-agents conçu pour réaliser cette évolution tout en validant la résolvabilité et la difficulté accrue des problèmes générés. Nos expériences démontrent que, moyennant une exploration suffisante au moment du test, les agents de code peuvent synthétiser de nouveaux problèmes résolubles, structurellement distincts et plus difficiles que les originaux. Ce travail fournit des preuves empiriques que les agents pilotés par le code peuvent servir de mécanisme viable pour synthétiser des problèmes de raisonnement mathématique de haute difficulté au sein d'environnements informatiques évolutifs. Nos données sont disponibles à l'adresse https://github.com/TarferSoul/Code2Math.
Le raisonnement humain implique souvent de travailler avec des informations limitées pour parvenir à des conclusions probabilistes. Dans sa forme la plus simple, cela consiste à faire une inférence qui n'est pas strictement impliquée par une prémisse, mais seulement probable étant donné cette prémisse. Bien que les grands modèles de langage (LLM) raisonneurs aient démontré de solides performances sur des tâches logiques et mathématiques, leur comportement face à de telles inférences non déterministes et ouvertes reste largement inexploré. Nous présentons ProbCOPA, un jeu de données de 210 inférences probabilistes élaborées manuellement en anglais, chacune annotée pour la vraisemblance de l'inférence par 25 à 30 participants humains. Nous constatons que les réponses humaines sont nuancées et variées, révélant des jugements probabilistes concernant les inférences de notre jeu de données. En comparant ces jugements avec les réponses de huit LLM raisonneurs de pointe, nous montrons que les modèles échouent systématiquement à produire des distributions similaires à celles des humains. Enfin, en analysant les chaînes de raisonnement des LLM, nous trouvons des preuves d'un schéma de raisonnement commun utilisé pour évaluer de telles inférences. Nos résultats révèlent des différences persistantes entre les humains et les LLM et soulignent la nécessité d'évaluer le raisonnement au-delà des cadres déterministes.
Les modèles de langage agentiques opèrent dans un régime de sécurité fondamentalement différent de celui des modèles de conversation : ils doivent planifier, utiliser des outils et exécuter des actions à long terme où une seule erreur, comme l'accès à des fichiers ou la saisie d'identifiants, peut causer des dommages irréversibles. Les méthodes d'alignement existantes, largement optimisées pour la génération statique et l'accomplissement de tâches, échouent dans ces contextes en raison de la prise de décision séquentielle, des retours d'outils adversariaux et du raisonnement intermédiaire trop confiant. Nous présentons MOSAIC, un cadre post-entraînement qui aligne les agents pour une utilisation sécurisée d'outils en plusieurs étapes en rendant les décisions de sécurité explicites et apprenables. MOSAIC structure l'inférence selon une boucle planifier, vérifier, puis agir ou refuser, avec un raisonnement explicite sur la sécurité et le refus comme actions de premier ordre. Pour l'entraînement sans étiquettes au niveau des trajectoires, nous utilisons un apprentissage par renforcement basé sur les préférences avec des comparaisons par paires de trajectoires, qui capture les distinctions de sécurité souvent manquées par les récompenses scalaires. Nous évaluons MOSAIC en zero-shot sur trois familles de modèles, Qwen2.5-7B, Qwen3-4B-Thinking et Phi-4, et sur des benchmarks hors distribution couvrant des tâches nuisibles, l'injection de prompt, l'utilisation bénigne d'outils et les fuites de confidentialité inter-domaines. MOSAIC réduit les comportements nuisibles jusqu'à 50%, augmente le refus de tâches nuisibles de plus de 20% sur les attaques par injection, réduit les fuites de confidentialité et préserve ou améliore les performances sur les tâches bénignes, démontrant une généralisation robuste across les modèles, domaines et contextes agentiques.
L'estimation de la trajectoire 3D de chaque pixel à partir d'une vidéo monoculaire est cruciale et prometteuse pour une compréhension complète de la dynamique 3D des vidéos. Les travaux récents en suivi 3D monoculaire démontrent des performances impressionnantes, mais se limitent soit au suivi de points épars sur la première image, soit à un cadre d'optimisation lent pour le suivi dense. Dans cet article, nous proposons un modèle feedforward, appelé Track4World, permettant un suivi 3D holistique efficace de chaque pixel dans un système de coordonnées centré sur le monde. Construit sur la représentation scénique 3D globale encodée par un ViT de style VGGT, Track4World applique un nouveau schéma de corrélation 3D pour estimer simultanément le flux dense 2D et 3D pixel par pixel entre des paires d'images arbitraires. Le flux scénique estimé, ainsi que la géométrie 3D reconstruite, permettent un suivi 3D efficace ultérieur de chaque pixel de cette vidéo. Des expériences approfondies sur plusieurs benchmarks démontrent que notre approche surpasse constamment les méthodes existantes dans l'estimation de flux 2D/3D et le suivi 3D, soulignant sa robustesse et son extensibilité pour les tâches de reconstruction 4D en conditions réelles.
Nous réinterprétons le classifieur softmax final d'un Grand Modèle de Langage (LLM) comme un Modèle à Base d'Énergie (EBM), en décomposant la chaîne de probabilité séquence-à-séquence en plusieurs EBM interactifs lors de l'inférence. Cette approche fondée nous permet de suivre les « fuites d'énergie » pendant le décodage, que nous montrons empiriquement être corrélées avec les erreurs factuelles, les biais et les échecs. Similairement à Orgad et al. (2025), notre méthode localise le token de réponse exact et teste ensuite la présence d'hallucinations. Cependant, et c'est crucial, nous y parvenons sans nécessiter de classifieurs sonde entraînés ou d'ablation d'activations. À la place, nous introduisons deux métriques entièrement exemptes d'entraînement, dérivées directement des logits de sortie : l'énergie déversée, qui capture l'écart entre les valeurs d'énergie à travers des étapes de génération consécutives qui devraient théoriquement correspondre, et l'énergie marginalisée, qui est mesurable en une seule étape. Évaluée sur neuf benchmarks couvrant des LLM de pointe (incluant LLaMA, Mistral et Gemma) et sur des opérations algébriques synthétiques (Qwen3), notre approche démontre une détection robuste et compétitive des hallucinations ainsi qu'une généralisation transversale aux tâches. Il est à noter que ces résultats valent à la fois pour les variantes pré-entraînées et fine-tunées par instruction, sans introduire de surcharge d'entraînement. Code disponible à l'adresse : github.com/OmnAI-Lab/spilled-energy
L'amélioration des capacités de raisonnement des grands modèles de langage (LLM) via un post-entraînement est souvent limitée par le compromis entre efficacité et oubli catastrophique. Si les recherches antérieures soulignent le rôle des données « on-policy » pour atténuer l'oubli, nous identifions — et validons théoriquement et empiriquement — un mécanisme négligé mais critique : la régularisation implicite inhérente à l'estimation de la récompense par l'Optimisation Directe des Préférences (DPO). Cela motive notre méthode de Post-Entraînement Chirurgical (SPoT), un nouveau paradigme conçu pour optimiser le raisonnement efficacement tout en préservant les connaissances antérieures acquises. SPoT se compose : (1) d'un pipeline de rectification des données qui utilise un Oracle pour corriger de manière chirurgicale les étapes erronées via des modifications minimales, générant des données proches de la distribution du modèle ; et (2) d'un objectif basé sur la récompense utilisant l'entropie croisée binaire. Contrairement au classement relatif dans DPO, cet objectif traite l'exactitude du raisonnement comme un problème de classification binaire, appliquant des signaux de supervision découplés. Empiriquement, avec seulement 4 000 paires de données mathématiques rectifiées, SPoT améliore la précision de Qwen3-8B de 6,2 % en moyenne sur des tâches internes et externes au domaine, nécessitant seulement 28 minutes d'entraînement sur 8 GPU H800. Code : https://github.com/Visual-AI/SPoT
Les modèles texte-image ont rapidement progressé en réalisme et en contrôlabilité, les approches récentes exploitant de longues descriptions détaillées pour permettre une génération fine. Cependant, un fossé paramétrique fondamental persiste : les modèles existants s'appuient sur un langage descriptif, tandis que les workflows professionnels nécessitent un contrôle numérique précis de la position, de la taille et de la couleur des objets. Dans ce travail, nous présentons BBQ, un modèle texte-image à grande échelle qui se conditionne directement sur des boîtes englobantes numériques et des triplets RVB dans un cadre de texte structuré unifié. Nous obtenons un contrôle spatial et chromatique précis en entraînant le modèle sur des légendes enrichies d'annotations paramétriques, sans modification architecturale ni optimisation à l'inférence. Cela permet également des interfaces utilisateur intuitives telles que le glisser-déposer d'objets et des sélecteurs de couleur, remplaçant un promptage itératif ambigu par des contrôles précis et familiers. Lors d'évaluations exhaustives, BBQ atteint un fort alignement des boîtes et améliore la fidélité des couleurs RVB par rapport aux meilleures méthodes de référence. Plus largement, nos résultats soutiennent un nouveau paradigme dans lequel l'intention de l'utilisateur est traduite en un langage structuré intermédiaire, consommé par un transformer à flux agissant comme un moteur de rendu et accommodant naturellement les paramètres numériques.
Les requêtes des utilisateurs réelles adressées aux agents LLM sont souvent sous-spécifiées. Les agents doivent interagir pour acquérir les informations manquantes et prendre des décisions aval correctes. Cependant, les méthodes actuelles basées sur GRPO multi-tours reposent souvent sur un calcul de récompense au niveau de la trajectoire, ce qui entraîne des problèmes d'attribution de crédit et des signaux d'avantage insuffisants dans les groupes de déploiement. Une approche réalisable consiste à identifier les tours d'interaction précieux à granularité fine pour piloter un apprentissage plus ciblé. Pour résoudre ce problème, nous présentons InfoPO (Optimisation de Politique Pilotée par l'Information), qui modélise l'interaction multi-tours comme un processus de réduction active de l'incertitude et calcule une récompense basée sur le gain d'information. Cette récompense attribue du crédit aux tours dont les retours modifient de manière mesurable la distribution des actions ultérieures de l'agent par rapport à un contrefactuel à retours masqués. Ce signal est ensuite combiné aux résultats de la tâche via une fusion adaptative à variance contrôlée, permettant d'identifier l'importance informationnelle tout en maintenant l'orientation vers l'objectif opérationnel. Sur diverses tâches, incluant la clarification d'intention, la programmation collaborative et la prise de décision assistée par outils, InfoPO surpasse constamment les méthodes par prompting et les approches d'apprentissage par renforcement multi-tours de référence. Il démontre également une robustesse face aux changements de simulateurs d'utilisateurs et généralise efficacement aux tâches interactives avec l'environnement. Globalement, InfoPO fournit un mécanisme principé et évolutif pour optimiser la collaboration complexe entre agent et utilisateur. Le code est disponible à l'adresse https://github.com/kfq20/InfoPO.
Les modèles récents d'édition vidéo ont obtenu des résultats impressionnants, mais la plupart nécessitent encore des jeux de données appariés à grande échelle. La collecte de telles paires naturellement alignées à grande échelle reste très difficile et constitue un goulot d'étranglement critique, particulièrement pour les données d'édition vidéo locale. Les solutions existantes transfèrent l'édition d'image à la vidéo via un contrôle global du mouvement pour une édition vidéo sans paires, mais ces conceptions peinent à assurer la cohérence temporelle et de l'arrière-plan. Dans cet article, nous proposons NOVA : Contrôle Sparse & Synthèse Dense, un nouveau cadre pour l'édition vidéo non appariée. Plus précisément, la branche sparse fournit un guidage sémantique via des images-clés éditées par l'utilisateur et distribuées le long de la vidéo, tandis que la branche dense intègre continuellement les informations de mouvement et de texture de la vidéo originale pour maintenir une haute fidélité et une cohérence élevée. De plus, nous introduisons une stratégie d'entraînement par simulation de dégradation qui permet au modèle d'apprendre la reconstruction du mouvement et la cohérence temporelle en s'entraînant sur des vidéos artificiellement dégradées, éliminant ainsi le besoin de données appariées. Nos expériences approfondies démontrent que NOVA surpasse les approches existantes en termes de fidélité de l'édition, de préservation du mouvement et de cohérence temporelle.
Les modèles Vision-Langage-Action (VLA) constituent une voie prometteuse vers l'intelligence incarnée, mais ils négligent souvent la structure prédictive et temporelle-causale sous-jacente à la dynamique visuelle. Les VLAs à modèle du monde abordent ce problème en prédisant les images futures, mais gaspillent de la capacité à reconstruire des arrière-plans redondants. Les VLAs à actions latentes encodent de manière compacte les transitions entre images, mais manquent de modélisation dynamique temporellement continue et de connaissances du monde. Pour surmonter ces limitations, nous introduisons CoWVLA (Chain-of-World VLA), un nouveau paradigme de "Chaîne du Monde" qui unifie le raisonnement temporel des modèles du monde avec une représentation motionnelle latente désentrelacée. Premièrement, un VAE vidéo pré-entraîné sert d'extracteur de mouvement latent, factorisant explicitement les segments vidéo en latents de structure et de mouvement. Ensuite, lors du pré-entraînement, le VLA apprend à partir d'une instruction et d'une image initiale pour inférer une chaîne motionnelle latente continue et prédire l'image finale du segment. Enfin, lors du co-fine-tuning, cette dynamique latente est alignée avec la prédiction d'actions discrètes en modélisant conjointement des images clés éparses et des séquences d'actions dans un décodeur autorégressif unifié. Cette conception préserve les avantages du raisonnement temporel et des connaissances du monde des modèles du monde, tout en conservant la compacité et l'interprétabilité des actions latentes, permettant un apprentissage visuomoteur efficace. Des expériences approfondies sur des benchmarks de simulation robotique montrent que CoWVLA surpasse les approches existantes basées sur les modèles du monde et les actions latentes, et atteint une efficacité computationnelle modérée, soulignant son potentiel en tant que paradigme de pré-entraînement VLA plus efficace. Le site web du projet est disponible à l'adresse https://fx-hit.github.io/cowvla-io.
La transition des grands modèles de langage (LLM) d'outils exploratoires à de véritables « sujets de silicium » dans les sciences sociales manque d'une validation extensive de leur validité opérationnelle. Cette étude introduit la Prédiction de Commentaires Conditionnée (CCP), une tâche dans laquelle un modèle prédit comment un utilisateur commenterait un stimulus donné en comparant les sorties générées avec des traces numériques authentiques. Ce cadre permet une évaluation rigoureuse des capacités actuelles des LLM concernant la simulation du comportement des utilisateurs sur les médias sociaux. Nous avons évalué des modèles open-weight de 8B (Llama3.1, Qwen3, Ministral) dans des scénarios en anglais, allemand et luxembourgeois. En comparant systématiquement les stratégies d'invite (explicite vs. implicite) et l'impact du Fine-Tuning Supervisé (SFT), nous identifions un découplage critique entre la forme et le contenu dans les contextes à faibles ressources : bien que le SFT aligne la structure de surface de la sortie textuelle (longueur et syntaxe), il dégrade l'ancrage sémantique. De plus, nous démontrons que le conditionnement explicite (biographies générées) devient redondant après le fine-tuning, car les modèles effectuent avec succès une inférence latente directement à partir des historiques comportementaux. Nos résultats remettent en cause les paradigmes actuels de « l'invite naïve » et offrent des directives opérationnelles privilégiant les traces comportementales authentiques plutôt que les personnages descriptifs pour une simulation haute fidélité.
L'unification de l'apprentissage de représentation visuelle et de la génération texte-image (T2I) au sein d'un modèle unique reste un défi central en apprentissage multimodal. Nous présentons DREAM, un cadre unifié qui optimise conjointement des objectifs discriminatifs et génératifs, tout en apprenant de fortes représentations visuelles. DREAM repose sur deux techniques clés : Pendant l'entraînement, le *Masking Warmup*, un échéancier de masquage progressif, commence par un masquage minimal pour établir l'alignement contrastif nécessaire à l'apprentissage de représentations, puis transitionne graduellement vers un masquage complet pour un entraînement génératif stable. À l'inférence, DREAM utilise le *Semantically Aligned Decoding* pour aligner des candidats d'images partiellement masquées avec le texte cible et sélectionne le meilleur pour un décodage ultérieur, améliorant la fidélité texte-image (+6,3 %) sans reclassificateurs externes. Entraîné uniquement sur CC12M, DREAM atteint une précision en sondage linéaire sur ImageNet de 72,7 % (+1,1 % par rapport à CLIP) et un FID de 4,25 (+6,2 % par rapport à FLUID), avec des gains constants en classification *few-shot*, segmentation sémantique et estimation de profondeur. Ces résultats démontrent que les objectifs discriminatifs et génératifs peuvent être synergiques, permettant à des modèles multimodaux unifiés d'exceller à la fois en compréhension visuelle et en génération.
La découverte scientifique automatisée avec les grands modèles de langage transforme le cycle de vie de la recherche, de l'idéation à l'expérimentation, mais les agents existants peinent à traiter de manière autonome les données brutes collectées lors d'expériences scientifiques. Nous présentons SciDER, un système de bout en bout axé sur les données qui automatise le cycle de vie de la recherche. Contrairement aux cadres traditionnels, nos agents spécialisés analysent et traitent collaborativement les données scientifiques brutes, génèrent des hypothèses et des plans expérimentaux fondés sur les caractéristiques spécifiques des données, puis rédigent et exécutent le code correspondant. L'évaluation sur trois benchmarks démontre que SciDER excelle dans la découverte scientifique spécialisée pilotée par les données et surpasse les agents généralistes ainsi que les modèles de l'état de l'art grâce à sa mémoire auto-évolutive et sa boucle de rétroaction dirigée par un critique. Distribué sous forme de package Python modulaire, nous fournissons également des packages PyPI faciles à utiliser avec une interface web légère pour accélérer la recherche autonome et axée sur les données, visant à être accessible à tous les chercheurs et développeurs.
La Guidance Sans Classifieur (CFG) est devenue une approche centrale pour améliorer l'alignement sémantique dans les modèles de diffusion basés sur les flux. Dans cet article, nous explorons un cadre unifié appelé CFG-Ctrl, qui réinterprète la CFG comme un contrôle appliqué au flux génératif continu du premier ordre, utilisant l'écart conditionnel-inconditionnel comme signal d'erreur pour ajuster le champ de vitesse. De ce point de vue, nous résumons la CFG standard comme un contrôleur proportionnel (contrôle P) avec un gain fixe, et les variantes typiques qui en découlent développent des conceptions de lois de contrôle étendues qui en dérivent. Cependant, les méthodes existantes reposent principalement sur un contrôle linéaire, conduisant intrinsèquement à une instabilité, un dépassement et une dégradation de la fidélité sémantique, en particulier sur de grandes échelles de guidage. Pour résoudre ce problème, nous introduisons la CFG à Mode Glissant (SMC-CFG), qui contraint le flux génératif vers une variété glissante à convergence rapide. Plus précisément, nous définissons une surface de mode glissant exponentielle sur l'erreur de prédiction sémantique et introduisons un terme de contrôle par commutation pour établir une correction non linéaire guidée par rétroaction. De plus, nous fournissons une analyse de stabilité au sens de Lyapunov pour étayer théoriquement la convergence en temps fini. Les expériences menées sur des modèles de génération texte-image, notamment Stable Diffusion 3.5, Flux et Qwen-Image, démontrent que SMC-CFG surpasse la CFG standard en termes d'alignement sémantique et améliore la robustesse sur une large plage d'échelles de guidage. Page du projet : https://hanyang-21.github.io/CFG-Ctrl
Alors que les modèles de langage de grande taille (LLM) atteignent des performances plafonnantes sur les benchmarks élémentaires, la frontière de la recherche s'est déplacée de la génération vers la fiabilité de l'évaluation automatisée. Nous démontrons que les protocoles standard d'« évaluateur-LLM » souffrent d'un Écart d'Alignement systématique lorsqu'ils sont appliqués aux mathématiques de niveau licence avancée à début de master. Pour le quantifier, nous présentons QEDBench, le premier benchmark d'alignement à double référentiel à grande échelle, conçu pour mesurer systématiquement l'alignement avec des experts humains sur des preuves mathématiques universitaires en confrontant des grilles d'évaluation spécifiques aux cours à des critères de savoir commun expert. En déployant une matrice d'évaluation double (7 juges x 5 solveurs) contre plus de 1 000 heures d'évaluation humaine, nous révélons que certains évaluateurs de pointe comme Claude Opus 4.5, DeepSeek-V3, Qwen 2.5 Max et Llama 4 Maverick présentent un biais positif significatif (respectivement une inflation des scores moyens allant jusqu'à +0,18, +0,20, +0,30 et +0,36). De plus, nous mettons en évidence un déficit critique de raisonnement dans le domaine discret : si Gemini 3.0 Pro atteint des performances de pointe (score d'évaluation humaine moyen de 0,91), d'autres modèles de raisonnement comme GPT-5 Pro et Claude Sonnet 4.5 voient leurs performances se dégrader significativement dans les domaines discrets. Concrètement, leurs scores d'évaluation humaine moyens chutent à 0,72 et 0,63 en Mathématiques Discrètes, et à 0,74 et 0,50 en Théorie des Graphes. Outre ces résultats de recherche, nous publions également QEDBench en tant que benchmark public pour évaluer et améliorer les juges IA. Notre benchmark est publiquement accessible à l'adresse https://github.com/qqliu/Yale-QEDBench.
Les systèmes multi-agents (SMA) pilotés par des modèles de langage de grande taille (LLM) coordonnent des agents spécialisés via des topologies d'interaction prédéfinies et ont montré des résultats prometteurs pour des tâches complexes telles que la génération de code de niveau compétition. Des études récentes démontrent que des workflows multi-agents et des graphes de communication soigneusement conçus peuvent significativement améliorer les performances en génération de code en exploitant le raisonnement collaboratif. Cependant, les méthodes existantes n'adaptent ni la densité topologique à la difficulté de la tâche, ni n'affinent itérativement la topologie au sein d'une instance en utilisant les retours d'exécution, ce qui entraîne une communication redondante et des goulots d'étranglement de performance. Pour résoudre ces problèmes, nous proposons AgentConductor : un SMA optimisé par apprentissage par renforcement ayant pour cœur un agent orchestrateur basé sur un LLM, qui permet la génération dynamique de topologies d'interaction pilotée par des retours de bout en bout. Pour chaque requête, AgentConductor infère les rôles des agents et la difficulté de la tâche, puis construit une topologie en graphe acyclique orienté (DAG) stratifié, adaptée à la tâche et sensible à la densité, soutenue par deux innovations clés. Premièrement, nous concevons une nouvelle fonction de densité topologique qui capture des caractérisations mathématiques conscientes de la communication pour les interactions multi-agents. Deuxièmement, nous adoptons un partitionnement par intervalles de difficulté pour éviter un élagage excessif, permettant une mesure précise de la borne supérieure de densité topologique par niveau de difficulté et un contrôle plus fin. Empiriquement, sur trois ensembles de données de code de niveau compétition et deux ensembles de données fondamentaux, AgentConductor atteint une précision de pointe, surpassant la base de référence la plus forte jusqu'à 14,6 % en précision pass@1, 13 % en réduction de densité et 68 % en réduction du coût en tokens.
Les grands modèles de langage présentent des capacités sophistiquées, mais comprendre leur fonctionnement interne demeure un défi fondamental. Un obstacle majeur réside dans le fait que l'entraînement sélectionne des comportements, non des circuits, si bien que de nombreuses configurations de poids peuvent implémenter la même fonction. Quelles structures internes reflètent le calcul, et lesquelles sont des artefacts d'un entraînement particulier ? Ce travail extrait des cœurs algorithmiques : des sous-espaces compacts nécessaires et suffisants à la réalisation d'une tâche. Des transformers entraînés indépendamment apprennent des poids différents mais convergent vers les mêmes cœurs. Les transformers à chaîne de Markov incorporent des cœurs 3D dans des sous-espaces quasi orthogonaux tout en retrouvant des spectres de transition identiques. Les transformers pour l'addition modulaire découvrent des opérateurs cycliques compacts au "grokking" qui se dilatent ensuite, produisant un modèle prédictif de la transition mémorisation-généralisation. Les modèles de langage GPT-2 régissent l'accord sujet-verbe via un axe unique qui, lorsqu'il est inversé, inverse le nombre grammatical pendant la génération, et ce à différentes échelles. Ces résultats révèlent des invariants de faible dimension qui persistent entre différents entraînements et échelles, suggérant que les calculs des transformers s'organisent autour de structures algorithmiques compactes et partagées. L'interprétabilité mécaniste pourrait bénéficier de la recherche de tels invariants – l'essence computationnelle – plutôt que des détails spécifiques à l'implémentation.
La transition du calcul séquentiel au calcul parallèle est essentielle pour les applications modernes à haute performance, mais elle est entravée par la courbe d'apprentissage abrupte de la programmation concurrente. Ce défi est amplifié pour les structures de données irrégulières (telles que les graphes creux, les arbres déséquilibrés et les maillages non uniformes) où l'ordonnancement statique échoue et les dépendances de données sont imprévisibles. Les grands modèles de langage (LLM) actuels échouent souvent de manière catastrophique sur ces tâches, générant un code entaché de conditions de course subtiles, d'interblocages et de mise à l'échelle sous-optimale. Nous comblons cette lacune avec ParEVO, un cadre conçu pour synthétiser des algorithmes parallèles à haute performance pour les données irrégulières. Nos contributions incluent : (1) Le corpus Parlay-Instruct, un ensemble de données organisé de 13 820 tâches synthétisées via un pipeline "Critique-Raffinage" qui filtre explicitement les algorithmes performants empiriquement et utilisant efficacement les primitives parallèles Work-Span ; (2) des modèles spécialisés DeepSeek, Qwen et Gemini affinés pour aligner la génération probabiliste sur la sémantique rigoureuse de la bibliothèque ParlayLib ; et (3) un Agent de Codage Évolutif (ECA) qui améliore le "dernier kilomètre" de la correction en réparant itérativement le code à l'aide des retours des compilateurs, des détecteurs de course dynamiques et des profileurs de performance. Sur le benchmark ParEval, ParEVO atteint une accélération moyenne de 106x (avec un maximum de 1103x) sur l'ensemble de la suite, et une accélération robuste de 13,6x spécifiquement sur les problèmes de graphes irréguliers complexes, surpassant les modèles commerciaux de pointe. De plus, notre approche évolutive égale les références humaines expertes de pointe, atteignant jusqu'à une accélération de 4,1x sur des noyaux spécifiques hautement irréguliers. Le code source et les ensembles de données sont disponibles à l'adresse https://github.com/WildAlg/ParEVO.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a obtenu des succès remarquables dans l'amélioration des modèles autorégressifs, particulièrement dans les domaines exigeant de l'exactitude comme le raisonnement mathématique et la génération de code. Cependant, l'application directe de tels paradigmes aux modèles de langage de grande taille à diffusion (dLLM) est fondamentalement entravée par l'impossibilité de calculer la vraisemblance exacte, ce qui contraint les méthodes existantes à s'appuyer sur des approximations à forte variance. Pour combler cette lacune, nous proposons l'optimisation de politique sans vraisemblance (LFPO), un cadre natif qui transpose le concept d'ajustement de flux de champ vectoriel à l'espace discret des tokens. Concrètement, LFPO formule l'alignement comme une rectification géométrique de vitesse, optimisant directement les logits de dé-bruitage via des mises à jour contrastives. Cette conception contourne efficacement les erreurs inhérentes à l'approximation de vraisemblance, produisant une estimation précise du gradient. De plus, LFPO impose la cohérence en prédisant les solutions finales à partir d'étapes intermédiaires, redressant efficacement le flux de probabilité pour permettre une génération de haute qualité avec significativement moins d'itérations. Des expériences approfondies démontrent que LFPO surpasse non seulement les meilleures méthodes de référence sur les benchmarks de code et de raisonnement, mais accélère aussi l'inférence d'environ 20 % grâce à la réduction des étapes de diffusion.
Les architectures Mixture-of-Experts (MoE) sont apparues comme un paradigme puissant pour la mise à l'échelle des réseaux neuronaux tout en maintenant l'efficacité computationnelle. Cependant, les implémentations standard de MoE reposent sur deux hypothèses de conception rigides : (1) un routage Top-K fixe où exactement K experts sont activés par token, et (2) une allocation uniforme des experts à travers toutes les couches. Cet article présente DynaMoE, un nouveau cadre MoE qui assouplit ces deux contraintes via une activation dynamique des experts au niveau du token et une allocation de capacité adaptative par couche. DynaMoE introduit un mécanisme de routage fondé sur des principes où le nombre d'experts actifs par token varie en fonction de la complexité de l'entrée. Parallèlement, le cadre met en œuvre six stratégies distinctes de planification pour répartir la capacité des experts en profondeur du réseau, incluant des motifs descendants, ascendants, pyramidaux et ondulatoires. Nous analysons théoriquement les gains en expressivité du routage dynamique et dérivons des bornes sur l'efficacité computationnelle. À travers des expériences approfondies sur MNIST, Fashion-MNIST, CIFAR-10 (classification d'images) et Recycling-the-Web (modélisation du langage) à plusieurs échelles de modèles, nous démontrons que DynaMoE atteint une efficacité paramétrique supérieure par rapport aux lignes de base statiques. Notre principal résultat est que les planifications optimales des experts dépendent de la tâche et de l'échelle : les planifications descendantes (concentrant la capacité dans les premières couches) surpassent les lignes de base uniformes en classification d'images. Pour la modélisation du langage, les planifications optimales varient selon la taille du modèle : descendante pour Tiny, ascendante pour Small et uniforme pour Medium. De plus, le routage dynamique réduit la variance du gradient pendant l'entraînement, conduisant à une meilleure stabilité de convergence. DynaMoE établit un nouveau cadre pour le calcul adaptatif dans les réseaux neuronaux, fournissant des directives fondées pour la conception d'architectures MoE.
Les découvertes scientifiques doivent être communiquées clairement pour réaliser leur plein potentiel. Sans une communication efficace, même les résultats les plus novateurs risquent d'être négligés ou mal interprétés. Le principal moyen par lequel les scientifiques communiquent leurs travaux et reçoivent des retours de la communauté est l'évaluation par les pairs. Cependant, le système actuel produit souvent des retours incohérents entre les relecteurs, ce qui finit par entraver l'amélioration d'un manuscrit et limite son impact potentiel. Dans cet article, nous présentons une nouvelle méthode, APRES, reposant sur les Grands Modèles de Langage (LLM) pour mettre à jour le texte d'un article scientifique sur la base d'une grille d'évaluation. Notre méthode automatique découvre une grille d'évaluation très prédictive des futurs nombres de citations et l'intègre à APRES dans un système automatisé qui révise les articles pour en améliorer la qualité et l'impact. Il est crucial que cet objectif soit atteint sans altérer le contenu scientifique fondamental. Nous démontrons le succès d'APRES, qui améliore la prédiction des citations futures de 19,6% en erreur moyenne absolue par rapport à la meilleure base de référence, et montrons que notre processus de révision produit des articles préférés aux originaux par des évaluateurs experts humains dans 79% des cas. Nos résultats fournissent un soutien empirique solide à l'utilisation des LLM comme outil pour aider les auteurs à tester la robustesse de leurs manuscrits avant soumission. En définitive, notre travail vise à compléter, et non à remplacer, le rôle essentiel des relecteurs experts humains, car ce doivent être les humains qui discernent quelles découvertes comptent véritablement, guidant la science vers l'avancement des connaissances et l'enrichissement des vies.
L'oubli machine, qui permet à un modèle d'oublier des données spécifiques, est crucial pour garantir la confidentialité des données et la fiabilité des modèles. Cependant, son efficacité peut être gravement compromise dans des scénarios réels où les modèles apprennent des biais non intentionnels à partir de corrélations fallacieuses dans les données. Cet article étudie les défis spécifiques de l'oubli à partir de tels modèles biaisés. Nous identifions un nouveau phénomène que nous appelons « oubli du raccourci », où les modèles présentent une tendance « facile à apprendre, mais difficile à oublier ». Plus précisément, les modèles ont du mal à oublier les exemples faciles à apprendre et alignés sur le biais ; au lieu d'oublier l'attribut de classe, ils désapprennent l'attribut de biais, ce qui peut paradoxalement améliorer la précision sur la classe censée être oubliée. Pour remédier à cela, nous proposons CUPID, un nouveau cadre d'oubli inspiré par l'observation que les échantillons avec des biais différents présentent une netteté distincte du paysage de perte. Notre méthode partitionne d'abord l'ensemble à oublier en sous-ensembles approximatifs causal et biaisé basés sur la netteté des échantillons, puis désentremêle les paramètres du modèle en voies causales et biaisées, et enfin effectue une mise à jour ciblée en acheminant des gradients causaux et biaisés raffinés vers leurs voies respectives. Des expériences approfondies sur des ensembles de données biaisés, notamment Waterbirds, BAR et Biased NICO++, démontrent que notre méthode atteint des performances d'oubli à la pointe de l'état de l'art et atténue efficacement le problème de l'oubli du raccourci.
La convolution dynamique spatialement variable offre une approche fondée pour intégrer l'adaptativité spatiale dans les réseaux de neurones profonds. Cependant, les conceptions dominantes en segmentation médicale génèrent généralement des noyaux dynamiques par pooling moyen, ce qui réduit implicitement les détails spatiaux haute fréquence en une représentation grossière et spatialement compressée, conduisant à des prédictions excessivement lissées qui dégradent la fidélité des structures cliniques fines. Pour remédier à cette limitation, nous proposons un nouveau mécanisme de Convolution Dynamique Guidée par la Structure (SGDC), qui exploite une branche d'extraction de structure explicitement supervisée pour guider la génération de noyaux dynamiques et de signaux de gating pour une modulation de caractéristiques sensible à la structure. Spécifiquement, les informations de frontière haute fidélité de cette branche auxiliaire sont fusionnées avec les caractéristiques sémantiques pour permettre une modulation spatialement précise des caractéristiques. En remplaçant l'agrégation de contexte par un guidage structurel pixel à pixel, la conception proposée prévient efficacement la perte d'information introduite par le pooling moyen. Les résultats expérimentaux montrent que SGDC obtient des performances de pointe sur les jeux de données ISIC 2016, PH2, ISIC 2018 et CoNIC, offrant une fidélité de contour supérieure en réduisant la distance de Hausdorff (HD95) de 2,05 et procurant des gains d'IoU constants de 0,99 % à 1,49 % par rapport aux méthodes basées sur le pooling. De plus, le mécanisme présente un fort potentiel d'extension à d'autres tâches vision fines et sensibles à la structure, telles que la détection de petits objets, offrant une solution fondée pour préserver l'intégrité structurelle en analyse d'images médicales. Pour faciliter la reproductibilité et encourager la recherche, le code d'implémentation de nos modules SGE et SGDC a été publiquement diffusé à l'adresse https://github.com/solstice0621/SGDC.
Malgré leurs capacités impressionnantes, les modèles actuels de génération d'images à partir de texte (T2I) restent susceptibles de produire du contenu non sécurisé et toxique. Si le pilotage des activations représente une intervention prometteuse au moment de l'inférence, nous observons qu'un pilotage linéaire des activations dégrade fréquemment la qualité de l'image lorsqu'il est appliqué à des requêtes bénignes. Pour résoudre ce compromis, nous construisons d'abord SafeSteerDataset, un jeu de données contrastif contenant 2300 paires de requêtes sûres et non sûres avec une similarité cosinus élevée. En nous appuyant sur ces données, nous proposons le Conditioned Activation Transport (CAT), un cadre qui utilise un mécanisme de conditionnement géométrique et des applications de transport non linéaires. En conditionnant les applications de transport pour qu'elles ne s'activent que dans les régions d'activation non sûres, nous minimisons l'interférence avec les requêtes bénignes. Nous validons notre approche sur deux architectures de pointe : Z-Image et Infinity. Les expériences démontrent que CAT se généralise efficacement sur ces backbones, réduisant significativement le taux de réussite des attaques tout en préservant la fidélité de l'image par rapport aux générations non pilotées. Avertissement : Cet article contient du texte et des images potentiellement offensants.
Les récents progrès des grands modèles de langage (LLM) ont permis le développement de chatbots aux capacités croissantes. Cependant, la plupart des systèmes existants se concentrent sur des configurations à un seul utilisateur et ne se généralisent pas bien aux discussions de groupe multi-utilisateurs, où les agents nécessitent une intervention plus proactive et précise dans des contextes complexes et évolutifs. Les approches existantes reposent généralement sur les LLM à la fois pour le raisonnement et la génération, ce qui entraîne une consommation élevée de tokens, une scalabilité limitée et des risques potentiels pour la vie privée. Pour relever ces défis, nous proposons GroupGPT, un cadre agentique économe en tokens et préservant la confidentialité pour les assistants de discussion multi-utilisateurs. GroupGPT adopte une architecture collaborative de modèles petits-grands pour découpler le moment de l'intervention de la génération de réponse, permettant une prise de décision efficace et précise. Le cadre prend également en charge les entrées multimodales, y compris les mèmes, images, vidéos et messages vocaux. Nous introduisons en outre MUIR, un jeu de données de référence pour le raisonnement d'intervention des assistants de discussion multi-utilisateurs. MUIR contient 2 500 segments de discussion de groupe annotés avec des étiquettes d'intervention et leurs justifications, supportant l'évaluation de la précision temporelle et de la qualité des réponses. Nous évaluons une série de modèles sur MUIR, des grands modèles de langage à leurs homologues plus petits. Des expériences approfondies démontrent que GroupGPT produit des réponses précises et bien synchronisées, obtenant un score moyen de 4,72/5,0 dans l'évaluation basée sur les LLM, et est bien accueilli par les utilisateurs dans divers scénarios de discussion de groupe. De plus, GroupGPT réduit l'utilisation de tokens jusqu'à 3 fois par rapport aux méthodes de référence, tout en assurant un assainissement pour la confidentialité des messages utilisateur avant leur transmission vers le cloud. Le code est disponible à l'adresse : https://github.com/Eliot-Shen/GroupGPT.
Nous présentons Whisper-RIR-Mega, un jeu de données de référence regroupant des échantillons de parole associés, nets et réverbérants, pour évaluer la robustesse de la reconnaissance automatique de la parole (ASR) face à l'acoustique des salles. Chaque échantillon associe un énoncé net de LibriSpeech au même énoncé convolué avec une réponse impulsionnelle de salle réelle issue du corpus RIR-Mega, avec des sous-ensembles stratifiés selon le temps de réverbération (TR60) et le rapport direct/réverbéré (DRR). Nous évaluons cinq modèles Whisper (de tiny à large-v3) sur 1600 échantillons de test et rapportons le taux d'erreur sur les mots (WER) et le taux d'erreur sur les caractères (CER) dans des conditions nettes et réverbérantes. La réverbération dégrade systématiquement les performances pour toutes les tailles de modèles ; la pénalité due à la réverbération en termes de WER varie de 0,12 à 1,07 point de pourcentage selon le modèle. Nous publions le jeu de données, le code d'évaluation et les résultats de référence pour favoriser la recherche reproductible sur l'ASR robuste.
Les discours de haine subtils et indirects demeurent un défi sous-exploré dans la recherche sur la sécurité en ligne, particulièrement lorsque l'intention nocive est intégrée dans des récits trompeurs ou manipulateurs. Les ensembles de données existants sur la haine capturent principalement la toxicité manifeste, sous-représentant les façons nuancées dont la désinformation peut inciter à la haine ou la normaliser. Pour combler cette lacune, nous présentons HateMirage, un nouvel ensemble de données de commentaires de « Faux Hate » conçu pour faire progresser la recherche sur le raisonnement et l'explicabilité concernant la haine émergeant de récits faux ou déformés. L'ensemble de données a été construit en identifiant des affirmations de désinformation largement démystifiées auprès de sources de vérification des faits et en retraçant les discussions YouTube associées, ce qui a donné lieu à 4 530 commentaires d'utilisateurs. Chaque commentaire est annoté selon trois dimensions interprétables : la Cible (qui est visé), l'Intention (la motivation ou le but sous-jacent du commentaire) et l'Implication (son impact social potentiel). Contrairement aux ensembles de données d'explicabilité antérieurs tels que HateXplain et HARE, qui offrent un raisonnement au niveau des tokens ou unidimensionnel, HateMirage introduit un cadre d'explication multidimensionnel qui capture l'interaction entre la désinformation, le préjudice et la conséquence sociale. Nous évaluons plusieurs modèles de langage open-source sur HateMirage en utilisant le score F1 ROUGE-L et la similarité Sentence-BERT pour évaluer la cohérence des explications. Les résultats suggèrent que la qualité de l'explication pourrait dépendre davantage de la diversité du pré-entraînement et des données axées sur le raisonnement que de la seule taille du modèle. En associant le raisonnement sur la désinformation à l'attribution du préjudice, HateMirage établit une nouvelle référence pour la détection de la haine interprétable et la recherche en IA responsable.
L'adaptation des politiques en temps de test pour les interactions multi-tours (T2PAM) est essentielle pour aligner les grands modèles de langage (LLM) sur les besoins dynamiques des utilisateurs durant l'inférence. Cependant, les paradigmes existants considèrent généralement l'adaptation en temps de test comme un problème à axe unique, se contentant soit d'affiner les instructions (Ingénierie des prompts), soit d'ajuster les poids (Apprentissage en temps de test), ignorant que les échecs d'interaction découlent d'un mélange couplé d'ambiguïté et d'incapacité. Nous soutenons que ces deux voies d'optimisation ne sont pas simplement additives mais synergiques : la clarté sémantique agit comme un préconditionneur pour des mises à jour efficaces des paramètres. À cette fin, nous proposons ROSA2, un cadre qui reformule l'interaction comme un problème d'optimisation conjointe sur l'espace hétérogène des Mots et des Poids. En décomposant mathématiquement le signal d'erreur, ROSA2 utilise des gradients textuels pour rectifier l'ambiguïté de l'intention et des mises à jour paramétriques pour combler les lacunes de capacité. Théoriquement, nous prouvons que cette co-adaptation réduit strictement le décalage paramétrique requis pour la convergence. Empiriquement, ROSA2 surpasse les meilleures méthodes de référence de 30 % sur MATH tout en réduisant les tours d'interaction de 40 %, démontrant qu'affiner le contexte libère le véritable potentiel des mises à jour paramétriques.
Les modèles de langage de grande taille pour la vidéo (VLLMs) démontrent une forte compréhension vidéo mais souffrent d'inefficacité due à la redondance des tokens visuels. Les méthodes d'élagage existantes ciblent principalement la redondance spatiale intra-image ou élaguent au sein du LLM avec une surcharge de couches superficielles, produisant une réduction spatiotemporelle sous-optimale et sous-utilisant la compressibilité des contextes longs. Elles écartent souvent des contextes subtils mais informatifs provenant de tokens fusionnés ou élagués. Dans cet article, nous proposons une nouvelle perspective qui élabore des Ancres de tokens intra-image et inter-images pour agréger de manière exhaustive les contextes informatifs via un Transport Optimal local-global (AOT). Concrètement, nous établissons d'abord des ancres de tokens conscientes du local et du global dans chaque image sous le guidage de l'attention, puis le transport optimal agrège les contextes informatiques des tokens élagués, construisant des ancres de tokens intra-image. Ensuite, sur la base de clips d'images temporels, la première image de chaque clip est considérée comme une ancre d'image clé pour assembler des informations similaires provenant d'images consécutives via le transport optimal, tout en conservant les tokens distincts pour représenter la dynamique temporelle, conduisant à une réduction efficace des tokens sans entraînement. Des évaluations approfondies montrent que notre méthode AOT obtient des performances compétitives sur divers benchmarks de vidéos courtes et longues avec les principaux VLLMs, atteignant une efficacité computationnelle substantielle tout en préservant la fidélité temporelle et visuelle. Page du projet : https://tyroneli.github.io/AOT{AOT}.
Nous présentons un framework open-source en C++ pour découvrir des schémas de multiplication matricielle rapide par l'approche du graphe de retournement. Le framework prend en charge plusieurs anneaux de coefficients — binaire (Z₂), ternaire modulaire (Z₃) et ternaire entier (Z_T = {-1,0,1}) — et implémente des opérateurs de recherche à dimension fixe et méta-dimensionnelle. Grâce à un codage efficace des vecteurs de coefficients au niveau bit et au parallélisme OpenMP, les outils permettent une exploration à grande échelle sur du matériel standard. L'étude couvre 680 schémas allant de (2×2×2) à (16×16×16), dont 276 utilisent désormais des coefficients Z_T et 117 des coefficients entiers. Avec ce framework, la complexité multiplicative (rang) est améliorée pour 79 schémas de multiplication matricielle. Notamment, un nouveau schéma 4×4×10 nécessitant seulement 115 multiplications est découvert, atteignant ω ≈ 2,80478 et surpassant l'exposant de Strassen pour cette taille spécifique. De plus, 93 schémas sont redécouverts en coefficients ternaires qui n'étaient auparavant connus que sur les rationnels ou les entiers, et 68 schémas en coefficients entiers qui nécessitaient auparavant des fractions. Tous les outils et schémas découverts sont mis à disposition publique pour permettre une recherche reproductible.
Le pré-entraînement multi-domaines sur graphes intègre des connaissances provenant de domaines variés pour améliorer les performances dans les domaines cibles, ce qui est crucial pour la construction de modèles de fondation sur les graphes. Malgré des succès initiaux, les solutions existantes échouent souvent à répondre à une question fondamentale : comment les connaissances sont-elles intégrées ou transférées entre les domaines ? Cette limitation théorique nous motive à repenser la cohérence et la transférabilité entre le pré-entraînement du modèle et l'adaptation au domaine. Dans cet article, nous proposons une nouvelle perspective basée sur la géométrie riemannienne, dont l'idée centrale est de fusionner tout ensemble de données de graphes en une variété riemannienne lisse et unifiée, permettant une compréhension systématique de l'intégration et du transfert des connaissances. Pour y parvenir, notre contribution principale est l'établissement théorique du collage de variétés neuronales, qui caractérise d'abord la géométrie locale à l'aide d'un repère orthogonal adaptatif, puis « colle » les morceaux locaux en un tout cohérent. Sur la base de cette théorie, nous présentons le framework GraphGlue, qui prend en charge un pré-entraînement par lots avec prototypage EMA et fournit une mesure de transférabilité basée sur la cohérence géométrique. Des expériences approfondies démontrent ses performances supérieures dans divers domaines de graphes. De plus, nous avons validé empiriquement la loi d'échelle géométrique de GraphGlue, montrant que des quantités plus importantes de données améliorent la transférabilité du modèle en produisant une variété plus lisse. Les codes sont disponibles à l'adresse https://github.com/RiemannGraph/GraphGlue.
Le lancer de rayons est devenu une méthode standard pour la modélisation précise de la propagation radio, mais il souffre d'une complexité computationnelle exponentielle, car le nombre de chemins candidats augmente avec le nombre d'objets élevé à la puissance de l'ordre d'interaction. Ce goulot d'étranglement limite son utilisation dans les applications à grande échelle ou en temps réel, forçant les outils traditionnels à recourir à des heuristiques pour réduire le nombre de chemins candidats au prix d'une précision potentiellement réduite. Pour surmonter cette limitation, nous proposons un cadre complet assisté par apprentissage automatique qui remplace la recherche exhaustive de chemins par un échantillonnage intelligent via des réseaux de flux génératifs. L'application de tels modèles génératifs à ce domaine présente des défis significatifs, notamment des récompenses éparses dues à la rareté des chemins valides, ce qui peut entraîner des échecs de convergence et des solutions triviales lors de l'évaluation d'interactions d'ordre élevé dans des environnements complexes. Pour assurer un apprentissage robuste et une exploration efficace, notre cadre intègre trois composants architecturaux clés. Premièrement, nous mettons en œuvre un tampon de rejeu d'expériences pour capturer et conserver les rares chemins valides. Deuxièmement, nous adoptons une politique d'exploration uniforme pour améliorer la généralisation et empêcher le surapprentissage du modèle sur des géométries simples. Troisièmement, nous appliquons une stratégie de masquage d'actions basée sur la physique qui filtre les chemins physiquement impossibles avant même que le modèle ne les considère. Comme le démontre notre validation expérimentale, le modèle proposé atteint des accélérations substantielles par rapport à la recherche exhaustive – jusqu'à 10 fois plus rapide sur GPU et 1000 fois plus rapide sur CPU – tout en maintenant une haute précision de couverture et en découvrant avec succès des chemins de propagation complexes. Le code source complet, les tests et le tutoriel sont disponibles à l'adresse https://github.com/jeertmans/sampling-paths.