papers.description
La génération moléculaire par modèles de diffusion est apparue comme une voie prometteuse pour la découverte de médicaments et la science des matériaux pilotées par l'IA. Bien que les modèles de diffusion sur graphes aient été largement adoptés en raison de la nature discrète des graphes moléculaires 2D, les modèles existants souffrent d'une faible validité chimique et peinent à satisfaire les propriétés souhaitées par rapport à la modélisation 1D. Dans ce travail, nous présentons MolHIT, un cadre puissant de génération de graphes moléculaires qui surmonte les limitations de performances persistantes des méthodes existantes. MolHIT repose sur le Modèle de Diffusion Discrète Hiérarchique, qui généralise la diffusion discrète à des catégories supplémentaires encodant des connaissances chimiques préalables, et sur un encodage découplé des atomes qui sépare les types atomiques selon leurs rôles chimiques. Globalement, MolHIT atteint une nouvelle performance de pointe sur le jeu de données MOSES avec une validité quasi parfaite pour la première fois en diffusion sur graphes, surpassant des références 1D solides sur plusieurs métriques. Nous démontrons en outre de solides performances dans des tâches en aval, incluant la génération guidée par propriétés multiples et l'extension d'échafaudages.
La modélisation des longues séquences de comportements utilisateurs est devenue une frontière critique dans la recommandation générative. Cependant, les solutions existantes font face à un dilemme : les mécanismes d'attention linéaire atteignent une efficacité au détriment de la précision du rappel en raison d'une capacité d'état limitée, tandis que l'attention softmax souffre de coûts computationnels prohibitifs. Pour relever ce défi, nous proposons HyTRec, un modèle doté d'une architecture d'Attention Hybride qui dissocie explicitement les préférences stables à long terme des pics d'intention à court terme. En affectant les séquences historiques massives à une branche d'attention linéaire et en réservant une branche d'attention softmax spécialisée pour les interactions récentes, notre approche restaure des capacités de rappel précises dans des contextes à l'échelle industrielle impliquant des dizaines de milliers d'interactions. Pour atténuer le décalage dans la capture des dérives d'intérêt rapides au sein des couches linéaires, nous concevons en outre un Réseau Delta Temporellement Conscient (TADN) pour revaloriser dynamiquement les signaux comportementaux récents tout en supprimant efficacement le bruit historique. Les résultats empiriques sur des jeux de données à l'échelle industrielle confirment la supériorité de notre modèle, qui maintient une vitesse d'inférence linéaire et surpasse les solides bases de référence, offrant notamment une amélioration de plus de 8% du Taux de Succès pour les utilisateurs aux séquences ultra-longues avec une grande efficacité.
SkyReels V4 est un modèle de fondation vidéo multimodal unifié pour la génération, l'inpainting et l'édition conjointes vidéo-audio. Le modèle adopte une architecture Dual Stream Multimodal Diffusion Transformer (MMDiT), où une branche synthétise la vidéo et l'autre génère l'audio temporellement aligné, tout en partageant un puissant encodeur de texte basé sur les Multimodal Large Language Models (MMLM). SkyReels V4 accepte des instructions multimodales riches, incluant du texte, des images, des extraits vidéo, des masques et des références audio. En combinant la capacité de suivi d'instructions multimodales des MMLM avec l'apprentissage en contexte dans la branche vidéo MMDiT, le modèle peut injecter un guidage visuel fin sous des conditionnements complexes, tandis que la branche audio MMDiT exploite simultanément les références audio pour guider la génération sonore. Côté vidéo, nous adoptons une formulation par concaténation de canaux qui unifie un large éventail de tâches de type inpainting, telles que l'image-à-vidéo, l'extension vidéo et l'édition vidéo sous une interface unique, et s'étend naturellement à l'inpainting et l'édition par référence visuelle via des prompts multimodaux. SkyReels V4 prend en charge des résolutions jusqu'à 1080p, 32 FPS et une durée de 15 secondes, permettant une génération vidéo haute fidélité, multi-plans, de niveau cinéma avec un audio synchronisé. Pour rendre une génération aussi haute résolution et longue durée réalisable sur le plan computationnel, nous introduisons une stratégie d'efficacité : génération conjointe de séquences complètes basse résolution et d'images clés haute résolution, suivie par des modèles dédiés de super-résolution et d'interpolation d'images. À notre connaissance, SkyReels V4 est le premier modèle de fondation vidéo qui prend simultanément en charge une entrée multimodale, la génération vidéo-audio conjointe, et un traitement unifié de la génération, de l'inpainting et de l'édition, tout en maintenant une forte efficacité et une haute qualité aux résolutions et durées cinématographiques.
Les progrès récents des modèles de fondation ont révolutionné la génération audio-vidéo conjointe. Cependant, les approches existantes traitent généralement les tâches centrées sur l'humain - incluant la génération audio-vidéo par référence (R2AV), l'édition vidéo (RV2AV) et l'animation vidéo pilotée par l'audio (RA2V) - comme des objectifs isolés. De plus, la réalisation d'un contrôle précis et désentrelacé de multiples identités de personnages et de timbres vocaux au sein d'un même cadre reste un défi non résolu. Dans cet article, nous proposons DreamID-Omni, un cadre unifié pour la génération audio-vidéo contrôlable centrée sur l'humain. Plus précisément, nous concevons un Transformeur de Diffusion Conditionnel Symétrique qui intègre des signaux de conditionnement hétérogènes via un schéma d'injection conditionnelle symétrique. Pour résoudre les échecs omniprésents de liaison identité-timbre et la confusion des locuteurs dans les scénarios multi-personnes, nous introduisons une stratégie de Désentrelacement Dual : le RoPE Synchronisé au niveau du signal pour garantir une liaison rigide dans l'espace d'attention, et les Captions Structurées au niveau sémantique pour établir des mappings explicites attribut-sujet. En outre, nous concevons un schéma d'Entraînement Progressif Multi-Tâches qui exploite des préalables génératifs faiblement contraints pour régulariser les tâches fortement contraintes, empêchant le surapprentissage et harmonisant des objectifs disparates. Des expériences approfondies démontrent que DreamID-Omni atteint des performances complètes de pointe à travers la cohérence vidéo, audio et audio-visuelle, surpassant même les principaux modèles commerciaux propriétaires. Nous publierons notre code pour combler le fossé entre la recherche académique et les applications de qualité commerciale.
L'apprentissage par renforcement agentique (ARL) a rapidement gagné en attention en tant que paradigme prometteur pour entraîner des agents à résoudre des tâches interactives complexes à multiples étapes. Malgré des résultats initiaux encourageants, l'ARL reste très instable, conduisant souvent à un effondrement de l'entraînement. Cette instabilité limite l'extensibilité à des environnements plus vastes et à des horizons d'interaction plus longs, et contraint l'exploration systématique des choix de conception algorithmique. Dans cet article, nous proposons d'abord ARLArena, une recette d'entraînement stable et un cadre d'analyse systématique qui examine la stabilité de l'entraînement dans un cadre contrôlé et reproductible. ARLArena construit d'abord un banc d'essai propre et standardisé. Ensuite, nous décomposons la politique de gradient en quatre dimensions de conception fondamentales et évaluons la performance et la stabilité de chaque dimension. Grâce à cette analyse fine, nous distillons une perspective unifiée sur l'ARL et proposons SAMPO, une méthode stable d'optimisation de politique agentique conçue pour atténuer les sources dominantes d'instabilité dans l'ARL. Empiriquement, SAMPO permet un entraînement constamment stable et de bonnes performances sur diverses tâches agentiques. Globalement, cette étude fournit une perspective unifiée de la politique de gradient pour l'ARL et offre des conseils pratiques pour construire des pipelines d'entraînement d'agents basés sur des LLM stables et reproductibles.
Les modèles existants de génération de vidéos conditionnées par des actions (modèles du monde vidéo) se limitent à des perspectives à agent unique, ne parvenant pas à capturer les interactions multi-agents des environnements réels. Nous présentons Solaris, un modèle du monde vidéo multijoueur qui simule des observations multi-vues cohérentes. Pour y parvenir, nous développons un système de données multijoueur conçu pour une collecte de données robuste, continue et automatisée sur des jeux vidéo tels que Minecraft. Contrairement aux plateformes antérieures conçues pour des environnements solo, notre système prend en charge l'interaction multi-agents coordonnée et la capture synchronisée de vidéos et d'actions. En utilisant ce système, nous collectons 12,64 millions d'images multijoueurs et proposons un cadre d'évaluation pour la cohérence des déplacements, de la mémoire, de l'ancrage, de la construction et des vues en mode multijoueur. Nous entraînons Solaris à l'aide d'un pipeline par étapes qui passe progressivement d'une modélisation solo à une modélisation multijoueur, en combinant un entraînement bidirectionnel, causal et par Auto-Forçage. Dans la phase finale, nous introduisons l'Auto-Forçage avec Points de Contrôle, une variante économe en mémoire de l'Auto-Forçage qui permet d'utiliser un enseignant à plus long terme. Les résultats montrent que notre architecture et notre conception de l'entraînement surpassent les modèles de référence existants. En ouvrant l'accès à notre système et à nos modèles, nous espérons jeter les bases d'une nouvelle génération de modèles du monde multi-agents.
Les performances de l'inférence multi-tours des LLMs agentiques sont de plus en plus dominées par les entrées/sorties de stockage du cache KV plutôt que par le calcul. Dans les architectures désagrégées prévalentes, le chargement du cache KV massif depuis le stockage externe crée un déséquilibre fondamental : les cartes réseau de stockage sur les moteurs de pré-remplissage deviennent saturées en bande passante, tandis que celles des moteurs de décodage restent inactives. Cette asymétrie limite sévèrement le débit global du système. Nous présentons DualPath, un système d'inférence qui brise ce goulot d'étranglement en introduisant un chargement dual du cache KV. Au-delà du chemin traditionnel stockage-vers-pré-remplissage, DualPath permet un nouveau chemin stockage-vers-décodage, dans lequel le cache KV est chargé dans les moteurs de décodage puis transféré efficacement vers les moteurs de pré-remplissage via RDMA sur le réseau de calcul. DualPath combine ce chemin de données optimisé – qui évite intrinsèquement la congestion réseau et n'interfère pas avec les communications critiques de latence de l'exécution du modèle – avec un ordonnanceur global qui équilibre dynamiquement la charge entre les moteurs de pré-remplissage et de décodage. Notre évaluation sur trois modèles avec des charges de travail agentiques de production démontre que DualPath améliore le débit d'inférence hors ligne jusqu'à 1,87 fois sur notre système d'inférence interne. Il peut également améliorer le débit de service en ligne d'un facteur moyen de 1,96 fois sans violer les SLO.
Les agents d'interface graphique (GUI) natifs open source accusent encore un retard par rapport aux systèmes propriétaires pour les tâches de navigation à long terme. Cet écart provient de deux limitations : un manque de données de raisonnement de haute qualité alignées sur les actions, et l'adoption directe de pipelines de post-formation génériques qui négligent les défis spécifiques aux agents GUI. Nous identifions deux problèmes fondamentaux dans ces pipelines : (i) la SFT standard avec raisonnement CoT nuit souvent à l'ancrage, et (ii) l'entraînement RLVR étape par étape se heurte à une vérifiabilité partielle, où plusieurs actions peuvent être correctes mais une seule action démontrée est utilisée pour la vérification. Cela rend les métriques étape par étape hors ligne de faibles prédicteurs de la réussite des tâches en ligne. Dans ce travail, nous présentons GUI-Libra, une méthode d'entraînement sur mesure qui relève ces défis. Premièrement, pour pallier la pénurie de données de raisonnement alignées sur les actions, nous introduisons un pipeline de construction et de filtrage de données et publions un jeu de données de raisonnement GUI curaté de 81 000 échantillons. Deuxièmement, pour concilier raisonnement et ancrage, nous proposons une SFT sensible aux actions qui mélange des données de type raisonnement-puis-action et action-directe et repondère les tokens pour accentuer l'action et l'ancrage. Troisièmement, pour stabiliser l'apprentissage par renforcement sous vérifiabilité partielle, nous identifions l'importance négligée de la régularisation KL dans le RLVR et montrons qu'une région de confiance KL est cruciale pour améliorer la prédictibilité hors ligne-vers-en ligne ; nous introduisons en outre une mise à l'échelle adaptative au succès pour atténuer les gradients négatifs peu fiables. Sur divers benchmarks web et mobiles, GUI-Libra améliore constamment à la fois la précision étape par étape et l'exécution de bout en bout des tâches. Nos résultats suggèrent qu'une post-formation et une curation des données soigneusement conçues peuvent débloquer des capacités de résolution de tâches bien plus fortes sans collecte de données en ligne coûteuse. Nous publions notre jeu de données, notre code et nos modèles pour faciliter les recherches futures sur la post-formation économe en données pour les agents GUI capables de raisonner.
Nous présentons le Sphere Encoder, un cadre génératif efficace capable de produire des images en une seule passe avant et rivalisant avec les modèles de diffusion à nombreuses étapes en utilisant moins de cinq étapes. Notre approche consiste à apprendre un encodeur qui projette uniformément les images naturelles dans un espace latent sphérique, et un décodeur qui reconvertit des vecteurs latents aléatoires vers l'espace image. Entraîné uniquement par des pertes de reconstruction d'image, le modèle génère une image en décodant simplement un point aléatoire sur la sphère. Notre architecture prend naturellement en charge la génération conditionnelle, et le bouclage de l'encodeur/décodeur quelques fois peut encore améliorer la qualité de l'image. Sur plusieurs jeux de données, l'approche par encodeur sphérique offre des performances compétitives avec l'état de l'art des diffusions, mais avec une fraction du coût d'inférence. La page du projet est disponible à l'adresse https://sphere-encoder.github.io.
L'AIGC s'est rapidement développé, passant de la génération texte-image à la synthèse multimodale de haute qualité incluant la vidéo et l'audio. Dans ce contexte, la génération conjointe audio-vidéo (JAVG) est apparue comme une tâche fondamentale visant à produire des contenus sonores et visuels synchronisés et sémantiquement alignés à partir de descriptions textuelles. Cependant, comparées aux modèles commerciaux avancés tels que Veo3, les méthodes open-source existantes présentent encore des limitations en termes de qualité de génération, de synchronisation temporelle et d'alignement avec les préférences humaines. Pour combler cet écart, cet article présente JavisDiT++, un cadre concis mais puissant pour la modélisation et l'optimisation unifiées de la JAVG. Premièrement, nous introduisons une architecture à mixture d'experts modale (MS-MoE) qui permet une interaction cross-modale efficace tout en améliorant la qualité de génération unimodale. Ensuite, nous proposons une stratégie RoPE à alignement temporel (TA-RoPE) pour atteindre une synchronisation explicite au niveau des frames entre les tokens audio et vidéo. Par ailleurs, nous développons une méthode d'optimisation directe des préférences audio-vidéo (AV-DPO) pour aligner les sorties du modèle avec les préférences humaines selon les dimensions qualité, cohérence et synchronisation. Construit sur Wan2.1-1.3B-T2V, notre modèle atteint des performances state-of-the-art avec seulement environ 1 million d'entrées d'entraînement publiques, surpassant significativement les approches antérieures dans les évaluations qualitatives et quantitatives. Des études d'ablation complètes ont été menées pour valider l'efficacité de nos modules proposés. L'ensemble du code, du modèle et du jeu de données est disponible à l'adresse https://JavisVerse.github.io/JavisDiT2-page.
Les glyphes vectoriels sont les unités atomiques de la typographie numérique, pourtant la plupart des pipelines d'apprentissage automatique dépendent toujours de planches d'exemplaires soigneusement sélectionnées et d'un post-traitement raster-vecteur, ce qui limite l'accessibilité et l'éditabilité. Nous présentons VecGlypher, un modèle de langage multimodal unique qui génère des glyphes vectoriels de haute fidélité directement à partir de descriptions textuelles ou d'exemplaires images. Étant donné un prompt de style, des images de glyphes de référence optionnelles et un caractère cible, VecGlypher émet de manière autorégressive des tokens de chemins SVG, évitant les intermédiaires raster et produisant en une seule passe des contours étanches et éditables. Une approche de données et d'entraînement consciente de la typographie rend cela possible : (i) une étape de continuation à grande échelle sur 39 000 polices Envato bruitées pour maîtriser la syntaxe SVG et la géométrie à long terme, suivie de (ii) un post-entraînement sur 2 500 Google Fonts annotées par des experts avec des étiquettes descriptives et des exemplaires pour aligner le langage et l'imagerie avec la géométrie ; le prétraitement normalise les repères de coordonnées, canonicalise les chemins, déduplique les familles et quantifie les coordonnées pour un décodage stable de longues séquences. Lors de l'évaluation hors distribution (OOD) inter-familles, VecGlypher surpasse substantiellement à la fois les LLM généralistes et les modèles de référence spécialisés dans la génération de polices vectorielles pour la génération basée uniquement sur le texte, tandis que la génération par référence image atteint des performances à l'état de l'art, avec des gains marqués par rapport à DeepVecFont-v2 et DualVector. Les études d'ablation montrent que l'échelle du modèle et la recette en deux étapes sont critiques et que la sérialisation en coordonnées absolues produit la meilleure géométrie. VecGlypher abaisse la barrière de la création de polices en permettant aux utilisateurs de concevoir avec des mots ou des exemplaires, et fournit une base évolutive pour les futurs outils de conception multimodale.
L'exploitation de la modélisation d'observations futures pour faciliter la génération d'actions représente une voie prometteuse pour améliorer les capacités des modèles Vision-Langage-Action (VLA). Cependant, les approches existantes peinent à trouver un équilibre entre le maintien de représentations futures efficaces et prévisibles et la préservation d'informations suffisamment fines pour guider une génération d'actions précise. Pour remédier à cette limitation, nous proposons WoG (World Guidance), un cadre qui cartographie les observations futures en conditions compactes en les injectant dans le pipeline d'inférence d'actions. Le modèle VLA est ensuite entraîné à prédire simultanément ces conditions compressées ainsi que les actions futures, réalisant ainsi une modélisation effective du monde dans l'espace de conditions pour l'inférence d'actions. Nous démontrons que la modélisation et la prédiction de cet espace de conditions facilitent non seulement la génération d'actions granulaires, mais présentent également des capacités de généralisation supérieures. De plus, notre méthode apprend efficacement à partir de vidéos substantielles de manipulations humaines. Des expériences approfondies, tant en simulation que dans des environnements réels, valident que notre méthode surpasse significativement les méthodes existantes basées sur la prédiction future. La page du projet est disponible à l'adresse : https://selen-suyue.github.io/WoGNet/
L'édition d'images basée sur des instructions a obtenu un succès remarquable en termes d'alignement sémantique. Cependant, les modèles les plus avancés échouent souvent à produire des résultats physiquement plausibles lorsque l'édition implique des dynamiques causales complexes, telles que la réfraction ou la déformation des matériaux. Nous attribuons cette limitation au paradigme dominant qui traite l'édition comme une correspondance discrète entre des paires d'images, ce qui ne fournit que des conditions aux limites et laisse la dynamique de transition sous-spécifiée. Pour y remédier, nous reformulons l'édition prenant en compte la physique comme des transitions prédictives d'états physiques et introduisons PhysicTran38K, un jeu de données vidéo à grande échelle comprenant 38 000 trajectoires de transition couvrant cinq domaines physiques, construit via un pipeline d'annotation en deux étapes avec filtrage et prise en compte des contraintes. S'appuyant sur cette supervision, nous proposons PhysicEdit, un cadre de bout en bout équipé d'un mécanisme de double réflexion textuel-visuel. Il combine un modèle Qwen2.5-VL figé pour le raisonnement physiquement fondé avec des requêtes de transition apprenables qui fournissent un guidage visuel adaptatif aux pas de temps à un modèle de diffusion principal. Les expériences montrent que PhysicEdit améliore Qwen-Image-Edit de 5,9 % en réalisme physique et de 10,1 % en édition fondée sur les connaissances, établissant un nouvel état de l'art pour les méthodes open source, tout en restant compétitif avec les principaux modèles propriétaires.
Le diagnostic du carcinome hépatocellulaire repose largement sur l'interprétation d'images gigapixels de lames histologiques complètes. Cependant, les approches computationnelles actuelles sont limitées par des mécanismes de traitement à résolution fixe et une agrégation inefficace des caractéristiques, ce qui entraîne inévitablement soit une perte sévère d'information, soit une redondance élevée des features. Pour relever ces défis, nous proposons Hepato-LLaVA, un modèle de langage élargi multimodal spécialisé conçu pour l'analyse fine de la pathologie hépatocellulaire. Nous introduisons un nouveau mécanisme d'attention Sparse Topo-Pack qui modélise explicitement la topologie tissulaire en 2D. Ce mécanisme agrège efficacement les preuves diagnostiques locales en tokens de résumé sémantique tout en préservant le contexte global. Par ailleurs, pour pallier le manque de données multi-échelles, nous présentons HepatoPathoVQA, un jeu de données cliniquement fondé comprenant 33 000 paires question-réponse structurées hiérarchiquement et validées par des anatomopathologistes experts. Nos expériences démontrent qu'Hepato-LLaVA atteint des performances de pointe dans les tâches de diagnostic et de description du CHC, surpassant significativement les méthodes existantes. Notre code et les détails de mise en œuvre sont disponibles à l'adresse https://pris-cv.github.io/Hepto-LLaVA/.
Comment les grands modèles de langage (LLM) savent-ils ce qu'ils savent ? Répondre à cette question s'est avéré difficile car les données de pré-entraînement constituent souvent une "boîte noire" – inconnues ou inaccessibles. La récente publication de nanochat – une famille de petits LLM dont les données de pré-entraînement sont entièrement ouvertes – résout ce problème en offrant une vision transparente de l'origine des connaissances paramétriques d'un modèle. Dans l'objectif de comprendre comment les connaissances sont encodées par les LLM, nous publions NanoKnow, un jeu de données de référence qui répartit les questions de Natural Questions et de SQuAD en sous-ensembles selon que leurs réponses sont présentes ou non dans le corpus de pré-entraînement de nanochat. En utilisant ces sous-ensembles, nous pouvons désormais démêler correctement les sources de connaissances sur lesquelles les LLM s'appuient pour produire une réponse. Pour démontrer l'utilité de NanoKnow, nous menons des expériences utilisant huit points de contrôle de nanochat. Nos résultats montrent que : (1) la précision en mode "livre fermé" est fortement influencée par la fréquence des réponses dans les données de pré-entraînement, (2) fournir des preuves externes peut atténuer cette dépendance à la fréquence, (3) même avec des preuves externes, les modèles sont plus précis lorsque les réponses ont été vues pendant le pré-entraînement, démontrant que les connaissances paramétriques et externes sont complémentaires, et (4) les informations non pertinentes sont nuisibles, la précision diminuant en fonction à la fois de la position et du nombre de contextes non pertinents. Nous publions tous les artefacts de NanoKnow sur https://github.com/castorini/NanoKnow.
Les modèles de diffusion constituent une architecture robuste pour la génération visuelle, mais leur processus de débruîtage séquentiel inhérent entraîne une inférence lente. Les méthodes antérieures accélèrent l'échantillonnage en mettant en cache et en réutilisant les résultats intermédiaires basés sur les distances caractéristiques entre les pas de temps adjacents. Cependant, les stratégies de mise en cache existantes reposent généralement sur des différences brutes de caractéristiques qui entremêlent le contenu et le bruit. Cette conception néglige l'évolution spectrale, où la structure basse fréquence apparaît précocement et les détails haute fréquence sont affinés ultérieurement. Nous présentons Spectral-Evolution-Aware Cache (SeaCache), un plan de cache sans apprentissage qui fonde les décisions de réutilisation sur une représentation alignée spectralement. Par une analyse théorique et empirique, nous dérivons un filtre Spectral-Evolution-Aware (SEA) qui préserve les composantes pertinentes au contenu tout en supprimant le bruit. L'utilisation des caractéristiques d'entrée filtrées par SEA pour estimer la redondance conduit à des plans dynamiques qui s'adaptent au contenu tout en respectant les prérequis spectraux sous-jacents au modèle de diffusion. Des expériences approfondies sur divers modèles génératifs visuels et les lignes de base montrent que SeaCache atteint des compromis latence-qualité à la pointe de l'état de l'art.
Les méthodes récentes de Dropout par Gaussian Splatting 3D (3DGS) traitent le surapprentissage dans des conditions de vue éparse en annulant aléatoirement les opacités des Gaussiennes. Cependant, nous identifions un effet de compensation voisine dans ces approches : les Gaussiennes supprimées sont souvent compensées par leurs voisines, affaiblissant la régularisation souhaitée. De plus, ces méthodes négligent la contribution des coefficients d'harmoniques sphériques (SH) de haut degré au surapprentissage. Pour résoudre ces problèmes, nous proposons DropAnSH-GS, une nouvelle stratégie de Dropout basée sur des points d'ancrage. Plutôt que de supprimer des Gaussiennes indépendamment, notre méthode sélectionne aléatoirement certaines Gaussiennes comme points d'ancrage et supprime simultanément leurs voisines spatiales. Cela perturbe efficacement les redondances locales près des points d'ancrage et encourage le modèle à apprendre des représentations plus robustes et globalement informées. Par ailleurs, nous étendons le Dropout aux attributs de couleur en supprimant aléatoirement les SH de degré supérieur pour concentrer l'information d'apparence dans les SH de degré inférieur. Cette stratégie atténue davantage le surapprentissage et permet une compression flexible du modèle après entraînement via la troncation des SH. Les résultats expérimentaux démontrent que DropAnSH-GS surpasse substantiellement les méthodes de Dropout existantes avec une surcharge computationnelle négligeable, et peut être facilement intégré dans diverses variantes de 3DGS pour améliorer leurs performances. Site web du projet : https://sk-fun.fun/DropAnSH-GS
Les modèles de diffusion discrets sont apparus comme de solides alternatives aux modèles de langage autogressifs, des travaux récents ayant initialisé et affiné un modèle unimodal de base pour une génération bimodale. Nous nous écartons des approches antérieures en introduisant le premier modèle de diffusion masquée trimodal pré-entraîné dès le départ sur des données texte, image-texte et audio-texte. Nous analysons systématiquement les lois d'échelle multimodales, les ratios de mélange de modalités, les planifications de bruit et les effets de la taille des lots, et nous fournissons des paramètres par défaut optimisés pour l'inférence. Notre analyse de la taille des lots produit une reparamétrisation novatrice basée sur une équation différentielle stochastique (EDS) qui élimine le besoin de régler la taille optimale du lot comme rapporté dans des travaux récents. Cette reparamétrisation découple la taille physique du lot, souvent choisie en fonction des contraintes de calcul (saturation des GPU, efficacité des FLOP, temps réel), de la taille logique du lot, choisie pour équilibrer la variance du gradient lors de l'optimisation stochastique. Enfin, nous pré-entraînons un modèle trimodal préliminaire de 3 milliards de paramètres sur 6,4 billions de tokens, démontrant les capacités d'une conception unifiée et obtenant des résultats solides en génération de texte, en tâches texte-à-image et en tâches texte-à-parole. Notre travail représente l'étude ouverte systématique la plus vaste à ce jour sur les modèles de diffusion discrets multimodaux, fournissant des insights sur les comportements d'échelle à travers de multiples modalités.
La recherche approfondie est devenue une tâche importante visant à traiter des requêtes complexes par une exploration extensive du web ouvert. Pour y parvenir, la plupart des travaux antérieurs équipent des agents basés sur des grands modèles de langage (LLM) avec des API opaques de recherche web, permettant aux agents d'émettre itérativement des requêtes de recherche, de récupérer des preuves externes et de raisonner sur celles-ci. Bien que la recherche soit essentielle dans ce cadre, les API de recherche web en boîte noire entravent l'analyse systématique des composants de recherche, laissant le comportement des méthodes établies de classement de texte largement obscur. Pour combler cette lacune, nous reproduisons une sélection de résultats clés et de bonnes pratiques pour les méthodes de classement de texte en RI dans le contexte de la recherche approfondie. Nous examinons particulièrement leur efficacité sous trois angles : (i) les unités de récupération (documents vs passages), (ii) les configurations de pipeline (différents récupérateurs, re-classeurs et profondeurs de re-classement), et (iii) les caractéristiques des requêtes (l'écart entre les requêtes émises par les agents et les requêtes d'entraînement des classeurs de texte). Nous menons des expériences sur BrowseComp-Plus, un jeu de données de recherche approfondie avec un corpus fixe, en évaluant 2 agents open-source, 5 récupérateurs et 3 re-classeurs dans diverses configurations. Nous constatons que les requêtes émises par les agents suivent généralement une syntaxe de type recherche web (p. ex., correspondances exactes entre guillemets), favorisant les récupérateurs lexicaux, à apprentissage sparse et multi-vecteurs ; les unités au niveau des passages sont plus efficaces sous des fenêtres de contexte limitées et évitent les difficultés de normalisation de la longueur des documents dans la récupération lexicale ; le re-classement est très efficace ; la traduction des requêtes des agents en questions en langage naturel réduit significativement l'écart entre les requêtes.
Le protocole de contexte de modèle (MCP) introduit une spécification standard qui définit comment les agents basés sur des modèles de fondation (FM) doivent interagir avec des systèmes externes en invoquant des outils. Cependant, pour comprendre l'objectif et les fonctionnalités d'un outil, les FM s'appuient sur des descriptions en langage naturel, ce qui rend ces descriptions essentielles pour guider les FM à sélectionner l'outil optimal pour une (sous-)tâche donnée et à transmettre les bons arguments à l'outil. Bien que des défauts ou des anomalies dans ces descriptions puissent induire en erreur les agents basés sur des FM, leur prévalence et leurs conséquences dans l'écosystème MCP restent floues. Par conséquent, nous examinons empiriquement 856 outils répartis sur 103 serveurs MCP, évaluons la qualité de leurs descriptions et leur impact sur les performances des agents. Nous identifions six composants des descriptions d'outils à partir de la littérature, développons une grille d'évaluation utilisant ces composants, puis formalisons des anomalies de description d'outils basées sur cette grille. En opérationnalisant cette grille via un scanner basé sur un FM, nous constatons que 97,1 % des descriptions d'outils analysées contiennent au moins une anomalie, 56 % d'entre elles ne parvenant pas à énoncer clairement leur objectif. Bien que l'augmentation de ces descriptions pour tous les composants améliore les taux de réussite des tâches d'une médiane de 5,85 points de pourcentage et améliore l'achèvement partiel des objectifs de 15,12 %, elle augmente également le nombre d'étapes d'exécution de 67,46 % et dégrade les performances dans 16,67 % des cas. Ces résultats indiquent qu'obtenir des gains de performance n'est pas simple ; si le coût d'exécution peut constituer un compromis, le contexte d'exécution peut également avoir un impact. De plus, des ablations de composants montrent que des variantes compactes de différentes combinaisons de composants préservent souvent la fiabilité comportementale tout en réduisant la surcharge inutile de tokens, permettant une utilisation plus efficace de la fenêtre de contexte du FM et des coûts d'exécution réduits.
Les modèles vidéo fondamentaux visent à intégrer la compréhension, la génération, l'édition vidéo et le suivi d'instructions dans un cadre unique, ce qui en fait une orientation centrale pour les systèmes multimodaux de nouvelle génération. Cependant, les benchmarks d'évaluation existants restent fragmentés et limités en portée, car chacun cible une tâche unique, repose sur des métriques spécifiques et utilise généralement des clips vidéo courts ou simples. Par conséquent, ils ne capturent pas les capacités unifiées que ces modèles sont conçus pour offrir. Pour combler cette lacune, nous présentons UniVBench, un benchmark spécialement conçu pour évaluer les modèles vidéo fondamentaux selon quatre capacités principales : la compréhension vidéo, la génération vidéo, l'édition vidéo et une nouvelle tâche proposée, la reconstruction vidéo, qui évalue la fidélité avec laquelle un modèle peut reproduire le contenu vidéo qu'il a rencontré. Notre benchmark étend considérablement la complexité de l'évaluation en incorporant 200 vidéos de haute qualité, diversifiées et multi-plans, chacune étant associée à des descriptions détaillées, des instructions d'édition multi-formats et des images de référence. Toutes les vidéos sont créées par des humains et soigneusement validées, offrant des informations cinématographiques plus riches que les benchmarks antérieurs. De plus, nous développons un système d'évaluation agentique unifié (UniV-Eval) qui standardise le promptage, l'analyse des instructions et la notation pour toutes les tâches, permettant des comparaisons équitables, évolutives et reproductibles des modèles vidéo unifiés. En ancrant l'évaluation dans des tâches vidéo multi-plans basées sur des instructions, UniVBench fournit le premier cadre pour mesurer les capacités intégrées que les modèles vidéo fondamentaux visent à atteindre. Des annotations humaines approfondies garantissent que notre évaluation s'aligne sur le jugement humain, permettant une évaluation rigoureuse et accélérant les progrès vers une intelligence vidéo robuste.
Nous évaluons systématiquement la qualité des ensembles de données de sécurité IA largement utilisés sous deux angles : de manière isolée et en pratique. De manière isolée, nous examinons dans quelle mesure ces ensembles de données reflètent les attaques adverses réelles en nous basant sur trois propriétés clés : être motivées par une intention cachée, être bien conçues et être hors distribution. Nous constatons que ces ensembles de données s'appuient excessivement sur des « indices déclencheurs » : des mots ou expressions à connotation négative/sensible explicite destinés à activer explicitement les mécanismes de sécurité, ce qui est irréaliste par rapport aux attaques du monde réel. En pratique, nous évaluons si ces ensembles de données mesurent véritablement les risques de sécurité ou provoquent simplement des refus via ces indices déclencheurs. Pour explorer cela, nous introduisons le « blanchiment d'intention » : une procédure qui abstrait les indices déclencheurs des attaques adverses (points de données) tout en préservant strictement leur intention malveillante et tous les détails pertinents. Nos résultats indiquent que les ensembles de données actuels de sécurité IA ne représentent pas fidèlement le comportement adverse réel en raison de leur dépendance excessive aux indices déclencheurs. Une fois ces indices supprimés, tous les modèles précédemment évalués comme « raisonnablement sûrs » deviennent non sûrs, y compris Gemini 3 Pro et Claude Sonnet 3.7. De plus, lorsque le blanchiment d'intention est adapté comme technique de contournement, il obtient systématiquement des taux de réussite d'attaque élevés, allant de 90 % à plus de 98 %, dans un contexte d'accès totalement boîte noire. Globalement, nos résultats révèlent un décalage important entre la manière dont la sécurité des modèles est évaluée par les ensembles de données existants et le comportement des adversaires réels.
L'hallucination d'objets est un problème critique dans les grands modèles vision-langage (LVLM), où les sorties incluent des objets qui n'apparaissent pas dans l'image d'entrée. Une question naturelle découle de ce phénomène : quel composant du pipeline des LVLM contribue principalement aux hallucinations d'objets ? L'encodeur visuel pour percevoir l'information visuelle, ou le décodeur linguistique pour générer les réponses textuelles ? Dans ce travail, nous nous efforçons de répondre à cette question en concevant une expérience systématique pour analyser les rôles de l'encodeur visuel et du décodeur linguistique dans la génération des hallucinations. Nos observations révèlent que les hallucinations d'objets sont principalement associées aux fortes préconceptions du décodeur linguistique. Sur la base de cette découverte, nous proposons un cadre simple et sans apprentissage, le décodage sans hallucination linguistique (NoLan), qui affine la distribution de sortie en supprimant dynamiquement les préconceptions linguistiques, modulée en fonction de la différence de distribution de sortie entre les entrées multimodales et textuelles uniquement. Les résultats expérimentaux démontrent que NoLan réduit efficacement les hallucinations d'objets dans divers LVLM sur différentes tâches. Par exemple, NoLan réalise des améliorations substantielles sur POPE, augmentant la précision de LLaVA-1.5 7B et Qwen-VL 7B jusqu'à 6,45 et 7,21 respectivement. Le code est disponible publiquement à l'adresse : https://github.com/lingfengren/NoLan.
Les modèles de langage multimodaux audio-visuels (AV-LLM) actuels se limitent principalement à la perception 2D, reposant sur des vidéos RVB et de l'audio monophonique. Ce choix de conception introduit une inadéquation dimensionnelle fondamentale qui empêche la localisation fiable des sources et le raisonnement spatial dans des environnements 3D complexes. Nous abordons cette limitation en présentant JAEGER, un cadre qui étend les AV-LLM à l'espace 3D pour permettre un ancrage spatial et un raisonnement conjoints grâce à l'intégration d'observations RGB-D et d'ambisonies multicanal de premier ordre. Une contribution essentielle de notre travail est le vecteur d'intensité neuronale (Neural IV), une représentation audio spatiale apprise qui encode des indices directionnels robustes pour améliorer l'estimation de la direction d'arrivée, même dans des scénarios acoustiques défavorables avec des sources qui se chevauchent. Pour faciliter l'entraînement à grande échelle et l'évaluation systématique, nous proposons SpatialSceneQA, un benchmark de 61 000 échantillons d'ajustement par instruction provenant d'environnements physiques simulés. Des expériences approfondies démontrent que notre approche surpasse constamment les méthodes de référence centrées sur la 2D dans diverses tâches de perception et de raisonnement spatial, soulignant la nécessité d'une modélisation 3D explicite pour faire progresser l'IA dans les environnements physiques. Notre code source, nos points de contrôle de modèles pré-entraînés et nos jeux de données seront publiés après acceptation.
L'analyse de séries temporelles non stationnaires nécessite une compréhension de leurs motifs locaux et globaux avec une interprétabilité physique. Cependant, les algorithmes de lissage traditionnels, tels que les B-splines, le filtrage de Savitzky-Golay et la décomposition empirique en modes (EMD), sont incapables de réaliser une optimisation paramétrique avec continuité garantie. Dans cet article, nous proposons la Décomposition Continue Fonctionnelle (FCD), un framework accéléré par JAX qui effectue une optimisation paramétrique continue sur un large éventail de fonctions mathématiques. En utilisant l'optimisation de Levenberg-Marquardt pour atteindre un ajustement continu jusqu'à C^1, FCD transforme les données brutes de séries temporelles en M modes qui capturent différentes tendances temporelles, des motifs à court terme aux tendances à long terme. Les applications de FCD incluent la physique, la médecine, l'analyse financière et l'apprentissage automatique, où elle est couramment utilisée pour l'analyse des motifs temporels des signaux, des paramètres optimisés, ainsi que des dérivées et intégrales de la décomposition. De plus, FCD peut être appliquée pour l'analyse physique et l'extraction de caractéristiques avec une erreur quadratique moyenne relative standard (SRMSE) moyenne de 0,735 par segment et une vitesse de 0,47s pour la décomposition complète de 1 000 points. Enfin, nous démontrons qu'un réseau de neurones convolutif (CNN) enrichi avec les caractéristiques FCD, telles que les valeurs de fonction optimisées, les paramètres et les dérivées, a atteint une convergence 16,8 % plus rapide et une précision 2,5 % supérieure à celle d'un CNN standard.
L'extraction d'informations cliniques à partir de transcriptions médicales dans des langues peu dotées reste un défi majeur pour le traitement du langage naturel (TLP) en santé. Cette étude évalue une pipeline en deux étapes combinant Aya-expanse-8B comme modèle de traduction persan-anglais avec cinq petits modèles de langage (SLM) open-source — Qwen2.5-7B-Instruct, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Qwen2.5-1.5B-Instruct et Gemma-3-1B-it — pour l'extraction binaire de 13 caractéristiques cliniques à partir de 1 221 transcriptions persanes anonymisées collectées dans un centre d'appels en soins palliatifs oncologiques. En utilisant une stratégie d'« amorçage » par quelques exemples sans affinage, les modèles ont été évalués sur le score F1 macro-moyenné, le coefficient de corrélation de Matthews (MCC), la sensibilité et la spécificité pour tenir compte du déséquilibre des classes. Qwen2.5-7B-Instruct a obtenu les performances globales les plus élevées (F1 macro médian : 0,899 ; MCC : 0,797), tandis que Gemma-3-1B-it a montré les résultats les plus faibles. Les modèles plus grands (7B–8B paramètres) ont systématiquement surpassé leurs homologues plus petits en sensibilité et en MCC. Une analyse bilingue d'Aya-expanse-8B a révélé que la traduction des transcriptions persanes vers l'anglais améliorait la sensibilité, réduisait les sorties manquantes et augmentait les métriques robustes au déséquilibre des classes, bien qu'au prix d'une légère baisse de spécificité et de précision. Les résultats au niveau des caractéristiques ont montré une extraction fiable des symptômes physiologiques pour la plupart des modèles, tandis que les plaintes psychologiques, les demandes administratives et les caractéristiques somatiques complexes restaient difficiles. Ces résultats établissent une feuille de route pratique et respectueuse de la vie privée pour le déploiement de SLM open-source dans des contextes cliniques multilingues de TLP avec des infrastructures et des ressources d'annotation limitées, et soulignent l'importance d'optimiser conjointement l'échelle du modèle et la stratégie de langue d'entrée pour les applications de santé sensibles.
Les grands modèles de langage (LLM) ont été décrits comme encodant linéairement la véracité, mais des travaux récents remettent en cause la généralité de cette observation. Nous concilions ces points de vue avec l'hypothèse du spectre de véracité : l'espace représentationnel contient des directions allant de domaines généraux à des domaines étroitement spécifiques. Pour tester cette hypothèse, nous évaluons systématiquement la généralisation des sondes linéaires à travers cinq types de vérité (définitionnelle, empirique, logique, fictionnelle et éthique), le mensonge sycophantique et inversé par attente, ainsi que les benchmarks existants sur l'honnêteté. Les sondes linéaires généralisent bien dans la plupart des domaines mais échouent sur les mensonges sycophantiques et inversés par attente. Pourtant, un entraînement conjoint sur tous les domaines permet de retrouver de fortes performances, confirmant l'existence de directions générales malgré un faible transfert pair à pair. La géométrie des directions des sondes explique ces motifs : la similarité cosinus de Mahalanobis entre les sondes prédit quasi parfaitement la généralisation inter-domaines (R²=0,98). Les méthodes d'effacement conceptuel isolent davantage des directions de vérité qui sont (1) générales, (2) spécifiques à un domaine, ou (3) partagées uniquement par des sous-ensembles de domaines particuliers. Des interventions causales révèlent que les directions spécifiques sont plus efficaces pour orienter le modèle que les directions générales. Enfin, le post-entraînement remodelle la géométrie de la vérité, éloignant le mensonge sycophantique des autres types de vérité, suggérant une base représentationnelle aux tendances sycophantiques des modèles de chat. Ensemble, nos résultats soutiennent l'hypothèse du spectre de véracité : des directions de vérité de généralité variable coexistent dans l'espace représentationnel, le post-entraînement remodelant leur géométrie. Le code pour toutes les expériences est disponible sur https://github.com/zfying/truth_spec.
Nous présentons ISO-Bench, un benchmark conçu pour évaluer les capacités des agents de programmation sur des tâches réelles d'optimisation d'inférence. Ces tâches sont issues de vLLM et SGLang, deux des frameworks de service LLM les plus populaires. Chaque tâche fournit à un agent une base de code et une description d'un goulot d'étranglement, l'agent devant produire un correctif d'optimisation évalué par rapport à des solutions humaines expertes. Nous avons sélectionné 54 tâches à partir de demandes de fusion validées présentant des améliorations de performances mesurables. Alors que les benchmarks existants utilisent abondamment des métriques basées sur le temps d'exécution, ces approches peuvent être contournées pour réussir les tests sans capturer l'intention réelle des modifications de code. Par conséquent, nous combinons des métriques dures (basées sur l'exécution) et douces (basées sur les LLM) pour montrer que les deux sont nécessaires à une évaluation complète. En évaluant à la fois des agents de programmation propriétaires et open-source, nous constatons qu'aucun agent unique ne domine l'ensemble des bases de code. Étonnamment, les agents identifient souvent les bons goulots d'étranglement mais échouent à exécuter des solutions fonctionnelles. Nous montrons également que des agents partageant des modèles sous-jacents identiques diffèrent substantiellement, suggérant que l'échafaudage est aussi important que le modèle lui-même.
Nous visons à apprendre une représentation conjointe entre les signaux d'unités de mesure inertielle (IMU) et les séquences de poses 2D extraites de vidéos, permettant une recherche croisée multimodale précise, une synchronisation temporelle, une localisation du sujet et des parties du corps, ainsi qu'une reconnaissance d'actions. Pour cela, nous présentons MoBind, un cadre d'apprentissage hiérarchique par contraste conçu pour relever trois défis : (1) filtrer l'arrière-plan visuel non pertinent, (2) modéliser des configurations structurées d'IMU multi-capteurs, et (3) atteindre un alignement temporel fin à l'échelle inférieure à la seconde. Pour isoler les indices pertinents au mouvement, MoBind aligne les signaux IMU avec des séquences de mouvements squelettiques plutôt qu'avec des pixels bruts. Nous décomposons en outre le mouvement corporel complet en trajectoires locales des parties du corps, en associant chacune à son IMU correspondante pour permettre un alignement multi-capteurs sémantiquement fondé. Pour capturer la correspondance temporelle détaillée, MoBind emploie une stratégie hiérarchique par contraste qui aligne d'abord les segments temporels au niveau des tokens, puis fusionne l'alignement local (parties du corps) avec une agrégation globale du mouvement (corps entier). Évalué sur mRi, TotalCapture et EgoHumans, MoBind surpasse constamment des bases de référence solides dans les quatre tâches, démontrant un alignement temporel fin robuste tout en préservant une cohérence sémantique grossière entre les modalités. Le code est disponible à l'adresse https://github.com/bbvisual/MoBind.
Les modèles de diffusion ont récemment émergé comme des a priori puissants pour résoudre les problèmes inverses. Bien que la tomographie computérisée (CT) soit théoriquement un problème inverse linéaire, elle présente de nombreux défis pratiques. Ceux-ci incluent un bruit corrélé, des structures d'artefacts, une dépendance à la géométrie du système et des plages de valeurs désalignées, ce qui rend l'application directe des modèles de diffusion plus difficile que dans des domaines comme la génération d'images naturelles. Pour évaluer systématiquement les performances des modèles de diffusion dans ce contexte et les comparer aux méthodes de reconstruction établies, nous introduisons DM4CT, un benchmark complet pour la reconstruction CT. DM4CT inclut des jeux de données provenant des domaines médical et industriel avec des configurations sparse-view et bruitées. Pour explorer les défis du déploiement pratique des modèles de diffusion, nous acquérons également un jeu de données CT haute résolution dans un synchrotron à haute énergie et évaluons toutes les méthodes dans des conditions expérimentales réelles. Nous comparons dix méthodes récentes basées sur la diffusion à sept méthodes de référence solides, incluant des approches basées sur des modèles, non supervisées et supervisées. Notre analyse fournit des insights détaillés sur le comportement, les forces et les limites des modèles de diffusion pour la reconstruction CT. Le jeu de données réel est disponible publiquement sur zenodo.org/records/15420527, et le code source est ouvert sur github.com/DM4CT/DM4CT.
La détection du sarcasme représente un défi fondamental en sémantique computationnelle, nécessitant que les modèles résolvent les disparités entre le sens littéral et l'intention. Ce défi est amplifié dans les langues peu dotées où les jeux de données annotés sont rares ou inexistants. Nous présentons Yor-Sarc, le premier jeu de données de référence pour la détection du sarcasme en yorùbá, une langue tonale nigéro-congolaise parlée par plus de 50 millions de personnes. Le jeu de données comprend 436 instances annotées par trois locuteurs natifs de divers horizons dialectaux, en utilisant un protocole d'annotation spécifiquement conçu pour le sarcasme en yorùbá en prenant en compte la culture. Ce protocole intègre une interpretation sensible au contexte et des lignes directrices éclairées par la communauté, et est accompagné d'une analyse complète de l'accord inter-annotateurs pour soutenir la réplication dans d'autres langues africaines. Un accord substantiel à presque parfait a été atteint (κ de Fleiss = 0,7660 ; κ de Cohen par paire = 0,6732–0,8743), avec un consensus unanime de 83,3 %. Une paire d'annotateurs a atteint un accord presque parfait (κ = 0,8743 ; accord brut de 93,8 %), dépassant un certain nombre de références rapportées dans les travaux de recherche sur le sarcasme en anglais. Les 16,7 % restants de cas d'accord majoritaire sont conservés comme étiquettes souples pour une modélisation prenant en compte l'incertitude. Yor-Sarc (https://github.com/toheebadura/yor-sarc) devrait faciliter la recherche sur l'interprétation sémantique et le TAL éclairé culturellement pour les langues africaines peu dotées.