papers.description
Nous présentons STEP3-VL-10B, un modèle fondateur open-source léger conçu pour redéfinir le compromis entre efficacité compacte et intelligence multimodale de pointe. STEP3-VL-10B est réalisé grâce à deux changements stratégiques : premièrement, une stratégie de pré-entraînement unifiée et entièrement dégelée sur 1,2 billion de tokens multimodaux qui intègre un encodeur de perception aligné sur le langage avec un décodeur Qwen3-8B pour établir une synergie vision-langage intrinsèque ; deuxièmement, un pipeline d'après-entraînement à grande échelle comprenant plus de 1000 itérations d'apprentissage par renforcement. Surtout, nous mettons en œuvre le Raisonnement Coordonné Parallèle (PaCoRe) pour augmenter la puissance de calcul au moment du test, en allouant des ressources à un raisonnement perceptif scalable qui explore et synthétise diverses hypothèses visuelles. Par conséquent, malgré son empreinte compacte de 10 milliards de paramètres, STEP3-VL-10B rivalise ou surpasse des modèles 10 à 20 fois plus grands (par exemple, GLM-4.6V-106B, Qwen3-VL-235B) ainsi que les fleurons propriétaires de premier plan comme Gemini 2.5 Pro et Seed-1.5-VL. Offrant des performances de premier ordre, il atteint 92,2 % sur MMBench et 80,11 % sur MMMU, tout en excellant dans le raisonnement complexe avec 94,43 % sur AIME2025 et 75,95 % sur MathVision. Nous publions la suite complète du modèle pour offrir à la communauté une base de référence puissante, efficace et reproductible.
En tant que centres d'activité humaine, les surfaces urbaines sont constituées d'une multitude d'entités sémantiques. La segmentation de ces diverses entités à partir d'imagerie satellite est cruciale pour une gamme d'applications en aval. Les modèles de segmentation avancés actuels peuvent segmenter de manière fiable les entités définies par des attributs physiques (par exemple, les bâtiments, les plans d'eau) mais peinent encore avec les catégories définies socialement (par exemple, les écoles, les parcs). Dans ce travail, nous réalisons une segmentation socio-sémantique par raisonnement avec un modèle vision-langage. Pour faciliter cela, nous présentons le jeu de données Urban Socio-Semantic Segmentation nommé SocioSeg, une nouvelle ressource comprenant de l'imagerie satellite, des cartes numériques et des étiquettes au niveau pixel d'entités sémantiques sociales organisées en une structure hiérarchique. De plus, nous proposons un nouveau cadre de raisonnement vision-langage appelé SocioReasoner qui simule le processus humain d'identification et d'annotation des entités sémantiques sociales via une reconnaissance cross-modale et un raisonnement multi-étapes. Nous utilisons l'apprentissage par renforcement pour optimiser ce processus non différentiable et susciter les capacités de raisonnement du modèle vision-langage. Les expériences démontrent les gains de notre approche par rapport aux modèles de l'état de l'art et une forte généralisation zero-shot. Notre jeu de données et notre code sont disponibles sur https://github.com/AMAP-ML/SocioReasoner.
L'apprentissage par renforcement (RL) est devenu un paradigme central pour le post-entraînement des grands modèles de langage (LLM), particulièrement pour les tâches de raisonnement complexe. Cependant, il souffre souvent d'un effondrement de l'exploration : les politiques se concentrent prématurément sur un petit ensemble de schémas de raisonnement dominants, améliorant ainsi la métrique pass@1 tout en limitant la diversité au niveau des déploiements (rollouts) et les gains en pass@k. Nous soutenons que cet échec découle d'une régularisation du comportement local des tokens plutôt que de la diversité des ensembles de solutions. Pour y remédier, nous proposons l'Apprentissage par Renforcement avec Sensibilité à l'Unicité, un objectif au niveau du déploiement qui récompense explicitement les solutions correctes présentant des stratégies de haut niveau rares. Notre méthode utilise un juge basé sur un LLM pour regrouper les déploiements d'un même problème selon leurs stratégies de résolution de haut niveau, en ignorant les variations superficielles, et repondère les avantages de la politique inversement proportionnellement à la taille des clusters. Ainsi, les stratégies correctes mais novatrices reçoivent une récompense plus élevée que les stratégies redondantes. Sur divers benchmarks de raisonnement en mathématiques, en physique et en médecine, notre approche améliore constamment la métrique pass@k pour de grands budgets d'échantillonnage et augmente l'aire sous la courbe pass@k (AUC@K) sans sacrifier la métrique pass@1, tout en maintenant l'exploration et en révélant à grande échelle des stratégies de résolution plus diversifiées.
Les systèmes multi-agents ont évolué pour devenir des collaborateurs pratiques pilotés par des LLM pour de nombreuses applications, gagnant en robustesse grâce à la diversité et à la vérification croisée. Cependant, l'apprentissage par renforcement multi-agent (MARL) est coûteux en ressources et instable : la co-adaptation des équipes induit une non-stationnarité, et les récompenses sont souvent rares et à forte variance. Par conséquent, nous introduisons l'apprentissage par renforcement multi-agent au moment du test (MATTRL), un cadre qui injecte une expérience textuelle structurée dans la délibération multi-agent lors de l'inférence. MATTRL forme une équipe multi-experts de spécialistes pour des discussions multi-tours, récupère et intègre des expériences en temps de test, et atteint un consensus pour la prise de décision finale. Nous étudions également l'attribution de crédit pour construire un pool d'expériences au niveau des tours, puis le réinjecter dans le dialogue. Sur des benchmarks exigeants en médecine, mathématiques et éducation, MATTRL améliore la précision de 3,67 % en moyenne par rapport à une base multi-agent, et de 8,67 % par rapport à des bases mono-agent comparables. Des études d'ablation examinent différents schémas d'attribution de crédit et fournissent une comparaison détaillée de leur impact sur les résultats d'entraînement. MATTRL offre une voie stable, efficace et efficiente vers un raisonnement multi-agent robuste aux décalages de distribution sans réglage.
L'édition d'images basée sur des instructions est l'un des domaines connaissant la croissance la plus rapide dans l'IA générative. Au cours de l'année écoulée, ce domaine a atteint un nouveau niveau, avec des dizaines de modèles open-source publiés parallèlement à des systèmes commerciaux très performants. Cependant, seul un nombre limité d'approches open-source atteint actuellement une qualité adaptée à un usage réel. De plus, les modèles de diffusion, choix dominant pour ces pipelines, sont souvent volumineux et coûteux en calculs pour de nombreux déploiements et cadres de recherche, les variantes largement utilisées contenant généralement de 6 à 20 milliards de paramètres. Cet article présente un pipeline d'édition d'images basé sur des instructions, compact et à haut débit, qui utilise un modèle moderne Qwen3-VL de 2 milliards de paramètres pour guider le processus d'édition et le modèle de diffusion Sana1.5 de 1,6 milliard de paramètres pour la génération d'images. Nos décisions de conception concernant l'architecture, le traitement des données, la configuration de l'entraînement et l'évaluation visent une inférence à faible coût et une stricte cohérence avec l'image source, tout en maintenant une qualité élevée dans les principales catégories d'édition réalisables à cette échelle. Évaluée sur les benchmarks ImgEdit et GEdit, la méthode proposée égale ou dépasse les performances de modèles de référence substantiellement plus lourds, y compris des modèles contenant plusieurs fois plus de paramètres et ayant un coût d'inférence plus élevé, et est particulièrement performante pour les modifications nécessitant la préservation de l'image d'entrée, telles que l'ajustement d'attribut, la suppression d'objet, les modifications de l'arrière-plan et le remplacement ciblé. Le modèle tient dans 24 Go de mémoire GPU et génère des images éditées jusqu'à une résolution 2K en environ 4 secondes sur un NVIDIA H100 en précision BF16, sans optimisations d'inférence supplémentaires ni distillation.
Le défi central de l'IA pour la Science ne réside pas uniquement dans le raisonnement, mais dans la capacité à créer des méthodes computationnelles dans un monde scientifique ouvert. Les agents actuels basés sur les LLM s'appuient sur des bibliothèques d'outils statiques et prédéfinies, un paradigme qui échoue fondamentalement dans les domaines scientifiques où les outils sont rares, hétérogènes et intrinsèquement incomplets. Dans cet article, nous proposons l'Évolution d'Outils en Temps de Test (TTE), un nouveau paradigme qui permet aux agents de synthétiser, vérifier et faire évoluer des outils exécutables durant l'inférence. En transformant les outils de ressources fixes en artefacts pilotés par les problèmes, le TTE surmonte la rigidité et les limitations de la traîne longue des bibliothèques d'outils statiques. Pour faciliter une évaluation rigoureuse, nous présentons SciEvo, un benchmark comprenant 1 590 tâches de raisonnement scientifique soutenues par 925 outils évolués automatiquement. Des expériences approfondies montrent que le TTE atteint des performances de pointe en matière de précision et d'efficacité des outils, tout en permettant une adaptation transdomaine efficace des outils computationnels. Le code et le benchmark ont été publiés à l'adresse https://github.com/lujiaxuan0520/Test-Time-Tool-Evol.
Le progrès de l'intelligence artificielle vers une science agentique est actuellement freiné par le défi de l'autonomie à horizon ultra-long, c'est-à-dire la capacité à maintenir une cohérence stratégique et une correction itérative sur des cycles expérimentaux s'étalant sur plusieurs jours ou semaines. Si les grands modèles de langage (LLM) ont démontré leur prouesse en raisonnement à court terme, ils sont facilement submergés par les détails d'exécution dans les environnements de recherche réels à haute dimensionnalité et à rétroaction retardée, échouant à consolider les retours d'information épars en une guidance cohérente à long terme. Nous présentons ici ML-Master 2.0, un agent autonome maîtrisant l'ingénierie du machine learning (MLE) à horizon ultra-long, qui constitue un microcosme représentatif de la découverte scientifique. En reformulant la gestion du contexte comme un processus d'accumulation cognitive, notre approche introduit le Cache Cognitif Hiérarchique (CCH), une architecture à plusieurs niveaux inspirée des systèmes informatiques qui permet la différenciation structurelle de l'expérience dans le temps. En distillant dynamiquement les traces d'exécution transitoires en connaissances stables et en sagesse trans-tâches, le CCH permet aux agents de découpler l'exécution immédiate de la stratégie expérimentale à long terme, surmontant ainsi efficacement les limites de scalabilité des fenêtres de contexte statiques. Lors des évaluations sur MLE-Bench d'OpenAI avec des budgets de 24 heures, ML-Master 2.0 atteint un taux de médaille de pointe de 56,44 %. Nos résultats démontrent que l'autonomie à horizon ultra-long fournit une feuille de route scalable pour des IA capables d'exploration autonome au-delà des complexités précédemment établies par l'homme.
Les modèles de pré-entraînement vision-langage (VLP) démontrent des performances solides sur diverses tâches en aval en apprenant à partir de larges ensembles de paires image-texte via un pré-entraînement contrastif. La publication de vastes jeux de données anglais image-texte (par exemple, COYO-700M et LAION-400M) a permis l'adoption généralisée de modèles tels que CLIP et SigLIP pour des tâches incluant la recherche cross-modale et la légendation d'images. Cependant, les progrès du pré-entraînement vision-langage pour le chinois ont considérablement pris du retard, en raison de la rareté de données image-texte chinoises de haute qualité. Pour combler cette lacune, nous développons une méthodologie complète pour construire un jeu de données cross-modal chinois de haute qualité. En conséquence, nous proposons DanQing, qui contient 100 millions de paires image-texte collectées depuis Common Crawl. Contrairement aux jeux de données existants, DanQing est constitué via un processus de sélection plus rigoureux, produisant une qualité de données supérieure. De plus, DanQing est principalement construit à partir de données web de 2024-2025, permettant aux modèles de mieux capturer les tendances sémantiques évolutives et offrant ainsi une utilité pratique accrue. Nous comparons DanQing aux jeux de données existants en poursuivant le pré-entraînement du modèle SigLIP2. Les résultats expérimentaux montrent que DanQing obtient constamment des performances supérieures sur une série de tâches chinoises en aval, incluant la classification zero-shot, la recherche cross-modale et des évaluations basées sur LMM. Pour faciliter les recherches futures sur le pré-entraînement vision-langage chinois, nous ouvrirons le jeu de données DanQing sous licence Creative Commons CC-BY 4.0.
Les modèles récents de génération vidéo ont révélé l'émergence d'un raisonnement en chaîne de frames (CoF), permettant une inférence visuelle frame par frame. Grâce à cette capacité, les modèles vidéo ont été appliqués avec succès à diverses tâches visuelles (par exemple, la résolution de labyrinthes, les puzzles visuels). Cependant, leur potentiel pour améliorer la génération texte-image (T2I) reste largement inexploré en raison de l'absence d'un point de départ clairement défini pour le raisonnement visuel et d'états intermédiaires interprétables dans le processus de génération T2I. Pour combler cette lacune, nous proposons CoF-T2I, un modèle qui intègre le raisonnement CoF dans la génération T2I via un raffinement visuel progressif, où les frames intermédiaires agissent comme des étapes de raisonnement explicites et la frame finale est prise comme sortie. Pour établir un tel processus de génération explicite, nous constituons CoF-Evol-Instruct, un jeu de données de trajectoires CoF qui modélise le processus de génération de la sémantique à l'esthétique. Pour améliorer davantage la qualité et éviter les artefacts de mouvement, nous permettons une opération d'encodage indépendante pour chaque frame. Les expériences montrent que CoF-T2I surpasse significativement le modèle vidéo de base et obtient des performances compétitives sur des benchmarks difficiles, atteignant 0,86 sur GenEval et 7,468 sur Imagine-Bench. Ces résultats indiquent le potentiel substantiel des modèles vidéo pour faire progresser la génération texte-image de haute qualité.
Les progrès récents des modèles de diffusion (DMs) texte-image (T2I) ont permis une synthèse visuelle de haute qualité à partir de diverses instructions textuelles. Cependant, la plupart des DMs T2I existants, même ceux équipés d'encodeurs de texte basés sur de grands modèles de langage (LLM), restent des mappeurs texte-pixels : ils utilisent les LLM simplement comme encodeurs de texte, sans exploiter leurs capacités de raisonnement intrinsèques pour déduire ce qui devrait être représenté visuellement étant donné l'instruction textuelle. Pour aller au-delà d'une telle génération littérale, nous proposons le paradigme penser-puis-générer (T2G), où l'encodeur de texte basé sur un LLM est incité à raisonner et à reformuler les instructions brutes de l'utilisateur ; les états des instructions reformulées servent ensuite de conditionnement pour la diffusion. Pour y parvenir, nous activons d'abord le schéma penser-puis-reformuler de l'encodeur LLM grâce à un processus de fine-tuning supervisé léger. Ensuite, l'encodeur LLM et le backbone de diffusion sont co-optimisés via Dual-GRPO pour garantir un raisonnement fidèle du contexte et un rendu précis de la sémantique. Plus précisément, l'encodeur de texte est renforcé à l'aide de récompenses ancrées dans l'image pour inférer et rappeler des connaissances du monde, tandis que le backbone de diffusion est poussé à produire des images sémantiquement cohérentes et visuellement réalistes. Les expériences montrent des améliorations substantielles en matière de cohérence factuelle, d'alignement sémantique et de réalisme visuel sur des benchmarks de génération et d'édition d'images basées sur le raisonnement, atteignant un score de 0,79 sur WISE, presque à égalité avec GPT-4. Nos résultats constituent une étape prometteuse vers des modèles unifiés de nouvelle génération dotés de capacités de raisonnement, d'expression et de démonstration.
Les grands modèles de diffusion et de flux vidéo ont obtenu un succès remarquable dans la génération de vidéos de haute qualité, mais leur utilisation dans les applications interactives en temps réel reste limitée en raison de leur processus d'échantillonnage multi-étapes inefficace. Dans ce travail, nous présentons la Distillation par Appariement de Transitions (TMD), un cadre novateur pour distiller les modèles de diffusion vidéo en générateurs efficaces à faible nombre d'étapes. L'idée centrale de TMD est d'apparier la trajectoire de bruitage inverse multi-étapes d'un modèle de diffusion avec un processus de transition de probabilité en peu d'étapes, où chaque transition est modélisée comme un flux conditionnel léger. Pour permettre une distillation efficace, nous décomposons l'architecture de diffusion originale en deux composants : (1) une architecture principale, comprenant la majorité des premières couches, qui extrait des représentations sémantiques à chaque étape de transition externe ; et (2) une tête de flux, constituée des dernières couches, qui exploite ces représentations pour effectuer plusieurs mises à jour de flux internes. Étant donné un modèle de diffusion vidéo pré-entraîné, nous introduisons d'abord une tête de flux dans le modèle, et l'adaptons en une carte de flux conditionnelle. Nous appliquons ensuite une distillation par appariement de distributions au modèle étudiant avec un déploiement de la tête de flux à chaque étape de transition. Des expériences approfondies sur la distillation des modèles texte-à-vidéo Wan2.1 1.3B et 14B démontrent que TMD offre un compromis flexible et solide entre la vitesse de génération et la qualité visuelle. En particulier, TMD surpasse les modèles distillés existants pour des coûts d'inférence comparables en termes de fidélité visuelle et d'adhérence à l'invite. Page du projet : https://research.nvidia.com/labs/genair/tmd
Le raisonnement intégrant des outils (TIR) permet aux grands modèles de langage (LLM) de résoudre des tâches complexes en entrelaçant des étapes de raisonnement avec des interactions d'outils externes. Cependant, les méthodes existantes d'apprentissage par renforcement reposent généralement sur des récompenses au niveau des résultats ou des trajectoires, attribuant des avantages uniformes à toutes les étapes d'une trajectoire. Cette attribution de crédit à granularité grossière ne parvient pas à distinguer les appels d'outils efficaces de ceux redondants ou erronés, particulièrement dans les scénarios multi-tours à long horizon. Pour résoudre ce problème, nous proposons MatchTIR, un cadre introduisant une supervision fine via une attribution de récompense au niveau du tour basée sur l'appariement biparti et une estimation d'avantage à double niveau. Plus précisément, nous formulons l'attribution de crédit comme un problème d'appariement bipartite entre les traces prédites et les traces de vérité terrain, en utilisant deux stratégies d'attribution pour obtenir des récompenses denses au niveau du tour. De plus, pour équilibrer la précision des étapes locales avec la réussite globale de la tâche, nous introduisons un schéma d'estimation d'avantage à double niveau qui intègre les signaux au niveau du tour et de la trajectoire, attribuant des valeurs d'avantage distinctes à chaque tour d'interaction. Des expériences approfondies sur trois benchmarks démontrent la supériorité de MatchTIR. Notamment, notre modèle de 4B surpasse la majorité des concurrents de 8B, particulièrement dans les tâches à long horizon et multi-tours. Nos codes sont disponibles à l'adresse https://github.com/quchangle1/MatchTIR.
Les modèles vidéo-langage (VLM) les plus performants actuels restent propriétaires. Les modèles open-source les plus avancés s'appuient soit sur des données synthétiques issues de VLM propriétaires, effectuant ainsi un *distillation* de ces derniers, soit ne divulguent pas leurs données ou méthode d'entraînement. En conséquence, la communauté open source manque des bases nécessaires pour progresser par rapport à l'état de l'art en matière de modèles langage (pour la vidéo et l'image). Point crucial, de nombreuses applications en aval nécessitent plus qu'une simple compréhension générale de la vidéo ; elles exigent un ancrage (*grounding*) – soit par désignation (*pointing*), soit par suivi (*tracking*) au niveau des pixels. Même les modèles propriétaires ne possèdent pas cette capacité. Nous présentons Molmo2, une nouvelle famille de VLM qui sont à l'état de l'art parmi les modèles open source et démontrent des capacités exceptionnellement nouvelles en matière d'ancrage par désignation pour des tâches sur image unique, multi-images et vidéo. Notre contribution principale est un ensemble de 7 nouveaux jeux de données vidéo et 2 jeux de données multi-images, incluant un jeu de données de descriptions vidéo très détaillées pour le pré-entraînement, un jeu de données de questions-réponses libres sur vidéo pour le réglage fin, un nouveau jeu de données de suivi d'objets avec des requêtes complexes, et un nouveau jeu de données innovant pour la désignation dans la vidéo, le tout collecté sans utiliser de VLM fermés. Nous présentons également une méthode d'entraînement pour ces données utilisant un système efficace de *packing* et d'encodage par arbre de messages, et montrons qu'une attention bidirectionnelle sur les tokens visuels et une nouvelle stratégie de pondération des tokens améliorent les performances. Notre modèle de 8B, le meilleur de sa catégorie, surpasse les autres modèles open source (poids et données ouverts) sur les vidéos courtes, le décompte et la description, et est compétitif sur les vidéos longues. Pour l'ancrage vidéo, Molmo2 surpasse significativement les modèles open source existants comme Qwen3-VL (35,5 contre 29,6 de précision sur le décompte vidéo) et dépasse les modèles propriétaires comme Gemini 3 Pro sur certaines tâches (38,4 contre 20,0 en F1 sur la désignation vidéo et 56,2 contre 41,1 en J&F sur le suivi vidéo).
Nous présentons Alterbute, une méthode fondée sur la diffusion pour modifier les attributs intrinsèques d'un objet dans une image. Notre méthode permet de changer la couleur, la texture, le matériau, et même la forme d'un objet, tout en préservant son identité perçue et le contexte de la scène. Les approches existantes reposent soit sur des prérequis non supervisés qui échouent souvent à préserver l'identité, soit sur une supervision excessivement restrictive qui empêche des variations intrinsèques significatives. Notre méthode s'appuie sur : (i) un objectif d'apprentissage assoupli qui permet au modèle de modifier à la fois les attributs intrinsèques et extrinsèques, conditionné par une image de référence d'identité, une invite textuelle décrivant les attributs intrinsèques cibles, ainsi qu'une image d'arrière-plan et un masque objet définissant le contexte extrinsèque. Lors de l'inférence, nous restreignons les changements extrinsèques en réutilisant l'arrière-plan et le masque objet originaux, garantissant ainsi que seuls les attributs intrinsèques souhaités sont modifiés ; (ii) les Entités Nommées Visuelles (VNEs) - des catégories d'identité visuelle à granularité fine (par exemple, « Porsche 911 Carrera ») qui regroupent des objets partageant des caractéristiques définissant l'identité tout en autorisant des variations dans leurs attributs intrinsèques. Nous utilisons un modèle vision-langage pour extraire automatiquement les labels VNE et les descriptions d'attributs intrinsèques d'un vaste jeu de données d'images publiques, permettant ainsi une supervision évolutive et préservant l'identité. Alterbute surpasse les méthodes existantes en matière d'édition d'attributs intrinsèques d'objets préservant l'identité.
Si les agents basés sur LLM peuvent interagir avec des environnements en invoquant des outils externes, leurs capacités élargies amplifient également les risques de sécurité. Surveiller en temps réel les comportements d'invocation d'outils au niveau de l'étape et intervenir de manière proactive avant une exécution non sécurisée est crucial pour le déploiement des agents, mais reste peu exploré. Dans ce travail, nous construisons d'abord TS-Bench, un nouveau benchmark pour la détection de la sécurité des invocations d'outils au niveau de l'étape dans les agents LLM. Nous développons ensuite un modèle de garde-fou, TS-Guard, en utilisant l'apprentissage par renforcement multi-tâches. Le modèle détecte de manière proactive les actions d'invocation d'outils non sécurisées avant leur exécution en raisonnant sur l'historique des interactions. Il évalue la nocivité des requêtes et les corrélations action-attaque, produisant des jugements de sécurité et des retours interprétables et généralisables. De plus, nous présentons TS-Flow, un cadre de raisonnement piloté par les retours du garde-fou pour les agents LLM, qui réduit en moyenne de 65 % les invocations d'outils nuisibles des agents de type ReAct et améliore l'accomplissement des tâches bénignes d'environ 10 % sous des attaques par injection de prompt.
L'évolution rapide des modèles de langage de grande taille (LLM) et des modèles de langage multimodaux de grande taille (MLLM) a engendré des progrès substantiels en matière de raisonnement, de perception et de capacité générative à travers le langage et la vision. Cependant, il reste incertain si ces avancées se traduisent par des améliorations proportionnelles en termes de sécurité, en partie à cause de pratiques d'évaluation fragmentées limitées à des modalités ou des modèles de menace uniques. Dans ce rapport, nous présentons une évaluation intégrée de la sécurité de 7 modèles de pointe : GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro et Seedream 4.5. Nous évaluons chaque modèle dans des contextes de langage, de vision-langage et de génération d'images en utilisant un protocole unifié qui intègre l'évaluation par benchmark, l'évaluation adversarial, l'évaluation multilingue et l'évaluation de la conformité. L'agrégation de nos évaluations en tableaux de classement de sécurité et en profils de sécurité des modèles à travers plusieurs modes d'évaluation révèle un paysage de sécurité extrêmement hétérogène. Alors que GPT-5.2 démontre une performance de sécurité constamment solide et équilibrée à travers les évaluations, d'autres modèles présentent des compromis prononcés entre la sécurité sur les benchmarks, l'alignement adversarial, la généralisation multilingue et la conformité réglementaire. Les modalités de langage et de vision-langage présentent toutes deux une vulnérabilité significative sous évaluation adversarial, tous les modèles se dégradant substantiellement malgré de bons résultats sur les benchmarks standards. Les modèles de génération d'images à partir de texte atteignent un alignement relativement plus fort dans les catégories de risques visuels réglementés, mais restent fragiles face à des prompts adversarial ou sémantiquement ambigus. Globalement, ces résultats montrent que la sécurité des modèles de pointe est intrinsèquement multidimensionnelle – façonnée par la modalité, la langue et le schéma d'évaluation – soulignant la nécessité d'évaluations de sécurité standardisées pour évaluer précisément le risque réel et guider le développement et le déploiement responsables des modèles.
Inférer des actions physiques à partir d'observations visuelles est une capacité fondamentale pour faire progresser l'intelligence artificielle dans le monde physique. Atteindre cet objectif nécessite des jeux de données vidéo d'actions à grande échelle et à vocabulaire ouvert, couvrant de vastes domaines. Nous présentons Action100M, un jeu de données à grande échelle construit à partir de 1,2 million de vidéos pédagogiques issues d'Internet (soit 14,6 années de durée totale), produisant environ 100 millions de segments temporellement localisés avec une supervision d'actions à vocabulaire ouvert et des descriptions riches. Action100M est généré par un pipeline entièrement automatisé qui (i) effectue une segmentation temporelle hiérarchique en utilisant les embeddings de V-JEPA 2, (ii) produit des descriptions à plusieurs niveaux (images et segments) organisées en une Arborescence-de-Descriptions, et (iii) agrège les preuves avec un modèle de raisonnement (GPT-OSS-120B) dans le cadre d'une procédure d'Auto-Raffinement en plusieurs tours pour produire des annotations structurées (action brève/détaillée, acteur, description brève/détaillée). L'entraînement de VL-JEPA sur Action100M démontre des améliorations constantes avec l'augmentation des données et de fortes performances en zero-shot sur divers benchmarks de reconnaissance d'actions, établissant Action100M comme une nouvelle base pour la recherche évolutive en compréhension vidéo et modélisation du monde.
La génération interactive de vidéos humanoïdes vise à synthétiser des agents visuels réalistes capables d'interagir avec les humains via des séquences vidéo continues et réactives. Malgré les progrès récents en synthèse vidéo, les méthodes existantes se heurtent souvent au compromis entre la synthèse haute fidélité et les exigences d'interaction en temps réel. Dans cet article, nous proposons FlowAct-R1, un cadre spécifiquement conçu pour la génération interactive en temps réel de vidéos humanoïdes. Fondé sur une architecture MMDiT, FlowAct-R1 permet la synthèse en flux de vidéos de durée arbitraire tout en maintenant une réactivité à faible latence. Nous introduisons une stratégie de forçage de diffusion par segments, complétée par une nouvelle variante d'auto-forçage, pour atténuer l'accumulation d'erreurs et garantir une cohérence temporelle à long terme durant les interactions continues. En tirant parti de techniques de distillation efficaces et d'optimisations systémiques, notre cadre atteint une fréquence stable de 25 images par seconde en résolution 480p, avec un temps d'affichage de la première image d'environ 1,5 seconde seulement. La méthode proposée offre un contrôle complet et granulaire du corps entier, permettant à l'agent de transitionner naturellement entre divers états comportementaux dans des scénarios interactifs. Les résultats expérimentaux démontrent que FlowAct-R1 atteint une vivacité comportementale et un réalisme perceptuel exceptionnels, tout en maintenant une robuste généralisation à travers divers styles de personnages.
Nous présentons une familles de modèles de fondation musicaux open-source conçus pour faire progresser la compréhension et la génération musicale à grande échelle à travers diverses tâches et modalités. Notre cadre comprend quatre composantes majeures : (1) HeartCLAP, un modèle d'alignement audio-texte ; (2) HeartTranscriptor, un modèle robuste de reconnaissance de paroles optimisé pour les scénarios musicaux réels ; et (3) HeartCodec, un tokeniseur de codec musical à faible fréquence d'images (12,5 Hz) mais à haute fidélité qui capture la structure musicale à long terme tout en préservant les détails acoustiques fins et en permettant une modélisation autoregressive efficace ; (4) HeartMuLa, un modèle de génération de chansons basé sur un LLM capable de synthétiser de la musique haute fidélité sous des conditions riches et contrôlables par l'utilisateur (par exemple, descriptions textuelles de style, paroles et audio de référence). De plus, il propose deux modes spécialisés : (i) un contrôle granulaire des attributs musicaux, qui permet aux utilisateurs de spécifier le style de différentes sections de chanson (par exemple, intro, couplet, refrain) à l'aide d'invites en langage naturel ; et (ii) une génération de musique courte et engageante, adaptée comme musique de fond pour les vidéos courtes. Enfin, HeartMuLa s'améliore significativement lorsqu'il est mis à l'échelle à 7 milliards de paramètres. Pour la première fois, nous démontrons qu'un système de niveau commercial équivalent à Suno peut être reproduit en utilisant des données et des ressources GPU à l'échelle académique. Nous espérons que ces modèles de fondation serviront de bases solides pour les recherches futures et faciliteront les applications pratiques dans la production de contenu multimodal.
Les modèles de langage de grande taille (LLM) sont devenus des opérateurs puissants pour la recherche évolutive, mais la conception d'échafaudages de recherche efficaces reste ad hoc. Bien que prometteurs, les systèmes actuels intégrant des LLM manquent d'une approche systématique pour gérer le processus évolutif. Nous identifions trois modes de défaillance distincts : la Pollution du Contexte, où l'historique des expériences biaise la génération future de candidats ; l'Effondrement Modal, où les agents stagnent dans des minima locaux en raison d'un mauvais équilibre exploration-exploitation ; et la Collaboration Faible, où des stratégies de croisement rigides ne parviennent pas à exploiter efficacement les trajectoires de recherche parallèles. Nous présentons Progress-Aware Consistent Evolution (PACEvolve), un cadre conçu pour régir robustement le contexte de l'agent et la dynamique de recherche afin de relever ces défis. PACEvolve combine une gestion hiérarchique du contexte (HCM) avec un élagage pour résoudre la pollution du contexte ; un retour arrière basé sur la quantité de mouvement (MBB) pour échapper aux minima locaux ; et une politique d'échantillonnage auto-adaptative qui unifie le retour arrière et le croisement pour une coordination de recherche dynamique (CE), permettant aux agents d'équilibrer le raffinement interne avec la collaboration entre trajectoires. Nous démontrons que PACEvolve offre une voie systématique vers une auto-amélioration cohérente et à long terme, obtenant des résultats de pointe sur LLM-SR et KernelBench, tout en découvrant des solutions surpassant le record sur Modded NanoGPT.
La génération de molécules satisfaisant des contraintes numériques précises sur de multiples propriétés physico-chimiques est un enjeu crucial et difficile. Bien que les grands modèles de langage (LLM) soient expressifs, ils peinent à assurer un contrôle multi-objectif précis et un raisonnement numérique sans structure externe et rétroaction. Nous présentons M olGen, un cadre fragmentaire, augmenté par retrieval, en deux étapes pour la génération de molécules sous contraintes multi-propriétés. Étape I : Génération de prototype : un raisonneur multi-agent effectue des modifications au niveau des fragments, ancrées par retrieval, pour produire un candidat proche de la région réalisable. Étape II : Optimisation fine par RL : un optimiseur au niveau des fragments, entraîné avec l'Optimisation de Politique Relative par Groupe (GRPO), applique des affinements en un ou plusieurs sauts pour minimiser explicitement les erreurs sur les propriétés vers notre cible, tout en régulant la complexité des modifications et l'écart par rapport au prototype. Un vaste ensemble de données, automatiquement constitué, contenant des chaînes de raisonnement sur les modifications de fragments et les deltas de propriétés mesurés, sous-tend les deux étapes, permettant un suivi déterministe, reproductible et un raisonnement contrôlable en plusieurs sauts. Contrairement aux travaux antérieurs, notre cadre raisonne mieux sur les molécules en exploitant les fragments et prend en charge un affinement contrôlable vers des cibles numériques. Les expériences sur la génération sous deux ensembles de contraintes de propriétés (QED, LogP, Poids Moléculaire et HOMO, LUMO) montrent des gains constants en termes de validité et de satisfaction précise des cibles multi-propriétés, surpassant les LLM robustes et les algorithmes basés sur les graphes.
Les modèles génératifs vidéo de pointe produisent un contenu visuel prometteur mais violent souvent les principes physiques fondamentaux, limitant ainsi leur utilité. Bien que certains attribuent cette déficience à une compréhension insuffisante de la physique acquise lors du pré-entraînement, nous constatons que le déficit de plausibilité physique provient également de stratégies d'inférence sous-optimales. Nous introduisons donc WMReward et traitons l'amélioration de la plausibilité physique de la génération vidéo comme un problème d'alignement au moment de l'inférence. En particulier, nous exploitons le fort a priori physique d'un modèle du monde latent (ici, VJEPA-2) comme récompense pour rechercher et orienter plusieurs trajectoires de débruitage candidates, permettant ainsi de mettre à l'échelle le calcul au moment du test pour une meilleure performance de génération. Empiriquement, notre approche améliore considérablement la plausibilité physique dans des contextes de génération conditionnés par image, par plusieurs images et par texte, avec validation par une étude de préférence humaine. Notamment, lors du défi PhysicsIQ de l'ICCV 2025 Perception Test, nous avons obtenu un score final de 62,64 %, remportant la première place et surpassant l'état de l'art précédent de 7,42 %. Notre travail démontre la viabilité de l'utilisation de modèles du monde latent pour améliorer la plausibilité physique de la génération vidéo, au-delà de cette instanciation ou paramétrisation spécifique.
Les modèles unifiés de génération et d'édition d'images souffrent d'interférences sévères entre tâches dans les architectures denses de transformeurs par diffusion, où un espace paramétrique partagé doit faire un compromis entre des objectifs conflictuels (par exemple, l'édition locale contre la génération pilotée par un sujet). Bien que le paradigme épars des mélanges d'experts (MoE) soit une solution prometteuse, ses réseaux de gating restent agnostiques à la tâche, fonctionnant sur la base de caractéristiques locales, sans conscience de l'intention globale de la tâche. Cette nature agnostique empêche une spécialisation significative et ne permet pas de résoudre l'interférence sous-jacente entre les tâches. Dans cet article, nous proposons un nouveau cadre pour injecter une intention sémantique dans le routage des MoE. Nous introduisons un schéma hiérarchique d'annotation sémantique des tâches pour créer des descripteurs de tâches structurés (par exemple, portée, type, préservation). Nous concevons ensuite une régularisation par alignement prédictif pour aligner les décisions de routage internes sur la sémantique de haut niveau de la tâche. Cette régularisation fait évoluer le réseau de gating d'un exécutant agnostique vers un centre de dispatch. Notre modèle atténue efficacement les interférences entre tâches, surpassant les modèles de référence denses en fidélité et en qualité, et notre analyse montre que les experts développent naturellement des spécialisations claires et sémantiquement corrélées.
Le suivi des instructions est crucial pour les grands modèles de langage, mais les instructions réelles contiennent souvent des structures logiques telles que des dépendances séquentielles et des branchements conditionnels. Les méthodes existantes construisent généralement des jeux de données avec des contraintes parallèles et optimisent les récompenses moyennes, ignorant les dépendances logiques et produisant des signaux bruités. Nous proposons un cadre d'entraînement à structure logique LSRIF qui modélise explicitement la logique des instructions. Nous construisons d'abord un jeu de données LSRInstruct avec des structures de contraintes de types parallèles, séquentiels et conditionnels, puis concevons une méthode de récompense structurellement consciente LSRIF incluant l'agrégation moyenne pour les structures parallèles, la propagation des pénalités d'échec pour les structures séquentielles et les récompenses sélectives pour les branchements conditionnels. Les expériences montrent que LSRIF apporte des améliorations significatives dans le suivi d'instructions (en domaine connu et hors domaine) et le raisonnement général. L'analyse révèle que l'apprentissage avec des structures logiques explicites provoque des mises à jour paramétriques dans les couches d'attention et affine l'attention au niveau des tokens pour les contraintes et les opérateurs logiques.
La détection des réponses évasives lors des conférences de résultats est cruciale pour la transparence financière, mais les progrès sont entravés par l'absence de référentiels à grande échelle. Nous présentons EvasionBench, comprenant 30 000 échantillons d'entraînement et 1 000 échantillons de test annotés manuellement (Kappa de Cohen 0,835) répartis sur trois niveaux d'évasion. Notre contribution principale est un cadre d'annotation multi-modèles s'appuyant sur une idée fondamentale : le désaccord entre les LLMs de pointe signale les exemples difficiles les plus précieux pour l'entraînement. Nous extrayons les cas limites où deux annotateurs performants sont en conflit, en utilisant un arbitre pour résoudre les étiquettes. Cette approche surpasse de 2,4 % la distillation par modèle unique, les échantillons arbitrés améliorant la généralisation malgré une perte d'entraînement plus élevée (0,421 contre 0,393) - une preuve que l'extraction des désaccords agit comme un régularisateur implicite. Notre modèle entraîné Eva-4B (4 milliards de paramètres) atteint une précision de 81,3 %, surpassant son modèle de base de 25 points de pourcentage et approchant les performances des LLMs de pointe pour une fraction du coût d'inférence.
Le raisonnement latent multimodal actuel repose souvent sur une supervision externe (par exemple, des images auxiliaires), ignorant la dynamique attentionnelle visuelle intrinsèque. Dans ce travail, nous identifions un Écart de Perception critique dans la distillation : les modèles étudiants imitent fréquemment la sortie textuelle d'un enseignant tout en se concentrant sur des régions visuelles fondamentalement divergentes, reposant ainsi sur des préalables linguistiques plutôt que sur une perception ancrée. Pour combler cet écart, nous proposons LaViT, un cadre qui aligne les pensées visuelles latentes plutôt que les embeddings statiques. LaViT contraint l'étudiant à reconstruire de manière autorégressive la sémantique visuelle et les trajectoires attentionnelles de l'enseignant avant la génération de texte, en employant un mécanisme de verrouillage sensoriel curriculaire pour éviter l'apprentissage par raccourci. Des expériences approfondies montrent que LaViT améliore significativement l'ancrage visuel, obtenant des gains allant jusqu'à +16,9 % sur des tâches de raisonnement complexe, et permettant à un modèle compact de 3B de surpasser des variantes open-source plus grandes et des modèles propriétaires comme GPT-4o.
Des représentations 3D puissantes comme les cartes de points invariants DUSt3R, qui codent la forme 3D et les paramètres de caméra, ont considérablement fait progresser la reconstruction 3D par propagation directe. Alors que les cartes de points supposent des scènes statiques, les Cartes de Points Dynamiques (DPM) étendent ce concept au contenu 3D dynamique en représentant également le mouvement de la scène. Cependant, les DPM existantes se limitent à des paires d'images et, comme DUSt3R, nécessitent un post-traitement par optimisation lorsque plus de deux vues sont impliquées. Nous soutenons que les DPM sont plus utiles lorsqu'elles sont appliquées aux vidéos et nous introduisons V-DPM pour le démontrer. Premièrement, nous montrons comment formuler des DPM pour une entrée vidéo de manière à maximiser la puissance de représentation, à faciliter la prédiction neuronale et à permettre la réutilisation de modèles pré-entraînés. Deuxièmement, nous implémentons ces idées sur la base de VGGT, un reconstructeur 3D récent et puissant. Bien que VGGT ait été entraîné sur des scènes statiques, nous montrons qu'une quantité modeste de données synthétiques suffit à l'adapter en un prédicteur V-DPM efficace. Notre approche obtient des performances de pointe en reconstruction 3D et 4D pour les scènes dynamiques. En particulier, contrairement aux extensions dynamiques récentes de VGGT telles que P3, les DPM récupèrent non seulement la profondeur dynamique mais aussi le mouvement 3D complet de chaque point de la scène.
L'amélioration des capacités de raisonnement des grands modèles de langage (LLM) est un sujet récurrent ces derniers temps. Cependant, la plupart des travaux pertinents se basent sur des récompenses de résultat au niveau de la trajectoire, omettant une supervision fine pendant le processus de raisonnement. D'autres cadres d'entraînement existants qui tentent de combiner les signaux de processus pour optimiser les LLM reposent également lourdement sur des étapes supplémentaires fastidieuses comme MCTS, l'entraînement d'un modèle de récompense séparé, etc., ce qui nuit à l'efficacité de l'entraînement. De plus, l'intuition derrière la conception des signaux de processus manque de support théorique rigoureux, laissant la compréhension du mécanisme d'optimisation opaque. Dans cet article, nous proposons l'Apprentissage par Récompense de Processus (PRL), qui décompose l'objectif d'apprentissage par renforcement à régularisation d'entropie en étapes intermédiaires, avec des récompenses de processus rigoureuses qui peuvent être attribuées aux modèles en conséquence. Partant d'une motivation théorique, nous dérivons la formulation du PRL qui est essentiellement équivalente à l'objectif de maximisation de la récompense plus un terme de pénalité par divergence KL entre le modèle de politique et un modèle de référence. Cependant, le PRL peut transformer la récompense de résultat en signaux de supervision de processus, ce qui aide à mieux guider l'exploration durant l'optimisation par RL. Nos résultats expérimentaux démontrent que le PRL améliore non seulement les performances moyennes de la capacité de raisonnement des LLM mesurées par average @ n, mais élargit également la frontière du raisonnement en améliorant la métrique pass @ n. Des expériences approfondies montrent que l'efficacité du PRL peut être vérifiée et généralisée.
Malgré les progrès significatifs en génération 4D, les éléments fondamentaux que sont le rig et l'animation sont généralement modélisés comme des problèmes distincts. Les pipelines existants s'appuient sur des squelettes et des poids d'enveloppe de référence pour la génération de mouvement et traitent l'auto-rigging comme un processus indépendant, ce qui nuit à l'évolutivité et à l'interprétabilité. Nous présentons RigMo, un framework génératif unifié qui apprend conjointement le rig et l'animation directement à partir de séquences de maillages bruts, sans aucune annotation de rig fournie par l'homme. RigMo encode les déformations par sommet dans deux espaces latents compacts : un latent de rig qui décode en os gaussiens explicites et en poids d'enveloppe, et un latent de mouvement qui produit des transformations SE(3) variant dans le temps. Ensemble, ces sorties définissent un maillage animable avec une structure explicite et un mouvement cohérent, permettant une inférence de rig et de mouvement en feed-forward pour les objets déformables. Au-delà de la découverte unifiée rig-mouvement, nous introduisons un modèle Motion-DiT opérant dans l'espace latent de RigMo et démontrons que ces latents conscients de la structure peuvent naturellement prendre en charge des tâches de génération de mouvement en aval. Les expériences sur DeformingThings4D, Objaverse-XL et TrueBones démontrent que RigMo apprend des rigs lisses, interprétables et physiquement plausibles, tout en obtenant une reconstruction et une généralisation au niveau de la catégorie supérieures par rapport aux méthodes de référence existantes en auto-rigging et déformation. RigMo établit un nouveau paradigme pour la modélisation dynamique 3D unifiée, consciente de la structure et évolutive.
Les agents de jeu de rôle (RP) s'appuient sur des profils comportementaux pour agir de manière cohérente dans divers contextes narratifs. Cependant, les profils existants sont largement non structurés, non exécutables et faiblement validés, ce qui entraîne un comportement d'agent fragile. Nous proposons les Arbres de Décision Codifiés (CDT), un cadre basé sur les données qui induit une structure décisionnelle exécutable et interprétable à partir de données narratives à grande échelle. CDT représente les profils comportementaux comme un arbre de règles conditionnelles, où les nœuds internes correspondent à des conditions de scène validées et les feuilles codent des énoncés comportementaux ancrés, permettant une récupération déterministe de règles contextuellement appropriées au moment de l'exécution. L'arbre est appris en induisant itérativement des règles scène-action candidates, en les validant par rapport aux données et en les affinant par spécialisation hiérarchique, produisant des profils qui permettent une inspection transparente et des mises à jour fondées. Sur plusieurs benchmarks, CDT surpasse substantiellement les profils écrits par des humains et les méthodes d'induction de profils antérieures pour 85 personnages issus de 16 artefacts, indiquant que les représentations comportementales codifiées et validées conduisent à un ancrage d'agent plus fiable.
La traduction de requêtes cliniques en SQL dans le monde réel nécessite un raisonnement sur des tables hétérogènes de dossiers médicaux électroniques (DME), des fenêtres temporelles et des cohortes de similarité entre patients pour produire des requêtes exécutables. Nous présentons CLINSQL, un benchmark de 633 tâches annotées par des experts sur MIMIC-IV v3.1, qui exige des jointures multi-tables, des filtres cliniquement pertinents et du SQL exécutable. Résoudre CLINSQL implique de naviguer dans les métadonnées du schéma et les systèmes de codage clinique, de traiter des contextes longs et de composer des requêtes en plusieurs étapes qui vont au-delà du text-to-SQL traditionnel. Nous évaluons 22 modèles propriétaires et open-source sous un processus d'auto-affinement en chaîne de pensée (Chain-of-Thought) et utilisons une analyse SQL basée sur une grille d'évaluation avec vérifications d'exécution qui priorisent les exigences cliniques critiques. Malgré les récents progrès, les performances restent loin de la fiabilité clinique : sur l'ensemble de test, GPT-5-mini atteint un score d'exécution de 74,7 %, DeepSeek-R1 mène les modèles open-source à 69,2 %, et Gemini-2.5-Pro chute de 85,5 % sur les tâches Faciles à 67,2 % sur les tâches Difficiles. Les progrès sur CLINSQL marquent des avancées tangentes vers un système de text-to-SQL cliniquement fiable pour l'analyse des DME en conditions réelles.
L'essor des frameworks d'agents IA a introduit les compétences d'agents (skills), des modules modulaires contenant des instructions et du code exécutable permettant d'étendre dynamiquement les capacités des agents. Bien que cette architecture permette une personnalisation puissante, les compétences s'exécutent avec une confiance implicite et un contrôle minimal, créant une surface d'attaque significative mais non caractérisée. Nous réalisons la première analyse de sécurité empirique à grande échelle de cet écosystème émergent, collectant 42 447 compétences sur deux places de marché majeures et en analysant systématiquement 31 132 à l'aide de SkillScan, un cadre de détection multi-étapes intégrant l'analyse statique et une classification sémantique basée sur les LLM. Nos résultats révèlent des risques de sécurité omniprésents : 26,1 % des compétences contiennent au moins une vulnérabilité, couvrant 14 schémas distincts répartis en quatre catégories : injection de prompt, exfiltration de données, escalade de privilèges et risques liés à la chaîne d'approvisionnement. L'exfiltration de données (13,3 %) et l'escalade de privilèges (11,8 %) sont les plus prévalentes, tandis que 5,2 % des compétences présentent des schémas de haute gravité suggérant fortement une intention malveillante. Nous constatons que les compétences regroupant des scripts exécutables sont 2,12 fois plus susceptibles de contenir des vulnérabilités que les compétences basées uniquement sur des instructions (RC=2,12, p<0,001). Nos contributions incluent : (1) une taxonomie de vulnérabilités fondée sur 8 126 compétences vulnérables, (2) une méthodologie de détection validée atteignant une précision de 86,7 % et un rappel de 82,5 %, et (3) un jeu de données ouvert et une boîte à outils de détection pour soutenir la recherche future. Ces résultats démontrent la nécessité urgente de systèmes d'autorisation basés sur les capacités et d'un contrôle de sécurité obligatoire avant que ce vecteur d'attaque ne soit davantage exploité.
Cette étude examine l'utilisation de l'ingénierie des prompts pour améliorer les grands modèles de langage (LLM), spécifiquement GPT-4o-mini et gemini-1.5-flash, dans des tâches d'analyse de sentiment. Elle évalue des techniques de prompting avancées comme l'apprentissage par quelques exemples (few-shot learning), le prompting en chaîne de pensée (chain-of-thought) et l'auto-cohérence (self-consistency) par rapport à une baseline. Les tâches principales incluent la classification des sentiments, l'analyse de sentiment axée sur les aspects et la détection de nuances subtiles telles que l'ironie. La recherche détaille le contexte théorique, les jeux de données et les méthodes utilisées, en évaluant la performance des LLM mesurée par l'exactitude, le rappel, la précision et le score F1. Les résultats révèlent que le prompting avancé améliore significativement l'analyse de sentiment, l'approche par quelques exemples excellant avec GPT-4o-mini et le prompting en chaîne de pensée améliorant la détection de l'ironie avec gemini-1.5-flash jusqu'à 46 %. Ainsi, bien que les techniques de prompting avancées améliorent globalement les performances, le fait que le prompting par quelques exemples fonctionne le mieux pour GPT-4o-mini et que le chaîne de pensée excelle avec gemini-1.5-flash pour la détection de l'ironie suggère que les stratégies de prompting doivent être adaptées à la fois au modèle et à la tâche. Cela souligne l'importance d'aligner la conception des prompts à la fois sur l'architecture du LLM et sur la complexité sémantique de la tâche.
L'apprentissage par cohérence avec perturbation des caractéristiques est une stratégie largement utilisée en segmentation semi-supervisée d'images médicales. Cependant, de nombreuses méthodes de perturbation existantes reposent sur du *dropout*, et nécessitent donc un réglage manuel minutieux du taux de *dropout*, qui est un hyperparamètre sensible souvent difficile à optimiser et pouvant conduire à une régularisation sous-optimale. Pour surmonter cette limite, nous proposons VQ-Seg, la première approche à utiliser la quantification vectorielle (VQ) pour discrétiser l'espace des caractéristiques et introduire un nouveau module de perturbation quantifiée (QPM) contrôlable qui remplace le *dropout*. Notre QPM perturbe les représentations discrètes en mélangeant les positions spatiales des indices du codebook, permettant une régularisation efficace et contrôlable. Pour atténuer la perte d'information potentielle causée par la quantification, nous concevons une architecture à double branche où l'espace de caractéristiques post-quantification est partagé entre les tâches de reconstruction d'image et de segmentation. De plus, nous introduisons un adaptateur de caractéristiques post-VQ (PFA) pour intégrer les guidages d'un modèle de fondation (FM), complétant ainsi l'information sémantique de haut niveau perdue durant la quantification. Par ailleurs, nous avons constitué un jeu de données à grande échelle sur le cancer du poumon (LC) comprenant 828 scanners TDM annotés pour le carcinome pulmonaire de type central. Des expériences approfondies sur le jeu de données LC et d'autres benchmarks publics démontrent l'efficacité de notre méthode, qui surpasse les approches de l'état de l'art. Le code est disponible à l'adresse : https://github.com/script-Yang/VQ-Seg.
Les agents IA sont vulnérables aux attaques par injection de prompt, où un contenu malveillant détourne le comportement de l'agent pour voler des identifiants ou causer des pertes financières. La seule défense robuste connue est l'isolation architecturale qui sépare strictement la planification de tâches de confiance des observations non fiables de l'environnement. Cependant, l'application de cette conception aux agents d'utilisation informatique (CUA) – des systèmes qui automatisent des tâches en visualisant des écrans et en exécutant des actions – présente un défi fondamental : les agents actuels nécessitent une observation continue de l'état de l'interface utilisateur pour déterminer chaque action, ce qui entre en conflit avec l'isolation requise pour la sécurité. Nous résolvons cette tension en démontrant que les flux de travail des interfaces utilisateur, bien que dynamiques, sont structurellement prévisibles. Nous introduisons la planification en une seule étape pour les CUA, où un planificateur de confiance génère un graphe d'exécution complet avec des branches conditionnelles avant toute observation de contenu potentiellement malveillant, fournissant des garanties vérifiables d'intégrité du flux de contrôle contre les injections d'instructions arbitraires. Bien que cette isolation architecturale prévienne avec succès les injections d'instructions, nous montrons que des mesures supplémentaires sont nécessaires pour prévenir les attaques par détournement de branche, qui manipulent les éléments de l'interface utilisateur pour déclencher des chemins valides non intentionnels dans le plan. Nous évaluons notre conception sur OSWorld et conservons jusqu'à 57 % des performances des modèles de pointe tout en améliorant les performances des modèles open source plus petits jusqu'à 19 %, démontrant qu'une sécurité rigoureuse et l'utilité peuvent coexister dans les CUA.
Nous présentons WildRayZer, un cadre auto-supervisé pour la synthèse de nouvelles vues (NVS) dans des environnements dynamiques où la caméra et les objets sont en mouvement. Le contenu dynamique rompt la cohérence multi-vues sur laquelle reposent les modèles NVS statiques, entraînant des effets de fantôme, une géométrie hallucinée et une estimation de pose instable. WildRayZer résout ce problème en effectuant un test d'analyse par synthèse : un moteur de rendu statique uniquement pour la caméra explique la structure rigide, et ses résidus révèlent les régions transitoires. À partir de ces résidus, nous construisons des masques de mouvement pseudo, distillons un estimateur de mouvement et l'utilisons pour masquer les tokens d'entrée et contrôler les gradients de perte, afin que la supervision se concentre sur la complétion de l'arrière-plan inter-vues. Pour permettre un entraînement et une évaluation à grande échelle, nous constituons Dynamic RealEstate10K (D-RE10K), un jeu de données réel de 15 000 séquences dynamiques capturées de manière informelle, et D-RE10K-iPhone, un benchmark apparié de vues transitoires et propres pour la NVS éparse consciente des transitoires. Les expériences montrent que WildRayZer surpasse constamment les méthodes de référence par optimisation et à passe avant, à la fois dans l'élimination des régions transitoires et dans la qualité NVS de l'image complète, avec une seule passe avant.
Les grands modèles de langage (LLM) présentent souvent des motifs d'attention en diagonale, où les scores d'attention se concentrent le long de la sous-diagonale Δ pour un certain décalage Δ. Ces motifs jouent un rôle clé dans la transmission d'informations entre les tokens. Mais pourquoi émergent-ils ? Dans cet article, nous démystifions l'émergence de ces Têtes à Dominance Diagonale (SDH) sous des perspectives empirique et théorique. Premièrement, en analysant des LLM open-source, nous constatons que les SDH sont intrinsèques aux modèles et se généralisent à des prompts hors distribution. Pour expliquer cette émergence intrinsèque, nous analysons les requêtes, les clés et l'Encodage Positionnel Rotationnel (RoPE), qui déterminent conjointement les scores d'attention. Notre analyse empirique révèle deux conditions caractéristiques des SDH : (1) Les requêtes et les clés sont presque de rang un, et (2) Le RoPE est dominé par des composantes de fréquences moyennes et élevées. Sous ces conditions, les requêtes et les clés sont quasi identiques d'un token à l'autre, et les interactions entre les composantes de fréquences moyennes et élevées du RoPE donnent naissance aux SDH. Au-delà des preuves empiriques, nous montrons théoriquement que ces conditions sont suffisantes pour garantir l'émergence des SDH en les formalisant comme nos hypothèses de modélisation. En particulier, nous analysons la dynamique d'apprentissage d'un Transformer peu profond équipé de RoPE sous ces conditions, et prouvons que les modèles entraînés par descente de gradient présentent des SDH. Les SDH se généralisent à des prompts hors distribution.
Les grands modèles de langage (LLM) sont devenus un pilier pour de nombreuses applications quotidiennes. Cependant, avec l'évolution des données, leurs connaissances deviennent rapidement obsolètes. L'apprentissage continu vise à mettre à jour les LLM avec de nouvelles informations sans effacer les connaissances préalablement acquises. Bien que des méthodes comme le réglage fin complet puissent intégrer de nouvelles données, elles sont coûteuses en calcul et sujettes à l'oubli catastrophique, où les connaissances antérieures sont écrasées. Les approches à mémoire augmentée abordent ce problème en équipant les LLM d'une banque de mémoire, c'est-à-dire un module de mémoire externe qui stocke des informations pour une utilisation future. Cependant, ces méthodes rencontrent une limite critique : en particulier, la banque de mémoire ne cesse de croître dans un scénario réel lorsque des flux de données à grande échelle arrivent. Dans cet article, nous proposons MBC, un modèle qui compresse la banque de mémoire via une stratégie d'optimisation par codebook pendant l'apprentissage d'adaptation en ligne. Pour garantir un apprentissage stable, nous introduisons également un mécanisme de réinitialisation en ligne qui empêche l'effondrement du codebook. De plus, nous utilisons l'adaptation Key-Value Low-Rank dans les couches d'attention du LLM, permettant une utilisation efficace des représentations mémorielles compressées. Des expériences avec des ensembles de données de référence pour la question-réponse démontrent que MBC réduit la taille de la banque de mémoire à 0,3 % par rapport à la base de référence la plus compétitive, tout en maintenant une haute précision de rétention pendant l'apprentissage d'adaptation en ligne. Notre code est disponible publiquement à l'adresse https://github.com/Thomkat/MBC.