Articles de recherche IA sélectionnés quotidiennement avec traductions
Les modèles vidéo autorégressifs (AR) distillés permettent une génération efficace en flux continu, mais s'alignent souvent mal avec les préférences visuelles humaines. Les cadres d'apprentissage par renforcement (RL) existants ne sont pas naturellement adaptés à ces architectures, nécessitant généralement soit une re-distillation coûteuse, soit une optimisation du processus inverse couplée à un solveur qui introduit des surcharges mémoire et computationnelles considérables. Nous présentons Astrolabe, un cadre RL en ligne efficace conçu pour les modèles AR distillés. Pour surmonter les goulots d'étranglement existants, nous introduisons une formulation RL basée sur le processus direct via un réglage fin négatif. En confrontant directement les échantillons positifs et négatifs aux points d'inférence, cette approche établit une direction d'amélioration implicite de la politique sans nécessiter de déroulement du processus inverse. Pour adapter cet alignement à de longues vidéos, nous proposons un schéma d'entraînement en flux continu qui génère les séquences progressivement via un cache KV glissant, en appliquant les mises à jour RL exclusivement sur des fenêtres de clips locales tout en conditionnant sur le contexte antérieur pour assurer une cohérence à long terme. Enfin, pour atténuer le détournement de récompense, nous intégrons un objectif à récompenses multiples stabilisé par une régularisation sélective tenant compte de l'incertitude et des mises à jour dynamiques de référence. Des expériences approfondies démontrent que notre méthode améliore constamment la qualité de génération sur plusieurs modèles vidéo AR distillés, servant de solution d'alignement robuste et évolutive.
Les modèles de vision-langage (VLM) démontrent de solides capacités multimodales, mais peinent encore avec le raisonnement vision-langage à granularité fine. Nous constatons que les raisonnements à chaîne de pensée (CoT) longs exposent divers modes d'échec, incluant des erreurs de perception, de raisonnement, de connaissance et des hallucinations, qui peuvent s'accumuler à travers les étapes intermédiaires. Cependant, la plupart des données vision-langage existantes utilisées pour le RLVR n'impliquent pas de chaînes de raisonnement complexes s'appuyant sur des preuves visuelles tout au long du processus, laissant ces faiblesses largement inexplorées. Nous proposons donc HopChain, un cadre évolutif pour synthétiser des données de raisonnement vision-langage multi-sauts spécifiquement pour l'entraînement RLVR des VLM. Chaque requête multi-sauts synthétisée forme une chaîne logiquement dépendante de sauts ancrés dans des instances, où les premiers sauts établissent les instances, ensembles ou conditions nécessaires aux sauts suivants, tandis que la réponse finale reste un nombre spécifique et non ambigu, adapté à des récompenses vérifiables. Nous ajoutons les données multi-sauts synthétisées par HopChain aux données RLVR originales utilisées pour entraîner Qwen3.5-35B-A3B et Qwen3.5-397B-A17B, et comparons les performances par rapport à l'utilisation des seules données RLVR originales sur 24 benchmarks couvrant les STEM et puzzles, la VQA générale, la reconnaissance de texte et la compréhension de documents, et la compréhension vidéo. Bien que ces données multi-sauts ne soient pas synthétisées pour cibler un benchmark spécifique, leur ajout améliore 20 des 24 benchmarks sur les deux modèles, indiquant des gains étendus et généralisables. Pour démontrer l'importance des requêtes entièrement chaînées, nous les remplaçons par des variantes demi-multi-sauts ou à saut unique, réduisant respectivement la précision moyenne sur les 24 benchmarks de 5,3 et 7,0 points. L'entraînement multi-sauts renforce également le raisonnement vision-langage par CoT long, avec des gains culminant à plus de 50 points de précision dans le régime CoT ultra-long. Ces expériences établissent HopChain comme un cadre efficace et évolutif pour synthétiser des données multi-sauts qui améliorent le raisonnement vision-langage généralisable.
Les modèles vision-langage (VLM) ont montré des résultats prometteurs en observation de la Terre (OT), mais ils peinent avec les tâches nécessitant un ancrage de raisonnements spatiaux complexes dans des représentations visuelles précises au niveau pixel. Pour résoudre ce problème, nous présentons TerraScope, un VLM unifié qui réalise un raisonnement géospatial ancré sur les pixels grâce à deux capacités clés : (1) un raisonnement flexible multimodal : il traite des entrées unimodales (optiques ou SAR) et fusionne de manière adaptative différentes modalités dans le processus de raisonnement lorsque les deux sont disponibles ; (2) un raisonnement multi-temporel : il intègre des séquences temporelles pour l'analyse des changements sur plusieurs dates. De plus, nous constituons Terra-CoT, un jeu de données à grande échelle contenant 1 million d'échantillons avec des masques au niveau pixel intégrés dans des chaînes de raisonnement issues de multiples sources. Nous proposons également TerraScope-Bench, le premier benchmark pour le raisonnement géospatial ancré sur les pixels, comprenant six sous-tâches évaluant à la fois la précision des réponses et la qualité des masques pour garantir un raisonnement authentiquement ancré sur les pixels. Les expériences montrent que TerraScope surpasse significativement les VLM existants en raisonnement géospatial ancré sur les pixels tout en fournissant des preuves visuelles interprétables.
Les systèmes d'IA auto-améliorants visent à réduire la dépendance à l'ingénierie humaine en apprenant à améliorer leurs propres processus d'apprentissage et de résolution de problèmes. Les approches existantes d'auto-amélioration reposent sur des mécanismes métas fixes et artisanaux, limitant fondamentalement la rapidité d'amélioration de tels systèmes. La Machine de Gödel Darwin (DGM) démontre une auto-amélioration ouverte en programmation en générant et évaluant répétitivement des variants auto-modifiés. Étant donné que l'évaluation et l'auto-modification sont des tâches de programmation, les gains en capacité de codage peuvent se traduire par des gains en capacité d'auto-amélioration. Cependant, cet alignement ne se vérifie généralement pas au-delà des domaines de la programmation. Nous introduisons les hyperagents, des agents autoréférentiels qui intègrent un agent de tâche (qui résout la tâche cible) et un agent méta (qui se modifie lui-même et l'agent de tâche) en un seul programme modifiable. Crucialement, la procédure de modification au niveau méta est elle-même modifiable, permettant une auto-modification métacognitive, améliorant non seulement le comportement de résolution de tâches, mais aussi le mécanisme qui génère les améliorations futures. Nous instancions ce cadre en étendant la DGM pour créer les DGM-Hyperagents (DGM-H), éliminant l'hypothèse d'un alignement spécifique au domaine entre la performance à la tâche et la compétence d'auto-modification, pour potentiellement soutenir un progrès auto-accéléré sur toute tâche calculable. À travers divers domaines, le DGM-H améliore ses performances au fil du temps et surpasse les systèmes de référence sans auto-amélioration ou exploration ouverte, ainsi que les systèmes auto-améliorants antérieurs. De plus, le DGM-H améliore le processus par lequel il génère de nouveaux agents (par exemple, mémoire persistante, suivi des performances), et ces améliorations au niveau méta se transfèrent entre les domaines et s'accumulent entre les exécutions. Les DGM-Hyperagents offrent un aperçu de systèmes d'IA ouverts qui ne se contentent pas de rechercher de meilleures solutions, mais améliorent continuellement leur recherche sur la manière de s'améliorer.
Une collaboration efficace commence par savoir quand demander de l'aide. Par exemple, pour identifier un objet occlus, un humain demanderait à quelqu'un de retirer l'obstruction. Les MLLM peuvent-ils faire preuve d'un comportement « proactif » similaire en sollicitant des interventions simples de l'utilisateur ? Pour investiguer cela, nous présentons ProactiveBench, un benchmark constitué de sept jeux de données réaffectés qui teste la proactivité sur différentes tâches telles que la reconnaissance d'objets occultés, l'amélioration de la qualité d'image et l'interprétation de croquis grossiers. Nous évaluons 22 MLLM sur ProactiveBench, montrant que (i) ils manquent généralement de proactivité ; (ii) la proactivité ne corrèle pas avec la capacité du modèle ; (iii) « suggérer » la proactivité n'apporte que des gains marginaux. De manière surprenante, nous avons constaté que les historiques de conversation et l'apprentissage en contexte introduisent des biais négatifs, entravant les performances. Enfin, nous explorons une stratégie simple de fine-tuning basée sur l'apprentissage par renforcement : ses résultats suggèrent que la proactivité peut être apprise, généralisant même à des scénarios non vus. Nous rendons ProactiveBench public comme une première étape vers la construction de modèles multimodaux proactifs.
Les modèles de langage de grande taille (LLM) sont de plus en plus utilisés comme raisonneurs généralistes, mais les entrées longues restent limitées par une fenêtre de contexte fixe. Les modèles de langage récursifs (RLM) abordent ce problème en externalisant l'invite et en résolvant récursivement des sous-problèmes. Cependant, les RLM existants dépendent d'une boucle lecture-évaluation-impression (REPL) ouverte dans laquelle le modèle génère du code de contrôle arbitraire, rendant l'exécution difficile à vérifier, à prédire et à analyser. Nous présentons λ-RLM, un cadre pour le raisonnement en contexte long qui remplace la génération récursive de code libre par un runtime fonctionnel typé fondé sur le λ-calcul. Il exécute une bibliothèque compacte de combinateurs pré-vérifiés et n'utilise l'inférence neuronale que sur des sous-problèmes feuilles bornés, transformant le raisonnement récursif en un programme fonctionnel structuré avec un flux de contrôle explicite. Nous montrons que λ-RLM admet des garanties formelles absentes des RLM standards, incluant la terminaison, des bornes de coût en forme close, un contrôle de la précision selon la profondeur de récursion, et une règle de partition optimale sous un modèle de coût simple. Empiriquement, sur quatre tâches de raisonnement en contexte long et neuf modèles de base, λ-RLM surpasse le RLM standard dans 29 des 36 comparaisons modèle-tâche, améliore la précision moyenne jusqu'à +21,9 points sur les différents niveaux de modèles, et réduit la latence jusqu'à 4,1 fois. Ces résultats montrent que le contrôle symbolique typé offre une base plus fiable et efficace pour le raisonnement en contexte long que la génération récursive de code ouverte. L'implémentation complète de λ-RLM est open-source pour la communauté à : https://github.com/lambda-calculus-LLM/lambda-RLM.
La génération de scènes possède des applications industrielles étendues, exigeant à la fois un réalisme élevé et un contrôle précis de la géométrie et de l'apparence. Les méthodes de récupération pilotées par le langage composent des scènes plausibles à partir d'une vaste base de données d'objets, mais négligent le contrôle au niveau objet et échouent souvent à imposer une cohérence stylistique au niveau scène. Les formulations basées sur les graphes offrent une contrôlabilité accrue sur les objets et informent la cohérence holistique en modélisant explicitement les relations, mais les méthodes existantes peinent à produire des résultats texturés de haute fidélité, limitant ainsi leur utilité pratique. Nous présentons FlowScene, un modèle génératif de scènes à trois branches conditionné par des graphes multimodaux qui génère de manière collaborative les agencements de scène, les formes d'objets et les textures des objets. Son cœur repose sur un modèle de flux rectifié étroitement couplé qui échange des informations sur les objets pendant la génération, permettant un raisonnement collaboratif à travers le graphe. Cela permet un contrôle granulaire des formes, des textures et des relations des objets tout en imposant une cohérence stylistique au niveau scène à travers la structure et l'apparence. Des expériences approfondies montrent que FlowScene surpasse les lignes de base conditionnées par le langage et par graphe en termes de réalisme de la génération, de cohérence stylistique et d'alignement avec les préférences humaines.
Les progrès récents des modèles de diffusion ont considérablement amélioré la génération vidéo à partir de texte, permettant la création de contenu personnalisé avec un contrôle granulaire des éléments de premier plan et d'arrière-plan. Cependant, l'alignement précis des attributs faciaux entre différents sujets reste difficile, car les méthodes existantes manquent de mécanismes explicites pour garantir la cohérence intra-groupe. Combler cette lacune nécessite à la fois des stratégies de modélisation explicite et des ressources de données sensibles aux attributs faciaux. Nous proposons donc LumosX, un cadre qui fait progresser à la fois les données et la conception du modèle. Sur le plan des données, un pipeline de collecte sur mesure orchestre les légendes et indices visuels provenant de vidéos indépendantes, tandis que les grands modèles linguistiques multimodaux (MLLM) infèrent et attribuent des dépendances spécifiques aux sujets. Ces relations a priori extraites imposent une structure plus fine qui amplifie le contrôle expressif de la génération vidéo personnalisée et permet la construction d'un benchmark complet. Sur le plan de la modélisation, l'auto-attention relationnelle et l'attention croisée relationnelle entrelacent des embeddings sensibles à la position avec une dynamique d'attention raffinée pour inscrire des dépendances explicites sujet-attribut, imposant une cohésion intra-groupe disciplinée et amplifiant la séparation entre clusters de sujets distincts. Des évaluations complètes sur notre benchmark démontrent que LumosX atteint des performances de pointe en génération vidéo multi-sujets personnalisée, granulaire, cohérente en identité et alignée sémantiquement. Le code et les modèles sont disponibles à l'adresse https://jiazheng-xing.github.io/lumosx-home/.
L'incitation par chaîne de pensée (CoT) améliore la précision des LLM sur les tâches complexes, mais augmente souvent l'utilisation de tokens et le coût d'inférence. Les méthodes existantes de "forçage budgétaire" réduisent les coûts via un ajustement fin avec des pénalités de longueur heuristiques, mais suppriment à la fois le raisonnement essentiel et les éléments de remplissage redondants. Nous reformulons le raisonnement efficace comme un problème de compression avec pertes sous le principe du goulot d'étranglement informationnel (IB), et identifions une lacune théorique clé lors de l'application de l'IB naïf aux transformers : l'attention viole la propriété de Markov entre l'invite, la trace de raisonnement et la réponse. Pour résoudre ce problème, nous modélisons la génération CoT sous le principe du goulot d'étranglement informationnel conditionnel (CIB), où la trace de raisonnement Z agit comme un pont computationnel contenant uniquement l'information sur la réponse Y qui n'est pas directement accessible depuis l'invite X. Cela produit un objectif général d'apprentissage par renforcement : maximiser la récompense de tâche tout en compressant les complétions sous une a priori sur les traces de raisonnement, englobant les heuristiques courantes (par exemple, les pénalités de longueur) comme cas particuliers (par exemple, des a priori uniformes). Contrairement aux approches naïves basées sur le décompte de tokens, nous introduisons un a priori sémantique qui mesure le coût des tokens par la surprisal sous un a priori de modèle de langage. Empiriquement, notre objectif CIB élimine l'encombrement cognitif tout en préservant la fluidité et la logique, améliorant la précision à une compression modérée et permettant une compression agressive avec une baisse de précision minimale.
Les agents basés sur de grands modèles de langage (LLM) sont apparus comme des contrôleurs autonomes puissants pour les environnements numériques, y compris les interfaces mobiles, les systèmes d'exploitation et les navigateurs web. La navigation web, par exemple, nécessite de gérer un contenu dynamique et de longues séquences d'actions, ce qui la rend particulièrement difficile. Les agents existants basés sur des LLM peinent dans la planification à long terme de deux manières principales. Durant l'exécution en ligne, ils perdent souvent le fil à mesure que de nouvelles informations arrivent, manquant d'une trajectoire claire et adaptable vers l'objectif final. Ce problème est encore exacerbé lors du fine-tuning par apprentissage par renforcement (RL), où des récompenses rares et retardées rendent difficile pour les agents d'identifier les actions menant au succès, les empêchant de maintenir un raisonnement cohérent sur des tâches prolongées. Pour relever ces défis, nous proposons deux contributions. Premièrement, nous introduisons un cadre d'agent qui exploite des modèles propriétaires pour la planification en ligne via la décomposition en sous-buts. Deuxièmement, nous présentons MiRA (Milestoning your Reinforcement Learning Enhanced Agent), un cadre d'entraînement par RL qui utilise des signaux de récompense denses basés sur des jalons. Le mécanisme de planification en temps réel améliore les modèles propriétaires tels que Gemini d'environ 10% d'augmentation absolue du taux de réussite (SR) sur le benchmark WebArena-Lite. Parallèlement, l'application de MiRA au modèle ouvert Gemma3-12B fait passer son taux de réussite de 6,4% à 43,0%. Cette performance surpasse les systèmes propriétaires tels que GPT-4-Turbo (17,6%) et GPT-4o (13,9%), ainsi que l'état de l'art précédent pour les modèles ouverts, WebRL (38,4%). Globalement, nos résultats démontrent que combiner une planification explicite au moment de l'inférence avec des récompenses basées sur des jalons améliore significativement les capacités des agents sur un horizon long, ouvrant la voie à des systèmes autonomes plus robustes et généralistes.
La génération contrôlée de vidéos a connu des améliorations spectaculaires ces dernières années. Cependant, modifier des actions et des événements dynamiques, ou insérer des éléments qui devraient influencer le comportement d'autres objets dans des vidéos du monde réel, reste un défi majeur. Les modèles existants entraînés peinent à réaliser des modifications complexes, probablement en raison de la difficulté à collecter des données d'entraînement pertinentes. De même, les méthodes existantes sans entraînement sont intrinsèquement limitées à des modifications préservant la structure et le mouvement et ne permettent pas de modifier le mouvement ou les interactions. Nous présentons ici DynaEdit, une méthode d'édition sans entraînement qui déverrouille des capacités d'édition vidéo polyvalentes avec des modèles de flux vidéo texte-à-vidéo pré-entraînés. Notre méthode s'appuie sur l'approche récemment introduite sans inversion, qui n'intervient pas dans les mécanismes internes du modèle, et est donc agnostique au modèle. Nous montrons qu'une tentative naïve d'adapter cette approche à une édition générale non contrainte entraîne un grave désalignement basse fréquence et un scintillement haute fréquence. Nous expliquons les origines de ces phénomènes et introduisons de nouveaux mécanismes pour les surmonter. Grâce à des expériences approfondies, nous montrons que DynaEdit obtient des résultats state-of-the-art sur des tâches complexes d'édition vidéo basée sur le texte, incluant la modification d'actions, l'insertion d'objets interagissant avec la scène et l'introduction d'effets globaux.
Les modèles de langage à boucles (LoopLMs) effectuent un calcul latent itératif pour affiner leurs représentations internes, offrant une alternative prometteuse au raisonnement explicite par enchaînement de pensées (CoT). Cependant, les paradigmes existants d'apprentissage par renforcement (RL) ciblent principalement les tokens de sortie, créant un décalage structurel avec les architectures bouclées dont le raisonnement se déroule de manière implicite. Dans ce travail, nous proposons LoopRPT, un cadre de pré-entraînement par renforcement conçu pour les LoopLMs. En reformulant la prédiction du token suivant comme une tâche de raisonnement pour le token suivant, LoopRPT attribue les signaux de renforcement directement aux étapes latentes en utilisant une référence enseignante EMA et des déploiements latents bruités. Cette formulation permet au RL de façonner directement les représentations intermédiaires, compressant le raisonnement efficace en moins d'itérations. Nous instancions LoopRPT sur l'architecture Ouro à plusieurs échelles de modèles. Les résultats démontrent que LoopRPT améliore constamment la qualité des représentations par étape, atteignant une dominance de Pareto dans les compromis précision-calcul. Notamment, des gains significatifs sur les tokens difficiles indiquent que LoopRPT améliore le raisonnement aux stades précoces plutôt que de simplement encourager des sorties prématurées. Nos résultats soulignent le pré-entraînement par renforcement comme un paradigme fondé pour apprendre un raisonnement latent efficace dans les LoopLMs.
Les grands modèles linguistiques éprouvent souvent des difficultés avec les tâches analytiques complexes à long terme sur des tables non structurées, qui présentent généralement des en-têtes hiérarchiques bidirectionnels et des mises en page non canoniques. Nous formalisons ce défi sous le nom de Recherche Tabulaire Profonde (RTP), qui nécessite un raisonnement multi-étapes sur des régions tabulaires interdépendantes. Pour relever ce défi, nous proposons un nouveau cadre agentique qui traite le raisonnement tabulaire comme un processus décisionnel en boucle fermée. Nous concevons soigneusement une compréhension couplée requête-table pour la prise de décision de cheminement et l'exécution opérationnelle. Plus précisément, (i) la RTP construit d'abord un méta-graphe hiérarchique pour capturer la sémantique bidirectionnelle, en mappant les requêtes en langage naturel dans un espace de recherche au niveau opérationnel ; (ii) Pour naviguer dans cet espace, nous introduisons une politique de sélection sensible aux attentes qui priorise les chemins d'exécision à forte utilité ; (iii) De manière cruciale, les résultats d'exécution historiques sont synthétisés dans une mémoire structurée siamois, c'est-à-dire des mises à jour paramétrées et des textes abstraits, permettant un raffinement continu. Des expériences approfondies sur des benchmarks tabulaires non structurés exigeants vérifient l'efficacité de notre approche et soulignent la nécessité de séparer la planification stratégique de l'exécution opérationnelle pour le raisonnement tabulaire à long terme.
Étant donné la capacité remarquable des modèles de fondation d'images 2D à générer des résultats de haute fidélité, nous investiguons une question fondamentale : les modèles de fondation d'images 2D possèdent-ils intrinsèquement des capacités de modélisation du monde 3D ? Pour y répondre, nous évaluons systématiquement plusieurs modèles de génération d'images et modèles vision-langage (VLM) de pointe sur la tâche de synthèse de mondes 3D. Pour exploiter et évaluer leur potentielle capacité 3D implicite, nous proposons un cadrage agentique pour faciliter la génération de mondes 3D. Notre approche emploie une architecture multi-agents : un directeur basé sur un VLM qui formule des prompts pour guider la synthèse d'images, un générateur qui synthétise de nouvelles vues d'images, et un vérificateur en deux étapes soutenu par un VLM qui évalue et sélectionne de manière curatoriale les images générées, à la fois dans l'espace de l'image 2D et de la reconstruction 3D. De manière cruciale, nous démontrons que notre approche agentique fournit une reconstruction 3D cohérente et robuste, produisant des scènes de sortie qui peuvent être explorées en rendant de nouvelles vues. Par des expériences approfondies sur divers modèles de fondation, nous démontrons que les modèles 2D encapsulent bel et bien une compréhension des mondes 3D. En exploitant cette compréhension, notre méthode synthétise avec succès des mondes expansifs, réalistes et cohérents en 3D.
L'expansion exponentielle des fenêtres de contexte dans les LLM a débloqué des capacités de compréhension de documents longs, mais a introduit de sévères goulots d'étranglement en latence d'inférence et en utilisation de l'information. Les méthodes de compression existantes souffrent souvent de coûts d'entraînement élevés ou de fragmentation sémantique due à un élagage agressif des tokens. Dans cet article, nous proposons BEAVER, un nouveau cadre sans entraînement qui déplace la compression d'une suppression linéaire de tokens vers une sélection hiérarchique sensible à la structure. BEAVER maximise le parallélisme matériel en mappant des contextes de longueur variable dans des tenseurs denses au niveau de la page via un pooling à double voie, et préserve l'intégrité du discours grâce à un planificateur hybride combinant une sélection à double branche sémantique et lexicale avec un lissage de phrases. Des évaluations approfondies sur quatre benchmarks à contexte long démontrent que BEAVER atteint des performances comparables aux méthodes de pointe (SOTA) comme LongLLMLingua. Notamment, sur le benchmark RULER, BEAVER maintient une haute fidélité dans la récupération multi-aiguille où les méthodes de référence se dégradent. En termes d'efficacité, BEAVER réduit la latence d'un facteur 26,4 sur des contextes de 128k, offrant une solution évolutive pour les applications à haut débit. Notre code est disponible à l'adresse https://cslikai.cn/BEAVER/.
Une hypothèse largement répandue pour expliquer pourquoi les modèles de recommandation générative (RG) surpassent les modèles conventionnels basés sur les ID d'items est qu'ils généralisent mieux. Cependant, il existe peu de méthodes systématiques pour vérifier cette hypothèse au-delà d'une comparaison superficielle des performances globales. Pour combler cette lacune, nous catégorisons chaque instance de données en fonction de la capacité spécifique requise pour une prédiction correcte : soit la mémorisation (réutiliser des patterns de transition d'items observés pendant l'entraînement), soit la généralisation (combiner des patterns connus pour prédire des transitions d'items non vues). Des expériences approfondies montrent que les modèles RG obtiennent de meilleures performances sur les instances nécessitant une généralisation, tandis que les modèles basés sur les ID d'items performent mieux lorsque la mémorisation est plus importante. Pour expliquer cette divergence, nous déplaçons l'analyse du niveau de l'item vers le niveau du token et montrons que ce qui apparaît comme une généralisation au niveau de l'item se réduit souvent à une mémorisation au niveau du token pour les modèles RG. Enfin, nous montrons que les deux paradigmes sont complémentaires. Nous proposons un indicateur simple, sensible à la mémorisation, qui les combine de manière adaptative sur une base par instance, conduisant à une amélioration des performances globales de recommandation.
Les modèles génératifs de mondes ont montré des résultats prometteurs pour la simulation d'environnements dynamiques, mais la vidéo égocentrique reste difficile en raison des changements rapides de point de vue, des interactions fréquentes main-objet et des procédures dirigées par un but dont l'évolution dépend de l'intention humaine latente. Les approches existantes se concentrent soit sur la synthèse instructionnelle centrée sur la main avec une évolution limitée de la scène, effectuent une translation de vue statique sans modéliser la dynamique des actions, ou reposent sur une supervision dense, telle que des trajectoires de caméra, de longs préfixes vidéo, une capture multicaméra synchronisée, etc. Dans ce travail, nous présentons EgoForge, un simulateur de monde égocentrique dirigé par un but qui génère des déroulements vidéo cohérents à la première personne à partir d'entrées statiques minimales : une seule image égocentrique, une instruction de haut niveau et une vue exocentrique auxiliaire optionnelle. Pour améliorer l'alignement sur l'intention et la cohérence temporelle, nous proposons VideoDiffusionNFT, un raffinement guidé par récompense au niveau de la trajectoire qui optimise l'achèvement du but, la causalité temporelle, la cohérence de la scène et la fidélité perceptuelle pendant l'échantillonnage par diffusion. Des expériences approfondies montrent qu'EgoForge obtient des gains constants en alignement sémantique, stabilité géométrique et fidélité du mouvement par rapport à des bases de référence solides, ainsi que des performances robustes dans des expériences en conditions réelles sur lunettes intelligentes.
La réponse à des questions sur de longues vidéos nécessite un raisonnement sur des contextes temporels étendus, ce qui rend la sélection de frames critique pour les grands modèles vision-langage (LVLM) contraints par des fenêtres de contexte finies. Les méthodes existantes sont confrontées à un compromis marqué : les sélecteurs basés sur la similarité sont rapides mais réduisent les requêtes compositionnelles à un seul vecteur dense, perdant l'ordre des sous-événements et les liens intermodaux ; les méthodes agentives récupèrent cette structure via des inférences LVLM itératives, mais à un coût prohibitif. Nous présentons HiMu, un cadre sans apprentissage qui comble cet écart. Un seul appel à un LLM purement textuel décompose la requête en un arbre logique hiérarchique dont les feuilles sont des prédicats atomiques, chacun étant acheminé vers un expert léger couvrant la vision (CLIP, détection open-vocabulary, OCR) et l'audio (reconnaissance automatique de la parole, CLAP). Les signaux résultants sont normalisés, lissés temporellement pour aligner les différentes modalités, et composés de manière ascendante via des opérateurs de logique floue qui imposent un séquençage et une adjacence temporels, produisant une courbe de satisfaction continue. Les évaluations sur Video-MME, LongVideoBench et HERBench-Lite montrent que HiMu améliore le front de Pareto efficacité-précision : à 16 frames avec Qwen3-VL 8B, il surpasse tous les sélecteurs concurrents, et avec GPT-4o, il dépasse les systèmes agentiques opérant à 32-512 frames tout en nécessitant environ 10 fois moins de FLOPs.
Il est actuellement difficile de distiller des modèles de diffusion discrets. En revanche, la littérature sur la diffusion continue propose de nombreuses méthodes de distillation capables de réduire le nombre d'étapes d'échantillonnage à seulement quelques-unes. Notre méthode, la *Distillation par Appariement des Moments Discrets* (D-MMD), exploite des idées qui ont connu un grand succès dans le domaine continu. Alors que les méthodes de distillation discrètes précédentes s'effondrent, la D-MMD préserve une qualité et une diversité élevées (pour un nombre d'étapes d'échantillonnage suffisant). Ceci est démontré sur des ensembles de données textuels et image. De plus, les nouveaux générateurs distillés peuvent surpasser leurs enseignants.
L'apprentissage par renforcement (APR) est devenu un paradigme standard pour le post-entraînement et l'alignement des grands modèles de langage (LLM). Pourtant, des preuves récentes suggèrent qu'il se heurte à un "plafond de capacités" persistant : contrairement aux systèmes d'APR classiques qui découvrent de nouvelles stratégies, l'APR pour les LLM agit souvent comme un simple raffineur de modèles déjà latents dans les poids pré-entraînés. Dans ce travail, nous identifions un goulot d'étranglement structurel fondamental : alors que l'APR classique repose sur des états de Markov compacts et informatifs, les formulations actuelles du post-entraînement des LLM sont entravées par un historique d'actions sans cesse croissant. Nous revisitons un principe classique, longtemps central en APR mais absent du post-entraînement des LLM : les états de Markov explicites. Sur le plan théorique, nous fournissons des garanties rigoureuses démontrant que l'exploitation d'états de Markov estimés peut réduire significativement la complexité en échantillons. Empiriquement, nous montrons que l'introduction d'états de Markov dépasse systématiquement les limites de performance du post-entraînement par APR standard sur une série d'énigmes logiques complexes. Nos résultats suggèrent que dépasser la modélisation "de l'historique-comme-état" en faveur de représentations markoviennes structurées est essentiel pour débloquer la découverte ouverte et de véritables capacités de raisonnement nouvelles dans l'IA générative.
La science des données joue un rôle essentiel dans la transformation de données complexes en informations exploitables à travers de nombreux domaines. Les récents développements des grands modèles de langage (LLM) et des agents d'intelligence artificielle (IA) ont considérablement automatisé le flux de travail en science des données. Cependant, on ignore encore dans quelle mesure les agents d'IA peuvent égaler la performance des experts humains sur des tâches de science des données spécifiques à un domaine, et dans quels aspects l'expertise humaine continue d'offrir des avantages. Nous présentons AgentDS, un benchmark et une compétition conçus pour évaluer les performances des agents d'IA ainsi que la collaboration humain-IA dans le cadre de la science des données domain-spécifique. AgentDS comprend 17 défis répartis dans six secteurs industriels : commerce, production alimentaire, santé, assurance, fabrication et banque de détail. Nous avons organisé une compétition ouverte impliquant 29 équipes et 80 participants, permettant une comparaison systématique entre les approches de collaboration humain-IA et les bases de référence reposant uniquement sur l'IA. Nos résultats montrent que les agents d'IA actuels éprouvent des difficultés avec le raisonnement domain-spécifique. Les bases de référence exclusivement basées sur l'IA se situent près ou en dessous de la médiane des participants à la compétition, tandis que les solutions les plus performantes émergent de la collaboration humain-IA. Ces résultats remettent en question le récit d'une automatisation complète par l'IA et soulignent l'importance persistante de l'expertise humaine en science des données, tout en éclairant les orientations pour la prochaine génération d'IA. Visitez le site web d'AgentDS ici : https://agentds.org/ et les jeux de données open source ici : https://huggingface.co/datasets/lainmn/AgentDS.
Nous étudions la synthèse de politiques par LLM : l'utilisation d'un grand modèle de langage pour générer itérativement des politiques d'agents programmatiques dans des environnements multi-agents. Plutôt que d'entraîner des politiques neuronales par apprentissage par renforcement, notre framework sollicite un LLM pour produire des fonctions de politique en Python, les évalue en autoplay et les affine en utilisant les retours de performance sur plusieurs itérations. Nous étudions l'ingénierie du feedback (la conception des informations d'évaluation présentées au LLM lors de l'affinage) en comparant un feedback sparse (récompense scalaire uniquement) à un feedback dense (récompense plus des métriques sociales : efficacité, égalité, durabilité, paix). Sur deux dilemmes sociaux séquentiels canoniques (Gathering et Cleanup) et deux LLM de pointe (Claude Sonnet 4.6, Gemini 3.1 Pro), le feedback dense égale ou dépasse systématiquement le feedback sparse sur toutes les métriques. L'avantage est le plus marqué dans le jeu de biens publics Cleanup, où la fourniture de métriques sociales aide le LLM à calibrer le compromis coûteux entre nettoyage et récolte. Plutôt que de déclencher une sur-optimisation de l'équité, les métriques sociales servent de signal de coordination qui guide le LLM vers des stratégies coopératives plus efficaces, incluant le partitionnement territorial, l'attribution adaptative des rôles et l'évitement de l'agression stérile. Nous menons en outre une expérience adversarial pour déterminer si les LLM peuvent détourner les récompenses de ces environnements. Nous caractérisons cinq classes d'attaques et discutons des mesures d'atténuation, mettant en lumière une tension inhérente dans la synthèse de politiques par LLM entre expressivité et sécurité. Code disponible à l'adresse : https://github.com/vicgalle/llm-policies-social-dilemmas.
Nous développons une méthode pour produire des esquisses vectorielles partie par partie. Pour ce faire, nous entraînons un agent basé sur un modèle de langage multimodal en utilisant un nouveau processus d'apprentissage par renforcement à récompense processuelle multi-tours, après un réglage fin supervisé. Notre approche est rendue possible par un nouveau jeu de données que nous appelons ControlSketch-Part, contenant des annotations riches au niveau des parties pour les esquisses, obtenues grâce à un pipeline d'annotation automatique générique et novateur qui segmente les esquisses vectorielles en parties sémantiques et attribue des tracés aux parties via un processus d'étiquetage structuré en plusieurs étapes. Nos résultats indiquent que l'intégration de données structurées au niveau des parties et la fourniture d'un retour visuel à l'agent pendant le processus permettent une génération d'esquisses vectorielles à partir de texte interprétable, contrôlable et localement modifiable.
Les grands modèles vision-langage (VLM) utilisent souvent un backbone visuel figé, dont les caractéristiques d'image sont projetées dans un grand modèle de langage via un connecteur léger. Bien que les encodeurs basés sur des transformers constituent le backbone visuel standard, nous nous demandons si les backbones visuels basés sur des modèles à espace d'état (SSM) peuvent constituer une alternative solide. Nous évaluons systématiquement les backbones visuels SSM pour les VLM dans un cadre contrôlé. Avec une initialisation équivalente sur ImageNet-1K, le backbone SSM atteint les performances globales les plus fortes à la fois en VQA et en localisation/ancrage. Nous adaptons ensuite les backbones SSM et de la famille ViT avec un entraînement à la détection ou à la segmentation, et constatons que le réglage pour les tâches denses améliore généralement les performances pour les deux familles ; après cette adaptation, le backbone SSM reste compétitif tout en opérant à une échelle de modèle nettement plus réduite. Nous observons en outre que (i) une précision ImageNet plus élevée ou des backbones plus grands ne se traduisent pas de manière fiable par de meilleures performances des VLM, et (ii) certains backbones visuels sont instables en localisation. Sur la base de ces résultats, nous proposons des stratégies de stabilisation qui améliorent la robustesse pour les deux familles de backbones et mettons en évidence les backbones SSM comme une alternative solide aux encodeurs visuels basés sur des transformers dans les VLM.
Nous présentons un système RGB SLAM robuste et temps réel qui gère les environnements dynamiques en exploitant un ajustement de faisceaux différenciable et conscient de l'incertitude. Les méthodes SLAM traditionnelles supposent généralement des scènes statiques, ce qui entraîne des échecs de suivi en présence de mouvement. Les approches SLAM dynamiques récentes tentent de relever ce défi en utilisant des préalables dynamiques prédéfinis ou une cartographie sensible à l'incertitude, mais elles restent limitées face à des objets dynamiques inconnus ou des scènes très encombrées où la cartographie géométrique devient peu fiable. En revanche, notre méthode estime l'incertitude par pixel en exploitant l'incohérence des caractéristiques visuelles multi-vues, permettant un suivi et une reconstruction robustes même dans des environnements réels. Le système proposé atteint des poses de caméra et une géométrie de scène à l'état de l'art dans des scénarios dynamiques encombrés tout en fonctionnant en temps réel à environ 10 images par seconde. Le code et les jeux de données sont disponibles à l'adresse https://github.com/MoyangLi00/DROID-W.git.
Les grands modèles de langage (LLM) démontrent une forte intelligence générale, mais leurs performances multilingues restent très déséquilibrées. Bien que les LLM encodent des connaissances cross-lingues substantielles dans un espace sémantique unifié, ils peinent souvent à relier cette connaissance de manière fiable avec des langues peu dotées ou non vues. Heureusement, les modèles de traduction encodeur-décodeur pré-entraînés possèdent déjà des capacités multilingues équilibrées, suggérant un complément naturel aux LLM. Dans ce travail, nous proposons XBridge, une architecture compositionnelle encodeur-LLM-décodeur qui délègue la compréhension et la génération multilingues à des modèles de traduction externes pré-entraînés, tout en préservant le LLM comme cœur anglocentrique pour le traitement des connaissances générales. Pour résoudre le désalignement représentationnel résultant entre les modèles, nous introduisons des couches de mappage inter-modèles légères et un objectif d'alignement basé sur le transport optimal, permettant une cohérence sémantique fine pour la génération multilingue. Les expériences sur quatre LLM couvrant la compréhension, le raisonnement, la synthèse et la génération multilingues indiquent que XBridge surpasse les bases de référence solides, particulièrement sur les langues peu dotées et non vues précédemment, sans réentraîner le LLM.
La revue de code est une pratique essentielle en génie logiciel, où les développeurs examinent les modifications de code avant leur intégration afin d'en garantir la qualité, d'y détecter les défauts et d'en améliorer la maintenabilité. Ces dernières années, des agents IA capables de comprendre le contexte du code, de planifier des actions de revue et d'interagir avec les environnements de développement sont de plus en plus intégrés dans le processus de revue de code. Cependant, il existe peu de preuves empiriques comparant l'efficacité des agents IA et des réviseurs humains dans des workflows collaboratifs. Pour combler cette lacune, nous menons une analyse empirique à grande portée de 278 790 conversations de revue de code issues de 300 projets open-source GitHub. Notre étude vise à comparer les différences de feedback fournies par les réviseurs humains et les agents IA. Nous étudions les modèles de collaboration humain-IA dans les conversations de revue pour comprendre comment l'interaction façonne les résultats. De plus, nous analysons l'adoption des suggestions de code fournies par les réviseurs humains et les agents IA dans la base de code, et comment les suggestions adoptées modifient la qualité du code. Nous constatons que les réviseurs humains fournissent des retours supplémentaires par rapport aux agents IA, notamment en matière de compréhension, de test et de transfert de connaissances. Les réviseurs humains échangent 11,8 % de tours de conversation supplémentaires lorsqu'ils examinent du code généré par IA par rapport au code écrit par des humains. De plus, les suggestions de code faites par les agents IA sont adoptées dans la base de code à un taux significativement plus faible que celles proposées par les réviseurs humains. Plus de la moitié des suggestions non adoptées provenant d'agents IA sont soit incorrectes, soit traitées par des correctifs alternatifs par les développeurs. Lorsqu'elles sont adoptées, les suggestions fournies par les agents IA entraînent des augmentations significativement plus importantes de la complexité et de la taille du code que les suggestions des réviseurs humains. Nos résultats suggèrent que si les agents IA peuvent industrialiser la détection des défauts, la supervision humaine reste essentielle pour garantir la qualité des suggestions et fournir un retour contextuel que les agents IA ne possèdent pas.
Les problèmes hors-politique tels que la stagnation des politiques et l'écart entre entraînement et inférence sont devenus un goulot d'étranglement majeur pour la stabilité de l'entraînement et l'exploration ultérieure en apprentissage par renforcement pour LLM. Pour améliorer l'efficacité de l'inférence, l'écart de distribution entre la politique d'inférence et la politique mise à jour s'accroît, conduisant à des ratios d'importance à queue lourde. Ces ratios surviennent lorsque la politique est localement abrupte, ce qui amplifie les gradients abrupts et peut pousser les mises à jour hors de la région de confiance. Pour y remédier, nous proposons la Perturbation Adaptative par Couches (ALP) en injectant de petites perturbations apprenables dans les états cachés d'entrée de chaque couche durant les mises à jour, utilisées comme numérateur du ratio d'importance contre la politique d'inférence inchangée dans l'objectif. Intuitivement, en ajoutant un bruit contrôlé aux représentations intermédiaires, ALP empêche la politique mise à jour de dévier trop brutalement de la politique d'inférence, et élargit la famille de politiques pour couvrir la famille de politiques d'inférence avec des bruits de discordance. Ainsi, la distribution aplatie peut naturellement réduire l'écart entre les politiques mise à jour et d'inférence et atténuer la queue des ratios d'importance, maintenant ainsi la stabilité de l'entraînement. Ceci est empiriquement validé. Les expériences sur des tâches de raisonnement mathématique en tour unique et de raisonnement intégrant des outils en tours multiples montrent qu'ALP améliore non seulement les performances finales, mais évite aussi l'explosion de la queue du ratio d'importance et les pics de KL durant l'entraînement itératif, tout en stimulant l'exploration. Les études d'ablation révèlent que les perturbations au niveau des représentations sur toutes les couches sont les plus efficaces, surpassant substantiellement les variantes partielles et limitées aux logits.
Les grands modèles de langage (LLM) sont de plus en plus déployés dans des applications ayant un impact sociétal, soulevant des inquiétudes concernant les biais culturels qu'ils encodent. Nous sondons ces représentations en évaluant si les LLM peuvent effectuer un profilage d'auteur à partir de paroles de chansons dans un cadre zero-shot, en déduisant le genre et l'origine ethnique des chanteurs sans ajustement spécifique à la tâche. Sur plusieurs modèles open-source évalués sur plus de 10 000 paroles, nous constatons que les LLM atteignent des performances de profilage non négligeables mais démontrent un alignement culturel systématique : la plupart des modèles privilégient par défaut l'origine ethnique nord-américaine, tandis que DeepSeek-1.5B s'aligne plus fortement avec l'origine ethnique asiatique. Cette conclusion émerge à la fois des distributions de prédiction des modèles et d'une analyse de leurs justifications générées. Pour quantifier ces disparités, nous introduisons deux métriques d'équité, la Divergence de Précision Modal (MAD) et la Divergence de Rappel (RD), et montrons que Ministral-8B présente le biais ethnique le plus marqué parmi les modèles évalués, tandis que Gemma-12B montre le comportement le plus équilibré. Notre code est disponible sur GitHub (https://github.com/ValentinLafargue/CulturalProbingLLM).
Les approches neurosymboliques qui combinent les grands modèles de langage (LLM) avec des méthodes formelles ont récemment obtenu des résultats solides sur des benchmarks de démonstration de théorèmes orientés mathématiques. Cependant, la réussite sur des problèmes mathématiques de type concours ne démontre pas en soi la capacité à construire des preuves concernant des implémentations du monde réel. Nous comblons cette lacune avec un benchmark dérivé d'une bibliothèque cryptographique industrielle dont les routines assembleur sont déjà vérifiées dans HOL Light. s2n-bignum est une bibliothèque utilisée chez AWS pour fournir des routines assembleur rapides pour la cryptographie, et son exactitude est établie par vérification formelle. La tâche de vérification formelle de cette bibliothèque a été une réalisation significative pour le groupe de raisonnement automatique. Elle impliquait deux tâches : (1) spécifier précisément le comportement correct d'un programme comme une proposition mathématique, et (2) prouver que la proposition est correcte. Dans le cas de s2n-bignum, ces deux tâches ont été réalisées par des experts humains. Dans s2n-bignum-bench, nous fournissons la spécification formelle et demandons au LLM de générer un script de preuve qui est accepté par HOL Light dans un délai de vérification fixe. À notre connaissance, s2n-bignum-bench est le premier benchmark public axé sur la synthèse de preuves vérifiables par machine pour des routines assembleur cryptographiques industrielles de bas niveau dans HOL Light. Ce benchmark constitue un banc d'essai exigeant et pertinemment pratique pour évaluer la démonstration de théorèmes basée sur les LLM au-delà des mathématiques de compétition. Le code pour configurer et utiliser le benchmark est disponible ici : https://github.com/kings-crown/s2n-bignum-bench{s2n-bignum-bench}.
La reconstruction d'actifs 3D à partir d'images a longtemps nécessité des pipelines distincts pour la reconstruction géométrique, l'estimation des matériaux et la récupération de l'illumination, chacune présentant des limitations distinctes et une surcharge computationnelle. Nous présentons ReLi3D, le premier pipeline unifié de bout en bout qui reconstruit simultanément la géométrie 3D complète, les matériaux physiques à variation spatiale et l'illumination environnementale à partir d'images multivues éparses en moins d'une seconde. Notre idée clé est que les contraintes multivues peuvent considérablement améliorer la séparation des matériaux et de l'illumination, un problème qui reste fondamentalement mal posé pour les méthodes à image unique. La clé de notre approche est la fusion de l'entrée multivue via une architecture de conditionnement croisé par transformeur, suivie d'une nouvelle stratégie de prédiction unifiée à deux voies. La première voie prédit la structure et l'apparence de l'objet, tandis que la seconde prédit l'illumination environnementale à partir de l'arrière-plan de l'image ou des réflexions de l'objet. Ceci, combiné à un moteur de rendu différenciable par échantillonnage d'importance multiple de Monte Carlo, crée un pipeline d'entraînement optimal pour la séparation de l'illumination. De plus, avec notre protocole d'entraînement en domaine mixte, qui combine des ensembles de données PBR synthétiques avec des captures RGB du monde réel, nous obtenons des résultats généralisables en termes de géométrie, de précision des matériaux et de qualité d'illumination. En unifiant des tâches de reconstruction auparavant distinctes en une seule passe avant, nous permettons la génération quasi instantanée d'actifs 3D complets et relightables. Page du projet : https://reli3d.jdihlmann.com/
Les modèles de langage de grande taille multimodaux ont connu un succès significatif dans la compréhension vidéo hors ligne, mais leur application aux vidéos en flux continu est sévèrement limitée par l'explosion linéaire des tokens visuels, qui entraîne souvent des erreurs de dépassement de mémoire (OOM) ou un oubli catastrophique. Les méthodes existentes de rétention visuelle et de gestion de mémoire reposent généralement sur un échantillonnage uniforme, des métriques physiques de bas niveau ou une éviction passive du cache. Cependant, ces stratégies manquent souvent de conscience sémantique intrinsèque, risquant de perturber la cohérence contextuelle et d'estomper les transitions sémantiques critiques bien que transitoires. Pour résoudre ces limitations, nous proposons CurveStream, un cadre de gestion hiérarchique de mémoire visuelle sans apprentissage, conscient de la courbure. Notre approche est motivée par l'observation clé que les régions à forte courbure le long des trajectoires de caractéristiques continues correspondent étroitement aux transitions sémantiques globales critiques. Sur la base de cette intuition géométrique, CurveStream évalue l'intensité sémantique en temps réel via un Score de Courbure et intègre un seuil dynamique K-Sigma en ligne pour router de manière adaptative les images vers des états de mémoire claire et floue sous un budget strict de tokens. Les évaluations sur diverses échelles temporelles confirment que ce cadre léger, CurveStream, produit systématiquement des gains de performance absolus supérieurs à 10 % (par exemple, 10,69 % sur StreamingBench et 13,58 % sur OVOBench) par rapport aux lignes de base respectives, établissant de nouveaux résultats state-of-the-art pour la perception vidéo en flux continu. Le code sera publié à l'adresse https://github.com/streamingvideos/CurveStream.
La prolifération rapide des grands modèles de langage a considérablement accru la difficulté de distinguer les textes écrits par l'homme de ceux générés par l'IA, soulevant des enjeux critiques dans les domaines académique, éditorial et social. Cet article étudie le problème de la détection des textes générés par l'IA grâce à la conception, la mise en œuvre et l'évaluation comparative de plusieurs détecteurs fondés sur l'apprentissage automatique. Quatre architectures neuronales sont développées et analysées : un Perceptron Multicouche, un Réseau de Neurones Convolutif unidimensionnel, un CNN basé sur MobileNet et un modèle Transformer. Les modèles proposés sont comparés à des détecteurs en ligne largement utilisés, notamment ZeroGPT, GPTZero, QuillBot, Originality.AI, Sapling, IsGen, Rephrase et Writer. Les expériences sont menées sur le jeu de données multilingue COLING, en considérant les configurations anglaise et italienne, ainsi que sur un jeu de données thématique original axé sur l'Art et la Santé Mentale. Les résultats montrent que les détecteurs supervisés obtiennent des performances plus stables et robustes que les outils commerciaux, et ce, dans différentes langues et domaines, mettant en lumière les forces et les limites principales des stratégies de détection actuelles.
La segmentation d'images médicales par ultrasons est confrontée à des défis significatifs en raison du nombre limité de données annotées et d'artéfacts d'imagerie caractéristiques, incluant le bruit de speckle et les contours à faible contraste. Bien que les approches d'apprentissage semi-supervisé (SSL) aient émergé pour pallier la pénurie de données, les méthodes existantes souffrent d'une utilisation sous-optimale des données non étiquetées et manquent de mécanismes robustes de représentation des caractéristiques. Dans cet article, nous proposons Switch, un nouveau cadre SSL avec deux innovations clés : (1) une stratégie de Commutation Multi-échelle (MSS) qui utilise un mélange hiérarchique de patchs pour obtenir une couverture spatiale uniforme ; (2) une Commutation dans le Domaine Fréquentiel (FDS) avec apprentissage contrastif qui effectue une commutation d'amplitude dans l'espace de Fourier pour des représentations de caractéristiques robustes. Notre cadre intègre ces composants dans une architecture enseignant-élève pour exploiter efficacement à la fois les données étiquetées et non étiquetées. Une évaluation exhaustive sur six ensembles de données ultrasonores diversifiés (ganglions lymphatiques, lésions mammaires, nodules thyroïdiens et prostate) démontre une supériorité constante par rapport aux méthodes de l'état de l'art. Avec un taux d'étiquetage de 5 %, Switch réalise des améliorations remarquables : 80,04 % de Dice sur LN-INT, 85,52 % sur DDTI et 83,48 % sur les ensembles de données Prostate, notre approche semi-supervisée dépassant même les lignes de base supervisées. La méthode maintient une efficacité paramétrique (1,8 million de paramètres) tout en offrant des performances supérieures, validant son efficacité pour les applications d'imagerie médicale à ressources limitées. Le code source est publiquement disponible à l'adresse https://github.com/jinggqu/Switch.
La génération automatique d'apparences photoréalistes et auto-cohérentes pour des modèles 3D non texturés est un défi crucial dans la création de contenu numérique. Les progrès des modèles de génération de vidéos à grande échelle offrent une approche naturelle : synthétiser directement des vidéos de tourne-disque à 360 degrés (TTV), qui peuvent servir non seulement de prévisualisations dynamiques de haute qualité, mais aussi de représentation intermédiaire pour piloter la synthèse de textures et le rendu neuronal. Cependant, les modèles de diffusion vidéo généralistes existants peinent à maintenir une cohérence géométrique stricte et une stabilité d'apparence sur l'ensemble des points de vue, rendant leurs résultats inadaptés à une reconstruction 3D de haute qualité. Pour cela, nous présentons TAPESTRY, un cadre pour générer des TTV à haute fidélité conditionnés par une géométrie 3D explicite. Nous reformulons la tâche de génération d'apparence 3D comme un problème de diffusion vidéo conditionnée par la géométrie : étant donné un maillage 3D, nous calculons d'abord et encodons des caractéristiques géométriques multimodales pour contraindre le processus de génération vidéo avec une précision au niveau du pixel, permettant ainsi la création de TTV de haute qualité et cohérents. Sur cette base, nous concevons également une méthode pour les tâches de reconstruction en aval à partir de l'entrée TTV, comprenant un pipeline multi-étapes avec Inpainting Conscient de la 3D. En faisant tourner le modèle et en effectuant une génération secondaire contextuelle, ce pipeline complète efficacement les régions auto-occluses pour obtenir une couverture complète de la surface. Les vidéos générées par TAPESTRY sont non seulement des prévisualisations dynamiques de haute qualité, mais servent aussi de représentation intermédiaire fiable et consciente de la 3D, qui peut être rétro-projetée de manière transparente en textures UV ou utilisée pour superviser des méthodes de rendu neuronal comme le 3DGS. Cela permet la création automatisée d'actifs 3D complets et prêts pour la production à partir de maillages non texturés. Les résultats expérimentaux démontrent que notre méthode surpasse les approches existantes à la fois en cohérence vidéo et en qualité de reconstruction finale.
Les benchmarks existants pour la détection de falsification reposent largement sur des masques d'objets, ce qui s'aligne mal avec le véritable signal d'édition : de nombreux pixels à l'intérieur d'un masque restent intacts ou ne sont que trivialement modifiés, tandis que des modifications subtiles mais conséquentes en dehors du masque sont traitées comme naturelles. Nous reformulons la falsification d'images par VLM en passant d'étiquettes de régions grossières à une tâche ancrée au niveau pixel, sensible à la signification et au langage. Premièrement, nous introduisons une taxonomie couvrant les primitives d'édition (remplacement/suppression/découpe/restauration/attribut/colorisation, etc.) et la classe sémantique de l'objet falsifié, reliant les changements de bas niveau à une compréhension de haut niveau. Deuxièmement, nous publions un nouveau benchmark avec des cartes de falsification par pixel et une supervision par catégorie appariée pour évaluer la détection et la classification dans un protocole unifié. Troisièmement, nous proposons un cadre d'entraînement et des métriques d'évaluation qui quantifient la justesse au niveau pixel avec localisation pour évaluer la confiance ou la prédiction sur l'intensité réelle de l'édition, et mesurent en outre la compréhension de la signification de la falsification via une classification sensible à la sémantique et des descriptions en langage naturel pour les régions prédites. Nous réévaluons également les bases de référence solides existantes en segmentation/localisation sur les détecteurs de falsification récents et performants, et révélons des sur- et sous-évaluations substantielles lors de l'utilisation de métriques basées uniquement sur les masques, tout en exposant les modes d'échec sur les micro-modifications et les changements hors masque. Notre cadre fait progresser le domaine des masques vers les pixels, les significations et les descriptions langagières, établissant une norme rigoureuse pour la localisation des falsifications, la classification sémantique et la description. Le code et les données du benchmark sont disponibles à l'adresse https://github.com/VILA-Lab/PIXAR.
La réduction de la latence et de la consommation énergétique est essentielle pour améliorer l'efficacité des systèmes mémoire dans l'informatique moderne. Ce travail présente ReLMXEL (Reinforcement Learning for Memory Controller with Explainable Energy and Latency Optimization), un cadre d'apprentissage par renforcement multi-agent explicable en ligne qui optimise dynamiquement les paramètres du contrôleur mémoire par décomposition de la récompense. ReLMXEL opère au sein du contrôleur mémoire, exploitant des métriques détaillées du comportement mémoire pour guider la prise de décision. Les évaluations expérimentales sur diverses charges de travail démontrent des gains de performance constants par rapport aux configurations de référence, avec des améliorations guidées par les comportements d'accès mémoire spécifiques à chaque charge. En intégrant l'explicabilité dans le processus d'apprentissage, ReLMXEL améliore non seulement les performances, mais augmente également la transparence des décisions de contrôle, ouvrant la voie à des conceptions de systèmes mémoire plus responsables et adaptatives.