papers.description
Les récents progrès des grands modèles génératifs multimodaux ont démontré des capacités impressionnantes en génération multimodale, incluant la génération d'images et de vidéos. Ces modèles sont généralement construits sur des architectures multi-étapes comme la diffusion et l'appariement de flux, ce qui limite intrinsèquement leur efficacité en inférence (nécessitant 40 à 100 évaluations de fonctions). Bien que diverses méthodes à faible nombre d'étapes visent à accélérer l'inférence, les solutions existantes présentent des limitations évidentes. Les méthodes prominentes basées sur la distillation, telles que la distillation progressive et la distillation de consistance, exigent soit une procédure de distillation itérative, soit présentent une dégradation significative avec très peu d'étapes (< 4 évaluations). Parallèlement, l'intégration de l'apprentissage antagoniste dans la distillation (par exemple, DMD/DMD2 et SANA-Sprint) pour améliorer les performances introduit une instabilité lors de l'entraînement, une complexité accrue et une surcharge mémoire GPU importante due aux modèles auxiliaires entraînés. Pour pallier cela, nous proposons TwinFlow, un cadre simple mais efficace pour entraîner des modèles génératifs en une étape, qui contourne le besoin de modèles enseignants pré-entraînés fixes et évite les réseaux antagonistes standards durant l'entraînement, le rendant idéal pour construire des modèles efficaces à grande échelle. Sur les tâches de texte-à-image, notre méthode atteint un score GenEval de 0,83 en une évaluation, surpassant des bases de référence solides comme SANA-Sprint (un cadre basé sur une perte GAN) et RCGM (un cadre basé sur la consistance). Notablement, nous démontrons l'évolutivité de TwinFlow par un entraînement en pleins paramètres sur Qwen-Image-20B et le transformons en un générateur efficace à faible nombre d'étapes. Avec seulement une évaluation, notre approche égale les performances du modèle original à 100 évaluations sur les benchmarks GenEval et DPG-Bench, réduisant le coût computationnel par 100 fois avec une dégradation de qualité mineure. La page du projet est disponible à l'adresse https://zhenglin-cheng.com/twinflow.
L'édition d'images basée sur des instructions est devenue un domaine de recherche majeur. Bénéficiant des modèles de fondation en génération d'images, cette approche a atteint une haute qualité esthétique, faisant de la capacité à suivre les instructions le principal défi. Les méthodes existantes améliorent l'adhésion aux instructions par apprentissage supervisé ou par renforcement, mais les taux de réussite en tour unique restent limités en raison de la stochasticité inhérente et d'un manque de délibération. Dans ce travail, nous proposons un cadre d'édition délibérative pour « réfléchir » pendant l'édition, qui simule la boucle cognitive humaine en exécutant itérativement un cycle Penser-pendant-Éditer : Critiquer les résultats et Raffiner les instructions, puis Répéter la génération jusqu'à satisfaction. Concrètement, nous entraînons un unique MLLM, EditThinker, à agir comme moteur de raisonnement de ce cadre, produisant conjointement le score de critique, le processus de raisonnement et les instructions raffinées. Nous utilisons l'apprentissage par renforcement pour aligner la réflexion d'EditThinker avec son édition, générant ainsi des améliorations d'instructions plus ciblées. Des expériences approfondies sur quatre benchmarks démontrent que notre approche améliore significativement la capacité de suivi d'instructions de tout modèle d'édition d'images avec une large marge. Nous mettrons à disposition notre cadre de construction de données, jeux de données et modèles pour bénéficier à la communauté.
L'apprentissage par renforcement est apparu comme un paradigme pour l'après-entraînement des grands modèles de langage, renforçant leurs capacités de raisonnement. Ces approches calculent une valeur d'avantage pour chaque échantillon, reflétant une performance meilleure ou pire qu'attendue, fournissant ainsi des signaux positifs et négatifs pour l'entraînement. Cependant, le mélange indistinct des deux signaux dans les méthodes existantes, particulièrement dès les premières étapes, peut entraîner un guidage ambigu et des gains limités. Pour résoudre ce problème, nous proposons **CAPO** (**C**urriculum **A**dvantage **P**olicy **O**ptimization), un mécanisme de curriculum adaptatif basé sur les signaux d'avantage. Le mécanisme proposé amorce l'apprentissage par imitation avec des échantillons d'avantage uniquement positifs pour établir des bases robustes, puis introduit progressivement les signaux négatifs pour cultiver les capacités discriminatives, améliorant ainsi la généralisation dans des scénarios complexes. Compatible avec diverses méthodes d'optimisation incluant GRPO, PPO, RLOO et Reinforce++, notre méthode obtient constamment des améliorations stables et significatives dans les tâches de raisonnement mathématique, et se généralise efficacement à des scénarios de raisonnement multimodal sur des Interfaces Graphiques Utilisateur (IGU), s'établissant comme un cadre d'optimisation versatile et robuste.
La génération d'images cohérentes nécessite de préserver fidèlement les identités, les styles et la cohérence logique sur plusieurs images, ce qui est essentiel pour des applications comme la narration et la conception de personnages. Les approches d'apprentissage supervisé peinent à accomplir cette tâche en raison du manque de jeux de données à grande échelle capturant la cohérence visuelle et de la complexité de modéliser les préférences perceptuelles humaines. Dans cet article, nous soutenons que l'apprentissage par renforcement (RL) offre une alternative prometteuse en permettant aux modèles d'apprendre des critères visuels complexes et subjectifs sans nécessiter de données. Pour y parvenir, nous présentons PaCo-RL, un cadre complet qui combine un modèle de récompense de cohérence spécialisé avec un algorithme RL efficace. Le premier composant, PaCo-Reward, est un évaluateur de cohérence par paires entraîné sur un jeu de données à grande échelle construit via un appariement automatisé de sous-figures. Il évalue la cohérence grâce à un mécanisme de score génératif et autorégressif amélioré par des instructions adaptées à la tâche et des raisonnements en chaîne (CoT). Le second composant, PaCo-GRPO, exploite une nouvelle stratégie d'optimisation découplée par résolution pour réduire substantiellement le coût du RL, ainsi qu'un mécanisme d'agrégation multi-récompenses à atténuation logarithmique qui assure une optimisation équilibrée et stable des récompenses. Des expériences approfondies sur deux sous-tâches représentatives montrent que PaCo-Reward améliore significativement l'alignement avec les perceptions humaines de la cohérence visuelle, et que PaCo-GRPO atteint des performances de cohérence à l'état de l'art avec une efficacité et une stabilité d'entraînement améliorées. Ensemble, ces résultats soulignent le potentiel de PaCo-RL comme solution pratique et évolutive pour la génération d'images cohérentes. La page du projet est disponible à l'adresse https://x-gengroup.github.io/HomePage_PaCo-RL/.
Nous proposons EMMA, une architecture efficace et unifiée pour la compréhension, la génération et l'édition multimodales. Plus précisément, EMMA se compose principalement de : 1) Un autoencodeur efficace avec un taux de compression de 32x, qui réduit considérablement le nombre de tokens requis pour la génération. Cela garantit également l'équilibre de l'entraînement entre les tâches de compréhension et de génération en appliquant le même taux de compression aux images. 2) Une concaténation par canaux plutôt qu'une concaténation par tokens entre les tokens de compréhension et de génération visuelles, ce qui réduit davantage les tokens visuels dans les architectures unifiées. 3) Un réseau partagé-et-découplé qui permet des améliorations mutuelles entre les tâches tout en répondant aux exigences de modélisation spécifiques à chaque tâche. 4) Un mécanisme de mélange d'experts adopté pour l'encodeur de compréhension visuelle, qui améliore considérablement les capacités perceptives avec une faible augmentation de paramètres. Des expériences approfondies ont montré qu'EMMA-4B surpasse significativement les approches multimodales unifiées les plus avancées (par exemple, BAGEL-7B) tant en efficacité qu'en performance, tout en obtenant des résultats compétitifs par rapport aux experts récents en compréhension et génération multimodales (par exemple, Qwen3-VL et Qwen-Image). Nous pensons qu'EMMA jette des bases solides pour le développement futur des architectures multimodales unifiées.
La réalisation d'animations de personnages répondant aux normes de production de qualité studio reste un défi malgré les progrès récents. Les approches existantes peuvent transférer le mouvement d'une vidéo pilote à une image de référence, mais échouent souvent à préserver la fidélité structurelle et la cohérence temporelle dans des scénarios complexes impliquant des mouvements élaborés et des animations trans-identitaires. Dans ce travail, nous présentons SCAIL (Animation de Personnages de Qualité Studio par Apprentissage Contextuel), un cadre conçu pour relever ces défis grâce à deux innovations clés. Premièrement, nous proposons une nouvelle représentation de pose 3D, offrant un signal de mouvement plus robuste et flexible. Deuxièmement, nous introduisons un mécanisme d'injection de pose en contexte complet au sein d'une architecture diffusion-transformer, permettant un raisonnement spatio-temporel efficace sur des séquences de mouvement entières. Pour répondre aux exigences de qualité studio, nous développons un pipeline de données organisé garantissant à la fois diversité et qualité, et établissons un benchmark complet pour une évaluation systématique. Les expériences montrent que SCAIL atteint des performances à la pointe de l'état de l'art et fait progresser l'animation de personnages vers une fiabilité et un réalisme de qualité studio.
L’apprentissage par renforcement appliqué aux grands modèles de langage après leur entraînement vise à améliorer leurs capacités et leur alignement. Cependant, le paradigme d’entraînement hors politique introduit un décalage de distribution, qui pousse souvent la politique au-delà de la région de confiance, entraînant des instabilités manifestées par des fluctuations de l’entropie de la politique et des gradients instables. Bien que PPO-Clip atténue ce problème par un clipping d’importance, il néglige toujours le décalage distributionnel global des actions. Pour relever ces défis, nous proposons d’utiliser le ratio d’entropie entre les politiques actuelle et précédente comme nouvelle métrique globale, qui quantifie efficacement l’évolution relative de l’exploration de la politique lors des mises à jour. Sur cette base, nous introduisons un mécanisme de clipping du ratio d’entropie (ERC) qui impose des contraintes bidirectionnelles sur ce ratio. Cela stabilise les mises à jour de la politique au niveau distributionnel global et compense l’incapacité de PPO-clip à réguler les décalages de probabilité des actions non échantillonnées. Nous intégrons ERC dans les algorithmes d’apprentissage par renforcement DAPO et GPPO. Les expériences menées sur plusieurs benchmarks montrent qu’ERC améliore constamment les performances.
La génération de scènes 4D interactives et dynamiques à partir d'une seule image statique reste un défi fondamental. La plupart des méthodes existantes de type « générer puis reconstruire » ou « reconstruire puis générer » dissocient la géométrie du mouvement, entraînant des incohérences spatio-temporelles et une faible généralisation. Pour y remédier, nous étendons le cadre « reconstruire puis générer » pour effectuer conjointement la génération du mouvement et la reconstruction géométrique pour la synthèse 4D (MoRe4D). Nous introduisons d'abord TrajScene-60K, un jeu de données à grande échelle de 60 000 échantillons vidéo avec des trajectoires de points denses, répondant à la pénurie de données scéniques 4D de haute qualité. Sur cette base, nous proposons un Générateur de Trajectoires de Scènes 4D (4D-STraG) basé sur la diffusion pour générer conjointement des trajectoires de points 4D géométriquement cohérentes et motionnellement plausibles. Pour exploiter les préalables de vue unique, nous concevons une stratégie de normalisation du mouvement guidée par la profondeur et un module sensible au mouvement pour une intégration efficace de la géométrie et de la dynamique. Nous proposons ensuite un Module de Synthèse de Vues 4D (4D-ViSM) pour restituer des vidéos avec des trajectoires de caméra arbitraires à partir des représentations par pistes de points 4D. Les expériences montrent que MoRe4D génère des scènes 4D de haute qualité avec une cohérence multi-vues et des détails dynamiques riches à partir d'une seule image. Code : https://github.com/Zhangyr2022/MoRe4D.
Avec les progrès continus des technologies de génération d'images, des modèles avancés tels que GPT-Image-1 et Qwen-Image ont atteint une remarquable cohérence texte-image et une riche connaissance du monde. Cependant, ces modèles présentent encore des lacunes dans la génération d'images photoréalistes. Même sur des tâches T2I simples, ils ont tendance à produire des images "artificielles" présentant des artefacts d'IA distincts, souvent caractérisés par une "peau trop lisse" et des "reflets gras sur le visage". Pour retrouver l'objectif initial de génération "indiscernable de la réalité", nous proposons RealGen, un framework texte-image photoréaliste. RealGen intègre un composant de modèle de langage (LLM) pour l'optimisation des prompts et un modèle de diffusion pour la génération d'images réalistes. S'inspirant de la génération antagoniste, RealGen introduit un mécanisme de "Récompense par Détecteur" qui quantifie les artefacts et évalue le réalisme à l'aide de détecteurs d'images synthétiques aux niveaux sémantique et caractéristique. Nous exploitons ce signal de récompense avec l'algorithme GRPO pour optimiser l'ensemble du pipeline de génération, améliorant significativement le réalisme et le détail des images. Par ailleurs, nous proposons RealBench, un benchmark d'évaluation automatisé utilisant le "Détecteur-Scoring" et l'"Arène-Scoring". Il permet une évaluation du photoréalisme sans intervention humaine, produisant des résultats plus précis et alignés avec l'expérience utilisateur réelle. Les expériences démontrent que RealGen surpasse significativement les modèles généraux comme GPT-Image-1 et Qwen-Image, ainsi que les modèles spécialisés dans le photoréalisme comme FLUX-Krea, en termes de réalisme, de détail et d'esthétique. Le code est disponible à l'adresse https://github.com/yejy53/RealGen.
Des juges efficaces pour les modèles vision-langage (VLM) sont cruciaux pour le développement des modèles. Les méthodes actuelles pour entraîner des juges VLM reposent principalement sur des annotations de préférences humaines à grande échelle. Cependant, cette approche est coûteuse et les annotations deviennent rapidement obsolètes face à l'amélioration rapide des modèles. Dans ce travail, nous présentons un cadre pour auto-entraîner un modèle juge VLM sans aucune annotation de préférence humaine, en utilisant uniquement des données auto-synthétisées. Notre méthode est itérative et comporte trois étapes : (1) générer des paires instruction-réponse multimodales diversifiées à différents niveaux de qualité, (2) générer des traces de raisonnement et des jugements pour chaque paire, en éliminant celles qui ne correspondent pas à nos niveaux de qualité attendus, et (3) s'entraîner sur les réponses correctes du juge et leurs traces de raisonnement. Nous évaluons le juge résultant sur Multimodal RewardBench et VL-RewardBench dans divers domaines : exactitude, préférence, raisonnement, sécurité et question-réponse visuelle. Notre méthode améliore un juge multimodal Llama-3.2-11B, faisant passer sa précision globale sur VL-RewardBench de 0,38 à 0,51, surpassant souvent des modèles bien plus grands comme Llama-3.2-90B, GPT-4o et Claude 3.5 Sonnet, avec des gains particulièrement marqués dans les dimensions générales, les hallucinations et le raisonnement. La robustesse globale de ces résultats sans annotation humaine suggère le potentiel d'un futur juge auto-alimenté qui évoluerait au rythme des capacités sans cesse améliorées des VLM.
Les méthodes génératives pour les actifs 3D ont récemment réalisé des progrès remarquables, mais fournir un contrôle intuitif et précis sur la géométrie des objets reste un défi majeur. Les approches existantes reposent principalement sur des invites textuelles ou visuelles, qui présentent souvent une spécificité géométrique insuffisante : le langage peut être ambigu et les images sont fastidieuses à modifier. Dans ce travail, nous présentons SpaceControl, une méthode sans apprentissage au moment du test pour le contrôle spatial explicite de la génération 3D. Notre approche accepte une large gamme d'entrées géométriques, des primitives grossières aux maillages détaillés, et s'intègre de manière transparente avec les modèles génératifs pré-entraînés modernes sans nécessiter d'apprentissage supplémentaire. Un paramètre contrôlable permet aux utilisateurs d'arbitrer entre la fidélité géométrique et le réalisme de la sortie. Une évaluation quantitative approfondie et des études utilisateurs démontrent que SpaceControl surpasse les méthodes de référence basées sur l'apprentissage et l'optimisation en termes de fidélité géométrique tout en préservant une qualité visuelle élevée. Enfin, nous présentons une interface utilisateur interactive qui permet l'édition en temps réel de superquadriques pour une conversion directe en actifs 3D texturés, facilitant le déploiement pratique dans les workflows créatifs. Consultez notre page projet à l'adresse https://spacecontrol3d.github.io/
Le raisonnement visuel spatial est essentiel pour permettre aux modèles linguistiques multimodaux de grande taille (MLLM) de comprendre les propriétés des objets et les relations spatiales, mais les modèles actuels peinent encore avec le raisonnement 3D. Les approches existantes améliorent généralement soit la perception, en enrichissant les entrées RVB avec des modalités auxiliaires comme la profondeur et la segmentation, soit le raisonnement, en entraînant sur des ensembles de données de question-réponse visuelle spatiale et en appliquant l'apprentissage par renforcement, traitant ainsi ces deux aspects de manière isolée. Dans ce travail, nous étudions si un MLLM unifié peut développer une capacité intrinsèque à améliorer la perception spatiale et, grâce à un raisonnement entrelacé adaptatif, atteindre une intelligence spatiale plus robuste. Nous proposons COOPER, un MLLM unifié qui exploite la profondeur et la segmentation comme modalités auxiliaires et est entraîné en deux étapes pour acquérir des capacités de génération de modalités auxiliaires et de raisonnement entrelacé adaptatif. COOPER obtient une amélioration moyenne de 6,91 % en raisonnement spatial tout en maintenant des performances générales. De plus, même une variante entraînée uniquement pour la génération de modalités auxiliaires atteint un gain de 7,92 % sur l'estimation des distances et des tailles, suggérant qu'apprendre à générer des modalités auxiliaires aide à internaliser les connaissances spatiales et à renforcer la compréhension spatiale.
La segmentation vidéo centrée sur le raisonnement est une tâche intrinsèquement complexe : la requête fait souvent référence à des dynamiques, des causalités et des interactions temporelles plutôt qu'à des apparences statiques. Pourtant, les solutions existantes réduisent généralement ces facteurs à un raisonnement simplifié via des embeddings latents, rendant la chaîne de raisonnement opaque et essentiellement intraitable. Nous adoptons donc une perspective de décomposition explicite et introduisons ReVSeg, qui exécute le raisonnement sous forme de décisions séquentielles dans l'interface native des modèles vision-langage pré-entraînés (VLM). Au lieu de condenser tout le raisonnement en une prédiction en une seule étape, ReVSeg exécute trois opérations explicites — interprétation sémantique, sélection de preuves temporelles et ancrage spatial — alignant ainsi les capacités pré-entraînées. Nous utilisons en outre l'apprentissage par renforcement pour optimiser la chaîne de raisonnement multi-étapes, permettant au modèle d'auto-affiner la qualité de ses décisions à partir de signaux guidés par les résultats. Les résultats expérimentaux démontrent que ReVSeg atteint des performances de pointe sur les benchmarks standards de segmentation vidéo d'objets et produit des trajectoires de raisonnement interprétables. La page du projet est disponible à l'adresse https://clementine24.github.io/ReVSeg/.
Les récentes avancées des modèles génératifs vidéo ont conduit à des percées significatives dans la synthèse vidéo haute fidélité, notamment dans la génération vidéo contrôlable où la vidéo générée est conditionnée par des entrées textuelles et d'action, par exemple dans l'édition vidéo guidée par instructions et la modélisation du monde en robotique. Malgré ces capacités exceptionnelles, les modèles vidéo contrôlables produisent souvent des hallucinations – générant des images vidéo futures non alignées avec la réalité physique – ce qui soulève de sérieuses préoccupations dans de nombreuses tâches telles que l'évaluation et la planification de politiques robotiques. Cependant, les modèles vidéo de pointe manquent de la capacité à évaluer et exprimer leur confiance, entravant l'atténuation des hallucinations. Pour relever rigoureusement ce défi, nous proposons C3, une méthode de quantification d'incertitude (UQ) pour entraîner des modèles vidéo contrôlables à échelle continue et calibrés pour une estimation de confiance dense au niveau des sous-patches, localisant précisément l'incertitude dans chaque image vidéo générée. Notre méthode UQ introduit trois innovations fondamentales pour permettre aux modèles vidéo d'estimer leur incertitude. Premièrement, notre méthode développe un cadre novateur qui entraîne les modèles vidéo pour la justesse et l'étalonnage via des règles de score strictement propres. Deuxièmement, nous estimons l'incertitude du modèle vidéo dans l'espace latent, évitant l'instabilité de l'entraînement et les coûts d'entraînement prohibitifs associés aux approches dans l'espace pixel. Troisièmement, nous projetons l'incertitude dense de l'espace latent vers une incertitude interprétable au niveau pixel dans l'espace RVB pour une visualisation intuitive, fournissant des cartes thermiques d'incertitude haute résolution qui identifient les régions non fiables. Grâce à des expériences approfondies sur des ensembles de données d'apprentissage robotique à grande échelle (Bridge et DROID) et à des évaluations en conditions réelles, nous démontrons que notre méthode fournit non seulement des estimations d'incertitude calibrées dans la distribution d'entraînement, mais permet également une détection efficace hors distribution.
L'auto-amélioration est un objectif qui passionne actuellement le domaine de l'IA, mais il est semé d'embûches et pourrait prendre du temps à être pleinement réalisé. Nous soutenons qu'un objectif plus réalisable et plus bénéfique pour l'humanité est de maximiser la co-amélioration : la collaboration entre chercheurs humains et IA pour atteindre une co-superintelligence. Autrement dit, cibler spécifiquement l'amélioration de la capacité des systèmes d'IA à travailler avec les chercheurs humains pour mener conjointement des recherches en IA, de la génération d'idées à l'expérimentation, afin à la fois d'accélérer la recherche en IA et de doter généralement les IA et les humains d'une superintelligence plus sûre grâce à leur symbiose. Se concentrer sur l'inclusion de l'amélioration de la recherche humaine dans la boucle nous y mènera à la fois plus rapidement et plus sûrement.
Les systèmes de récupération de documents multimodaux ont réalisé des progrès significatifs dans l'alignement du contenu visuel et textuel pour la recherche sémantique. Cependant, la plupart des approches existantes restent fortement centrées sur l'anglais, limitant leur efficacité dans des contextes multilingues. Dans ce travail, nous présentons M3DR (Multilingual Multimodal Document Retrieval), un cadre conçu pour combler cette lacune à travers les langues, permettant une applicabilité dans divers contextes linguistiques et culturels. M3DR exploite des données documentaires multilingues synthétiques et se généralise à différentes architectures vision-langage et tailles de modèles, permettant un alignement robuste translinguistique et transmodal. Grâce à un apprentissage par contraste, nos modèles apprennent des représentations unifiées pour le texte et les images de documents qui se transfèrent efficacement entre les langues. Nous validons cette capacité sur 22 langues typologiquement diverses, démontrant des performances constantes et une adaptabilité face aux variations linguistiques et scripturales. Nous introduisons en outre un benchmark complet qui capture des scénarios multilingues réalistes, évaluant les modèles dans des contextes monolingues, multilingues et mixtes. M3DR se généralise à la fois aux paradigmes de récupération par vecteur dense unique et multi-vecteurs de type ColBERT. Nos modèles, NetraEmbed et ColNetraEmbed, atteignent des performances de pointe avec des améliorations relatives d'environ 150 % en récupération translinguistique.
La compréhension de vidéos longues (LVU) est un défi car répondre à des requêtes du monde réel dépend souvent d'indices épars et temporellement dispersés, enfouis dans des heures de contenu majoritairement redondant et non pertinent. Bien que les pipelines agentiques améliorent les capacités de raisonnement vidéo, les frameworks dominants s'appuient sur un système de description aveugle à la requête pour percevoir l'information vidéo, ce qui gaspille des ressources de calcul sur du contenu non pertinent et estompe les informations temporelles et spatiales fines. Motivés par la théorie de la perception active, nous soutenons que les agents LVU devraient activement décider quoi, quand et où observer, et évaluer continuellement si l'observation courante est suffisante pour répondre à la requête. Nous présentons la Perception Vidéo Active (AVP), un cadre de recherche de preuves qui traite la vidéo comme un environnement interactif et acquiert des preuves compactes et pertinentes pour la requête directement depuis les pixels. Concrètement, AVP exécute un processus itératif planifier-observer-réfléchir avec des agents MLLM. À chaque cycle, un planificateur propose des interactions vidéo ciblées, un observateur les exécute pour extraire des preuves horodatées, et un réflecteur évalue la suffisance des preuves pour la requête, soit en s'arrêtant avec une réponse, soit en déclenchant une observation supplémentaire. Sur cinq benchmarks LVU, AVP obtient les meilleures performances avec des améliorations significatives. Notamment, AVP surpasse la meilleure méthode agentique de 5,7 % en précision moyenne tout en ne nécessitant que 18,4 % du temps d'inférence et 12,4 % des jetons d'entrée.
La compréhension temporelle dans la conduite autonome reste un défi majeur, même pour les modèles état-de-l'art récents combinant vision et langage. Les travaux antérieurs ont introduit des jeux de données et des benchmarks visant à améliorer le raisonnement temporel, mais ceux-ci ont privilégié d'autres contenus vidéo, tels que le sport, la cuisine et les films. Aucun benchmark existant ne se concentre exclusivement sur les défis uniques de la compréhension temporelle dans les séquences égocentriques de conduite autonome. Pour combler cette lacune, le benchmark TAD (Temporal Understanding in Autonomous Driving) est présenté, évaluant la capacité des modèles vision-langage à capturer les relations dynamiques entre les actions en conduite autonome. TAD comprend près de 6 000 paires question-réponse, couvrant 7 tâches conçues par des experts humains. Une évaluation est réalisée sur 9 modèles généralistes open-source et privés, ainsi que sur des modèles spécialisés état-de-l'art en conduite autonome. Appliqués à TAD, les modèles état-de-l'art actuels démontrent des précisions inférieures aux standards, principalement en raison d'une compréhension imparfaite du mouvement à granularité fine. Pour améliorer la compréhension du mouvement et la précision globale sur TAD, deux solutions novatrices sans apprentissage sont proposées : Scene-CoT, qui exploite le raisonnement en chaîne, et TCogMap, qui intègre une carte cognitive temporelle égocentrique. Les approches proposées sont intégrées à des modèles vision-langage existants et améliorent la précision moyenne sur TAD jusqu'à 17,72%. En introduisant TAD, en évaluant plusieurs modèles état-de-l'art et en proposant des améliorations efficaces, ce travail vise à catalyser les recherches futures sur la compréhension temporelle en conduite autonome. Le benchmark et le code d'évaluation sont disponibles respectivement sur https://huggingface.co/datasets/vbdai/TAD et https://github.com/vbdi/tad_bench.
Dans cette étude, nous présentons Colon-X, une initiative ouverte visant à faire progresser l'intelligence multimodale en coloscopie. Nous commençons par construire ColonVQA, l'ensemble de données multimodales le plus complet jamais réalisé pour la coloscopie, comprenant plus de 1,1 million d'entrées de question-réponse visuelle couvrant 76 observations cliniques et 18 tâches multimodales. Au-delà de son rôle de fondation de données pour la communauté scientifique, nous étudions une transition cruciale mais encore peu explorée en coloscopie : l'évolution de la compréhension multimodale vers le raisonnement clinique. (a) Pour saisir l'état actuel des capacités de compréhension multimodale, nous évaluons systématiquement la généralisabilité de 22 grands modèles de langage multimodaux et examinons leur fiabilité face à des perturbations d'origine humaine. Les résultats révèlent que les sorties cliniques des principaux MLLM sont encore loin d'être robustes et fiables. (b) Pour combler cette lacune, nous explorons une intelligence axée sur le raisonnement spécifiquement adaptée à la coloscopie. Plus précisément, nous constituons ColonReason, un ensemble de données de raisonnement ancré cliniquement et annoté via un pipeline de débat multi-experts, et nous développons ColonR1, le premier modèle de style R1 intégrant des techniques de récompense adaptative aux tâches et d'optimisation à gradient stable. Dans des conditions de données limitées, notre modèle ColonR1 atteint une précision globale de 56,61 %, surpassant l'apprentissage supervisé finement ajusté de 25,22 %, et établit une nouvelle référence pour l'analyse multimodale de la coloscopie avec capacités de raisonnement. Toutes les données et ressources des modèles sont publiquement disponibles à l'adresse https://github.com/ai4colonoscopy/Colon-X.
Les progrès récents en génération vidéo ont démontré un potentiel remarquable pour la construction de simulateurs mondiaux. Cependant, les modèles actuels peinent encore à produire des résultats physiquement cohérents, en particulier lors de la gestion de dynamiques à grande échelle ou complexes. Cette limitation découle principalement du fait que les approches existantes répondent de manière isotrope aux invites physiques et négligent l'alignement granulaire entre le contenu généré et les indices physiques localisés. Pour relever ces défis, nous proposons ProPhy, un Cadre d'Alignement Physique Progressif qui permet un conditionnement explicite conscient de la physique et une génération anisotrope. ProPhy utilise un mécanisme en deux étapes de Mélange d'Experts en Physique (MoPE) pour l'extraction discriminative de prérequis physiques, où des Experts Sémantiques infèrent des principes physiques au niveau sémantique à partir de descriptions textuelles, et des Experts de Raffinement capturent la dynamique physique au niveau des tokens. Ce mécanisme permet au modèle d'apprendre des représentations vidéo granulaires et conscientes de la physique qui reflètent mieux les lois physiques sous-jacentes. De plus, nous introduisons une stratégie d'alignement physique qui transfère les capacités de raisonnement physique des modèles vision-langage (VLM) vers les Experts de Raffinement, facilitant une représentation plus précise des phénomènes physiques dynamiques. Des expériences approfondies sur des benchmarks de génération vidéo consciente de la physique démontrent que ProPhy produit des résultats plus réalistes, dynamiques et physiquement cohérents que les méthodes état de l'art existantes.
La quantification post-entraînement (PTQ) joue un rôle crucial dans la démocratisation des grands modèles de langage (LLM). Cependant, les techniques existantes de quantification et de sparsification à faible précision peinent à concilier précision et efficacité en raison du support matériel limité. Par exemple, le format W4A8 ne peut atteindre le même pic de TOPS que le W8A8, tandis que le format de données creuses pris en charge par les GPU (sparsification semi-structurée 2:4) est rarement adopté en raison des pertes de précision. Pour combler cette lacune, nous proposons dans cet article le format de quantification creuse (SQ-format), un format de données unifié pour la quantification et la sparsification potentiellement facile à supporter par les nouveaux matériels et les GPU existants. Le SQ-format exploite le fait que les matrices creuses peuvent être accélérées en haute précision, et que la multiplication de matrices en faible précision peut également être accélérée en conséquence. Ainsi, le SQ-format permet une amélioration de Pareto entre les performances et le débit. Ce format convient particulièrement aux activations présentant un statut d'inégalité des valeurs aberrantes et rend possible leur compression statique. Nous démontrons les performances de pointe en PTQ avec le SQ-format, proposons le matériel nécessaire pour le supporter, et offrons une exploration conceptuelle et des perspectives pour les accélérateurs d'IA de nouvelle génération.
La réduction efficace des risques sismiques repose sur des évaluations précises spécifiques au site. Cela nécessite des modèles capables de représenter l'influence des conditions locales du site sur les caractéristiques du mouvement du sol. Dans ce contexte, les approches basées sur les données qui apprennent les signatures contrôlées par le site à partir des mouvements du sol enregistrés offrent une voie prometteuse. Nous traitons la génération de mouvements forts du sol à partir d'enregistrements accélérométriques dans le domaine temporel et présentons TimesNet-Gen, un générateur conditionnel dans le domaine temporel. L'approche utilise un goulot d'étranglement latent spécifique à chaque station. Nous évaluons la génération en comparant les courbes HVSR et les distributions de fréquence fondamentale du site f₀ entre les enregistrements réels et générés par station, et résumons la spécificité de la station avec un score basé sur les matrices de confusion des distributions de f₀. TimesNet-Gen atteint un fort alignement par station et se compare favorablement à une baseline conditionnelle VAE basée sur des spectrogrammes pour la synthèse de mouvements forts spécifiques au site. Nos codes sont disponibles via https://github.com/brsylmz23/TimesNet-Gen.
Alors que les besoins computationnels ne cessent d'augmenter, l'évaluation de l'empreinte environnementale de l'IA nécessite de dépasser la consommation d'énergie et d'eau pour inclure les demandes matérielles des équipements spécialisés. Cette étude quantifie l'empreinte matérielle de l'entraînement de l'IA en reliant les charges de travail computationnelles aux besoins physiques en matériel. La composition élémentaire du processeur graphique (GPU) Nvidia A100 SXM 40 Go a été analysée par spectrométrie d'émission optique à plasma induit, identifiant 32 éléments. Les résultats montrent que le matériel d'IA est composé d'environ 90 % de métaux lourds et seulement de traces de métaux précieux. Les éléments cuivre, fer, étain, silicium et nickel dominent la composition du GPU en masse. Selon une méthodologie en plusieurs étapes, nous intégrons ces mesures avec le débit computationnel par GPU sur différentes durées de vie, en tenant compte des exigences computationnelles pour l'entraînement de modèles d'IA spécifiques à différents régimes d'efficacité. Des analyses par scénarios révèlent que, selon le taux d'utilisation des FLOPs du modèle (MFU) et la durée de vie du matériel, l'entraînement de GPT-4 nécessite entre 1 174 et 8 800 GPU A100, ce qui correspond à l'extraction et à l'élimination finale de jusqu'à 7 tonnes d'éléments toxiques. Des stratégies combinées d'optimisation logicielle et matérielle peuvent réduire les demandes matérielles : augmenter le MFU de 20 % à 60 % réduit les besoins en GPU de 67 %, tandis que prolonger la durée de vie de 1 à 3 ans génère des économies comparables ; la mise en œuvre conjointe des deux mesures réduit les besoins en GPU jusqu'à 93 %. Nos résultats soulignent que les gains de performance incrémentaux, comme ceux observés entre GPT-3.5 et GPT-4, ont un coût matériel disproportionné. L'étude souligne la nécessité d'intégrer les considérations sur les ressources matérielles dans les discussions sur l'évolutivité de l'IA, en insistant sur le fait que les progrès futurs de l'IA doivent s'aligner sur les principes d'efficacité des ressources et de responsabilité environnementale.
Les grands modèles de langage (LLM) sont généralement alignés pour la sécurité lors de la phase post-entraînement ; cependant, ils peuvent encore produire des résultats inappropriés susceptibles de présenter des risques pour les utilisateurs. Ce défi souligne la nécessité de dispositifs de protection robustes opérant à la fois sur les entrées et les sorties des modèles. Dans ce travail, nous présentons Roblox Guard 1.0, un LLM à la fine pointe de la technologie, affiné par instructions, conçu pour renforcer la sécurité des systèmes LLM grâce à une modération exhaustive des entrées-sorties, en utilisant un pipeline de LLM pour améliorer les capacités de modération. Construit sur l'architecture de base Llama-3.1-8B-Instruct, notre modèle est affiné par instructions pour généraliser à des taxonomies de sécurité non rencontrées lors de l'entraînement et démontre de solides performances sur des benchmarks de sécurité hors domaine. Le processus d'affinage par instructions utilise un mélange de données de sécurité synthétiques et open source, augmentées par des raisonnements en chaîne (chain-of-thought, CoT) et une inversion des entrées pour améliorer la compréhension contextuelle et la prise de décision. Pour soutenir une évaluation systématique, nous publions également RobloxGuard-Eval, un nouveau benchmark comportant une taxonomie de sécurité extensible pour évaluer l'efficacité des garde-fous et des cadres de modération des LLM.