Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le contrôle de la caméra a fait l'objet d'études approfondies dans les tâches de génération de vidéos conditionnées par du texte ou des images. Cependant, la modification des trajectoires de caméra d'une vidéo donnée reste peu explorée, malgré son importance dans le domaine de la création vidéo. Cette tâche est complexe en raison des contraintes supplémentaires liées au maintien de l'apparence multi-images et de la synchronisation dynamique. Pour y remédier, nous présentons ReCamMaster, un cadre de re-rendu vidéo génératif contrôlé par caméra qui reproduit la scène dynamique d'une vidéo d'entrée selon de nouvelles trajectoires de caméra. L'innovation principale réside dans l'exploitation des capacités génératives des modèles pré-entraînés de texte-à-vidéo grâce à un mécanisme de conditionnement vidéo simple mais puissant — une capacité souvent négligée dans les recherches actuelles. Pour pallier le manque de données d'entraînement qualifiées, nous avons construit un ensemble de données vidéo synchronisées multi-caméras complet à l'aide d'Unreal Engine 5, soigneusement conçu pour suivre les caractéristiques de tournage du monde réel, couvrant des scènes et des mouvements de caméra divers. Cela aide le modèle à généraliser aux vidéos en conditions réelles. Enfin, nous améliorons davantage la robustesse à des entrées variées grâce à une stratégie d'entraînement méticuleusement conçue. Des expériences approfondies montrent que notre méthode surpasse largement les approches existantes de pointe et les bases de référence solides. Notre méthode trouve également des applications prometteuses dans la stabilisation vidéo, la super-résolution et l'extrapolation. Page du projet : https://jianhongbai.github.io/ReCamMaster/
Nous présentons SmolDocling, un modèle vision-langage ultra-compact dédié à la conversion de documents de bout en bout. Notre modèle traite intégralement des pages entières en générant des DocTags, un nouveau format de balisage universel qui capture tous les éléments de la page dans leur contexte complet avec leur localisation. Contrairement aux approches existantes qui s'appuient sur de grands modèles de base, ou aux solutions d'ensemble reposant sur des pipelines artisanaux de multiples modèles spécialisés, SmolDocling propose une conversion de bout en bout pour capturer avec précision le contenu, la structure et la localisation spatiale des éléments d'un document dans un modèle vision-langage de 256 millions de paramètres. SmolDocling démontre une performance robuste dans la reproduction fidèle des caractéristiques des documents telles que les listings de code, les tableaux, les équations, les graphiques, les listes, et bien d'autres, couvrant une diversité de types de documents incluant les documents d'entreprise, les articles académiques, les rapports techniques, les brevets et les formulaires — dépassant ainsi largement le focus habituel sur les articles scientifiques. De plus, nous contribuons avec de nouveaux jeux de données issus de sources publiques pour la reconnaissance de graphiques, tableaux, équations et code. Les résultats expérimentaux montrent que SmolDocling rivalise avec d'autres modèles vision-langage jusqu'à 27 fois plus grands, tout en réduisant substantiellement les besoins en calcul. Le modèle est actuellement disponible, et les jeux de données seront bientôt accessibles au public.
Les modèles de diffusion ont démontré des résultats impressionnants dans la génération d'échantillons conditionnels de haute qualité grâce à des techniques de guidage telles que le Classifier-Free Guidance (CFG). Cependant, les méthodes existantes nécessitent souvent un entraînement supplémentaire ou des évaluations de fonctions neuronales (NFEs), les rendant incompatibles avec les modèles distillés par guidage. De plus, elles reposent sur des approches heuristiques qui nécessitent l'identification de couches cibles. Dans ce travail, nous proposons une méthode novatrice et efficace, appelée PLADIS, qui améliore les modèles pré-entraînés (U-Net/Transformer) en exploitant l'attention parcimonieuse. Plus précisément, nous extrapolons les corrélations entre les requêtes et les clés en utilisant la fonction softmax et sa version parcimonieuse dans la couche d'attention croisée lors de l'inférence, sans nécessiter d'entraînement supplémentaire ni de NFEs. En tirant parti de la robustesse au bruit de l'attention parcimonieuse, notre méthode PLADIS libère le potentiel latent des modèles de diffusion texte-image, leur permettant d'exceller dans des domaines où ils rencontraient auparavant des difficultés, avec une efficacité renouvelée. Elle s'intègre de manière transparente avec les techniques de guidage, y compris les modèles distillés par guidage. Des expériences approfondies montrent des améliorations notables dans l'alignement textuel et les préférences humaines, offrant une solution hautement efficace et universellement applicable.
Les grands modèles de langage (LLM) ont évolué au-delà de la simple génération de texte pour alimenter des agents logiciels qui traduisent directement les commandes en langage naturel en actions tangibles. Alors que les agents LLM basés sur des API ont initialement gagné en notoriété pour leurs robustes capacités d'automatisation et leur intégration fluide avec des points d'accès programmatiques, les récents progrès dans la recherche sur les LLM multimodaux ont permis le développement d'agents LLM basés sur des interfaces graphiques (GUI) qui interagissent avec ces interfaces de manière quasi humaine. Bien que ces deux paradigmes partagent l'objectif d'automatiser des tâches via des LLM, ils divergent significativement en termes de complexité architecturale, de flux de développement et de modèles d'interaction utilisateur. Cet article présente la première étude comparative exhaustive des agents LLM basés sur des API et des GUI, analysant systématiquement leurs divergences et leur potentiel de convergence. Nous examinons les dimensions clés et mettons en lumière des scénarios dans lesquels des approches hybrides peuvent exploiter leurs forces complémentaires. En proposant des critères de décision clairs et en illustrant des cas d'utilisation pratiques, nous visons à guider les praticiens et les chercheurs dans le choix, la combinaison ou la transition entre ces paradigmes. Enfin, nous indiquons que les innovations continues dans l'automatisation basée sur les LLM sont en passe d'estomper les frontières entre les agents pilotés par API et ceux pilotés par GUI, ouvrant la voie à des solutions plus flexibles et adaptatives pour un large éventail d'applications réelles.
La quête d'efficacité des données, où la qualité prime sur la quantité, est devenue une pierre angulaire dans la manipulation robotique, notamment en raison des coûts élevés associés à la collecte de données dans le monde réel. Nous proposons que maximiser la densité informationnelle des démonstrations individuelles puisse réduire considérablement la dépendance aux jeux de données à grande échelle tout en améliorant les performances des tâches. À cette fin, nous introduisons la Collecte de Données Adversariales (Adversarial Data Collection, ADC), un cadre Humain-dans-la-Boucle (Human-in-the-Loop, HiL) qui redéfinit l'acquisition de données robotiques grâce à des interactions bidirectionnelles en temps réel entre l'humain et l'environnement. Contrairement aux pipelines conventionnels qui enregistrent passivement des démonstrations statiques, l'ADC adopte un paradigme de perturbation collaborative : lors d'un seul épisode, un opérateur adverse modifie dynamiquement les états des objets, les conditions environnementales et les commandes linguistiques, tandis que le télé-opérateur ajuste de manière adaptative les actions pour surmonter ces défis évolutifs. Ce processus compresse des comportements divers de récupération après échec, des variations compositionnelles de tâches et des perturbations environnementales en un nombre minimal de démonstrations. Nos expériences montrent que les modèles entraînés avec l'ADC atteignent une généralisation compositionnelle supérieure face à des instructions de tâches inédites, une robustesse accrue aux perturbations perceptuelles et des capacités émergentes de récupération d'erreurs. De manière frappante, les modèles entraînés avec seulement 20 % du volume de démonstrations collectées via l'ADC surpassent significativement les approches traditionnelles utilisant des jeux de données complets. Ces avancées comblent le fossé entre les paradigmes d'apprentissage centrés sur les données et le déploiement pratique de robots, démontrant qu'une acquisition stratégique des données, et pas seulement un traitement a posteriori, est cruciale pour un apprentissage robotique évolutif dans le monde réel. De plus, nous constituons un jeu de données à grande échelle, ADC-Robotics, comprenant des tâches de manipulation réelles avec des perturbations adverses. Ce benchmark sera open-source pour favoriser les avancées dans l'apprentissage par imitation robotique.
Les modèles à espace d'états (State Space Models, SSMs) se sont imposés comme une alternative prometteuse aux modèles populaires basés sur les transformers, suscitant un intérêt croissant. Par rapport aux transformers, les SSMs excellent dans les tâches impliquant des données séquentielles ou des contextes plus longs, démontrant des performances comparables avec des gains d'efficacité significatifs. Dans cette étude, nous proposons un aperçu cohérent et systématique des SSMs, incluant leurs motivations théoriques, leurs formulations mathématiques, leur comparaison avec les classes de modèles existantes, ainsi que leurs diverses applications. Nous divisons la série des SSMs en trois sections principales, offrant une introduction détaillée au SSM original, au SSM structuré représenté par S4, et au SSM sélectif illustré par Mamba. Nous mettons l'accent sur les aspects techniques et soulignons les différentes techniques clés introduites pour améliorer l'efficacité et l'efficience des SSMs. Nous espérons que ce manuscrit servira d'introduction pour les chercheurs souhaitant explorer les fondements théoriques des SSMs.
Nous présentons VGGT, un réseau de neurones à propagation directe qui infère directement tous les attributs 3D clés d'une scène, y compris les paramètres de la caméra, les cartes de points, les cartes de profondeur et les trajectoires de points 3D, à partir d'une, de quelques-unes ou de centaines de ses vues. Cette approche représente une avancée dans le domaine de la vision par ordinateur 3D, où les modèles étaient généralement limités et spécialisés pour des tâches uniques. Elle est également simple et efficace, reconstruisant les images en moins d'une seconde, tout en surpassant les alternatives nécessitant un post-traitement avec des techniques d'optimisation de géométrie visuelle. Le réseau atteint des résultats de pointe dans plusieurs tâches 3D, notamment l'estimation des paramètres de la caméra, l'estimation de la profondeur multi-vues, la reconstruction de nuages de points denses et le suivi de points 3D. Nous montrons également que l'utilisation de VGGT pré-entraîné comme colonne vertébrale de caractéristiques améliore significativement les tâches en aval, telles que le suivi de points non rigides et la synthèse de nouvelles vues par propagation directe. Le code et les modèles sont disponibles publiquement à l'adresse https://github.com/facebookresearch/vggt.
Les modèles multimodaux de grande taille (LMMs) basés sur des transformateurs de pointe rencontrent des difficultés à traiter des entrées vidéo d'une heure en raison de la complexité quadratique des opérations d'auto-attention causale, entraînant des coûts de calcul élevés pendant l'entraînement et l'inférence. Les méthodes existantes basées sur la compression de tokens réduisent le nombre de tokens vidéo, mais entraînent souvent une perte d'information et restent inefficaces pour les séquences extrêmement longues. Dans cet article, nous explorons une direction orthogonale pour construire un modèle hybride Mamba-Transformer (VAMBA) qui utilise des blocs Mamba-2 pour encoder les tokens vidéo avec une complexité linéaire. Sans aucune réduction de tokens, VAMBA peut encoder plus de 1024 images (640x360) sur un seul GPU, tandis que les modèles basés sur des transformateurs ne peuvent encoder que 256 images. Sur des entrées vidéo longues, VAMBA permet une réduction d'au moins 50 % de l'utilisation de la mémoire GPU pendant l'entraînement et l'inférence, et double presque la vitesse par étape d'entraînement par rapport aux LMMs basés sur des transformateurs. Nos résultats expérimentaux montrent que VAMBA améliore la précision de 4,3 % sur le benchmark exigeant de compréhension de vidéos d'une heure LVBench par rapport aux LMMs vidéo efficaces précédents, et maintient de solides performances sur un large éventail de tâches de compréhension de vidéos longues et courtes.
La jonction entre différentes modalités est au cœur de la génération inter-modale. Alors que les approches conventionnelles traitent la modalité texte comme un signal de conditionnement qui guide progressivement le processus de débruitage du bruit gaussien vers la modalité image cible, nous explorons un paradigme bien plus simple : évoluer directement entre les modalités texte et image via le flow matching. Cela nécessite de projeter les deux modalités dans un espace latent partagé, ce qui représente un défi majeur en raison de leurs représentations intrinsèquement différentes : le texte est hautement sémantique et encodé en tokens 1D, tandis que les images sont spatialement redondantes et représentées par des embeddings latents 2D. Pour résoudre ce problème, nous introduisons FlowTok, un cadre minimaliste qui circule de manière fluide entre le texte et les images en encodant les images en une représentation compacte de tokens 1D. Par rapport aux méthodes précédentes, cette conception réduit la taille de l'espace latent par un facteur de 3,3 à une résolution d'image de 256, éliminant ainsi le besoin de mécanismes de conditionnement complexes ou de planification du bruit. De plus, FlowTok s'étend naturellement à la génération d'image-à-texte sous la même formulation. Avec son architecture rationalisée centrée sur des tokens 1D compacts, FlowTok est hautement économe en mémoire, nécessite beaucoup moins de ressources d'entraînement et atteint des vitesses d'échantillonnage bien plus rapides, tout en offrant des performances comparables aux modèles de pointe. Le code sera disponible à l'adresse https://github.com/bytedance/1d-tokenizer.
L'apprentissage fédéré (Federated Learning, FL) s'est imposé comme un paradigme prometteur pour l'entraînement collaboratif de modèles tout en préservant la confidentialité des données brutes. Cependant, des études récentes ont révélé que des informations privées peuvent encore être divulguées via les gradients partagés et être exploitées par des attaques d'inversion de gradients (Gradient Inversion Attacks, GIA). Bien que de nombreuses méthodes de GIA aient été proposées, une analyse détaillée, une évaluation et une synthèse de ces méthodes font encore défaut. Bien que divers articles de synthèse résument les attaques existantes contre la confidentialité dans le FL, peu d'études ont mené des expérimentations approfondies pour révéler l'efficacité des GIA et les facteurs limitants associés dans ce contexte. Pour combler cette lacune, nous entreprenons d'abord une revue systématique des GIA et classons les méthodes existantes en trois catégories : les GIA basées sur l'optimisation (OP-GIA), les GIA basées sur la génération (GEN-GIA) et les GIA basées sur l'analyse (ANA-GIA). Ensuite, nous analysons et évaluons de manière exhaustive ces trois types de GIA dans le FL, en fournissant des insights sur les facteurs qui influencent leur performance, leur praticabilité et leurs menaces potentielles. Nos résultats indiquent que l'OP-GIA est le cadre d'attaque le plus pratique malgré ses performances insatisfaisantes, tandis que la GEN-GIA présente de nombreuses dépendances et que l'ANA-GIA est facilement détectable, les rendant toutes deux peu pratiques. Enfin, nous proposons un pipeline de défense en trois étapes aux utilisateurs lors de la conception de frameworks et de protocoles FL pour une meilleure protection de la confidentialité, et partageons quelques directions de recherche futures que nous estimons prioritaires, tant du point de vue des attaquants que des défenseurs. Nous espérons que notre étude aidera les chercheurs à concevoir des frameworks FL plus robustes pour se prémunir contre ces attaques.
Les thérapies de précision nécessitent des modèles adaptatifs multimodaux capables de générer des recommandations de traitement personnalisées. Nous présentons TxAgent, un agent d'IA qui exploite un raisonnement multi-étapes et une récupération en temps réel de connaissances biomédicales à travers une boîte à outils de 211 instruments pour analyser les interactions médicamenteuses, les contre-indications et les stratégies de traitement spécifiques aux patients. TxAgent évalue comment les médicaments interagissent aux niveaux moléculaire, pharmacocinétique et clinique, identifie les contre-indications en fonction des comorbidités et des médicaments concomitants du patient, et adapte les stratégies de traitement aux caractéristiques individuelles des patients. Il récupère et synthétise des preuves provenant de multiples sources biomédicales, évalue les interactions entre les médicaments et les conditions des patients, et affine les recommandations de traitement grâce à un raisonnement itératif. Il sélectionne les outils en fonction des objectifs de la tâche et exécute des appels de fonctions structurés pour résoudre des tâches thérapeutiques nécessitant un raisonnement clinique et une validation croisée des sources. Le ToolUniverse regroupe 211 outils provenant de sources fiables, incluant tous les médicaments approuvés par la FDA américaine depuis 1939 et des insights cliniques validés provenant d'Open Targets. TxAgent surpasse les principaux LLM, modèles d'utilisation d'outils et agents de raisonnement sur cinq nouveaux benchmarks : DrugPC, BrandPC, GenericPC, TreatmentPC et DescriptionPC, couvrant 3 168 tâches de raisonnement sur les médicaments et 456 scénarios de traitement personnalisés. Il atteint une précision de 92,1 % dans les tâches de raisonnement ouvert sur les médicaments, surpassant GPT-4o et devançant DeepSeek-R1 (671B) dans le raisonnement structuré multi-étapes. TxAgent généralise efficacement les variantes de noms de médicaments et leurs descriptions. En intégrant l'inférence multi-étapes, l'ancrage en temps réel des connaissances et la prise de décision assistée par des outils, TxAgent garantit que les recommandations de traitement sont alignées avec les directives cliniques établies et les preuves issues de la pratique réelle, réduisant ainsi le risque d'événements indésirables et améliorant la prise de décision thérapeutique.
Nous proposons une nouvelle approche pour la génération de légendes et l'ancrage d'objets dans les vidéos, où les objets mentionnés dans les légendes sont ancrés dans la vidéo via des boîtes englobantes temporellement denses. Nous introduisons les contributions suivantes. Premièrement, nous présentons une méthode d'annotation automatique à grande échelle qui agrège des légendes ancrées avec des boîtes englobantes sur des images individuelles en annotations de boîtes englobantes temporellement denses et cohérentes. Nous appliquons cette approche sur le dataset HowTo100M pour construire un dataset de pré-entraînement à grande échelle, nommé HowToGround1M. Nous introduisons également un modèle de génération de légendes vidéo ancrées, appelé GROVE, et pré-entraînons ce modèle sur HowToGround1M. Deuxièmement, nous introduisons un nouveau dataset, appelé iGround, composé de 3500 vidéos avec des légences annotées manuellement et des boîtes englobantes ancrées spatio-temporellement de manière dense. Cela nous permet de mesurer les progrès sur ce problème complexe, ainsi que de fine-tuner notre modèle sur ces données de petite échelle mais de haute qualité. Troisièmement, nous démontrons que notre approche atteint des résultats de pointe sur le dataset iGround proposé par rapport à plusieurs modèles de référence, ainsi que sur les datasets VidSTG et ActivityNet-Entities. Nous effectuons des ablations approfondies qui démontrent l'importance du pré-entraînement utilisant notre dataset HowToGround1M annoté automatiquement, suivi d'un fine-tuning sur le dataset iGround annoté manuellement, et validons les contributions techniques clés de notre modèle.
Les réseaux de Kolmogorov-Arnold (KANs) représentent une innovation remarquable, composée de fonctions d'activation apprenables capables de capturer des relations plus complexes à partir des données. Bien que les KANs soient utiles pour trouver des représentations symboliques et pour l'apprentissage continu de fonctions unidimensionnelles, leur efficacité dans diverses tâches d'apprentissage automatique (ML), telles que la vision, reste incertaine. Actuellement, les KANs sont déployés en remplaçant les perceptrons multicouches (MLPs) dans les architectures de réseaux profonds, y compris des architectures avancées comme les Transformers de vision (ViTs). Dans cet article, nous sommes les premiers à concevoir une attention Kolmogorov-Arnold apprenable générale (KArAt) pour les ViTs classiques, capable de fonctionner avec n'importe quel choix de base. Cependant, les coûts de calcul et de mémoire liés à leur entraînement nous ont incités à proposer une version plus modulaire, et nous avons conçu une attention apprenable spécifique, appelée Fourier-KArAt. Fourier-KArAt et ses variantes surpassent leurs homologues ViTs ou montrent des performances comparables sur les ensembles de données CIFAR-10, CIFAR-100 et ImageNet-1K. Nous analysons la performance et la capacité de généralisation de ces architectures en examinant leurs paysages de perte, distributions de poids, trajectoire de l'optimiseur, visualisation de l'attention et comportement spectral, et nous les contrastons avec les ViTs classiques. L'objectif de cet article n'est pas de produire une attention efficace en termes de paramètres et de calcul, mais d'encourager la communauté à explorer les KANs en conjonction avec des architectures plus avancées qui nécessitent une compréhension approfondie des activations apprenables. Notre code open-source et les détails d'implémentation sont disponibles sur : https://subhajitmaity.me/KArAt
L'ajustement d'un corps à un nuage de points 3D d'un humain vêtu est une tâche courante mais complexe. Les approches traditionnelles basées sur l'optimisation utilisent des pipelines multi-étapes sensibles à l'initialisation de la pose, tandis que les méthodes récentes basées sur l'apprentissage peinent souvent à généraliser à travers des poses et des types de vêtements variés. Nous proposons Equivariant Tightness Fitting for Clothed Humans, ou ETCH, un nouveau pipeline qui estime la correspondance entre la surface du vêtement et celle du corps grâce à une équivariance locale approximative SE(3), encodant la tension sous forme de vecteurs de déplacement de la surface du vêtement vers le corps sous-jacent. Suite à cette correspondance, des caractéristiques invariantes à la pose du corps régressent des marqueurs corporels épars, simplifiant ainsi l'ajustement d'un humain vêtu en une tâche d'ajustement de marqueurs internes au corps. Des expériences approfondies sur CAPE et 4D-Dress montrent que ETCH surpasse significativement les méthodes de pointe — qu'elles soient agnostiques à la tension ou conscientes de celle-ci — en termes de précision d'ajustement du corps pour les vêtements amples (16,7 % ~ 69,5 %) et de précision de la forme (en moyenne 49,9 %). Notre conception de tension équivariante peut même réduire les erreurs directionnelles de (67,2 % ~ 89,8 %) dans des configurations en une seule passe (ou hors distribution). Les résultats qualitatifs démontrent une forte généralisation de ETCH, indépendamment des poses difficiles, des formes inédites, des vêtements amples et des dynamiques non rigides. Nous publierons bientôt le code et les modèles à des fins de recherche sur https://boqian-li.github.io/ETCH/.
Les modèles visuels autorégressifs suivent généralement un paradigme de « prédiction du prochain jeton » selon un ordre raster, ce qui néglige la localité spatiale et temporelle inhérente au contenu visuel. Plus précisément, les jetons visuels présentent des corrélations significativement plus fortes avec leurs jetons adjacents spatialement ou temporellement qu'avec ceux qui sont éloignés. Dans cet article, nous proposons le Modélisation Autoregressive des Voisins (NAR), un nouveau paradigme qui formule la génération visuelle autoregressive comme un processus de remplissage progressif, suivant un mécanisme de « prédiction du prochain voisin » de près à loin. En partant d'un jeton initial, les jetons restants sont décodés dans l'ordre croissant de leur distance de Manhattan par rapport au jeton initial dans l'espace spatio-temporel, élargissant progressivement la frontière de la région décodée. Pour permettre la prédiction parallèle de plusieurs jetons adjacents dans l'espace spatio-temporel, nous introduisons un ensemble de têtes de décodage orientées par dimension, chacune prédisant le prochain jeton le long d'une dimension mutuellement orthogonale. Pendant l'inférence, tous les jetons adjacents aux jetons décodés sont traités en parallèle, réduisant considérablement les étapes de propagation du modèle pour la génération. Les expériences sur ImageNet256×256 et UCF101 démontrent que NAR atteint respectivement un débit 2,4 fois et 8,6 fois plus élevé, tout en obtenant des scores FID/FVD supérieurs pour les tâches de génération d'images et de vidéos par rapport à l'approche PAR-4X. Lors de l'évaluation sur le benchmark de génération texte-image GenEval, NAR avec 0,8 milliard de paramètres surpasse Chameleon-7B tout en utilisant seulement 0,4 des données d'entraînement. Le code est disponible à l'adresse https://github.com/ThisisBillhe/NAR.
Comme les modèles de langage multi-modaux (MLLMs) commettent fréquemment des erreurs lors de la résolution de problèmes scientifiques, évaluer la validité de leurs processus de raisonnement est crucial pour garantir leur fiabilité et identifier les faiblesses fines des modèles. Étant donné que l'évaluation humaine est laborieuse et coûteuse, l'utilisation des MLLMs comme juges automatisés des processus est devenue une pratique courante. Cependant, la fiabilité de ces juges basés sur des modèles reste incertaine. Pour répondre à ce problème, nous introduisons ProJudgeBench, le premier benchmark complet spécifiquement conçu pour évaluer les capacités des juges de processus basés sur des MLLMs. ProJudgeBench comprend 2 400 cas de test et 50 118 étiquettes au niveau des étapes, couvrant quatre disciplines scientifiques avec des niveaux de difficulté variés et un contenu multi-modal. Dans ProJudgeBench, chaque étape est méticuleusement annotée par des experts humains pour la justesse, le type d'erreur et l'explication, permettant une évaluation systématique des capacités des juges à détecter, classer et diagnostiquer les erreurs. L'évaluation sur ProJudgeBench révèle un écart de performance significatif entre les modèles open-source et propriétaires. Pour combler cet écart, nous proposons en outre ProJudge-173k, un jeu de données d'ajustement d'instructions à grande échelle, ainsi qu'une stratégie d'ajustement fin Dynamique Dual-Phase qui encourage les modèles à raisonner explicitement à travers la résolution de problèmes avant d'évaluer les solutions. Ces deux contributions améliorent significativement les capacités d'évaluation des processus des modèles open-source. Toutes les ressources seront publiées pour favoriser les recherches futures sur l'évaluation fiable des processus multi-modaux.
Les modèles unifiés (UniMs) pour la compréhension et la génération multimodales ont récemment suscité un intérêt considérable dans le domaine de la vision et du langage. Les UniMs existants sont conçus pour apprendre simultanément les capacités de compréhension et de génération multimodales, ce qui exige des ressources computationnelles substantielles et rencontre souvent des difficultés à générer des séquences entrelacées de texte et d'images. Nous présentons ARMOR, un cadre purement autorégressif et économe en ressources, qui réalise à la fois la compréhension et la génération en affinant des modèles de langage multimodaux de grande taille (MLLMs) existants. Plus précisément, ARMOR étend les MLLMs existants selon trois perspectives : (1) Pour l'architecture du modèle, une architecture encodeur-décodeur asymétrique avec un mécanisme de commutation avant est introduite pour unifier l'espace d'embedding intégrant les modalités textuelles et visuelles, permettant ainsi une génération naturelle de séquences entrelacées texte-image avec un surcoût computationnel minimal. (2) Pour les données d'entraînement, un ensemble de données entrelacées de haute qualité, soigneusement sélectionné, est collecté pour affiner les MLLMs. (3) Pour l'algorithme d'entraînement, nous proposons un algorithme « quoi ou comment générer » pour doter les MLLMs existants de capacités de génération multimodale tout en préservant leurs capacités de compréhension multimodale, à travers trois étapes d'entraînement progressives basées sur l'ensemble de données collecté. Les résultats expérimentaux démontrent qu'ARMOR améliore les MLLMs existants en UniMs avec des capacités prometteuses de génération d'images, en utilisant des ressources d'entraînement limitées. Notre code sera bientôt disponible sur https://armor.github.io.
Les grands modèles de langage (LLM) ont démontré des performances remarquables et des capacités de généralisation à travers de multiples langues et tâches, ce qui en fait des cibles très attractives pour l'intégration multi-modale (par exemple, images ou parole). Dans ce travail, nous étendons un LLM existant à la modalité de la parole via la discrétisation de la parole et un pré-entraînement continu. Nous nous intéressons particulièrement aux LLM multilingues, tels que TOWER, car leur cadre de pré-entraînement nous permet de traiter la parole discrétisée comme une langue de traduction supplémentaire. Le modèle open-source résultant, SPIRE, est capable de transcrire et de traduire des entrées vocales en anglais tout en conservant les performances originales de TOWER sur les tâches liées à la traduction, démontrant ainsi que l'intégration de la parole discrétisée comme langue supplémentaire est réalisable lors de l'adaptation des LLM. Nous mettons notre code et nos modèles à disposition de la communauté.
La récupération précise de matériaux est essentielle pour créer des ressources 3D réalistes. Les méthodes existantes s'appuient sur des ensembles de données qui capturent des représentations invariantes à la forme et variées en termes d'éclairage des matériaux, lesquelles sont rares et confrontées à des défis dus à une diversité limitée et à une généralisation insuffisante dans le monde réel. La plupart des approches actuelles adoptent des techniques traditionnelles de recherche d'images. Elles ne parviennent pas à capturer les propriétés uniques des espaces de matériaux, ce qui entraîne des performances sous-optimales dans les tâches de récupération. Pour relever ces défis, nous introduisons MaRI, un cadre conçu pour combler l'écart entre les espaces de caractéristiques des matériaux synthétiques et réels. MaRI construit un espace d'embedding partagé qui harmonise les attributs visuels et matériels grâce à une stratégie d'apprentissage contrastif en entraînant conjointement un encodeur d'images et un encodeur de matériaux, rapprochant ainsi les matériaux et images similaires tout en séparant les paires dissemblables dans l'espace de caractéristiques. Pour soutenir cela, nous avons construit un ensemble de données complet comprenant des matériaux synthétiques de haute qualité rendus avec des variations de forme contrôlées et des conditions d'éclairage variées, ainsi que des matériaux réels traités et standardisés à l'aide de techniques de transfert de matériaux. Des expériences approfondies démontrent la performance supérieure, la précision et les capacités de généralisation de MaRI dans des tâches de récupération de matériaux diversifiées et complexes, surpassant les méthodes existantes.
L'accélération de l'échantillonnage des modèles de diffusion est cruciale pour un déploiement efficace de l'AIGC. Bien que les méthodes de distillation de diffusion — basées sur l'appariement de distributions et l'appariement de trajectoires — réduisent l'échantillonnage à aussi peu qu'une étape, elles peinent à répondre aux tâches complexes comme la génération texte-image. La génération en quelques étapes offre un meilleur équilibre entre vitesse et qualité, mais les approches existantes sont confrontées à un compromis persistant : l'appariement de distributions manque de flexibilité pour l'échantillonnage multi-étapes, tandis que l'appariement de trajectoires produit souvent une qualité d'image sous-optimale. Pour combler cette lacune, nous proposons d'apprendre des modèles de diffusion en quelques étapes par Appariement de Distribution de Trajectoire (TDM), un paradigme de distillation unifié qui combine les forces de l'appariement de distributions et de trajectoires. Notre méthode introduit un objectif de distillation de score sans données, alignant la trajectoire de l'élève avec celle du professeur au niveau de la distribution. De plus, nous développons un objectif prenant en compte les étapes d'échantillonnage, qui découple les cibles d'apprentissage à travers différentes étapes, permettant un échantillonnage plus ajustable. Cette approche prend en charge à la fois l'échantillonnage déterministe pour une qualité d'image supérieure et l'adaptation flexible multi-étapes, atteignant des performances de pointe avec une efficacité remarquable. Notre modèle, TDM, surpasse les méthodes existantes sur diverses architectures, telles que SDXL et PixArt-alpha, offrant une qualité supérieure et des coûts d'entraînement significativement réduits. En particulier, notre méthode distille PixArt-alpha en un générateur à 4 étapes qui surpasse son modèle enseignant en termes de préférence utilisateur réelle à une résolution de 1024. Ceci est accompli avec 500 itérations et 2 heures sur A800 — soit seulement 0,01 % du coût d'entraînement du modèle enseignant. De plus, notre TDM proposé peut être étendu pour accélérer la diffusion texte-vidéo. Notamment, TDM peut surpasser son modèle enseignant (CogVideoX-2B) en utilisant seulement 4 NFE sur VBench, améliorant le score total de 80,91 à 81,65. Page du projet : https://tdm-t2x.github.io/
Nous présentons TreeMeshGPT, un Transformer autorégressif conçu pour générer des maillages artistiques de haute qualité alignés avec des nuages de points en entrée. Au lieu de la prédiction conventionnelle du prochain jeton dans un Transformer autorégressif, nous proposons une nouvelle Séquence Arborescente Autorégressive où le prochain jeton d'entrée est récupéré à partir d'une structure arborescente en croissance dynamique, construite sur l'adjacence triangulaire des faces au sein du maillage. Notre séquence permet au maillage de s'étendre localement à partir de la dernière face triangulaire générée à chaque étape, réduisant ainsi la difficulté d'entraînement et améliorant la qualité du maillage. Notre approche représente chaque face triangulaire avec deux jetons, atteignant un taux de compression d'environ 22 % par rapport à la tokenisation naïve des faces. Cette tokenisation efficace permet à notre modèle de générer des maillages artistiques très détaillés avec un fort conditionnement sur le nuage de points, surpassant les méthodes précédentes en termes de capacité et de fidélité. De plus, notre méthode génère des maillages avec de fortes contraintes d'orientation des normales, minimisant les normales inversées couramment rencontrées dans les méthodes précédentes. Nos expériences montrent que TreeMeshGPT améliore la qualité de la génération de maillages avec des détails raffinés et une cohérence dans l'orientation des normales.
Ce travail présente une première évaluation de deux modèles de raisonnement à grande échelle (LRM) de pointe, l'o3-mini d'OpenAI et le DeepSeek R1, sur le raisonnement analogique, en se concentrant sur des tests de QI non verbaux bien établis basés sur les matrices progressives de Raven. Nous utilisons comme référence le jeu de données I-RAVEN et son extension plus difficile, I-RAVEN-X, qui teste la capacité à généraliser à des règles de raisonnement plus longues et à des plages de valeurs d'attributs plus étendues. Pour évaluer l'influence des incertitudes visuelles sur ces tests de raisonnement analogique non verbal, nous étendons le jeu de données I-RAVEN-X, qui suppose par défaut une perception oracle. Nous adoptons une stratégie en deux volets pour simuler cette perception visuelle imparfaite : 1) nous introduisons des attributs perturbateurs qui, étant échantillonnés aléatoirement, ne contribuent pas à la prédiction de la réponse correcte des énigmes et 2) nous lissons les distributions des valeurs des attributs d'entrée. Nous observons une forte baisse de la précision de la tâche de l'o3-mini d'OpenAI, passant de 86,6 % sur l'I-RAVEN original à seulement 17,0 % — approchant le hasard — sur l'I-RAVEN-X plus difficile, qui augmente la longueur et la plage des entrées et simule l'incertitude perceptuelle. Cette baisse s'est produite malgré l'utilisation de 3,4 fois plus de tokens de raisonnement. Une tendance similaire est également observée pour le DeepSeek R1 : de 80,6 % à 23,2 %. D'autre part, un modèle neuro-symbolique probabiliste abductif, ARLC, qui atteint des performances de pointe sur I-RAVEN, peut raisonner de manière robuste dans tous ces tests hors distribution, maintenant une forte précision avec seulement une réduction modeste de 98,6 % à 88,0 %. Notre code est disponible à l'adresse https://github.com/IBM/raven-large-language-models.
La génération détaillée de légendes vidéo (Video Detailed Captioning, VDC) est une tâche cruciale pour le rapprochement vision-langage, permettant des descriptions fines et précises de contenus vidéo complexes. Dans cet article, nous évaluons d'abord de manière exhaustive les approches actuelles de pointe et identifions systématiquement deux limitations critiques : une capacité biaisée envers certains aspects de la génération de légendes et un désalignement avec les préférences humaines. Pour pallier ces lacunes, nous proposons Cockatiel, un nouveau pipeline d'entraînement en trois étapes qui combine un entraînement synthétique et aligné sur les préférences humaines pour améliorer les performances en VDC. Dans la première étape, nous dérivons un scoreur à partir d'un ensemble de données soigneusement annoté pour sélectionner des légendes synthétiques performantes sur certains aspects d'alignement vidéo-légende fins et préférés par les humains, tout en écartant les autres. Ensuite, nous entraînons Cockatiel-13B en utilisant cet ensemble de données curaté pour l'imprégner des forces combinées des modèles et des préférences humaines. Enfin, nous distillons Cockatiel-8B à partir de Cockatiel-13B pour en faciliter l'utilisation. Des expériences quantitatives et qualitatives approfondies reflètent l'efficacité de notre méthode, car nous établissons non seulement de nouvelles performances de pointe sur VDCSCORE de manière équilibrée, mais surpassons également les alternatives principales en termes de préférence humaine avec une large marge, comme le montrent les résultats de l'évaluation humaine.
L'apprentissage de compétences dans des environnements ouverts est essentiel pour développer des agents capables de gérer une variété de tâches en combinant des compétences de base. Les vidéos de démonstration en ligne sont généralement longues mais non segmentées, ce qui les rend difficiles à segmenter et à étiqueter avec des identifiants de compétences. Contrairement aux méthodes existantes qui reposent sur l'échantillonnage de séquences ou l'étiquetage humain, nous avons développé une approche basée sur l'apprentissage auto-supervisé pour segmenter ces longues vidéos en une série de segments sémantiquement cohérents et alignés sur les compétences. En nous inspirant de la théorie cognitive humaine de la segmentation d'événements, nous introduisons la Détection de Limites de Compétences (SBD), un algorithme de segmentation temporelle de vidéos sans annotation. SBD détecte les limites de compétences dans une vidéo en exploitant les erreurs de prédiction d'un modèle de prédiction d'actions non conditionné pré-entraîné. Cette approche repose sur l'hypothèse qu'une augmentation significative de l'erreur de prédiction indique un changement dans la compétence exécutée. Nous avons évalué notre méthode dans Minecraft, un simulateur de monde ouvert riche avec de nombreuses vidéos de gameplay disponibles en ligne. Les segments générés par SBD ont amélioré les performances moyennes des politiques conditionnées de 63,7 % et 52,1 % sur des tâches de compétences atomiques à court terme, et celles de leurs agents hiérarchiques correspondants de 11,3 % et 20,8 % sur des tâches à long terme. Notre méthode peut exploiter les diverses vidéos YouTube pour entraîner des agents suivant des instructions. La page du projet est disponible à l'adresse https://craftjarvis.github.io/SkillDiscovery.
Nous présentons CHOrD, un nouveau cadre pour la synthèse évolutive de scènes intérieures en 3D, conçu pour créer des jumeaux numériques intérieurs à l'échelle d'une maison, exempts de collisions et structurés hiérarchiquement. Contrairement aux méthodes existantes qui synthétisent directement la disposition de la scène sous forme de graphe de scène ou de liste d'objets, CHOrD intègre une représentation intermédiaire de la disposition basée sur des images 2D, permettant de prévenir efficacement les artefacts de collision en les capturant avec succès comme des scénarios hors distribution (OOD) lors de la génération. De plus, contrairement aux méthodes existantes, CHOrD est capable de générer des dispositions de scènes qui respectent des plans d'étage complexes avec des contrôles multi-modaux, permettant la création de dispositions cohérentes à l'échelle de la maison, robustes aux variations géométriques et sémantiques des structures de pièces. Par ailleurs, nous proposons un nouveau jeu de données avec une couverture élargie des articles ménagers et des configurations de pièces, ainsi qu'une qualité de données significativement améliorée. CHOrD démontre des performances de pointe à la fois sur le jeu de données 3D-FRONT et sur notre jeu de données proposé, offrant une synthèse de scènes intérieures photoréalistes et spatialement cohérentes, adaptable à des variations arbitraires de plans d'étage.
Nous proposons GoalFlow, une méthode de conduite autonome de bout en bout pour générer des trajectoires multimodales de haute qualité. Dans les scénarios de conduite autonome, il est rare qu'une seule trajectoire soit appropriée. Les méthodes récentes se concentrent de plus en plus sur la modélisation des distributions de trajectoires multimodales. Cependant, elles souffrent de la complexité de sélection des trajectoires et d'une qualité réduite des trajectoires en raison d'une divergence élevée des trajectoires et d'incohérences entre les informations de guidage et les informations de la scène. Pour résoudre ces problèmes, nous introduisons GoalFlow, une méthode novatrice qui contraint efficacement le processus génératif pour produire des trajectoires multimodales de haute qualité. Pour résoudre le problème de divergence des trajectoires inhérent aux méthodes basées sur la diffusion, GoalFlow contraint les trajectoires générées en introduisant un point de destination. GoalFlow établit un mécanisme de notation innovant qui sélectionne le point de destination le plus approprié parmi les points candidats en fonction des informations de la scène. De plus, GoalFlow utilise une méthode générative efficace, le Flow Matching, pour générer des trajectoires multimodales, et intègre un mécanisme de notation raffiné pour sélectionner la trajectoire optimale parmi les candidats. Nos résultats expérimentaux, validés sur le NavsimDauner2024_navsim, démontrent que GoalFlow atteint des performances de pointe, fournissant des trajectoires multimodales robustes pour la conduite autonome. GoalFlow a atteint un PDMS de 90,3, surpassant significativement les autres méthodes. Par rapport aux autres méthodes basées sur la politique de diffusion, notre approche ne nécessite qu'une seule étape de débruitage pour obtenir d'excellentes performances. Le code est disponible à l'adresse https://github.com/YvanYin/GoalFlow.
Le désapprentissage machine est un paradigme émergent visant à supprimer l'influence de données d'entraînement spécifiques (c'est-à-dire l'ensemble à oublier) d'un modèle tout en préservant sa connaissance du reste des données (c'est-à-dire l'ensemble à retenir). Les approches précédentes supposent que les données à oublier sont uniformément réparties parmi tous les points de données d'entraînement. Cependant, si les données à désapprendre dominent dans un groupe, nous montrons empiriquement que les performances pour ce groupe se dégradent, entraînant des problèmes d'équité. Ce travail aborde le problème négligé des ensembles à oublier non uniformément répartis, que nous appelons désapprentissage machine robuste aux groupes, en présentant une stratégie simple et efficace qui atténue la perte de performance dans les groupes dominants via une re-pondération de la distribution des échantillons. De plus, nous présentons MIU (Machine Unlearning basé sur l'Information Mutuelle), la première approche pour la robustesse aux groupes dans le désapprentissage machine approximatif. MIU minimise l'information mutuelle entre les caractéristiques du modèle et les informations de groupe, permettant le désapprentissage tout en réduisant la dégradation des performances dans le groupe dominant de l'ensemble à oublier. Par ailleurs, MIU exploite la re-pondération de la distribution des échantillons et la calibration de l'information mutuelle avec le modèle original pour préserver la robustesse aux groupes. Nous menons des expériences sur trois jeux de données et montrons que MIU surpasse les méthodes standard, réalisant le désapprentissage sans compromettre la robustesse du modèle. Le code source est disponible à l'adresse suivante : https://github.com/tdemin16/group-robust_machine_unlearning.