Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons ComfyUI-Copilot, un plugin alimenté par un modèle de langage de grande envergure, conçu pour améliorer l’utilisabilité et l’efficacité de ComfyUI, une plateforme open source dédiée à la création artistique pilotée par l’IA. Bien que ComfyUI soit flexible et doté d’une interface conviviale, il peut poser des défis aux nouveaux utilisateurs, notamment en raison d’une documentation limitée, de configurations erronées des modèles et de la complexité de la conception des workflows. ComfyUI-Copilot répond à ces défis en proposant des recommandations intelligentes de nœuds et de modèles, ainsi qu’une construction automatisée de workflows en un clic. Au cœur du système se trouve un cadre hiérarchique multi-agents comprenant un agent assistant central pour la délégation des tâches et des agents spécialisés pour différents usages, soutenus par nos bases de connaissances ComfyUI afin de simplifier le débogage et le déploiement. Nous validons l’efficacité de ComfyUI-Copilot à travers des évaluations quantitatives hors ligne et des retours d’utilisateurs en ligne, démontrant qu’il recommande avec précision les nœuds et accélère le développement des workflows. De plus, des cas d’utilisation illustrent que ComfyUI-Copilot réduit les barrières à l’entrée pour les débutants et améliore l’efficacité des workflows pour les utilisateurs expérimentés. Le package d’installation de ComfyUI-Copilot et une vidéo de démonstration sont disponibles à l’adresse https://github.com/AIDC-AI/ComfyUI-Copilot.
Les récentes avancées dans la restauration vidéo basée sur la diffusion (VR) démontrent une amélioration significative de la qualité visuelle, mais entraînent un coût computationnel prohibitif lors de l'inférence. Bien que plusieurs approches basées sur la distillation aient montré le potentiel de la restauration d'image en une seule étape, l'extension de ces approches à la VR reste un défi et est encore peu explorée, en particulier lorsqu'il s'agit de vidéos haute résolution dans des contextes réels. Dans ce travail, nous proposons un modèle de VR basé sur la diffusion en une seule étape, appelé SeedVR2, qui effectue un entraînement adversarial de VR contre des données réelles. Pour gérer le défi de la VR haute résolution en une seule étape, nous introduisons plusieurs améliorations à la fois dans l'architecture du modèle et dans les procédures d'entraînement. Plus précisément, un mécanisme d'attention par fenêtre adaptative est proposé, où la taille de la fenêtre est ajustée dynamiquement pour s'adapter aux résolutions de sortie, évitant ainsi l'incohérence de fenêtre observée sous la VR haute résolution lors de l'utilisation d'une attention par fenêtre avec une taille prédéfinie. Pour stabiliser et améliorer l'entraînement adversarial postérieur pour la VR, nous vérifions en outre l'efficacité d'une série de fonctions de perte, y compris une fonction de perte de correspondance de caractéristiques proposée, sans sacrifier significativement l'efficacité de l'entraînement. Des expériences approfondies montrent que SeedVR2 peut atteindre des performances comparables, voire supérieures, à celles des approches de VR existantes en une seule étape.
Dans ce travail, nous présentons la série Qwen3 Embedding, une avancée significative par rapport à son prédécesseur, la série GTE-Qwen, en matière de capacités d'incorporation de texte et de reranking, construite sur les modèles de base Qwen3. En exploitant les capacités robustes des modèles de langage Qwen3 (LLMs) dans la compréhension et la génération de textes multilingues, notre pipeline de formation innovant en plusieurs étapes combine un pré-entraînement non supervisé à grande échelle avec un ajustement fin supervisé sur des ensembles de données de haute qualité. Des stratégies efficaces de fusion de modèles garantissent en outre la robustesse et l'adaptabilité de la série Qwen3 Embedding. Durant le processus de formation, les LLMs Qwen3 servent non seulement de modèles de base, mais jouent également un rôle crucial dans la synthèse de données d'entraînement de haute qualité, riches et diversifiées, couvrant plusieurs domaines et langues, améliorant ainsi le pipeline de formation. La série Qwen3 Embedding propose une gamme de tailles de modèles (0,6B, 4B, 8B) pour les tâches d'incorporation et de reranking, répondant à divers scénarios de déploiement où les utilisateurs peuvent optimiser soit l'efficacité, soit l'efficience. Les évaluations empiriques démontrent que la série Qwen3 Embedding atteint des résultats de pointe sur divers benchmarks. Elle excelle notamment sur le benchmark d'évaluation multilingue MTEB pour l'incorporation de texte, ainsi que dans diverses tâches de recherche, y compris la recherche de code, la recherche multilingue et la recherche translinguale. Pour faciliter la reproductibilité et promouvoir la recherche et le développement communautaires, les modèles Qwen3 Embedding sont disponibles publiquement sous la licence Apache 2.0.
Les modèles de monde émergents génèrent de manière autoregressive des images vidéo en réponse à des actions, telles que des mouvements de caméra et des invites textuelles, parmi d'autres signaux de contrôle. En raison de la taille limitée des fenêtres de contexte temporel, ces modèles ont souvent du mal à maintenir la cohérence des scènes lors de revisites, ce qui entraîne un oubli important des environnements précédemment générés. Inspirés par les mécanismes de la mémoire humaine, nous introduisons un nouveau cadre pour améliorer la cohérence à long terme des modèles de monde vidéo grâce à une mémoire spatiale à long terme ancrée dans la géométrie. Notre cadre comprend des mécanismes pour stocker et récupérer des informations à partir de la mémoire spatiale à long terme, et nous avons constitué des ensembles de données personnalisés pour entraîner et évaluer des modèles de monde avec des mécanismes de mémoire 3D explicitement stockés. Nos évaluations montrent une amélioration de la qualité, de la cohérence et de la longueur du contexte par rapport aux références pertinentes, ouvrant la voie à une génération de monde cohérente à long terme.
La référence spatiale est une capacité fondamentale des robots incarnés pour interagir avec le monde physique en 3D. Cependant, même avec les puissants modèles de vision et langage pré-entraînés (VLMs), les approches récentes ne sont toujours pas qualifiées pour comprendre avec précision les scènes 3D complexes et raisonner dynamiquement sur les emplacements indiqués par les instructions pour l'interaction. À cette fin, nous proposons RoboRefer, un VLM conscient de la 3D qui peut d'abord atteindre une compréhension spatiale précise en intégrant un encodeur de profondeur dédié mais dissocié via un ajustement fin supervisé (SFT). De plus, RoboRefer améliore le raisonnement spatial multi-étapes généralisé via un ajustement fin par renforcement (RFT), avec des fonctions de récompense sensibles aux métriques adaptées aux tâches de référence spatiale. Pour soutenir l'entraînement SFT et RFT, nous introduisons RefSpatial, un jeu de données à grande échelle de 20 millions de paires question-réponse (2x plus que précédemment), couvrant 31 relations spatiales (contre 15 auparavant) et supportant des processus de raisonnement complexes (jusqu'à 5 étapes). En outre, nous introduisons RefSpatial-Bench, un benchmark difficile comblant le manque d'évaluation de la référence spatiale avec un raisonnement multi-étapes. Les expériences montrent que RoboRefer entraîné avec SFT atteint une compréhension spatiale de pointe, avec un taux de réussite moyen de 89,6 %. RoboRefer entraîné avec RFT surpasse largement toutes les autres méthodes de référence, dépassant même Gemini-2.5-Pro de 17,4 % en précision moyenne sur RefSpatial-Bench. Notamment, RoboRefer peut être intégré à diverses politiques de contrôle pour exécuter des tâches dynamiques à long terme sur divers robots (par exemple, UR5, humanoïde G1) dans des scènes encombrées du monde réel.
Les modèles Transformer rencontrent des difficultés avec l'inférence en contexte long en raison de leur complexité temporelle quadratique et de leur utilisation de mémoire linéaire. Les Transformers à Mémoire Récurrente (RMT) offrent une solution en réduisant le coût asymptotique à un temps linéaire et une utilisation de mémoire constante. Cependant, leur mécanisme de mise à jour de la mémoire entraîne une exécution séquentielle, créant un goulot d'étranglement de performance. Nous introduisons le Diagonal Batching, un schéma d'ordonnancement qui débloque le parallélisme entre les segments dans les RMT tout en préservant la récurrence exacte. Cette approche élimine la contrainte séquentielle, permettant une inférence GPU efficace même pour des entrées uniques en contexte long, sans recourir à des techniques complexes de batching et de pipelining. Comme cette technique consiste uniquement en un réordonnancement des calculs à l'exécution, les modèles RMT existants peuvent l'adopter sans nécessiter de réentraînement. Appliqué à un modèle LLaMA-1B ARMT, le Diagonal Batching permet une accélération de 3,3x par rapport au LLaMA-1B standard avec attention complète, et de 1,8x par rapport à l'implémentation séquentielle des RMT sur des séquences de 131 072 tokens. En supprimant le goulot d'étranglement séquentiel, le Diagonal Batching réduit le coût et la latence de l'inférence, renforçant ainsi les RMT comme une solution pratique pour les applications réelles en contexte long.
Les grands modèles de langage (LLMs) sont généralement entraînés sur des quantités massives de texte non licencié, une pratique qui a suscité des interrogations en raison de possibles violations de propriété intellectuelle et de préoccupations éthiques. L'entraînement des LLMs sur du texte sous licence ouverte représente une première étape pour aborder ces problèmes, mais les efforts antérieurs de collecte de données ont produit des ensembles de données trop petits ou de qualité insuffisante pour générer des LLMs performants. Pour combler cette lacune, nous collectons, organisons et publions le Common Pile v0.1, une collection de huit téraoctets de texte sous licence ouverte conçue pour le pré-entraînement des LLMs. Le Common Pile comprend du contenu provenant de 30 sources couvrant divers domaines, notamment des articles de recherche, du code, des livres, des encyclopédies, des matériels éducatifs, des transcriptions audio, et plus encore. De manière cruciale, nous validons nos efforts en entraînant deux LLMs de 7 milliards de paramètres sur du texte issu du Common Pile : Comma v0.1-1T et Comma v0.1-2T, entraînés respectivement sur 1 et 2 billions de tokens. Les deux modèles atteignent des performances compétitives par rapport aux LLMs entraînés sur du texte non licencié avec des budgets de calcul similaires, tels que Llama 1 et 2 7B. En plus de publier le Common Pile v0.1 lui-même, nous publions également le code utilisé pour sa création ainsi que le mélange d'entraînement et les points de contrôle pour les modèles Comma v0.1.
Nous présentons Surfer-H, un agent web économique qui intègre des modèles vision-langage (VLM) pour exécuter des tâches définies par l'utilisateur sur le web. Nous l'associons à Holo1, une nouvelle collection open-weight de VLMs spécialisés dans la navigation web et l'extraction d'informations. Holo1 a été entraîné sur des sources de données soigneusement sélectionnées, incluant du contenu web en accès libre, des exemples synthétiques et des données agentiques auto-produites. Holo1 domine les benchmarks généralistes d'interface utilisateur (UI) ainsi que notre nouveau benchmark de localisation d'UI web, WebClick. Lorsqu'il est alimenté par Holo1, Surfer-H atteint une performance de pointe de 92,2 % sur WebVoyager, établissant un équilibre Pareto-optimal entre précision et efficacité économique. Pour accélérer les avancées de recherche dans les systèmes agentiques, nous rendons publics à la fois notre ensemble de données d'évaluation WebClick et les poids du modèle Holo1.
Le dimensionnement au moment de l'inférence échange l'efficacité contre une précision accrue en générant des séquences plus longues ou plus parallèles. Cependant, dans les modèles de langage de type Transformer, le coût de génération est limité par la taille du cache clé-valeur (KV), plutôt que par le nombre de tokens générés. Par conséquent, nous explorons l'hyper-dimensionnement au moment de l'inférence : en compressant le cache KV, nous pouvons générer plus de tokens dans le même budget de calcul et améliorer encore la précision de l'inférence dimensionnée. Le succès de cette approche dépend toutefois de la capacité des méthodes de compression à préserver la précision même à des taux de compression élevés. Pour rendre l'hyper-dimensionnement pratique, nous introduisons la Sparsification Dynamique de la Mémoire (DMS), une méthode novatrice pour sparsifier les caches KV qui ne nécessite que 1 000 étapes d'entraînement pour atteindre une compression de 8 fois, tout en maintenant une meilleure précision que l'attention sparse sans entraînement. Au lieu de supprimer prématurément les tokens mis en cache, DMS retarde l'éviction des tokens, fusionnant implicitement les représentations et préservant les informations critiques. Nous démontrons l'efficacité de l'hyper-dimensionnement au moment de l'inférence avec DMS sur plusieurs familles de modèles de langage, montrant qu'il améliore la précision pour un temps d'inférence et une charge mémoire comparables. Par exemple, nous améliorons Qwen-R1 32B en moyenne de 9,1 points sur AIME 24, 7,6 sur GPQA et 9,6 sur LiveCodeBench pour différents budgets de calcul.
Cet article présente un cadre novateur pour aligner des espaces latents apprenables à des distributions cibles arbitraires en exploitant des modèles génératifs basés sur des flots comme a priori. Notre méthode commence par pré-entraîner un modèle de flot sur les caractéristiques cibles afin de capturer la distribution sous-jacente. Ce modèle de flot fixé régularise ensuite l'espace latent via une fonction de coût d'alignement, qui reformule l'objectif d'appariement de flots pour traiter les latents comme des cibles d'optimisation. Nous démontrons formellement que la minimisation de cette fonction de coût établit un objectif de substitution calculable pour maximiser une borne inférieure variationnelle sur la log-vraisemblance des latents sous la distribution cible. Notamment, la méthode proposée élimine les évaluations coûteuses en calcul de la vraisemblance et évite la résolution d'équations différentielles ordinaires pendant l'optimisation. À titre de preuve de concept, nous montrons dans un cadre contrôlé que le paysage de la fonction de coût d'alignement se rapproche étroitement de la log-vraisemblance négative de la distribution cible. Nous validons en outre l'efficacité de notre approche à travers des expériences de génération d'images à grande échelle sur ImageNet avec diverses distributions cibles, accompagnées de discussions détaillées et d'études d'ablation. Avec une validation à la fois théorique et empirique, notre cadre ouvre une nouvelle voie pour l'alignement des espaces latents.
Le raisonnement mathématique dans des contextes vidéo du monde réel présente un défi fondamentalement différent de celui des images statiques ou du texte. Il nécessite l'interprétation d'informations visuelles fines, la lecture précise de textes manuscrits ou numériques, et l'intégration d'indices parlés, souvent dispersés de manière non linéaire dans le temps. Dans de tels contextes multimodaux, le succès ne dépend pas seulement de la perception, mais aussi de l'identification et de l'intégration sélectives des détails contextuels pertinents à partir d'un flux de contenu riche et bruyant. À cette fin, nous introduisons VideoMathQA, un benchmark conçu pour évaluer si les modèles peuvent effectuer un raisonnement multimodal temporellement étendu sur des vidéos. Ce benchmark couvre 10 domaines mathématiques divers, incluant des vidéos allant de 10 secondes à plus d'une heure. Il exige des modèles qu'ils interprètent du contenu visuel structuré, comprennent des récits instructifs, et ancrent conjointement des concepts à travers les modalités visuelles, audio et textuelles. Nous employons des experts de niveau universitaire pour garantir une haute qualité, totalisant plus de 920 heures-homme d'annotation. Pour refléter des scénarios du monde réel, les questions sont conçues autour de trois défis de raisonnement principaux : la résolution directe de problèmes, où les réponses sont ancrées dans la question présentée ; le transfert conceptuel, qui nécessite l'application de méthodes apprises à de nouveaux problèmes ; et la compréhension approfondie des instructions, impliquant un raisonnement en plusieurs étapes sur des explications étendues et des solutions partiellement élaborées. Chaque question inclut des annotations de raisonnement en plusieurs étapes, permettant un diagnostic fin des capacités des modèles. À travers ce benchmark, nous mettons en lumière les limites des approches existantes et établissons un cadre d'évaluation systématique pour les modèles qui doivent raisonner, plutôt que simplement percevoir, dans des contextes de problèmes mathématiques temporellement étendus et riches en modalités. Notre benchmark et le code d'évaluation sont disponibles à l'adresse : https://mbzuai-oryx.github.io/VideoMathQA
Les récentes avancées dans les modèles de diffusion texte-vidéo (T2V) ont permis la synthèse de vidéos de haute fidélité et réalistes. Cependant, les modèles T2V actuels rencontrent souvent des difficultés à générer un contenu physiquement plausible en raison de leur capacité intrinsèque limitée à comprendre avec précision la physique. Nous avons constaté que bien que les représentations au sein des modèles T2V possèdent une certaine capacité de compréhension de la physique, elles sont nettement en retard par rapport à celles des méthodes récentes d'apprentissage auto-supervisé sur vidéo. À cette fin, nous proposons un nouveau cadre appelé VideoREPA, qui distille la capacité de compréhension de la physique à partir de modèles de fondation de compréhension vidéo dans les modèles T2V en alignant les relations au niveau des tokens. Cela comble l'écart de compréhension de la physique et permet une génération plus physiquement plausible. Plus précisément, nous introduisons la perte de Distillation des Relations de Tokens (TRD), en tirant parti de l'alignement spatio-temporel pour fournir un guidage doux adapté au fine-tuning de modèles T2V pré-entraînés puissants, une divergence critique par rapport aux méthodes précédentes d'alignement de représentations (REPA). À notre connaissance, VideoREPA est la première méthode REPA conçue pour le fine-tuning de modèles T2V et spécifiquement pour l'injection de connaissances physiques. Les évaluations empiriques montrent que VideoREPA améliore considérablement le bon sens physique de la méthode de base, CogVideoX, obtenant une amélioration significative sur les benchmarks pertinents et démontrant une forte capacité à générer des vidéos cohérentes avec la physique intuitive. Plus de résultats vidéo sont disponibles à l'adresse https://videorepa.github.io/.
Malgré les progrès dans la compréhension vidéo, les modèles multilingues actuels (MLLMs) peinent à accomplir les tâches de décompte. Les benchmarks existants sont limités par des vidéos courtes, des requêtes fermées, l'absence d'annotations d'indices et une couverture multimodale insuffisante. Dans cet article, nous présentons CG-AV-Counting, un benchmark de décompte basé sur des indices, annoté manuellement, comprenant 1 027 questions multimodales et 5 845 indices annotés sur 497 vidéos longues. Il supporte à la fois l'évaluation en boîte noire et en boîte blanche, servant de plateforme de test complète pour le décompte de bout en bout et basé sur le raisonnement. Pour explorer des moyens d'améliorer la capacité de décompte des modèles, nous proposons AV-Reasoner, un modèle entraîné avec GRPO et l'apprentissage curriculaire pour généraliser la capacité de décompte à partir de tâches connexes. AV-Reasoner obtient des résultats de pointe sur plusieurs benchmarks, démontrant l'efficacité de l'apprentissage par renforcement. Cependant, les expériences montrent que sur des benchmarks hors domaine, le raisonnement dans l'espace linguistique n'apporte pas de gains de performance. Le code et le benchmark ont été publiés sur https://av-reasoner.github.io.
Les modèles de raisonnement représentés par la série Deepseek-R1-Distill ont été largement adoptés par la communauté open source en raison de leurs performances solides dans les domaines des mathématiques, des sciences, de la programmation et autres. Cependant, notre étude révèle que leurs résultats d'évaluation de référence sont sujets à des fluctuations significatives causées par divers facteurs. Des différences subtiles dans les conditions d'évaluation peuvent entraîner des variations substantielles dans les résultats. Des phénomènes similaires sont observés dans d'autres modèles d'inférence open source affinés à partir de la série Deepseek-R1-Distill, ainsi que dans le modèle QwQ-32B, rendant difficile la reproduction fiable de leurs améliorations de performances revendiquées. Par conséquent, nous préconisons l'établissement d'un paradigme plus rigoureux pour l'évaluation des performances des modèles et présentons nos évaluations empiriques des modèles de la série Deepseek-R1-Distill.
La cognition spatiale est essentielle à l'intelligence humaine, permettant de résoudre des problèmes grâce à des simulations visuelles plutôt qu'en s'appuyant uniquement sur le raisonnement verbal. Cependant, les benchmarks existants en IA évaluent principalement le raisonnement verbal, négligeant les complexités des simulations visuelles non verbales et multi-étapes. Nous présentons STARE (Spatial Transformations and Reasoning Evaluation), un benchmark conçu pour évaluer rigoureusement les modèles de langage multimodaux sur des tâches mieux résolues par des simulations visuelles multi-étapes. STARE propose 4 000 tâches couvrant des transformations géométriques fondamentales (2D et 3D), un raisonnement spatial intégré (pliage de patrons de cubes et puzzles tangram) et un raisonnement spatial pratique (raisonnement perspectif et temporel), reflétant des défis cognitifs concrets tels que l'assemblage d'objets, l'interprétation de diagrammes mécaniques et la navigation spatiale quotidienne. Nos évaluations montrent que les modèles excellent dans le raisonnement sur des transformations 2D simples, mais obtiennent des performances proches du hasard sur des tâches plus complexes comme le pliage de patrons de cubes 3D et les puzzles tangram, qui nécessitent des simulations visuelles multi-étapes. Les humains atteignent une précision quasi parfaite mais prennent un temps considérable (jusqu'à 28,9 s) sur les tâches complexes, accélérant significativement (en moyenne de 7,5 secondes) avec des simulations visuelles intermédiaires. En revanche, les modèles montrent des gains de performance incohérents avec les simulations visuelles, s'améliorant sur la plupart des tâches mais déclinant dans des cas spécifiques comme les puzzles tangram (GPT-4o, o1) et le pliage de patrons de cubes (Claude-3.5, Gemini-2.0 Flash), indiquant que les modèles ne savent peut-être pas exploiter efficacement les informations visuelles intermédiaires.
Les modèles de langage augmentés par la recherche combinent la recherche web avec les grands modèles de langage (LLMs) pour améliorer l'ancrage et l'actualité des réponses. Cependant, l'analyse de ces systèmes reste complexe : les ensembles de données existants sont limités en échelle et étroits en portée, souvent contraints à des questions statiques, en un seul tour, de vérification des faits. Dans ce travail, nous présentons Search Arena, un ensemble de données à grande échelle et crowdsourcé de préférences humaines, comprenant plus de 24 000 interactions utilisateur multi-tours jumelées avec des LLMs augmentés par la recherche. L'ensemble de données couvre des intentions et des langues diverses, et contient des traces complètes du système avec environ 12 000 votes de préférence humaine. Notre analyse révèle que les préférences des utilisateurs sont influencées par le nombre de citations, même lorsque le contenu cité ne soutient pas directement les affirmations attribuées, mettant en lumière un écart entre la crédibilité perçue et réelle. De plus, les préférences des utilisateurs varient selon les sources citées, montrant que les plateformes communautaires sont généralement préférées et que les sources encyclopédiques statiques ne sont pas toujours appropriées et fiables. Pour évaluer les performances dans différents contextes, nous menons des analyses croisées en testant les LLMs augmentés par la recherche dans un environnement de chat généraliste et les LLMs conventionnels dans des contextes intensifs en recherche. Nous constatons que la recherche web ne dégrade pas et peut même améliorer les performances dans des contextes non liés à la recherche ; cependant, la qualité dans les contextes de recherche est significativement affectée si l'on s'appuie uniquement sur les connaissances paramétriques du modèle. Nous avons ouvert l'ensemble de données pour soutenir les recherches futures dans cette direction. Notre ensemble de données et notre code sont disponibles à l'adresse : https://github.com/lmarena/search-arena.
Les modèles de langage multimodaux de grande taille (MLLMs) sont généralement dérivés en étendant des modèles de langage de grande taille (LLMs) pré-entraînés avec des capacités visuelles. Dans ce travail, nous étudions comment les MLLMs traitent les entrées visuelles en analysant leurs mécanismes d'attention. Nous révélons un phénomène de parcimonie surprenant : seule une petite sous-ensemble (environ moins de 5 %) des têtes d'attention dans les LLMs contribue activement à la compréhension visuelle, appelées têtes visuelles. Pour identifier ces têtes efficacement, nous concevons un cadre sans entraînement qui quantifie la pertinence visuelle au niveau des têtes par une analyse ciblée des réponses. Sur la base de cette découverte, nous introduisons SparseMM, une stratégie d'optimisation du KV-Cache qui alloue des budgets de calcul asymétriques aux têtes des LLMs en fonction de leurs scores visuels, exploitant la parcimonie des têtes visuelles pour accélérer l'inférence des MLLMs. Par rapport aux méthodes d'accélération du KV-Cache antérieures qui ignorent la particularité visuelle, SparseMM priorise la préservation et le maintien de la sémantique visuelle pendant le décodage. Des évaluations approfondies sur des benchmarks multimodaux grand public démontrent que SparseMM atteint des compromis supérieurs entre précision et efficacité. Notamment, SparseMM offre une accélération en temps réel de 1,38x et une réduction de mémoire de 52 % pendant la génération tout en maintenant une performance équivalente lors des tests d'efficacité. Notre projet est open source à l'adresse https://github.com/CR400AF-A/SparseMM.
L'entraînement de modèles de langage sur des données de séquences longues constitue une exigence exigeante pour améliorer la capacité du modèle sur des tâches complexes, telles que le raisonnement à longue chaîne. Cependant, à mesure que la longueur des séquences augmente, le coût mémoire pour stocker les valeurs d'activation devient considérable pendant le processus de rétropropagation (BP), même avec l'application de la technique de vérification des gradients. Pour relever ce défi, nous proposons une méthode de BP économe en mémoire et exacte, appelée StreamBP, qui effectue une décomposition linéaire de la règle de la chaîne le long de la dimension de séquence de manière couche par couche, réduisant ainsi significativement le coût mémoire des valeurs d'activation et des logits. La méthode proposée est applicable à des objectifs courants tels que SFT, GRPO et DPO. D'un point de vue implémentation, StreamBP réalise moins d'opérations FLOPs et une vitesse de BP plus rapide en exploitant la structure causale du modèle de langage. Par rapport à la vérification des gradients, StreamBP augmente la longueur maximale des séquences de BP de 2,8 à 5,5 fois, tout en utilisant un temps de BP comparable ou même inférieur. Il est à noter que la capacité de StreamBP à augmenter la longueur des séquences peut être directement transférée à l'augmentation de la taille des lots pour accélérer l'entraînement. Nous développons également une version distribuée et économe en communication de StreamBP pour soutenir efficacement l'entraînement multi-GPU et élargir son applicabilité. Notre code peut être facilement intégré dans le pipeline d'entraînement de tout modèle de transformateur et est disponible à l'adresse https://github.com/Ledzy/StreamBP.
L'émergence des modèles de langage multimodaux à grande échelle (MLLMs) a conduit à des avancées majeures dans les applications de vision égocentrique. Ces applications nécessitent une compréhension persistante et contextuelle des objets, car les utilisateurs interagissent avec des outils dans des environnements dynamiques et encombrés. Cependant, les benchmarks existants en intelligence incarnée se concentrent principalement sur l'exploration de scènes statiques, mettant l'accent sur l'apparence et les attributs spatiaux des objets, tout en négligeant l'évaluation des changements dynamiques résultant des interactions des utilisateurs. Pour combler cette lacune, nous introduisons EOC-Bench, un benchmark innovant conçu pour évaluer systématiquement la cognition incarnée centrée sur les objets dans des scénarios égocentriques dynamiques. Plus précisément, EOC-Bench comprend 3 277 paires de questions-réponses méticuleusement annotées, classées en trois catégories temporelles : Passé, Présent et Futur, couvrant 11 dimensions d'évaluation fines et 3 types de références visuelles d'objets. Pour garantir une évaluation approfondie, nous développons un cadre d'annotation mixte avec intervention humaine, incluant quatre types de questions, et concevons une nouvelle métrique de précision temporelle multi-échelle pour l'évaluation temporelle ouverte. Sur la base d'EOC-Bench, nous menons des évaluations complètes de divers MLLMs propriétaires, open-source et au niveau des objets. EOC-Bench constitue un outil essentiel pour faire progresser les capacités de cognition incarnée des objets des MLLMs, établissant ainsi une base solide pour le développement de modèles centraux fiables pour les systèmes incarnés.
La production de cartes de textures est un aspect crucial de la modélisation 3D et détermine la qualité du rendu. Récemment, les méthodes basées sur la diffusion ont ouvert une nouvelle voie pour la génération de textures. Cependant, la flexibilité de contrôle limitée et les modalités d'invite restreintes peuvent empêcher les créateurs d'obtenir les résultats souhaités. De plus, les incohérences entre les images multi-vues générées conduisent souvent à une qualité médiocre de génération de textures. Pour résoudre ces problèmes, nous introduisons FlexPainter, un nouveau pipeline de génération de textures qui permet un guidage conditionnel multi-modal flexible et assure une génération de textures hautement cohérente. Un espace d'embedding conditionnel partagé est construit pour effectuer une agrégation flexible entre différentes modalités d'entrée. En utilisant cet espace d'embedding, nous présentons une méthode CFG basée sur l'image pour décomposer les informations structurelles et stylistiques, permettant ainsi une stylisation basée sur une image de référence. En exploitant la connaissance 3D intégrée dans le modèle de diffusion d'images, nous générons d'abord des images multi-vues simultanément en utilisant une représentation en grille pour améliorer la compréhension globale. Parallèlement, nous proposons un module de synchronisation des vues et de pondération adaptative lors de l'échantillonnage de la diffusion pour garantir davantage la cohérence locale. Enfin, un modèle de complétion de textures 3D combiné à un modèle d'amélioration de textures est utilisé pour générer des cartes de textures sans couture et en haute résolution. Des expériences approfondies démontrent que notre framework surpasse significativement les méthodes de pointe en termes de flexibilité et de qualité de génération.
La méthode Chain-of-Thought (CoT) a largement amélioré le raisonnement mathématique dans les grands modèles de langage (LLMs), mais son extension aux domaines multimodaux reste un défi. Les travaux existants adoptent soit un raisonnement textuel similaire pour les entrées d'images, soit cherchent à intercaler des signaux visuels dans le CoT mathématique. Cependant, ils rencontrent trois limitations majeures pour la résolution de problèmes mathématiques : la dépendance à des régions d'images grossières de forme rectangulaire, la perception limitée des encodeurs visuels sur le contenu mathématique, et la dépendance à des capacités externes pour la modification visuelle. Dans cet article, nous proposons MINT-CoT, introduisant des **Mathematical INterleaved Tokens** pour le raisonnement visuel dans le cadre de la méthode Chain-of-Thought. MINT-CoT intercale de manière adaptative des tokens visuels pertinents dans les étapes de raisonnement textuel via un **Interleave Token**, qui sélectionne dynamiquement des régions visuelles de toute forme au sein des figures mathématiques. Pour renforcer cette capacité, nous construisons le jeu de données MINT-CoT, contenant 54 000 problèmes mathématiques alignant chaque étape de raisonnement avec des régions visuelles au niveau du token, accompagné d'un pipeline rigoureux de génération de données. Nous présentons également une stratégie d'entraînement en trois étapes pour MINT-CoT, combinant progressivement un **CoT textuel SFT**, un **CoT intercalé SFT**, et un **CoT intercalé RL**, ce qui aboutit à notre modèle MINT-CoT-7B. Des expériences approfondies démontrent l'efficacité de notre méthode pour un raisonnement visuel intercalé efficace dans les domaines mathématiques, où MINT-CoT-7B surpasse le modèle de référence de +34,08 % sur MathVista, +28,78 % sur GeoQA, et +23,2 % sur MMStar, respectivement. Notre code et nos données sont disponibles à l'adresse suivante : https://github.com/xinyan-cxy/MINT-CoT.
Les cartes de profondeur sont largement utilisées dans les pipelines de projection 3D par splatting gaussien (3DGS) en avant-propagée, en les projetant en nuages de points 3D pour la synthèse de nouvelles vues. Cette approche présente des avantages tels qu'un entraînement efficace, l'utilisation de poses de caméra connues et une estimation géométrique précise. Cependant, les discontinuités de profondeur aux limites des objets entraînent souvent des nuages de points fragmentés ou clairsemés, ce qui dégrade la qualité de rendu — une limitation bien connue des représentations basées sur la profondeur. Pour résoudre ce problème, nous introduisons PM-Loss, une nouvelle fonction de régularisation basée sur une carte de points prédite par un transformeur pré-entraîné. Bien que la carte de points elle-même puisse être moins précise que la carte de profondeur, elle impose efficacement une régularité géométrique, en particulier autour des limites des objets. Avec la carte de profondeur améliorée, notre méthode améliore significativement la projection 3DGS en avant-propagée sur diverses architectures et scènes, offrant des résultats de rendu constamment meilleurs. Notre page de projet : https://aim-uofa.github.io/PMLoss
Actuellement, l'approche dominante pour établir l'alignement entre le langage et l'image consiste à pré-entraîner conjointement des encodeurs de texte et d'image via un apprentissage contrastif, comme CLIP et ses variantes. Dans ce travail, nous nous interrogeons sur la nécessité d'un tel entraînement conjoint coûteux. En particulier, nous examinons si un modèle de langage massif (LLM) pré-entraîné et fixé offre un encodeur de texte suffisamment performant pour guider l'apprentissage des représentations visuelles. Autrement dit, nous proposons d'apprendre l'alignement Langage-Image avec un Encodeur de Texte Fixe (LIFT) issu d'un LLM en entraînant uniquement l'encodeur d'image. De manière quelque peu surprenante, à travers des études de référence et d'ablation approfondies, nous constatons que ce cadre simplifié LIFT est très efficace et surpasse CLIP dans la plupart des scénarios impliquant une compréhension compositionnelle et des descriptions longues, tout en réalisant des gains considérables en efficacité computationnelle. Notre travail représente une première étape vers l'exploration systématique de la manière dont les embeddings textuels issus des LLM peuvent guider l'apprentissage visuel et suggère une alternative de conception pour l'apprentissage de représentations visuelles alignées sur le langage.
Les modèles de génération d'images autoregressifs (AR) ont suscité un intérêt croissant en raison de leurs avancées en matière de qualité de synthèse, soulignant la nécessité d'un tatouage robuste pour prévenir les utilisations abusives. Cependant, les techniques de tatouage existantes pendant la génération sont principalement conçues pour les modèles de diffusion, où les tatouages sont intégrés dans les états latents de diffusion. Cette conception pose des défis importants pour une adaptation directe aux modèles AR, qui génèrent des images de manière séquentielle par prédiction de tokens. De plus, les attaques de régénération basées sur la diffusion peuvent effacer efficacement ces tatouages en perturbant les états latents de diffusion. Pour relever ces défis, nous proposons le Lexical Bias Watermarking (LBW), un cadre novateur conçu pour les modèles AR qui résiste aux attaques de régénération. LBW intègre des tatouages directement dans les cartes de tokens en biaisant la sélection des tokens vers une liste verte prédéfinie pendant la génération. Cette approche assure une intégration transparente avec les modèles AR existants et s'étend naturellement au tatouage post-hoc. Pour augmenter la sécurité contre les attaques en boîte blanche, au lieu d'utiliser une seule liste verte, la liste verte pour chaque image est échantillonnée aléatoirement à partir d'un pool de listes vertes. La détection du tatouage est effectuée via la quantification et l'analyse statistique de la distribution des tokens. Des expériences approfondies démontrent que LBW atteint une robustesse supérieure du tatouage, en particulier en résistant aux attaques de régénération.
La génération et l'édition de portraits parlants conditionnés par l'audio, guidés par des entrées multimodales incluant du texte, des images et des vidéos, restent peu explorées. Dans cet article, nous présentons SkyReels-Audio, un cadre unifié pour la synthèse de vidéos de portraits parlants à haute fidélité et cohérence temporelle. Basé sur des transformateurs de diffusion vidéo pré-entraînés, notre cadre prend en charge la génération et l'édition de longueur infinie, tout en permettant un conditionnement diversifié et contrôlable via des entrées multimodales. Nous utilisons une stratégie d'apprentissage hybride par curriculum pour aligner progressivement l'audio avec les mouvements faciaux, permettant un contrôle multimodal fin sur de longues séquences vidéo. Pour améliorer la cohérence faciale locale, nous introduisons une perte de masque facial et un mécanisme de guidage sans classifieur conditionné par l'audio. Une approche de débruitage par fenêtre glissante fusionne en outre les représentations latentes à travers les segments temporels, assurant une fidélité visuelle et une cohérence temporelle sur des durées prolongées et des identités diverses. Plus important encore, nous construisons un pipeline de données dédié pour la curation de triplets de haute qualité composés d'audio, de vidéo et de descriptions textuelles synchronisés. Des évaluations approfondies sur des benchmarks montrent que SkyReels-Audio atteint des performances supérieures en termes de précision de synchronisation labiale, de cohérence d'identité et de dynamiques faciales réalistes, en particulier dans des conditions complexes et difficiles.
Cet article aborde le défi de la reconstruction de scènes 3D dynamiques avec des mouvements complexes. Certains travaux récents définissent des primitives gaussiennes 3D dans l'espace canonique et utilisent des champs de déformation pour mapper ces primitives canoniques vers les espaces d'observation, permettant ainsi une synthèse visuelle dynamique en temps réel. Cependant, ces méthodes peinent souvent à gérer des scènes avec des mouvements complexes en raison de la difficulté à optimiser les champs de déformation. Pour surmonter ce problème, nous proposons FreeTimeGS, une nouvelle représentation 4D qui permet aux primitives gaussiennes d'apparaître à des moments et des emplacements arbitraires. Contrairement aux primitives gaussiennes canoniques, notre représentation offre une grande flexibilité, améliorant ainsi la capacité à modéliser des scènes 3D dynamiques. De plus, nous dotons chaque primitive gaussienne d'une fonction de mouvement, lui permettant de se déplacer vers des régions voisines au fil du temps, ce qui réduit la redondance temporelle. Les résultats d'expériences sur plusieurs ensembles de données montrent que la qualité de rendu de notre méthode surpasse largement celle des méthodes récentes.
Nous repensons les lois de mise à l'échelle au moment des tests sous l'angle de l'efficacité pratique, révélant que l'efficacité des modèles plus petits est considérablement surestimée. Les travaux antérieurs, basés sur l'optimalité de calcul, négligent les goulets d'étranglement critiques liés à l'accès à la mémoire introduits par les stratégies d'inférence (par exemple, Best-of-N, longues chaînes de pensée). Notre analyse holistique, couvrant des modèles de 0,6 à 32 milliards de paramètres, révèle une nouvelle loi de mise à l'échelle cinétique qui guide mieux l'allocation des ressources en intégrant à la fois les coûts de calcul et d'accès à la mémoire. La loi de mise à l'échelle cinétique suggère que le calcul au moment des tests est plus efficace lorsqu'il est utilisé sur des modèles dépassant un certain seuil plutôt que sur des modèles plus petits. Une raison clé est que, dans le contexte des tests, l'attention, plutôt que le nombre de paramètres, devient le facteur de coût dominant. Motivés par cela, nous proposons un nouveau paradigme de mise à l'échelle centré sur l'attention sparse, qui réduit le coût par token et permet des générations plus longues ainsi qu'un plus grand nombre d'échantillons parallèles dans le même budget de ressources. Empiriquement, nous montrons que les modèles à attention sparse surpassent systématiquement leurs homologues denses, obtenant des gains de plus de 60 points dans les régimes à faible coût et de plus de 5 points dans les régimes à coût élevé pour la précision de résolution de problèmes sur AIME, incluant des évaluations sur les modèles Mixture of Experts (MoE) de pointe. Ces résultats suggèrent que l'attention sparse est essentielle pour réaliser le plein potentiel de la mise à l'échelle au moment des tests, car, contrairement à l'entraînement où la mise à l'échelle des paramètres atteint un plateau, la précision au moment des tests continue de s'améliorer grâce à une génération accrue. Le code est disponible à l'adresse suivante : https://github.com/Infini-AI-Lab/Kinetics.
La composition générale d'objets (GOC) vise à intégrer de manière fluide un objet cible dans une scène d'arrière-plan avec des propriétés géométriques souhaitées, tout en préservant simultanément les détails fins de son apparence. Les approches récentes dérivent des embeddings sémantiques et les intègrent dans des modèles de diffusion avancés pour permettre une génération modifiable géométriquement. Cependant, ces embeddings hautement compacts encodent uniquement des indices sémantiques de haut niveau et éliminent inévitablement les détails fins de l'apparence. Nous introduisons un modèle de diffusion à géométrie modifiable et préservation de l'apparence désentrelacée (DGAD) qui exploite d'abord les embeddings sémantiques pour capturer implicitement les transformations géométriques souhaitées, puis utilise un mécanisme de récupération par attention croisée pour aligner les caractéristiques fines de l'apparence avec la représentation modifiée géométriquement, facilitant ainsi à la fois une édition géométrique précise et une préservation fidèle de l'apparence dans la composition d'objets. Plus précisément, DGAD s'appuie sur des réseaux dérivés de CLIP/DINO et de référence pour extraire les embeddings sémantiques et les représentations préservant l'apparence, qui sont ensuite intégrées de manière désentrelacée dans les pipelines d'encodage et de décodage. Nous intégrons d'abord les embeddings sémantiques dans des modèles de diffusion pré-entraînés qui présentent de fortes capacités de raisonnement spatial pour capturer implicitement la géométrie des objets, facilitant ainsi une manipulation flexible des objets et assurant une éditabilité efficace. Ensuite, nous concevons un mécanisme d'attention croisée dense qui exploite la géométrie des objets apprise implicitement pour récupérer et aligner spatialement les caractéristiques d'apparence avec leurs régions correspondantes, garantissant une cohérence fidèle de l'apparence. Des expériences approfondies sur des benchmarks publics démontrent l'efficacité du cadre DGAD proposé.
Dans les études sur l'apprentissage transférable, des lois d'échelle sont obtenues pour divers modèles de base importants afin de prédire leurs propriétés et leurs performances à plus grande échelle. Nous montrons ici comment la dérivation des lois d'échelle peut également être utilisée pour comparer des modèles et des ensembles de données, permettant de décider quelle procédure est à privilégier pour le pré-entraînement. Pour la première fois, des lois d'échelle complètes basées sur des mesures denses sur une large gamme d'échelles de modèles et d'échantillons sont dérivées pour deux procédures importantes d'apprentissage langage-vision, CLIP et MaMMUT, qui utilisent soit une perte uniquement contrastive, soit une perte contrastive et générative de texte par légende. En assurant une précision de prédiction suffisante pour les points retenus, nous utilisons les lois d'échelle dérivées pour comparer les deux modèles, obtenant des preuves d'une amélioration plus forte de MaMMUT avec l'échelle et d'une meilleure efficacité d'échantillonnage par rapport au CLIP standard. Pour renforcer la validité de la comparaison, nous montrons des lois d'échelle pour diverses tâches en aval, classification, recherche et segmentation, et pour différents ensembles de données ouverts, DataComp, DFN et Re-LAION, observant systématiquement les mêmes tendances. Nous montrons que la comparaison peut également être effectuée lors de la dérivation des lois d'échelle avec un calendrier de taux d'apprentissage constant, réduisant ainsi les coûts de calcul. La dérivation précise des lois d'échelle fournit ainsi des moyens pour effectuer des comparaisons de modèles et d'ensembles de données à travers différentes échelles, évitant des conclusions trompeuses basées uniquement sur des mesures à des échelles de référence uniques, ouvrant la voie à une comparaison systématique et à l'amélioration des modèles de base ouverts et des ensembles de données pour leur création. Nous publions tous les modèles pré-entraînés avec leurs points de contrôle intermédiaires, y compris openMaMMUT-L/14, qui atteint une précision de 80,3 % en classification zéro-shot sur ImageNet-1k, entraîné sur 12,8 milliards d'échantillons de DataComp-1.4B. Le code pour reproduire les expériences de l'article et les données brutes des expériences peuvent être trouvés à l'adresse https://github.com/LAION-AI/scaling-laws-for-comparison.
Nous présentons MedAgentGYM, le premier environnement d'entraînement accessible au public conçu pour renforcer les capacités de raisonnement médical basé sur le codage chez les agents de grands modèles de langage (LLM). MedAgentGYM comprend 72 413 instances de tâches réparties dans 129 catégories, issues de scénarios biomédicaux authentiques et réels. Les tâches sont encapsulées dans des environnements de codage exécutables, chacun comportant des descriptions détaillées des tâches, des mécanismes de feedback interactifs, des annotations vérifiables de référence, et une génération évolutive de trajectoires d'entraînement. Un benchmarking approfondi de plus de 30 LLM révèle une disparité notable de performance entre les modèles basés sur des API commerciales et leurs homologues open-source. En exploitant MedAgentGYM, Med-Copilot-7B obtient des gains de performance substantiels grâce à un fine-tuning supervisé (+36,44 %) et à un apprentissage par renforcement continu (+42,47 %), émergeant ainsi comme une alternative abordable et respectueuse de la vie privée, compétitive avec gpt-4o. En offrant à la fois un benchmark complet et des ressources d'entraînement accessibles et extensibles au sein d'environnements d'exécution unifiés, MedAgentGYM fournit une plateforme intégrée pour développer des assistants de codage basés sur LLM destinés à la recherche et à la pratique biomédicale avancée.
La plupart des encodeurs visuels existants transforment les images en une séquence fixe de tokens, négligeant le fait que différentes images contiennent des quantités variables d'information. Par exemple, une image visuellement complexe (comme une pièce en désordre) contient intrinsèquement plus d'information et mérite donc plus de tokens qu'une image simple (comme un mur vide). Pour remédier à cette inefficacité, nous proposons DOVE, un encodeur visuel dynamique qui génère un nombre variable de tokens visuels (c'est-à-dire des vecteurs de représentation continue) pour reconstruire chaque image. Nos résultats montrent que DOVE réduit significativement le nombre moyen de tokens tout en maintenant une qualité de reconstruction élevée. Dans plusieurs tâches de sondage linéaire et de multimodalité en aval, il surpasse les méthodes de tokenisation basées sur des autoencodeurs existantes en utilisant beaucoup moins de tokens, capturant des caractéristiques sémantiques plus expressives par rapport à un encodage de longueur fixe. Nous étendons également DOVE avec une tokenisation conditionnée par des requêtes. En guidant le modèle à se concentrer sur les régions pertinentes par rapport à la requête, il réalise une extraction sémantique plus efficace et ciblée. Notre code et nos points de contrôle sont disponibles à l'adresse https://dove-encoder.github.io/dove-encoder.
Le 3D Gaussian Splatting (3DGS) a suscité un intérêt considérable pour son rendu en temps réel et photoréaliste dans la synthèse de nouvelles vues et la modélisation 3D. Cependant, les méthodes existantes peinent à modéliser avec précision les scènes affectées par des objets transitoires, ce qui entraîne des artefacts dans les images rendues. Nous identifions que le processus de densification gaussienne, bien qu'il améliore la capture des détails de la scène, contribue involontairement à ces artefacts en générant des gaussiennes supplémentaires qui modélisent les perturbations transitoires. Pour résoudre ce problème, nous proposons RobustSplat, une solution robuste basée sur deux conceptions critiques. Premièrement, nous introduisons une stratégie de croissance gaussienne retardée qui priorise l'optimisation de la structure statique de la scène avant d'autoriser la division/clonage des gaussiennes, atténuant ainsi le surajustement aux objets transitoires lors des premières étapes d'optimisation. Deuxièmement, nous concevons une approche de bootstrap de masque en cascade d'échelles qui exploite d'abord la supervision de similarité de caractéristiques à basse résolution pour une estimation initiale fiable du masque transitoire, tirant parti de sa plus forte cohérence sémantique et de sa robustesse au bruit, puis progresse vers une supervision à haute résolution pour obtenir une prédiction de masque plus précise. Des expériences approfondies sur plusieurs ensembles de données complexes montrent que notre méthode surpasse les méthodes existantes, démontrant clairement la robustesse et l'efficacité de notre approche. Notre page de projet est disponible à l'adresse suivante : https://fcyycf.github.io/RobustSplat/.
Alors que l'ère des agents autonomes prenant des décisions au nom des utilisateurs se déploie, la question de l'intégrité contextuelle (IC) — c'est-à-dire quelles informations sont appropriées à partager lors de l'exécution d'une tâche donnée — devient centrale dans ce domaine. Nous postulons que l'IC exige une forme de raisonnement où l'agent doit évaluer le contexte dans lequel il opère. Pour tester cette hypothèse, nous incitons d'abord les modèles de langage (LLMs) à raisonner explicitement sur l'IC lorsqu'ils décident quelles informations divulguer. Nous étendons ensuite cette approche en développant un cadre d'apprentissage par renforcement (RL) qui inculque davantage aux modèles le raisonnement nécessaire pour atteindre l'IC. En utilisant un ensemble de données synthétique, généré automatiquement, comprenant seulement 700 exemples mais avec des contextes variés et des normes de divulgation d'informations diversifiées, nous montrons que notre méthode réduit considérablement les divulgations inappropriées tout en maintenant la performance des tâches pour différentes tailles et familles de modèles. Fait important, les améliorations se transfèrent de cet ensemble de données synthétique à des benchmarks établis en IC, tels que PrivacyLens, qui incluent des annotations humaines et évaluent les fuites de confidentialité des assistants IA dans leurs actions et appels d'outils.
Nous présentons Rectified Point Flow, une paramétrisation unifiée qui formule l’enregistrement de nuages de points par paires et l’assemblage de formes multi-parties comme un problème génératif conditionnel unique. Étant donné des nuages de points non positionnés, notre méthode apprend un champ de vitesse ponctuel continu qui transporte les points bruités vers leurs positions cibles, à partir desquelles les poses des parties sont récupérées. Contrairement aux travaux antérieurs qui régressent les poses par partie avec une gestion ad hoc des symétries, notre méthode apprend intrinsèquement les symétries d’assemblage sans étiquettes de symétrie. Associée à un encodeur auto-supervisé axé sur les points qui se chevauchent, notre méthode atteint une nouvelle performance de référence sur six benchmarks couvrant l’enregistrement par paires et l’assemblage de formes. Notamment, notre formulation unifiée permet un entraînement conjoint efficace sur des ensembles de données diversifiés, facilitant l’apprentissage de préconnaissances géométriques partagées et améliorant ainsi la précision. Page du projet : https://rectified-pointflow.github.io/.
Les systèmes de Génération Augmentée par Récupération (RAG) souffrent fréquemment de Conflits de Connaissances, où les connaissances externes récupérées contredisent les connaissances paramétriques inhérentes aux grands modèles de langage (LLMs). Cela affecte négativement les performances sur des tâches en aval telles que la réponse à des questions (QA). Les approches existantes tentent souvent d'atténuer ces conflits en comparant directement deux sources de connaissances de manière côte à côte, mais cela peut submerger les LLMs avec des contextes superflus ou trop longs, entravant finalement leur capacité à identifier et à atténuer les incohérences. Pour résoudre ce problème, nous proposons Micro-Act, un cadre avec un espace d'action hiérarchique qui perçoit automatiquement la complexité du contexte et décompose de manière adaptative chaque source de connaissances en une séquence de comparaisons fines. Ces comparaisons sont représentées comme des étapes actionnables, permettant un raisonnement au-delà du contexte superficiel. À travers des expériences approfondies sur cinq ensembles de données de référence, Micro-Act obtient systématiquement une augmentation significative de la précision en QA par rapport aux meilleures méthodes de référence sur les 5 ensembles de données et les 3 types de conflits, en particulier pour les types temporels et sémantiques où toutes les méthodes de référence échouent de manière significative. Plus important encore, Micro-Act montre une performance robuste sur les questions sans conflit simultanément, mettant en avant sa valeur pratique dans les applications RAG du monde réel.
La synthèse de vidéos médicales dynamiques de haute qualité reste un défi majeur en raison de la nécessité de modéliser à la fois la cohérence spatiale et la dynamique temporelle. Les approches existantes basées sur les Transformers présentent des limitations critiques, notamment des interactions insuffisantes entre les canaux, une complexité computationnelle élevée due à l'auto-attention, et un guidage de débruitage grossier par les embeddings de pas de temps lors de la gestion de niveaux de bruit variables. Dans ce travail, nous proposons FEAT, un Transformer à attention efficace en pleine dimension, qui aborde ces problèmes grâce à trois innovations clés : (1) un paradigme unifié avec des mécanismes d'attention séquentiels spatial-temporel-canaux pour capturer les dépendances globales dans toutes les dimensions, (2) une conception à complexité linéaire pour les mécanismes d'attention dans chaque dimension, utilisant une attention clé-valeur pondérée et une attention globale sur les canaux, et (3) un module de guidage par valeur résiduelle qui fournit un guidage fin au niveau des pixels pour s'adapter à différents niveaux de bruit. Nous évaluons FEAT sur des benchmarks standard et des tâches en aval, démontrant que FEAT-S, avec seulement 23 % des paramètres du modèle de pointe Endora, atteint des performances comparables voire supérieures. De plus, FEAT-L surpasse toutes les méthodes de comparaison sur plusieurs ensembles de données, montrant à la fois une efficacité et une scalabilité supérieures. Le code est disponible à l'adresse https://github.com/Yaziwel/FEAT.
La modification des matériaux d'objets dans des images à partir d'exemples est un domaine de recherche actif en vision par ordinateur et en infographie. Nous proposons MARBLE, une méthode pour réaliser un mélange de matériaux et recomposer des propriétés de matériaux à grain fin en trouvant des embeddings de matériaux dans l'espace CLIP et en les utilisant pour contrôler des modèles pré-entraînés de génération d'images à partir de texte. Nous améliorons l'édition de matériaux basée sur des exemples en identifiant un bloc dans le UNet de débruitage responsable de l'attribution des matériaux. Étant donné deux images exemplaires de matériaux, nous trouvons des directions dans l'espace CLIP pour mélanger les matériaux. De plus, nous pouvons obtenir un contrôle paramétrique sur des attributs de matériaux à grain fin tels que la rugosité, le métallique, la transparence et la lueur en utilisant un réseau peu profond pour prédire la direction du changement d'attribut de matériau souhaité. Nous effectuons une analyse qualitative et quantitative pour démontrer l'efficacité de notre méthode proposée. Nous présentons également la capacité de notre méthode à effectuer plusieurs modifications en une seule passe avant et son applicabilité à la peinture. Page du projet : https://marblecontrol.github.io/
L'édition vidéo pilotée par texte vise à modifier le contenu vidéo selon des instructions en langage naturel. Bien que les approches récentes sans apprentissage aient progressé en exploitant des modèles de diffusion pré-entraînés, elles reposent généralement sur des techniques basées sur l'inversion qui projettent les vidéos d'entrée dans l'espace latent, ce qui entraîne souvent des incohérences temporelles et une dégradation de la fidélité structurelle. Pour remédier à cela, nous proposons FlowDirector, un nouveau cadre d'édition vidéo sans inversion. Notre framework modélise le processus d'édition comme une évolution directe dans l'espace des données, guidant la vidéo via une Équation Différentielle Ordinaire (ODE) pour effectuer une transition fluide le long de sa variété spatiotemporelle intrinsèque, préservant ainsi la cohérence temporelle et les détails structurels. Pour réaliser des modifications localisées et contrôlables, nous introduisons un mécanisme de masquage guidé par l'attention qui module le champ de vitesse de l'ODE, préservant les régions non ciblées à la fois spatialement et temporellement. De plus, pour traiter les modifications incomplètes et améliorer l'alignement sémantique avec les instructions d'édition, nous présentons une stratégie d'édition renforcée par guidage inspirée du Classifier-Free Guidance, qui exploite les signaux différentiels entre plusieurs flux candidats pour orienter la trajectoire d'édition vers un alignement sémantique plus fort sans compromettre la cohérence structurelle. Des expériences approfondies sur des benchmarks démontrent que FlowDirector atteint des performances de pointe en matière d'adhésion aux instructions, de cohérence temporelle et de préservation de l'arrière-plan, établissant un nouveau paradigme pour une édition vidéo efficace et cohérente sans inversion.
Les récents progrès des modèles de langage à réflexion lente (par exemple, OpenAI-o1 et DeepSeek-R1) ont démontré des capacités remarquables dans les tâches de raisonnement complexe en imitant la cognition réflexive humaine. Cependant, étendre ces capacités aux modèles de langage multi-modaux de grande taille (MLLMs) reste un défi en raison du coût élevé de réentraînement des alignements vision-langage lors de la mise à niveau des modèles de raisonnement sous-jacents. Une solution directe consiste à découpler la perception du raisonnement, c'est-à-dire à convertir les entrées visuelles en représentations linguistiques (par exemple, des légendes) qui sont ensuite transmises à un puissant raisonneur textuel. Cependant, ce découplage introduit un défi critique : l'extracteur visuel doit générer des descriptions à la fois fidèles à l'image et suffisamment informatives pour soutenir un raisonnement précis en aval. Pour résoudre ce problème, nous proposons le Découplage Perceptuel Aligné sur le Raisonnement via l'Optimisation de Récompense de Légende (RACRO) - une stratégie d'apprentissage par renforcement guidée par le raisonnement qui aligne le comportement de légendage de l'extracteur avec l'objectif de raisonnement. En fermant la boucle perception-raisonnement via une optimisation basée sur la récompense, RACRO améliore significativement l'ancrage visuel et extrait des représentations optimisées pour le raisonnement. Les expériences sur des benchmarks multi-modaux de mathématiques et de sciences montrent que la méthode RACRO proposée atteint des performances moyennes de pointe tout en permettant une scalabilité supérieure et une adaptation plug-and-play à des modèles de raisonnement plus avancés sans nécessiter de réalignement multi-modal coûteux.
Les techniques de filigrane pour les grands modèles de langage (LLMs) peuvent avoir un impact significatif sur la qualité des sorties, mais leurs effets sur la véracité, la sécurité et l'utilité restent largement sous-étudiés. Cet article présente une analyse systématique de la manière dont deux approches populaires de filigrane — Gumbel et KGW — affectent ces propriétés fondamentales d'alignement dans quatre LLMs alignés. Nos expériences révèlent deux schémas distincts de dégradation : l'atténuation des garde-fous, où une utilité accrue compromet la sécurité du modèle, et l'amplification des garde-fous, où une prudence excessive réduit l'utilité du modèle. Ces schémas émergent des modifications induites par le filigrane dans la distribution des tokens, mettant en lumière la tension fondamentale qui existe entre les objectifs d'alignement. Pour atténuer ces dégradations, nous proposons le rééchantillonnage d'alignement (AR), une méthode d'échantillonnage au moment de l'inférence qui utilise un modèle de récompense externe pour restaurer l'alignement. Nous établissons une borne inférieure théorique sur l'amélioration du score de récompense attendu à mesure que la taille de l'échantillon augmente et démontrons empiriquement que l'échantillonnage de seulement 2 à 4 générations filigranées permet de retrouver ou de dépasser les scores d'alignement de référence (non filigranés). Pour surmonter la diversité limitée des réponses du filigrane Gumbel standard, notre implémentation modifiée sacrifie une stricte absence de distorsion tout en maintenant une détectabilité robuste, garantissant ainsi la compatibilité avec AR. Les résultats expérimentaux confirment que AR permet de retrouver l'alignement de référence dans les deux approches de filigrane, tout en maintenant une forte détectabilité du filigrane. Ce travail révèle l'équilibre critique entre la force du filigrane et l'alignement du modèle, offrant une solution simple au moment de l'inférence pour déployer de manière responsable des LLMs filigranés en pratique.
Une calibration précise entre LiDAR et caméra est fondamentale pour fusionner la perception multi-modale dans les systèmes de conduite autonome et robotique. Les méthodes de calibration traditionnelles nécessitent une collecte extensive de données dans des environnements contrôlés et ne peuvent pas compenser les changements de transformation pendant le mouvement du véhicule/robot. Dans cet article, nous proposons le premier modèle qui utilise des caractéristiques en vue de dessus (BEV) pour effectuer la calibration LiDAR-caméra à partir de données brutes, nommé BEVCALIB. Pour y parvenir, nous extrayons séparément les caractéristiques BEV de la caméra et celles du LiDAR, puis les fusionnons dans un espace de caractéristiques BEV partagé. Pour exploiter pleinement l'information géométrique des caractéristiques BEV, nous introduisons un nouveau sélecteur de caractéristiques pour filtrer les caractéristiques les plus importantes dans le décodeur de transformation, ce qui réduit la consommation de mémoire et permet un entraînement efficace. Des évaluations approfondies sur les jeux de données KITTI, NuScenes et notre propre ensemble de données démontrent que BEVCALIB établit un nouvel état de l'art. Dans diverses conditions de bruit, BEVCALIB surpasse la meilleure référence de la littérature en moyenne de (47,08 %, 82,32 %) sur le jeu de données KITTI, et de (78,17 %, 68,29 %) sur le jeu de données NuScenes, en termes de (translation, rotation), respectivement. Dans le domaine open-source, il améliore la meilleure référence reproductible d'un ordre de grandeur. Notre code et les résultats de démonstration sont disponibles à l'adresse https://cisl.ucr.edu/BEVCalib.
La génération d'interactions main-objet (Hand-Object Interaction, HOI) présente un potentiel d'application significatif. Cependant, les approches actuelles de génération de mouvements 3D HOI reposent fortement sur des modèles d'objets 3D prédéfinis et des données de mouvement capturées en laboratoire, limitant ainsi leurs capacités de généralisation. Parallèlement, les méthodes de génération de vidéos HOI privilégient la fidélité visuelle au niveau des pixels, souvent au détriment de la plausibilité physique. Conscients que l'apparence visuelle et les motifs de mouvement partagent des lois physiques fondamentales dans le monde réel, nous proposons un nouveau cadre qui combine des préconceptions visuelles et des contraintes dynamiques au sein d'un processus de diffusion synchronisé pour générer simultanément la vidéo et le mouvement HOI. Pour intégrer les sémantiques hétérogènes, l'apparence et les caractéristiques de mouvement, notre méthode met en œuvre une modulation adaptative tri-modale pour l'alignement des caractéristiques, couplée à une attention complète 3D pour modéliser les dépendances inter et intra-modales. De plus, nous introduisons un modèle de diffusion d'interaction 3D conscient de la vision qui génère des séquences d'interaction 3D explicites directement à partir des sorties de diffusion synchronisées, puis les réinjecte pour établir un cycle de rétroaction en boucle fermée. Cette architecture élimine les dépendances aux modèles d'objets prédéfinis ou aux guidages de pose explicites tout en améliorant significativement la cohérence vidéo-mouvement. Les résultats expérimentaux démontrent la supériorité de notre méthode par rapport aux approches de pointe dans la génération de séquences HOI à haute fidélité et dynamiquement plausibles, avec des capacités de généralisation notables dans des scénarios réels inédits. Page du projet à l'adresse https://github.com/Droliven/SViMo\_project.
Prédire avec précision des grilles d'occupation 3D à partir d'entrées visuelles est crucial pour la conduite autonome, mais les méthodes discriminatives actuelles peinent à gérer les données bruitées, les observations incomplètes et les structures complexes inhérentes aux scènes 3D. Dans ce travail, nous reformulons la prédiction d'occupation 3D comme une tâche de modélisation générative en utilisant des modèles de diffusion, qui apprennent la distribution sous-jacente des données et intègrent des a priori de scènes 3D. Cette approche améliore la cohérence des prédictions, la robustesse au bruit et permet de mieux gérer les subtilités des structures spatiales 3D. Nos expériences approfondies montrent que les modèles génératifs basés sur la diffusion surpassent les approches discriminatives de pointe, fournissant des prédictions d'occupation plus réalistes et précises, en particulier dans les régions occluses ou à faible visibilité. De plus, les prédictions améliorées profitent significativement aux tâches de planification en aval, mettant en évidence les avantages pratiques de notre méthode pour les applications réelles de conduite autonome.
L'évaluation automatisée des compétences sportives nécessite la capture de modèles de mouvement fondamentaux qui distinguent les performances expertes de celles des novices. Cependant, les méthodes actuelles d'échantillonnage vidéo perturbent la continuité temporelle essentielle à l'évaluation de la maîtrise. À cette fin, nous introduisons l'**Échantillonnage Temporel Conscient de la Maîtrise (PATS)**, une nouvelle stratégie d'échantillonnage qui préserve les mouvements fondamentaux complets au sein de segments temporels continus pour une évaluation des compétences multi-vues. PATS segmente de manière adaptative les vidéos pour s'assurer que chaque portion analysée contient l'exécution complète des composantes critiques de la performance, répétant ce processus sur plusieurs segments pour maximiser la couverture d'informations tout en maintenant la cohérence temporelle. Évalué sur le benchmark EgoExo4D avec SkillFormer, PATS surpasse l'exactitude de l'état de l'art dans toutes les configurations de visualisation (+0,65 % à +3,05 %) et offre des gains substantiels dans des domaines difficiles (+26,22 % en escalade de bloc, +2,39 % en musique, +1,13 % en basketball). Une analyse systématique révèle que PATS s'adapte avec succès à diverses caractéristiques d'activité – de l'échantillonnage à haute fréquence pour les sports dynamiques à la segmentation fine pour les compétences séquentielles – démontrant son efficacité en tant qu'approche adaptative d'échantillonnage temporel qui fait progresser l'évaluation automatisée des compétences pour des applications réelles.
L'interprétation automatisée des images tomodensitométriques (CT) – en particulier la localisation et la description des anomalies à travers des scans multi-plans et corporels entiers – reste un défi majeur en radiologie clinique. Ce travail vise à relever ce défi à travers quatre contributions clés : (i) Sur le plan taxonomique, nous collaborons avec des radiologues seniors pour proposer un système de classification hiérarchique complet, comprenant 404 anomalies représentatives couvrant toutes les régions du corps ; (ii) Concernant les données, nous contribuons à un ensemble de données contenant plus de 14,5K images CT issues de multiples plans et de toutes les régions du corps humain, et fournissons méticuleusement des annotations de référence pour plus de 19K anomalies, chacune liée à une description détaillée et intégrée dans la taxonomie ; (iii) En matière de développement de modèles, nous proposons OminiAbnorm-CT, capable de localiser et de décrire automatiquement les anomalies sur des images CT multi-plans et corporelles entières en réponse à des requêtes textuelles, tout en permettant une interaction flexible via des invites visuelles ; (iv) En ce qui concerne les benchmarks, nous établissons trois tâches d'évaluation représentatives basées sur des scénarios cliniques réels. À travers des expériences approfondies, nous démontrons qu'OminiAbnorm-CT surpasse significativement les méthodes existantes sur toutes les tâches et métriques.
Dans quelle mesure les représentations de la parole apprises par des modèles auto-supervisés sont-elles spécifiques à une langue ? Les travaux existants ont montré qu'une gamme de caractéristiques linguistiques peut être décodée avec succès à partir de modèles end-to-end entraînés uniquement sur des enregistrements audio. Cependant, il est moins clair dans quelle mesure le pré-entraînement sur des langues spécifiques améliore les informations linguistiques propres à ces langues. Ici, nous testons l'encodage des informations phonétiques et lexicales du néerlandais dans les représentations internes des modèles Wav2Vec2 auto-supervisés. Un pré-entraînement exclusivement sur le néerlandais améliore la représentation des caractéristiques linguistiques du néerlandais par rapport à un pré-entraînement sur des quantités similaires d'anglais ou des quantités plus importantes de données multilingues. Cet avantage spécifique à la langue est bien détecté par des sondes de clustering ou de classification entraînées, et partiellement observable à l'aide de métriques zero-shot. De plus, le bénéfice spécifique à la langue sur l'encodage des caractéristiques linguistiques correspond à la performance en aval sur la reconnaissance automatique de la parole.