Articles de recherche en IA sélectionnés quotidiennement avec traductions
Sora a révélé l'immense potentiel de l'architecture Diffusion Transformer (DiT) dans la génération de vidéos à scène unique. Cependant, la tâche plus complexe de génération de vidéos multi-scènes, qui offre des applications plus vastes, reste relativement peu explorée. Pour combler cette lacune, nous proposons Mask^2DiT, une approche novatrice qui établit un alignement fin et un-à-un entre les segments vidéo et leurs annotations textuelles correspondantes. Plus précisément, nous introduisons un masque binaire symétrique à chaque couche d'attention au sein de l'architecture DiT, garantissant que chaque annotation textuelle s'applique exclusivement à son segment vidéo respectif tout en préservant la cohérence temporelle entre les tokens visuels. Ce mécanisme d'attention permet un alignement précis au niveau des segments entre le texte et la vidéo, permettant à l'architecture DiT de gérer efficacement les tâches de génération de vidéos avec un nombre fixe de scènes. Pour doter davantage l'architecture DiT de la capacité à générer des scènes supplémentaires basées sur celles existantes, nous intégrons un masque conditionnel au niveau des segments, qui conditionne chaque nouveau segment généré sur les segments vidéo précédents, permettant ainsi une extension auto-régressive des scènes. Les expériences qualitatives et quantitatives confirment que Mask^2DiT excelle à maintenir la cohérence visuelle entre les segments tout en assurant l'alignement sémantique entre chaque segment et sa description textuelle correspondante. Notre page de projet est disponible à l'adresse suivante : https://tianhao-qi.github.io/Mask2DiTProject.
Dans ce rapport, nous présentons Qwen2.5-Omni, un modèle multimodal de bout en bout conçu pour percevoir diverses modalités, incluant le texte, les images, l'audio et la vidéo, tout en générant simultanément des réponses textuelles et vocales naturelles de manière fluide. Pour permettre le traitement en flux des entrées d'informations multimodales, les encodeurs audio et visuels utilisent une approche de traitement par blocs. Pour synchroniser les timestamps des entrées vidéo avec l'audio, nous organisons l'audio et la vidéo de manière séquentielle et entrelacée, et proposons une nouvelle approche d'encodage de position, nommée TMRoPE (Time-aligned Multimodal RoPE). Pour générer simultanément du texte et de la parole tout en évitant les interférences entre ces deux modalités, nous proposons une architecture Thinker-Talker. Dans ce cadre, Thinker fonctionne comme un grand modèle de langage chargé de la génération de texte, tandis que Talker est un modèle autorégressif à double voie qui utilise directement les représentations cachées de Thinker pour produire des tokens audio en sortie. Les modèles Thinker et Talker sont conçus pour être entraînés et inférés de manière end-to-end. Pour décoder les tokens audio en flux continu, nous introduisons un DiT à fenêtre glissante qui limite le champ réceptif, visant à réduire le délai initial des paquets. Qwen2.5-Omni est comparable au Qwen2.5-VL de taille similaire et surpasse Qwen2-Audio. De plus, Qwen2.5-Omni atteint des performances de pointe sur des benchmarks multimodaux comme Omni-Bench. Notamment, les performances de Qwen2.5-Omni dans le suivi d'instructions vocales de bout en bout sont comparables à ses capacités avec des entrées textuelles, comme en témoignent les benchmarks tels que MMLU et GSM8K. En ce qui concerne la génération de parole, le Talker en flux de Qwen2.5-Omni surpasse la plupart des alternatives existantes, qu'elles soient en flux ou non, en termes de robustesse et de naturalité.
Ce rapport présente Wan, une suite complète et ouverte de modèles de base pour la génération vidéo, conçue pour repousser les limites de ce domaine. Basé sur le paradigme dominant des transformateurs de diffusion, Wan réalise des avancées significatives en matière de capacités génératives grâce à une série d'innovations, notamment notre nouveau VAE, des stratégies de pré-entraînement évolutives, une curation de données à grande échelle et des métriques d'évaluation automatisées. Ces contributions améliorent collectivement les performances et la polyvalence du modèle. Plus précisément, Wan se distingue par quatre caractéristiques clés : Performance de pointe : Le modèle 14B de Wan, entraîné sur un vaste ensemble de données comprenant des milliards d'images et de vidéos, illustre les lois d'échelle de la génération vidéo en termes de données et de taille de modèle. Il surpasse systématiquement les modèles open-source existants ainsi que les solutions commerciales de pointe sur plusieurs benchmarks internes et externes, démontrant une supériorité de performance claire et significative. Exhaustivité : Wan propose deux modèles performants, respectivement 1,3B et 14B de paramètres, pour l'efficacité et l'efficience. Il couvre également plusieurs applications en aval, notamment la génération d'images vers vidéo, l'édition de vidéo guidée par instructions et la génération de vidéos personnelles, englobant jusqu'à huit tâches. Efficacité grand public : Le modèle 1,3B démontre une exceptionnelle efficacité des ressources, nécessitant seulement 8,19 Go de VRAM, ce qui le rend compatible avec une large gamme de GPU grand public. Ouverture : Nous rendons open-source toute la série Wan, y compris le code source et tous les modèles, dans le but de favoriser la croissance de la communauté de génération vidéo. Cette ouverture vise à élargir considérablement les possibilités créatives de production vidéo dans l'industrie et à fournir à la communauté académique des modèles de base vidéo de haute qualité. L'ensemble du code et des modèles est disponible à l'adresse suivante : https://github.com/Wan-Video/Wan2.1.
Nous présentons Gemma 3, une extension multimodale de la famille Gemma de modèles légers et ouverts, allant de 1 à 27 milliards de paramètres. Cette version introduit des capacités de compréhension visuelle, une couverture linguistique élargie et un contexte plus long - au moins 128 000 tokens. Nous avons également modifié l'architecture du modèle pour réduire la mémoire du cache KV, qui a tendance à exploser avec un contexte long. Cela est réalisé en augmentant le ratio de couches d'attention locale par rapport à l'attention globale et en maintenant une portée courte pour l'attention locale. Les modèles Gemma 3 sont entraînés par distillation et surpassent les performances de Gemma 2, tant pour les versions pré-entraînées que pour celles affinées par instructions. En particulier, notre nouvelle méthode post-entraînement améliore significativement les capacités en mathématiques, en conversation, en suivi d'instructions et en multilingue, rendant Gemma3-4B-IT compétitif avec Gemma2-27B-IT et Gemma3-27B-IT comparable à Gemini-1.5-Pro sur les benchmarks. Nous mettons tous nos modèles à disposition de la communauté.
Alors que les modèles récents vision-langue-action entraînés sur des ensembles de données robotiques diversifiés montrent des capacités prometteuses de généralisation avec des données limitées dans le domaine, leur dépendance à des têtes d'action compactes pour prédire des actions discrètes ou continues limite leur adaptabilité à des espaces d'action hétérogènes. Nous présentons Dita, un cadre évolutif qui exploite les architectures Transformer pour débruiter directement des séquences d'action continues via un processus de diffusion multimodale unifié. S'écartant des méthodes antérieures qui conditionnent le débruitage sur des embeddings fusionnés via des réseaux peu profonds, Dita utilise un conditionnement contextuel -- permettant un alignement fin entre les actions débruitées et les tokens visuels bruts issus des observations historiques. Cette conception modélise explicitement les deltas d'action et les nuances environnementales. En mettant à l'échelle le débruiteur d'action par diffusion parallèlement à l'évolutivité du Transformer, Dita intègre efficacement des ensembles de données inter-embodiments couvrant diverses perspectives de caméra, scènes d'observation, tâches et espaces d'action. Une telle synergie renforce la robustesse face à diverses variances et facilite l'exécution réussie de tâches à long horizon. Les évaluations sur des benchmarks étendus démontrent des performances de pointe ou comparables en simulation. Notamment, Dita réalise une adaptation robuste en monde réel aux variances environnementales et aux tâches complexes à long horizon grâce à un finetuning en 10-shot, utilisant uniquement des entrées de caméra à la troisième personne. L'architecture établit une base légère, polyvalente et open-source pour l'apprentissage de politiques robotiques généralistes. Page du projet : https://robodita.github.io.
Nous présentons Open Deep Search (ODS) pour combler le fossé croissant entre les solutions propriétaires de recherche basées sur l'IA, telles que Sonar Reasoning Pro de Perplexity et GPT-4o Search Preview d'OpenAI, et leurs équivalents open source. L'innovation principale d'ODS consiste à renforcer les capacités de raisonnement des derniers modèles de langage (LLM) open source avec des agents de raisonnement capables d'utiliser judicieusement des outils de recherche web pour répondre aux requêtes. Concrètement, ODS se compose de deux éléments qui fonctionnent avec un LLM de base choisi par l'utilisateur : Open Search Tool et Open Reasoning Agent. Open Reasoning Agent interprète la tâche donnée et l'accomplit en orchestrant une séquence d'actions incluant l'appel d'outils, dont l'un est Open Search Tool. Open Search Tool est un nouvel outil de recherche web qui surpasse ses équivalents propriétaires. Associé à des LLM open source puissants pour le raisonnement, comme DeepSeek-R1, ODS atteint, voire dépasse parfois, les performances des meilleures solutions existantes sur deux benchmarks : SimpleQA et FRAMES. Par exemple, sur le benchmark d'évaluation FRAMES, ODS améliore la précision de la meilleure solution existante, GPT-4o Search Preview récemment publié, de 9,7 %. ODS est un cadre général permettant d'augmenter de manière transparente n'importe quel LLM — par exemple, DeepSeek-R1 qui atteint 82,4 % sur SimpleQA et 30,1 % sur FRAMES — avec des capacités de recherche et de raisonnement pour obtenir des performances de pointe : 88,3 % sur SimpleQA et 75,3 % sur FRAMES.
Le raisonnement spatial multi-étapes implique la compréhension et l'analyse des relations spatiales à travers plusieurs étapes séquentielles, ce qui est crucial pour aborder des applications complexes du monde réel, telles que la manipulation robotique, la navigation autonome et l'assemblage automatisé. Pour évaluer dans quelle mesure les modèles de langage multimodaux de grande taille (MLLMs) actuels ont acquis cette capacité fondamentale, nous introduisons LEGO-Puzzles, un benchmark évolutif conçu pour évaluer à la fois la compréhension spatiale et le raisonnement séquentiel des MLLMs à travers des tâches basées sur LEGO. LEGO-Puzzles comprend 1 100 échantillons soigneusement sélectionnés de questions-réponses visuelles (VQA) couvrant 11 tâches distinctes, allant de la compréhension spatiale de base au raisonnement multi-étapes complexe. Sur la base de LEGO-Puzzles, nous menons une évaluation approfondie des MLLMs de pointe et révélons des limitations significatives dans leurs capacités de raisonnement spatial : même les MLLMs les plus puissants ne peuvent répondre qu'à environ la moitié des cas de test, alors que les participants humains atteignent une précision de plus de 90 %. En plus des tâches VQA, nous évaluons les capacités des MLLMs à générer des images LEGO en suivant des illustrations d'assemblage. Nos expériences montrent que seuls Gemini-2.0-Flash et GPT-4o présentent une capacité limitée à suivre ces instructions, tandis que les autres MLLMs reproduisent l'image d'entrée ou génèrent des sorties complètement non pertinentes. Globalement, LEGO-Puzzles met en lumière des lacunes critiques dans la compréhension spatiale et les capacités de raisonnement séquentiel des MLLMs existants, et souligne la nécessité de progrès supplémentaires dans le raisonnement spatial multimodal.
Les récentes avancées dans les modèles multimodaux de grande taille ont conduit à l'émergence de capacités généralistes remarquables dans les domaines numériques, mais leur transposition à des agents physiques tels que les robots reste un défi majeur. Ce rapport présente une nouvelle famille de modèles d'IA spécialement conçus pour la robotique et construits sur la base de Gemini 2.0. Nous introduisons Gemini Robotics, un modèle généraliste avancé Vision-Langue-Action (VLA) capable de contrôler directement les robots. Gemini Robotics exécute des mouvements fluides et réactifs pour accomplir une large gamme de tâches de manipulation complexes, tout en étant robuste aux variations de types et de positions d'objets, en gérant des environnements inconnus et en suivant des instructions diverses et en vocabulaire ouvert. Nous montrons qu'avec un ajustement supplémentaire, Gemini Robotics peut être spécialisé pour acquérir de nouvelles capacités, notamment la résolution de tâches à long terme et hautement dextres, l'apprentissage de nouvelles tâches à court terme à partir d'aussi peu que 100 démonstrations, et l'adaptation à des incarnations robotiques complètement nouvelles. Cela est rendu possible car Gemini Robotics s'appuie sur le modèle Gemini Robotics-ER, le second modèle que nous introduisons dans ce travail. Gemini Robotics-ER (Raisonnement Embarqué) étend les capacités de raisonnement multimodal de Gemini au monde physique, avec une compréhension spatiale et temporelle améliorée. Cela permet des capacités pertinentes pour la robotique, notamment la détection d'objets, le pointage, la prédiction de trajectoire et de préhension, ainsi que la correspondance multi-vues et la prédiction de boîtes englobantes 3D. Nous montrons comment cette combinaison novatrice peut soutenir une variété d'applications robotiques. Nous discutons et abordons également des considérations importantes de sécurité liées à cette nouvelle classe de modèles de base pour la robotique. La famille Gemini Robotics marque une étape significative vers le développement de robots à usage général qui réalisent le potentiel de l'IA dans le monde physique.
Le Classifier-Free Guidance (CFG) est une technique fondamentale dans l'entraînement des modèles de diffusion conditionnels. La pratique courante pour l'entraînement basé sur CFG consiste à utiliser un seul réseau pour apprendre à la fois la prédiction du bruit conditionnel et inconditionnel, avec un faible taux de dropout pour le conditionnement. Cependant, nous observons que l'apprentissage conjoint du bruit inconditionnel avec une bande passante limitée lors de l'entraînement entraîne de mauvais a priori pour le cas inconditionnel. Plus important encore, ces mauvaises prédictions de bruit inconditionnel deviennent une raison sérieuse de la dégradation de la qualité de la génération conditionnelle. Inspirés par le fait que la plupart des modèles conditionnels basés sur CFG sont entraînés par affinage d'un modèle de base avec une meilleure génération inconditionnelle, nous montrons d'abord que le simple remplacement du bruit inconditionnel dans CFG par celui prédit par le modèle de base peut considérablement améliorer la génération conditionnelle. De plus, nous montrons qu'un modèle de diffusion autre que celui sur lequel le modèle affiné a été entraîné peut être utilisé pour le remplacement du bruit inconditionnel. Nous vérifions expérimentalement notre affirmation avec une gamme de modèles conditionnels basés sur CFG pour la génération d'images et de vidéos, y compris Zero-1-to-3, Versatile Diffusion, DiT, DynamiCrafter et InstructPix2Pix.
La synergie entre les modèles génératifs et discriminatifs suscite un intérêt croissant. Alors que le pré-entraînement contrastif langage-image (CLIP) discriminatif excelle dans la sémantique de haut niveau, il peine à percevoir les détails visuels fins. Généralement, pour améliorer les représentations, les modèles génératifs utilisent les caractéristiques visuelles de CLIP comme conditions pour la reconstruction. Cependant, le principe sous-jacent reste peu exploré. Dans ce travail, nous avons empiriquement constaté que des générations visuellement parfaites ne sont pas toujours optimales pour l'amélioration des représentations. L'essence réside dans l'extraction efficace de connaissances fines à partir des modèles génératifs tout en atténuant les informations non pertinentes. Pour explorer les facteurs critiques, nous nous penchons sur trois aspects : (1) Mécanismes de conditionnement : Nous avons constaté qu'un petit nombre de tokens locaux peut considérablement réduire la difficulté de reconstruction, entraînant un effondrement de l'entraînement. Nous concluons donc que l'utilisation uniquement des tokens visuels globaux comme conditions est la stratégie la plus efficace. (2) Configurations de débruitage : Nous avons observé que l'entraînement de bout en bout introduit des informations superflues. Pour y remédier, nous proposons une stratégie d'entraînement en deux étapes pour privilégier l'apprentissage de connaissances visuelles utiles. De plus, nous démontrons que des débruiteurs légers peuvent apporter des améliorations remarquables. (3) Paradigmes de génération : Nous explorons à la fois les débruiteurs continus et discrets avec des résultats prometteurs, validant la polyvalence de notre méthode. Grâce à nos explorations approfondies, nous avons finalement abouti à une méthode efficace, nommée GenHancer, qui surpasse systématiquement les approches précédentes sur le benchmark MMVP-VLM, par exemple, 6,0 % sur OpenAICLIP. Le CLIP amélioré peut être intégré dans des modèles de langage multimodaux de grande taille pour de meilleures performances centrées sur la vision. Tous les modèles et codes sont rendus publics.
Récemment, les modèles de génération texte-image de pointe, tels que Flux et Ideogram 2.0, ont réalisé des progrès significatifs dans le rendu visuel de texte au niveau de la phrase. Dans cet article, nous nous concentrons sur les scénarios plus complexes du rendu visuel de texte au niveau de l'article et abordons une nouvelle tâche consistant à générer du contenu professionnel de haute qualité, incluant des infographies et des diapositives, à partir de prompts descriptifs au niveau de l'article et de mises en page ultra-denses fournis par l'utilisateur. Les défis fondamentaux sont doubles : des contextes nettement plus longs et la rareté des données de contenu professionnel de haute qualité. Contrairement à la plupart des travaux précédents qui se concentrent sur un nombre limité de sous-régions et de prompts au niveau de la phrase, garantir une adhésion précise à des mises en page ultra-denses comportant des dizaines, voire des centaines de sous-régions dans le contenu professionnel est bien plus complexe. Nous apportons deux contributions techniques clés : (i) la construction d'un ensemble de données de contenu professionnel évolutif et de haute qualité, à savoir Infographics-650K, doté de mises en page ultra-denses et de prompts grâce à la mise en œuvre d'un schéma de génération d'infographies par récupération couche par couche ; et (ii) un schéma d'attention croisée guidé par la mise en page, qui injecte des dizaines de prompts spécifiques à chaque région dans un espace latent de régions recadrées selon les mises en page ultra-denses, et affine chaque sous-région de manière flexible lors de l'inférence en utilisant un CFG conditionnel à la mise en page. Nous démontrons les résultats solides de notre système par rapport aux systèmes SOTA précédents tels que Flux et SD3 sur notre ensemble de prompts BizEval. De plus, nous menons des expériences d'ablation approfondies pour vérifier l'efficacité de chaque composant. Nous espérons que notre Infographics-650K et BizEval construits encourageront la communauté élargie à faire progresser la génération de contenu professionnel.
Nous présentons LogQuant, une technique révolutionnaire de quantification à 2 bits pour le cache KV dans l'inférence des grands modèles de langage (LLM), offrant des économies de mémoire substantielles tout en préservant des performances supérieures. Les méthodes précédentes supposent soit que les tokens ultérieurs sont plus importants, soit tentent de prédire les tokens importants en se basant sur les modèles d'attention antérieurs. Cependant, ces deux approches peuvent entraîner des goulots d'étranglement de performance ou des erreurs de prédiction fréquentes. LogQuant adopte une approche différente. En appliquant un mécanisme de filtrage logarithmique, il compresse sélectivement le cache KV sur l'ensemble du contexte, obtenant de meilleures performances avec la même empreinte mémoire, voire réduite, par rapport aux méthodes existantes. Dans les tests de référence, il améliore le débit de 25 % et augmente la taille des lots de 60 % sans accroître la consommation de mémoire. Pour des tâches complexes telles que les mathématiques et la complétion de code, LogQuant améliore la précision de 40 % à 200 % au même taux de compression, surpassant les techniques comparables. LogQuant s'intègre facilement avec les frameworks d'inférence populaires comme la bibliothèque transformers de Python. L'implémentation est disponible sur https://github.com/Concyclics/LogQuantKV.
Nous présentons MCTS-RAG, une approche novatrice qui améliore les capacités de raisonnement des petits modèles de langage sur des tâches nécessitant une connaissance approfondie, en exploitant la génération augmentée par recherche (RAG) pour fournir un contexte pertinent et la recherche arborescente Monte Carlo (MCTS) pour affiner les chemins de raisonnement. MCTS-RAG intègre dynamiquement la recherche et le raisonnement à travers un processus décisionnel itératif. Contrairement aux méthodes RAG standard, qui récupèrent généralement des informations indépendamment du raisonnement et intègrent ainsi les connaissances de manière sous-optimale, ou au raisonnement MCTS conventionnel, qui dépend uniquement des connaissances internes du modèle sans faits externes, MCTS-RAG combine un raisonnement structuré avec une recherche adaptative. Cette approche intégrée améliore la prise de décision, réduit les hallucinations et garantit une meilleure précision factuelle et une cohérence des réponses. Les résultats expérimentaux sur plusieurs ensembles de données de raisonnement et de connaissances approfondies (c'est-à-dire ComplexWebQA, GPQA et FoolMeTwice) montrent que notre méthode permet aux petits modèles de langage d'atteindre des performances comparables à celles des modèles de langage de pointe comme GPT-4o en optimisant efficacement le calcul lors de l'inférence, établissant ainsi une nouvelle norme pour le raisonnement dans les petits modèles.
Les modèles de diffusion ont réalisé des progrès remarquables dans le domaine de la génération vidéo. Cependant, leur nature itérative de débruitage nécessite un grand nombre d'étapes d'inférence pour générer une vidéo, ce qui est lent et coûteux en termes de calcul. Dans cet article, nous commençons par une analyse détaillée des défis présents dans les méthodes existantes de distillation de diffusion et proposons une nouvelle méthode efficace, nommée AccVideo, pour réduire les étapes d'inférence afin d'accélérer les modèles de diffusion vidéo avec un ensemble de données synthétiques. Nous exploitons le modèle de diffusion vidéo pré-entraîné pour générer plusieurs trajectoires de débruitage valides comme notre ensemble de données synthétiques, ce qui élimine l'utilisation de points de données inutiles pendant la distillation. Sur la base de l'ensemble de données synthétiques, nous concevons un guidage en quelques étapes basé sur les trajectoires qui utilise des points de données clés des trajectoires de débruitage pour apprendre la cartographie bruit-vidéo, permettant ainsi la génération de vidéos en moins d'étapes. De plus, puisque l'ensemble de données synthétiques capture la distribution des données à chaque étape de diffusion, nous introduisons une stratégie d'entraînement adversarial pour aligner la distribution de sortie du modèle étudiant avec celle de notre ensemble de données synthétiques, améliorant ainsi la qualité de la vidéo. Des expériences approfondies démontrent que notre modèle atteint une amélioration de 8,5x en vitesse de génération par rapport au modèle enseignant tout en maintenant des performances comparables. Par rapport aux méthodes d'accélération précédentes, notre approche est capable de générer des vidéos de meilleure qualité et résolution, c'est-à-dire 5 secondes, 720x1280, 24 images par seconde.
La transition du raisonnement de type Système 1 à celui de type Système 2 dans les grands modèles de langage (LLMs) a marqué des avancées significatives dans la gestion de tâches complexes grâce à une pensée délibérée et itérative. Cependant, ces progrès s'accompagnent souvent d'une perte d'efficacité, car les modèles ont tendance à trop réfléchir, générant des étapes de raisonnement redondantes sans amélioration proportionnelle de la qualité des résultats. Le raisonnement Long-à-Court (L2S) s'est imposé comme une solution prometteuse à ce défi, visant à équilibrer la profondeur du raisonnement avec une efficacité pratique. Bien que les approches existantes, telles que le fine-tuning supervisé (SFT), l'apprentissage par renforcement (RL) et l'ingénierie de prompts, aient montré un potentiel, elles sont soit coûteuses en calcul, soit instables. La fusion de modèles, en revanche, offre une alternative économique et robuste en intégrant les capacités de pensée rapide des modèles de type Système 1 avec le raisonnement méthodique des modèles de type Système 2. Dans ce travail, nous présentons une étude empirique approfondie sur la fusion de modèles pour le raisonnement L2S, explorant diverses méthodologies, notamment la fusion basée sur des vecteurs de tâches, sur la décomposition en valeurs singulières (SVD) et sur les activations. Nos expériences révèlent que la fusion de modèles peut réduire la longueur moyenne des réponses jusqu'à 55 % tout en préservant, voire en améliorant, les performances de référence. Nous identifions également une forte corrélation entre l'échelle du modèle et l'efficacité de la fusion grâce à des évaluations approfondies sur des modèles de 1,5B/7B/14B/32B. De plus, nous étudions la capacité du modèle fusionné à s'auto-critiquer et à s'auto-corriger, ainsi que sa capacité à adapter la longueur de ses réponses en fonction de la complexité de la tâche. Nos résultats mettent en évidence la fusion de modèles comme un paradigme hautement efficace et efficient pour le raisonnement L2S, offrant une solution pratique au problème de la surréflexion tout en maintenant la robustesse du raisonnement de type Système 2. Ce travail est disponible sur Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging.
Les récents progrès des modèles multimodaux de grande taille (LMMs) ont montré des perspectives prometteuses dans les systèmes de conduite autonome (ADS). Cependant, leur application directe aux ADS est entravée par des défis tels que la méconnaissance des règles de circulation, les conditions routières complexes et les états variés des véhicules. Pour relever ces défis, nous proposons l'utilisation de l'édition de connaissances, qui permet des modifications ciblées du comportement d'un modèle sans nécessiter un réentraînement complet. Parallèlement, nous introduisons ADS-Edit, un ensemble de données d'édition de connaissances multimodal spécialement conçu pour les ADS, qui inclut divers scénarios réels, plusieurs types de données et des métriques d'évaluation complètes. Nous menons des expériences approfondies et tirons plusieurs conclusions intéressantes. Nous espérons que notre travail contribuera à l'avancement des applications d'édition de connaissances dans le domaine de la conduite autonome. Le code et les données sont disponibles sur https://github.com/zjunlp/EasyEdit.
Les modèles de récompense supervisés par processus servent de fonction granulaire qui fournit un retour d'information détaillé étape par étape sur les réponses du modèle, facilitant ainsi la sélection efficace des trajectoires de raisonnement pour des tâches complexes. Malgré leurs avantages, l'évaluation des PRM (Process Reward Models) reste peu explorée, en particulier dans le domaine multimodal. Pour combler cette lacune, cet article commence par évaluer les modèles de langage visuel de grande taille (VLLMs) actuels en tant que deux types de modèles de récompense : les modèles de récompense de sortie (ORMs) et les modèles de récompense de processus (PRMs) sur plusieurs benchmarks vision-langage. Les résultats révèlent que ni l'ORM ni le PRM ne surpassent systématiquement l'autre sur toutes les tâches, et que les VLLMs supérieurs ne produisent pas nécessairement de meilleures performances de récompense. Pour aller plus loin dans l'évaluation, nous introduisons ViLBench, un benchmark vision-langage conçu pour nécessiter des signaux de récompense de processus intensifs. Notamment, GPT-4o d'OpenAI avec la méthode Chain-of-Thought (CoT) n'atteint qu'une précision de 27,3 %, ce qui indique le défi que représente ce benchmark pour les VLLMs actuels. Enfin, nous présentons de manière préliminaire une voie prometteuse pour combler l'écart entre les VLLMs généraux et les modèles de récompense : en collectant 73,6K données de récompense de processus vision-langage à l'aide d'un algorithme de recherche arborescente amélioré, notre modèle de 3B parvient à obtenir une amélioration moyenne de 3,3 % par rapport à la méthode CoT standard et jusqu'à 2,5 % par rapport à sa version non entraînée sur ViLBench, en sélectionnant les générations d'OpenAI o1. Nous publions les implémentations sur https://ucsc-vlaa.github.io/ViLBench avec notre code, modèle et données.
Les modèles de vision par ordinateur ont montré qu'ils manifestent et amplifient des biais à travers une grande variété de jeux de données et de tâches. Les méthodes existantes pour quantifier les biais dans les modèles de classification se concentrent principalement sur la distribution des données et la performance du modèle sur des sous-groupes, négligeant le fonctionnement interne du modèle. Nous introduisons la métrique Attention-IoU (Attention Intersection over Union) et les scores associés, qui utilisent des cartes d'attention pour révéler les biais dans les représentations internes d'un modèle et identifier les caractéristiques d'image potentiellement responsables de ces biais. Tout d'abord, nous validons Attention-IoU sur le jeu de données synthétique Waterbirds, montrant que la métrique mesure avec précision les biais du modèle. Nous analysons ensuite le jeu de données CelebA, constatant qu'Attention-IoU met en lumière des corrélations au-delà des disparités de précision. À travers une investigation des attributs individuels via l'attribut protégé "Male", nous examinons les différentes manières dont les biais sont représentés dans CelebA. Enfin, en sous-échantillonnant l'ensemble d'entraînement pour modifier les corrélations d'attributs, nous démontrons qu'Attention-IoU révèle des variables confondantes potentielles qui ne sont pas présentes dans les étiquettes du jeu de données.
Dans de nombreuses applications robotiques et de réalité virtuelle/augmentée, les mouvements rapides de la caméra entraînent un niveau élevé de flou de mouvement, ce qui fait échouer les méthodes existantes d'estimation de la pose de la caméra. Dans ce travail, nous proposons un nouveau cadre qui exploite le flou de mouvement comme un indice riche pour l'estimation du mouvement, plutôt que de le traiter comme un artefact indésirable. Notre approche fonctionne en prédisant un champ de flux de mouvement dense et une carte de profondeur monoculaire directement à partir d'une seule image floue due au mouvement. Nous récupérons ensuite la vitesse instantanée de la caméra en résolvant un problème de moindres carrés linéaires sous l'hypothèse de petits mouvements. En essence, notre méthode produit une mesure similaire à celle d'un IMU qui capture de manière robuste les mouvements rapides et agressifs de la caméra. Pour entraîner notre modèle, nous construisons un jeu de données à grande échelle avec un flou de mouvement synthétique réaliste dérivé de ScanNet++v2 et affinons davantage notre modèle en l'entraînant de bout en bout sur des données réelles à l'aide de notre pipeline entièrement différentiable. Des évaluations approfondies sur des benchmarks du monde réel démontrent que notre méthode atteint des estimations de vitesse angulaire et de translation de pointe, surpassant les méthodes actuelles comme MASt3R et COLMAP.
La distillation des connaissances peut s'avérer une technique rentable pour extraire le savoir des grands modèles de langage, à condition que les logits de sortie de l'enseignant puissent être pré-calculés et mis en cache. Cependant, l'application réussie de cette méthode au pré-entraînement reste largement inexplorée. Dans ce travail, nous démontrons que les approches naïves pour la distillation parcimonieuse des connaissances, comme la mise en cache des probabilités Top-K, bien qu'intuitives, fournissent des estimations biaisées de la distribution de probabilité de l'enseignant à l'élève, entraînant des performances et une calibration sous-optimales. Nous proposons une méthode basée sur l'échantillonnage d'importance, appelée `Random Sampling Knowledge Distillation', qui fournit des estimations non biaisées, préserve le gradient en espérance, et nécessite le stockage de logits significativement plus parcimonieux. Notre méthode permet un entraînement plus rapide des modèles élèves avec une surcharge marginale (<10%) par rapport à l'entraînement basé sur l'entropie croisée, tout en maintenant des performances compétitives par rapport à la distillation complète, pour une gamme de tailles de modèles allant de 300M à 3B.
Les récents progrès des modèles autorégressifs et de diffusion ont permis d'obtenir des performances impressionnantes dans la génération d'images contenant de courts mots ou phrases. Cependant, la génération de textes longs et cohérents dans des images, tels que des paragraphes dans des diapositives ou des documents, reste un défi majeur pour les modèles génératifs actuels. Nous présentons ici le premier travail spécifiquement dédié à la génération d'images contenant du texte long, comblant ainsi une lacune critique des systèmes texte-à-image existants qui se limitent généralement à des phrases courtes ou à des expressions isolées. À travers une analyse approfondie des modèles de génération autorégressive de pointe, nous identifions le tokenizer d'image comme un goulot d'étranglement majeur affectant la qualité de la génération de texte. Pour y remédier, nous introduisons un nouveau tokenizer binaire axé sur le texte, optimisé pour capturer les caractéristiques détaillées du texte dans les scènes. En exploitant ce tokenizer, nous développons \ModelName, un modèle autorégressif multimodal qui excelle dans la génération d'images contenant du texte long avec une fidélité sans précédent. Notre modèle offre une robuste contrôlabilité, permettant la personnalisation des propriétés du texte telles que le style de police, la taille, la couleur et l'alignement. Des expériences approfondies démontrent que \ModelName~surpasse significativement SD3.5 Large~sd3 et GPT4o~gpt4o avec DALL-E 3~dalle3 en termes de précision, de cohérence et de flexibilité dans la génération de texte long. Au-delà de ses réalisations techniques, \ModelName~ouvre des perspectives passionnantes pour des applications innovantes telles que la génération de documents entrelacés ou de présentations PowerPoint, établissant ainsi une nouvelle frontière dans la génération d'images contenant du texte long.
L'apprentissage par renforcement (RL) est un élément crucial du post-entraînement des grands modèles de langage (LLM). Cependant, les algorithmes on-policy existants utilisés pour le post-entraînement sont intrinsèquement incompatibles avec l'utilisation de tampons de relecture d'expérience, qui peuvent être remplis de manière scalable par des acteurs off-policy distribués pour améliorer l'exploration à mesure que la puissance de calcul augmente. Nous proposons d'obtenir efficacement cet avantage des tampons de relecture via le Trajectory Balance with Asynchrony (TBA), un système RL massivement scalable pour les LLM. Contrairement aux approches existantes, TBA utilise une plus grande fraction de la puissance de calcul pour la recherche, générant constamment des données off-policy pour un tampon de relecture central. Un nœud d'entraînement échantillonne simultanément des données de ce tampon en fonction de la récompense ou de la récence pour mettre à jour la politique en utilisant le Trajectory Balance (TB), un objectif RL favorisant la diversité introduit pour les GFlowNets. TBA offre trois avantages clés : (1) un entraînement et une recherche découplés, accélérant le temps d'entraînement d'un facteur 4 ou plus ; (2) une diversité améliorée grâce à un échantillonnage off-policy à grande échelle ; et (3) une recherche scalable pour des environnements à récompenses rares. Sur des tâches de raisonnement mathématique, de réglage des préférences et de red-teaming automatisé (tâches de post-entraînement diversifiées et représentatives), TBA produit des améliorations en termes de vitesse et de performance par rapport à des bases de référence solides.
L'estimation de pose 3D/6D au niveau catégoriel est une étape cruciale vers une compréhension complète des scènes 3D, ce qui permettrait une large gamme d'applications en robotique et en IA incarnée. Les travaux récents ont exploré des modèles de maillage neuronaux qui abordent une variété de tâches 2D et 3D selon une perspective d'analyse par synthèse. Malgré une robustesse largement améliorée face aux occlusions partielles et aux changements de domaine, ces méthodes dépendaient fortement d'annotations 3D pour l'apprentissage partiel contrastif, ce qui les limite à un ensemble restreint de catégories et entrave une mise à l'échelle efficace. Dans ce travail, nous présentons DINeMo, un nouveau modèle de maillage neuronal entraîné sans annotations 3D en exploitant des pseudo-correspondances obtenues à partir de grands modèles visuels de base. Nous adoptons une méthode de génération de pseudo-correspondances bidirectionnelle, qui produit des pseudo-correspondances en utilisant à la fois des caractéristiques d'apparence locale et des informations contextuelles globales. Les résultats expérimentaux sur des ensembles de données de voitures montrent que notre DINeMo surpasse largement les méthodes précédentes d'estimation de pose 3D en zéro-shot et few-shot, réduisant l'écart avec les méthodes entièrement supervisées de 67,3 %. Notre DINeMo se met également à l'échelle de manière efficace et efficiente en incorporant davantage d'images non labellées pendant l'entraînement, ce qui démontre les avantages par rapport aux méthodes d'apprentissage supervisé qui reposent sur des annotations 3D. Notre page de projet est disponible à l'adresse suivante : https://analysis-by-synthesis.github.io/DINeMo/.
L'estimation du mouvement dans les vidéos est un problème fondamental en vision par ordinateur, avec de nombreuses applications en aval, telles que la génération de vidéos contrôlables et la robotique. Les solutions actuelles sont principalement entraînées à l'aide de données synthétiques ou nécessitent l'ajustement d'heuristiques spécifiques à chaque situation, ce qui limite intrinsèquement les capacités de ces modèles dans des contextes réels. Malgré les récents progrès dans l'apprentissage auto-supervisé à grande échelle à partir de vidéos, l'exploitation de telles représentations pour l'estimation du mouvement reste relativement peu explorée. Dans ce travail, nous développons Opt-CWM, une technique auto-supervisée pour l'estimation du flux et de l'occlusion à partir d'un modèle pré-entraîné de prédiction d'image suivante. Opt-CWM fonctionne en apprenant à optimiser des sondes contrefactuelles qui extraient des informations de mouvement d'un modèle vidéo de base, évitant ainsi le besoin d'heuristiques fixes tout en s'entraînant sur des entrées vidéo non restreintes. Nous obtenons des performances de pointe pour l'estimation du mouvement sur des vidéos du monde réel, sans nécessiter de données étiquetées.
Les modèles basés sur les scores ou de diffusion génèrent des données tabulaires de haute qualité, surpassant les modèles basés sur les GAN et les VAE. Cependant, ces méthodes nécessitent un temps d'entraînement substantiel. Dans cet article, nous présentons RecTable, qui utilise la modélisation par flux rectifié, appliquée notamment dans la génération de texte à image et de texte à vidéo. RecTable se caractérise par une architecture simple composée de quelques blocs d'unités linéaires à porte. De plus, nos stratégies d'entraînement sont également simples, incorporant une distribution de bruit de type mixte et une distribution de pas de temps logit-normale. Nos expériences démontrent que RecTable atteint des performances compétitives par rapport à plusieurs modèles de diffusion et basés sur les scores de pointe, tout en réduisant le temps d'entraînement requis. Notre code est disponible à l'adresse https://github.com/fmp453/rectable.
L'analyse de la structure des documents, également appelée analyse de la mise en page des documents, est essentielle pour comprendre à la fois la disposition physique et la structure logique des documents, servant des applications telles que la recherche d'information, le résumé de documents, l'extraction de connaissances, etc. L'analyse hiérarchique de la structure des documents (HDSA) vise spécifiquement à restaurer la structure hiérarchique des documents créés à l'aide de logiciels de création utilisant des schémas hiérarchiques. Les recherches précédentes ont principalement suivi deux approches : l'une se concentre sur la résolution de sous-tâches spécifiques de la HDSA de manière isolée, comme la détection de tableaux ou la prédiction de l'ordre de lecture, tandis que l'autre adopte un cadre unifié utilisant plusieurs branches ou modules, chacun conçu pour traiter une tâche distincte. Dans ce travail, nous proposons une approche unifiée de prédiction de relations pour la HDSA, appelée UniHDSA, qui traite diverses sous-tâches de la HDSA comme des problèmes de prédiction de relations et consolide les étiquettes de prédiction de relations dans un espace d'étiquettes unifié. Cela permet à un seul module de prédiction de relations de gérer plusieurs tâches simultanément, que ce soit au niveau de l'analyse de la structure d'une page ou d'un document. Pour valider l'efficacité de UniHDSA, nous développons un système multimodal de bout en bout basé sur des architectures Transformer. Les résultats expérimentaux approfondis démontrent que notre approche atteint des performances de pointe sur un benchmark d'analyse hiérarchique de la structure des documents, Comp-HRDoc, et des résultats compétitifs sur un ensemble de données à grande échelle d'analyse de la mise en page des documents, DocLayNet, illustrant efficacement la supériorité de notre méthode sur toutes les sous-tâches. Le benchmark Comp-HRDoc et les configurations de UniHDSA sont disponibles publiquement à l'adresse https://github.com/microsoft/CompHRDoc.
La prédiction de la survie au cancer du sein en pathologie computationnelle représente un défi majeur en raison de l'hétérogénéité tumorale. Par exemple, différentes régions d'une même tumeur sur une image pathologique peuvent présenter des caractéristiques morphologiques et moléculaires distinctes. Cela rend difficile l'extraction de caractéristiques représentatives à partir d'images de lames entières (WSIs) qui reflètent véritablement le potentiel agressif de la tumeur et les résultats de survie probables. Dans cet article, nous présentons PathoHR, une nouvelle pipeline pour la prédiction précise de la survie au cancer du sein, qui améliore la résolution des images pathologiques de toute taille pour permettre un apprentissage plus efficace des caractéristiques. Notre approche comprend (1) l'intégration d'un Vision Transformer (ViT) haute résolution plug-and-play pour améliorer la représentation par patchs des WSIs, permettant une extraction de caractéristiques plus détaillée et complète, (2) l'évaluation systématique de plusieurs métriques de similarité avancées pour comparer les caractéristiques extraites des WSIs, optimisant ainsi le processus d'apprentissage de représentation pour mieux capturer les caractéristiques tumorales, (3) la démonstration que des patchs d'images plus petits améliorés suivant la pipeline proposée peuvent atteindre une précision de prédiction équivalente ou supérieure à celle des patchs plus grands bruts, tout en réduisant significativement la charge de calcul. Les résultats expérimentaux valident que PathoHR offre une voie prometteuse pour intégrer une résolution d'image améliorée avec un apprentissage de caractéristiques optimisé, faisant progresser la pathologie computationnelle et ouvrant une direction prometteuse pour une prédiction de la survie au cancer du sein plus précise et efficace. Le code sera disponible à l'adresse https://github.com/AIGeeksGroup/PathoHR.
Les assistants de rédaction (par exemple, Grammarly, Microsoft Copilot) génèrent traditionnellement des légendes d'images diversifiées en employant des variations syntaxiques et sémantiques pour décrire les composants de l'image. Cependant, les légendes rédigées par des humains privilégient la transmission d'un message central tout en intégrant des descriptions visuelles à l'aide d'indices pragmatiques. Pour améliorer la diversité pragmatique, il est essentiel d'explorer des moyens alternatifs de communiquer ces messages en conjonction avec le contenu visuel. Pour relever ce défi, nous proposons RONA, une nouvelle stratégie de prompt pour les modèles de langage multi-modaux (MLLM) qui exploite les relations de cohérence comme axe de variation. Nous démontrons que RONA génère des légendes présentant une meilleure diversité globale et un meilleur alignement avec la réalité, comparé aux modèles de référence MLLM dans plusieurs domaines. Notre code est disponible à l'adresse : https://github.com/aashish2000/RONA