Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons RWKV-7 "Goose", une nouvelle architecture de modélisation de séquences, accompagnée de modèles de langage pré-entraînés qui établissent un nouvel état de l'art en termes de performance en aval à l'échelle de 3 milliards de paramètres sur des tâches multilingues, et égalent les performances actuelles de l'état de l'art pour la langue anglaise malgré un entraînement sur un nombre considérablement moins élevé de tokens que les autres modèles de pointe à 3 milliards de paramètres. Néanmoins, les modèles RWKV-7 nécessitent uniquement une utilisation de mémoire constante et un temps d'inférence constant par token. RWKV-7 introduit une nouvelle formulation généralisée de la règle delta avec un gating à valeurs vectorielles et des taux d'apprentissage en contexte, ainsi qu'une règle de remplacement de valeurs assouplie. Nous montrons que RWKV-7 peut effectuer un suivi d'état et reconnaître tous les langages réguliers, tout en conservant la parallélisabilité de l'entraînement. Cela dépasse les capacités des Transformers sous les conjectures de complexité standard, qui sont limitées à TC^0. Pour démontrer la capacité de modélisation de langage de RWKV-7, nous présentons également un corpus multilingue open source étendu de 3,1 billions de tokens, et entraînons quatre modèles RWKV-7 allant de 0,19 à 2,9 milliards de paramètres sur cet ensemble de données. Pour favoriser l'ouverture, la reproduction et l'adoption, nous publions nos modèles et la liste des composants de l'ensemble de données sur https://huggingface.co/RWKV, ainsi que notre code d'entraînement et d'inférence sur https://github.com/RWKV/RWKV-LM, le tout sous licence Apache 2.0.
Le passage à l'échelle de l'inférence confère aux LLM une capacité de raisonnement sans précédent, avec l'apprentissage par renforcement comme technique centrale pour susciter un raisonnement complexe. Cependant, les détails techniques clés des LLM de pointe en matière de raisonnement restent dissimulés (comme dans le blog OpenAI o1 et le rapport technique DeepSeek R1), ce qui empêche la communauté de reproduire leurs résultats d'entraînement par RL. Nous proposons l'algorithme Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO) et mettons entièrement en open source un système RL à grande échelle de pointe qui atteint 50 points sur AIME 2024 en utilisant le modèle de base Qwen2.5-32B. Contrairement aux travaux précédents qui occultent les détails de l'entraînement, nous présentons quatre techniques clés de notre algorithme qui permettent de réussir l'apprentissage par renforcement à grande échelle pour les LLM. De plus, nous ouvrons notre code d'entraînement, basé sur le framework verl, ainsi qu'un ensemble de données soigneusement sélectionné et traité. Ces composants de notre système open source améliorent la reproductibilité et soutiennent les recherches futures sur l'apprentissage par renforcement à grande échelle pour les LLM.
Les vidéos synthétiques sont aujourd'hui largement utilisées pour pallier la rareté et le manque de diversité des vidéos du monde réel. Les ensembles de données synthétiques actuels reproduisent principalement des scénarios réalistes, laissant les concepts vidéo impossibles, contrefactuels et anti-réalistes sous-explorés. Ce travail vise à répondre à deux questions : 1) Les modèles actuels de génération de vidéos peuvent-ils suivre efficacement des instructions pour créer du contenu vidéo impossible ? 2) Les modèles actuels de compréhension vidéo sont-ils suffisamment performants pour comprendre des vidéos impossibles ? À cette fin, nous introduisons IPV-Bench, un nouveau benchmark conçu pour évaluer et stimuler les progrès dans la compréhension et la génération de vidéos. IPV-Bench s'appuie sur une taxonomie complète, englobant 4 domaines et 14 catégories. Il propose des scènes variées qui défient les lois physiques, biologiques, géographiques ou sociales. Sur la base de cette taxonomie, un ensemble d'instructions est construit pour évaluer les modèles de génération de vidéos, testant leurs capacités à suivre les instructions et leur créativité. De plus, un benchmark vidéo est élaboré pour évaluer les Video-LLM sur leur capacité à comprendre des vidéos impossibles, ce qui nécessite particulièrement un raisonnement sur la dynamique temporelle et les connaissances du monde. Des évaluations approfondies révèlent des limites et des pistes pour les futures directions des modèles vidéo, ouvrant la voie aux modèles vidéo de nouvelle génération.
La créativité est un aspect fondamental de l'intelligence, impliquant la capacité à générer des solutions novatrices et pertinentes dans divers contextes. Bien que les modèles de langage de grande taille (LLMs) aient été largement évalués pour leurs capacités créatives, l'évaluation des modèles de langage multimodaux de grande taille (MLLMs) dans ce domaine reste largement inexplorée. Pour combler cette lacune, nous introduisons Creation-MMBench, un benchmark multimodal spécialement conçu pour évaluer les capacités créatives des MLLMs dans des tâches basées sur des images et ancrées dans le monde réel. Le benchmark comprend 765 cas de test couvrant 51 tâches fines. Pour garantir une évaluation rigoureuse, nous définissons des critères d'évaluation spécifiques à chaque instance, guidant l'évaluation de la qualité générale des réponses et de leur cohérence factuelle avec les entrées visuelles. Les résultats expérimentaux révèlent que les MLLMs open-source actuels sous-performent de manière significative par rapport aux modèles propriétaires dans les tâches créatives. De plus, notre analyse démontre que l'affinage visuel peut nuire aux capacités créatives du LLM de base. Creation-MMBench offre des insights précieux pour faire progresser la créativité des MLLMs et établit une base pour les améliorations futures de l'intelligence générative multimodale. Les données complètes et le code d'évaluation sont disponibles sur https://github.com/open-compass/Creation-MMBench.
Les objets articulés à grande échelle et de haute qualité sont indispensables pour de multiples tâches liées à l'IA incarnée. La plupart des méthodes existantes pour créer des objets articulés sont soit basées sur les données, soit sur la simulation, ce qui les limite par l'échelle et la qualité des données d'entraînement ou par la fidélité et le travail laborieux de la simulation. Dans cet article, nous proposons Infinite Mobility, une nouvelle méthode pour synthétiser des objets articulés de haute fidélité grâce à la génération procédurale. Une étude utilisateur et une évaluation quantitative démontrent que notre méthode peut produire des résultats qui surpassent les méthodes actuelles de pointe et sont comparables aux ensembles de données annotés par des humains en termes de propriétés physiques et de qualité de maillage. De plus, nous montrons que nos données synthétiques peuvent être utilisées comme données d'entraînement pour des modèles génératifs, permettant ainsi une montée en puissance à l'étape suivante. Le code est disponible à l'adresse suivante : https://github.com/Intern-Nexus/Infinite-Mobility.
Les experts humains excellent dans la discrimination visuelle fine en exploitant des connaissances spécifiques pour affiner les caractéristiques perceptives, une capacité qui reste sous-développée dans les modèles de langage multimodaux à grande échelle (MLLMs) actuels. Bien qu'ils possèdent de vastes connaissances de niveau expert, les MLLMs peinent à intégrer le raisonnement dans la perception visuelle, générant souvent des réponses directes sans analyse approfondie. Pour combler cette lacune, nous introduisons l'ancrage visuel intensif en connaissances (KVG), une nouvelle tâche d'ancrage visuel qui nécessite à la fois une perception fine et l'intégration de connaissances spécifiques à un domaine. Pour relever les défis du KVG, nous proposons DeepPerception, un MLLM enrichi de capacités de perception visuelle cognitive. Notre approche comprend (1) un pipeline de synthèse automatisée de données qui génère des échantillons d'entraînement de haute qualité alignés sur les connaissances, et (2) un cadre d'entraînement en deux étapes combinant un réglage fin supervisé pour l'échafaudage du raisonnement cognitif et un apprentissage par renforcement pour optimiser la synergie perception-cognition. Pour évaluer les performances, nous introduisons KVG-Bench, un ensemble de données complet couvrant 10 domaines avec 1,3K cas de test soigneusement sélectionnés. Les résultats expérimentaux montrent que DeepPerception surpasse significativement le réglage fin direct, avec une amélioration de +8,08 % en précision sur KVG-Bench et une généralisation inter-domaines supérieure de +4,60 % par rapport aux approches de référence. Nos résultats soulignent l'importance d'intégrer des processus cognitifs dans les MLLMs pour une perception visuelle proche de celle des humains et ouvrent de nouvelles directions pour la recherche en raisonnement multimodal. Les données, codes et modèles sont disponibles à l'adresse https://github.com/thunlp/DeepPerception.
La génération audio et musicale est devenue une tâche cruciale dans de nombreuses applications, mais les approches existantes présentent des limites significatives : elles fonctionnent de manière isolée sans capacités unifiées à travers les modalités, souffrent d'un manque de données d'entraînement multimodales de haute qualité, et peinent à intégrer efficacement des entrées diverses. Dans ce travail, nous proposons AudioX, un modèle unifié de type Diffusion Transformer pour la génération de tout type de contenu audio et musical. Contrairement aux modèles précédents spécifiques à un domaine, AudioX peut générer à la fois des sons généraux et de la musique de haute qualité, tout en offrant un contrôle flexible via le langage naturel et un traitement fluide de diverses modalités incluant le texte, la vidéo, l'image, la musique et l'audio. Son innovation clé réside dans une stratégie d'entraînement masqué multimodal qui masque les entrées à travers les modalités et force le modèle à apprendre à partir de ces entrées masquées, produisant ainsi des représentations robustes et unifiées intermodales. Pour pallier le manque de données, nous avons constitué deux ensembles de données complets : vggsound-caps avec 190 000 descriptions audio basées sur le jeu de données VGGSound, et V2M-caps avec 6 millions de descriptions musicales dérivées du jeu de données V2M. Des expériences approfondies démontrent qu'AudioX non seulement rivalise ou surpasse les modèles spécialisés de pointe, mais offre également une polyvalence remarquable dans la gestion de diverses modalités d'entrée et de tâches de génération au sein d'une architecture unifiée. Le code et les jeux de données seront disponibles à l'adresse suivante : https://zeyuet.github.io/AudioX/
Les grands modèles de langage (LLMs) peuvent traiter une grande variété de tâches générales avec des instructions simples, sans nécessiter d'entraînement spécifique à une tâche. Les modèles de langage multimodaux (MLLMs), construits sur la base des LLMs, ont démontré un potentiel impressionnant pour aborder des tâches complexes impliquant des données visuelles, auditives et textuelles. Cependant, des problèmes critiques liés à la véracité, à la sécurité, au raisonnement de type o1 et à l'alignement avec les préférences humaines restent insuffisamment résolus. Cette lacune a stimulé l'émergence de divers algorithmes d'alignement, chacun ciblant différents scénarios d'application et objectifs d'optimisation. Des études récentes ont montré que les algorithmes d'alignement constituent une approche puissante pour résoudre les défis mentionnés ci-dessus. Dans cet article, nous visons à fournir une revue complète et systématique des algorithmes d'alignement pour les MLLMs. Plus précisément, nous explorons quatre aspects clés : (1) les scénarios d'application couverts par les algorithmes d'alignement, incluant la compréhension générale d'images, les images multiples, les vidéos et l'audio, ainsi que les applications multimodales étendues ; (2) les facteurs essentiels dans la construction des ensembles de données d'alignement, incluant les sources de données, les réponses des modèles et les annotations de préférence ; (3) les benchmarks utilisés pour évaluer les algorithmes d'alignement ; et (4) une discussion sur les directions futures potentielles pour le développement des algorithmes d'alignement. Ce travail vise à aider les chercheurs à organiser les avancées actuelles dans le domaine et à inspirer de meilleures méthodes d'alignement. La page du projet de cet article est disponible à l'adresse suivante : https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.
La génération de légendes d'images constitue un défi de longue date dans la recherche en vision et langage. Avec l'essor des LLMs, les modèles modernes de vision-langage (VLMs) produisent des descriptions d'images détaillées et complètes. Cependant, l'évaluation de la qualité de ces légendes reste un problème non résolu. Cet article aborde deux questions clés : (1) Dans quelle mesure les VLMs actuels performent-ils réellement en génération de légendes, notamment par rapport aux humains ? Nous avons développé CapArena, une plateforme comprenant plus de 6000 combats de légendes par paires et des votes de préférence humaine de haute qualité. Notre évaluation de type arène marque une étape importante, montrant que les modèles leaders comme GPT-4o atteignent ou dépassent même les performances humaines, tandis que la plupart des modèles open-source sont à la traîne. (2) Les métriques automatisées peuvent-elles évaluer de manière fiable la qualité détaillée des légendes ? En utilisant les annotations humaines de CapArena, nous évaluons les métriques traditionnelles et récentes de génération de légendes, ainsi que le VLM-comme-juge. Notre analyse révèle que bien que certaines métriques (par exemple, METEOR) montrent un accord décent au niveau des légendes avec les humains, leurs biais systématiques entraînent des incohérences dans le classement des modèles. En revanche, le VLM-comme-juge démontre une capacité de discernement robuste à la fois au niveau des légendes et des modèles. Sur la base de ces insights, nous publions CapArena-Auto, un benchmark automatisé précis et efficace pour la génération de légendes détaillées, atteignant une corrélation de 94,3 % avec les classements humains pour seulement 4 $ par test. Les données et ressources seront open-source sur https://caparena.github.io.
Les connexions résiduelles sont au cœur des architectures modernes d'apprentissage profond, permettant l'entraînement de réseaux très profonds en atténuant le problème de disparition du gradient. Les Hyper-Connexions ont récemment généralisé les connexions résiduelles en introduisant plusieurs forces de connexion à différentes profondeurs, abordant ainsi l'effet de bascule entre la disparition du gradient et l'effondrement de la représentation. Cependant, les Hyper-Connexions augmentent les coûts d'accès à la mémoire en élargissant la largeur des états cachés. Dans cet article, nous proposons les Frac-Connexions, une approche novatrice qui divise les états cachés en plusieurs parties plutôt que d'en augmenter la largeur. Les Frac-Connexions conservent une partie des avantages des Hyper-Connexions tout en réduisant la consommation de mémoire. Pour valider leur efficacité, nous menons des expériences à grande échelle sur des tâches de traitement du langage, la plus importante étant un modèle MoE de 7B entraîné sur jusqu'à 3T de tokens, démontrant que les Frac-Connexions surpassent significativement les connexions résiduelles.
Nous présentons Cosmos-Transfer, un modèle de génération conditionnelle de mondes capable de produire des simulations de mondes basées sur plusieurs entrées de contrôle spatial de différentes modalités, telles que la segmentation, la profondeur et les contours. Dans sa conception, le schéma de conditionnement spatial est adaptatif et personnalisable. Il permet de pondérer différemment les diverses entrées conditionnelles à différents emplacements spatiaux. Cela rend possible une génération de mondes hautement contrôlable et trouve son utilité dans divers cas d'utilisation de transfert de monde à monde, y compris Sim2Real. Nous menons des évaluations approfondies pour analyser le modèle proposé et démontrons ses applications pour l'IA Physique, incluant la simulation Sim2Real pour la robotique et l'enrichissement de données pour les véhicules autonomes. Nous démontrons également une stratégie de mise à l'échelle de l'inférence pour atteindre une génération de mondes en temps réel avec un rack NVIDIA GB200 NVL72. Pour accélérer le développement de la recherche dans ce domaine, nous mettons à disposition nos modèles et notre code en open-source sur https://github.com/nvidia-cosmos/cosmos-transfer1.
Générer des scènes 3D à vues flexibles, incluant des rotations à 360{\deg} et des zooms, à partir d'images uniques est un défi en raison du manque de données 3D. Pour y remédier, nous présentons FlexWorld, un nouveau cadre de travail composé de deux éléments clés : (1) un modèle de diffusion vidéo-à-vidéo (V2V) puissant pour générer des images de nouvelles vues de haute qualité à partir d'entrées incomplètes rendues à partir d'une scène grossière, et (2) un processus d'expansion progressive pour construire une scène 3D complète. En particulier, en exploitant un modèle vidéo pré-entraîné avancé et des paires d'entraînement avec estimation précise de la profondeur, notre modèle V2V peut générer de nouvelles vues sous de grandes variations de pose de caméra. Sur cette base, FlexWorld génère progressivement de nouveaux contenus 3D et les intègre dans la scène globale grâce à une fusion de scène prenant en compte la géométrie. Des expériences approfondies démontrent l'efficacité de FlexWorld pour générer des vidéos de nouvelles vues de haute qualité et des scènes 3D à vues flexibles à partir d'images uniques, atteignant une qualité visuelle supérieure selon plusieurs métriques et jeux de données populaires par rapport aux méthodes existantes de pointe. Qualitativement, nous soulignons que FlexWorld peut générer des scènes de haute fidélité avec des vues flexibles comme des rotations à 360{\deg} et des zooms. Page du projet : https://ml-gsai.github.io/FlexWorld.
La modélisation efficace d'images massives constitue un défi de longue date en apprentissage automatique. Pour y répondre, nous introduisons l'attention multi-échelle (Multi-Scale Attention, MSA). MSA repose sur deux idées clés : (i) les représentations multi-échelles et (ii) la communication bidirectionnelle entre échelles. MSA crée O(log N) échelles pour représenter l'image à travers des caractéristiques progressivement plus grossières et exploite l'attention croisée pour propager l'information entre les échelles. Nous présentons ensuite Atlas, une nouvelle architecture de réseau neuronal basée sur MSA. Nous démontrons qu'Atlas améliore significativement le compromis entre calcul et performance pour la modélisation d'images à contexte long dans une variante haute résolution d'ImageNet 100. À une résolution de 1024px, Atlas-B atteint une précision de 91,04 %, comparable à ConvNext-B (91,92 %) tout en étant 4,3 fois plus rapide. Atlas est 2,95 fois plus rapide et 7,38 % meilleur que FasterViT, et 2,25 fois plus rapide et 4,96 % meilleur que LongViT. En comparaison avec MambaVision-S, Atlas-S atteint respectivement 5 %, 16 % et 32 % de précision en plus à 1024px, 2048px et 4096px, tout en obtenant des temps d'exécution similaires. Le code pour reproduire nos expériences et les modèles pré-entraînés est disponible à l'adresse https://github.com/yalalab/atlas.
Malgré les progrès rapides réalisés sur les benchmarks d'IA, la signification réelle des performances sur ces benchmarks reste incertaine. Pour quantifier les capacités des systèmes d'IA en termes de compétences humaines, nous proposons une nouvelle métrique : l'horizon temporel de réalisation à 50 %. Il s'agit du temps que les humains prennent généralement pour accomplir des tâches que les modèles d'IA peuvent réaliser avec un taux de réussite de 50 %. Nous avons d'abord chronométré des humains possédant une expertise pertinente dans le domaine sur une combinaison de RE-Bench, HCAST et 66 nouvelles tâches plus courtes. Sur ces tâches, les modèles d'IA de pointe actuels, tels que Claude 3.7 Sonnet, ont un horizon temporel de 50 % d'environ 50 minutes. De plus, l'horizon temporel des IA de pointe a doublé environ tous les sept mois depuis 2019, bien que cette tendance semble s'être accélérée en 2024. L'augmentation des horizons temporels des modèles d'IA semble principalement être motivée par une plus grande fiabilité et une meilleure capacité à s'adapter aux erreurs, combinées à de meilleures capacités de raisonnement logique et d'utilisation d'outils. Nous discutons des limites de nos résultats — y compris leur degré de validité externe — et des implications d'une autonomie accrue pour les capacités dangereuses. Si ces résultats se généralisent aux tâches logicielles du monde réel, l'extrapolation de cette tendance prédit que dans cinq ans, les systèmes d'IA seront capables d'automatiser de nombreuses tâches logicielles qui prennent actuellement un mois aux humains.
La vérification est cruciale pour un raisonnement mathématique efficace. Nous présentons une nouvelle méthode de cohérence temporelle où les vérificateurs affinent itérativement leurs jugements en se basant sur l'évaluation précédente. Contrairement aux approches de vérification en une seule étape ou de débats multi-modèles, notre méthode exploite la cohérence dans une séquence d'actions d'auto-réflexion pour améliorer la précision de la vérification. Les évaluations empiriques sur divers benchmarks d'identification d'erreurs dans les processus mathématiques (Mathcheck, ProcessBench et PRM800K) montrent des améliorations constantes par rapport aux méthodes de référence. Lorsqu'elle est appliquée aux modèles distillés récents DeepSeek R1, notre méthode démontre des performances solides, permettant aux modèles distillés de 7B/8B de surpasser tous les modèles de 70B/72B ainsi que GPT-4o sur ProcessBench. Notamment, le modèle distillée de 14B avec notre méthode atteint des performances comparables à Deepseek-R1. Nos codes sont disponibles à l'adresse suivante : https://github.com/jcguo123/Temporal-Consistency
Nous présentons Concat-ID, un cadre unifié pour la génération de vidéos préservant l'identité. Concat-ID utilise des Autoencodeurs Variationnels pour extraire les caractéristiques des images, qui sont concaténées avec les latents vidéo le long de la dimension séquentielle, en exploitant uniquement des mécanismes d'auto-attention 3D sans nécessiter de modules supplémentaires. Une nouvelle stratégie d'appariement inter-vidéo et un régime d'entraînement multi-étapes sont introduits pour équilibrer la cohérence de l'identité et l'éditabilité faciale tout en améliorant le réalisme des vidéos. Des expériences approfondies démontrent la supériorité de Concat-ID par rapport aux méthodes existantes, tant pour la génération mono-identité que multi-identités, ainsi que son extensibilité fluide à des scénarios multi-sujets, incluant l'essayage virtuel et la génération avec contrôle de l'arrière-plan. Concat-ID établit un nouveau standard pour la synthèse vidéo préservant l'identité, offrant une solution polyvalente et évolutive pour un large éventail d'applications.
Le raisonnement est une capacité essentielle pour les grands modèles de langage (LLMs) afin de traiter des tâches complexes, où l'identification des erreurs de processus est cruciale pour améliorer cette aptitude. Récemment, des modèles de récompense au niveau du processus (PRMs) ont été proposés pour fournir des récompenses étape par étape, facilitant l'apprentissage par renforcement et la production de données pendant l'entraînement, et guidant les LLMs vers des étapes correctes lors de l'inférence, améliorant ainsi la précision du raisonnement. Cependant, les benchmarks existants pour les PRMs sont basés sur le texte et se concentrent sur la détection d'erreurs, négligeant d'autres scénarios comme la recherche de raisonnement. Pour combler cette lacune, nous introduisons MPBench, un benchmark multimodal et multi-tâches conçu pour évaluer systématiquement l'efficacité des PRMs dans divers scénarios. MPBench emploie trois paradigmes d'évaluation, chacun ciblant un rôle spécifique des PRMs dans le processus de raisonnement : (1) la Correction des Étapes, qui évalue la justesse de chaque étape intermédiaire du raisonnement ; (2) l'Aggrégation des Réponses, qui regroupe plusieurs solutions et sélectionne la meilleure ; et (3) la Recherche de Processus de Raisonnement, qui guide la recherche des étapes optimales de raisonnement pendant l'inférence. À travers ces paradigmes, MPBench permet des évaluations complètes et offre des perspectives pour le développement de PRMs multimodaux.
L'approche prédominante pour faire progresser la génération texte-image a été la mise à l'échelle lors de l'entraînement, où des modèles plus volumineux sont entraînés sur davantage de données en utilisant des ressources computationnelles accrues. Bien qu'efficace, cette approche est coûteuse en termes de calcul, suscitant un intérêt croissant pour la mise à l'échelle lors de l'inférence afin d'améliorer les performances. Actuellement, la mise à l'échelle lors de l'inférence pour les modèles de diffusion texte-image se limite largement à l'échantillonnage best-of-N, où plusieurs images sont générées par prompt et un modèle de sélection choisit la meilleure sortie. Inspirés par le récent succès des modèles de raisonnement comme DeepSeek-R1 dans le domaine du langage, nous introduisons une alternative à l'échantillonnage best-of-N naïf en dotant les Transformers de Diffusion texte-image de capacités de réflexion en contexte. Nous proposons Reflect-DiT, une méthode qui permet aux Transformers de Diffusion d'affiner leurs générations en utilisant des exemples en contexte d'images précédemment générées ainsi que des retours textuels décrivant les améliorations nécessaires. Au lieu de se reposer passivement sur un échantillonnage aléatoire en espérant un meilleur résultat dans une génération future, Reflect-DiT adapte explicitement ses générations pour répondre à des aspects spécifiques nécessitant des améliorations. Les résultats expérimentaux montrent que Reflect-DiT améliore les performances sur le benchmark GenEval (+0,19) en utilisant SANA-1.0-1.6B comme modèle de base. De plus, il atteint un nouveau score record de 0,81 sur GenEval en générant seulement 20 échantillons par prompt, surpassant le précédent meilleur score de 0,80, obtenu avec un modèle significativement plus volumineux (SANA-1.5-4.8B) et 2048 échantillons dans le cadre de l'approche best-of-N.
Les modèles de langage multimodaux de grande taille (MLLMs) excellent dans la compréhension visuelle 2D, mais restent limités dans leur capacité à raisonner sur l'espace 3D. Dans ce travail, nous exploitons des données de scènes 3D à grande échelle et de haute qualité avec des annotations en ensemble ouvert pour introduire 1) un nouvel ensemble de données de fine-tuning supervisé et 2) un nouveau benchmark d'évaluation, axé sur les scènes intérieures. Notre ensemble de données Cubify Anything VQA (CA-VQA) couvre diverses tâches spatiales, notamment la prédiction des relations spatiales, l'estimation des tailles et distances métriques, et l'ancrage 3D. Nous montrons que CA-VQA nous permet d'entraîner MM-Spatial, un MLLM généraliste performant qui atteint également des performances de pointe sur les benchmarks de compréhension spatiale 3D, y compris le nôtre. Nous montrons comment l'intégration de la profondeur métrique et des entrées multi-vues (fournies dans CA-VQA) peut encore améliorer la compréhension 3D, et démontrons que les données seules permettent à notre modèle d'atteindre des capacités de perception de la profondeur comparables à celles des modèles dédiés à l'estimation de la profondeur monoculaire. Nous publierons notre ensemble de données SFT et notre benchmark.
Malgré leurs capacités impressionnantes, les Modèles de Langage Multimodaux de Grande Taille (MLLMs) rencontrent des difficultés en matière de perception fine et de raisonnement complexe. Les approches prédominantes de pré-entraînement multimodal se concentrent sur l'amélioration de la perception en s'entraînant sur des descriptions d'images de haute qualité, en raison du coût extrêmement élevé associé à la collecte de données de raisonnement en chaîne de pensée (CoT) pour améliorer le raisonnement. Bien que l'utilisation de MLLMs avancés pour la génération de descriptions améliore l'évolutivité, les résultats manquent souvent de exhaustivité et de précision. Dans cet article, nous introduisons la cognition auto-améliorante (SIcog), un cadre d'apprentissage autonome conçu pour construire des MLLMs de fondation de nouvelle génération en améliorant leurs capacités cognitives systématiques grâce à un pré-entraînement multimodal avec des données auto-générées. Plus précisément, nous proposons la Chaîne de Description, une approche qui améliore la perception systématique d'un MLLM en permettant une compréhension visuelle étape par étape, garantissant une plus grande exhaustivité et précision. De plus, nous adoptons une technique de raisonnement CoT structurée pour permettre aux MLLMs d'intégrer un raisonnement multimodal approfondi. Pour construire un MLLM de fondation de nouvelle génération avec une cognition auto-améliorée, SIcog commence par doter un MLLM de capacités de perception et de raisonnement systématiques en utilisant un minimum d'annotations externes. Les modèles améliorés génèrent ensuite des descriptions détaillées et des données de raisonnement CoT, qui sont ensuite affinées par auto-cohérence. Ces données affinées sont finalement utilisées pour le pré-entraînement multimodal afin de développer des modèles de fondation de nouvelle génération. Des expériences approfondies sur des MLLMs à basse et haute résolution à travers divers benchmarks démontrent qu'avec seulement 213K échantillons de pré-entraînement auto-générés, SIcog produit des MLLMs de fondation de nouvelle génération avec une cognition significativement améliorée, atteignant des performances de pointe par rapport aux approches de pré-entraînement prédominantes.
Le transfert interlangue permet aux modèles vision-langage (VLMs) d'exécuter des tâches visuelles dans diverses langues avec des données d'entraînement dans une seule langue. Les approches actuelles s'appuient sur de grands modèles de langage multilingues pré-entraînés. Cependant, elles sont confrontées à la malédiction de la multilingüité, sacrifiant les performances en aval pour les capacités multilingues, luttant contre les ambiguïtés lexicales et restant à la traîne des avancées récentes. Dans ce travail, nous étudions les lois d'échelle de la généralisation systématique avec des VLMs monolingues pour des tâches multilingues, en nous concentrant sur l'impact de la taille du modèle et des échantillons d'entraînement observés. Nous proposons Florenz, un VLM encodeur-décodeur monolingue avec des paramètres allant de 0,4 à 11,2 milliards, combinant le VLM pré-entraîné Florence-2 et le grand modèle de langage Gemma-2. Florenz est entraîné avec différents budgets de calcul sur un ensemble de données synthétiques présentant une couverture linguistique intentionnellement incomplète pour la génération de légendes d'images, testant ainsi la généralisation à partir de la tâche de traduction entièrement couverte. Nous montrons que non seulement l'apprentissage indirect de paires tâche-langue non vues suit une loi d'échelle, mais aussi qu'avec notre pipeline de génération de données et la famille de modèles Florenz proposée, les capacités de génération de légendes d'images peuvent émerger dans une langue spécifique même lorsque seules les données pour la tâche de traduction sont disponibles. Le fine-tuning sur un mélange de jeux de données en aval donne des performances compétitives et démontre des tendances d'échelle prometteuses en traduction multimodale (Multi30K, CoMMuTE), en désambiguïsation lexicale (CoMMuTE) et en génération de légendes d'images (Multi30K, XM3600, COCO Karpathy).
Les grands modèles de langage (LLM) ont démontré des capacités remarquables dans diverses tâches de traitement du langage naturel. Cependant, atteindre des performances solides dans des domaines spécialisés comme le raisonnement mathématique et les langues non anglaises nécessite souvent un entraînement intensif sur des ensembles de données massifs. Cet article explore une approche contrastée : un ajustement fin stratégique sur un petit ensemble de données bilingues (anglais-français) de haute qualité pour améliorer à la fois les capacités de raisonnement et la maîtrise du français d'un grand modèle de langage. Plutôt que de s'appuyer sur l'échelle, nous examinons l'hypothèse qu'une curation ciblée des données et un entraînement optimisé peuvent atteindre des performances compétitives, voire supérieures. Nous démontrons, grâce à un ajustement fin supervisé (SFT) ciblé sur seulement 2 000 échantillons soigneusement sélectionnés, des améliorations significatives en raisonnement mathématique. Plus précisément, Pensez 7B montre une augmentation de la précision du modèle de base jusqu'à 20 % sur AIME25 et une augmentation de 12 % sur un benchmark français de niveau 5 en MATH. Ces résultats remettent en question l'hypothèse dominante selon laquelle des ensembles de données massifs sont un prérequis pour de solides performances en raisonnement dans les LLM, mettant en lumière le potentiel de la curation stratégique des données et de l'ajustement fin optimisé pour améliorer à la fois les compétences spécialisées et les capacités multilingues. Nos conclusions ont des implications pour le développement efficace de LLM multilingues performants, en particulier dans des scénarios où les ressources sont limitées.
Ces dernières années, les modèles de langage multimodaux de grande envergure (MLLMs) ont démontré des avancées remarquables dans des tâches telles que la réponse à des questions visuelles, la compréhension visuelle et le raisonnement. Cependant, ces progrès impressionnants reposent sur des quantités massives de données collectées sur Internet, soulevant d'importantes préoccupations en matière de confidentialité et de sécurité. Pour résoudre ces problèmes, le désapprentissage machine (MU) est apparu comme une solution prometteuse, permettant de supprimer des connaissances spécifiques d'un modèle déjà entraîné sans nécessiter un réentraînement complet. Bien que le MU pour les MLLMs ait attiré l'attention, les évaluations actuelles de son efficacité restent incomplètes, et le problème sous-jacent est souvent mal défini, ce qui entrave le développement de stratégies pour créer des systèmes plus sûrs et plus fiables. Pour combler cette lacune, nous introduisons un benchmark, nommé PEBench, qui inclut un ensemble de données d'entités personnelles et de scènes d'événements généraux correspondantes, conçu pour évaluer de manière exhaustive les performances du MU pour les MLLMs. À travers PEBench, nous visons à fournir un cadre standardisé et robuste pour faire progresser la recherche sur les modèles multimodaux sécurisés et respectueux de la vie privée. Nous avons évalué 6 méthodes de MU, révélant leurs forces et leurs limites, et mettant en lumière les principaux défis et opportunités pour le MU dans les MLLMs.
Une évaluation idéale d'un modèle devrait atteindre deux objectifs : identifier où le modèle échoue et fournir des conseils exploitables pour l'amélioration. Pour atteindre ces objectifs dans le cadre des évaluations de modèles de langage (LM), nous formulons le problème de génération d'un profil de faiblesses, un ensemble de faiblesses exprimées en langage naturel, en fonction des performances d'un LM sur chaque instance individuelle d'un benchmark. Nous introduisons une série d'évaluations quantitatives pour comparer différentes méthodes de profilage des faiblesses. Nous proposons également une méthode de profilage des faiblesses appelée EvalTree. Elle construit un arbre de capacités où chaque nœud représente une capacité décrite en langage naturel et est lié à un sous-ensemble d'instances de benchmark qui évaluent spécifiquement cette capacité ; elle extrait ensuite les nœuds où le LM performe mal pour générer un profil de faiblesses. Sur les benchmarks MATH et WildChat, nous montrons qu'EvalTree surpasse les méthodes de profilage des faiblesses de base en identifiant les faiblesses de manière plus précise et complète. Le profilage des faiblesses permet également une collecte de données guidée par les faiblesses, et la collecte de données d'entraînement guidée par les faiblesses identifiées par EvalTree améliore les performances du LM plus que d'autres stratégies de collecte de données. Nous montrons également comment EvalTree expose les défauts de la pratique d'évaluation basée sur les votes humains de Chatbot Arena. Pour faciliter les travaux futurs, nous publions notre code et une interface qui permet aux praticiens d'explorer interactivement les arbres de capacités construits par EvalTree.
Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré des capacités impressionnantes en matière de raisonnement, mais ils s'accompagnent d'un coût computationnel substantiel, limitant leur déploiement dans des environnements aux ressources limitées. Malgré les récents efforts visant à améliorer l'efficacité des MLLMs, les solutions existantes ne parviennent pas à répondre aux conditions d'exécution variables, en particulier à la disponibilité changeante des ressources (par exemple, la contention due à l'exécution d'autres programmes sur l'appareil). Pour combler cette lacune, nous présentons AdaLLaVA, un cadre d'inférence adaptatif qui apprend à reconfigurer dynamiquement les opérations d'un MLLM pendant l'inférence, en tenant compte des données d'entrée et d'un budget de latence. Nous menons des expériences approfondies sur des benchmarks impliquant des questions-réponses, du raisonnement et des hallucinations. Nos résultats montrent qu'AdaLLaVA respecte efficacement le budget de latence d'entrée, atteignant divers compromis entre précision et latence en temps réel. De plus, nous démontrons qu'AdaLLaVA s'adapte à la fois à la latence et au contenu de l'entrée, peut être intégré à la sélection de tokens pour une efficacité accrue, et se généralise à travers différents MLLMs. Notre page web de projet avec le code est disponible à l'adresse suivante : https://zhuoyan-xu.github.io/ada-llava/.
L'adaptation de domaine sur graphes est apparue comme une approche prometteuse pour faciliter le transfert de connaissances entre différents domaines. Récemment, de nombreux modèles ont été proposés pour améliorer leurs capacités de généralisation dans ce domaine. Cependant, il n'existe toujours pas de bibliothèque unifiée rassemblant les techniques existantes et simplifiant leur implémentation. Pour combler cette lacune, nous présentons PyGDA, une bibliothèque Python open-source spécialement conçue pour l'adaptation de domaine sur graphes. En tant que première bibliothèque complète dans ce domaine, PyGDA couvre plus de 20 méthodes d'adaptation de domaine sur graphes largement utilisées, ainsi que différents types de jeux de données graphiques. Plus précisément, PyGDA propose des composants modulaires, permettant aux utilisateurs de construire facilement des modèles personnalisés avec une variété de fonctions utilitaires couramment utilisées. Pour gérer des graphes à grande échelle, PyGDA inclut des fonctionnalités telles que l'échantillonnage et le traitement par mini-lots, garantissant ainsi un calcul efficace. En outre, PyGDA propose également des benchmarks de performance complets et une API bien documentée et conviviale pour les chercheurs et les praticiens. Pour favoriser une accessibilité pratique, PyGDA est publiée sous licence MIT à l'adresse https://github.com/pygda-team/pygda, et la documentation de l'API est disponible à l'adresse https://pygda.readthedocs.io/en/stable/.
Les modèles génératifs ont récemment réalisé des progrès remarquables dans le domaine des objets 3D. Cependant, leur application pratique dans des domaines comme l'ingénierie reste limitée, car ils ne parviennent pas à fournir la précision, la qualité et la contrôlabilité nécessaires pour des tâches spécifiques à ces domaines. L'affinage de grands modèles génératifs représente une perspective prometteuse pour rendre ces modèles utilisables dans ces domaines. La création de jeux de données 3D de haute qualité et spécifiques à un domaine est cruciale pour l'affinage de grands modèles génératifs, mais le processus de filtrage et d'annotation des données reste un goulot d'étranglement majeur. Nous présentons MeshFleet, un jeu de données 3D de véhicules filtré et annoté, extrait d'Objaverse-XL, la plus vaste collection publique d'objets 3D. Notre approche propose un pipeline de filtrage automatisé des données basé sur un classifieur de qualité. Ce classifieur est entraîné sur un sous-ensemble d'Objaverse annoté manuellement, incorporant des embeddings DINOv2 et SigLIP, affinés par une analyse basée sur les légendes et une estimation de l'incertitude. Nous démontrons l'efficacité de notre méthode de filtrage à travers une analyse comparative avec des techniques basées sur les légendes et les scores esthétiques d'images, ainsi que des expériences d'affinage avec SV3D, mettant en lumière l'importance d'une sélection ciblée des données pour la modélisation générative 3D spécifique à un domaine.
La gestion de la récupération de contenu inapproprié à partir de modèles vision-langage tels que CLIP constitue une étape cruciale pour leur intégration dans des applications réelles. Les efforts actuels reposent sur des techniques de désapprentissage visant à effacer la connaissance des concepts inappropriés par le modèle. Bien qu'efficaces pour réduire les sorties indésirables, ces techniques limitent la capacité du modèle à distinguer le contenu approprié de celui qui ne l'est pas. Dans ce travail, nous proposons une approche novatrice qui passe du désapprentissage à un paradigme de prise de conscience en exploitant les propriétés hiérarchiques inhérentes à l'espace hyperbolique. Nous suggérons d'encoder le contenu approprié et inapproprié sous forme de hiérarchie d'implication, où les deux sont placés dans différentes régions de l'espace hyperbolique. Notre modèle, HySAC (Hyperbolic Safety-Aware CLIP), utilise des fonctions de perte d'implication pour modéliser les relations hiérarchiques et asymétriques entre les paires image-texte appropriées et inappropriées. Cette modélisation, inefficace dans les modèles vision-langage standards en raison de leur dépendance aux embeddings euclidiens, confère au modèle une conscience du contenu inapproprié, lui permettant de servir à la fois de classifieur multimodal pour le contenu inapproprié et de récupérateur de contenu flexible, avec la possibilité de rediriger dynamiquement les requêtes inappropriées vers des alternatives plus sûres ou de conserver la sortie originale. Des expériences approfondies montrent que notre approche améliore non seulement la reconnaissance de la sécurité, mais établit également un cadre plus adaptable et interprétable pour la modération de contenu dans les modèles vision-langage. Notre code source est disponible à l'adresse suivante : https://github.com/aimagelab/HySAC.
Avec les progrès rapides des grands modèles de langage (LLMs) et des modèles vision-langage (VLMs), des avancées significatives ont été réalisées dans le développement de systèmes de manipulation robotique à vocabulaire ouvert. Cependant, de nombreuses approches existantes négligent l'importance de la dynamique des objets, limitant ainsi leur applicabilité à des tâches plus complexes et dynamiques. Dans ce travail, nous présentons KUDA, un système de manipulation à vocabulaire ouvert qui intègre l'apprentissage de la dynamique et l'invite visuelle par le biais de points clés, en exploitant à la fois les VLMs et des modèles de dynamique neuronaux basés sur l'apprentissage. Notre idée clé est qu'une spécification de cible basée sur des points clés est à la fois interprétable par les VLMs et peut être efficacement traduite en fonctions de coût pour la planification basée sur des modèles. Étant donné des instructions linguistiques et des observations visuelles, KUDA attribue d'abord des points clés à l'image RVB et interroge le VLM pour générer des spécifications de cible. Ces représentations abstraites basées sur des points clés sont ensuite converties en fonctions de coût, qui sont optimisées à l'aide d'un modèle de dynamique appris pour produire des trajectoires robotiques. Nous évaluons KUDA sur une gamme de tâches de manipulation, incluant des instructions linguistiques libres sur diverses catégories d'objets, des interactions multi-objets, et des objets déformables ou granulaires, démontrant ainsi l'efficacité de notre cadre. La page du projet est disponible à l'adresse http://kuda-dynamics.github.io.
La perception collaborative en bord de route fait référence à un système où plusieurs unités en bord de route collaborent pour mutualiser leurs données perceptuelles, aidant ainsi les véhicules à améliorer leur conscience environnementale. Les méthodes existantes de perception en bord de route se concentrent sur la conception de modèles mais négligent les problèmes liés aux données, tels que les erreurs de calibration, les informations éparses et la cohérence multi-vues, ce qui entraîne de mauvaises performances sur les ensembles de données récemment publiés. Pour améliorer significativement la perception collaborative en bord de route et résoudre ces problèmes critiques liés aux données, nous présentons le premier cadre de simulation RoCo-Sim dédié à la perception collaborative en bord de route. RoCo-Sim est capable de générer des données simulées en bord de route diversifiées et cohérentes en multi-vues grâce à l'édition dynamique du premier plan et au transfert de style de scène complète à partir d'une seule image. RoCo-Sim se compose de quatre éléments : (1) L'Optimisation des Extrinsèques de Caméra assure une projection 3D vers 2D précise pour les caméras en bord de route ; (2) Un nouvel Échantillonneur Conscient des Occlusions Multi-Vues (MOAS) détermine le placement de divers actifs numériques dans l'espace 3D ; (3) DepthSAM modélise de manière innovante les relations premier plan-arrière-plan à partir d'images fixes à vue unique, garantissant la cohérence multi-vues du premier plan ; et (4) Une Boîte à Outils de Post-Traitement Évolutive génère des scènes plus réalistes et enrichies grâce au transfert de style et à d'autres améliorations. RoCo-Sim améliore significativement la détection d'objets 3D en bord de route, surpassant les méthodes SOTA de 83,74 sur Rcooper-Intersection et de 83,12 sur TUMTraf-V2X pour AP70. RoCo-Sim comble une lacune critique dans la simulation de perception en bord de route. Le code et les modèles pré-entraînés seront bientôt disponibles : https://github.com/duyuwen-duen/RoCo-Sim
La conduite autonome coopérative véhicule-à-véhicule (V2V) offre un potentiel considérable pour améliorer la sécurité en traitant les incertitudes de perception et de prédiction inhérentes aux systèmes mono-agents. Cependant, les méthodes coopératives traditionnelles sont limitées par des protocoles de collaboration rigides et une généralisation insuffisante face à des scénarios interactifs inédits. Bien que les approches basées sur les modèles de langage (LLM) offrent des capacités de raisonnement généralisées, leurs difficultés en planification spatiale et leur latence d'inférence instable entravent leur application directe à la conduite coopérative. Pour surmonter ces limites, nous proposons CoLMDriver, le premier système de conduite coopérative basé sur LLM couvrant l'ensemble du pipeline, permettant une négociation efficace basée sur le langage et un contrôle de conduite en temps réel. CoLMDriver intègre un pipeline de conduite parallèle avec deux composants clés : (i) un module de négociation basé sur LLM sous un paradigme acteur-critique, qui affine continuellement les politiques de coopération grâce aux retours des décisions précédentes de tous les véhicules ; et (ii) un générateur de points de passage guidé par les intentions, qui traduit les résultats de la négociation en points de passage exécutables. De plus, nous présentons InterDrive, un benchmark de simulation basé sur CARLA comprenant 10 scénarios de conduite interactive complexes pour évaluer la coopération V2V. Les résultats expérimentaux montrent que CoLMDriver surpasse significativement les approches existantes, atteignant un taux de réussite 11 % plus élevé dans divers scénarios de conduite V2V hautement interactifs. Le code sera disponible sur https://github.com/cxliu0314/CoLMDriver.