Articles de recherche en IA sélectionnés quotidiennement avec traductions
Dans ce rapport, nous présentons Qwen2.5, une série complète de grands modèles de langage (LLM) conçue pour répondre à des besoins divers. Comparé aux itérations précédentes, Qwen 2.5 a été considérablement amélioré à la fois lors des étapes de pré-entraînement et de post-entraînement. En ce qui concerne le pré-entraînement, nous avons étendu les ensembles de données de pré-entraînement de haute qualité passant de 7 billions de jetons précédents à 18 billions de jetons. Cela fournit une base solide pour le bon sens, les connaissances d'experts et les capacités de raisonnement. En ce qui concerne le post-entraînement, nous mettons en œuvre un finetuning supervisé complexe avec plus de 1 million d'échantillons, ainsi que de l'apprentissage par renforcement multi-étapes. Les techniques de post-entraînement améliorent la préférence humaine et améliorent notablement la génération de longs textes, l'analyse de données structurales et le suivi des instructions. Pour gérer efficacement des cas d'utilisation divers et variés, nous présentons la série Qwen2.5 LLM dans des tailles variées. Les offres open-weight comprennent des modèles de base et des modèles adaptés aux instructions, avec des versions quantifiées disponibles. De plus, pour les solutions hébergées, les modèles propriétaires comprennent actuellement deux variantes de mélange d'experts (MoE) : Qwen2.5-Turbo et Qwen2.5-Plus, tous deux disponibles sur Alibaba Cloud Model Studio. Qwen2.5 a démontré des performances de premier ordre sur un large éventail de benchmarks évaluant la compréhension du langage, le raisonnement, les mathématiques, le codage, l'alignement des préférences humaines, etc. Plus précisément, le modèle open-weight phare Qwen2.5-72B-Instruct surpasse un certain nombre de modèles open-source et propriétaires et affiche des performances compétitives par rapport au modèle open-weight de pointe, Llama-3-405B-Instruct, qui est environ 5 fois plus grand. Qwen2.5-Turbo et Qwen2.5-Plus offrent une rentabilité supérieure tout en étant compétitifs par rapport à GPT-4o-mini et GPT-4o respectivement. De plus, en tant que base, les modèles Qwen2.5 ont été essentiels pour former des modèles spécialisés tels que Qwen2.5-Math, Qwen2.5-Coder, QwQ et des modèles multimodaux.
Les tâches de raisonnement multimodal en plusieurs étapes posent des défis significatifs pour les grands modèles de langage multimodal (MLLM), et trouver des moyens efficaces d'améliorer leurs performances dans de tels scénarios reste une question non résolue. Dans cet article, nous proposons AR-MCTS, un cadre universel conçu pour améliorer progressivement les capacités de raisonnement des MLLMs grâce à la Récupération Active (AR) et à la Recherche d'Arbre de Monte Carlo (MCTS). Notre approche commence par le développement d'un module de recherche unifié qui extrait des informations clés de soutien pour résoudre des problèmes de raisonnement complexes à partir d'un corpus de recherche multimodal hybride. Pour combler le fossé dans la vérification automatisée du raisonnement multimodal, nous utilisons l'algorithme MCTS combiné à un mécanisme de récupération active, ce qui permet la génération automatique d'annotations étape par étape. Cette stratégie extrait dynamiquement des informations clés pour chaque étape de raisonnement, allant au-delà de l'échantillonnage traditionnel par recherche en faisceau pour améliorer la diversité et la fiabilité de l'espace de raisonnement. De plus, nous introduisons un modèle de récompense de processus qui s'aligne progressivement pour soutenir la vérification automatique des tâches de raisonnement multimodal. Les résultats expérimentaux sur trois benchmarks de raisonnement multimodal complexes confirment l'efficacité du cadre AR-MCTS dans l'amélioration des performances de divers modèles multimodaux. Une analyse supplémentaire démontre que AR-MCTS peut optimiser la diversité et la précision de l'échantillonnage, produisant un raisonnement multimodal fiable.
Malgré la demande croissante en récupération multimodale, les progrès dans ce domaine restent fortement limités par un manque de données d'entraînement. Dans cet article, nous présentons MegaPairs, une nouvelle méthode de synthèse de données qui exploite les modèles de vision langage (VLM) et les images en domaine ouvert, ainsi qu'un ensemble de données synthétiques massif généré à partir de cette méthode. Notre analyse empirique montre que MegaPairs génère des données de haute qualité, permettant au récupérateur multimodal de surpasser significativement le modèle de base entraîné sur 70 fois plus de données provenant des ensembles de données existants. De plus, étant donné que MegaPairs repose uniquement sur des corpus d'images généraux et des VLM open-source, il peut être facilement mis à l'échelle, permettant des améliorations continues des performances de récupération. À ce stade, nous avons produit plus de 26 millions d'instances d'entraînement et entraîné plusieurs modèles de tailles variées à l'aide de ces données. Ces nouveaux modèles atteignent des performances de pointe en zéro-shot sur 4 benchmarks populaires de recherche d'images composées (CIR) et la meilleure performance globale sur les 36 ensembles de données fournis par MMEB. Ils démontrent également des améliorations de performance notables avec un ajustement fin supplémentaire. Notre ensemble de données produit, nos modèles bien entraînés et notre pipeline de synthèse de données seront rendus publics pour faciliter le développement futur de ce domaine.
L'effondrement du modèle dans les données synthétiques indique qu'un entraînement itératif sur des données auto-générées entraîne un déclin progressif des performances. Avec la prolifération des modèles d'IA, les données synthétiques remodeleront fondamentalement l'écosystème des données web. Les futurs modèles GPT-{n} seront inévitablement entraînés sur un mélange de données synthétiques et humaines. Dans cet article, nous nous concentrons sur deux questions : quel est l'impact des données synthétiques sur l'entraînement des modèles de langage, et comment synthétiser des données sans effondrement du modèle ? Nous pré-entraînons d'abord des modèles de langage sur différentes proportions de données synthétiques, révélant une corrélation négative entre la proportion de données synthétiques et les performances du modèle. Nous menons ensuite une analyse statistique sur les données synthétiques pour mettre en lumière le phénomène de décalage distributionnel et la sur-concentration des caractéristiques n-grammes. Inspirés par les résultats ci-dessus, nous proposons une édition de jetons sur les données produites par l'homme pour obtenir des données semi-synthétiques. À titre de preuve de concept, nous démontrons théoriquement que l'édition au niveau du jeton peut prévenir l'effondrement du modèle, car l'erreur de test est limitée par une borne supérieure finie. Nous menons des expériences approfondies sur le pré-entraînement à partir de zéro, le pré-entraînement continu et le fine-tuning supervisé. Les résultats valident notre preuve théorique selon laquelle l'édition au niveau du jeton améliore la qualité des données et renforce les performances du modèle.
Cet article présente LongBench v2, un banc d'essai conçu pour évaluer la capacité des LLM à traiter des problèmes de long contexte nécessitant une compréhension approfondie et un raisonnement à travers des tâches multiples du monde réel. LongBench v2 se compose de 503 questions à choix multiples exigeantes, avec des contextes allant de 8k à 2M mots, réparties en six grandes catégories de tâches : questions-réponses sur un seul document, questions-réponses sur plusieurs documents, apprentissage de long contexte, compréhension de l'historique de dialogues longs, compréhension de dépôts de code et compréhension de données structurées longues. Pour garantir l'étendue et la praticité, nous collectons des données auprès de près de 100 individus hautement éduqués avec des parcours professionnels diversifiés. Nous utilisons à la fois des processus d'examen automatisés et manuels pour maintenir une qualité et une difficulté élevées, ce qui se traduit par des experts humains n'atteignant qu'une précision de 53,7 % sous contrainte de temps de 15 minutes. Notre évaluation révèle que le modèle le plus performant, lorsqu'il répond directement aux questions, n'atteint qu'une précision de 50,1 %. En revanche, le modèle o1-preview, qui inclut un raisonnement plus long, atteint 57,7 %, dépassant la référence humaine de 4 %. Ces résultats soulignent l'importance d'une capacité de raisonnement améliorée et de l'adaptation du calcul au temps d'inférence pour relever les défis de long contexte de LongBench v2. Le projet est disponible sur https://longbench2.github.io.
Les modèles de diffusion, et leur généralisation, l'appariement de flux, ont eu un impact remarquable sur le domaine de la génération de médias. Ici, l'approche conventionnelle consiste à apprendre la cartographie complexe d'une distribution source simple de bruit gaussien vers la distribution cible des médias. Pour les tâches cross-modales telles que la génération de texte en image, cette même cartographie du bruit vers l'image est apprise en incluant un mécanisme de conditionnement dans le modèle. Une caractéristique clé et jusqu'à présent relativement peu explorée de l'appariement de flux est que, contrairement aux modèles de diffusion, ils ne sont pas contraints à ce que la distribution source soit du bruit. Ainsi, dans cet article, nous proposons un changement de paradigme, et nous posons la question de savoir si nous pouvons plutôt entraîner des modèles d'appariement de flux à apprendre une cartographie directe de la distribution d'une modalité vers la distribution d'une autre, éliminant ainsi le besoin à la fois de la distribution de bruit et du mécanisme de conditionnement. Nous présentons un cadre général et simple, CrossFlow, pour l'appariement de flux cross-modal. Nous montrons l'importance d'appliquer des codeurs variationnels aux données d'entrée, et introduisons une méthode permettant de guider sans classificateur. Étonnamment, pour le texte en image, CrossFlow avec un transformateur vanille sans attention croisée surpasse légèrement l'appariement de flux standard, et nous montrons qu'il s'échelonne mieux avec les étapes d'entraînement et la taille du modèle, tout en permettant également des calculs latents intéressants qui se traduisent par des modifications sémantiquement significatives dans l'espace de sortie. Pour démontrer la généralisabilité de notre approche, nous montrons également que CrossFlow est à la hauteur ou surpasse l'état de l'art pour diverses tâches de cartographie cross-modale / intra-modale, à savoir le sous-titrage d'images, l'estimation de profondeur et la super-résolution d'images. Nous espérons que cet article contribuera à accélérer les progrès dans la génération de médias cross-modaux.
La nature intuitive de l'interaction basée sur le glisser a conduit à son adoption croissante pour contrôler les trajectoires d'objets dans la synthèse d'images en vidéo. Cependant, les méthodes existantes qui effectuent un glissement dans l'espace 2D font généralement face à des ambiguïtés lors de la gestion des mouvements hors plan. Dans ce travail, nous enrichissons l'interaction avec une nouvelle dimension, c'est-à-dire la dimension de profondeur, permettant aux utilisateurs d'attribuer une profondeur relative à chaque point de la trajectoire. De cette manière, notre nouveau paradigme d'interaction hérite non seulement de la commodité du glissement en 2D, mais facilite le contrôle des trajectoires dans l'espace 3D, élargissant ainsi le champ de la créativité. Nous proposons une méthode novatrice de contrôle de trajectoire en 3D dans la synthèse d'images en vidéo en abstrayant les masques d'objets en quelques points de cluster. Ces points, accompagnés des informations de profondeur et d'instance, sont finalement introduits dans un modèle de diffusion vidéo en tant que signal de contrôle. Des expériences approfondies valident l'efficacité de notre approche, baptisée LeviTor, pour manipuler précisément les mouvements d'objets lors de la production de vidéos photoréalistes à partir d'images statiques. Page du projet : https://ppetrichor.github.io/levitor.github.io/
En tant qu'opération courante d'édition d'images, la composition d'images implique l'intégration d'objets en premier plan dans des scènes d'arrière-plan. Dans cet article, nous élargissons l'application du concept d'Affordance des tâches de composition d'images centrées sur l'humain à un cadre de composition objet-scène plus général, abordant l'interaction complexe entre les objets en premier plan et les scènes d'arrière-plan. Suivant le principe de l'Affordance, nous définissons la tâche d'insertion d'objet consciente de l'affordance, qui vise à insérer de manière transparente n'importe quel objet dans n'importe quelle scène avec diverses indications de position. Pour résoudre le problème de données limitées et intégrer cette tâche, nous avons construit l'ensemble de données SAM-FB, qui contient plus de 3 millions d'exemples répartis sur plus de 3 000 catégories d'objets. De plus, nous proposons le modèle de Diffusion Double Consciente des Masques (MADD), qui utilise une architecture à double flux pour débruiter simultanément l'image RVB et le masque d'insertion. En modélisant explicitement le masque d'insertion dans le processus de diffusion, MADD facilite efficacement la notion d'affordance. Des résultats expérimentaux approfondis montrent que notre méthode surpasse les méthodes de pointe et présente de solides performances de généralisation sur des images en conditions réelles. Veuillez consulter notre code sur https://github.com/KaKituken/affordance-aware-any.
Dans cet article, nous présentons AceMath, un ensemble de modèles mathématiques de pointe excellant dans la résolution de problèmes mathématiques complexes, ainsi que des modèles de récompense hautement efficaces capables d'évaluer les solutions générées et d'identifier de manière fiable les bonnes réponses. Pour développer les modèles mathématiques adaptés aux instructions, nous proposons un processus de fine-tuning supervisé (SFT) qui atteint d'abord des performances compétitives dans des domaines généraux, suivi d'un fine-tuning ciblé pour le domaine mathématique en utilisant un ensemble soigneusement sélectionné de consignes et de réponses générées de manière synthétique. Le modèle résultant, AceMath-72B-Instruct, surpasse largement Qwen2.5-Math-72B-Instruct, GPT-4o et Claude-3.5 Sonnet. Pour développer un modèle de récompense spécialisé en mathématiques, nous construisons d'abord AceMath-RewardBench, une référence complète et robuste pour évaluer les modèles de récompense mathématiques sur divers problèmes et niveaux de difficulté. Ensuite, nous présentons une approche systématique pour construire nos modèles de récompense mathématiques. Le modèle résultant, AceMath-72B-RM, surpasse de manière constante les modèles de récompense de pointe. De plus, en combinant AceMath-72B-Instruct avec AceMath-72B-RM, nous obtenons le score moyen rm@8 le plus élevé parmi les références en raisonnement mathématique. Nous publierons les poids du modèle, les données d'entraînement et les références d'évaluation sur : https://research.nvidia.com/labs/adlr/acemath
La Génération de Contenu Procédural (GCP) est puissante pour créer des contenus 3D de haute qualité, mais la contrôler pour produire des formes désirées est difficile et nécessite souvent un réglage intensif des paramètres. La Génération de Contenu Procédural Inverse vise à trouver automatiquement les meilleurs paramètres en fonction de la condition d'entrée. Cependant, les méthodes existantes basées sur l'échantillonnage et les réseaux neuronaux souffrent encore de nombreuses itérations d'échantillonnage ou d'une contrôlabilité limitée. Dans ce travail, nous présentons DI-GCP, une méthode novatrice et efficace pour la GCP Inverse à partir de conditions d'image générales. À son cœur se trouve un modèle de transformateur de diffusion léger, où les paramètres de GCP sont directement traités comme la cible de débruitage et les images observées comme des conditions pour contrôler la génération de paramètres. DI-GCP est efficace et performant. Avec seulement 7,6 millions de paramètres de réseau et 30 heures de GPU pour l'entraînement, il démontre des performances supérieures dans la récupération précise des paramètres et une bonne généralisation aux images réelles. Les résultats d'expériences quantitatives et qualitatives valident l'efficacité de DI-GCP dans les tâches de GCP inverse et de génération d'images en 3D. DI-GCP offre une approche prometteuse pour la GCP inverse efficace et représente une étape d'exploration précieuse vers un chemin de génération 3D qui modélise comment construire un actif 3D en utilisant des modèles paramétriques.
L'entraînement des grands modèles de multimodalité (LMMs) repose sur des légendes d'images descriptives qui relient l'image et le langage. Les méthodes existantes consistent soit à distiller la légende à partir des modèles LMM, soit à construire les légendes à partir d'images sur internet ou par des humains. Nous proposons de tirer parti des spécialistes visuels prêts à l'emploi, qui ont été formés à partir d'images annotées initialement non pour le sous-titrage d'images, pour améliorer la légende de l'image. Notre approche, nommée DCE, explore les attributs de bas niveau et fins des objets (par exemple, profondeur, émotion et catégories fines) et les relations entre les objets (par exemple, emplacement relatif et interaction humain-objet (HOI)), et combine les attributs dans la légende descriptive. Les expériences démontrent que de tels spécialistes visuels sont capables d'améliorer les performances pour les tâches de compréhension visuelle ainsi que le raisonnement qui bénéficie d'une compréhension visuelle plus précise. Nous publierons le code source et le pipeline afin que d'autres spécialistes visuels puissent être facilement combinés dans le pipeline. Le code source complet du pipeline DCE et des ensembles de données sera disponible sur https://github.com/syp2ysy/DCE.
Nous proposons un modèle non supervisé pour l'édition d'images basée sur des instructions qui élimine le besoin d'images éditées de référence pendant l'entraînement. Les méthodes supervisées existantes dépendent de jeux de données contenant des triplets d'image d'entrée, d'image éditée et d'instruction d'édition. Ceux-ci sont générés soit par des méthodes d'édition existantes, soit par des annotations humaines, introduisant des biais et limitant leur capacité de généralisation. Notre méthode relève ces défis en introduisant un mécanisme d'édition novateur appelé Cohérence d'Édition Cyclique (CEC), qui applique des éditions avant et arrière en une étape d'entraînement et impose une cohérence dans les espaces d'image et d'attention. Cela nous permet de contourner le besoin d'images éditées de référence et de débloquer l'entraînement pour la première fois sur des jeux de données comprenant soit des paires image-légende réelles, soit des triplets image-légende-édition. Nous montrons empiriquement que notre technique non supervisée fonctionne mieux sur une gamme plus large d'éditions avec une haute fidélité et précision. En éliminant le besoin de jeux de données préexistants de triplets, en réduisant les biais associés aux méthodes supervisées et en proposant le CEC, notre travail représente une avancée significative dans le déblocage de la mise à l'échelle de l'édition d'images basée sur des instructions.
Nous proposons AV-Link, un cadre unifié pour la génération Vidéo-vers-Audio et Audio-vers-Vidéo qui exploite les activations des modèles de diffusion vidéo et audio figés pour un conditionnement croisé temporellement aligné. La clé de notre cadre est un Bloc de Fusion qui permet un échange d'informations bidirectionnel entre nos modèles de diffusion vidéo et audio de base grâce à une opération d'auto-attention temporellement alignée. Contrairement aux travaux antérieurs qui utilisent des extracteurs de caractéristiques pré-entraînés pour d'autres tâches pour le signal de conditionnement, AV-Link peut directement exploiter les caractéristiques obtenues par la modalité complémentaire dans un cadre unique, c'est-à-dire les caractéristiques vidéo pour générer de l'audio, ou les caractéristiques audio pour générer de la vidéo. Nous évaluons en détail nos choix de conception et démontrons la capacité de notre méthode à produire un contenu audiovisuel synchronisé et de haute qualité, mettant en valeur son potentiel pour des applications dans la génération de médias immersifs. Page du projet : snap-research.github.io/AVLink/
Dans cet article, nous proposons le Benchmark de Génération de Molécules Ouvertes basé sur le Texte (TOMG-Bench), le premier benchmark pour évaluer la capacité de génération de molécules en domaine ouvert des LLMs. TOMG-Bench englobe un ensemble de données de trois tâches principales : l'édition de molécules (MolEdit), l'optimisation de molécules (MolOpt), et la génération de molécules personnalisées (MolCustom). Chaque tâche contient en outre trois sous-tâches, chacune comprenant 5 000 échantillons de test. Étant donnée la complexité inhérente de la génération de molécules ouvertes, nous avons également développé un système d'évaluation automatisé qui aide à mesurer à la fois la qualité et la précision des molécules générées. Notre évaluation complète de 25 LLMs révèle les limitations actuelles et les domaines potentiels d'amélioration dans la découverte de molécules guidée par le texte. De plus, avec l'aide d'OpenMolIns, un ensemble de données de réglage d'instructions spécialisé proposé pour résoudre les défis posés par TOMG-Bench, Llama3.1-8B a pu surpasser tous les LLMs généraux open source, dépassant même GPT-3.5-turbo de 46,5\% sur TOMG-Bench. Nos codes et ensembles de données sont disponibles sur https://github.com/phenixace/TOMG-Bench.
Des recherches récentes explorent le potentiel des Modèles de Diffusion (DM) pour l'édition cohérente d'objets, qui vise à modifier la position, la taille et la composition des objets, tout en préservant la cohérence des objets et de l'arrière-plan sans changer leur texture et leurs attributs. Les méthodes actuelles à l'instant d'inférence s'appuient souvent sur l'inversion DDIM, compromettant ainsi intrinsèquement l'efficacité et la cohérence réalisable des images modifiées. Les méthodes récentes utilisent également un guidage énergétique qui met à jour de manière itérative le bruit prédit et peut éloigner les latents de l'image d'origine, entraînant des distorsions. Dans cet article, nous proposons PixelMan, une méthode sans inversion et sans entraînement pour réaliser une édition cohérente d'objets via la Manipulation et la génération de pixels, où nous créons directement une copie dupliquée de l'objet source à l'emplacement cible dans l'espace pixel, et introduisons une approche d'échantillonnage efficace pour harmoniser de manière itérative l'objet manipulé dans l'emplacement cible et pour combler son emplacement d'origine, tout en assurant la cohérence de l'image en ancrant l'image éditée à générer à l'image manipulée par pixel ainsi qu'en introduisant diverses techniques d'optimisation préservant la cohérence pendant l'inférence. Les évaluations expérimentales basées sur des ensembles de données de référence ainsi que des comparaisons visuelles approfondies montrent que en seulement 16 étapes d'inférence, PixelMan surpasse toute une gamme de méthodes de pointe basées sur l'entraînement et sans entraînement (nécessitant généralement 50 étapes) sur de multiples tâches d'édition cohérente d'objets.
Cet article présente DateLogicQA, une référence avec 190 questions couvrant divers formats de date, contextes temporels et types de raisonnement. Nous proposons la Métrique d'Intégrité Sémantique pour évaluer la qualité de la tokenisation et analyser deux biais : le Biais au Niveau de la Représentation, affectant les plongements, et le Biais au Niveau Logique, influençant les résultats du raisonnement. Nos résultats fournissent une évaluation complète des capacités et des limitations des LLMs en matière de raisonnement temporel, mettant en évidence les principaux défis liés à la manipulation précise des données temporelles. Le référentiel GitHub de notre travail est disponible sur https://github.com/gagan3012/EAIS-Temporal-Bias.
La génération de vidéos humaines réalistes reste une tâche complexe, les méthodes les plus efficaces reposant actuellement sur une séquence de mouvements humains en tant que signal de contrôle. Les approches existantes utilisent souvent des mouvements existants extraits d'autres vidéos, ce qui limite les applications à des types de mouvements spécifiques et à une correspondance globale de scène. Nous proposons Move-in-2D, une nouvelle approche pour générer des séquences de mouvements humains conditionnées par une image de scène, permettant une diversité de mouvements qui s'adaptent à différentes scènes. Notre approche utilise un modèle de diffusion qui accepte à la fois une image de scène et une instruction textuelle en entrée, produisant une séquence de mouvements adaptée à la scène. Pour entraîner ce modèle, nous collectons un ensemble de données vidéo à grande échelle présentant des activités humaines uniques, en annotant chaque vidéo avec le mouvement humain correspondant comme sortie cible. Les expériences démontrent que notre méthode prédit efficacement un mouvement humain qui s'aligne avec l'image de la scène après projection. De plus, nous montrons que la séquence de mouvements générée améliore la qualité des mouvements humains dans les tâches de synthèse vidéo.