Articles de recherche en IA sélectionnés quotidiennement avec traductions
La percée d'OpenAI o1 met en lumière le potentiel d'améliorer le raisonnement pour améliorer les LLM. Cependant, la plupart des recherches en raisonnement se sont concentrées sur des tâches mathématiques, laissant des domaines tels que la médecine sous-explorés. Le domaine médical, bien qu'étant distinct des mathématiques, exige également un raisonnement robuste pour fournir des réponses fiables, compte tenu des normes élevées des soins de santé. Cependant, la vérification du raisonnement médical est difficile, contrairement à celle des mathématiques. Pour remédier à cela, nous proposons des problèmes médicaux vérifiables avec un vérificateur médical pour vérifier la justesse des sorties du modèle. Cette nature vérifiable permet des avancées dans le raisonnement médical grâce à une approche en deux étapes : (1) utiliser le vérificateur pour guider la recherche d'une trajectoire de raisonnement complexe pour affiner les LLM, (2) appliquer l'apprentissage par renforcement (RL) avec des récompenses basées sur le vérificateur pour améliorer davantage le raisonnement complexe. Enfin, nous présentons HuatuoGPT-o1, un LLM médical capable de raisonnement complexe, qui surpasse les références générales et spécifiques à la médecine en n'utilisant que 40 000 problèmes vérifiables. Les expériences montrent que le raisonnement complexe améliore la résolution de problèmes médicaux et bénéficie davantage de l'apprentissage par renforcement. Nous espérons que notre approche inspirera des avancées dans le raisonnement à travers les domaines médicaux et autres spécialisés.
Nous présentons FLUX à 1,58 bits, la première approche réussie pour quantifier le modèle de génération de texte en image de pointe, FLUX.1-dev, en utilisant des poids à 1,58 bits (c'est-à-dire des valeurs dans {-1, 0, +1}) tout en maintenant des performances comparables pour la génération d'images de 1024 x 1024. Notablement, notre méthode de quantification fonctionne sans accès aux données d'image, reposant uniquement sur l'auto-supervision du modèle FLUX.1-dev. De plus, nous développons un noyau personnalisé optimisé pour des opérations à 1,58 bits, atteignant une réduction de 7,7 fois du stockage du modèle, une réduction de 5,1 fois de la mémoire d'inférence et une amélioration de la latence d'inférence. Des évaluations approfondies sur les bancs d'essai GenEval et T2I Compbench démontrent l'efficacité de FLUX à 1,58 bits pour maintenir la qualité de génération tout en améliorant significativement l'efficacité computationnelle.
En s'appuyant sur les fondements de la modélisation linguistique en traitement automatique du langage naturel, la Prédiction du Prochain Token (PPT) a évolué en un objectif d'entraînement polyvalent pour les tâches d'apprentissage automatique à travers diverses modalités, atteignant un succès considérable. Alors que les Grands Modèles de Langage (GML) ont progressé pour unifier les tâches de compréhension et de génération au sein de la modalité textuelle, des recherches récentes ont montré que des tâches de différentes modalités peuvent également être efficacement encapsulées dans le cadre de la PPT, transformant les informations multimodales en tokens et prédisant le suivant en fonction du contexte. Cette étude présente une taxonomie complète qui unifie à la fois la compréhension et la génération au sein de l'apprentissage multimodal à travers le prisme de la PPT. La taxonomie proposée couvre cinq aspects clés : la tokenisation multimodale, les architectures de modèles MMNTP, la représentation unifiée des tâches, les ensembles de données et l'évaluation, ainsi que les défis ouverts. Cette nouvelle taxonomie vise à aider les chercheurs dans leur exploration de l'intelligence multimodale. Un dépôt GitHub associé collectant les derniers articles et dépôts est disponible sur https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction
L'orientation est un attribut clé des objets, crucial pour comprendre leur position spatiale et leur disposition dans les images. Cependant, les solutions pratiques pour estimer précisément l'orientation à partir d'une seule image restent peu explorées. Dans ce travail, nous introduisons Orient Anything, le premier modèle expert et fondamental conçu pour estimer l'orientation des objets dans une image unique et libre. En raison de la rareté des données étiquetées, nous proposons d'extraire des connaissances du monde en 3D. En développant un pipeline pour annoter le visage avant des objets en 3D et générer des images à partir de vues aléatoires, nous collectons 2 millions d'images avec des annotations d'orientation précises. Pour exploiter pleinement l'ensemble de données, nous concevons un objectif d'entraînement robuste qui modélise l'orientation en 3D sous forme de distributions de probabilités de trois angles et prédit l'orientation de l'objet en ajustant ces distributions. De plus, nous utilisons plusieurs stratégies pour améliorer le transfert du synthétique au réel. Notre modèle atteint une précision d'estimation d'orientation de pointe à la fois dans les images rendues et réelles et présente une capacité impressionnante de zéro-shot dans divers scénarios. Plus important encore, notre modèle améliore de nombreuses applications, telles que la compréhension et la génération de concepts spatiaux complexes et l'ajustement de la pose d'objets en 3D.
Les modèles de langage multimodaux larges actuels (MLLM) rencontrent des difficultés dans la compréhension fine ou précise des éléments visuels, bien qu'ils offrent une perception et un raisonnement complets dans un éventail d'applications visuelles. Les études récentes développent soit des outils spécifiques, soit unifient des tâches visuelles particulières dans le cadre autorégressif, souvent au détriment des performances multimodales globales. Pour résoudre ce problème et améliorer les MLLM avec des tâches visuelles de manière évolutive, nous proposons l'Optimisation des Préférences de Tâches (TPO), une méthode novatrice qui utilise des préférences de tâches différenciables dérivées de tâches visuelles typiques fines. TPO introduit des jetons de tâche apprenants qui établissent des connexions entre plusieurs têtes spécifiques de tâches et le MLLM. En exploitant des libellés visuels riches lors de l'entraînement, TPO améliore significativement les capacités multimodales du MLLM et les performances spécifiques aux tâches. Grâce à l'entraînement multitâche au sein de TPO, nous observons des avantages synergiques qui élèvent les performances des tâches individuelles au-delà de ce qui est réalisable avec des méthodologies d'entraînement mono-tâche. Notre mise en œuvre de cette approche avec VideoChat et LLaVA démontre une amélioration globale de 14,6 % des performances multimodales par rapport aux modèles de référence. De plus, le MLLM-TPO présente des capacités robustes de zéro-shot sur diverses tâches, se comportant de manière comparable aux modèles supervisés de pointe. Le code sera publié sur https://github.com/OpenGVLab/TPO
Dans ce travail, nous étudions la composition automatique de designs à partir d'éléments graphiques multimodaux. Bien que des études récentes aient développé divers modèles génératifs pour le design graphique, ils font généralement face aux limitations suivantes : ils se concentrent uniquement sur certains sous-tâches et sont loin d'atteindre la tâche de composition de design ; ils ne prennent pas en compte l'information hiérarchique des designs graphiques lors du processus de génération. Pour résoudre ces problèmes, nous introduisons le principe de conception en couches dans les Grands Modèles Multimodaux (LMMs) et proposons une approche novatrice, appelée LaDeCo, pour accomplir cette tâche difficile. Plus précisément, LaDeCo effectue d'abord une planification en couches pour un ensemble d'éléments donné, en divisant les éléments d'entrée en différentes couches sémantiques selon leur contenu. Sur la base des résultats de la planification, il prédit ensuite les attributs des éléments qui contrôlent la composition du design de manière couche par couche, et inclut l'image rendue des couches précédemment générées dans le contexte. Avec cette conception perspicace, LaDeCo décompose la tâche difficile en étapes plus petites et gérables, rendant le processus de génération plus fluide et plus clair. Les résultats expérimentaux démontrent l'efficacité de LaDeCo dans la composition de design. De plus, nous montrons que LaDeCo permet certaines applications intéressantes en design graphique, telles que l'ajustement de la résolution, le remplissage d'éléments, la variation de design, etc. De plus, il surpasse même les modèles spécialisés dans certaines sous-tâches de design sans aucun entraînement spécifique à la tâche.
La génération personnalisée de vidéos sans apprentissage préalable a suscité un intérêt considérable en raison de son potentiel d'application substantiel. Les méthodes existantes reposent sur des modèles supplémentaires pour extraire et injecter les caractéristiques du sujet de référence, en supposant que le Modèle de Diffusion Vidéo (MDV) seul est insuffisant pour la génération personnalisée de vidéos sans apprentissage préalable. Cependant, ces méthodes ont souvent du mal à maintenir une apparence de sujet cohérente en raison de techniques d'extraction et d'injection de caractéristiques sous-optimales. Dans cet article, nous révélons que le MDV possède intrinsèquement la capacité d'extraire et d'injecter des caractéristiques du sujet. En nous éloignant des approches heuristiques précédentes, nous introduisons un nouveau cadre qui exploite la capacité intrinsèque du MDV pour permettre une génération de vidéos personnalisées sans apprentissage préalable de haute qualité. Plus précisément, pour l'extraction de caractéristiques, nous introduisons directement des images de référence dans le MDV et utilisons son processus d'extraction de caractéristiques intrinsèque, qui fournit non seulement des caractéristiques détaillées mais s'aligne également significativement avec les connaissances préalablement acquises du MDV. Pour l'injection de caractéristiques, nous concevons une interaction bidirectionnelle innovante entre les caractéristiques du sujet et le contenu généré grâce à une auto-attention spatiale au sein du MDV, garantissant que le MDV a une meilleure fidélité au sujet tout en maintenant la diversité de la vidéo générée. Des expériences menées sur la génération de vidéos personnalisées humaines et d'objets valident l'efficacité de notre cadre.
L'explosion cambrienne des modèles de diffusion pré-entraînés facilement accessibles suggère une demande de méthodes combinant plusieurs modèles de diffusion pré-entraînés différents sans supporter la charge computationnelle significative de ré-entraîner un modèle combiné plus grand. Dans cet article, nous formulons le problème de combiner plusieurs modèles de diffusion pré-entraînés à l'étape de génération sous un nouveau cadre proposé appelé superposition. Théoriquement, nous dérivons la superposition de premiers principes rigoureux découlant de l'équation de continuité célèbre et concevons deux nouveaux algorithmes sur mesure pour combiner des modèles de diffusion dans SuperDiff. SuperDiff tire parti d'un nouvel estimateur d'intensité Itô scalable pour la log-vraisemblance de l'EDS de diffusion qui n'entraîne aucun surcoût supplémentaire par rapport à l'estimateur bien connu de Hutchinson nécessaire pour les calculs de divergence. Nous démontrons que SuperDiff est scalable pour de grands modèles de diffusion pré-entraînés car la superposition est effectuée uniquement par composition lors de l'inférence, et bénéficie également d'une implémentation sans douleur car elle combine différents champs vectoriels pré-entraînés grâce à un schéma de réaffectation automatisé. Notamment, nous montrons que SuperDiff est efficace pendant le temps d'inférence, et imite des opérateurs de composition traditionnels tels que le OU logique et le ET logique. Nous démontrons empiriquement l'utilité de l'utilisation de SuperDiff pour générer des images plus diverses sur CIFAR-10, une édition d'image conditionnée par prompt plus fidèle en utilisant Stable Diffusion, et une conception améliorée de structures de protéines de novo inconditionnelles. https://github.com/necludov/super-diffusion
L'ajustement fin des grands modèles de langage (GML) pour des tâches ultérieures est une approche largement adoptée, mais elle conduit souvent à une dégradation de la sécurité des GML alignés sur la sécurité. Actuellement, de nombreuses solutions abordent ce problème en incorporant des données de sécurité supplémentaires, ce qui peut être impraticable dans de nombreux cas. Dans cet article, nous abordons la question suivante : Comment pouvons-nous améliorer les performances des tâches ultérieures tout en préservant la sécurité dans les GML sans recourir à des données de sécurité supplémentaires ? Nous proposons une méthode simple et efficace qui maintient la sécurité inhérente des GML tout en améliorant leurs performances pour les tâches ultérieures : fusionner les poids des modèles alignés sur la sécurité pré- et post-ajustement fin. Les résultats expérimentaux sur diverses tâches ultérieures, modèles et méthodes de fusion démontrent que cette approche atténue efficacement la dégradation de la sécurité tout en améliorant les performances des tâches ultérieures, offrant ainsi une solution pratique pour l'adaptation des GML alignés sur la sécurité.
L'extraction de données à partir de graphes est cruciale pour enrichir les grands modèles de langage (LLM) avec des connaissances à la fois en domaine ouvert et en données d'entreprise privées, et c'est également un composant clé du récent système GraphRAG (edge et al., 2024). Malgré des décennies de recherche sur les graphes de connaissances et les réponses aux questions des bases de connaissances, les principaux cadres LLM (par exemple Langchain et LlamaIndex) offrent un soutien minimal à l'extraction des connaissances des graphes de connaissances encyclopédiques modernes comme Wikidata. Dans cet article, nous analysons la cause profonde et suggérons que les graphes de connaissances RDF modernes (par exemple Wikidata, Freebase) sont moins efficaces pour les LLM en raison de schémas excessivement grands qui dépassent largement la fenêtre contextuelle typique des LLM, de l'utilisation d'identifiants de ressources, de types de relations superposés et du manque de normalisation. En tant que solution, nous proposons des vues de graphes de propriétés sur le dessus du graphe RDF sous-jacent qui peuvent être interrogées efficacement par les LLM en utilisant Cypher. Nous avons concrétisé cette idée sur Wikidata et introduit CypherBench, le premier banc d'essai avec 11 graphes de propriétés à grande échelle et multi-domaines comprenant 7,8 millions d'entités et plus de 10 000 questions. Pour y parvenir, nous avons relevé plusieurs défis clés, notamment le développement d'un moteur de conversion RDF en graphe de propriétés, la création d'un pipeline systématique pour la génération de tâches texte-Cypher, et la conception de nouvelles mesures d'évaluation.
La création d'un ensemble de données de questions-réponses sur les figures à grande échelle nécessite une quantité considérable de travail, de la collecte et de la sélection des figures à l'extraction des attributs tels que le texte, les chiffres et les couleurs, en passant par la génération de questions-réponses. Bien que les récents développements dans les LLM aient conduit à des efforts pour synthétiser des figures, la plupart se concentrent principalement sur la génération de questions-réponses. De plus, la création de figures directement à l'aide des LLM rencontre souvent des problèmes tels que des erreurs de code, des figures se ressemblant et un contenu répétitif dans les figures. Pour résoudre ce problème, nous présentons SBSFigures (Figures Synthétiques Étape par Étape), un ensemble de données pour la pré-formation aux questions-réponses sur les figures. Notre pipeline proposé permet la création de figures graphiques avec des annotations complètes des données visualisées et des annotations denses de questions-réponses sans aucun processus d'annotation manuelle. Notre pipeline étape par étape rend possible la création efficace de figures sur des sujets et des apparences diversifiés tout en minimisant les erreurs de code. Nos SBSFigures démontrent un fort effet de pré-formation, permettant d'obtenir un entraînement efficace avec une quantité limitée de données de graphiques du monde réel à partir de nos poids pré-entraînés.