Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le pré-entraînement contrastif texte-image (CLIP) est largement utilisé pour entraîner des modèles à aligner des images et des textes dans un espace d'embedding commun en les projetant sur des vecteurs de taille fixe. Ces modèles sont essentiels pour la recherche d'information multimodale et les tâches associées. Cependant, les modèles CLIP obtiennent généralement des performances inférieures dans les tâches textuelles pures par rapport aux modèles spécialisés en texte. Cela engendre des inefficacités pour les systèmes de recherche d'information qui maintiennent des embeddings et des modèles distincts pour les tâches textuelles pures et multimodales. Nous proposons une nouvelle méthode d'entraînement contrastif multi-tâches pour résoudre ce problème, que nous utilisons pour entraîner le modèle jina-clip-v1 afin d'atteindre des performances de pointe à la fois dans les tâches de recherche texte-image et texte-texte.
Ces dernières années, les grands modèles de langage (LLMs) ont réalisé des avancées remarquables dans divers domaines. Cependant, le manque de réactivité et le coût des mises à jour des connaissances, ainsi que les problèmes d'hallucination des LLMs, ont limité leurs applications dans les tâches nécessitant une expertise approfondie, où la génération augmentée par recherche (RAG) peut s'avérer utile. Néanmoins, les modèles existants augmentés par recherche utilisent généralement la similarité comme pont entre les requêtes et les documents, suivant une procédure de recherche puis lecture. Dans ce travail, nous soutenons que la similarité n'est pas toujours la panacée et qu'un recours exclusif à celle-ci peut parfois dégrader les performances de la génération augmentée par recherche. À cette fin, nous proposons MetRag, un cadre de génération augmentée par recherche amélioré par des pensées multicouches. Pour commencer, au-delà de la pensée orientée similarité existante, nous intégrons un modèle utilitaire à petite échelle qui s'inspire de la supervision d'un LLM pour une pensée orientée utilité, et nous développons un modèle plus intelligent en combinant de manière exhaustive les pensées orientées similarité et utilité. En outre, étant donné que l'ensemble des documents récupérés a tendance à être volumineux et que leur utilisation isolée rend difficile la capture des points communs et des caractéristiques qui les distinguent, nous proposons de faire d'un LLM un résumé adaptatif pour doter la génération augmentée par recherche d'une pensée orientée compacité. Enfin, avec les pensées multicouches issues des étapes précédentes, un LLM est sollicité pour la génération augmentée par connaissances. Des expériences approfondies sur des tâches nécessitant une expertise approfondie ont démontré la supériorité de MetRag.
Cette étude explore le domaine de la compréhension du comportement humain multimodal (c'est-à-dire les modalités vidéo et mouvement) en exploitant les capacités puissantes des modèles de langage à grande échelle (LLMs). Contrairement aux récents LLMs conçus pour la compréhension de la vidéo ou du mouvement uniquement, nous soutenons que la compréhension du comportement humain nécessite une modélisation conjointe à partir des vidéos et des séquences de mouvement (par exemple, les séquences SMPL) pour capturer efficacement la dynamique et la sémantique nuancées des parties du corps. Dans cette optique, nous présentons MotionLLM, un cadre simple mais efficace pour la compréhension, la description et le raisonnement sur le mouvement humain. Plus précisément, MotionLLM adopte une stratégie d'entraînement unifiée vidéo-mouvement qui tire parti des avantages complémentaires des données existantes de type vidéo-texte grossières et des données de type mouvement-texte fines pour obtenir des insights spatio-temporels riches. En outre, nous avons collecté un ensemble de données substantiel, MoVid, comprenant des vidéos, des mouvements, des descriptions et des instructions variés. De plus, nous proposons le MoVid-Bench, avec des annotations manuelles soignées, pour une meilleure évaluation de la compréhension du comportement humain sur la vidéo et le mouvement. Des expériences approfondies montrent la supériorité de MotionLLM en termes de description, de compréhension spatio-temporelle et de capacité de raisonnement.
Dans ce travail, nous présentons Xwin-LM, une suite complète de méthodologies d'alignement pour les grands modèles de langage (LLM). Cette suite englobe plusieurs techniques clés, notamment le fine-tuning supervisé (SFT), la modélisation de récompense (RM), le fine-tuning par échantillonnage de rejet (RS) et l'optimisation directe des préférences (DPO). Les composants principaux sont les suivants : (1) Xwin-LM-SFT, des modèles initialement fine-tunés avec des données d'instruction de haute qualité ; (2) Xwin-Pair, un ensemble de données de préférences multi-tours à grande soigneusement annoté à l'aide de GPT-4 ; (3) Xwin-RM, des modèles de récompense entraînés sur Xwin-Pair, développés à des échelles de 7B, 13B et 70B paramètres ; (4) Xwin-Set, un ensemble de données de préférences multiples dans lequel chaque prompt est lié à 64 réponses uniques générées par Xwin-LM-SFT et notées par Xwin-RM ; (5) Xwin-LM-RS, des modèles fine-tunés avec les réponses les mieux notées de Xwin-Set ; (6) Xwin-LM-DPO, des modèles optimisés davantage sur Xwin-Set en utilisant l'algorithme DPO. Nos évaluations sur AlpacaEval et MT-bench montrent des améliorations constantes et significatives tout au long du pipeline, démontrant la puissance et l'évolutivité de Xwin-LM. Le dépôt https://github.com/Xwin-LM/Xwin-LM sera continuellement mis à jour pour favoriser la recherche communautaire.
Les méthodes de génération musicale contrôlable sont essentielles pour la création musicale basée sur l'IA centrée sur l'humain, mais elles sont actuellement limitées par des compromis entre vitesse, qualité et conception du contrôle. L'optimisation T au moment de l'inférence par diffusion (DITTO), en particulier, offre des résultats de pointe, mais est plus de 10 fois plus lente que le temps réel, limitant son utilisation pratique. Nous proposons l'optimisation T au moment de l'inférence par diffusion distillée (ou DITTO-2), une nouvelle méthode pour accélérer le contrôle basé sur l'optimisation au moment de l'inférence et permettre une génération plus rapide que le temps réel pour une grande variété d'applications telles que l'inpainting musical, l'outpainting, l'intensité, la mélodie et le contrôle de la structure musicale. Notre méthode fonctionne en (1) distillant un modèle de diffusion pré-entraîné pour un échantillonnage rapide via un processus de distillation de consistance ou de trajectoire de consistance modifié et efficace, (2) en effectuant une optimisation au moment de l'inférence en utilisant notre modèle distillé avec un échantillonnage en une étape comme tâche d'optimisation substitutive efficace et (3) en exécutant une génération finale d'échantillonnage multi-étapes (décodage) en utilisant nos latents de bruit estimés pour une génération contrôlable, rapide et de meilleure qualité. Grâce à une évaluation approfondie, nous constatons que notre méthode non seulement accélère la génération de plus de 10 à 20 fois, mais améliore simultanément l'adhérence au contrôle et la qualité de génération. De plus, nous appliquons notre approche à une nouvelle application de maximisation de l'adhérence au texte (score CLAP) et montrons que nous pouvons convertir un modèle de diffusion inconditionnel sans entrées de texte en un modèle qui offre un contrôle textuel de pointe. Des exemples sonores peuvent être trouvés à l'adresse https://ditto-music.github.io/ditto2/.
Nous présentons MOFA-Video, une méthode avancée d'animation d'image contrôlable qui génère une vidéo à partir d'une image donnée en utilisant divers signaux de contrôle supplémentaires (tels que des repères humains, des trajectoires manuelles, ou même une autre vidéo fournie) ou leurs combinaisons. Cela diffère des méthodes précédentes qui ne peuvent fonctionner que dans un domaine de mouvement spécifique ou qui présentent des capacités de contrôle limitées avec un a priori de diffusion. Pour atteindre notre objectif, nous concevons plusieurs adaptateurs de champ de mouvement conscients du domaine (\ie, MOFA-Adapters) pour contrôler les mouvements générés dans le pipeline de génération de vidéo. Pour les MOFA-Adapters, nous prenons en compte la cohérence temporelle du mouvement de la vidéo et générons d'abord le flux de mouvement dense à partir des conditions de contrôle éparses données, puis les caractéristiques multi-échelles de l'image donnée sont enveloppées comme une caractéristique guidée pour une génération stable de vidéo par diffusion. Nous entraînons naïvement deux adaptateurs de mouvement pour les trajectoires manuelles et les repères humains individuellement, car ils contiennent tous deux des informations éparses sur le contrôle. Après l'entraînement, les MOFA-Adapters dans différents domaines peuvent également fonctionner ensemble pour une génération de vidéo plus contrôlable.
La génération 3D a connu des progrès remarquables ces dernières années. Les techniques existantes, telles que les méthodes de distillation de score, produisent des résultats notables mais nécessitent une optimisation approfondie par scène, ce qui impacte l'efficacité temporelle. Alternativement, les approches basées sur la reconstruction privilégient l'efficacité mais compromettent la qualité en raison de leur gestion limitée de l'incertitude. Nous présentons GECO, une nouvelle méthode pour la modélisation générative 3D de haute qualité qui opère en une seconde. Notre approche aborde les problèmes prévalents d'incertitude et d'inefficacité des méthodes actuelles grâce à un processus en deux étapes. Dans la première étape, nous entraînons un modèle génératif multi-vues en une seule étape avec distillation de score. Ensuite, une distillation de deuxième étape est appliquée pour résoudre le défi de l'incohérence de vue provenant de la prédiction multi-vues. Ce processus en deux étapes garantit une approche équilibrée de la génération 3D, optimisant à la fois la qualité et l'efficacité. Nos expériences approfondies démontrent que GECO réalise une génération image-à-3D de haute qualité avec un niveau d'efficacité sans précédent.
Alors que les modèles de diffusion conditionnés par le texte (DMs) réalisent des percées dans la génération d'images, de vidéos et de contenus 3D, l'attention de la communauté de recherche s'est tournée vers la tâche plus complexe de la synthèse texte-à-4D, qui introduit une dimension temporelle pour générer des objets 3D dynamiques. Dans ce contexte, nous identifions le Score Distillation Sampling (SDS), une technique largement utilisée pour la synthèse texte-à-3D, comme un obstacle majeur à la performance texte-à-4D en raison de ses problèmes de visages multiples (Janus-faced), de textures irréalistes et de coûts de calcul élevés. Dans cet article, nous proposons Pixel-Level Alignments for Text-to-4D Gaussian Splatting (PLA4D), une nouvelle méthode qui utilise des images vidéo générées à partir de texte comme cibles d'alignement explicites au niveau des pixels pour générer des objets 3D statiques et y injecter du mouvement. Plus précisément, nous introduisons l'Alignement Focal pour calibrer les poses de caméra pour le rendu, et le GS-Mesh Contrastive Learning pour distiller des connaissances géométriques à partir des contrastes d'images rendues au niveau des pixels. De plus, nous développons l'Alignement de Mouvement à l'aide d'un réseau de déformation pour piloter les changements dans les Gaussiennes, et mettons en œuvre le Raffinement de Référence pour obtenir des surfaces d'objets 4D lisses. Ces techniques permettent au Gaussian Splatting 4D d'aligner la géométrie, la texture et le mouvement avec les vidéos générées au niveau des pixels. Par rapport aux méthodes précédentes, PLA4D produit des sorties synthétisées avec de meilleurs détails de texture en moins de temps et atténue efficacement le problème des visages multiples. PLA4D est entièrement implémenté à l'aide de modèles open-source, offrant une direction accessible, conviviale et prometteuse pour la création de contenus numériques 4D. Notre page de projet : https://github.com/MiaoQiaowei/PLA4D.github.io{https://github.com/MiaoQiaowei/PLA4D.github.io}.
La question de savoir comment évaluer les capacités de codage des grands modèles de langage (LLMs) reste ouverte. Nous constatons que les benchmarks existants sont mal alignés avec les dépôts de code du monde réel et sont insuffisants pour évaluer les capacités de codage des LLMs. Pour combler cette lacune, nous proposons un nouveau benchmark nommé DevEval, qui présente trois avancées. (1) DevEval s'aligne sur les dépôts réels à plusieurs niveaux, par exemple en termes de distributions de code et de dépendances. (2) DevEval est annoté par 13 développeurs et contient des annotations complètes (par exemple, exigences, dépôts d'origine, code de référence et dépendances de référence). (3) DevEval comprend 1 874 échantillons de test provenant de 117 dépôts, couvrant 10 domaines populaires (par exemple, Internet, bases de données). Sur la base de DevEval, nous proposons une génération de code au niveau du dépôt et évaluons 8 LLMs populaires sur DevEval (par exemple, gpt-4, gpt-3.5, StarCoder 2, DeepSeek Coder, CodeLLaMa). Nos expériences révèlent les capacités de codage de ces LLMs dans des dépôts de code réels. Par exemple, dans nos expériences, le Pass@1 le plus élevé de gpt-4-turbo n'est que de 53,04 %. Nous analysons également les cas d'échec des LLMs et résumons leurs lacunes. Nous espérons que DevEval pourra faciliter le développement des LLMs dans des dépôts de code réels. DevEval, les prompts et les prédictions des LLMs ont été rendus publics.
L'essor des grands modèles de langage (LLM) a permis l'émergence d'applications basées sur les LLM (également appelées agents IA ou co-pilotes), un nouveau paradigme logiciel qui combine la puissance des LLM et des logiciels conventionnels. Des applications LLM variées, provenant de différents acteurs, peuvent concevoir des workflows complexes en utilisant plusieurs requêtes LLM pour accomplir une tâche. Cependant, elles doivent utiliser l'API simplifiée au niveau des requêtes fournie par les services LLM publics actuels, perdant ainsi des informations essentielles au niveau de l'application. Les services LLM publics doivent optimiser aveuglément chaque requête LLM individuelle, ce qui entraîne des performances sous-optimales de bout en bout pour les applications LLM. Cet article présente Parrot, un système de service LLM qui se concentre sur l'expérience de bout en bout des applications basées sur les LLM. Parrot propose la Variable Sémantique, une abstraction unifiée pour exposer les connaissances au niveau de l'application aux services LLM publics. Une Variable Sémantique annote une variable d'entrée/sortie dans l'invite d'une requête et crée le pipeline de données lors de la connexion de plusieurs requêtes LLM, offrant ainsi une manière naturelle de programmer des applications LLM. Exposer les Variables Sémantiques au service LLM public lui permet d'effectuer une analyse conventionnelle du flux de données pour révéler les corrélations entre plusieurs requêtes LLM. Cette corrélation ouvre un tout nouvel espace d'optimisation pour les performances de bout en bout des applications basées sur les LLM. Des évaluations approfondies démontrent que Parrot peut atteindre une amélioration allant jusqu'à un ordre de grandeur pour des cas d'utilisation populaires et pratiques des applications LLM.
Récemment, les techniques de génération vidéo ont progressé rapidement. Compte tenu de la popularité des contenus vidéo sur les plateformes de médias sociaux, ces modèles exacerbent les inquiétudes concernant la propagation de fausses informations. Par conséquent, il existe une demande croissante pour des détecteurs capables de distinguer les vidéos générées par IA des vidéos réelles, afin d'atténuer les dommages potentiels causés par les fausses informations. Cependant, le manque de jeux de données à grande échelle provenant des générateurs vidéo les plus avancés constitue un obstacle au développement de tels détecteurs. Pour combler cette lacune, nous introduisons le premier jeu de données de détection de vidéos générées par IA, GenVideo. Il présente les caractéristiques suivantes : (1) un volume important de vidéos, incluant plus d'un million de vidéos générées par IA et de vidéos réelles collectées ; (2) une grande diversité de contenus générés et de méthodologies, couvrant un large éventail de catégories vidéo et de techniques de génération. Nous avons mené des études approfondies sur ce jeu de données et proposé deux méthodes d'évaluation adaptées à des scénarios proches de la réalité pour évaluer les performances des détecteurs : la tâche de classification vidéo inter-générateurs évalue la généralisabilité des détecteurs entraînés sur différents générateurs ; la tâche de classification vidéo dégradée évalue la robustesse des détecteurs face à des vidéos dont la qualité s'est détériorée lors de leur diffusion. De plus, nous avons introduit un module plug-and-play, nommé Detail Mamba (DeMamba), conçu pour améliorer les détecteurs en identifiant les vidéos générées par IA grâce à l'analyse des incohérences dans les dimensions temporelles et spatiales. Nos expériences approfondies démontrent la supériorité de DeMamba en termes de généralisabilité et de robustesse sur GenVideo par rapport aux détecteurs existants. Nous croyons que le jeu de données GenVideo et le module DeMamba feront progresser de manière significative le domaine de la détection de vidéos générées par IA. Notre code et notre jeu de données seront disponibles à l'adresse suivante : https://github.com/chenhaoxing/DeMamba.