Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les LLM et les systèmes RAG sont désormais capables de gérer des millions de tokens d'entrée ou plus. Cependant, évaluer la qualité de sortie de tels systèmes sur des tâches à contexte long reste un défi, car des tâches comme Needle-in-a-Haystack manquent de complexité. Dans ce travail, nous soutenons que la synthèse peut jouer un rôle central dans une telle évaluation. Nous concevons une procédure pour synthétiser des "Haystacks" de documents, en veillant à ce que des insights spécifiques se répètent à travers les documents. La tâche "Summary of a Haystack" (SummHay) exige alors qu'un système traite le Haystack et génère, à partir d'une requête, un résumé qui identifie les insights pertinents et cite précisément les documents sources. Comme nous avons une connaissance précise des insights qui devraient apparaître dans un résumé de Haystack et des documents qui devraient être cités, nous mettons en œuvre une évaluation automatique hautement reproductible qui peut noter les résumés sur deux aspects : la Couverture et la Citation. Nous générons des Haystacks dans deux domaines (conversation, actualités) et effectuons une évaluation à grande échelle de 10 LLM et des 50 systèmes RAG correspondants. Nos résultats indiquent que SummHay est un défi ouvert pour les systèmes actuels, car même les systèmes dotés d'un signal Oracle de pertinence des documents sont en retard par rapport à notre estimation de la performance humaine (56 %) de plus de 10 points sur un Score Joint. Sans un système de récupération, les LLM à contexte long comme GPT-4o et Claude 3 Opus obtiennent des scores inférieurs à 20 % sur SummHay. Nous montrons que SummHay peut également être utilisé pour étudier les systèmes RAG d'entreprise et le biais de position dans les modèles à contexte long. Nous espérons que les futurs systèmes pourront égaler et surpasser la performance humaine sur SummHay.
Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont considérablement fait progresser l'automatisation des tâches de développement logiciel, notamment la synthèse de code, la réparation de programmes et la génération de tests. Plus récemment, les chercheurs et les praticiens de l'industrie ont développé divers agents autonomes basés sur des LLMs pour exécuter des tâches de développement logiciel de bout en bout. Ces agents sont dotés de la capacité d'utiliser des outils, d'exécuter des commandes, d'observer les retours de l'environnement et de planifier des actions futures. Cependant, la complexité de ces approches basées sur des agents, combinée aux capacités limitées des LLMs actuels, soulève la question suivante : Avons-nous vraiment besoin d'employer des agents logiciels autonomes complexes ? Pour tenter de répondre à cette question, nous avons développé Agentless — une approche sans agent pour résoudre automatiquement les problèmes de développement logiciel. Comparée à la configuration verbeuse et complexe des approches basées sur des agents, Agentless utilise un processus simpliste en deux phases : localisation suivie de réparation, sans laisser le LLM décider des actions futures ou manipuler des outils complexes. Nos résultats sur le benchmark populaire SWE-bench Lite montrent que, de manière surprenante, l'approche simpliste d'Agentless parvient à atteindre à la fois les meilleures performances (27,33 %) et le coût le plus bas (\$0,34) par rapport à tous les agents logiciels open-source existants ! De plus, nous avons classé manuellement les problèmes de SWE-bench Lite et identifié ceux avec des correctifs de référence exacts ou des descriptions de problèmes insuffisantes/trompeuses. Ainsi, nous avons construit SWE-bench Lite-S en excluant ces problèmes problématiques pour effectuer une évaluation et une comparaison plus rigoureuses. Notre travail met en lumière le potentiel actuellement négligé d'une technique simple et interprétable dans le développement logiciel autonome. Nous espérons qu'Agentless aidera à redéfinir la base de référence, le point de départ et l'horizon pour les agents logiciels autonomes, et inspirera des travaux futurs dans cette direction cruciale.
La génération de texte à vidéo (T2V) a récemment suscité un intérêt considérable grâce au modèle multi-modal de grande envergure Sora. Cependant, la génération T2V reste confrontée à deux défis majeurs : 1) L'absence d'un ensemble de données open source de haute qualité et précis. Les précédents ensembles de données vidéo populaires, tels que WebVid-10M et Panda-70M, sont soit de faible qualité, soit trop volumineux pour la plupart des institutions de recherche. Par conséquent, il est à la fois difficile et crucial de collecter des paires texte-vidéo précises et de haute qualité pour la génération T2V. 2) La sous-utilisation des informations textuelles. Les méthodes T2V récentes se sont concentrées sur les transformers visuels, utilisant un simple module d'attention croisée pour la génération de vidéos, ce qui ne permet pas d'extraire de manière approfondie les informations sémantiques des prompts textuels. Pour résoudre ces problèmes, nous introduisons OpenVid-1M, un ensemble de données précis et de haute qualité avec des légendes expressives. Ce jeu de données en scénario ouvert contient plus d'un million de paires texte-vidéo, facilitant la recherche sur la génération T2V. De plus, nous avons sélectionné 433 000 vidéos en 1080p à partir d'OpenVid-1M pour créer OpenVidHD-0.4M, faisant progresser la génération de vidéos haute définition. Par ailleurs, nous proposons un nouveau Multi-modal Video Diffusion Transformer (MVDiT) capable d'exploiter à la fois les informations structurelles des tokens visuels et les informations sémantiques des tokens textuels. Des expériences approfondies et des études d'ablation confirment la supériorité d'OpenVid-1M par rapport aux précédents ensembles de données et l'efficacité de notre MVDiT.
Les défis computationnels liés à l'inférence des modèles de langage à grande échelle (LLM) restent un obstacle majeur à leur déploiement généralisé, en particulier à mesure que la longueur des prompts continue d'augmenter. En raison de la complexité quadratique du calcul d'attention, il faut 30 minutes à un LLM de 8 milliards de paramètres pour traiter un prompt de 1 million de tokens (c'est-à-dire l'étape de pré-remplissage) sur un seul GPU A100. Les méthodes existantes pour accélérer le pré-remplissage échouent souvent à maintenir une précision ou une efficacité acceptable lorsqu'elles sont appliquées à des LLM à contexte long. Pour combler cette lacune, nous introduisons MInference (Inférence pour Millions de Tokens), une méthode de calcul parcimonieux conçue pour accélérer le pré-remplissage du traitement de séquences longues. Plus précisément, nous identifions trois motifs uniques dans les matrices d'attention à contexte long—la forme en A, la barre verticale et la parcimonie par blocs—qui peuvent être exploités pour un calcul parcimonieux efficace sur les GPU. Nous déterminons le motif optimal pour chaque tête d'attention hors ligne et construisons dynamiquement des indices parcimonieux basés sur le motif attribué lors de l'inférence. Avec le motif et les indices parcimonieux, nous effectuons des calculs d'attention parcimonieux efficaces via nos noyaux GPU optimisés pour réduire significativement la latence lors de l'étape de pré-remplissage des LLM à contexte long. Notre technique proposée peut être directement appliquée aux LLM existants sans aucune modification de la configuration de pré-entraînement ni de fine-tuning supplémentaire. En évaluant sur un large éventail de tâches en aval, notamment InfiniteBench, RULER, PG-19 et Needle In A Haystack, et sur des modèles incluant LLaMA-3-1M, GLM4-1M, Yi-200K, Phi-3-128K et Qwen2-128K, nous démontrons que MInference réduit efficacement la latence d'inférence jusqu'à 10 fois pour le pré-remplissage sur un A100, tout en maintenant la précision. Notre code est disponible à l'adresse https://aka.ms/MInference.
L'alignement des préférences est devenu un élément crucial pour améliorer les performances des modèles de langage de grande taille (LLMs), mais son impact sur les modèles de langage multimodaux de grande taille (MLLMs) reste relativement peu exploré. À l'instar des modèles de langage, les MLLMs dédiés aux tâches de compréhension d'images rencontrent des défis tels que l'hallucination. Dans les MLLMs, l'hallucination peut se manifester non seulement par l'énoncé de faits incorrects, mais aussi par la production de réponses incohérentes avec le contenu de l'image. Un objectif principal de l'alignement pour les MLLMs est d'encourager ces modèles à aligner leurs réponses plus étroitement avec les informations contenues dans l'image. Récemment, plusieurs travaux ont introduit des ensembles de données de préférences pour les MLLMs et examiné différentes méthodes d'alignement, notamment l'optimisation directe des préférences (DPO) et l'optimisation proximale des politiques (PPO). Cependant, en raison des variations dans les ensembles de données, les types de modèles de base et les méthodes d'alignement, il reste difficile de déterminer quels éléments spécifiques contribuent le plus significativement aux améliorations rapportées dans ces travaux. Dans cet article, nous analysons indépendamment chaque aspect de l'alignement des préférences dans les MLLMs. Nous commençons par classer les algorithmes d'alignement en deux groupes, hors ligne (comme la DPO) et en ligne (comme la DPO en ligne), et montrons que la combinaison des méthodes hors ligne et en ligne peut améliorer les performances du modèle dans certains scénarios. Nous passons en revue une variété d'ensembles de données de préférences multimodales publiés et discutons de la manière dont les détails de leur construction influencent les performances du modèle. Sur la base de ces observations, nous introduisons une nouvelle méthode de création de données de préférences multimodales appelée Échantillonnage d'Hallucination Piloté par les Biais (BDHS), qui ne nécessite ni annotation supplémentaire ni modèles externes, et montrons qu'elle peut atteindre des performances compétitives par rapport aux travaux d'alignement précédemment publiés pour les modèles multimodaux sur une gamme de benchmarks.
Nous présentons Magic Insert, une méthode permettant de glisser-déposer des sujets depuis une image fournie par l'utilisateur vers une image cible de style différent, de manière physiquement plausible tout en respectant le style de l'image cible. Ce travail formalise le problème du glisser-déposer conscient du style et propose une méthode pour le résoudre en abordant deux sous-problèmes : la personnalisation consciente du style et l'insertion réaliste d'objets dans des images stylisées. Pour la personnalisation consciente du style, notre méthode affine d'abord un modèle de diffusion texte-image pré-entraîné en utilisant LoRA et des tokens textuels appris sur l'image du sujet, puis l'enrichit avec une représentation CLIP du style cible. Pour l'insertion d'objets, nous utilisons l'Adaptation de Domaine Bootstrap pour adapter un modèle spécifique d'insertion d'objets photoréalistes au domaine des styles artistiques variés. Globalement, la méthode surpasse significativement les approches traditionnelles telles que l'inpainting. Enfin, nous présentons un ensemble de données, SubjectPlop, pour faciliter l'évaluation et les progrès futurs dans ce domaine. Page du projet : https://magicinsert.github.io/
Le Flow Matching (FM) est un cadre général pour définir des trajectoires de probabilité via des Équations Différentielles Ordinaires (EDO) afin de transformer des échantillons de bruit en données. Les approches récentes cherchent à rectifier ces trajectoires de flux pour générer des échantillons de haute qualité avec moins d'évaluations de fonctions, généralement à travers des méthodes de rectification itératives ou des solutions de transport optimal. Dans cet article, nous introduisons le Consistency Flow Matching (Consistency-FM), une nouvelle méthode de FM qui impose explicitement l'auto-cohérence dans le champ de vitesse. Le Consistency-FM définit directement des flux rectilignes partant de différents instants vers le même point final, en imposant des contraintes sur leurs valeurs de vitesse. De plus, nous proposons une approche d'entraînement multi-segments pour le Consistency-FM afin d'améliorer l'expressivité, atteignant un meilleur compromis entre la qualité d'échantillonnage et la vitesse. Les expériences préliminaires démontrent que notre Consistency-FM améliore significativement l'efficacité de l'entraînement en convergeant 4,4 fois plus vite que les modèles de cohérence et 1,7 fois plus vite que les modèles de flux rectifiés, tout en obtenant une meilleure qualité de génération. Notre code est disponible à l'adresse suivante : https://github.com/YangLing0818/consistency_flow_matching.
Les modèles de langage de grande taille (LLMs) entraînés sur des corpus étendus conservent inévitablement des données sensibles, telles que des informations personnelles privées et du matériel protégé par des droits d'auteur. Les avancées récentes en matière de désapprentissage de connaissances impliquent la mise à jour des paramètres des LLMs pour effacer des connaissances spécifiques. Cependant, les paradigmes actuels de désapprentissage sont entravés par des limites de mémorisation floues, effaçant souvent les connaissances de manière indiscriminée. Dans ce travail, nous présentons KnowUnDo, un benchmark contenant des domaines de contenu protégé par des droits d'auteur et de confidentialité des utilisateurs pour évaluer si le processus de désapprentissage efface par inadvertance des connaissances essentielles. Nos résultats indiquent que les méthodes de désapprentissage existantes souffrent souvent d'un désapprentissage excessif. Pour remédier à cela, nous proposons une méthode simple mais efficace, MemFlex, qui utilise des informations de gradient pour cibler et désapprendre précisément les paramètres sensibles. Les résultats expérimentaux montrent que MemFlex est supérieur aux méthodes existantes à la fois en termes de désapprentissage précis des connaissances et de rétention générale des connaissances des LLMs. Le code et le jeu de données seront publiés à l'adresse https://github.com/zjunlp/KnowUnDo.
Les récents progrès dans la génération de vidéos basée sur la diffusion ont montré des résultats remarquables, mais l'écart entre les vidéos synthétiques et les vidéos du monde réel reste peu exploré. Dans cette étude, nous examinons cet écart sous trois perspectives fondamentales : l'apparence, le mouvement et la géométrie, en comparant les vidéos du monde réel avec celles générées par un modèle d'IA de pointe, Stable Video Diffusion. Pour ce faire, nous entraînons trois classificateurs utilisant des réseaux convolutifs 3D, chacun ciblant des aspects distincts : les caractéristiques d'un modèle de base visuel pour l'apparence, le flux optique pour le mouvement, et la profondeur monoculaire pour la géométrie. Chaque classificateur montre une performance élevée dans la détection de vidéos synthétiques, à la fois qualitativement et quantitativement. Cela indique que les vidéos générées par l'IA sont encore facilement détectables, et qu'un écart significatif entre les vidéos réelles et synthétiques persiste. De plus, en utilisant Grad-CAM, nous identifions les échecs systématiques des vidéos générées par l'IA en termes d'apparence, de mouvement et de géométrie. Enfin, nous proposons un modèle Ensemble-of-Experts qui intègre les informations d'apparence, de flux optique et de profondeur pour la détection de vidéos synthétiques, améliorant ainsi la robustesse et la capacité de généralisation. Notre modèle est capable de détecter avec une grande précision les vidéos générées par Sora, même sans avoir été exposé à aucune vidéo de Sora pendant l'entraînement. Cela suggère que l'écart entre les vidéos réelles et synthétiques peut être généralisé à travers divers modèles de génération de vidéos. Page du projet : https://justin-crchang.github.io/3DCNNDetection.github.io/
Découvrir les valeurs et opinions latentes dans les grands modèles de langage (LLM) peut aider à identifier les biais et à atténuer les dommages potentiels. Récemment, cette approche a consisté à soumettre des questions d'enquête aux LLM et à quantifier leurs positions face à des déclarations moralement et politiquement chargées. Cependant, les positions générées par les LLM peuvent varier considérablement selon la formulation des invites, et il existe de nombreuses manières d'argumenter pour ou contre une position donnée. Dans ce travail, nous proposons de résoudre ce problème en analysant un vaste et robuste ensemble de données de 156 000 réponses de LLM aux 62 propositions du test du Compass Politique (PCT), générées par 6 LLM à l'aide de 420 variations d'invites. Nous effectuons une analyse grossière de leurs positions générées et une analyse fine des justifications en texte brut de ces positions. Pour l'analyse fine, nous proposons d'identifier des tropes dans les réponses : des phrases sémantiquement similaires qui sont récurrentes et cohérentes à travers différentes invites, révélant des motifs dans le texte qu'un LLM donné a tendance à produire. Nous constatons que les caractéristiques démographiques ajoutées aux invites affectent significativement les résultats du PCT, reflétant des biais, ainsi que des disparités entre les résultats des tests lors de l'extraction de réponses fermées par rapport à des réponses ouvertes. De plus, les motifs dans les justifications en texte brut via les tropes montrent que des justifications similaires sont générées de manière répétée à travers les modèles et les invites, même avec des positions divergentes.
Nous étudions le Neural Foley, la génération automatique d'effets sonores de haute qualité synchronisés avec des vidéos, permettant une expérience audio-visuelle immersive. Malgré ses nombreuses applications, les approches existantes rencontrent des limitations lorsqu'il s'agit de synthétiser simultanément des sons de haute qualité et alignés avec la vidéo (c'est-à-dire, sémantiquement pertinents et temporellement synchronisés). Pour surmonter ces limitations, nous proposons FoleyCrafter, un nouveau cadre de travail qui exploite un modèle pré-entraîné de texte-à-audio pour garantir une génération audio de haute qualité. FoleyCrafter comprend deux composants clés : l'adaptateur sémantique pour l'alignement sémantique et le contrôleur temporel pour une synchronisation précise audio-vidéo. L'adaptateur sémantique utilise des couches d'attention croisée parallèles pour conditionner la génération audio sur les caractéristiques de la vidéo, produisant des effets sonores réalistes et sémantiquement pertinents par rapport au contenu visuel. Parallèlement, le contrôleur temporel intègre un détecteur d'attaques et un adaptateur basé sur des timestamps pour atteindre un alignement audio-vidéo précis. Un avantage notable de FoleyCrafter est sa compatibilité avec les invites textuelles, permettant l'utilisation de descriptions textuelles pour obtenir une génération vidéo-à-audio contrôlable et diversifiée selon les intentions de l'utilisateur. Nous menons des expériences quantitatives et qualitatives approfondies sur des benchmarks standards pour vérifier l'efficacité de FoleyCrafter. Les modèles et les codes sont disponibles à l'adresse https://github.com/open-mmlab/FoleyCrafter.
Les récentes avancées en microscopie ont permis la génération rapide de téraoctets de données d'images en biologie cellulaire et en recherche biomédicale. Les modèles vision-langage (VLMs) offrent une solution prometteuse pour l'analyse à grande échelle d'images biologiques, améliorant l'efficacité des chercheurs, identifiant de nouveaux biomarqueurs visuels, et accélérant la génération d'hypothèses et la découverte scientifique. Cependant, il manque des benchmarks vision-langage standardisés, diversifiés et à grande échelle pour évaluer les capacités de perception et de cognition des VLMs dans la compréhension des images biologiques. Pour combler cette lacune, nous introduisons {\mu}-Bench, un benchmark expert-curated couvrant 22 tâches biomédicales à travers diverses disciplines scientifiques (biologie, pathologie), modalités de microscopie (électronique, fluorescence, lumière), échelles (subcellulaire, cellulaire, tissulaire), et organismes dans des états normaux et anormaux. Nous évaluons les VLMs biomédicaux, pathologiques et généraux de pointe sur {\mu}-Bench et constatons que : i) les modèles actuels peinent dans toutes les catégories, même pour des tâches basiques comme distinguer les modalités de microscopie ; ii) les modèles spécialistes actuels fine-tunés sur des données biomédicales performent souvent moins bien que les modèles généralistes ; iii) le fine-tuning dans des domaines spécifiques de microscopie peut entraîner un oubli catastrophique, érodant les connaissances biomédicales préalablement encodées dans leur modèle de base. iv) l'interpolation de poids entre les modèles fine-tunés et pré-entraînés offre une solution à l'oubli et améliore les performances générales sur les tâches biomédicales. Nous publions {\mu}-Bench sous une licence permissive pour accélérer la recherche et le développement de modèles fondateurs en microscopie.