Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'animation humaine de bout en bout, telle que la génération humaine parlante pilotée par l'audio, a connu des avancées notables au cours des dernières années. Cependant, les méthodes existantes peinent toujours à s'étendre à des modèles de génération vidéo généraux de grande taille, limitant leur potentiel dans des applications réelles. Dans cet article, nous proposons OmniHuman, un cadre basé sur le Transformer de Diffusion qui met à l'échelle les données en mélangeant des conditions liées au mouvement lors de la phase d'entraînement. À cette fin, nous introduisons deux principes d'entraînement pour ces conditions mixtes, ainsi que l'architecture du modèle correspondant et la stratégie d'inférence. Ces conceptions permettent à OmniHuman de tirer pleinement parti de la génération de mouvement pilotée par les données, atteignant finalement une génération vidéo humaine hautement réaliste. Plus important encore, OmniHuman prend en charge divers contenus de portrait (gros plan du visage, portrait, demi-corps, corps entier), prend en charge à la fois la parole et le chant, gère les interactions humain-objet et les poses corporelles complexes, et s'adapte à différents styles d'images. Comparé aux méthodes existantes pilotées par l'audio de bout en bout, OmniHuman produit non seulement des vidéos plus réalistes, mais offre également une plus grande flexibilité dans les entrées. Il prend également en charge plusieurs modalités de pilotage (audio, vidéo et signaux de pilotage combinés). Des échantillons vidéo sont fournis sur la page du projet ttfamily (https://omnihuman-lab.github.io)
Les algorithmes d'alignement direct (Direct Alignment Algorithms - DAAs) simplifient l'alignement des modèles linguistiques en remplaçant l'apprentissage par renforcement (Reinforcement Learning - RL) et la modélisation des récompenses (Reward Modeling - RM) dans l'apprentissage par renforcement à partir des retours humains (Reinforcement Learning from Human Feedback - RLHF) par une optimisation directe de la politique. Les DAAs peuvent être classés selon leurs pertes de classement (pairwise vs pointwise), selon les récompenses utilisées dans ces pertes (par exemple, les rapports de vraisemblance de la politique et de la politique de référence, ou les rapports de cotes), ou selon la nécessité d'une phase de réglage fin supervisée (Supervised Fine-Tuning - SFT) (deux étapes vs une étape). Nous montrons d'abord que les méthodes à une étape sont moins performantes que les méthodes à deux étapes. Pour remédier à cela, nous incorporons une phase explicite de SFT et introduisons le paramètre bêta, contrôlant la force de l'optimisation des préférences, dans les méthodes ORPO et ASFT à une seule étape. Ces modifications améliorent leurs performances dans Alpaca Eval 2 de +3,46 (ORPO) et +8,27 (ASFT), se rapprochant des méthodes à deux étapes comme DPO. Une analyse plus poussée révèle que le facteur clé est de savoir si l'approche utilise des objectifs pairwise ou pointwise, plutôt que la récompense ou la fonction de perte implicite spécifique. Ces résultats soulignent l'importance d'une évaluation minutieuse pour éviter des affirmations prématurées de gains de performance ou de supériorité globale dans les algorithmes d'alignement.
Les récompenses de processus denses se sont avérées être une alternative plus efficace aux récompenses de niveau de résultat clairsemées dans la mise à l'échelle des modèles de langage volumineux (MLV), en particulier dans les tâches nécessitant un raisonnement complexe en plusieurs étapes. Alors que les récompenses denses offrent également un choix attrayant pour l'apprentissage par renforcement (AR) des MLV car leurs récompenses fines ont le potentiel de résoudre certains problèmes inhérents des récompenses de résultat, tels que l'efficacité de l'entraînement et l'attribution du crédit, ce potentiel reste largement sous-exploité. Cela peut être principalement attribué aux défis de l'entraînement des modèles de récompense de processus (MRP) en ligne, où la collecte de libellés de processus de haute qualité est prohibitivement coûteuse, les rendant particulièrement vulnérables aux manipulations de récompenses. Pour relever ces défis, nous proposons PRIME (Process Reinforcement through IMplicit rEwards), qui permet des mises à jour en ligne des MRP en utilisant uniquement des exécutions de politiques et des libellés de résultats à travers des récompenses de processus implicites. PRIME se combine bien avec diverses fonctions d'avantage et évite la phase d'entraînement du modèle de récompense dédié que les approches existantes requièrent, réduisant considérablement les coûts de développement. Nous démontrons l'efficacité de PRIME en mathématiques et en codage compétitifs. En partant de Qwen2.5-Math-7B-Base, PRIME obtient une amélioration moyenne de 15,1 % sur plusieurs points de repère de raisonnement clés par rapport au modèle SFT. Notamment, notre modèle résultant, Eurus-2-7B-PRIME, dépasse Qwen2.5-Math-7B-Instruct sur sept points de repère de raisonnement avec seulement 10 % de ses données d'entraînement.
Les grands modèles de langage (LLM) en tant que juges et la synthèse de données basée sur les LLM ont émergé comme deux méthodes fondamentales d'annotation de données pilotées par les LLM dans le développement de modèles. Bien que leur combinaison améliore significativement l'efficacité de l'entraînement et de l'évaluation des modèles, peu d'attention a été accordée à la contamination potentielle induite par ce nouveau paradigme de développement de modèles. Dans ce travail, nous exposons la fuite de préférences, un problème de contamination dans les LLM en tant que juges causé par la relation entre les générateurs de données synthétiques et les évaluateurs basés sur les LLM. Pour étudier cette question, nous définissons d'abord trois types de relations communes entre le LLM générateur de données et le LLM juge : être le même modèle, avoir une relation d'héritage et appartenir à la même famille de modèles. À travers des expériences approfondies, nous confirmons empiriquement le biais des juges envers leurs modèles étudiants liés causé par la fuite de préférences à travers plusieurs références et benchmarks de LLM. Une analyse plus poussée suggère que la fuite de préférences est un problème répandu et difficile à détecter par rapport aux biais précédemment identifiés dans les scénarios de LLM en tant que juges. Toutes ces découvertes impliquent que la fuite de préférences est un problème répandu et complexe dans le domaine des LLM en tant que juges. Nous mettons à disposition tous les codes et données sur : https://github.com/David-Li0406/Preference-Leakage.
L'alignement des caractéristiques visuelles avec les plongements linguistiques est un défi majeur dans les modèles vision-langage (VLM). Les performances de ces modèles reposent sur la qualité d'un connecteur qui cartographie les caractéristiques visuelles générées par un encodeur visuel vers un espace d'incorporation partagé avec le LLM tout en préservant la similarité sémantique. Les connecteurs existants, tels que les perceptrons multicouches (MLP), produisent souvent des entrées hors distribution ou bruitées, entraînant un désalignement entre les modalités. Dans ce travail, nous proposons une nouvelle méthode d'alignement vision-texte, AlignVLM, qui cartographie les caractéristiques visuelles vers une moyenne pondérée des plongements textuels du LLM. Notre approche tire parti des connaissances linguistiques encodées par le LLM pour garantir que les caractéristiques visuelles sont cartographiées vers des régions de l'espace que le LLM peut interpréter efficacement. AlignVLM est particulièrement efficace pour les tâches de compréhension de documents, où les images de documents numérisés doivent être précisément cartographiées vers leur contenu textuel. Nos expériences approfondies montrent qu'AlignVLM atteint des performances de pointe par rapport aux méthodes d'alignement précédentes. Nous fournissons une analyse supplémentaire démontrant un meilleur alignement des caractéristiques vision-texte et une robustesse au bruit.
Le paradigme d'indexation-récupération-génération de la génération augmentée par récupération (RAG) a connu un grand succès dans la résolution de tâches intensives en connaissances en intégrant des connaissances externes dans de grands modèles de langage (LLM). Cependant, l'incorporation de connaissances externes et non vérifiées accroît la vulnérabilité des LLM car les attaquants peuvent effectuer des tâches d'attaque en manipulant les connaissances. Dans cet article, nous introduisons un banc d'essai nommé SafeRAG conçu pour évaluer la sécurité de RAG. Tout d'abord, nous classifions les tâches d'attaque en bruit argenté, conflit inter-contexte, publicité douce et déni de service blanc. Ensuite, nous construisons un ensemble de données d'évaluation de la sécurité de RAG (c'est-à-dire l'ensemble de données SafeRAG) principalement manuellement pour chaque tâche. Nous utilisons ensuite l'ensemble de données SafeRAG pour simuler divers scénarios d'attaque auxquels RAG pourrait être confronté. Les expériences menées sur 14 composants représentatifs de RAG démontrent que RAG présente une vulnérabilité significative à toutes les tâches d'attaque et même la tâche d'attaque la plus évidente peut contourner facilement les récupérateurs, les filtres ou les LLM avancés existants, entraînant une dégradation de la qualité du service RAG. Le code est disponible sur : https://github.com/IAAR-Shanghai/SafeRAG.
Nous présentons SliderSpace, un cadre pour décomposer automatiquement les capacités visuelles des modèles de diffusion en directions contrôlables et compréhensibles par l'humain. Contrairement aux méthodes de contrôle existantes qui exigent qu'un utilisateur spécifie des attributs pour chaque direction d'édition individuellement, SliderSpace découvre simultanément plusieurs directions interprétables et diverses à partir d'une seule instruction textuelle. Chaque direction est entraînée en tant qu'adaptateur de faible rang, permettant un contrôle compositionnel et la découverte de possibilités surprenantes dans l'espace latent du modèle. À travers des expériences approfondies sur des modèles de diffusion de pointe, nous démontrons l'efficacité de SliderSpace à travers trois applications : décomposition de concepts, exploration de styles artistiques et amélioration de la diversité. Notre évaluation quantitative montre que les directions découvertes par SliderSpace décomposent efficacement la structure visuelle des connaissances du modèle, offrant des perspectives sur les capacités latentes encodées dans les modèles de diffusion. Des études utilisateurs valident en outre que notre méthode produit des variations plus diverses et utiles par rapport aux bases de référence. Notre code, nos données et nos poids entraînés sont disponibles sur https://sliderspace.baulab.info.
Nous proposons SCONE (Scalable, Contextualisé, Déchargé, Incrustation d'N-grammes), une méthode pour étendre les couches d'incrustation d'entrée afin d'améliorer les performances des modèles de langage à mesure que la taille de la couche augmente. Pour éviter une augmentation des coûts de décodage, SCONE conserve le vocabulaire d'origine tout en introduisant des incrustations pour un ensemble de n-grammes fréquents. Ces incrustations fournissent une représentation contextualisée pour chaque jeton d'entrée et sont apprises avec un modèle séparé lors de l'entraînement. Lors de l'inférence, elles sont précalculées et stockées dans la mémoire hors accélérateur avec un impact minimal sur la vitesse d'inférence. SCONE permet deux nouvelles stratégies de mise à l'échelle : augmenter le nombre d'incrustations d'n-grammes mises en cache et mettre à l'échelle le modèle utilisé pour les apprendre, tout en maintenant des FLOPS fixes au moment de l'inférence. Nous montrons que le fait de mettre à l'échelle ces deux aspects permet à SCONE de surpasser une référence de 1,9 milliard de paramètres à travers divers corpus, tout en utilisant seulement la moitié des FLOPS au moment de l'inférence.
Les grands modèles de langage (LLM) ont montré un potentiel remarquable en matière de raisonnement, mais ils souffrent encore de graves hallucinations factuelles en raison de la pertinence, de la précision et de la couverture des connaissances paramétriques. Parallèlement, l'intégration du raisonnement avec la génération augmentée par récupération (RAG) reste un défi en raison de la décomposition inefficace des tâches et de la récupération redondante, ce qui peut introduire du bruit et dégrader la qualité des réponses. Dans cet article, nous proposons DeepRAG, un cadre qui modélise le raisonnement augmenté par récupération comme un Processus de Décision Markovien (MDP), permettant une récupération stratégique et adaptative. En décomposant de manière itérative les requêtes, DeepRAG détermine dynamiquement s'il faut récupérer des connaissances externes ou s'appuyer sur un raisonnement paramétrique à chaque étape. Les expériences montrent que DeepRAG améliore l'efficacité de la récupération tout en augmentant la précision des réponses de 21,99 %, démontrant ainsi son efficacité dans l'optimisation du raisonnement augmenté par récupération.
Les tests de QI ont servi de méthodologie fondamentale pour évaluer les capacités cognitives humaines, en dissociant délibérément l'évaluation du contexte linguistique, de la maîtrise de la langue ou des connaissances spécifiques au domaine pour isoler les compétences de base en abstraction et en raisonnement. Pourtant, la recherche en intelligence artificielle manque actuellement de références systématiques pour quantifier ces dimensions cognitives critiques dans les systèmes multimodaux. Pour combler cette lacune cruciale, nous proposons MM-IQ, un cadre d'évaluation complet comprenant 2 710 éléments de test méticuleusement sélectionnés couvrant 8 paradigmes de raisonnement distincts. En évaluant systématiquement les principaux modèles multimodaux open source et propriétaires, notre référentiel révèle des limitations frappantes : même les architectures de pointe n'atteignent qu'une performance légèrement supérieure au hasard (27,49 % contre 25 % de précision de base). Ce fossé de performance substantiel souligne l'insuffisance des systèmes multimodaux actuels pour approximer les capacités de raisonnement humain fondamentales, soulignant la nécessité de progrès révolutionnaires pour combler cette division cognitive.
Une caractéristique de l'intelligence humaine est la capacité de créer des artefacts complexes à travers des processus structurés en plusieurs étapes. Générer des tutoriels procéduraux avec l'IA est un objectif de longue date mais difficile, confronté à trois obstacles majeurs : (1) la rareté des ensembles de données procéduraux multi-tâches, (2) maintenir la continuité logique et la cohérence visuelle entre les étapes, et (3) généraliser à travers plusieurs domaines. Pour relever ces défis, nous proposons un ensemble de données multi-domaines couvrant 21 tâches avec plus de 24 000 séquences procédurales. En nous appuyant sur cette base, nous introduisons MakeAnything, un cadre basé sur le transformateur de diffusion (DIT), qui exploite le fine-tuning pour activer les capacités en contexte de DIT pour générer des séquences procédurales cohérentes. Nous introduisons l'adaptation asymétrique à faible rang (LoRA) pour la génération d'images, qui équilibre les capacités de généralisation et les performances spécifiques à la tâche en gelant les paramètres de l'encodeur tout en adaptant de manière adaptative les couches du décodeur. De plus, notre modèle ReCraft permet la génération d'images vers le processus à travers des contraintes de cohérence spatiotemporelle, permettant aux images statiques d'être décomposées en séquences de création plausibles. Des expériences approfondies démontrent que MakeAnything surpasse les méthodes existantes, établissant de nouveaux benchmarks de performance pour les tâches de génération procédurale.
Nous étudions les capacités de raisonnement logique des grands modèles de langage (LLM) et leur extensibilité dans le raisonnement non-monotone complexe. À cette fin, nous introduisons ZebraLogic, un cadre d'évaluation complet pour évaluer les performances de raisonnement des LLM sur des casse-têtes logiques dérivés de problèmes de satisfaction de contraintes (CSP). ZebraLogic permet la génération de casse-têtes avec une complexité contrôlable et quantifiable, facilitant une étude systématique des limites d'échelle de modèles tels que Llama, o1 modèles et DeepSeek-R1. En englobant une large gamme de complexités d'espace de recherche et de diverses contraintes logiques, ZebraLogic offre un environnement structuré pour évaluer le raisonnement face à une difficulté croissante. Nos résultats révèlent une baisse significative de la précision à mesure que la complexité du problème augmente - un phénomène que nous appelons la malédiction de la complexité. Cette limitation persiste même avec des modèles plus grands et une augmentation du temps de calcul d'inférence, suggérant des contraintes inhérentes dans les capacités de raisonnement actuelles des LLM. De plus, nous explorons des stratégies pour améliorer le raisonnement logique, notamment l'échantillonnage Best-of-N, les mécanismes de retour en arrière et les invites d'auto-vérification. Nos résultats offrent des perspectives critiques sur l'extensibilité du raisonnement des LLM, mettent en évidence des limitations fondamentales et décrivent des directions potentielles d'amélioration.
Alors que les grands modèles de langage (LLM) excellent dans la gestion de séquences à long contexte, ils nécessitent des caches substantiels clé-valeur (KV) pour stocker des informations contextuelles, ce qui peut lourdement impacter l'efficacité computationnelle et l'utilisation de la mémoire. Les efforts précédents pour compresser ces caches KV se sont principalement concentrés sur la réduction des besoins en mémoire mais étaient limités dans l'amélioration de la latence. Pour résoudre ce problème, nous introduisons FastKV, une méthode de compression de cache KV conçue pour améliorer la latence des séquences à long contexte. Pour améliorer les vitesses de traitement tout en maintenant la précision, FastKV adopte une approche novatrice de Propagation Sélective de Token (TSP) qui conserve l'ensemble des informations contextuelles dans les couches initiales des LLM et propage sélectivement seulement une partie de ces informations dans les couches plus profondes même à l'étape de préremplissage. De plus, FastKV intègre une compression de cache KV consciente de l'attention de requête groupée (GQA) pour exploiter les avantages de GQA en termes d'efficacité mémoire et computationnelle. Nos résultats expérimentaux montrent que FastKV obtient des améliorations de 2,00 fois et 1,40 fois respectivement en temps jusqu'au premier token (TTFT) et en débit par rapport à HeadKV, la méthode de compression de cache KV de pointe. De plus, FastKV maintient avec succès la précision sur des référentiels à long contexte à des niveaux comparables aux baselines. Notre code est disponible sur https://github.com/dongwonjo/FastKV.
Au milieu de la rapide progression des grands modèles de langage (GML) et de leur évolution vers de grands modèles multimodaux (GMM), des progrès significatifs ont été réalisés dans les langues à ressources élevées telles que l'anglais et le chinois. Alors que les GML en arabe ont connu des progrès notables, les GMM en arabe restent largement inexplorés, se concentrant souvent étroitement sur quelques aspects spécifiques de la langue et de la compréhension visuelle. Pour combler ce fossé, nous présentons AIN - le Modèle Multimodal Inclusif en Arabe - conçu pour exceller dans divers domaines. AIN est un GMM bilingue anglais-arabe conçu pour exceller en anglais et en arabe, en s'appuyant sur 3,6 millions d'échantillons de données multimodales arabes-anglais de haute qualité soigneusement construits. AIN démontre des performances de pointe en arabe, tout en possédant de solides capacités visuelles en anglais. Sur le récent banc d'essai CAMEL-Bench comprenant 38 sous-domaines tels que la compréhension multi-images, la perception visuelle complexe, la compréhension de documents manuscrits, la compréhension vidéo, l'imagerie médicale, les maladies des plantes et la compréhension de l'utilisation des terres basée sur la télédétection, notre AIN affiche de solides performances avec le modèle 7B surpassant le GPT-4o avec un gain absolu de 3,4 % en moyenne sur huit domaines et 38 sous-domaines. Les capacités supérieures de l'AIN en font un pas significatif vers l'autonomisation des locuteurs arabes avec des outils avancés d'IA générative multimodale dans diverses applications.
Les versions o1 et o3 d'OpenAI marquent un changement de paradigme significatif dans les Grands Modèles de Langage en faveur de capacités de raisonnement avancées. Notamment, o3 a surpassé les humains dans la résolution de problèmes nouveaux et l'acquisition de compétences sur le Corpus d'Abstraction et de Raisonnement pour l'Intelligence Artificielle Générale (ARC-AGI). Cependant, cette référence est limitée aux motifs symboliques, tandis que les humains perçoivent et raisonnent souvent sur des scénarios multimodaux impliquant à la fois des données visuelles et linguistiques. Ainsi, il est urgent d'explorer les capacités de raisonnement avancées dans les tâches multimodales. À cette fin, nous suivons l'évolution des modèles de la série GPT-[n] et o-[n] sur des énigmes multimodales exigeant une perception visuelle fine avec un raisonnement abstrait ou algorithmique. La performance supérieure de o1 s'accompagne d'un coût computationnel presque 750 fois supérieur à celui de GPT-4o, soulevant des inquiétudes quant à son efficacité. Nos résultats révèlent une tendance claire à la hausse des capacités de raisonnement à travers les itérations des modèles, avec des sauts de performance notables à travers les modèles de la série GPT et ensuite vers o1. Néanmoins, nous constatons que le modèle o1 rencontre encore des difficultés avec des énigmes multimodales simples nécessitant un raisonnement abstrait. De plus, sa performance dans les énigmes algorithmiques reste faible. Nous prévoyons de suivre continuellement les nouveaux modèles de la série et de mettre à jour nos résultats dans cet article en conséquence. Toutes les ressources utilisées dans cette évaluation sont disponibles publiquement sur https://github.com/declare-lab/LLM-PuzzleTest.
Même les modèles de langage de grande taille (LLMs) très performants peuvent produire des réponses biaisées ou non sécurisées, et les techniques d'alignement, telles que RLHF, visant à atténuer ce problème, sont coûteuses et sujettes au surapprentissage car elles réentraînent le LLM. Cet article présente une nouvelle approche d'alignement au moment de l'inférence qui garantit que les LLM génèrent des réponses sûres presque certainement, c'est-à-dire avec une probabilité approchant l'unité. Nous parvenons à cela en encadrant la génération sûre des réponses au moment de l'inférence comme un processus de décision de Markov contraint dans l'espace latent du LLM. De manière cruciale, nous ajoutons un état de sécurité qui suit l'évolution des contraintes de sécurité et nous permet de démontrer des garanties formelles de sécurité en résolvant le MDP dans l'espace latent. Sur cette base, nous proposons InferenceGuard, une implémentation pratique qui aligne en toute sécurité les LLMs sans modifier les poids du modèle. Empiriquement, nous démontrons qu'InferenceGuard équilibre efficacement la sécurité et la performance des tâches, surpassant les méthodes d'alignement au moment de l'inférence existantes dans la génération de réponses sûres et alignées.
Les benchmarks existants pour les modèles de pointe testent souvent des connaissances spécialisées de niveau doctorat qui sont difficiles à saisir pour les non-experts. En revanche, nous présentons un benchmark basé sur le Défi de l'Énigme du Dimanche de NPR qui ne nécessite que des connaissances générales. Notre benchmark est exigeant à la fois pour les humains et les modèles, cependant les solutions correctes sont faciles à vérifier et les erreurs des modèles sont faciles à repérer. Notre travail révèle des lacunes de capacité qui ne sont pas évidentes dans les benchmarks existants : OpenAI o1 surpasse significativement d'autres modèles de raisonnement qui sont à la hauteur sur des benchmarks testant des connaissances spécialisées. De plus, notre analyse des sorties de raisonnement met en lumière de nouveaux types d'échecs. Par exemple, DeepSeek R1 concède souvent avec un "Je donne ma langue au chat" avant de fournir une réponse qu'il sait être fausse. R1 peut également être remarquablement "incertain" dans sa sortie et, dans de rares cas, il ne "termine pas sa réflexion", ce qui suggère la nécessité d'une technique d'inférence en temps réel pour "conclure" avant d'atteindre la limite de la fenêtre contextuelle. Nous quantifions également l'efficacité de raisonner plus longuement avec R1 et Gemini Thinking pour identifier le point au-delà duquel davantage de raisonnement est peu probable d'améliorer la précision sur notre benchmark.
Nous présentons une approche de l'apprentissage par renforcement basée sur le modèle qui atteint une nouvelle performance de pointe sur le difficile benchmark Craftax-classic, un jeu de survie en monde ouvert en 2D qui demande aux agents de démontrer un large éventail d'aptitudes générales telles que la forte généralisation, l'exploration approfondie et le raisonnement à long terme. Grâce à une série de choix de conception minutieux visant à améliorer l'efficacité des échantillons, notre algorithme MBRL atteint une récompense de 67,4 % après seulement 1 million d'étapes dans l'environnement, surpassant significativement DreamerV3, qui atteint 53,2 %, et, pour la première fois, dépasse la performance humaine de 65,0 %. Notre méthode commence par construire une ligne de base sans modèle de pointe, en utilisant une architecture de politique novatrice combinant des CNN et des RNN. Nous ajoutons ensuite trois améliorations à la configuration MBRL standard : (a) "Dyna avec préchauffage", qui entraîne la politique sur des données réelles et imaginaires, (b) "tokeniseur de voisin le plus proche" sur des fragments d'image, améliorant le schéma pour créer les entrées du modèle mondial transformateur (TWM), et (c) "forcing de l'enseignant par bloc", permettant au TWM de raisonner conjointement sur les jetons futurs de l'étape suivante.
L'Adaptation à Rang Faible (LoRA) et ses variantes ont montré des résultats impressionnants en réduisant le nombre de paramètres entraînables et les besoins en mémoire des grands réseaux de transformers tout en maintenant les performances de fine-tuning. Cependant, la nature à rang faible de la mise à jour des poids limite intrinsèquement la puissance de représentation des modèles fine-tunés, compromettant potentiellement les performances sur des tâches complexes. Cela soulève une question cruciale : lorsque l'on observe un écart de performance entre LoRA et le fine-tuning standard, est-ce dû au nombre réduit de paramètres entraînables ou à la déficience du rang ? Ce document vise à répondre à cette question en introduisant RandLoRA, une méthode efficace en termes de paramètres qui effectue des mises à jour à rang complet en utilisant des combinaisons linéaires apprises de matrices aléatoires à rang faible et non entraînables. Notre méthode limite le nombre de paramètres entraînables en restreignant l'optimisation aux matrices de mise à l'échelle diagonale appliquées aux matrices aléatoires fixes. Cela nous permet de surmonter efficacement les limitations à rang faible tout en maintenant l'efficacité en termes de paramètres et de mémoire pendant l'entraînement. À travers une expérimentation approfondie sur des référentiels de vision, de langage et de vision-langage, nous évaluons systématiquement les limitations de LoRA et des méthodes de base aléatoires existantes. Nos résultats révèlent que les mises à jour à rang complet sont bénéfiques pour les tâches de vision et de langage individuellement, et encore plus pour les tâches de vision-langage, où RandLoRA réduit significativement - voire élimine parfois - l'écart de performance entre le fine-tuning standard et LoRA, démontrant son efficacité.
Les modèles de cohérence sont une nouvelle famille de modèles génératifs capables de produire des échantillons de haute qualité en une seule étape ou en plusieurs étapes. Récemment, les modèles de cohérence ont démontré des performances impressionnantes, atteignant des résultats comparables à ceux des modèles de diffusion dans l'espace pixel. Cependant, le succès de la mise à l'échelle de l'entraînement à la cohérence sur des ensembles de données à grande échelle, en particulier pour les tâches de génération de texte en image et de vidéo, est déterminé par les performances dans l'espace latent. Dans ce travail, nous analysons les différences statistiques entre les espaces pixel et latent, découvrant que les données latentes contiennent souvent des valeurs aberrantes très impulsives, qui dégradent significativement les performances de l'iCT dans l'espace latent. Pour remédier à cela, nous remplaçons les pertes Pseudo-Huber par des pertes Cauchy, atténuant efficacement l'impact des valeurs aberrantes. De plus, nous introduisons une perte de diffusion aux premiers pas de temps et utilisons le couplage de transport optimal (OT) pour améliorer encore les performances. Enfin, nous introduisons le planificateur d'échelle adaptative pour gérer le processus d'entraînement robuste et adoptons la normalisation des couches non scalables dans l'architecture pour mieux capturer les statistiques des caractéristiques et réduire l'impact des valeurs aberrantes. Grâce à ces stratégies, nous entraînons avec succès des modèles de cohérence latente capables de produire des échantillons de haute qualité en une ou deux étapes, réduisant significativement l'écart de performance entre la cohérence latente et les modèles de diffusion. L'implémentation est disponible ici : https://github.com/quandao10/sLCT/
Les travaux antérieurs sur l'édition de connaissances par modification de paramètres ont montré que l'édition séquentielle à grande échelle entraîne une dégradation significative du modèle. Dans cet article, nous étudions les raisons derrière cela et mettons à l'échelle l'édition séquentielle de connaissances à 10 000 modifications séquentielles, tout en maintenant les performances en aval du modèle d'origine. Nous montrons d'abord que les méthodes d'édition de connaissances localiser-puis-modifier conduisent à un surajustement sur les faits modifiés. Nous montrons également que l'édition continue de connaissances en utilisant ces méthodes entraîne une croissance disproportionnée de la norme de la matrice modifiée. Nous apportons ensuite un aperçu crucial du fonctionnement interne des méthodes localiser-puis-modifier. Nous montrons que la croissance de la norme est un tour de passe-passe caché utilisé par ces méthodes qui accorde une plus grande importance aux activations de sortie produites à partir des couches modifiées. Avec cette "piratage de l'importance", les couches modifiées contribuent beaucoup plus aux sorties du modèle. Pour atténuer ces problèmes, nous présentons ENCORE - Édition de connaissances Robuste avec Arrêt Précoce et Contrainte de Norme. ENCORE contrôle le surajustement et la croissance disproportionnée de la norme pour permettre une édition séquentielle à long terme, où nous sommes capables d'effectuer jusqu'à 10 000 modifications séquentielles sans perte de performances en aval. ENCORE est également 61 % plus rapide que MEMIT et 64 % plus rapide qu'AlphaEdit sur Llama3-8B.
La génération de texte long est cruciale pour la rédaction académique des articles et la génération de code au niveau des dépôts. Malgré cela, les modèles actuels, y compris le GPT-4o, présentent encore des performances insatisfaisantes. Les méthodes existantes qui utilisent l'apprentissage des préférences avec une supervision des résultats échouent souvent à fournir des retours détaillés pour des contextes étendus. Cette lacune peut entraîner un contenu qui ne satisfait pas pleinement les exigences de la requête, entraînant des problèmes tels que des écarts de longueur et une qualité diminuée. Dans cet article, nous proposons d'améliorer la génération de texte long en incorporant une supervision du processus. Nous utilisons la recherche arborescente Monte Carlo pour recueillir des paires de préférences par étapes, en utilisant un pool de mémoire global pour maintenir la cohérence. Pour résoudre le problème de la sélection de candidats suboptimaux, nous intégrons des critiques externes pour affiner et améliorer la qualité des paires de préférences. Enfin, nous appliquons une optimisation de préférences par étapes en utilisant les paires de préférences collectées. Les résultats expérimentaux montrent que notre méthode améliore la longueur et la qualité sur des référentiels de génération de texte long, avec une performance presque sans perte sur des référentiels généraux à travers diverses structures de modèles.
Les tests unitaires (UTs) jouent un rôle essentiel dans l'évaluation de la correction du code ainsi que dans la fourniture de retours à un grand modèle de langage (LLM) alors qu'il débogue itérativement un code défectueux, ce qui motive la génération automatique de tests. Cependant, nous découvrons un compromis entre la génération d'entrées de tests unitaires révélant des erreurs lorsqu'un code est défectueux et la prédiction correcte de la sortie du test unitaire sans accès à la solution de référence. Pour résoudre ce compromis, nous proposons UTGen, qui apprend aux LLM à générer des entrées de tests unitaires révélant des erreurs ainsi que leurs sorties attendues correctes en se basant sur les descriptions de tâches et le code candidat. Nous intégrons UTGen dans UTDebug, un pipeline de débogage robuste qui utilise des tests générés pour aider les LLM à déboguer efficacement. Étant donné que les tests générés par le modèle peuvent fournir des signaux bruités (par exemple, des sorties prédites de manière incorrecte), UTDebug (i) met à l'échelle UTGen via le calcul au moment du test pour améliorer la prédiction de la sortie de UT, et (ii) valide et annule les modifications en se basant sur plusieurs UT générés pour éviter le surajustement. Nous montrons que UTGen surpasse les références de génération de tests UT de 7,59 % en se basant sur une métrique mesurant la présence à la fois des entrées de UT révélant des erreurs et des sorties UT correctes. Lorsqu'il est utilisé avec UTDebug, nous constatons que les retours des tests unitaires de UTGen améliorent la précision pass@1 de Qwen-2.5 7B sur HumanEvalFix et notre propre partition de débogage plus difficile de MBPP+ de plus de 3 % et 12,35 % (respectivement) par rapport aux autres références de génération de tests UT basées sur LLM.
Les modèles de langage (LM) devraient fournir des estimations de confiance fiables pour aider les utilisateurs à détecter les erreurs dans leurs sorties et à se référer à des experts humains lorsque nécessaire. Demander à un modèle de langage d'évaluer sa confiance ("Évaluez votre confiance de 0 à 1.") est une façon naturelle d'évaluer son incertitude. Cependant, les modèles ont du mal à fournir des évaluations absolues de confiance (c'est-à-dire juger de la confiance en répondant à une question indépendamment des autres questions) et les scores grossiers qu'ils produisent ne sont pas utiles pour évaluer la justesse de leurs réponses. Nous proposons une estimation de la confiance relative, où nous confrontons des questions les unes aux autres et demandons au modèle de faire des jugements relatifs de confiance ("Dans quelle question êtes-vous le plus confiant pour répondre correctement?"). En traitant chaque question comme un "joueur" dans une série de confrontations contre d'autres questions et les préférences du modèle comme résultats de match, nous pouvons utiliser des méthodes d'agrégation de classement comme le classement Elo et Bradley-Terry pour traduire les préférences de confiance du modèle en scores de confiance. Nous évaluons l'estimation de la confiance relative par rapport à l'estimation de la confiance absolue et les méthodes de confiance auto-consistante sur cinq modèles de pointe - GPT-4, GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet et Llama 3.1 405B - sur 14 tâches exigeantes de questions-réponses en STEM, sciences sociales et raisonnement de bon sens. Nos résultats démontrent que l'estimation de la confiance relative fournit de manière cohérente des scores de confiance plus fiables que l'estimation de la confiance absolue, avec des gains moyens de 3,5% dans l'AUC de classification sélective par rapport aux méthodes d'estimation de la confiance absolue directe et de 1,7% par rapport aux approches d'auto-consistance sur l'ensemble des modèles et des ensembles de données.
Le rétropéritoine abrite une variété de tumeurs, y compris des types rares bénins et malins, qui posent des défis diagnostiques et thérapeutiques en raison de leur rareté et de leur proximité avec des structures vitales. Estimer le volume des tumeurs est difficile en raison de leurs formes irrégulières, et la segmentation manuelle est chronophage. La segmentation automatique utilisant U-Net et ses variantes, intégrant des éléments de Vision Transformer (ViT), a montré des résultats prometteurs mais rencontre des difficultés liées à des exigences computationnelles élevées. Pour remédier à cela, des architectures telles que le Modèle d'Espace d'État Mamba (SSM) et la Mémoire à Long Terme à Court Terme Étendue (xLSTM) offrent des solutions efficaces en traitant les dépendances à longue distance avec une consommation de ressources moindre. Cette étude évalue les améliorations d'U-Net, notamment CNN, ViT, Mamba et xLSTM, sur un nouvel ensemble de données CT interne et un ensemble de données public sur la segmentation des organes. Le modèle proposé ViLU-Net intègre des blocs Vi pour une segmentation améliorée. Les résultats mettent en évidence l'efficacité de xLSTM dans le cadre d'U-Net. Le code est accessible publiquement sur GitHub.
Les Modèles Fondation de Pathologie (FMs) offrent de grandes promesses pour le domaine de la santé. Avant de pouvoir être utilisés en pratique clinique, il est essentiel de s'assurer qu'ils sont robustes aux variations entre les centres médicaux. Nous mesurons si les FMs de pathologie se concentrent sur des caractéristiques biologiques telles que le tissu et le type de cancer, ou sur les signatures bien connues des centres médicaux introduites par la procédure de coloration et d'autres différences. Nous introduisons l'Indice de Robustesse. Cette nouvelle métrique de robustesse reflète dans quelle mesure les caractéristiques biologiques dominent les caractéristiques confondantes. Dix FMs de pathologie actuellement disponibles publiquement sont évalués. Nous constatons que tous les modèles de fondation de pathologie actuels évalués représentent fortement le centre médical. Des différences significatives dans l'indice de robustesse sont observées. Seul un modèle jusqu'à présent a un indice de robustesse supérieur à un, ce qui signifie que les caractéristiques biologiques dominent les caractéristiques confondantes, mais seulement légèrement. Une approche quantitative pour mesurer l'influence des différences entre les centres médicaux sur les performances de prédiction basées sur les FMs est décrite. Nous analysons l'impact de la non-robustesse sur les performances de classification des modèles en aval, et constatons que les erreurs de classification des types de cancer ne sont pas aléatoires, mais spécifiquement attribuables aux confondeurs du même centre : les images d'autres classes du même centre médical. Nous visualisons les espaces d'incorporation des FMs, et constatons qu'ils sont plus fortement organisés par les centres médicaux que par les facteurs biologiques. Par conséquent, le centre médical d'origine est prédit de manière plus précise que la source de tissu et le type de cancer. L'indice de robustesse introduit ici est fourni dans le but de faire progresser les avancées vers l'adoption clinique de FMs de pathologie robustes et fiables.