Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage (GML) peuvent-ils directement servir de puissants modèles du monde pour les agents basés sur des modèles ? Bien que des écarts existent entre les connaissances antérieures des GML et la dynamique de l'environnement spécifié, notre étude révèle que ces écarts peuvent être comblés en alignant un GML avec son environnement déployé, et un tel "alignement mondial" peut être efficacement réalisé en apprenant des règles sur les GML. Compte tenu des riches connaissances antérieures des GML, seules quelques règles supplémentaires suffisent pour aligner les prédictions des GML avec la dynamique de l'environnement spécifié. À cette fin, nous proposons une approche neurosymbolique pour apprendre ces règles sans gradient à travers les GML, en induisant, mettant à jour et élaguant des règles basées sur des comparaisons entre les trajectoires explorées par l'agent et les prédictions du modèle du monde. Le modèle du monde résultant est composé du GML et des règles apprises. Notre agent GML incarné "WALL-E" est construit sur un contrôle prédictif de modèle (CPM). En optimisant les actions de prévision en fonction du modèle du monde précis, le CPM améliore significativement l'efficacité de l'exploration et de l'apprentissage. Comparé aux agents GML existants, le raisonnement de WALL-E ne nécessite que quelques règles principales plutôt que des trajectoires tampon verbeuses incluses en entrée du GML. Sur des défis en monde ouvert dans Minecraft et ALFWorld, WALL-E atteint des taux de réussite plus élevés que les méthodes existantes, avec des coûts moindres en termes de temps de replanification et du nombre de jetons utilisés pour le raisonnement. Dans Minecraft, WALL-E dépasse les références de 15 à 30 % en taux de réussite tout en nécessitant de 8 à 20 rounds de replanification en moins et seulement 60 à 80 % des jetons. Dans ALFWorld, son taux de réussite atteint un nouveau record de 95 % seulement après 6 itérations.
Il a été démontré que le code est efficace pour améliorer les capacités de raisonnement mathématique des grands modèles de langage en raison de sa précision et de son exactitude. Les travaux précédents impliquant un pré-entraînement mathématique continu incluent souvent du code utilisant des packages liés aux mathématiques, principalement conçus pour des domaines tels que l'ingénierie, l'apprentissage automatique, le traitement du signal ou les tests de modules, plutôt que d'être directement axés sur le raisonnement mathématique. Dans cet article, nous introduisons une nouvelle méthode pour générer du code mathématique accompagné des étapes de raisonnement correspondantes pour un pré-entraînement continu. Notre approche commence par la construction d'un ensemble de données de haute qualité pour le pré-entraînement mathématique continu en incorporant des données web liées aux mathématiques, du code utilisant des packages mathématiques, des manuels de mathématiques et des données synthétiques. Ensuite, nous construisons des étapes de raisonnement en extrayant des expressions LaTeX, les conditions nécessaires pour les expressions et les résultats des expressions à partir de l'ensemble de données collecté précédemment. Sur la base de ces informations extraites, nous générons du code correspondant pour capturer précisément le processus de raisonnement mathématique. L'ajout du code généré à chaque étape de raisonnement donne des données composées d'étapes de raisonnement en langage naturel associées à leur code correspondant. En combinant ces données avec l'ensemble de données d'origine, nous obtenons un corpus de pré-entraînement mathématique performant de 19,2 milliards de jetons, que nous nommons MathCode-Pile. Entraîner plusieurs modèles de base populaires avec ce corpus améliore significativement leurs capacités mathématiques, conduisant à la création de la famille de modèles MathCoder2. Tout notre code de traitement des données et d'entraînement est open source, garantissant une transparence totale et une reproductibilité facile de l'ensemble de la collecte de données et du pipeline d'entraînement. Le code est disponible sur https://github.com/mathllm/MathCoder2.
Les agents MLLM démontrent un potentiel pour des tâches incarnées complexes en récupérant des données de trajectoire multimodales pertinentes pour la tâche. Cependant, les méthodes actuelles de récupération se concentrent principalement sur les similarités de surface des indices textuels ou visuels dans les trajectoires, négligeant leur efficacité pour la tâche spécifique en cours. Pour résoudre ce problème, nous proposons une méthode novatrice, MLLM en tant que Rechercheur (MART), qui améliore les performances des agents incarnés en utilisant des données d'interaction pour affiner un rechercheur MLLM basé sur l'apprentissage de préférences, de sorte que le rechercheur considère pleinement l'efficacité des trajectoires et les priorise pour les tâches non vues. Nous introduisons également l'Abstraction de Trajectoire, un mécanisme qui exploite les capacités de résumé des MLLM pour représenter les trajectoires avec moins de jetons tout en préservant les informations clés, permettant aux agents de mieux comprendre les étapes importantes de la trajectoire. Les résultats expérimentaux dans divers environnements démontrent que notre méthode améliore significativement les taux de réussite des tâches dans des scènes non vues par rapport aux méthodes de référence. Ce travail présente un nouveau paradigme pour la récupération multimodale chez les agents incarnés, en affinant un MLLM polyvalent en tant que rechercheur pour évaluer l'efficacité des trajectoires. Tous les ensembles de tâches de référence et les modifications du code du simulateur pour les espaces d'action et d'observation seront publiés.
La quantification est essentielle pour le déploiement des grands modèles de langage (LLM) en améliorant l'efficacité de la mémoire et la vitesse d'inférence. Les méthodes existantes de quantification de l'activation abordent principalement les valeurs aberrantes par canal, négligeant souvent les valeurs aberrantes par jeton, ce qui conduit à une dépendance coûteuse à la quantification dynamique par jeton. Pour remédier à cela, nous introduisons PrefixQuant, une nouvelle technique qui isole les jetons aberrants hors ligne sans re-entraînement. Plus précisément, PrefixQuant identifie les jetons aberrants à haute fréquence et les préfixe dans le cache KV, empêchant la génération de jetons aberrants lors de l'inférence et simplifiant la quantification. À notre connaissance, PrefixQuant est le premier à permettre une quantification statique par tenseur efficace pour surpasser la coûteuse quantification dynamique par jeton. Par exemple, dans le Llama-3-8B W4A4KV4 (poids sur 4 bits, activation sur 4 bits et cache KV sur 4 bits), PrefixQuant avec quantification statique par tenseur atteint une perplexité de 7,43 sur WikiText2 et une précision moyenne de 71,08% sur 5 tâches de raisonnement de bon sens, surpassant les méthodes précédentes de quantification dynamique par jeton comme QuaRot avec une amélioration de 0,98 en perplexité et +5,98 en précision. De plus, la vitesse d'inférence des modèles quantifiés W4A4 utilisant PrefixQuant est de 1,60x à 2,81x plus rapide que les modèles FP16 et dépasse les modèles QuaRot de 1,2x à 1,3x. Notre code est disponible sur https://github.com/ChenMnZ/PrefixQuant.
Les grands modèles de langage (LLM), avec leur capacité exceptionnelle à gérer une large gamme de tâches, ont permis des avancées significatives dans le traitement des tâches de raisonnement et de planification, où la décomposition de problèmes complexes en flux de travail exécutables est une étape cruciale de ce processus. Les cadres d'évaluation de flux de travail existants se concentrent soit uniquement sur la performance holistique, soit souffrent de limitations telles qu'une couverture de scénarios restreinte, des structures de flux de travail simplistes et des normes d'évaluation laxistes. À cette fin, nous introduisons WorFBench, un banc d'essai unifié pour la génération de flux de travail avec des scénarios multifacettes et des structures de flux de travail graphique complexes. De plus, nous présentons WorFEval, un protocole d'évaluation systémique utilisant des algorithmes de correspondance de sous-séquence et de sous-graphes pour quantifier avec précision les capacités de génération de flux de travail de l'agent LLM. À travers des évaluations approfondies sur différents types de LLM, nous découvrons des écarts distincts entre les capacités de planification de séquence et de planification de graphe des agents LLM, avec même GPT-4 présentant un écart d'environ 15%. Nous formons également deux modèles open-source et évaluons leurs capacités de généralisation sur des tâches retenues. De plus, nous observons que les flux de travail générés peuvent améliorer les tâches en aval, leur permettant d'atteindre des performances supérieures en moins de temps lors de l'inférence. Le code et l'ensemble de données seront disponibles sur https://github.com/zjunlp/WorFBench.
Nous présentons Agent S, un cadre agentic ouvert qui permet une interaction autonome avec les ordinateurs via une Interface Graphique Utilisateur (GUI), visant à transformer l'interaction homme-machine en automatisant des tâches complexes et multi-étapes. Agent S vise à relever trois défis clés dans l'automatisation des tâches informatiques : acquérir des connaissances spécifiques au domaine, planifier sur de longs horizons de tâches, et gérer des interfaces dynamiques et non uniformes. À cette fin, Agent S introduit une planification hiérarchique augmentée par l'expérience, qui apprend de la recherche de connaissances externes et de la récupération d'expérience interne à plusieurs niveaux, facilitant la planification efficace des tâches et l'exécution des sous-tâches. De plus, il utilise une Interface Agent-Ordinateur (ACI) pour mieux solliciter les capacités de raisonnement et de contrôle des agents GUI basés sur les Modèles de Langage Multimodal Large (MLLMs). L'évaluation sur le benchmark OSWorld montre qu'Agent S surpasse la référence de 9,37% en taux de réussite (une amélioration relative de 83,6%) et atteint un nouvel état de l'art. Une analyse approfondie met en évidence l'efficacité des composants individuels et fournit des perspectives pour des améliorations futures. De plus, Agent S démontre une large capacité de généralisation à différents systèmes d'exploitation sur un nouveau benchmark WindowsAgentArena récemment publié. Code disponible sur https://github.com/simular-ai/Agent-S.
Les modèles de diffusion sont devenus l'approche dominante pour la génération visuelle. Ils sont entraînés en débruitant un processus markovien qui ajoute progressivement du bruit à l'entrée. Nous soutenons que la propriété markovienne limite la capacité des modèles à exploiter pleinement la trajectoire de génération, entraînant des inefficacités lors de l'entraînement et de l'inférence. Dans cet article, nous proposons DART, un modèle basé sur un transformateur qui unifie l'autorégressif (AR) et la diffusion au sein d'un cadre non markovien. DART débruite de manière itérative des patchs d'image spatialement et spectralement en utilisant un modèle AR avec la même architecture que les modèles de langage standard. DART ne repose pas sur la quantification d'image, ce qui permet une modélisation d'image plus efficace tout en conservant la flexibilité. De plus, DART s'entraîne de manière transparente avec à la fois des données textuelles et des données d'image dans un modèle unifié. Notre approche démontre des performances compétitives sur des tâches de génération conditionnée par classe et de texte à image, offrant une alternative évolutive et efficace aux modèles de diffusion traditionnels. Grâce à ce cadre unifié, DART établit une nouvelle référence en matière de synthèse d'image évolutive et de haute qualité.
Les modèles de diffusion discrète ont connu du succès dans des tâches telles que la génération d'images et la modélisation de langage masquée, mais rencontrent des limites dans l'édition de contenu contrôlé. Nous présentons DICE (Inversion Discrète pour l'Édition Contrôlée), la première approche permettant une inversion précise pour les modèles de diffusion discrète, y compris la diffusion multinomiale et les modèles génératifs masqués. En enregistrant les séquences de bruit et les motifs de masquage lors du processus de diffusion inverse, DICE permet une reconstruction précise et une édition flexible des données discrètes sans avoir besoin de masques prédéfinis ou de manipulation de l'attention. Nous démontrons l'efficacité de DICE dans les domaines de l'image et du texte, en l'évaluant sur des modèles tels que VQ-Diffusion, Paella et RoBERTa. Nos résultats montrent que DICE préserve une grande fidélité des données tout en améliorant les capacités d'édition, offrant de nouvelles opportunités pour la manipulation de contenu détaillée dans des espaces discrets. Pour la page web du projet, consultez https://hexiaoxiao-cs.github.io/DICE/.
Les modèles de diffusion ont considérablement amélioré la génération visuelle mais sont entravés par une lente vitesse de génération en raison de la nature intensivement calculatoire de la résolution des EDO génératives. Le flux redressé, une solution largement reconnue, améliore la vitesse de génération en redressant le chemin des EDO. Ses composants clés incluent : 1) l'utilisation de la forme de diffusion de l'appariement de flux, 2) l'emploi de la prédiction en gras v, et 3) l'exécution de la rectification (alias reflow). Dans cet article, nous soutenons que le succès de la rectification réside principalement dans l'utilisation d'un modèle de diffusion pré-entraîné pour obtenir des paires appariées de bruit et d'échantillons, suivie d'une reformation avec ces paires appariées de bruit-échantillon. Sur cette base, les composants 1) et 2) sont superflus. De plus, nous soulignons que la rectitude n'est pas un objectif d'entraînement essentiel pour la rectification ; c'est plutôt un cas spécifique des modèles d'appariement de flux. L'objectif d'entraînement le plus critique est d'atteindre un chemin d'EDO approximatif de premier ordre, qui est intrinsèquement courbé pour des modèles comme DDPM et Sub-VP. S'appuyant sur cette compréhension, nous proposons la Diffusion Redressée, qui généralise l'espace de conception et le champ d'application de la rectification pour englober la catégorie plus large des modèles de diffusion, plutôt que d'être limitée aux modèles d'appariement de flux. Nous validons notre méthode sur Stable Diffusion v1-5 et Stable Diffusion XL. Notre méthode simplifie considérablement la procédure d'entraînement des travaux antérieurs basés sur le flux redressé (par exemple, InstaFlow) tout en atteignant des performances supérieures avec un coût d'entraînement encore plus bas. Notre code est disponible sur https://github.com/G-U-N/Rectified-Diffusion.
Les modèles actuels de diffusion vidéo de pointe ont démontré des résultats remarquables dans la génération de vidéos de haute qualité. Cependant, ils ne peuvent générer que de courts clips vidéo, généralement d'environ 10 secondes ou 240 images, en raison des limitations de calcul lors de l'entraînement. Dans ce travail, nous montrons que les modèles existants peuvent être naturellement étendus aux modèles de diffusion vidéo autorégressifs sans modifier les architectures. Notre idée clé est d'attribuer aux images latentes des niveaux de bruit progressivement croissants plutôt qu'un seul niveau de bruit, ce qui permet une condition fine entre les latents et de larges chevauchements entre les fenêtres d'attention. Ce débruitage vidéo progressif permet à nos modèles de générer de manière autorégressive des images vidéo sans dégradation de la qualité ni changements de scène abrupts. Nous présentons des résultats de pointe sur la génération de vidéos longues d'une minute (1440 images à 24 images par seconde). Les vidéos de cet article sont disponibles sur https://desaixie.github.io/pa-vdm/.
Dans ce travail, nous proposons une méthode novatrice (GLOV) permettant aux grands modèles de langage (LLM) d'agir en tant qu'optimiseurs implicites pour les modèles Vision-Langage (VLM) afin d'améliorer les tâches de vision en aval. Notre GLOV méta-sollicite un LLM avec la description de la tâche en aval, l'interrogeant pour des sollicitations VLM appropriées (par exemple, pour la classification sans étiquette avec CLIP). Ces sollicitations sont classées selon une mesure de pureté obtenue grâce à une fonction de fitness. À chaque étape d'optimisation respective, les sollicitations classées sont fournies en tant qu'exemples en contexte (avec leurs précisions) pour doter le LLM de la connaissance du type de sollicitations textuelles préférées par le VLM en aval. De plus, nous orientons également explicitement le processus de génération du LLM à chaque étape d'optimisation en ajoutant spécifiquement un vecteur de différence de décalage des plongements des solutions positives et négatives trouvées par le LLM, lors des étapes d'optimisation précédentes, à la couche intermédiaire du réseau pour l'étape de génération suivante. Ce vecteur de décalage oriente la génération du LLM vers le type de langage préféré par le VLM en aval, ce qui se traduit par une performance améliorée sur les tâches de vision en aval. Nous évaluons de manière exhaustive notre GLOV sur 16 ensembles de données divers en utilisant deux familles de VLM, à savoir les modèles à double encodeur (par exemple, CLIP) et encodeur-décodeur (par exemple, LLaVa) - démontrant que les solutions découvertes peuvent améliorer la performance de reconnaissance jusqu'à 15,0 % et 57,5 % (3,8 % et 21,6 % en moyenne) pour ces modèles.
Récemment, les grands modèles de langage et de vision (LLVM) ont reçu une attention significative et des efforts de développement en raison de leurs performances de généralisation remarquables sur une large gamme de tâches nécessitant des capacités de perception et cognitives. Un facteur clé derrière leur succès est leur architecture simple, qui se compose d'un encodeur de vision, d'un projecteur et d'un grand modèle de langage (LLM). Malgré leurs réalisations dans des tâches avancées de raisonnement, leurs performances sur des tâches fondamentales liées à la perception (par exemple, MMVP) restent étonnamment faibles. Cette disparité soulève la question de la manière dont les LLVM perçoivent réellement les images et exploitent les avantages de l'encodeur de vision. Pour aborder cette question, nous investiguons systématiquement cette question concernant plusieurs aspects : l'invariance par permutation, la robustesse, le raisonnement mathématique, la préservation et l'importance de l'alignement, en évaluant les familles de LLVM les plus courantes (c'est-à-dire, LLaVA) à travers 10 benchmarks d'évaluation. Nos expériences approfondies révèlent plusieurs propriétés intrigantes des LLVM actuels : (1) ils traitent internement l'image de manière globale, même lorsque l'ordre des séquences de patchs visuels est permuté de manière aléatoire ; (2) ils sont parfois capables de résoudre des problèmes mathématiques sans percevoir entièrement les informations numériques détaillées ; (3) l'alignement croisé modal est surajusté aux tâches de raisonnement complexes, ce qui les amène à perdre certaines des capacités perceptuelles originales de leur encodeur de vision ; (4) l'espace de représentation dans les couches inférieures (<25%) joue un rôle crucial dans la détermination des performances et l'amélioration de la compréhension visuelle. Enfin, sur la base des observations ci-dessus, nous suggérons des orientations futures potentielles pour la construction de meilleurs LLVM et la création de benchmarks d'évaluation plus stimulants.
Les grands modèles de langage (LLM) ont démontré des capacités d'apprentissage en contexte remarquables. Dans cette étude, nous explorons un phénomène surprenant lié à l'apprentissage en contexte : les LLM peuvent effectuer simultanément plusieurs tâches d'apprentissage en contexte computationnellement distinctes, lors d'un seul appel d'inférence, une capacité que nous appelons "superposition de tâches". Nous fournissons des preuves empiriques de ce phénomène à travers diverses familles et échelles de LLM, et montrons que ce phénomène émerge même si nous entraînons le modèle à apprendre en contexte une tâche à la fois. Nous proposons des explications théoriques selon lesquelles cette capacité est bien dans le pouvoir expressif des transformeurs. Nous explorons également comment les LLM composent internement des vecteurs de tâches lors de la superposition. De plus, nous montrons que les modèles plus grands peuvent résoudre davantage de tâches d'apprentissage en contexte en parallèle, et mieux calibrer leur distribution de sortie. Nos découvertes offrent des perspectives sur les capacités latentes des LLM, renforcent davantage la perspective des "LLM en tant que superposition de simulateurs", et soulèvent des questions sur les mécanismes permettant l'exécution simultanée de tâches.
Dans cet article, nous proposons une nouvelle méthode pour améliorer la compréhension compositionnelle dans les modèles de vision et de langage pré-entraînés (VLM) sans compromettre les performances dans les tâches multi-modales à zéro-shot. Les approches traditionnelles de fine-tuning améliorent souvent le raisonnement compositionnel au détriment des capacités multi-modales, principalement en raison de l'utilisation de la perte globale de négatif dur (HN), qui contraste les représentations globales des images et des textes. Cette perte globale de HN pousse les textes HN qui sont très similaires aux originaux, endommageant les représentations multi-modales du modèle. Pour surmonter cette limitation, nous proposons Fine-grained Selective Calibrated CLIP (FSC-CLIP), qui intègre une perte de négatif dur locale et une régularisation calibrée sélective. Ces innovations fournissent une supervision négative fine-granulaire tout en préservant l'intégrité représentationnelle du modèle. Nos évaluations approfondies sur divers benchmarks pour les tâches compositionnelles et multi-modales montrent que FSC-CLIP atteint non seulement une compositionnalité comparable aux modèles de pointe, mais conserve également de solides capacités multi-modales. Le code est disponible sur : https://github.com/ytaek-oh/fsc-clip.
La recherche arborescente Monte Carlo (Monte Carlo Tree Search ou MCTS) a récemment émergé comme une technique puissante pour améliorer les capacités de raisonnement des LLM. Des techniques telles que SFT ou DPO ont permis aux LLM de distiller des comportements de haute qualité à partir de MCTS, améliorant ainsi leurs performances de raisonnement. Cependant, les méthodes de distillation existantes sous-exploitent les riches informations de trajectoire générées par MCTS, limitant le potentiel d'amélioration du raisonnement des LLM. Dans cet article, nous proposons AlphaLLM-CPL, un nouveau cadre d'entraînement par paires qui permet aux LLM de s'améliorer par auto-distillation des comportements via MCTS. AlphaLLM-CPL exploite efficacement les trajectoires de MCTS grâce à deux innovations clés : (1) AlphaLLM-CPL construit des paires de trajectoires par étapes à partir des nœuds enfants partageant le même parent dans l'arbre de recherche, fournissant des informations au niveau des étapes pour une distillation de comportement MCTS plus efficace. (2) AlphaLLM-CPL introduit l'apprentissage de préférence de curriculum, ajustant dynamiquement la séquence d'entraînement des paires de trajectoires dans chaque époque d'entraînement hors ligne pour prioriser les étapes d'apprentissage critiques et atténuer le surajustement. Les résultats expérimentaux sur des tâches de raisonnement mathématique démontrent qu'AlphaLLM-CPL surpasse significativement les méthodes précédentes de distillation de comportement MCTS, renforçant considérablement les capacités de raisonnement des LLM.
Les systèmes multi-agents (SMA) basés sur de grands modèles de langage (LLM) montrent un potentiel remarquable en matière de résolution collaborative de problèmes, mais ils rencontrent encore des défis critiques : une faible efficacité de communication, une scalabilité limitée et un manque de méthodes d'optimisation efficaces pour la mise à jour des paramètres. Nous présentons Optima, un nouveau cadre qui aborde ces problèmes en améliorant significativement à la fois l'efficacité de la communication et l'efficacité des tâches dans les SMA basés sur le LLM grâce à l'entraînement du LLM. Optima utilise un paradigme itératif de génération, classement, sélection et entraînement avec une fonction de récompense équilibrant la performance des tâches, l'efficacité des jetons et la lisibilité de la communication. Nous explorons divers algorithmes de RL, y compris le Fine-Tuning Supervisé, l'Optimisation Directe des Préférences et leurs approches hybrides, fournissant des perspectives sur leurs compromis entre efficacité et efficience. Nous intégrons des techniques inspirées de la recherche arborescente de Monte Carlo pour la génération de données DPO, traitant les tours de conversation comme des nœuds d'arbre pour explorer des chemins d'interaction diversifiés. Évalué sur des tâches multi-agents courantes, y compris la réponse à des questions asymétriques en termes d'information et le raisonnement complexe, Optima montre des améliorations constantes et substantielles par rapport aux références mono-agent et aux SMA de base basés sur Llama 3 8B, atteignant jusqu'à 2,8 fois de gains de performance avec moins de 10 % de jetons sur des tâches nécessitant un échange d'informations important. De plus, les gains d'efficacité d'Optima ouvrent de nouvelles possibilités pour exploiter plus efficacement l'inférence-calcul, conduisant à des lois d'échelle d'inférence améliorées. En abordant les défis fondamentaux des SMA basés sur le LLM, Optima montre le potentiel vers des SMA évolutifs, efficaces et efficaces (https://chenweize1998.github.io/optima-project-page).
Ce document propose le paradigme des grands noyaux de convolution dans la conception des réseaux neuronaux convolutionnels modernes (ConvNets). Nous établissons que l'utilisation de quelques grands noyaux, au lieu d'empiler de multiples plus petits, peut être une stratégie de conception supérieure. Notre travail introduit un ensemble de lignes directrices de conception architecturale pour les ConvNets à grands noyaux qui optimisent leur efficacité et leurs performances. Nous proposons l'architecture UniRepLKNet, qui offre des principes de conception architecturale systématiques spécifiquement conçus pour les ConvNets à grands noyaux, mettant en avant leur capacité unique à capturer des informations spatiales étendues sans empilement de couches profondes. Cela aboutit à un modèle qui non seulement dépasse ses prédécesseurs avec une précision ImageNet de 88,0 %, un mIoU ADE20K de 55,6 % et un AP de boîte COCO de 56,4 %, mais qui démontre également une extensibilité et des performances impressionnantes sur diverses modalités telles que la prévision de séries temporelles, l'audio, les nuages de points et la reconnaissance vidéo. Ces résultats indiquent les capacités de modélisation universelles des ConvNets à grands noyaux avec une vitesse d'inférence plus rapide par rapport aux transformateurs de vision. Nos découvertes révèlent que les ConvNets à grands noyaux possèdent des champs récepteurs effectifs plus grands et un biais de forme plus élevé, s'éloignant du biais de texture typique des CNN à petits noyaux. Tous les codes et modèles sont disponibles publiquement sur https://github.com/AILab-CVC/UniRepLKNet, favorisant ainsi la recherche et le développement ultérieurs dans la communauté.
Les référentiels automatiques de LLM, tels qu'AlpacaEval 2.0, Arena-Hard-Auto et MT-Bench, sont devenus populaires pour évaluer les modèles de langage en raison de leur rentabilité et de leur extensibilité par rapport à l'évaluation humaine. Obtenir des taux de réussite élevés sur ces référentiels peut considérablement renforcer l'impact promotionnel des nouveaux modèles de langage publiés. Ce bénéfice promotionnel peut inciter à des astuces, telles que la manipulation de la longueur ou du style de sortie du modèle pour influencer les taux de réussite, même si plusieurs mécanismes ont été développés pour contrôler la longueur et démêler le style afin de réduire la possibilité de tricherie. Néanmoins, nous montrons qu'un "modèle nul" qui produit toujours une réponse constante (sans rapport avec les instructions d'entrée) peut tromper les référentiels automatiques et obtenir des taux de réussite classés au sommet : un taux de réussite de 86,5 % LC sur AlpacaEval 2.0 ; un score de 83,0 sur Arena-Hard-Auto ; et un score de 9,55 sur MT-Bench. De plus, les sorties de tricherie élaborées sont transférables car nous supposons que les instructions de ces référentiels (par exemple, 805 échantillons d'AlpacaEval 2.0) sont privées et inaccessibles. Bien que nos expériences soient principalement des preuves de concept, un adversaire pourrait utiliser des LLM pour générer des réponses de tricherie plus imperceptibles, bénéficiant de manière non éthique de taux de réussite élevés et d'un impact promotionnel. Nos conclusions appellent au développement de mécanismes anti-tricherie pour des référentiels automatiques fiables. Le code est disponible sur https://github.com/sail-sg/Cheating-LLM-Benchmarks.
Nous étudions les performances des transformeurs en fonction du nombre de répétitions des exemples d'entraînement avec des ensembles de données générés de manière algorithmique. Sur trois problèmes de mathématiques : le plus grand commun diviseur, la multiplication modulaire et les valeurs propres de matrices, nous montrons que pour un nombre fixe d'étapes d'entraînement, les modèles entraînés sur de plus petits ensembles d'exemples répétés surpassent les modèles entraînés sur de plus grands ensembles d'exemples à usage unique. Nous démontrons également que l'entraînement à deux ensembles - l'utilisation répétée d'un petit sous-ensemble aléatoire d'exemples, ainsi qu'un échantillonnage normal sur le reste de l'ensemble d'entraînement - permet un apprentissage plus rapide et de meilleures performances. Cela met en lumière que les avantages de la répétition peuvent l'emporter sur ceux de la diversité des données. Ces ensembles de données et problèmes offrent un cadre contrôlé pour éclairer l'interaction encore mal comprise entre la généralisation et la mémorisation dans l'apprentissage profond.
Pour induire des comportements souhaités dans de grands modèles de langage (LLM) pour des tâches axées sur l'interaction, l'étape de réglage des instructions entraîne généralement les LLM sur des paires instruction-réponse en utilisant la perte de prédiction du jeton suivant (NTP). Les travaux précédents visant à améliorer les performances du réglage des instructions mettent souvent l'accent sur le besoin de jeux de données de fine-tuning supervisés de haute qualité (SFT), qui impliquent généralement un filtrage coûteux des données avec des LLM propriétaires ou une génération de données intensive en main-d'œuvre par des annotateurs humains. Cependant, ces approches n'exploitent pas pleinement les propriétés intrinsèques des jeux de données, ce qui entraîne des coûts informatiques et de main-d'œuvre élevés, limitant ainsi la scalabilité et les gains de performance. Dans cet article, nous proposons SFTMix, une nouvelle méthode qui élève les performances du réglage des instructions au-delà du paradigme NTP conventionnel, sans avoir besoin de jeux de données bien élaborés. En observant que les LLM présentent une confiance inégale à travers l'espace de représentation sémantique, nous soutenons que les exemples avec différents niveaux de confiance devraient jouer des rôles distincts lors du processus de réglage des instructions. Sur la base de cette observation, SFTMix exploite la dynamique d'entraînement pour identifier des exemples avec des niveaux de confiance variables, puis applique une régularisation basée sur Mixup pour atténuer le surajustement sur les exemples confiants tout en propageant les signaux de supervision pour améliorer l'apprentissage sur ceux relativement peu confiants. Cette approche permet à SFTMix de surpasser significativement le NTP sur une large gamme de tâches SFT spécifiques à l'application du suivi des instructions et de la santé, démontrant son adaptabilité à diverses familles de LLM et sa scalabilité à des ensembles de données de toute taille. Des études d'ablation approfondies confirment en outre la robustesse des choix de conception de SFTMix, soulignant sa polyvalence dans l'amélioration constante des performances à travers différents LLM et ensembles de données dans des applications plus larges de traitement du langage naturel.
L'apprentissage par renforcement à partir des retours humains (RLHF) s'est imposé comme un outil essentiel pour aligner les grands modèles de langage (LLMs) sur les préférences humaines. L'Optimisation Directe des Préférences (DPO), l'une des approches les plus populaires, formule le RLHF comme un problème d'optimisation de politique sans estimer explicitement la fonction de récompense. Elle surmonte les problèmes de stabilité et d'efficacité des approches en deux étapes, qui impliquent généralement d'estimer d'abord la fonction de récompense, puis d'optimiser la politique via l'optimisation de politique proximale (PPO). Comme le RLHF est essentiellement un problème d'optimisation, et qu'il est bien connu que les techniques de momentum peuvent accélérer l'optimisation à la fois théoriquement et empiriquement, une question naturelle se pose : le RLHF peut-il être accéléré par le momentum ? Cet article répond affirmativement à cette question. En détail, nous montrons d'abord que la méthode d'optimisation des préférences itératives peut être vue comme une méthode de point proximal. Sur la base de cette observation, nous proposons un cadre général d'Optimisation des Préférences Accélérée (APO), qui unifie de nombreux algorithmes d'optimisation des préférences existants et utilise la technique de momentum de Nesterov pour accélérer l'alignement des LLMs. Théoriquement, nous démontrons que l'APO peut atteindre un taux de convergence plus rapide que les méthodes d'optimisation des préférences itératives standard, y compris le DPO et l'Optimisation des Préférences en Auto-Confrontation (SPPO). Empiriquement, nous montrons la supériorité de l'APO par rapport au DPO, au DPO itératif et à d'autres bases solides pour le RLHF sur le benchmark AlpacaEval 2.0.
La reconstruction dynamique de scènes est un défi à long terme dans le domaine de la vision 3D. Récemment, l'émergence du Splatting Gaussien en 3D a apporté de nouvelles perspectives à ce problème. Bien que des efforts ultérieurs étendent rapidement les Gaussiennes 3D statiques aux scènes dynamiques, ils manquent souvent de contraintes explicites sur le mouvement des objets, ce qui entraîne des difficultés d'optimisation et une dégradation des performances. Pour résoudre les problèmes susmentionnés, nous proposons un nouveau cadre de splatting gaussien 3D déformable appelé MotionGS, qui explore des contraintes de mouvement explicites pour guider la déformation des Gaussiennes 3D. Plus précisément, nous introduisons d'abord un module de découplage du flux optique qui sépare le flux optique en flux de caméra et flux de mouvement, correspondant respectivement au mouvement de la caméra et au mouvement de l'objet. Ensuite, le flux de mouvement peut efficacement contraindre la déformation des Gaussiennes 3D, simulant ainsi le mouvement des objets dynamiques. De plus, un module de raffinement de la pose de la caméra est proposé pour optimiser alternativement les Gaussiennes 3D et les poses de caméra, atténuant l'impact des poses de caméra inexactes. Des expériences approfondies dans des scènes dynamiques monoculaires valident que MotionGS surpasse les méthodes de pointe et présente une supériorité significative à la fois en termes de résultats qualitatifs et quantitatifs. Page du projet : https://ruijiezhu94.github.io/MotionGS_page
Les grands modèles de langage (LLM) ont montré des capacités remarquables d'apprentissage en contexte (ICL) sur des données textuelles. Nous explorons si ces capacités peuvent être étendues à des vecteurs continus provenant de domaines divers, obtenus à partir d'encodeurs pré-entraînés en boîte noire. En alignant les données d'entrée avec l'espace d'incorporation d'un LLM grâce à des projecteurs légers, nous observons que les LLM peuvent traiter efficacement et apprendre à partir de ces vecteurs projetés, que nous appelons Vector-ICL. En particulier, nous constatons que la pré-formation des projecteurs avec des objectifs généraux de modélisation de langage permet Vector-ICL, tandis que le fine-tuning spécifique à la tâche améliore encore les performances. Dans nos expériences sur diverses tâches et modalités, y compris la reconstruction de texte, la régression de fonctions numériques, la classification de texte, la résumé, la légende de molécules, la classification de séries temporelles, la classification de graphes et le décodage d'IRMf, Vector-ICL dépasse souvent à la fois l'ICL à quelques coups et le modèle ou l'ajustement spécifique au domaine. Nous menons en outre des analyses et des études de cas, indiquant le potentiel des LLM à traiter des représentations vectorielles au-delà des paradigmes traditionnels basés sur des jetons.
Les données sont un élément crucial dans l'alignement des grands modèles de langage (GML). Des études récentes ont exploré l'utilisation des GML pour la collecte efficace de données. Cependant, les données générées par les GML souffrent souvent de problèmes de qualité, avec des aspects sous-représentés ou absents et des points de données de faible qualité. Pour résoudre ces problèmes, nous proposons Data Advisor, une méthode améliorée basée sur les GML pour la génération de données qui prend en compte les caractéristiques de l'ensemble de données souhaité. À partir d'un ensemble de principes prédéfinis, Data Advisor surveille l'état des données générées, identifie les faiblesses dans l'ensemble de données actuel et conseille en conséquence la prochaine itération de génération de données. Data Advisor peut être facilement intégré dans les méthodes de génération de données existantes pour améliorer la qualité et la couverture des données. Des expériences sur l'alignement de sécurité de trois GML représentatifs (c'est-à-dire Mistral, Llama2 et Falcon) démontrent l'efficacité de Data Advisor dans l'amélioration de la sécurité du modèle contre divers problèmes de sécurité détaillés sans sacrifier l'utilité du modèle.
Malgré ses performances exceptionnelles, la Recherche d'Architecture Neuronale (RAN) est critiquée pour sa consommation massive de calcul. Récemment, la RAN sans entraînement préalable est apparue comme une approche prometteuse en exploitant des proxies sans coût (ZC), qui réduisent considérablement les exigences computationnelles. Malgré cela, les proxies ZC existants reposent fortement sur des connaissances d'experts et entraînent des coûts significatifs d'essais et d'erreurs. Particulièrement dans les tâches de Traitement du Langage Naturel (NLP), la plupart des proxies ZC existants ne parviennent pas à surpasser les performances de la ligne de base naïve. Pour relever ces défis, nous introduisons un nouveau cadre, LPZero, qui est le premier à concevoir automatiquement des proxies ZC pour diverses tâches, obtenant une meilleure cohérence de classement que les proxies conçus par des humains. Plus précisément, nous modélisons le proxy ZC comme une équation symbolique et incorporons un espace de recherche de proxy unifié qui englobe les proxies ZC existants, composés d'un ensemble prédéfini de symboles mathématiques. Pour rechercher de manière heuristique le meilleur proxy ZC, LPZero intègre la programmation génétique pour trouver la composition symbolique optimale. Nous proposons une Stratégie d'Élagage Basée sur des Règles (RPS), qui élimine de manière préventive les proxies peu prometteurs, atténuant ainsi le risque de dégradation des proxies. Des expériences approfondies sur FlexiBERT, GPT-2 et LLaMA-7B démontrent la capacité de classement supérieure de LPZero et ses performances sur les tâches en aval par rapport aux approches actuelles.
La résolution d'équations aux dérivées partielles (EDP) paramétriques dépendantes du temps est complexe, car les modèles doivent s'adapter aux variations des paramètres tels que les coefficients, les termes de forçage et les conditions aux limites. Les solveurs neuronaux basés sur les données s'entraînent soit sur des données échantillonnées à partir de la distribution des paramètres des EDP dans l'espoir que le modèle généralise à de nouvelles instances, soit s'appuient sur une adaptation basée sur les gradients et l'apprentissage méta pour encoder implicitement les dynamiques à partir des observations. Cela s'accompagne souvent d'une complexité accrue de l'inférence. Inspiré par les capacités d'apprentissage en contexte des grands modèles de langage (LLM), nous présentons Zebra, un nouveau transformateur auto-régressif génératif conçu pour résoudre des EDP paramétriques sans nécessiter d'adaptation de gradient lors de l'inférence. En exploitant les informations en contexte à la fois lors de la pré-formation et de l'inférence, Zebra s'adapte dynamiquement à de nouvelles tâches en se basant sur des séquences d'entrée qui intègrent des trajectoires de contexte ou des états précédents. Cette approche permet à Zebra de gérer de manière flexible des entrées de contexte de taille arbitraire et de prendre en charge la quantification de l'incertitude en échantillonnant plusieurs trajectoires de solution. Nous évaluons Zebra dans divers scénarios d'EDP complexes, démontrant sa capacité d'adaptation, sa robustesse et ses performances supérieures par rapport aux approches existantes.