Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous proposons Adam-mini, un optimiseur qui atteint des performances équivalentes ou supérieures à AdamW tout en réduisant l'empreinte mémoire de 45% à 50%. Adam-mini réduit la mémoire en diminuant les ressources dédiées au taux d'apprentissage dans Adam (c'est-à-dire 1/v). Nous constatons que geq 90% de ces taux d'apprentissage dans v peuvent être supprimés sans conséquence si nous (1) partitionnons soigneusement les paramètres en blocs selon notre principe proposé sur la structure du Hessien ; (2) attribuons un seul mais bon taux d'apprentissage à chaque bloc de paramètres. Nous découvrons en outre que, pour chacun de ces blocs de paramètres, il existe un seul taux d'apprentissage de haute qualité qui peut surpasser Adam, à condition que des ressources suffisantes soient disponibles pour le trouver. Nous proposons ensuite une méthode rentable pour identifier de bons taux d'apprentissage et introduisons Adam-mini. Empiriquement, nous vérifions qu'Adam-mini performe au moins aussi bien qu'AdamW sur divers modèles de langage allant de 125M à 7B pour le pré-entraînement, le fine-tuning supervisé et le RLHF. La réduction de l'empreinte mémoire d'Adam-mini atténue également les surcharges de communication entre les GPU et les CPU, augmentant ainsi le débit. Par exemple, Adam-mini atteint un débit 49,6% plus élevé qu'AdamW lors du pré-entraînement de Llama2-7B sur 2 fois des GPU A800-80GB, ce qui permet d'économiser 33% du temps réel pour le pré-entraînement.
Les agents IA sont devenus de plus en plus importants dans divers domaines, permettant la prise de décision autonome et la résolution de problèmes. Pour fonctionner efficacement, ces agents nécessitent un processus de planification qui détermine la meilleure ligne de conduite et exécute ensuite les actions planifiées. Dans cet article, nous présentons un cadre efficace de type Planificateur-Action pour appareils embarqués, qui sépare la planification et l'exécution des actions en deux composants distincts : un agent planificateur basé sur Phi-3 Mini, un modèle de langage de 3,8 milliards de paramètres optimisé pour les appareils de périphérie, et un agent d'action utilisant le modèle Octopus pour l'exécution de fonctions. L'agent planificateur répond d'abord aux requêtes des utilisateurs en décomposant les tâches en une séquence de sous-étapes, qui sont ensuite exécutées par l'agent d'action. Pour optimiser les performances sur les appareils à ressources limitées, nous utilisons l'ajustement fin des modèles plutôt que l'apprentissage en contexte, réduisant ainsi les coûts de calcul et la consommation d'énergie tout en améliorant les temps de réponse. Notre approche consiste à utiliser GPT-4 pour générer des requêtes et des réponses de planification variées basées sur les fonctions disponibles, avec des validations ultérieures pour garantir la qualité des données. Nous ajustons finement le modèle Phi-3 Mini sur cet ensemble de données soigneusement sélectionné, atteignant un taux de réussite de 97 % dans notre environnement de test en domaine spécifique. Pour relever les défis de la planification multi-domaines, nous avons développé une méthode d'entraînement multi-LoRA qui fusionne les poids des LoRA entraînés sur des sous-ensembles de fonctions distincts. Cette approche permet une gestion flexible des requêtes complexes et multi-domaines tout en maintenant l'efficacité computationnelle sur les appareils à ressources limitées. Pour soutenir la recherche future, nous avons rendu publics les poids de notre modèle à l'adresse https://huggingface.co/NexaAIDev/octopus-planning. Pour la démonstration, veuillez consulter https://www.nexa4ai.com/octo-planner.
La compréhension des graphiques joue un rôle crucial lors de l'application des modèles de langage multimodaux de grande taille (MLLMs) à des tâches réelles telles que l'analyse d'articles scientifiques ou de rapports financiers. Cependant, les ensembles de données existants se concentrent souvent sur des graphiques simplifiés et homogènes avec des questions basées sur des modèles, ce qui conduit à une mesure trop optimiste des progrès. Nous démontrons que bien que les modèles open-source semblent surpasser les modèles propriétaires robustes sur ces benchmarks, un simple test de résistance avec des graphiques ou des questions légèrement différents peut détériorer les performances jusqu'à 34,5%. Dans ce travail, nous proposons CharXiv, une suite d'évaluation complète impliquant 2 323 graphiques naturels, complexes et divers provenant d'articles arXiv. CharXiv inclut deux types de questions : 1) des questions descriptives sur l'examen des éléments de base du graphique et 2) des questions de raisonnement qui nécessitent la synthèse d'informations à travers des éléments visuels complexes du graphique. Pour garantir la qualité, tous les graphiques et questions sont sélectionnés, organisés et vérifiés manuellement par des experts humains. Nos résultats révèlent un écart substantiel et précédemment sous-estimé entre les compétences de raisonnement du modèle propriétaire le plus performant (c'est-à-dire GPT-4o), qui atteint une précision de 47,1%, et du modèle open-source le plus performant (c'est-à-dire InternVL Chat V1.5), qui atteint 29,2%. Tous les modèles sont loin derrière la performance humaine de 80,5%, soulignant les faiblesses dans les capacités de compréhension des graphiques des MLLMs existants. Nous espérons que CharXiv facilitera les recherches futures sur la compréhension des graphiques par les MLLMs en fournissant une mesure plus réaliste et fidèle des progrès. Page du projet et classement : https://charxiv.github.io/
Nous proposons un nouveau benchmark de génération texte-vidéo (T2V), ChronoMagic-Bench, pour évaluer les capacités temporelles et métamorphiques des modèles T2V (par exemple, Sora et Lumiere) dans la génération de vidéos en accéléré. Contrairement aux benchmarks existants qui se concentrent sur la qualité visuelle et la pertinence textuelle des vidéos générées, ChronoMagic-Bench met l'accent sur la capacité du modèle à générer des vidéos en accéléré avec une amplitude métamorphique significative et une cohérence temporelle. Le benchmark explore les capacités des modèles T2V en physique, biologie et chimie, via des requêtes textuelles libres. À cette fin, ChronoMagic-Bench introduit 1 649 prompts et des vidéos du monde réel comme références, catégorisées en quatre grands types de vidéos en accéléré : biologiques, créées par l'homme, météorologiques et phénomènes physiques, eux-mêmes divisés en 75 sous-catégories. Cette catégorisation évalue de manière exhaustive la capacité du modèle à gérer des transformations diverses et complexes. Pour aligner précisément les préférences humaines avec le benchmark, nous introduisons deux nouvelles métriques automatiques, MTScore et CHScore, pour évaluer les attributs métamorphiques et la cohérence temporelle des vidéos. MTScore mesure l'amplitude métamorphique, reflétant le degré de changement dans le temps, tandis que CHScore évalue la cohérence temporelle, garantissant que les vidéos générées maintiennent une progression logique et une continuité. Sur la base de ChronoMagic-Bench, nous menons des évaluations manuelles complètes de dix modèles T2V représentatifs, révélant leurs forces et faiblesses à travers différentes catégories de prompts, et fournissons un cadre d'évaluation approfondi qui comble les lacunes actuelles dans la recherche sur la génération de vidéos. De plus, nous créons un ensemble de données à grande échelle, ChronoMagic-Pro, contenant 460 000 paires de vidéos en accéléré en 720p et des légendes détaillées, garantissant une pertinence physique élevée et une grande amplitude métamorphique.
Le modèle de mélange d'experts (Mixture-of-Experts, MoE) suscite un intérêt croissant en raison de ses propriétés uniques et de ses performances remarquables, notamment pour les tâches linguistiques. En activant de manière parcimonieuse un sous-ensemble de paramètres pour chaque token, l'architecture MoE permet d'augmenter la taille du modèle sans sacrifier l'efficacité computationnelle, offrant ainsi un meilleur compromis entre performance et coûts d'entraînement. Cependant, le mécanisme sous-jacent du MoE nécessite encore des explorations approfondies, et son degré de modularité reste sujet à débat. Dans cet article, nous effectuons une première tentative pour comprendre le fonctionnement interne des grands modèles de langage basés sur MoE. Concrètement, nous étudions de manière exhaustive les caractéristiques paramétriques et comportementales de trois modèles récents basés sur MoE et révélons plusieurs observations intrigantes, notamment : (1) Les neurones agissent comme des experts à granularité fine. (2) Le routeur du MoE sélectionne généralement des experts avec des normes de sortie plus élevées. (3) La diversité des experts augmente avec la profondeur des couches, bien que la dernière couche constitue une exception. Sur la base de ces observations, nous proposons également des recommandations pour un large éventail de praticiens du MoE, notamment en ce qui concerne la conception du routeur et l'allocation des experts. Nous espérons que ce travail pourra éclairer les recherches futures sur le cadre MoE et d'autres architectures modulaires. Le code est disponible à l'adresse suivante : https://github.com/kamanphoebe/Look-into-MoEs.
Nous présentons WildGuard — un outil de modération ouvert et léger pour la sécurité des LLM (modèles de langage) qui atteint trois objectifs : (1) identifier les intentions malveillantes dans les invites utilisateur, (2) détecter les risques de sécurité dans les réponses du modèle, et (3) déterminer le taux de refus du modèle. Ensemble, WildGuard répond aux besoins croissants en matière de modération et d'évaluation automatiques de la sécurité des interactions avec les LLM, en fournissant un outil tout-en-un avec une précision accrue et une couverture étendue sur 13 catégories de risques. Bien que les outils de modération ouverts existants, tels que Llama-Guard2, obtiennent des scores raisonnables dans la classification des interactions simples avec les modèles, ils sont loin derrière un GPT-4 sollicité, en particulier dans l'identification des jailbreaks adversariaux et dans l'évaluation des refus des modèles, une mesure clé pour évaluer les comportements de sécurité dans les réponses des modèles. Pour relever ces défis, nous avons construit WildGuardMix, un ensemble de données de modération de sécurité multi-tâches à grande échelle et soigneusement équilibré, comprenant 92 000 exemples étiquetés qui couvrent des invites directes (vanilla) et des jailbreaks adversariaux, associés à diverses réponses de refus et de conformité. WildGuardMix est une combinaison de WildGuardTrain, les données d'entraînement de WildGuard, et de WildGuardTest, un ensemble de test de modération de haute qualité annoté manuellement, comprenant 5 000 éléments étiquetés couvrant un large éventail de scénarios de risques. Grâce à des évaluations approfondies sur WildGuardTest et dix benchmarks publics existants, nous montrons que WildGuard établit des performances de pointe en matière de modération de sécurité open-source pour les trois tâches, par rapport à dix modèles de modération open-source existants (par exemple, une amélioration allant jusqu'à 26,4 % dans la détection des refus). Fait important, WildGuard égale et dépasse parfois les performances de GPT-4 (par exemple, une amélioration allant jusqu'à 3,9 % dans l'identification de la dangerosité des invites). WildGuard sert de modérateur de sécurité hautement efficace dans une interface LLM, réduisant le taux de réussite des attaques de jailbreak de 79,8 % à 2,4 %.
Les dossiers médicaux électroniques (DME) sont essentiels pour stocker les dossiers médicaux complets des patients, combinant des données structurées (par exemple, les médicaments) avec des notes cliniques détaillées (par exemple, les notes des médecins). Ces éléments sont cruciaux pour une récupération simple des données et offrent des insights contextuels approfondis sur les soins aux patients. Cependant, ils souffrent souvent de divergences dues à des conceptions de systèmes DME peu intuitives et à des erreurs humaines, posant des risques sérieux pour la sécurité des patients. Pour remédier à cela, nous avons développé EHRCon, un nouveau jeu de données et une tâche spécifiquement conçus pour assurer la cohérence des données entre les tables structurées et les notes non structurées dans les DME. EHRCon a été élaboré en collaboration avec des professionnels de la santé en utilisant le jeu de données DME MIMIC-III, et inclut des annotations manuelles de 3 943 entités à travers 105 notes cliniques vérifiées pour leur cohérence avec les entrées de la base de données. EHRCon existe en deux versions, l'une utilisant le schéma original de MIMIC-III, et l'autre utilisant le schéma OMOP CDM, afin d'augmenter son applicabilité et sa généralisabilité. De plus, en exploitant les capacités des grands modèles de langage, nous introduisons CheckEHR, un nouveau cadre pour vérifier la cohérence entre les notes cliniques et les tables de base de données. CheckEHR utilise un processus en huit étapes et montre des résultats prometteurs dans des configurations few-shot et zero-shot. Le code est disponible à l'adresse https://github.com/dustn1259/EHRCon.
La communauté de l'IA explore une voie vers l'intelligence artificielle générale (IAG) en développant des "agents linguistiques", qui sont des pipelines complexes de grands modèles de langage (LLMs) impliquant à la fois des techniques de prompting et des méthodes d'utilisation d'outils. Bien que les agents linguistiques aient démontré des capacités impressionnantes pour de nombreuses tâches du monde réel, une limitation fondamentale de la recherche actuelle sur ces agents est qu'elle est centrée sur le modèle ou sur l'ingénierie. Autrement dit, les progrès en matière de prompts, d'outils et de pipelines pour les agents linguistiques nécessitent des efforts d'ingénierie manuels substantiels de la part d'experts humains plutôt qu'un apprentissage automatique à partir des données. Nous pensons que la transition d'une approche centrée sur le modèle ou sur l'ingénierie vers une approche centrée sur les données, c'est-à-dire la capacité des agents linguistiques à apprendre et à évoluer de manière autonome dans des environnements, est la clé pour qu'ils puissent potentiellement atteindre l'IAG. Dans ce travail, nous introduisons l'apprentissage symbolique des agents, un cadre systématique qui permet aux agents linguistiques de s'optimiser eux-mêmes de manière centrée sur les données en utilisant des optimiseurs symboliques. Plus précisément, nous considérons les agents comme des réseaux symboliques où les poids apprenables sont définis par les prompts, les outils et la manière dont ils sont empilés ensemble. L'apprentissage symbolique des agents est conçu pour optimiser le réseau symbolique au sein des agents linguistiques en imitant deux algorithmes fondamentaux de l'apprentissage connexionniste : la rétropropagation et la descente de gradient. Au lieu de traiter des poids numériques, l'apprentissage symbolique des agents travaille avec des simulacres en langage naturel des poids, de la perte et des gradients. Nous menons des expériences de preuve de concept sur des benchmarks standards et des tâches complexes du monde réel, et montrons que l'apprentissage symbolique des agents permet à ces agents de se mettre à jour après avoir été créés et déployés dans la nature, donnant ainsi naissance à des "agents auto-évolutifs".
Le football est un sport populaire à l'échelle mondiale, bénéficiant d'un vaste public. Dans cet article, nous envisageons de construire un modèle de commentaire automatique des matchs de football afin d'améliorer l'expérience de visionnage des spectateurs. De manière générale, nous apportons les contributions suivantes : Premièrement, en observant le désalignement vidéo-texte prévalant dans les jeux de données existants, nous annotons manuellement les timestamps pour 49 matchs, établissant ainsi un benchmark plus robuste pour la génération de commentaires de matchs de football, nommé SN-Caption-test-align ; Deuxièmement, nous proposons un pipeline d'alignement temporel multimodal pour corriger et filtrer automatiquement le jeu de données existant à grande échelle, créant ainsi un jeu de données de commentaires de matchs de football de meilleure qualité pour l'entraînement, dénommé MatchTime ; Troisièmement, sur la base de notre jeu de données soigneusement constitué, nous entraînons un modèle de génération automatique de commentaires, appelé MatchVoice. Des expériences approfondies et des études d'ablation ont démontré l'efficacité de notre pipeline d'alignement, et l'entraînement du modèle sur les jeux de données curés atteint des performances de pointe pour la génération de commentaires, montrant qu'un meilleur alignement peut conduire à des améliorations significatives des performances dans les tâches en aval.
Les grands modèles de langage (LLMs) ont démontré des capacités de raisonnement impressionnantes, notamment dans la résolution de problèmes mathématiques textuels. Cependant, les ensembles de données existants pour le réglage fin d'instructions visuelles en open source, contenant un nombre limité de paires question-réponse par image, n'exploitent pas pleinement les informations visuelles pour améliorer les capacités de raisonnement mathématique multimodal des LLMs multimodaux (MLLMs). Pour combler cette lacune, nous abordons le manque de jeux de données mathématiques multimodaux de haute qualité et diversifiés en collectant 40 000 images de haute qualité avec des paires question-réponse provenant de 24 ensembles de données existants et en synthétisant 320 000 nouvelles paires, créant ainsi le jeu de données MathV360K, qui améliore à la fois l'étendue et la profondeur des questions mathématiques multimodales. Nous présentons Math-LLaVA, un modèle basé sur LLaVA-1.5 et réglé finement avec MathV360K. Cette approche novatrice améliore significativement les capacités de raisonnement mathématique multimodal de LLaVA-1.5, obtenant une augmentation de 19 points et une performance comparable à GPT-4V sur la division minitest de MathVista. De plus, Math-LLaVA démontre une généralisabilité accrue, montrant des améliorations substantielles sur le benchmark MMMU. Notre recherche met en lumière l'importance de la diversité et de la synthèse des jeux de données pour faire progresser les capacités de raisonnement mathématique des MLLMs. Le code et les données sont disponibles à l'adresse suivante : https://github.com/HZQ950419/Math-LLaVA.
Nous présentons WildTeaming, un cadre automatique de red teaming pour la sécurité des LLM qui exploite les interactions utilisateur-chatbot dans des conditions réelles pour découvrir 5 700 clusters uniques de nouvelles tactiques de jailbreak, puis combine plusieurs tactiques pour une exploration systématique de nouveaux jailbreaks. Contrairement aux travaux antérieurs qui réalisaient le red teaming via des travailleurs humains recrutés, une optimisation basée sur le gradient, ou une révision itérative avec des LLM, notre étude examine les jailbreaks provenant d'utilisateurs de chatbots qui n'étaient pas spécifiquement incités à contourner le système. WildTeaming révèle des vulnérabilités jusqu'alors inconnues des LLM de pointe, générant jusqu'à 4,6 fois plus d'attaques adverses diversifiées et réussies par rapport aux méthodes de jailbreak les plus avancées. Bien que de nombreux ensembles de données existent pour l'évaluation des jailbreaks, très peu de jeux de données open source sont disponibles pour l'entraînement au jailbreak, car les données de sécurité sont souvent fermées même lorsque les poids des modèles sont ouverts. Avec WildTeaming, nous créons WildJailbreak, un ensemble de données synthétique open source à grande échelle contenant 262 000 paires de prompts-réponses de type vanilla (requêtes directes) et adverses (jailbreaks complexes). Pour atténuer les comportements de sécurité excessifs, WildJailbreak propose deux types de requêtes contrastées : 1) des requêtes nuisibles (vanilla et adverses) et 2) des requêtes bénignes qui ressemblent en forme aux requêtes nuisibles mais ne contiennent aucun mal. Comme WildJailbreak améliore considérablement la qualité et l'échelle des ressources de sécurité existantes, il nous permet d'examiner les effets de mise à l'échelle des données et l'interaction entre les propriétés des données et les capacités des modèles lors de l'entraînement à la sécurité. À travers des expériences approfondies, nous identifions les propriétés d'entraînement qui permettent un équilibre idéal des comportements de sécurité : une protection appropriée sans refus excessif, une gestion efficace des requêtes vanilla et adverses, et une diminution minimale, voire nulle, des capacités générales. Tous les composants de WildJailbreak contribuent à atteindre des comportements de sécurité équilibrés des modèles.
Les politiques basées sur des réseaux neuronaux profonds ont récemment été déployées dans un large éventail de domaines, allant de la biotechnologie aux systèmes financiers automatisés. Cependant, l'utilisation de réseaux neuronaux profonds pour approximer la fonction de valeur soulève des préoccupations concernant la stabilité des frontières de décision, en particulier en ce qui concerne la sensibilité des décisions politiques à des caractéristiques imperceptibles et non robustes, dues à la nature hautement non convexe et complexe des variétés des réseaux neuronaux profonds. Ces préoccupations constituent un obstacle à la compréhension du raisonnement sous-jacent aux politiques neuronales profondes et à leurs limitations fondamentales. Par conséquent, il est crucial de développer des techniques visant à comprendre les sensibilités dans les représentations apprises par les politiques de réseaux neuronaux. Pour y parvenir, nous introduisons une méthode théoriquement fondée qui fournit une analyse systématique des directions instables dans la frontière de décision des politiques neuronales profondes, à la fois dans le temps et dans l'espace. À travers des expériences menées dans l'environnement Arcade Learning Environment (ALE), nous démontrons l'efficacité de notre technique pour identifier les directions corrélées d'instabilité et pour mesurer comment les changements d'échantillons remodelent l'ensemble des directions sensibles dans le paysage des politiques neuronales. Plus important encore, nous montrons que les techniques d'apprentissage robuste de pointe entraînent l'apprentissage de directions instables disjointes, avec des oscillations considérablement plus importantes dans le temps, par rapport à l'apprentissage standard. Nous pensons que nos résultats révèlent les propriétés fondamentales du processus de décision des politiques d'apprentissage par renforcement et peuvent contribuer à la construction de politiques neuronales profondes fiables et robustes.
Le succès récent des modèles multimodaux de grande taille (LMMs) entrelacés dans l'apprentissage en few-shot suggère que l'apprentissage en contexte (ICL) avec de nombreux exemples peut être prometteur pour l'acquisition de nouvelles tâches. Cependant, ce cadre d'ICL multimodal many-shot présente un problème crucial : il est fondamentalement limité par la longueur de contexte du modèle définie lors du pré-entraînement. Ce problème est particulièrement marqué dans le domaine multimodal, qui traite à la fois du texte et des images, nécessitant des tokens supplémentaires. Cela motive la nécessité d'une méthode multimodale pour compresser de nombreux exemples en moins de tokens sans ajustement fin. Dans ce travail, nous permettons aux LMMs d'effectuer un apprentissage en contexte multimodal many-shot en exploitant les Vecteurs de Tâches Multimodaux (MTV) -- des représentations implicites compactes des exemples en contexte compressées dans les têtes d'attention du modèle. Plus précisément, nous démontrons d'abord l'existence de ces MTV dans les LMMs, puis nous exploitons ces MTV extraits pour permettre un apprentissage en contexte many-shot pour diverses tâches visuelles et linguistiques. Nos expériences suggèrent que les MTV peuvent améliorer leurs performances avec le nombre d'exemples compressés et généraliser à des tâches similaires hors domaine sans nécessiter de longueur de contexte supplémentaire pour l'inférence.
Le service des grands modèles de langage (LLM) est passé de systèmes sans état à des systèmes avec état, en utilisant des techniques telles que la mise en cache de contexte et l'inférence désagrégée. Ces optimisations prolongent la durée de vie et le domaine du cache KV, nécessitant une nouvelle approche architecturale. Nous présentons MemServe, un système unifié qui intègre à la fois des optimisations inter-requêtes et intra-requêtes. MemServe introduit MemPool, un pool de mémoire élastique gérant la mémoire distribuée et les caches KV à travers les instances de service. En utilisant les API de MemPool, MemServe combine pour la première fois la mise en cache de contexte avec l'inférence désagrégée, soutenu par un planificateur global qui améliore la réutilisation du cache grâce à une politique de localité basée sur un arbre de prompts global. Les tests montrent que MemServe améliore significativement le temps d'exécution des tâches et le temps jusqu'au premier résultat.