Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les récents progrès des Modèles de Langage Multimodaux de Grande Taille (MLMT) ont ouvert de nouvelles voies pour les applications en Intelligence Artificielle Incarnée. S'appuyant sur le travail précédent, EgoThink, nous présentons VidEgoThink, une référence complète pour évaluer les capacités de compréhension vidéo égocentrique. Pour combler le fossé entre les MLMT et le contrôle de bas niveau en Intelligence Artificielle Incarnée, nous concevons quatre tâches clés interdépendantes : question/réponse vidéo, planification hiérarchique, ancrage visuel et modélisation de la récompense. Afin de réduire les coûts d'annotation manuelle, nous développons un pipeline automatique de génération de données basé sur l'ensemble de données Ego4D, exploitant les connaissances antérieures et les capacités multimodales du GPT-4o. Trois annotateurs humains filtrent ensuite les données générées pour garantir la diversité et la qualité, aboutissant à la référence VidEgoThink. Nous menons des expériences approfondies avec trois types de modèles : des MLMT basés sur API, des MLMT basés sur des images en open source, et des MLMT basés sur des vidéos en open source. Les résultats expérimentaux indiquent que tous les MLMT, y compris le GPT-4o, ont des performances médiocres sur toutes les tâches liées à la compréhension vidéo égocentrique. Ces résultats suggèrent que les modèles de base nécessitent encore des avancées significatives pour être efficacement appliqués aux scénarios à la première personne en Intelligence Artificielle Incarnée. En conclusion, VidEgoThink reflète une tendance de recherche vers l'utilisation des MLMT pour la vision égocentrique, similaire aux capacités humaines, permettant l'observation active et l'interaction dans des environnements réels complexes.
Les tâches de codage se sont révélées précieuses pour évaluer les Grands Modèles de Langage (GML), car elles exigent la compréhension d'instructions de haut niveau, un raisonnement complexe et la mise en œuvre de programmes fonctionnels - des capacités essentielles pour faire progresser l'Intelligence Artificielle Générale. Malgré les progrès réalisés dans les Grands Modèles Multimodaux (GMM), qui étendent les GML avec des capacités de perception et de compréhension visuelles, il existe encore un manque notable de référentiels de codage qui évaluent rigoureusement ces modèles, en particulier dans des tâches mettant l'accent sur le raisonnement visuel. Pour combler cette lacune, nous présentons HumanEval-V, un nouveau référentiel léger spécifiquement conçu pour évaluer les capacités de compréhension et de raisonnement visuel des GMM grâce à la génération de code. HumanEval-V comprend 108 tâches de codage Python de niveau débutant soigneusement élaborées, issues de plateformes telles que CodeForces et Stack Overflow. Chaque tâche est adaptée en modifiant le contexte et les schémas algorithmiques des problèmes originaux, les éléments visuels étant redessinés pour garantir une distinction par rapport à la source, empêchant toute fuite de données potentielle. Les GMM doivent compléter la solution de code en fonction du contexte visuel fourni et d'une signature de fonction Python prédéfinie décrivant les exigences de la tâche. Chaque tâche est équipée de cas de test méticuleusement élaborés pour garantir une évaluation approfondie et fiable des solutions générées par le modèle. Nous évaluons 19 GML de pointe en utilisant HumanEval-V, révélant des défis significatifs. Des modèles propriétaires comme GPT-4o n'atteignent que 13% de réussite@1 et 36,4% de réussite@10, tandis que des modèles à poids ouvert avec 70 milliards de paramètres obtiennent moins de 4% de réussite@1. Des études d'ablation révèlent en outre les limites des GML actuels en matière de raisonnement visuel et de capacités de codage. Ces résultats soulignent des domaines clés pour des recherches futures visant à améliorer les capacités des GML. Nous avons rendu notre code et notre référentiel open-source à l'adresse https://github.com/HumanEval-V/HumanEval-V-Benchmark.
L'analyse de la mise en page de documents est cruciale pour les systèmes de compréhension de documents du monde réel, mais elle rencontre un compromis difficile entre la vitesse et la précision : les méthodes multimodales exploitant à la fois des caractéristiques textuelles et visuelles atteignent une précision plus élevée mais souffrent d'une latence significative, tandis que les méthodes unimodales reposant uniquement sur des caractéristiques visuelles offrent des vitesses de traitement plus rapides au détriment de la précision. Pour résoudre ce dilemme, nous présentons DocLayout-YOLO, une approche novatrice qui améliore la précision tout en conservant les avantages de vitesse grâce à des optimisations spécifiques aux documents à la fois dans la pré-formation et la conception du modèle. Pour une préformation de document robuste, nous introduisons l'algorithme Mesh-candidate BestFit, qui cadre la synthèse de documents comme un problème d'empaquetage de bacs bidimensionnel, générant le vaste et diversifié ensemble de données DocSynth-300K. La préformation sur l'ensemble de données DocSynth-300K résultant améliore significativement les performances de réglage fin sur divers types de documents. En termes d'optimisation du modèle, nous proposons un Module Réceptif Contrôlable Global-à-Local capable de mieux gérer les variations multi-échelles des éléments de document. De plus, pour valider les performances sur différents types de documents, nous introduisons un banc d'essai complexe et exigeant nommé DocStructBench. Des expériences approfondies sur des ensembles de données aval démontrent que DocLayout-YOLO excelle à la fois en vitesse et en précision. Le code, les données et les modèles sont disponibles sur https://github.com/opendatalab/DocLayout-YOLO.
Les récentes avancées dans les grands modèles multimodaux (LMM) ont considérablement amélioré les performances dans diverses tâches, avec des efforts continus pour intégrer davantage de modalités telles que la vidéo et l'audio. Cependant, la plupart des LMM existants restent vulnérables aux hallucinations, la discordance entre l'entrée multimodale factuelle et la production textuelle générée, ce qui a limité leur applicabilité dans divers scénarios réels. Cet article présente la première investigation systématique des hallucinations dans les LMM impliquant les trois modalités les plus courantes : le langage, le visuel et l'audio. Notre étude révèle deux principaux contributeurs aux hallucinations : la trop grande dépendance aux a priori unimodaux et les corrélations inter-modales fallacieuses. Pour relever ces défis, nous introduisons le banc d'essai La Malédiction des Multi-Modalités (CMM), qui évalue de manière exhaustive les hallucinations dans les LMM, fournissant une analyse détaillée de leurs problèmes sous-jacents. Nos résultats mettent en lumière des vulnérabilités clés, y compris des déséquilibres dans l'intégration des modalités et des biais provenant des données d'entraînement, soulignant la nécessité d'un apprentissage croisé équilibré entre les modalités et de stratégies améliorées d'atténuation des hallucinations. Sur la base de nos observations et résultats, nous suggérons des orientations de recherche potentielles qui pourraient améliorer la fiabilité des LMM.
La planification autonome est une quête continue depuis les débuts de l'intelligence artificielle. Basés sur des solveurs de problèmes sélectionnés, les premiers agents de planification pouvaient fournir des solutions précises pour des tâches spécifiques mais manquaient de généralisation. L'émergence des grands modèles de langage (GML) et de leurs puissantes capacités de raisonnement a ravivé l'intérêt pour la planification autonome en générant automatiquement des solutions raisonnables pour des tâches données. Cependant, les recherches antérieures et nos expériences montrent que les agents de langage actuels manquent encore des capacités de planification de niveau humain. Même le modèle de raisonnement de pointe, OpenAI o1, n'atteint que 15,6 % sur l'un des benchmarks de planification réels complexes. Cela soulève une question cruciale : qu'est-ce qui empêche les agents de langage d'atteindre une planification de niveau humain ? Bien que des études existantes aient souligné une faible performance dans la planification des agents, les problèmes sous-jacents plus profonds, ainsi que les mécanismes et les limitations des stratégies proposées pour les résoudre, restent insuffisamment compris. Dans ce travail, nous appliquons l'étude de l'attribution des caractéristiques et identifions deux facteurs clés qui entravent la planification des agents : le rôle limité des contraintes et l'influence décroissante des questions. Nous constatons également que bien que les stratégies actuelles aident à atténuer ces défis, elles ne les résolvent pas entièrement, ce qui indique que les agents ont encore un long chemin à parcourir avant d'atteindre une intelligence de niveau humain.
La fusion de modèles est devenue l'une des technologies clés pour améliorer les capacités et l'efficacité des Grands Modèles de Langage (GML). Cependant, notre compréhension des gains de performance attendus et des principes lors de la fusion de deux modèles reste limitée. Dans ce travail, nous introduisons la parenté de modèle, le degré de similarité ou de parenté entre les GML, analogue à l'évolution biologique. Grâce à une analyse empirique approfondie, nous constatons qu'il existe une relation entre la parenté de modèle et les gains de performance après la fusion de modèles, ce qui peut aider à guider notre sélection de modèles candidats. Inspirés par cela, nous proposons une nouvelle stratégie de fusion de modèles : Fusion Gloutonne Top-k avec Parenté de Modèle, qui peut offrir de meilleures performances sur des ensembles de données de référence. Plus précisément, nous découvrons que l'utilisation de la parenté de modèle comme critère peut nous aider à effectuer continuellement la fusion de modèles, atténuant la dégradation (optima locaux) dans l'évolution des modèles, tandis que la parenté de modèle peut servir de guide pour échapper à ces pièges. Le code est disponible sur https://github.com/zjunlp/ModelKinship.
Les modèles de cohérence (CMs) constituent une classe puissante de modèles génératifs basés sur la diffusion, optimisés pour un échantillonnage rapide. La plupart des CMs existants sont entraînés en utilisant des pas de temps discrétisés, ce qui introduit des hyperparamètres supplémentaires et est sujet aux erreurs de discrétisation. Alors que les formulations en temps continu peuvent atténuer ces problèmes, leur succès a été limité en raison de l'instabilité de l'entraînement. Pour y remédier, nous proposons un cadre théorique simplifié qui unifie les paramétrisations précédentes des modèles de diffusion et des CMs, identifiant les causes fondamentales de l'instabilité. Sur la base de cette analyse, nous introduisons des améliorations clés dans la paramétrisation du processus de diffusion, l'architecture du réseau et les objectifs d'entraînement. Ces changements nous permettent d'entraîner des CMs en temps continu à une échelle sans précédent, atteignant 1,5 milliard de paramètres sur ImageNet 512x512. Notre algorithme d'entraînement proposé, n'utilisant que deux étapes d'échantillonnage, atteint des scores FID de 2,06 sur CIFAR-10, 1,48 sur ImageNet 64x64 et 1,88 sur ImageNet 512x512, réduisant l'écart des scores FID avec les meilleurs modèles de diffusion existants à moins de 10%.
À mesure que les grands modèles de langage (LLM) continuent d'évoluer, des métriques d'évaluation efficaces sont essentielles pour évaluer leur capacité à compresser l'information et à réduire la redondance. Alors que des métriques traditionnelles comme l'Entropie Matricielle offrent des informations précieuses, elles sont intensives en termes de calcul pour les modèles à grande échelle en raison de leur complexité temporelle en \( O(n^3) \) avec la Décomposition en Valeurs Singulières (SVD). Pour atténuer ce problème, nous introduisons la Norme Nucléaire Matricielle, qui sert non seulement de métrique pour quantifier l'efficacité de compression des données du LLM, mais fournit également une approximation convexe du rang matriciel pour capturer à la fois la capacité prédictive discriminante et la diversité. En utilisant la \( L_{1,2}-norme \) pour approximer davantage la norme nucléaire, nous pouvons évaluer efficacement les capacités de compression d'information du modèle. Cette approche réduit la complexité temporelle à \( O(n^2) \) et élimine le besoin de calcul de SVD. Par conséquent, la Norme Nucléaire Matricielle atteint des vitesses de 8 à 24 fois plus rapides que l'Entropie Matricielle pour le modèle CEREBRAS-GPT à mesure que les tailles augmentent de 111M à 6.7B. Cet écart de performance devient plus prononcé avec des modèles plus grands, comme validé dans des tests avec d'autres modèles tels que Pythia. De plus, les évaluations sur des benchmarks et les réponses des modèles confirment que notre Norme Nucléaire Matricielle proposée est un outil fiable, évolutif et efficace pour évaluer les performances des LLM, trouvant un équilibre entre précision et efficacité computationnelle. Le code est disponible sur https://github.com/MLGroupJLU/MatrixNuclearNorm.
Les progrès rapides des modèles de diffusion texte-image (T2I) ont permis de générer des résultats sans précédent à partir de textes donnés. Cependant, à mesure que les entrées textuelles deviennent plus longues, les méthodes d'encodage existantes comme CLIP rencontrent des limitations, et l'alignement des images générées avec de longs textes devient difficile. Pour résoudre ces problèmes, nous proposons LongAlign, qui comprend une méthode d'encodage au niveau des segments pour le traitement de longs textes et une méthode d'optimisation de préférence décomposée pour un entraînement d'alignement efficace. Pour l'encodage au niveau des segments, les longs textes sont divisés en plusieurs segments et traités séparément. Cette méthode surmonte les limites de longueur d'entrée maximale des modèles d'encodage pré-entraînés. Pour l'optimisation de préférence, nous fournissons des modèles de préférence décomposés basés sur CLIP pour affiner les modèles de diffusion. Plus précisément, pour utiliser les modèles de préférence basés sur CLIP pour l'alignement T2I, nous explorons leurs mécanismes de notation et constatons que les scores de préférence peuvent être décomposés en deux composantes : une partie pertinente au texte qui mesure l'alignement T2I et une partie non pertinente au texte qui évalue d'autres aspects visuels de la préférence humaine. De plus, nous constatons que la partie non pertinente au texte contribue à un problème courant de surajustement lors de l'affinage. Pour y remédier, nous proposons une stratégie de réaffectation qui attribue des poids différents à ces deux composantes, réduisant ainsi le surajustement et améliorant l'alignement. Après avoir affiné 512 fois 512 Stable Diffusion (SD) v1.5 pendant environ 20 heures en utilisant notre méthode, le SD affiné surpasse des modèles de base plus solides dans l'alignement T2I, tels que PixArt-alpha et Kandinsky v2.2. Le code est disponible sur https://github.com/luping-liu/LongAlign.
Le paradigme actuel pour l'alignement de la sécurité des grands modèles de langage (LLM) suit une approche universelle : le modèle refuse d'interagir avec tout contenu jugé non sécurisé par le fournisseur du modèle. Cette approche manque de flexibilité face aux normes sociales variables à travers les cultures et les régions. De plus, les utilisateurs peuvent avoir des besoins de sécurité divers, rendant un modèle avec des normes de sécurité statiques trop restrictif pour être utile, ainsi que trop coûteux à réaligner. Nous proposons l'Alignement de Sécurité Contrôlable (CoSA), un cadre conçu pour adapter les modèles aux diverses exigences de sécurité sans nécessiter de re-entraînement. Au lieu d'aligner un modèle fixe, nous alignons les modèles pour suivre des configurations de sécurité - des descriptions en langage naturel libre des comportements de sécurité souhaités - qui sont fournies dans le cadre de la demande système. Pour ajuster le comportement de sécurité du modèle, les utilisateurs autorisés n'ont qu'à modifier de telles configurations de sécurité au moment de l'inférence. Pour permettre cela, nous proposons CoSAlign, une méthode centrée sur les données pour aligner les LLMs afin de s'adapter facilement à diverses configurations de sécurité. De plus, nous concevons un nouveau protocole d'évaluation de la contrôlabilité qui prend en compte à la fois l'utilité et la sécurité configurée, les résumant en un CoSA-Score, et nous construisons CoSApien, un banc d'essai rédigé par des humains qui se compose de cas d'utilisation de LLM du monde réel avec des exigences de sécurité diverses et des demandes d'évaluation correspondantes. Nous montrons que CoSAlign entraîne des gains substantiels en termes de contrôlabilité par rapport à des références solides, y compris l'alignement en contexte. Notre cadre encourage une meilleure représentation et adaptation aux valeurs humaines pluralistes dans les LLMs, augmentant ainsi leur praticité.
Les grands modèles de langage (LLMs) ont démontré des capacités impressionnantes dans diverses tâches, mais leur performance est très sensible aux invitations utilisées. Cette variabilité pose des défis pour une évaluation précise et la satisfaction des utilisateurs. Les recherches actuelles négligent souvent les variations d'invitations au niveau de l'instance et leurs implications sur les évaluations subjectives. Pour remédier à ces lacunes, nous présentons ProSA, un cadre conçu pour évaluer et comprendre la sensibilité des invitations dans les LLMs. ProSA intègre une nouvelle métrique de sensibilité, PromptSensiScore, et exploite la confiance de décodage pour élucider les mécanismes sous-jacents. Notre étude approfondie, couvrant plusieurs tâches, révèle que la sensibilité des invitations varie selon les ensembles de données et les modèles, les plus grands modèles montrant une robustesse accrue. Nous constatons que des exemples en few-shot peuvent atténuer ce problème de sensibilité, et que les évaluations subjectives sont également sujettes aux sensibilités des invitations, en particulier dans les tâches complexes axées sur le raisonnement. De plus, nos résultats indiquent que la confiance accrue du modèle est corrélée à une robustesse accrue des invitations. Nous pensons que ce travail servira d'outil utile pour étudier la sensibilité des invitations des LLMs. Le projet est disponible sur : https://github.com/open-compass/ProSA.
Les modèles de Récupération Éparse Apprise (LSR) utilisent des vocabulaires issus de transformateurs pré-entraînés, qui ont souvent tendance à diviser les entités en fragments non significatifs. La division des entités peut réduire la précision de la récupération et limiter la capacité du modèle à intégrer les connaissances du monde actuel qui ne sont pas incluses dans les données d'entraînement. Dans ce travail, nous enrichissons le vocabulaire LSR avec des concepts et des entités de Wikipédia, permettant ainsi au modèle de résoudre les ambiguïtés de manière plus efficace et de rester à jour avec les connaissances évolutives. Au cœur de notre approche se trouve une tête de Vocabulaire Dynamique (DyVo), qui exploite les plongements d'entités existants et un composant de récupération d'entités qui identifie les entités pertinentes pour une requête ou un document. Nous utilisons la tête DyVo pour générer des poids d'entités, qui sont ensuite fusionnés avec les poids des morceaux de mots pour créer des représentations conjointes pour l'indexation et la récupération efficaces à l'aide d'un index inversé. Dans des expériences menées sur trois ensembles de données de classement de documents riches en entités, le modèle DyVo résultant surpasse de manière significative les références de pointe.
L'efficacité des grands modèles de vision-langage (LVLM) est limitée par le goulot d'étranglement computationnel du mécanisme d'attention pendant la phase de préremplissage et par le goulot d'étranglement de la récupération du cache clé-valeur (KV) dans la phase de décodage, en particulier dans les scénarios impliquant des images ou des vidéos haute résolution. Le contenu visuel présente souvent une redondance substantielle, entraînant des cartes d'attention très clairsemées au sein des LVLM. Cette clairvoyance peut être exploitée pour accélérer le calcul de l'attention ou compresser le cache KV à travers diverses approches. Cependant, la plupart des études se concentrent sur l'adressage d'un seul de ces goulots d'étranglement et ne prennent pas en charge de manière adéquate l'ajustement dynamique de la clairvoyance concernant des couches ou des tâches distinctes. Dans cet article, nous présentons ZipVL, un cadre d'inférence efficace conçu pour les LVLM qui résout à la fois les goulots d'étranglement computationnels et de mémoire grâce à une stratégie dynamique d'allocation de ratio de tokens importants. Ce ratio est déterminé de manière adaptative en fonction de la distribution spécifique de couches des scores d'attention, plutôt que des hyperparamètres fixes, améliorant ainsi l'efficacité pour les tâches moins complexes tout en maintenant de hautes performances pour les tâches plus difficiles. Ensuite, nous sélectionnons les tokens importants en fonction de leurs scores d'attention normalisés et effectuons le mécanisme d'attention uniquement sur ces tokens importants pour accélérer la phase de préremplissage. Pour atténuer le goulot d'étranglement de mémoire dans la phase de décodage, nous utilisons une quantification en virgule flottante mixte pour le cache KV, où une quantification à bits élevés est utilisée pour les caches de tokens importants, tandis qu'une quantification à bits faibles est appliquée à ceux de moindre importance. Nos expériences démontrent que ZipVL peut accélérer la phase de préremplissage de 2,6 fois et réduire l'utilisation de mémoire GPU de 50,0 %, avec une réduction minimale de précision de seulement 0,2 % sur le banc d'essai Video-MME par rapport au modèle LongVA-7B, améliorant efficacement l'efficacité de génération des LVLM.
Les modèles génératifs d'images basés sur les latents, tels que les Modèles de Diffusion Latente (MDL) et les Modèles d'Images Masquées (MIM), ont connu un succès notable dans les tâches de génération d'images. Ces modèles exploitent généralement des autoencodeurs reconstructifs tels que VQGAN ou VAE pour encoder les pixels dans un espace latent plus compact et apprendre la distribution des données dans l'espace latent plutôt que directement à partir des pixels. Cependant, cette pratique soulève une question pertinente : est-ce vraiment le choix optimal ? En réponse, nous commençons par une observation intrigante : malgré le partage du même espace latent, les modèles autorégressifs accusent un retard significatif par rapport aux MDL et MIM dans la génération d'images. Cette découverte contraste fortement avec le domaine du TALN, où le modèle autorégressif GPT a établi une présence dominante. Pour résoudre cette disparité, nous introduisons une perspective unifiée sur la relation entre l'espace latent et les modèles génératifs, en mettant l'accent sur la stabilité de l'espace latent dans la modélisation générative d'images. De plus, nous proposons un tokeniseur d'images discret simple mais efficace pour stabiliser l'espace latent dans la modélisation générative d'images. Les résultats expérimentaux montrent que la modélisation autorégressive d'images avec notre tokeniseur (DiGIT) bénéficie à la fois de la compréhension des images et de la génération d'images avec le principe de prédiction du prochain token, qui est intrinsèquement simple pour les modèles GPT mais difficile pour d'autres modèles génératifs. Remarquablement, pour la première fois, un modèle autorégressif de style GPT pour les images surpasse les MDL, ce qui présente également une amélioration substantielle similaire à GPT lors de l'augmentation de la taille du modèle. Nos résultats soulignent le potentiel d'un espace latent optimisé et de l'intégration de la tokenisation discrète pour faire progresser les capacités des modèles génératifs d'images. Le code est disponible sur https://github.com/DAMO-NLP-SG/DiGIT.
Les grands modèles de langage (LLMs) ont eu un impact significatif sur de nombreux aspects de nos vies. Cependant, évaluer et garantir leur connaissance chronologique reste un défi. Les approches existantes sont insuffisantes pour traiter la nature cumulative de la connaissance, s'appuyant souvent sur un seul horodatage. Pour surmonter cela, nous présentons ChroKnowBench, un ensemble de données de référence conçu pour évaluer la connaissance accumulée chronologiquement à travers trois aspects clés : plusieurs domaines, dépendance temporelle, état temporel. Notre ensemble de données de référence distingue entre la connaissance qui évolue (par exemple, découvertes scientifiques, lois modifiées) et la connaissance qui reste constante (par exemple, vérités mathématiques, faits de bon sens). En nous appuyant sur cet ensemble de données de référence, nous présentons ChroKnowledge (Catégorisation Chronologique de la Connaissance), un cadre novateur basé sur l'échantillonnage pour évaluer et mettre à jour la connaissance chronologique non paramétrique des LLMs. Notre évaluation montre : (1) La capacité d'extraire la connaissance temporelle varie en fonction du format de données sur lequel le modèle a été formé. (2) Les LLMs rappellent partiellement la connaissance ou montrent une coupure aux limites temporelles plutôt que de rappeler correctement tous les aspects de la connaissance. Ainsi, nous appliquons notre ChroKnowPrompt, une incitation approfondie pour extraire la connaissance chronologique en traversant pas à pas les plages temporelles environnantes. Nous observons que notre cadre met à jour avec succès la connaissance globale sur l'ensemble de la chronologie, tant dans le domaine biomédical (+11,9%) que dans le domaine général (+2,8%), démontrant son efficacité dans le raffinement de la connaissance temporelle. Cette approche non paramétrique permet également des mises à jour de la connaissance non seulement dans les modèles open-source mais aussi dans les LLMs propriétaires, garantissant une applicabilité complète à travers les types de modèles. Nous réalisons une analyse complète basée sur les caractéristiques temporelles de ChroKnowPrompt et validons le potentiel de divers modèles pour extraire la connaissance temporelle intrinsèque grâce à notre méthode.
Cet article présente un nouveau paradigme d'apprentissage appelé Métamorphose Neuronale (NeuMeta), qui vise à construire des réseaux neuronaux auto-morphables. Contrairement à la création de modèles distincts pour différentes architectures ou tailles, NeuMeta apprend directement le continuum des poids des réseaux neuronaux. Une fois entraîné, nous pouvons échantillonner des poids pour un réseau de n'importe quelle taille directement à partir du continuum, même pour des configurations jamais vues auparavant, sans re-entraînement. Pour atteindre cet objectif ambitieux, NeuMeta entraîne des fonctions implicites neuronales en tant qu'hyper-réseaux. Ils acceptent des coordonnées dans l'espace du modèle en tant qu'entrée et génèrent des valeurs de poids correspondantes sur le continuum. En d'autres termes, la fonction implicite est apprise de manière à ce que les poids prédits soient performants pour différentes tailles de modèles. En entraînant ces modèles, nous remarquons que la performance finale est étroitement liée à la régularité du continuum appris. Dans le but d'améliorer cette régularité, nous utilisons deux stratégies. Tout d'abord, nous permutons les matrices de poids pour obtenir une régularité intra-modèle, en résolvant le problème du plus court chemin hamiltonien. De plus, nous ajoutons du bruit aux coordonnées d'entrée lors de l'entraînement de la fonction implicite, garantissant que les modèles de différentes tailles affichent des sorties cohérentes. Ainsi, NeuMeta montre des résultats prometteurs dans la synthèse de paramètres pour diverses configurations de réseaux. Nos tests approfondis en classification d'images, segmentation sémantique et génération d'images révèlent que NeuMeta maintient des performances à taille réelle même à un taux de compression de 75%.
Les modèles multimodaux de langage/vision (VLM) sont de plus en plus déployés dans les établissements de santé du monde entier, ce qui nécessite des références robustes pour garantir leur sécurité, leur efficacité et leur équité. Les ensembles de données de questions-réponses à choix multiples (QA) dérivés des examens médicaux nationaux ont longtemps servi d'outils d'évaluation précieux, mais les ensembles de données existants sont principalement basés sur du texte uniquement et disponibles dans un sous-ensemble limité de langues et de pays. Pour relever ces défis, nous présentons WorldMedQA-V, un ensemble de données de référence multilingue et multimodal mis à jour, conçu pour évaluer les VLM dans le domaine de la santé. WorldMedQA-V comprend 568 questions-réponses à choix multiples étiquetées associées à 568 images médicales provenant de quatre pays (Brésil, Israël, Japon et Espagne), couvrant les langues originales et les traductions anglaises validées par des cliniciens natifs, respectivement. Les performances de base pour les modèles courants à code source ouvert et fermé sont fournies dans la langue locale et les traductions en anglais, avec ou sans images fournies au modèle. L'objectif de l'ensemble de données de référence WorldMedQA-V est de mieux adapter les systèmes d'IA aux environnements de santé divers dans lesquels ils sont déployés, favorisant des applications plus équitables, efficaces et représentatives.
Nous étudions comment les caractéristiques émergent, disparaissent et persistent à travers des modèles affinés sur différents domaines de texte. Plus spécifiquement, nous partons d'un modèle de langage Transformer à une seule couche qui est entraîné sur une combinaison du corpus BabyLM et d'une collection de code Python provenant de The Stack. Ce modèle de base est adapté à deux nouveaux domaines de texte : TinyStories et le langage de programmation Lua, respectivement ; puis ces deux modèles sont fusionnés en utilisant une interpolation linéaire sphérique. Notre exploration vise à fournir des perspectives plus approfondies sur la stabilité et la transformation des caractéristiques à travers des scénarios typiques de transfert d'apprentissage en utilisant des modèles à petite échelle et des auto-encodeurs épars.
Les grands modèles de langage (LLM) entraînés avec l'apprentissage par renforcement à partir des retours humains (RLHF) ont démontré des capacités remarquables, mais leurs fonctions de récompense sous-jacentes et leurs processus de prise de décision restent opaques. Cet article présente une nouvelle approche pour interpréter les LLM en appliquant l'apprentissage par renforcement inverse (IRL) pour récupérer leurs fonctions de récompense implicites. Nous menons des expériences sur des LLM alignés sur la toxicité de tailles variables, extrayant des modèles de récompense qui atteignent jusqu'à 80,40 % de précision dans la prédiction des préférences humaines. Notre analyse révèle des informations clés sur la non-identifiabilité des fonctions de récompense, la relation entre la taille du modèle et son interprétabilité, ainsi que les écueils potentiels dans le processus RLHF. Nous démontrons que les modèles de récompense dérivés de l'IRL peuvent être utilisés pour affiner de nouveaux LLM, aboutissant à des performances comparables ou améliorées sur des référentiels de toxicité. Ce travail offre un nouvel éclairage pour comprendre et améliorer l'alignement des LLM, avec des implications pour le développement et le déploiement responsables de ces systèmes puissants.
Les grands modèles de langage (LLMs) ont réalisé des progrès significatifs dans la génération et la compréhension de texte, avec des avancées récentes s'étendant aux LLMs multimodaux qui intègrent des entrées visuelles et audio. Cependant, ces modèles continuent de rencontrer des difficultés avec la compréhension temporelle fine et croisée entre les modalités, en particulier lors de la corrélation des événements à travers les flux audio et vidéo. Nous abordons ces défis avec deux contributions majeures : un nouveau jeu de données et un modèle, appelés respectivement OCTAV et OMCAT. OCTAV (Omni Context and Temporal Audio Video) est un jeu de données novateur conçu pour capturer les transitions d'événements à travers l'audio et la vidéo. Ensuite, OMCAT (Omni Context Aware Transformer) est un modèle puissant qui exploite les RoTE (Rotary Time Embeddings), une extension innovante des RoPE, pour améliorer l'ancrage temporel et l'efficacité computationnelle dans les tâches ancrées dans le temps. À travers un pipeline d'entraînement en trois étapes robuste - alignement des caractéristiques, ajustement des instructions et entraînement spécifique à OCTAV - OMCAT excelle dans la compréhension temporelle croisée entre les modalités. Notre modèle démontre des performances de pointe sur les tâches de Question-Réponse Audio-Visuelle (AVQA) et le benchmark OCTAV, mettant en avant des gains significatifs en raisonnement temporel et en alignement croisé entre les modalités, comme validé à travers des expériences complètes et des études d'ablation. Notre jeu de données et notre code seront rendus disponibles publiquement. Le lien vers notre page de démonstration est https://om-cat.github.io.
Les approches modernes de Question Answering (QA) et de raisonnement basées sur les Grands Modèles de Langage (GML) utilisent couramment des techniques de sollicitation, telles que la Chaîne de Pensée (CoT), en supposant que la génération résultante explorera de manière plus granulaire l'espace et la portée de la question. Cependant, de telles méthodes ont du mal à générer des sorties fidèles à la chaîne intermédiaire de raisonnement produite par le modèle. À l'autre extrémité du spectre, les méthodes neuro-symboliques telles que Faithful CoT (F-CoT) proposent de combiner les GML avec des solveurs symboliques externes. Bien que de telles approches se vantent d'un haut degré de fidélité, elles nécessitent généralement un modèle entraîné pour la génération de code et ont du mal avec les tâches ambiguës ou difficiles à formaliser strictement. Nous introduisons Faithful Logic-Aided Reasoning and Exploration (FLARE), une nouvelle approche interprétable pour parcourir l'espace du problème en utilisant des décompositions de tâches. Nous utilisons le GML pour planifier une solution, formalisons de manière souple la requête en faits et prédicats en utilisant un code de programmation logique et simulons l'exécution de ce code en effectuant une recherche exhaustive multi-sauts sur l'espace défini. Notre méthode nous permet de calculer la fidélité du processus de raisonnement par rapport au code généré et d'analyser les étapes de la recherche multi-sauts sans recourir à des solveurs externes. Nos méthodes obtiennent des résultats de pointe sur 7 des 9 benchmarks de raisonnement divers. Nous montrons également que la fidélité du modèle est corrélée positivement avec la performance globale et démontrons en outre que FLARE permet de cibler les facteurs décisifs suffisants pour parvenir à la réponse correcte avec un raisonnement optimal lors de la recherche multi-sauts.
La calibration du modèle linguistique fait référence à l'alignement entre la confiance du modèle et les performances réelles de ses réponses. Alors que des études antérieures soulignent le phénomène de surconfiance dans les Grands Modèles Linguistiques (GML) et montrent que les GML entraînés avec l'Apprentissage par Renforcement à partir des Retours Humains (ARRH) sont surconfiants avec une probabilité de sortie plus affinée, dans cette étude, nous révélons que l'ARRH a tendance à amener les modèles à exprimer une surconfiance verbalisée dans leurs propres réponses. Nous examinons la cause sous-jacente de cette surconfiance et démontrons que les modèles de récompense utilisés pour l'Optimisation de Politique Proximale (OPP) présentent des biais inhérents en faveur de scores de haute confiance indépendamment de la qualité réelle des réponses. S'appuyant sur cette compréhension, nous proposons deux variantes d'OPP : OPP-M : OPP avec Modélisation de Récompense Calibrée et OPP-C : OPP avec Calcul de Récompense Calibré. OPP-M intègre des scores de confiance explicites dans l'entraînement du modèle de récompense, ce qui calibre les modèles de récompense pour mieux capturer l'alignement entre la qualité de la réponse et la confiance verbalisée. OPP-C ajuste le score de récompense pendant l'OPP en fonction de la différence entre la récompense actuelle et la moyenne mobile des récompenses passées. Les deux méthodes OPP-M et OPP-C peuvent être intégrées de manière transparente dans le pipeline OPP actuel et ne nécessitent pas de libellés dorés supplémentaires. Nous évaluons nos méthodes à la fois sur Llama3-8B et Mistral-7B à travers six ensembles de données divers, y compris des générations à choix multiples et ouvertes. Les résultats des expériences montrent que nos deux méthodes peuvent réduire l'erreur de calibration et maintenir des performances comparables à l'OPP standard. Nous montrons en outre qu'elles ne compromettent pas les capacités du modèle dans des contextes de conversation ouverte.
Les grands modèles de langage (LLM) ont démontré un potentiel significatif dans le développement d'applications et de systèmes intelligents tels que des agents basés sur des LLM et des systèmes d'exploitation d'agents (AIOS). Cependant, lorsque ces applications et systèmes interagissent avec le système de fichiers sous-jacent, le système de fichiers reste encore ancré dans le paradigme traditionnel : dépendant de la navigation manuelle à travers des commandes précises. Ce paradigme pose un goulot d'étranglement à l'utilisabilité de ces systèmes car les utilisateurs doivent naviguer dans des hiérarchies de dossiers complexes et se souvenir de noms de fichiers cryptiques. Pour remédier à cette limitation, nous proposons un système de fichiers sémantique basé sur des LLM (LSFS) pour la gestion de fichiers pilotée par des invites. Contrairement aux approches conventionnelles, LSFS intègre des LLM pour permettre aux utilisateurs ou aux agents d'interagir avec les fichiers via des invites en langage naturel, facilitant la gestion sémantique des fichiers. Au niveau macro, nous développons un ensemble complet d'API pour atteindre des fonctionnalités de gestion de fichiers sémantiques, telles que la récupération sémantique de fichiers, la surveillance et la synthèse de mises à jour de fichiers, et le retour en arrière sémantique de fichiers. Au niveau micro, nous stockons les fichiers en construisant des index sémantiques pour eux, concevons et mettons en œuvre des appels système pour différentes opérations sémantiques (par exemple, CRUD, regroupement, jointure) alimentés par une base de données vectorielle. Nos expériences montrent que LSFS offre des améliorations significatives par rapport aux systèmes de fichiers traditionnels en termes de commodité pour l'utilisateur, de diversité des fonctions prises en charge, ainsi que de précision et d'efficacité des opérations de fichiers. De plus, avec l'intégration de LLM, notre système permet des tâches de gestion de fichiers plus intelligentes, telles que la synthèse de contenu et la comparaison de versions, renforçant davantage ses capacités.