Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les avancées rapides dans les Modèles Vision-Langage (VLMs) ont montré un grand potentiel pour aborder les tâches de raisonnement mathématique impliquant un contexte visuel. Contrairement aux humains qui peuvent appliquer de manière fiable des étapes de solution à des problèmes similaires avec de légères modifications, nous avons constaté que les VLMs de pointe comme GPT-4o peuvent régulièrement échouer dans ces scénarios, révélant des limitations dans leurs capacités de raisonnement mathématique. Dans cet article, nous étudions la robustesse du raisonnement mathématique dans les VLMs et évaluons la performance de ces modèles sous différentes variantes de la même question, telles que des changements dans les valeurs numériques visuelles ou les graphiques de fonctions. Alors que plusieurs référentiels mathématiques basés sur la vision ont été développés pour évaluer les capacités de résolution de problèmes des VLMs, ces référentiels ne contiennent que des ensembles statiques de problèmes et ne peuvent pas évaluer facilement la robustesse du raisonnement mathématique. Pour combler cette lacune, nous introduisons DynaMath, un référentiel de mathématiques visuelles dynamique conçu pour une évaluation approfondie des VLMs. DynaMath comprend 501 questions de base de haute qualité, multi-thématiques, chacune représentée sous forme de programme Python. Ces programmes sont soigneusement conçus et annotés pour permettre la génération automatique d'un ensemble beaucoup plus large de questions concrètes, comprenant de nombreux types de variations visuelles et textuelles. DynaMath nous permet d'évaluer la capacité de généralisation des VLMs, en évaluant leur performance sous des conditions d'entrée variables d'une question de base. Nous avons évalué 14 VLMs de pointe avec 5 010 questions concrètes générées. Nos résultats montrent que la précision du modèle dans le pire des cas, définie comme le pourcentage de questions de base correctement répondues dans toutes les 10 variantes, est significativement plus basse que la précision dans le cas moyen. Notre analyse souligne la nécessité d'étudier la robustesse des capacités de raisonnement des VLMs, et DynaMath fournit des perspectives précieuses pour guider le développement de modèles plus fiables pour le raisonnement mathématique.
Les Mélanges d'Experts (MoEs) jouent un rôle important dans le développement de modèles de langage de grande taille (LLMs) plus efficaces et performants. En raison des énormes besoins en ressources, l'étude des algorithmes MoE à grande échelle reste inaccessible à de nombreux chercheurs. Ce travail développe LibMoE, un cadre complet et modulaire pour rationaliser la recherche, la formation et l'évaluation des algorithmes MoE. Basé sur trois principes fondamentaux : (i) conception modulaire, (ii) formation efficace ; (iii) évaluation complète, LibMoE rend les MoE dans les LLMs plus accessibles à un large éventail de chercheurs en standardisant les pipelines de formation et d'évaluation. En utilisant LibMoE, nous avons largement évalué cinq algorithmes MoE de pointe sur trois LLMs différents et 11 ensembles de données dans le cadre de la configuration de zéro-shot. Les résultats montrent que malgré les caractéristiques uniques, tous les algorithmes MoE se comportent de manière assez similaire lorsqu'ils sont moyennés sur un large éventail de tâches. Avec sa conception modulaire et son évaluation approfondie, nous pensons que LibMoE sera inestimable pour les chercheurs afin de progresser de manière significative vers la prochaine génération de MoE et de LLMs. Page du projet : https://fsoft-aic.github.io/fsoft-LibMoE.github.io.
Malgré la popularité de la quantification des grands modèles de langage (LLM) pour l'accélération de l'inférence, une incertitude significative persiste concernant les compromis entre précision et performance associés à divers formats de quantification. Nous présentons une étude empirique complète de la précision quantifiée, évaluant les formats de quantification populaires (FP8, INT8, INT4) sur des références académiques et des tâches du monde réel, sur l'ensemble de la famille de modèles Llama-3.1. De plus, notre étude examine la différence de texte généré par les modèles quantifiés par rapport à leurs homologues non compressés. Au-delà des références, nous présentons également quelques améliorations de la quantification qui nous ont permis d'obtenir des résultats de récupération de précision de pointe. Notre enquête, englobant plus de 500 000 évaluations individuelles, révèle plusieurs conclusions clés : (1) la quantification des poids et activations en FP8 (W8A8-FP) est sans perte sur toutes les échelles de modèle, (2) la quantification des poids et activations en INT8 (W8A8-INT), lorsqu'elle est correctement réglée, entraîne une dégradation de précision étonnamment faible de 1 à 3 %, et (3) la quantification des poids uniquement en INT4 (W4A16-INT) est compétitive avec la quantification des poids et activations en entiers sur 8 bits. Pour répondre à la question du "meilleur" format pour un environnement de déploiement donné, nous menons une analyse des performances d'inférence en utilisant le populaire framework open-source vLLM sur diverses architectures GPU. Nous constatons que W4A16 offre la meilleure rentabilité pour les déploiements synchrones, et pour les déploiements asynchrones sur des GPU de milieu de gamme. Dans le même temps, les formats W8A8 excellent dans le déploiement asynchrone en "batch continu" de modèles de taille moyenne et grande sur des GPU haut de gamme. Nos résultats fournissent un ensemble de lignes directrices pratiques pour le déploiement de LLM quantifiés à travers différentes échelles et exigences de performance.
Les agents autonomes sont devenus de plus en plus importants pour interagir avec le monde réel. Les agents Android, en particulier, ont récemment été mentionnés fréquemment comme méthode d'interaction. Cependant, les études existantes pour former et évaluer les agents Android manquent de recherche systématique sur les modèles open-source et closed-source. Dans ce travail, nous proposons AndroidLab comme un cadre systématique pour les agents Android. Il comprend un environnement opérationnel avec différentes modalités, un espace d'action et un banc d'essai reproductible. Il prend en charge à la fois les grands modèles de langage (LLMs) et les modèles multimodaux (LMMs) dans le même espace d'action. Le banc d'essai AndroidLab comprend des appareils virtuels Android prédéfinis et 138 tâches à travers neuf applications construites sur ces appareils. En utilisant l'environnement AndroidLab, nous développons un ensemble de données d'instructions Android et formons six LLMs et LMMs open-source, augmentant les taux de réussite moyens de 4,59% à 21,50% pour les LLMs et de 1,93% à 13,28% pour les LMMs. AndroidLab est open-source et disponible publiquement sur https://github.com/THUDM/Android-Lab.
Les grands modèles de langage (LLM) ont montré un potentiel remarquable en tant qu'agents autonomes, notamment dans les tâches basées sur le web. Cependant, les agents web LLM existants dépendent fortement de coûteuses API LLM propriétaires, tandis que les LLM ouverts manquent des capacités de prise de décision nécessaires. Cet article présente WebRL, un cadre d'apprentissage par renforcement de curriculum en ligne auto-évolutif conçu pour former des agents web performants en utilisant des LLM ouverts. WebRL aborde trois défis clés dans la construction d'agents web LLM, notamment la rareté des tâches d'entraînement, les signaux de rétroaction clairsemés et la dérive de la distribution des politiques dans l'apprentissage en ligne. Plus précisément, WebRL intègre 1) un curriculum auto-évolutif qui génère de nouvelles tâches à partir de tentatives infructueuses, 2) un modèle de récompense supervisée par résultat robuste (ORM), et 3) des stratégies adaptatives d'apprentissage par renforcement pour garantir des améliorations constantes. Nous appliquons WebRL pour transformer les modèles ouverts Llama-3.1 et GLM-4 en agents web compétents. Sur WebArena-Lite, WebRL améliore le taux de réussite de Llama-3.1-8B de 4,8% à 42,4%, et de 6,1% à 43% pour GLM-4-9B. Ces modèles ouverts surpassent significativement les performances de GPT-4-Turbo (17,6%) et GPT-4o (13,9%) et surpassent les précédents agents web de pointe entraînés sur des LLM ouverts (AutoWebGLM, 18,2%). Nos résultats démontrent l'efficacité de WebRL pour combler le fossé entre les agents web basés sur des LLM ouverts et propriétaires, ouvrant la voie à des systèmes d'interaction web autonomes plus accessibles et puissants.
Sora d'OpenAI met en avant le potentiel de la génération vidéo pour le développement de modèles du monde respectant les lois physiques fondamentales. Cependant, la capacité des modèles de génération vidéo à découvrir de telles lois uniquement à partir de données visuelles sans prérequis humains peut être remise en question. Un modèle du monde apprenant la vraie loi devrait fournir des prédictions robustes aux nuances et extrapoler correctement sur des scénarios non vus. Dans ce travail, nous évaluons à travers trois scénarios clés : en distribution, hors distribution et généralisation combinatoire. Nous avons développé une plateforme de test de simulation 2D pour le mouvement d'objets et les collisions afin de générer des vidéos gouvernées de manière déterministe par une ou plusieurs lois de la mécanique classique. Cela fournit un approvisionnement illimité de données pour des expérimentations à grande échelle et permet une évaluation quantitative de la conformité des vidéos générées aux lois physiques. Nous avons entraîné des modèles de génération vidéo basés sur la diffusion pour prédire les mouvements d'objets à partir de trames initiales. Nos expériences de mise à l'échelle montrent une généralisation parfaite dans la distribution, un comportement de mise à l'échelle mesurable pour la généralisation combinatoire, mais un échec dans les scénarios hors distribution. D'autres expériences révèlent deux idées clés sur les mécanismes de généralisation de ces modèles : (1) les modèles échouent à abstraire des règles physiques générales et présentent plutôt un comportement de généralisation "par cas", c'est-à-dire en imitant l'exemple d'entraînement le plus proche ; (2) lors de la généralisation à de nouveaux cas, les modèles sont observés prioriser différents facteurs lors de la référence aux données d'entraînement : couleur > taille > vélocité > forme. Notre étude suggère que la mise à l'échelle seule est insuffisante pour que les modèles de génération vidéo découvrent les lois physiques fondamentales, malgré son rôle dans le succès plus large de Sora. Consultez notre page de projet sur https://phyworld.github.io
Les systèmes d'agent LLM existants sélectionnent généralement des actions à partir d'un ensemble fixe et prédéfini à chaque étape. Bien que cette approche soit efficace dans des environnements clos et à portée étroite, nous soutenons qu'elle présente deux défis majeurs lors du déploiement d'agents LLM dans des scénarios du monde réel : (1) la sélection à partir d'un ensemble fixe d'actions restreint considérablement les capacités de planification et d'agir des agents LLM, et (2) cette approche nécessite des efforts humains substantiels pour énumérer et implémenter toutes les actions possibles, ce qui devient impraticable dans des environnements complexes avec un grand nombre d'actions potentielles. Dans ce travail, nous proposons un cadre d'agent LLM qui permet la création dynamique et la composition d'actions de manière en ligne. Dans ce cadre, l'agent interagit avec l'environnement en générant et en exécutant des programmes écrits dans un langage de programmation généraliste à chaque étape. De plus, les actions générées sont accumulées au fil du temps pour une réutilisation future. Nos expériences approfondies sur le banc d'essai GAIA démontrent que ce cadre offre une flexibilité considérablement accrue et surpasse les méthodes précédentes. Notamment, il permet à un agent LLM de se rétablir dans des scénarios où aucune action pertinente n'existe dans l'ensemble prédéfini ou lorsque les actions existantes échouent en raison de cas limites imprévus. Au moment de la rédaction, nous occupons la première place du classement public GAIA. Notre code est disponible sur https://github.com/adobe-research/dynasaur.
Les modèles de diffusion ont démontré d'excellentes capacités en génération de texte vers image. Leur compréhension sémantique (c'est-à-dire, la capacité à suivre une instruction) a également été grandement améliorée avec de grands modèles de langage (par exemple, T5, Llama). Cependant, les modèles existants ne peuvent pas parfaitement gérer des instructions textuelles longues et complexes, surtout lorsque celles-ci contiennent divers objets avec de nombreux attributs et des relations spatiales interdépendantes. Bien que de nombreuses méthodes de guidage régional aient été proposées pour les modèles basés sur UNet (SD1.5, SDXL), il n'y a encore aucune implémentation basée sur l'architecture récente de Transformer de Diffusion (DiT), telle que SD3 et FLUX.1. Dans ce rapport, nous proposons et mettons en œuvre un guidage régional pour FLUX.1 basé sur la manipulation de l'attention, ce qui permet à DiT de générer des images à partir de texte de manière fine et compositionnelle sans nécessiter d'entraînement. Le code est disponible sur https://github.com/antonioo-c/Regional-Prompting-FLUX.
La texturation est une étape cruciale dans le flux de production des actifs 3D, qui améliore l'attrait visuel et la diversité des actifs 3D. Malgré les avancées récentes dans la génération Texte-vers-Texture (T2T), les méthodes existantes donnent souvent des résultats médiocres, principalement en raison de discontinuités locales, d'incohérences entre plusieurs vues, et de leur forte dépendance aux résultats du dépliage UV. Pour relever ces défis, nous proposons un nouveau cadre de texturation 3D de génération-raffinement appelé MVPaint, capable de générer des textures sans couture de haute résolution tout en mettant l'accent sur la cohérence multi-vue. MVPaint se compose principalement de trois modules clés. 1) Génération Multi-vue Synchronisée (SMG). Étant donné un modèle de maillage 3D, MVPaint génère d'abord simultanément des images multi-vues en utilisant un modèle SMG, ce qui conduit à des résultats de texturation grossiers avec des parties non peintes en raison d'observations manquantes. 2) Complétion 3D Spatiale (S3I). Pour garantir une texturation 3D complète, nous introduisons la méthode S3I, spécialement conçue pour texturer efficacement les zones précédemment non observées. 3) Raffinement UV (UVR). De plus, MVPaint utilise un module UVR pour améliorer la qualité de la texture dans l'espace UV, qui effectue d'abord une Super-Résolution dans l'espace UV, suivi d'un algorithme de Lissage de Couture Spatial pour réviser les discontinuités spatiales de texturation causées par le dépliage UV. De plus, nous établissons deux référentiels d'évaluation T2T : le référentiel T2T Objaverse et le référentiel T2T GSO, basés sur des maillages 3D de haute qualité sélectionnés respectivement dans l'ensemble de données Objaverse et l'ensemble de données GSO complet. Des résultats expérimentaux approfondis démontrent que MVPaint surpasse les méthodes existantes de pointe. Notamment, MVPaint pourrait générer des textures haute fidélité avec des problèmes minimaux de Janus et une cohérence améliorée entre les vues.
Dans cet article, nous présentons Hunyuan-Large, actuellement le plus grand modèle open-source à base de Transformer et mélange d'experts, avec un total de 389 milliards de paramètres et 52 milliards de paramètres d'activation, capable de traiter jusqu'à 256 000 jetons. Nous menons une évaluation approfondie des performances supérieures de Hunyuan-Large à travers divers benchmarks, notamment la compréhension et la génération de langage, le raisonnement logique, la résolution de problèmes mathématiques, la programmation, les contextes longs et les tâches agrégées, où il surpasse LLama3.1-70B et affiche des performances comparables à celles du modèle beaucoup plus grand LLama3.1-405B. Les pratiques clés de Hunyuan-Large comprennent des données synthétiques à grande échelle bien plus importantes que celles des études précédentes, une stratégie de routage d'experts mixtes, une technique de compression de cache clé-valeur et une stratégie de taux d'apprentissage spécifique à l'expert. De plus, nous examinons également les lois d'échelle et le calendrier de taux d'apprentissage des modèles à mélange d'experts, fournissant des informations précieuses et des orientations pour le développement et l'optimisation des modèles futurs. Le code et les points de contrôle de Hunyuan-Large sont publiés pour faciliter les futures innovations et applications. Codes : https://github.com/Tencent/Hunyuan-Large Modèles : https://huggingface.co/tencent/Tencent-Hunyuan-Large
Le déploiement à grande échelle des grands modèles de langage (LLM) dans diverses applications, telles que les chatbots et les assistants virtuels, exige que les LLM soient sensibles à la culture de l'utilisateur pour garantir l'inclusivité. La culture a été largement étudiée en psychologie et en anthropologie, et il y a eu récemment une recrudescence de recherches visant à rendre les LLM plus culturellement inclusifs, allant au-delà de la multilinguisme et s'appuyant sur les conclusions de la psychologie et de l'anthropologie. Dans cet article, nous passons en revue les efforts visant à intégrer la sensibilité culturelle dans les LLM basés sur du texte et multimodaux. Nous commençons par définir la sensibilité culturelle dans les LLM, en prenant comme point de départ les définitions de la culture de l'anthropologie et de la psychologie. Nous examinons ensuite les méthodologies adoptées pour la création de jeux de données interculturels, les stratégies d'inclusion culturelle dans les tâches ultérieures, et les méthodologies utilisées pour évaluer la sensibilité culturelle des LLM. De plus, nous discutons des implications éthiques de l'alignement culturel, du rôle de l'interaction humain-machine dans la promotion de l'inclusion culturelle dans les LLM, et du rôle de l'alignement culturel dans la promotion de la recherche en sciences sociales. Enfin, nous proposons des pistes pour des recherches futures basées sur nos constatations concernant les lacunes dans la littérature.
Générer des vidéos haute fidélité temporellement cohérentes peut être coûteux en termes de calcul, surtout sur de longues périodes temporelles. Les Transformateurs de Diffusion plus récents (DiTs) - malgré les progrès significatifs réalisés dans ce contexte - ont seulement exacerbé de tels défis car ils reposent sur des modèles plus grands et des mécanismes d'attention plus lourds, entraînant des vitesses d'inférence plus lentes. Dans cet article, nous introduisons une méthode sans entraînement pour accélérer les DiTs vidéo, appelée Mise en Cache Adaptative (AdaCache), motivée par le fait que "toutes les vidéos ne sont pas créées égales" : cela signifie que certaines vidéos nécessitent moins d'étapes de débruitage pour atteindre une qualité raisonnable que d'autres. Sur cette base, nous mettons en cache non seulement les calculs à travers le processus de diffusion, mais concevons également un calendrier de mise en cache adapté à chaque génération de vidéo, maximisant le compromis qualité-latence. Nous introduisons en outre un schéma de Régularisation du Mouvement (MoReg) pour utiliser les informations vidéo au sein d'AdaCache, contrôlant essentiellement l'allocation de calcul en fonction du contenu de mouvement. Dans l'ensemble, nos contributions plug-and-play offrent des accélérations significatives de l'inférence (par exemple, jusqu'à 4,7 fois sur la génération vidéo Open-Sora 720p - 2s) sans sacrifier la qualité de génération, à travers plusieurs références de DiT vidéo.
Les récents développements en génération visuelle 2D ont été remarquablement réussis. Cependant, la génération 3D et 4D reste un défi dans les applications du monde réel en raison du manque de données 4D à grande échelle et de la conception efficace des modèles. Dans cet article, nous proposons d'étudier conjointement la génération générale en 3D et 4D en exploitant les mouvements de caméra et d'objets couramment observés dans la vie quotidienne. En raison du manque de données 4D du monde réel dans la communauté, nous proposons d'abord un pipeline de curation des données pour obtenir les poses de caméra et la force du mouvement des objets à partir de vidéos. Sur la base de ce pipeline, nous introduisons un ensemble de données de scènes 4D du monde réel à grande échelle : CamVid-30K. En exploitant toutes les données 3D et 4D, nous développons notre cadre, GenXD, qui nous permet de produire n'importe quelle scène 3D ou 4D. Nous proposons des modules multivues-temporels, qui désagrègent les mouvements de caméra et d'objets, pour apprendre de manière transparente à partir des données 3D et 4D. De plus, GenXD utilise des conditions latentes masquées pour prendre en charge une variété de vues de conditionnement. GenXD peut générer des vidéos qui suivent la trajectoire de la caméra ainsi que des vues 3D cohérentes qui peuvent être converties en représentations 3D. Nous effectuons des évaluations approfondies sur divers ensembles de données du monde réel et synthétiques, démontrant l'efficacité et la polyvalence de GenXD par rapport aux méthodes précédentes en matière de génération 3D et 4D.
Les logiciels modernes d'effets visuels (VFX) ont rendu possible la création d'images de pratiquement n'importe quoi par des artistes talentueux. Cependant, le processus de création reste laborieux, complexe et largement inaccessible aux utilisateurs ordinaires. Dans ce travail, nous présentons AutoVFX, un cadre qui crée automatiquement des vidéos VFX réalistes et dynamiques à partir d'une seule vidéo et d'instructions en langage naturel. En intégrant soigneusement la modélisation de scènes neuronales, la génération de code basée sur LLM et la simulation physique, AutoVFX est capable de fournir des effets d'édition photoréalistes ancrés physiquement, contrôlables directement à l'aide d'instructions en langage naturel. Nous menons des expériences approfondies pour valider l'efficacité d'AutoVFX sur un large spectre de vidéos et d'instructions. Les résultats quantitatifs et qualitatifs suggèrent qu'AutoVFX surpasse de loin toutes les méthodes concurrentes en termes de qualité générative, d'alignement des instructions, de polyvalence d'édition et de plausibilité physique.
La rareté de l'activation désigne l'existence d'éléments faiblement contributifs substantiels au sein des sorties d'activation qui peuvent être éliminés, bénéficiant à de nombreuses applications importantes concernant les grands modèles de langage (LLM). Bien que la promotion d'une plus grande rareté de l'activation au sein des LLM mérite des études approfondies, les travaux existants manquent de recherches complètes et quantitatives sur la corrélation entre la rareté de l'activation et les facteurs potentiellement influents. Dans cet article, nous présentons une étude approfondie sur les propriétés d'échelle quantitative et les facteurs influents de la rareté de l'activation au sein des LLM basés sur des Transformers en mode décodeur uniquement. Plus précisément, nous proposons la rareté PPL-p%, une mesure précise et consciente des performances de la rareté de l'activation qui est applicable à toute fonction d'activation. À travers des expériences approfondies, nous identifions plusieurs phénomènes importants. Tout d'abord, différentes fonctions d'activation présentent des performances comparables mais des tendances de rareté à l'entraînement opposées. Le ratio d'activation (c'est-à-dire, le ratio de rareté) évolue comme une loi de puissance croissante convergente et une loi de puissance décroissante en espace logarithmique avec la quantité de données d'entraînement pour les LLM activés par SiLU et ReLU, respectivement. Cela démontre que ReLU est plus efficace en tant que fonction d'activation que SiLU et peut tirer parti de plus de données d'entraînement pour améliorer la rareté de l'activation. Deuxièmement, le ratio d'activation augmente linéairement avec le ratio largeur-profondeur en dessous d'un certain point de goulot d'étranglement, indiquant l'avantage potentiel d'une architecture plus profonde à une échelle de paramètres fixe. Enfin, à des ratios largeur-profondeur similaires, nous constatons de manière surprenante que la valeur limite de la rareté de l'activation varie faiblement avec l'échelle des paramètres, c'est-à-dire que les motifs d'activation au sein des LLM sont insensibles à l'échelle des paramètres. Ces lois empiriques concernant les LLM avec une plus grande rareté de l'activation ont des implications importantes pour rendre les LLM plus efficaces et interprétables.
L'année écoulée a vu des avancées significatives dans les modèles linguistiques de grande taille basés sur la vidéo. Cependant, le défi de développer un modèle unifié pour la compréhension de vidéos courtes et longues reste non résolu. La plupart des modèles linguistiques vidéo existants ne peuvent pas traiter des vidéos d'une heure, tandis que les méthodes adaptées aux vidéos longues sont souvent inefficaces pour les vidéos courtes et les images. Dans cet article, nous identifions le problème clé comme étant le contenu redondant dans les vidéos. Pour y remédier, nous proposons une nouvelle stratégie de regroupement qui permet simultanément la compression des tokens et l'agrégation des caractéristiques visuelles sensibles aux instructions. Notre modèle est appelé Regroupement Guidé par Invite pour les Modèles Linguistiques Vidéo, ou PPLLaVA pour faire court. Plus précisément, PPLLaVA se compose de trois composants principaux : l'alignement visuel basé sur CLIP qui extrait les informations visuelles pertinentes aux instructions de l'utilisateur, le regroupement guidé par invite qui compresse la séquence visuelle à des échelles arbitraires en utilisant un regroupement de style convolution, et l'extension du contexte clip conçue pour les instructions longues courantes dans le dialogue visuel. De plus, notre base de code intègre également l'optimisation de préférence directe (DPO) vidéo la plus avancée et l'entraînement visuel par entrelacement. De nombreuses expériences ont validé les performances de notre modèle. Avec un débit supérieur et seulement 1024 contextes visuels, PPLLaVA obtient de meilleurs résultats sur des référentiels d'images en tant que modèle linguistique vidéo, tout en atteignant des performances de pointe sur divers référentiels vidéo, excellant dans des tâches allant de la génération de légendes aux questions à choix multiples, et traitant des durées de vidéos de quelques secondes à plusieurs heures. Les codes sont disponibles sur https://github.com/farewellthree/PPLLaVA.
Dans le développement des Grands Modèles de Langage (GML), l'Apprentissage par Renforcement à partir des Retours Humains (ARRH) est crucial pour aligner les modèles avec les valeurs et préférences humaines. L'ARRH repose traditionnellement sur la divergence de Kullback-Leibler (KL) entre la politique actuelle et une politique initiale figée comme référence, ajoutée en tant que pénalité dans les algorithmes d'optimisation de politique tels que l'Optimisation de Politique Proximale (PPO). Bien que cette contrainte empêche les modèles de s'écarter trop loin du point de contrôle initial, elle limite l'exploration du paysage des récompenses, réduisant ainsi la capacité du modèle à découvrir des solutions de meilleure qualité. En conséquence, l'optimisation de la politique est souvent piégée dans une région étroite de l'espace des paramètres, entraînant un alignement et des performances sous-optimales. Cet article présente SALSA (Apprentissage d'Alignement à Base de Soupe pour une Adaptation Renforcée), une approche novatrice conçue pour surmonter ces limitations en créant un modèle de référence plus flexible et mieux positionné grâce à une moyenne dans l'espace des poids de deux modèles supervisés finement ajustés (SFA) indépendants. Cette soupe de modèles permet une plus grande déviation dans la divergence de KL et l'exploration d'une région prometteuse de l'espace des solutions sans sacrifier la stabilité. En exploitant ce modèle de référence plus robuste, SALSA favorise une meilleure exploration, atteignant des récompenses plus élevées et améliorant la robustesse du modèle, la généralisation hors distribution et les performances. Nous validons l'efficacité de SALSA à travers des expériences approfondies sur des modèles ouverts populaires (Llama2-7B, Mistral-7B et Gemma-2B) à travers divers benchmarks (MT-Bench, Arena-Hard, UltraFeedback), où il dépasse systématiquement le PPO en favorisant une exploration plus profonde et en atteignant un alignement supérieur dans les GML.
Nous introduisons les Représentations d'Objectif d'Image (ROGI), visant à apprendre un espace d'action unifié et sémantiquement cohérent à travers les humains et divers robots. À travers cet espace d'action latent unifié, ROGI permet le transfert de connaissances parmi des données d'activité robotique et humaine à grande échelle. Nous parvenons à cela en comprimant les changements visuels entre une image initiale et son état d'objectif en actions latentes. ROGI nous permet de générer des étiquettes d'actions latentes pour des données vidéo à l'échelle de l'internet. Cet espace d'action latent unifié permet l'entraînement de politiques fondamentales et de modèles mondiaux sur une grande variété de tâches effectuées à la fois par des robots et des humains. Nous démontrons que : (1) ROGI apprend un espace d'action sémantiquement cohérent pour les humains et les robots, caractérisant divers mouvements possibles d'objets représentant la connaissance de l'interaction physique ; (2) ROGI peut "migrer" les mouvements de l'objet dans une vidéo vers d'autres vidéos, même entre humains et robots, en utilisant conjointement le modèle d'action latent et le modèle mondial ; (3) ROGI peut apprendre à aligner les actions latentes avec le langage naturel grâce au modèle de politique fondamentale, et intégrer les actions latentes avec un modèle de politique de bas niveau pour obtenir un contrôle efficace du robot. Nous croyons que ROGI ouvre de nouvelles possibilités pour le transfert de connaissances et le contrôle de l'humain au robot.
La compréhension et l'atténuation des risques potentiels associés aux modèles de base (FMs) dépendent du développement de méthodes d'interprétabilité efficaces. Les Autoencodeurs Épars (SAEs) ont émergé comme un outil prometteur pour démêler les représentations des FM, mais ils ont du mal à capturer des concepts rares mais cruciaux dans les données. Nous introduisons les Autoencodeurs Épars Spécialisés (SSAEs), conçus pour mettre en lumière ces caractéristiques de matière noire insaisissables en se concentrant sur des sous-domaines spécifiques. Nous présentons une recette pratique pour l'entraînement des SSAEs, démontrant l'efficacité de la récupération dense pour la sélection des données et les avantages de la Minimisation du Risque Empirique Incliné en tant qu'objectif d'entraînement pour améliorer le rappel des concepts. Notre évaluation des SSAEs sur des métriques standard, telles que la perplexité en aval et la sparsité L_0, montre qu'ils capturent efficacement les concepts de queue de sous-domaine, dépassant les capacités des SAEs polyvalents. Nous mettons en avant l'utilité pratique des SSAEs dans une étude de cas sur l'ensemble de données Biais dans les Bios, où les SSAEs obtiennent une augmentation de 12,5\% de l'exactitude de classification du pire groupe lorsqu'ils sont appliqués pour supprimer les informations de genre fallacieuses. Les SSAEs offrent un nouvel outil puissant pour examiner le fonctionnement interne des FMs dans les sous-domaines.
Nous présentons le Multi-expert Prompting, une nouvelle amélioration de l'ExpertPrompting (Xu et al., 2023), conçue pour améliorer la génération de grands modèles de langage (LLM). Plus précisément, il guide un LLM pour remplir une instruction d'entrée en simulant plusieurs experts, en agrégeant leurs réponses, et en sélectionnant la meilleure parmi les réponses individuelles et agrégées. Ce processus est effectué dans une seule chaîne de pensées à travers nos sept sous-tâches soigneusement conçues dérivées de la Technique du Groupe Nominal (Ven et Delbecq, 1974), un cadre de prise de décision bien établi. Nos évaluations démontrent que le Multi-expert Prompting surpasse significativement l'ExpertPrompting et les baselines comparables dans l'amélioration de la véracité, de la factualité, de l'informativité et de l'utilité des réponses tout en réduisant la toxicité et la nocivité. Il atteint en outre un niveau de véracité de pointe en surpassant la meilleure baseline de 8,69% avec ChatGPT. Le Multi-expert Prompting est efficace, explicatif et hautement adaptable à divers scénarios, éliminant le besoin de construction manuelle de l'instruction.
Cet article décrit un algorithme efficace pour résoudre des problèmes inverses linéaires bruités en utilisant des modèles de diffusion pré-entraînés. En étendant le paradigme des modèles implicites de diffusion pour le débruitage (DDIM), nous proposons des modèles implicites de diffusion contraints (CDIM) qui modifient les mises à jour de diffusion pour imposer une contrainte sur la sortie finale. Pour les problèmes inverses sans bruit, CDIM satisfait exactement les contraintes ; dans le cas bruité, nous généralisons CDIM pour satisfaire une contrainte exacte sur la distribution résiduelle du bruit. Des expériences sur une variété de tâches et de métriques montrent de bonnes performances de CDIM, avec une accélération d'inférence similaire à celle de DDIM non contraint : de 10 à 50 fois plus rapide que les méthodes de diffusion conditionnelle précédentes. Nous démontrons la polyvalence de notre approche sur de nombreux problèmes, notamment la super-résolution, le débruitage, l'inpainting, le défloutage et la reconstruction de nuages de points 3D.
Les grands modèles multimodaux (LMMs) ont récemment montré de grands progrès dans la compréhension des images riches en texte, mais ils rencontrent encore des difficultés avec des documents complexes, multi-pages et riches en visuels. Les méthodes traditionnelles utilisant des analyseurs de documents pour la génération augmentée par récupération souffrent de limitations de performance et d'efficacité, tandis que la présentation directe de toutes les pages aux LMMs entraîne des inefficacités, surtout avec des documents longs. Dans ce travail, nous présentons un nouveau cadre nommé LoRA-Adaptation Contextualisée des grands modèles multimodaux (LoCAL), qui élargit les capacités de tout LMM pour prendre en charge la compréhension des longs documents. Nous démontrons que les LMMs peuvent efficacement servir de récupérateurs multimodaux, récupérant les pages pertinentes pour répondre aux questions des utilisateurs basées sur ces pages. LoCAL est implémenté avec deux adaptateurs LMM spécifiques : un pour la récupération de pages de preuves et un autre pour la réponse aux questions. Les résultats empiriques montrent des performances de pointe sur des benchmarks publics, démontrant l'efficacité de LoCAL.
Nous présentons Swan, une famille de modèles d'incorporation centrés autour de la langue arabe, répondant aux cas d'utilisation à petite et grande échelle. Swan comprend deux variantes : Swan-Small, basé sur ARBERTv2, et Swan-Large, construit sur ArMistral, un modèle de langue arabe large pré-entraîné. Pour évaluer ces modèles, nous proposons ArabicMTEB, une suite de référence complète qui évalue les performances d'incorporation de texte arabe croisé, multi-dialectal, multi-domaine et multi-culturel, couvrant huit tâches diverses et s'étendant sur 94 ensembles de données. Swan-Large atteint des résultats de pointe, surpassant Multilingual-E5-large dans la plupart des tâches arabes, tandis que le Swan-Small surpasse systématiquement Multilingual-E5 base. Nos évaluations approfondies démontrent que les modèles Swan sont à la fois conscients des dialectes et de la culture, excellant dans divers domaines arabes tout en offrant une efficacité monétaire significative. Ce travail fait progresser de manière significative le domaine de la modélisation de la langue arabe et fournit des ressources précieuses pour la recherche future et les applications dans le traitement automatique du langage naturel en arabe. Nos modèles et notre référentiel seront rendus publiquement accessibles à la recherche.