Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les champs de radiance neurale (NeRF) rencontrent des défis importants dans les scénarios à faible tirage, principalement en raison du surajustement et des longs temps d'entraînement pour un rendu haute fidélité. Les méthodes existantes, telles que FreeNeRF et SparseNeRF, utilisent une régularisation de fréquence ou des a priori pré-entraînés mais rencontrent des difficultés avec une planification complexe et un biais. Nous présentons FrugalNeRF, un nouveau cadre NeRF à faible tirage qui exploite le partage de poids des voxels à travers plusieurs échelles pour représenter efficacement les détails de la scène. Notre contribution clé est un schéma d'adaptation géométrique inter-échelles qui sélectionne une profondeur pseudo-vérité terrain basée sur les erreurs de reprojection à travers les échelles. Cela guide l'entraînement sans dépendre de a priori appris externement, permettant une utilisation complète des données d'entraînement. Il peut également intégrer des a priori pré-entraînés, améliorant la qualité sans ralentir la convergence. Les expériences sur LLFF, DTU et RealEstate-10K montrent que FrugalNeRF surpasse les autres méthodes NeRF à faible tirage tout en réduisant significativement le temps d'entraînement, en faisant une solution pratique pour une reconstruction de scène 3D efficace et précise.
Le Modèle Segment Anything 2 (SAM 2) s'est imposé comme un modèle fondamental puissant pour la segmentation d'objets dans les images et les vidéos, ouvrant la voie à diverses applications vidéo ultérieures. La conception cruciale de SAM 2 pour la segmentation vidéo réside dans son module de mémoire, qui génère des mémoires conscientes des objets à partir des images précédentes pour la prédiction de l'image actuelle. Cependant, sa conception de mémoire de sélection gourmande souffre du problème d' "accumulation d'erreurs", où un masque erroné ou manqué va se propager et influencer la segmentation des images suivantes, limitant ainsi les performances de SAM 2 pour les vidéos complexes à long terme. Pour remédier à cela, nous présentons SAM2Long, une stratégie améliorée de segmentation d'objets vidéo sans entraînement, qui prend en compte l'incertitude de segmentation dans chaque image et choisit les résultats optimaux au niveau de la vidéo à partir de multiples voies de segmentation de manière contrainte par recherche arborescente. En pratique, nous maintenons un nombre fixe de voies de segmentation tout au long de la vidéo. Pour chaque image, plusieurs masques sont proposés en fonction des voies existantes, créant ainsi diverses branches candidates. Ensuite, nous sélectionnons le même nombre fixe de branches avec des scores cumulatifs plus élevés comme nouvelles voies pour l'image suivante. Après le traitement de l'image finale, la voie avec le score cumulatif le plus élevé est choisie comme résultat final de segmentation. Grâce à sa conception de recherche heuristique, SAM2Long est robuste face aux occultations et aux réapparitions d'objets, et peut segmenter et suivre efficacement les objets pour des vidéos complexes à long terme. Notamment, SAM2Long obtient une amélioration moyenne de 3,0 points dans l'ensemble des 24 comparaisons directes, avec des gains allant jusqu'à 5,3 points en J&F sur des référentiels de segmentation d'objets vidéo à long terme tels que SA-V et LVOS. Le code est disponible sur https://github.com/Mark12Ding/SAM2Long.
Une évaluation efficace et précise est cruciale pour l'amélioration continue des grands modèles de langage (LLM). Parmi les différentes méthodes d'évaluation, l'évaluation subjective a attiré une attention significative en raison de son excellente adéquation avec les scénarios d'utilisation réels et les préférences humaines. Cependant, les évaluations basées sur l'humain sont coûteuses et manquent de reproductibilité, ce qui rend les évaluateurs automatisés précis (juges) essentiels dans ce processus. Dans ce rapport, nous présentons CompassJudger-1, le premier juge LLM open source tout-en-un. CompassJudger-1 est un LLM polyvalent qui démontre une remarquable polyvalence. Il est capable de : 1. Effectuer des évaluations unitaires et des comparaisons de deux modèles en tant que modèle de récompense ; 2. Effectuer des évaluations selon des formats spécifiés ; 3. Générer des critiques ; 4. Exécuter diverses tâches comme un LLM général. Pour évaluer les capacités d'évaluation des différents modèles de juge dans un cadre unifié, nous avons également mis en place JudgerBench, un nouveau banc d'essai qui englobe diverses tâches d'évaluation subjective et couvre un large éventail de sujets. CompassJudger-1 offre une solution complète pour diverses tâches d'évaluation tout en conservant la flexibilité pour s'adapter à des exigences diverses. CompassJudger et JudgerBench sont tous deux publiés et disponibles pour la communauté de recherche sur https://github.com/open-compass/CompassJudger. Nous croyons qu'en rendant ces outils open source, nous pouvons favoriser la collaboration et accélérer les progrès dans les méthodologies d'évaluation des LLM.
Avec les progrès des modèles open-source, l'entraînement (ou le fine-tuning) des modèles sur des ensembles de données personnalisés est devenu une partie cruciale du développement de solutions adaptées à des applications industrielles spécifiques ou open-source. Cependant, il n'existe pas d'outil unique qui simplifie le processus d'entraînement sur différents types de modalités ou tâches. Nous présentons AutoTrain (alias AutoTrain Advanced) - un outil/bibliothèque open-source sans code qui peut être utilisé pour entraîner (ou affiner) des modèles pour différents types de tâches telles que : l'affinage de grands modèles de langage (LLM), la classification/régression de texte, la classification de jetons, la tâche de séquence à séquence, l'affinage de transformateurs de phrases, l'affinage de modèles de langage visuel (VLM), la classification/régression d'images et même des tâches de classification et de régression sur des données tabulaires. AutoTrain Advanced est une bibliothèque open-source fournissant les meilleures pratiques pour l'entraînement de modèles sur des ensembles de données personnalisés. La bibliothèque est disponible sur https://github.com/huggingface/autotrain-advanced. AutoTrain peut être utilisé en mode entièrement local ou sur des machines cloud et fonctionne avec des dizaines de milliers de modèles partagés sur Hugging Face Hub et leurs variations.
Les récentes avancées dans les modèles fondamentaux multimodaux ont conduit à des progrès significatifs dans la compréhension vision-langage. Des tentatives initiales ont également exploré le potentiel des grands modèles de langage multimodaux (MLLM) pour la génération de contenu visuel. Cependant, les travaux existants n'ont pas suffisamment abordé les exigences de granularité variables des différentes tâches de génération d'images au sein d'un paradigme MLLM unifié - de la diversité requise dans la génération texte-image à la précision de contrôle nécessaire dans la manipulation d'images. Dans ce travail, nous proposons PUMA, emPowering Unified MLLM with Multi-grAnular visual generation. PUMA unifie les caractéristiques visuelles multi-granulaires à la fois en tant qu'entrées et sorties des MLLMs, traitant de manière élégante les différentes exigences de granularité des différentes tâches de génération d'images au sein d'un cadre MLLM unifié. Après un pré-entraînement multimodal et un réglage d'instructions spécifiques à la tâche, PUMA démontre sa compétence dans un large éventail de tâches multimodales. Ce travail représente une avancée significative vers un MLLM véritablement unifié capable de s'adapter aux exigences de granularité des différentes tâches visuelles. Le code et le modèle seront publiés sur https://github.com/rongyaofang/PUMA.
Nous présentons Baichuan Alignment, une analyse détaillée des techniques d'alignement utilisées dans la série de modèles Baichuan. Cela représente le premier compte rendu exhaustif de méthodologies d'alignement de l'industrie, offrant des perspectives précieuses pour faire progresser la recherche en IA. Nous examinons les composants critiques qui améliorent les performances du modèle pendant le processus d'alignement, y compris les méthodes d'optimisation, les stratégies de données, les améliorations de capacité et les processus d'évaluation. Le processus se déroule en trois étapes clés : Système d'Augmentation de l'Incitation (SAI), Fine-Tuning Supervisé (FTS) et Alignement des Préférences. Les problèmes rencontrés, les solutions appliquées et les améliorations apportées sont consciencieusement enregistrés. À travers des comparaisons sur des références bien établies, nous mettons en évidence les avancées technologiques permises par Baichuan Alignment. Baichuan-Instruct est un modèle interne, tandis que Qwen2-Nova-72B et Llama3-PBM-Nova-70B sont des versions instruct des modèles de base Qwen2-72B et Llama-3-70B, optimisés grâce à Baichuan Alignment. Baichuan-Instruct démontre des améliorations significatives dans les capacités essentielles, avec des gains d'expérience utilisateur allant de 17 % à 28 %, et se comporte exceptionnellement bien sur des références spécialisées. Dans les évaluations de références open-source, à la fois Qwen2-Nova-72B et Llama3-PBM-Nova-70B surpassent systématiquement leurs versions instruct officielles respectives sur presque tous les ensembles de données. Ce rapport vise à clarifier les technologies clés derrière le processus d'alignement, favorisant une compréhension plus approfondie au sein de la communauté. Le modèle Llama3-PBM-Nova-70B est disponible sur https://huggingface.co/PKU-Baichuan-MLSystemLab/Llama3-PBM-Nova-70B.
Le réglage fin supervisé (SFS) est crucial pour adapter les grands modèles de langage (GML) à un domaine ou une tâche spécifique. Cependant, seule une quantité limitée de données étiquetées est disponible dans les applications pratiques, ce qui pose un défi majeur pour le SFS en termes de résultats satisfaisants. Par conséquent, un cadre efficace en données capable d'exploiter pleinement les données étiquetées et non étiquetées pour le réglage fin des GML est très attendu. Dans cette optique, nous introduisons un cadre de réglage fin semi-supervisé appelé SemiEvol pour l'adaptation des GML selon une approche de propagation et de sélection. Pour la propagation des connaissances, SemiEvol adopte une approche bi-niveau, propageant les connaissances des données étiquetées aux données non étiquetées à travers des méthodes de pondération interne et de contexte interne. Pour la sélection des connaissances, SemiEvol intègre un mécanisme d'apprentissage collaboratif, sélectionnant des échantillons de pseudo-réponses de meilleure qualité. Nous avons mené des expériences en utilisant GPT-4o-mini et Llama-3.1 sur sept ensembles de données généraux ou spécifiques à un domaine, démontrant des améliorations significatives des performances du modèle sur les données cibles. De plus, nous avons comparé SemiEvol avec le SFS et les méthodes d'auto-évolution, mettant en évidence sa praticité dans les scénarios de données hybrides.
Malgré les récents progrès réalisés dans les grands modèles de langage multimodal (MLLM), leur développement s'est principalement concentré sur des ensembles de données et des tâches en anglais et occidentaux, laissant la plupart des langues du monde et des contextes culturels divers sous-représentés. Cet article présente Pangea, un MLLM multilingue multimodal entraîné sur PangeaIns, un ensemble de données d'instructions diversifié de 6 millions couvrant 39 langues. PangeaIns propose : 1) des instructions en anglais de haute qualité, 2) des instructions soigneusement traduites par machine, et 3) des tâches multimodales culturellement pertinentes pour garantir une couverture interculturelle. Pour évaluer rigoureusement les capacités des modèles, nous introduisons PangeaBench, un ensemble d'évaluation holistique couvrant 14 ensembles de données en 47 langues. Les résultats montrent que Pangea surpasse significativement les modèles open source existants dans des environnements multilingues et des contextes culturels divers. Des études d'ablation révèlent en outre l'importance des proportions de données en anglais, de la popularité des langues et du nombre d'échantillons d'entraînement multimodaux sur les performances globales. Nous rendons entièrement open source nos données, notre code et nos points de contrôle entraînés, afin de faciliter le développement de MLLM multilingues inclusifs et robustes, favorisant l'équité et l'accessibilité à travers un spectre linguistique et culturel plus large.
Les modèles de récompense sont essentiels dans des techniques telles que l'Apprentissage par Renforcement à partir du Feedback Humain (ARFH) et les Lois d'Échelle d'Inférence, où ils guident l'alignement des modèles de langage et sélectionnent les réponses optimales. Malgré leur importance, les benchmarks existants pour les modèles de récompense évaluent souvent les modèles en leur demandant de distinguer entre des réponses générées par des modèles de puissance variable. Cependant, cette approche échoue à évaluer les modèles de récompense sur des changements de contenu subtils mais critiques et des variations de style, ce qui se traduit par une faible corrélation avec les performances des modèles de politique. À cette fin, nous présentons RM-Bench, un nouveau benchmark conçu pour évaluer les modèles de récompense en fonction de leur sensibilité aux différences de contenu subtiles et leur résistance aux biais de style. Des expériences approfondies démontrent que RM-Bench est fortement corrélé aux performances des modèles de politique, en faisant une référence fiable pour sélectionner des modèles de récompense afin d'aligner efficacement les modèles de langage. Nous évaluons près de 40 modèles de récompense sur RM-Bench. Nos résultats révèlent que même les modèles de pointe n'atteignent qu'une performance moyenne de seulement 46,6 %, ce qui est inférieur à la précision au niveau aléatoire (50 %) lorsqu'ils sont confrontés à des interférences de biais de style. Ces résultats mettent en évidence le grand potentiel d'amélioration des modèles de récompense actuels. Le code et les données associés sont disponibles sur https://github.com/THU-KEG/RM-Bench.
La Génération Augmentée par Récupération (GAR), tout en servant de complément viable aux grands modèles de langage (GML), néglige souvent l'aspect crucial du découpage de texte au sein de son pipeline, ce qui impacte la qualité des tâches intensives en connaissances. Cet article introduit le concept de Méta-Découpage, qui fait référence à une granularité entre les phrases et les paragraphes, consistant en une collection de phrases au sein d'un paragraphe ayant des connexions logiques linguistiques profondes. Pour mettre en œuvre le Méta-Découpage, nous avons conçu deux stratégies basées sur les GML : le Découpage par Échantillonnage de Marge et le Découpage par Périplexité. Le premier utilise les GML pour effectuer une classification binaire sur la nécessité de segmenter des phrases consécutives, prenant des décisions basées sur la différence de probabilité obtenue à partir de l'échantillonnage de marge. Le second identifie précisément les limites des découpages de texte en analysant les caractéristiques de la distribution de la périplexité. De plus, compte tenu de la complexité inhérente de différents textes, nous proposons une stratégie qui combine le Méta-Découpage avec une fusion dynamique pour atteindre un équilibre entre un découpage de texte fin et grossier. Des expériences menées sur onze ensembles de données démontrent que le Méta-Découpage peut améliorer de manière plus efficace les performances des questions à réponse unique et à réponses multiples basées sur la GAR. Par exemple, sur l'ensemble de données 2WikiMultihopQA, il surpasse le découpage par similarité de 1,32 tout en ne consommant que 45,8 % du temps. Notre code est disponible sur https://github.com/IAAR-Shanghai/Meta-Chunking.
La distillation des connaissances (KD) vise à transférer les connaissances d'un grand modèle enseignant à un modèle étudiant plus petit. Les travaux précédents appliquant la KD dans le domaine des grands modèles de langage (LLM) se sont généralement concentrés sur la phase post-entraînement, où le LLM étudiant apprend directement à partir des instructions et des réponses correspondantes générées par le modèle enseignant. Dans cet article, nous étendons la KD à la phase de pré-entraînement des LLM, nommée distillation de pré-entraînement (PD). Nous menons d'abord une expérience préliminaire en utilisant GLM-4-9B comme modèle enseignant pour distiller un LLM étudiant de 1,9 milliard de paramètres, validant ainsi l'efficacité de la PD. En tenant compte des facteurs d'impact clés de la distillation, nous explorons systématiquement l'espace de conception de la distillation de pré-entraînement à travers quatre aspects : le traitement des logits, la sélection de la perte, la loi d'échelle, et les logits hors ligne ou en ligne. Nous menons des expériences approfondies pour explorer l'espace de conception de la distillation de pré-entraînement et trouvons de meilleures configurations et des conclusions intéressantes, telles que des LLM étudiants plus grands bénéficiant généralement davantage de la distillation de pré-entraînement, tandis qu'un LLM enseignant plus grand ne garantit pas nécessairement de meilleurs résultats. Nous espérons que notre exploration de l'espace de conception éclairera les pratiques futures en matière de distillation de pré-entraînement.
Les preuves formelles sont difficiles à rédiger, même pour des experts expérimentés. Les progrès récents en Proving Neural Theorem (PNT) montrent des promesses pour accélérer ce processus. Cependant, les corpus formels disponibles sur Internet sont limités par rapport au texte général, ce qui pose un défi important de pénurie de données pour le PNT. Pour résoudre ce problème, ce travail propose Alchemy, un cadre général pour la synthèse de données qui construit des théorèmes formels par mutation symbolique. Plus précisément, pour chaque théorème candidat dans Mathlib, nous identifions tous les théorèmes invoquables qui peuvent être utilisés pour le réécrire ou l'appliquer. Ensuite, nous mutons le théorème candidat en remplaçant le terme correspondant dans l'énoncé par sa forme équivalente ou son antécédent. Ainsi, notre méthode augmente le nombre de théorèmes dans Mathlib d'un ordre de grandeur, passant de 110k à 6M. De plus, nous effectuons un pré-entraînement continu et un affinage supervisé sur ce corpus augmenté pour de grands modèles de langage. Les résultats expérimentaux démontrent l'efficacité de notre approche, atteignant une amélioration de performance absolue de 5% sur le benchmark Leandojo. De plus, nos données synthétiques réalisent un gain de performance absolu de 2,5% sur le benchmark miniF2F hors distribution. Pour fournir des perspectives supplémentaires, nous menons une analyse approfondie de la composition des données synthétiques et du paradigme d'entraînement, offrant des orientations précieuses pour le développement d'un puissant prouveur de théorèmes.
Les grands modèles de langage (LLMs) ont révolutionné le traitement automatique du langage naturel, mais leur application aux tâches basées sur la parole reste complexe en raison des défis liés à l'intégration des modalités audio et texte. Ce document présente Ichigo, un modèle mixte qui traite de manière transparente des séquences entrelacées de parole et de texte. En utilisant une approche de fusion précoce tokenisée, Ichigo quantifie la parole en jetons discrets et utilise une architecture uniforme basée sur des transformateurs pour les modalités de parole et de texte. Cette méthode permet un raisonnement et une génération conjoints à travers les modalités sans nécessiter d'adaptateurs séparés. Nous présentons une méthodologie de formation complète, comprenant un pré-entraînement sur des ensembles de données de reconnaissance de la parole multilingues et un affinage sur un ensemble de données d'instructions sélectionné. Ichigo démontre des performances de pointe sur des référentiels de questions-réponses de parole, surpassant les modèles de langage de parole open-source existants et obtenant des résultats comparables à ceux des systèmes en cascade. Notamment, Ichigo présente une latence de seulement 111 ms pour la génération du premier jeton, nettement inférieure à celle des modèles actuels. Notre approche fait progresser le domaine de l'IA multimodale et fournit un cadre permettant aux petites équipes de recherche de contribuer efficacement aux modèles de langage de parole open-source.
Les capacités émergentes de zéro-shot des Grands Modèles de Langage (GML) ont conduit à leur application dans des domaines allant bien au-delà des tâches de traitement du langage naturel. En apprentissage par renforcement, bien que les GML aient été largement utilisés dans des environnements basés sur du texte, leur intégration avec des espaces d'états continus reste peu étudiée. Dans cet article, nous examinons comment les GML pré-entraînés peuvent être exploités pour prédire dans le contexte la dynamique des processus décisionnels de Markov continus. Nous identifions la manipulation de données multivariées et l'incorporation du signal de contrôle comme des défis clés limitant le potentiel du déploiement des GML dans cette configuration, et proposons l'Apprentissage en Contexte Désentrelacé (DICL) pour y remédier. Nous présentons des applications de preuve de concept dans deux contextes d'apprentissage par renforcement : l'évaluation de politiques basée sur des modèles et l'apprentissage par renforcement hors politique augmenté de données, soutenus par une analyse théorique des méthodes proposées. Nos expériences démontrent en outre que notre approche produit des estimations d'incertitude bien calibrées. Nous mettons le code à disposition sur https://github.com/abenechehab/dicl.
L'expansion des grands modèles de langage pour gérer efficacement les instructions avec des contextes extrêmement longs reste à explorer pleinement. L'obstacle principal réside dans la construction d'un ensemble de données de suivi d'instructions longues de haute qualité conçu pour l'alignement des contextes longs. Des études existantes ont tenté de faire évoluer le volume de données disponible en synthétisant des échantillons de suivi d'instructions longues. Cependant, augmenter de manière indiscriminée la quantité de données sans une stratégie bien définie pour garantir la qualité des données peut introduire des échantillons de faible qualité et limiter les performances finales. Pour combler cette lacune, nous visons à relever le défi unique de l'alignement de contextes longs, c'est-à-dire modéliser les dépendances à longue portée pour gérer les instructions et les contextes d'entrée étendus. Nous proposons GATEAU, un nouveau cadre conçu pour identifier les échantillons influents et de haute qualité enrichis en relations de dépendance à longue portée en utilisant le Guidage des Modèles Homologues (HMG) et la Mesure de la Conscience Contextuelle (CAM). Plus précisément, le HMG tente de mesurer la difficulté de générer des réponses correspondantes en raison des dépendances à longue portée, en utilisant les scores de perplexité de la réponse de deux modèles homologues avec des fenêtres contextuelles différentes. De plus, le rôle de la CAM est de mesurer la difficulté de comprendre les contextes d'entrée longs en raison des dépendances à longue portée en évaluant si l'attention du modèle est concentrée sur des segments importants. En s'appuyant sur ces deux méthodes proposées, nous sélectionnons les échantillons les plus difficiles comme données influentes pour encadrer efficacement les dépendances à longue portée, permettant ainsi d'améliorer les performances des LLM. Des expériences approfondies indiquent que GATEAU identifie efficacement des échantillons enrichis en relations de dépendance à longue portée et que le modèle formé sur ces échantillons sélectionnés présente de meilleures capacités de suivi d'instructions et de compréhension de contextes longs.
Les modèles texte-image sont entraînés en utilisant de grands ensembles de données collectés en extrayant des paires image-texte sur internet. Ces ensembles de données incluent souvent du matériel privé, protégé par des droits d'auteur et sous licence. Entraîner des modèles sur de telles données leur permet de générer des images avec un tel contenu, ce qui pourrait violer les lois sur le droit d'auteur et la vie privée des individus. Ce phénomène est appelé imitation - la génération d'images avec un contenu qui présente une similarité reconnaissable avec ses images d'entraînement. Dans ce travail, nous étudions la relation entre la fréquence d'un concept dans l'ensemble de données d'entraînement et la capacité d'un modèle à l'imiter. Nous cherchons à déterminer le point à partir duquel un modèle a été entraîné sur suffisamment d'instances pour imiter un concept - le seuil d'imitation. Nous posons cette question comme un nouveau problème : Trouver le Seuil d'Imitation (FIT) et proposons une approche efficace qui estime le seuil d'imitation sans supporter le coût colossal de l'entraînement de plusieurs modèles à partir de zéro. Nous expérimentons avec deux domaines - les visages humains et les styles artistiques - pour lesquels nous créons quatre ensembles de données, et évaluons trois modèles texte-image qui ont été entraînés sur deux ensembles de données de pré-entraînement. Nos résultats révèlent que le seuil d'imitation de ces modèles se situe dans la plage de 200 à 600 images, en fonction du domaine et du modèle. Le seuil d'imitation peut fournir une base empirique pour les revendications de violation du droit d'auteur et servir de principe directeur pour les développeurs de modèles texte-image qui visent à se conformer aux lois sur le droit d'auteur et la vie privée. Nous mettons à disposition le code et les données sur https://github.com/vsahil/MIMETIC-2.git et le site web du projet est hébergé sur https://how-many-van-goghs-does-it-take.github.io.
Nous présentons Agent-to-Sim (ATS), un cadre pour apprendre des modèles de comportement interactif d'agents 3D à partir de collections vidéo longitudinales décontractées. Contrairement aux travaux antérieurs qui reposent sur un suivi basé sur des marqueurs et des caméras multi-vues, ATS apprend les comportements naturels des agents animaux et humains de manière non invasive à travers des observations vidéo enregistrées sur une longue période (par exemple, un mois) dans un environnement unique. Modéliser le comportement 3D d'un agent nécessite un suivi 3D persistant (par exemple, savoir quel point correspond à quel point) sur une longue période. Pour obtenir de telles données, nous développons une méthode d'enregistrement grossier à fin qui suit l'agent et la caméra dans le temps à travers un espace 3D canonique, aboutissant à une représentation spacetime 4D complète et persistante. Nous entraînons ensuite un modèle génératif de comportements d'agent en utilisant des données appariées de perception et de mouvement d'un agent interrogées à partir de la reconstruction 4D. ATS permet le transfert du réel à la simulation à partir d'enregistrements vidéo d'un agent vers un simulateur de comportement interactif. Nous présentons des résultats sur des animaux de compagnie (par exemple, chat, chien, lapin) et des humains à partir de vidéos RGBD monoculaires capturées par un smartphone.
Il existe un écart significatif entre les besoins des patients et le soutien disponible en santé mentale aujourd'hui. Dans cet article, nous visons à examiner en profondeur le potentiel de l'utilisation des Grands Modèles de Langue (GML) pour assister la psychothérapie professionnelle. À cette fin, nous proposons un nouveau banc d'essai, CBT-BENCH, pour l'évaluation systématique de l'assistance à la thérapie cognitivo-comportementale (TCC). Nous incluons trois niveaux de tâches dans CBT-BENCH : I : Acquisition des connaissances de base en TCC, avec la tâche de questions à choix multiples ; II : Compréhension du modèle cognitif, avec les tâches de classification des distorsions cognitives, de classification des croyances centrales primaires et de classification des croyances centrales détaillées ; III : Génération de réponses thérapeutiques, avec la tâche de générer des réponses au discours du patient lors des séances de thérapie TCC. Ces tâches englobent des aspects clés de la TCC qui pourraient potentiellement être améliorés grâce à l'assistance de l'IA, tout en décrivant également une hiérarchie des exigences en matière de capacité, allant de la simple récitation des connaissances de base à l'engagement dans de véritables conversations thérapeutiques. Nous avons évalué des GML représentatifs sur notre banc d'essai. Les résultats expérimentaux indiquent que si les GML se débrouillent bien pour réciter les connaissances en TCC, ils sont en difficulté dans des scénarios réels complexes nécessitant une analyse approfondie des structures cognitives des patients et la génération de réponses efficaces, suggérant des travaux futurs potentiels.
Les modèles de transformateur traditionnels allouent souvent une quantité fixe de ressources computationnelles à chaque jeton d'entrée, ce qui entraîne une computation inefficace et inutile. Pour remédier à cela, le Mélange de Profondeurs (MoD) a été introduit pour ajuster dynamiquement la profondeur computationnelle en sautant les couches moins importantes. Malgré ses promesses, les approches MoD actuelles restent peu explorées et rencontrent deux principaux défis : (1) des coûts de formation élevés en raison de la nécessité de former l'ensemble du modèle ainsi que les routeurs qui déterminent quelles couches sauter, et (2) le risque de dégradation des performances lorsque des couches importantes sont contournées. En réponse au premier problème, nous proposons l'Accordage des Routeurs, une méthode qui ajuste finement uniquement le routeur sur un petit ensemble de données, réduisant drastiquement la surcharge computationnelle associée à la formation complète du modèle. Pour le deuxième défi, nous proposons MindSkip, qui déploie l'Attention avec des Profondeurs Dynamiques. Cette méthode préserve les performances du modèle tout en améliorant significativement l'efficacité computationnelle et la mémoire. Des expériences approfondies démontrent que notre approche offre des résultats compétitifs tout en améliorant considérablement l'efficacité de calcul, par exemple, une accélération de 21\% et seulement une baisse de performance de 0,2\%. Le code est disponible sur https://github.com/CASE-Lab-UMD/Router-Tuning.
Les récents progrès dans les modèles de langage parlé ont entraîné des améliorations significatives dans la tokenisation et la synthèse de la parole. Cependant, cartographier efficacement les attributs complexes et multidimensionnels de la parole en tokens discrets reste un défi. Ce processus exige des informations acoustiques, sémantiques et contextuelles pour des représentations précises de la parole. Les représentations de la parole existantes se divisent généralement en deux catégories : des tokens acoustiques provenant des codecs audio et des tokens sémantiques issus des modèles d'apprentissage auto-supervisé de la parole. Bien que des efforts récents aient unifié les tokens acoustiques et sémantiques pour améliorer les performances, ils négligent le rôle crucial de la représentation contextuelle dans la modélisation complète de la parole. Nos investigations empiriques révèlent que l'absence de représentations contextuelles entraîne une augmentation du taux d'erreur de mots (WER) et des scores de perte d'informations de mots (WIL) dans les transcriptions de la parole. Pour remédier à ces limitations, nous proposons deux nouvelles approches de distillation : (1) une méthode de distillation guidée par un modèle de langage (LM) qui intègre des informations contextuelles, et (2) une technique de distillation guidée par un LM combiné à un modèle de parole auto-supervisé (SM) qui distille efficacement des représentations multimodales (acoustiques, sémantiques et contextuelles) en un tokeniseur de parole complet, appelé DM-Codec. L'architecture DM-Codec adopte un cadre encodeur-décodeur rationalisé avec un quantificateur vectoriel résiduel (RVQ) et intègre le LM et le SM pendant le processus d'entraînement. Les expériences montrent que DM-Codec surpasse significativement les modèles de tokenisation de parole de pointe, réduisant le WER jusqu'à 13,46 %, le WIL de 9,82 %, et améliorant la qualité de la parole de 5,84 % et l'intelligibilité de 1,85 % sur l'ensemble de données de référence LibriSpeech. Le code, les échantillons et les points de contrôle du modèle sont disponibles sur https://github.com/mubtasimahasan/DM-Codec.
L'objectif de l'apprentissage automatique est la généralisation. Alors que le Théorème du No Free Lunch stipule que nous ne pouvons pas obtenir de garanties théoriques pour la généralisation sans autres hypothèses, en pratique nous observons que les modèles simples qui expliquent les données d'entraînement généralisent le mieux : un principe appelé le rasoir d'Occam. Malgré le besoin de modèles simples, la plupart des approches actuelles en apprentissage automatique se contentent de minimiser l'erreur d'entraînement, et favorisent au mieux indirectement la simplicité à travers la régularisation ou la conception de l'architecture. Ici, nous établissons un lien entre le rasoir d'Occam et l'apprentissage en contexte : une capacité émergente de certains modèles de séquences comme les Transformers à apprendre au moment de l'inférence à partir des observations passées dans une séquence. En particulier, nous montrons que la perte de prédiction du prochain token utilisée pour entraîner les apprenants en contexte est directement équivalente à une technique de compression des données appelée codage préquential, et que la minimisation de cette perte revient à minimiser conjointement à la fois l'erreur d'entraînement et la complexité du modèle qui a été implicitement appris à partir du contexte. Notre théorie et les expériences empiriques que nous utilisons pour la soutenir fournissent non seulement un compte normatif de l'apprentissage en contexte, mais éclairent également les lacunes des méthodes actuelles d'apprentissage en contexte, suggérant des moyens de les améliorer. Nous mettons notre code à disposition sur https://github.com/3rdCore/PrequentialCode.
À mesure que les grands modèles de langage (LLMs) sont de plus en plus déployés dans diverses industries, les préoccupations concernant leur fiabilité, en particulier en raison des hallucinations - des sorties qui sont factuellement inexactes ou sans rapport avec l'entrée de l'utilisateur - ont augmenté. Notre recherche examine la relation entre le processus d'entraînement et l'émergence d'hallucinations pour combler une lacune clé dans les recherches existantes qui se concentrent principalement sur les stratégies de détection et d'atténuation a posteriori. En utilisant des modèles de la suite Pythia (70M-12B paramètres) et plusieurs métriques de détection d'hallucinations, nous analysons les tendances des hallucinations tout au long de l'entraînement et explorons la dynamique interne des LLM. Nous introduisons SEnsitive Neuron Dropout (SeND), un nouveau protocole d'entraînement conçu pour atténuer les hallucinations en réduisant la variance pendant l'entraînement. SeND y parvient en abandonnant de manière déterministe les neurones présentant une variabilité significative sur un ensemble de données, appelés Neurones Sensibles. De plus, nous développons une métrique de détection d'hallucinations non supervisée, Efficient EigenScore (EES), qui approxime l'EigenScore traditionnel deux fois plus rapidement. Cette métrique efficace est intégrée dans notre protocole, permettant à SeND d'être à la fois évolutif sur le plan computationnel et efficace pour réduire les hallucinations. Notre évaluation empirique démontre que notre approche améliore la fiabilité des LLM au moment du test jusqu'à 40% par rapport à l'entraînement normal, tout en offrant également une méthode efficace pour améliorer la précision factuelle lors de l'adaptation des LLM à des domaines tels que Wikipedia et les ensembles de données médicales.
L'évaluation du texte généré par machine reste un défi majeur en TAL, en particulier pour les langues autres que l'anglais. Les méthodologies actuelles, incluant les mesures automatisées, les évaluations humaines et les évaluations basées sur les LLM, se concentrent principalement sur l'anglais, révélant ainsi un écart significatif dans les cadres d'évaluation multilingues. Nous introduisons la Suite d'Auto-évaluation Croisée Linguistique (CIA), un cadre extensible comprenant des LLM évaluateurs (Hercule) et un nouvel ensemble de tests (Recon) spécifiquement conçu pour l'évaluation multilingue. Notre ensemble de tests comprend 500 instructions annotées par des humains couvrant diverses capacités de tâches ainsi que des scores de jugement humain dans six langues. Cela permettrait l'étalonnage des LLM multilingues polyvalents et faciliterait la méta-évaluation des LLM évaluateurs. Le modèle proposé, Hercule, est un modèle d'évaluation multilingue qui répond à la rareté des réponses de référence dans la langue cible en apprenant à attribuer des scores aux réponses basés sur des réponses de référence facilement disponibles en anglais. Nos expériences démontrent qu'Hercule est plus étroitement aligné sur les jugements humains par rapport aux modèles propriétaires, démontrant ainsi l'efficacité d'une telle évaluation croisée linguistique dans des scénarios à ressources limitées. De plus, il est également efficace dans l'évaluation zéro-shot sur des langues non vues. Cette étude est la première examen complet de l'évaluation croisée linguistique utilisant des LLM, présentant une approche évolutive et efficace pour l'évaluation multilingue. Tout le code, les ensembles de données et les modèles seront disponibles publiquement pour permettre de nouvelles recherches dans ce domaine important.