Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les récents progrès dans les grands modèles de langage (LLM) ont montré de fortes capacités de raisonnement général, cependant leur efficacité dans le raisonnement financier reste peu explorée. Dans cette étude, nous évaluons de manière exhaustive 16 LLMs puissants en matière de raisonnement et de généralisation sur trois tâches financières complexes impliquant du texte financier, des données tabulaires et des équations, évaluant le raisonnement numérique, l'interprétation tabulaire, la compréhension des termes financiers, le traitement de longs contextes et la résolution de problèmes basés sur des équations. Nos résultats montrent que même si de meilleurs ensembles de données et un pré-entraînement améliorent le raisonnement financier, des améliorations générales comme le fine-tuning CoT ne conduisent pas toujours à des gains cohérents. De plus, toutes les stratégies de raisonnement rencontrent des défis pour améliorer les performances sur des tâches à long contexte et multi-tableaux. Pour remédier à ces limitations, nous développons un modèle amélioré de raisonnement financier basé sur Llama-3.1-8B-Instruct, par fine-tuning CoT et apprentissage par renforcement avec des chemins de raisonnement spécifiques au domaine. Même avec un simple fine-tuning avec un ensemble de données financières, notre modèle obtient une amélioration de performance constante de 10 % sur l'ensemble des tâches, dépassant tous les modèles 8B et même Llama3-70B-Instruct et Llama3.1-70B-Instruct en moyenne. Nos résultats soulignent le besoin d'adaptations spécifiques au domaine dans les tâches financières, mettant en avant des orientations futures telles que le raisonnement multi-tableaux, le traitement de longs contextes et la compréhension des termes financiers. Tous nos ensembles de données, modèles et codes sont disponibles publiquement. De plus, nous introduisons un tableau de classement pour l'évaluation future des ensembles de données et des modèles.
Les modèles de langage larges modernes (LLMs) rencontrent souvent des goulots d'étranglement de communication sur le matériel actuel, plutôt que des contraintes purement computationnelles. L'Attention Latente Multi-Tête (MLA) relève ce défi en utilisant des matrices de rang faible dans les couches clés-valeurs (KV), permettant ainsi de mettre en cache des états KV latents compressés. Cette approche réduit significativement la taille du cache KV par rapport à l'attention multi-tête traditionnelle, ce qui accélère l'inférence. De plus, le MLA utilise une matrice de sur-projection pour augmenter l'expressivité, échangeant des calculs supplémentaires contre une réduction des frais de communication. Bien que le MLA ait démontré son efficacité dans Deepseek V2/V3/R1, de nombreux grands fournisseurs de modèles continuent de s'appuyer sur l'Attention de Groupe par Requête (GQA) et n'ont pas annoncé de plans pour adopter le MLA. Dans cet article, nous montrons que le GQA peut toujours être représenté par le MLA tout en maintenant le même surcoût de cache KV, mais l'inverse n'est pas vrai. Pour encourager une utilisation plus large du MLA, nous introduisons **TransMLA**, une méthode de post-entraînement qui convertit des modèles pré-entraînés largement utilisés basés sur le GQA (par exemple, LLaMA, Qwen, Mixtral) en modèles basés sur le MLA. Après conversion, le modèle peut subir un entraînement supplémentaire pour renforcer l'expressivité sans augmenter la taille du cache KV. De plus, nous prévoyons de développer des techniques d'accélération spécifiques au MLA pour préserver une faible latence dans les modèles transformés, permettant ainsi une distillation plus efficace de Deepseek R1.
Les benchmarks multilingues précédents se concentrent principalement sur des tâches de compréhension simples, mais pour les grands modèles de langage (LLM), nous mettons l'accent sur la maîtrise du suivi des instructions, du raisonnement, de la compréhension de longs contextes, de la génération de code, et ainsi de suite. Cependant, la mesure de ces capacités avancées à travers les langues est peu explorée. Pour remédier à cette disparité, nous introduisons BenchMAX, un benchmark d'évaluation multilingue à plusieurs voies qui permet des comparaisons équitables de ces capacités importantes à travers les langues. Pour maintenir une qualité élevée, trois annotateurs natifs distincts annotent indépendamment chaque échantillon dans toutes les tâches après que les données ont été traduites par machine de l'anglais vers 16 autres langues. De plus, nous présentons un nouveau défi de traduction découlant de la construction de l'ensemble de données. Des expériences approfondies sur BenchMAX révèlent une efficacité variable des capacités de base à travers les langues, mettant en lumière des écarts de performance qui ne peuvent être comblés simplement en augmentant la taille du modèle. BenchMAX sert de plateforme d'évaluation multilingue complète, offrant un terrain d'essai prometteur pour promouvoir le développement de modèles de langage multilingues. L'ensemble de données et le code sont accessibles publiquement.
Nous proposons une loi d'échelle de distillation qui estime les performances du modèle distillé en fonction d'un budget de calcul et de son allocation entre l'élève et le professeur. Nos résultats réduisent les risques associés à l'utilisation de la distillation à grande échelle ; l'allocation de calcul pour les modèles enseignant et élève peut désormais être optimisée pour maximiser les performances de l'élève. Nous fournissons des recettes de distillation optimales en termes de calcul lorsque 1) un enseignant existe, ou 2) un enseignant doit être formé. Si de nombreux élèves doivent être distillés, ou si un enseignant existe déjà, la distillation surpasse le pré-entraînement supervisé jusqu'à un niveau de calcul qui croît de manière prévisible avec la taille de l'élève. Si un seul élève doit être distillé et qu'un enseignant doit également être formé, un apprentissage supervisé devrait être effectué à la place. De plus, nous fournissons des perspectives issues de notre étude à grande échelle sur la distillation, qui améliorent notre compréhension de la distillation et orientent la conception expérimentale.
La génération d'images conditionnée par du texte a suscité un intérêt croissant ces dernières années et traite des prompts textuels de plus en plus longs et complets. Dans la vie quotidienne, des textes denses et complexes apparaissent dans des contextes tels que les publicités, les infographies et la signalétique, où l'intégration à la fois du texte et des visuels est essentielle pour transmettre des informations complexes. Cependant, malgré ces avancées, la génération d'images contenant du texte long reste un défi persistant, principalement en raison des limitations des ensembles de données existants, qui se concentrent souvent sur des textes plus courts et plus simples. Pour combler cette lacune, nous présentons TextAtlas5M, un nouvel ensemble de données spécifiquement conçu pour évaluer le rendu de texte long dans la génération d'images conditionnée par du texte. Notre ensemble de données se compose de 5 millions d'images générées et collectées contenant du texte long, provenant de divers types de données, permettant une évaluation complète des modèles génératifs à grande échelle sur la génération d'images de texte long. Nous avons également sélectionné avec soin un ensemble de tests améliorés par des humains, TextAtlasEval, comprenant 3000 exemples à travers 3 domaines de données, établissant l'un des benchmarks les plus complets pour la génération conditionnée par du texte. Les évaluations suggèrent que les benchmarks TextAtlasEval présentent des défis significatifs même pour les modèles propriétaires les plus avancés (par exemple, GPT4o avec DallE-3), tandis que leurs homologues open-source montrent un écart de performance encore plus important. Ces éléments positionnent TextAtlas5M comme un ensemble de données précieux pour l'entraînement et l'évaluation des modèles de génération d'images conditionnée par du texte de prochaine génération.
Les récents progrès dans les modèles de relighting d'images, soutenus par des ensembles de données à grande échelle et des modèles de diffusion pré-entraînés, ont permis d'imposer un éclairage cohérent. Cependant, le relighting vidéo est encore en retard, principalement en raison des coûts de formation excessifs et de la rareté des ensembles de données de relighting vidéo diversifiés et de haute qualité. Une application simple des modèles de relighting d'images sur une base image par image entraîne plusieurs problèmes : une incohérence de la source d'éclairage et une incohérence de l'apparence relightée, entraînant des scintillements dans les vidéos générées. Dans ce travail, nous proposons Light-A-Video, une approche sans formation pour obtenir un relighting vidéo temporellement fluide. Adapté des modèles de relighting d'images, Light-A-Video introduit deux techniques clés pour améliorer la cohérence de l'éclairage. Tout d'abord, nous concevons un module d'attention à la lumière cohérente (CLA), qui renforce les interactions entre les images dans les couches d'auto-attention pour stabiliser la génération de la source d'éclairage d'arrière-plan. Deuxièmement, en exploitant le principe physique de l'indépendance du transport de la lumière, nous appliquons un mélange linéaire entre l'apparence de la vidéo source et l'apparence relightée, en utilisant une stratégie de fusion progressive de la lumière (PLF) pour garantir des transitions temporelles fluides dans l'illumination. Les expériences montrent que Light-A-Video améliore la cohérence temporelle des vidéos relightées tout en maintenant la qualité de l'image, assurant des transitions d'éclairage cohérentes entre les images. Page du projet : https://bujiazi.github.io/light-a-video.github.io/.
Dans ce travail, nous présentons CineMaster, un nouveau cadre pour la génération de texte en vidéo conscient de la 3D et contrôlable. Notre objectif est de donner aux utilisateurs une capacité de contrôle comparable à celle des réalisateurs professionnels : placement précis des objets dans la scène, manipulation flexible à la fois des objets et de la caméra dans l'espace 3D, et contrôle intuitif de la disposition des images rendues. Pour y parvenir, CineMaster fonctionne en deux étapes. Dans la première étape, nous concevons un flux de travail interactif qui permet aux utilisateurs de construire intuitivement des signaux conditionnels conscients de la 3D en positionnant des boîtes englobantes d'objets et en définissant des mouvements de caméra dans l'espace 3D. Dans la deuxième étape, ces signaux de contrôle - comprenant des cartes de profondeur rendues, des trajectoires de caméra et des étiquettes de classe d'objets - servent de guide pour un modèle de diffusion de texte en vidéo, garantissant la génération du contenu vidéo souhaité par l'utilisateur. De plus, pour surmonter la rareté des ensembles de données en conditions réelles avec des annotations de mouvement d'objets en 3D et de pose de caméra, nous établissons soigneusement un pipeline d'annotation de données automatisé qui extrait des boîtes englobantes en 3D et des trajectoires de caméra à partir de données vidéo à grande échelle. Des expériences qualitatives et quantitatives approfondies démontrent que CineMaster surpasse significativement les méthodes existantes et met en œuvre une génération de texte en vidéo consciente de la 3D remarquable. Page du projet : https://cinemaster-dev.github.io/.
La prédiction du jeton suivant a été l'objectif d'entraînement standard utilisé dans la préformation de grands modèles de langage. Les représentations sont apprises en optimisant la perplexité au niveau du jeton. Nous proposons Continuous Concept Mixing (CoCoMix), un nouveau cadre de préformation qui combine la prédiction discrète du jeton suivant avec des concepts continus. Plus précisément, CoCoMix prédit des concepts continus appris à partir d'un autoencodeur clairsemé préappris et les mélange à l'état caché du modèle en les entrelaçant avec les représentations cachées des jetons. À travers des expériences sur plusieurs référentiels, y compris la modélisation de langage et des tâches de raisonnement en aval, nous montrons que CoCoMix est plus efficace en termes d'échantillonnage et surpasse de manière constante la prédiction standard du jeton suivant, la distillation des connaissances et l'insertion de jetons de pause. Nous constatons que combiner à la fois l'apprentissage de concepts et l'entrelacement dans un cadre de bout en bout est crucial pour les gains de performance. De plus, CoCoMix améliore l'interprétabilité et la dirigibilité en permettant l'inspection directe et la modification du concept prédit, offrant ainsi un moyen transparent de guider le processus de raisonnement interne du modèle.
Les agents GUI actuels ont atteint des performances exceptionnelles dans l'ancrage des éléments GUI. Cependant, la planification reste très difficile, notamment en raison de la sensibilité à l'état initial de l'environnement. En particulier, de légères différences dans l'état initial - telles que le logiciel cible n'étant pas ouvert ou l'interface n'étant pas dans son état par défaut - conduisent souvent à des erreurs de planification. Ce problème est répandu dans les scénarios d'utilisation réelle, mais les bancs d'essai existants échouent à l'évaluer. Dans cet article, nous présentons WorldGUI, un nouveau banc d'essai GUI qui conçoit des tâches GUI avec divers états initiaux pour simuler les interactions réelles entre l'ordinateur et l'utilisateur. Le banc d'essai couvre un large éventail de tâches dans 10 applications logicielles populaires, notamment PowerPoint, VSCode et Adobe Acrobat. De plus, pour relever les défis des tâches d'automatisation GUI dynamiques, nous proposons GUI-Thinker, un cadre holistique, exploitant un mécanisme de critique, qui gère efficacement l'imprévisibilité et la complexité des interactions GUI. Les résultats expérimentaux montrent que GUI-Thinker surpasse significativement Claude-3.5 (Utilisation de l'ordinateur) de 14,9% en taux de réussite sur les tâches WorldGUI. Cette amélioration souligne l'efficacité de notre cadre basé sur la pensée critique dans l'amélioration de l'automatisation GUI.
Les approches de modélisation de séquences linéaires, telles que l'attention linéaire, offrent des avantages tels qu'un entraînement en temps linéaire et une inférence en mémoire constante sur des longueurs de séquence. Cependant, les méthodes existantes de parallélisme de séquence (PS) ne sont pas optimisées pour la caractéristique de produit-d'abord correct de l'attention linéaire ou utilisent une stratégie de communication de type anneau, ce qui entraîne un parallélisme de calcul plus faible, limitant leur extensibilité pour des séquences plus longues dans des systèmes distribués. Dans cet article, nous présentons LASP-2, une nouvelle méthode de PS pour améliorer à la fois la communication et le parallélisme de calcul lors de l'entraînement de modèles de transformateur d'attention linéaire avec des séquences d'entrée très longues. Comparé au travail précédent LASP, LASP-2 repense l'exigence minimale de communication pour le PS sur les couches d'attention linéaire, réorganise l'ensemble du flux de travail communication-calcul de LASP. De cette manière, un seul AllGather collectif de communication est nécessaire sur les états de mémoire intermédiaires, dont les tailles sont indépendantes de la longueur de la séquence, entraînant des améliorations significatives à la fois du parallélisme de communication et de calcul, ainsi que de leur chevauchement. De plus, nous étendons LASP-2 à LASP-2H en appliquant une refonte de la communication similaire aux modules d'attention standard, offrant une solution de PS efficace pour les modèles hybrides qui combinent des couches d'attention linéaire et standard. Notre évaluation sur un modèle Linear-Llama3, une variante de Llama3 avec une attention linéaire remplaçant l'attention standard, démontre l'efficacité de LASP-2 et LASP-2H. Plus précisément, LASP-2 obtient des améliorations de vitesse d'entraînement de 15,2 % par rapport à LASP et de 36,6 % par rapport à Ring Attention, avec une longueur de séquence de 2048K sur 64 GPU. Le code est publié dans le cadre de : https://github.com/OpenSparseLLMs/Linear-MoE.
La capacité à atteindre des objectifs à long terme est un défi majeur dans le développement actuel des grands modèles de langage (GML). Pour y remédier, les GML pré-entraînés peuvent être affinés avec l'apprentissage par renforcement (AR) pour explorer des solutions qui optimisent un objectif donné. Cependant, l'exploration avec les GML est difficile, car un équilibre doit être trouvé entre la découverte de nouvelles solutions et le maintien d'une proximité suffisante avec le modèle pré-entraîné, afin de ne pas dégrader les capacités de base. Cela est généralement contrôlé avec une pénalité de Kullback-Leibler (KL). Dans cet article, nous étudions la dynamique d'exploration d'un petit modèle de langage sur une tâche arithmétique simple. Nous montrons comment différents degrés de pré-entraînement influencent l'exploration et démontrons l'importance des "tokens critiques" qui ont un impact significatif sur le résultat final. Par conséquent, nous introduisons une modification simple de la pénalité de KL qui favorise l'exploration sur les tokens critiques, augmentant ainsi l'efficacité de l'étape d'affinage par AR.
Les récents méthodes d'animation d'image de personnage basées sur des modèles de diffusion, telles que Animate Anyone, ont réalisé des progrès significatifs dans la génération d'animations de personnage cohérentes et généralisables. Cependant, ces approches échouent à produire des associations raisonnables entre les personnages et leur environnement. Pour remédier à cette limitation, nous présentons Animate Anyone 2, visant à animer des personnages avec une prise en compte de l'environnement. En plus d'extraire des signaux de mouvement à partir de vidéos source, nous capturons également des représentations environnementales en tant qu'entrées conditionnelles. L'environnement est formulé comme la région à l'exclusion des personnages et notre modèle génère des personnages pour peupler ces régions tout en maintenant la cohérence avec le contexte environnemental. Nous proposons une stratégie de masque agnostique de forme qui caractérise de manière plus efficace la relation entre le personnage et l'environnement. De plus, pour améliorer la fidélité des interactions d'objets, nous exploitons un guide d'objet pour extraire les caractéristiques des objets en interaction et utilisons un mélange spatial pour l'injection de caractéristiques. Nous introduisons également une stratégie de modulation de pose qui permet au modèle de gérer des motifs de mouvement plus diversifiés. Les résultats expérimentaux démontrent les performances supérieures de la méthode proposée.
Alors que l'IA pour les mathématiques a récemment progressé dans le domaine des mathématiques pures, des domaines des mathématiques appliquées, en particulier les EDP, restent sous-explorés malgré leurs importantes applications dans le monde réel. Nous présentons PDE-Controller, un cadre qui permet aux grands modèles de langage (LLMs) de contrôler des systèmes régis par des équations aux dérivées partielles (EDP). Notre approche permet aux LLMs de transformer des instructions informelles en langage naturel en spécifications formelles, puis d'exécuter des étapes de raisonnement et de planification pour améliorer l'utilité du contrôle des EDP. Nous développons une solution holistique comprenant des ensembles de données (à la fois des cas rédigés par des humains et 2 millions d'échantillons synthétiques), des modèles de raisonnement mathématique et des métriques d'évaluation novatrices, nécessitant tous des efforts significatifs. Notre PDE-Controller surpasse de manière significative les modèles open-source et GPT les plus récents en matière de raisonnement, d'autoformalisation et de synthèse de programmes, atteignant jusqu'à 62 % d'amélioration de l'utilité pour le contrôle des EDP. En comblant le fossé entre la génération de langage et les systèmes d'EDP, nous démontrons le potentiel des LLMs pour relever des défis scientifiques et techniques complexes. Nous rendrons disponibles toutes les données, les points de contrôle des modèles et le code sur https://pde-controller.github.io/.
L'Optimisation Directe des Préférences (ODP) et ses variantes sont devenues de plus en plus populaires pour aligner les modèles de langage sur les préférences humaines. Ces méthodes visent à apprendre aux modèles à mieux distinguer entre les réponses choisies (ou préférées) et les réponses rejetées (ou non préférées). Cependant, des recherches antérieures ont identifié que la probabilité des réponses choisies diminue souvent pendant l'entraînement, phénomène connu sous le nom de déplacement de vraisemblance. Pour relever ce défi, dans ce travail, nous introduisons \method pour déplacer de manière contrôlée la distribution de la probabilité des réponses choisies. Ensuite, nous montrons que \method présente un compromis fondamental entre l'amélioration de la probabilité des réponses choisies et le sacrifice de la marge de récompense, comme le soutiennent à la fois l'analyse théorique et la validation expérimentale. De plus, nous démontrons la supériorité de \method par rapport à l'ODP sur des tâches ultérieures telles que MT-Bench et une expérience de taux de victoire conçue. Nous pensons que cette étude montre que le problème de déplacement de vraisemblance de l'ODP peut être efficacement atténué avec une solution simple, fondée sur la théorie. Notre code est disponible sur https://github.com/Meaquadddd/DPO-Shift.
Les récents grands modèles de langage (LLM) prennent en charge de longs contextes allant de 128K à 1M jetons. Une méthode populaire pour évaluer ces capacités est le test de l'aiguille dans une botte de foin (NIAH), qui consiste à retrouver une "aiguille" (information pertinente) dans une "botte de foin" (contexte long et non pertinent). Les extensions de cette approche comprennent l'augmentation des distracteurs, le chaînage de faits et le raisonnement en contexte. Cependant, dans ces évaluations, les modèles peuvent exploiter des correspondances littérales existantes entre l'aiguille et la botte de foin pour simplifier la tâche. Pour remédier à cela, nous introduisons NoLiMa, un banc d'essai étendant NIAH avec un ensemble d'aiguilles soigneusement conçu, où les questions et les aiguilles ont un chevauchement lexical minimal, obligeant les modèles à déduire des associations latentes pour localiser l'aiguille dans la botte de foin. Nous évaluons 12 LLM populaires qui prétendent prendre en charge des contextes d'au moins 128K jetons. Bien qu'ils se comportent bien dans des contextes courts (<1K), leurs performances se dégradent significativement à mesure que la longueur du contexte augmente. À 32K, par exemple, 10 modèles tombent en dessous de 50% de leurs performances de référence fortes à courte longueur. Même GPT-4o, l'une des exceptions les plus performantes, voit ses performances passer d'une référence presque parfaite de 99,3% à 69,7%. Notre analyse suggère que ces baisses découlent de la difficulté accrue à laquelle le mécanisme d'attention est confronté dans des contextes plus longs lorsque les correspondances littérales sont absentes, rendant plus difficile la récupération d'informations pertinentes.
Dans le domaine de l'interprétation d'images de télédétection par radar à ouverture synthétique (SAR), bien que les modèles de langage Vision (VLM) aient réalisé des progrès remarquables en traitement du langage naturel et compréhension des images, leurs applications restent limitées dans les domaines professionnels en raison d'un manque d'expertise de domaine. Cet article propose de manière innovante le premier ensemble de données de dialogue multimodal à grande échelle pour les images SAR, nommé SARChat-2M, qui contient environ 2 millions de paires image-texte de haute qualité, englobant divers scénarios avec des annotations de cibles détaillées. Cet ensemble de données prend en charge plusieurs tâches clés telles que la compréhension visuelle et la détection d'objets, tout en présentant des aspects innovants uniques : cette étude développe un ensemble de données visuel-langage et un banc d'essai pour le domaine SAR, permettant d'évaluer les capacités des VLM dans l'interprétation d'images SAR, offrant ainsi un cadre paradigmatique pour la construction d'ensembles de données multimodaux dans divers domaines verticaux de télédétection. À travers des expériences sur 16 VLMs populaires, l'efficacité de l'ensemble de données a été pleinement vérifiée, et le premier banc d'essai de dialogue multi-tâches dans le domaine SAR a été établi avec succès. Le projet sera publié sur https://github.com/JimmyMa99/SARChat, dans le but de promouvoir le développement approfondi et l'application étendue des modèles de langage visuel SAR.
La Prédiction du Prochain-Token (NTP) est une approche de facto pour la génération vidéo autorégressive (AR), mais elle souffre de dépendances unidirectionnelles suboptimales et d'une vitesse d'inférence lente. Dans ce travail, nous proposons un cadre semi-autorégressif (semi-AR), appelé Prédiction du Prochain-Bloc (NBP), pour la génération vidéo. En décomposant uniformément le contenu vidéo en blocs de taille égale (par exemple, lignes ou images), nous déplaçons l'unité de génération des tokens individuels aux blocs, permettant à chaque token dans le bloc actuel de prédire simultanément le token correspondant dans le bloc suivant. Contrairement à la modélisation AR traditionnelle, notre cadre utilise une attention bidirectionnelle au sein de chaque bloc, permettant aux tokens de capturer des dépendances spatiales plus robustes. En prédisant plusieurs tokens en parallèle, les modèles NBP réduisent significativement le nombre d'étapes de génération, conduisant à une inférence plus rapide et efficace. Notre modèle atteint des scores FVD de 103,3 sur UCF101 et de 25,5 sur K600, surpassant le modèle NTP classique en moyenne de 4,4. De plus, grâce au nombre réduit d'étapes d'inférence, le modèle NBP génère 8,89 images (résolution 128x128) par seconde, réalisant un gain de vitesse de 11 fois. Nous avons également exploré des échelles de modèle allant de 700M à 3B de paramètres, observant des améliorations significatives en termes de qualité de génération, avec des scores FVD passant de 103,3 à 55,3 sur UCF101 et de 25,5 à 19,5 sur K600, démontrant la scalabilité de notre approche.
La Génération Améliorée par Récupération (GAR) est une technique avancée conçue pour relever les défis du Contenu Généré par l'Intelligence Artificielle (CGIA). En intégrant la récupération de contexte dans la génération de contenu, la GAR fournit des connaissances externes fiables et à jour, réduit les hallucinations et garantit un contexte pertinent pour un large éventail de tâches. Cependant, malgré le succès et le potentiel de la GAR, des études récentes ont montré que le paradigme de la GAR introduit également de nouveaux risques, notamment des problèmes de robustesse, des préoccupations en matière de confidentialité, des attaques adverses et des problèmes de responsabilité. Il est essentiel de traiter ces risques pour les futures applications des systèmes GAR, car ils impactent directement leur fiabilité. Bien que diverses méthodes aient été développées pour améliorer la fiabilité des méthodes GAR, il manque une perspective unifiée et un cadre de recherche dans ce domaine. Ainsi, dans cet article, nous visons à combler cette lacune en fournissant une feuille de route complète pour le développement de systèmes GAR fiables. Nous structurons notre discussion autour de cinq perspectives clés : la fiabilité, la confidentialité, la sécurité, l'équité, l'explicabilité et la responsabilité. Pour chaque perspective, nous présentons un cadre général et une taxonomie, offrant une approche structurée pour comprendre les défis actuels, évaluer les solutions existantes et identifier des orientations prometteuses pour la recherche future. Pour encourager une adoption plus large et l'innovation, nous mettons également en lumière les applications aval où les systèmes GAR fiables ont un impact significatif.
Dans ce travail, nous proposons une architecture de modules LLM qui permet le transfert de connaissances d'un grand modèle pré-entraîné vers un modèle plus petit en utilisant un mécanisme d'attention croisée amélioré. Dans le schéma proposé, le modèle Qwen2-1.5B est gelé et ses représentations sont transmises à travers des couches d'attention spécialement conçues vers le modèle GPT-Neo-125M, qui est entraîné sur des ressources computationnelles limitées. Les résultats expérimentaux sur l'ensemble de données Bespoke-Stratos-17k démontrent qu'après 15 époques d'entraînement, le modèle combiné génère des réponses de qualité comparable à celles obtenues par distillation. Nous discutons des avantages de l'approche modulaire, fournissons des exemples de requêtes d'entrée et une analyse comparative, et esquissons les perspectives d'extension ultérieure de la méthode.
La fusion de modèles agrège des Grands Modèles de Langage (GML) affinés sur différentes tâches en un modèle plus puissant. Cependant, les conflits de paramètres entre les modèles entraînent une dégradation des performances lors de la moyenne. Alors que le routage de modèle aborde ce problème en sélectionnant des modèles individuels lors de l'inférence, il impose des coûts de stockage et de calcul excessifs et ne parvient pas à exploiter les connaissances communes de différents modèles. Dans ce travail, nous observons que différentes couches présentent des niveaux variables de conflits de paramètres. S'appuyant sur cette observation, nous moyennons les couches avec des conflits de paramètres minimes et utilisons un nouveau routage d'experts au niveau de la tâche pour les couches présentant des conflits significatifs. Pour réduire davantage les coûts de stockage, inspirés par la parcimonie arithmétique des tâches, nous séparons plusieurs experts affinés en un expert dense et plusieurs experts épars. En tenant compte des échantillons hors distribution, nous sélectionnons et fusionnons les experts appropriés en fonction de l'incertitude de la tâche des données d'entrée. Nous menons des expériences approfondies à la fois sur LLaMA et Qwen avec des échelles de paramètres variables, et évaluons sur des tâches de raisonnement du monde réel. Les résultats montrent que notre méthode atteint systématiquement des améliorations significatives des performances tout en nécessitant moins de coûts système par rapport aux méthodes existantes.
Nous proposons un nouveau cadre de sécurité dynamique qui optimise le raisonnement sur la sécurité des modèles de langage (LM) au moment de l'inférence sans modifier les poids du modèle. S'appuyant sur les récents progrès en matière de méthodes d'auto-critique, notre approche exploite un mécanisme de méta-critique qui met à jour de manière itérative des invites de sécurité - appelées spécifications - pour conduire le processus de critique et de révision de manière adaptative. Cette optimisation au moment du test améliore non seulement les performances face aux demandes de contournement adverses, mais également dans diverses tâches générales liées à la sécurité, telles que l'évitement des dommages moraux ou la recherche de réponses honnêtes. Nos évaluations empiriques sur plusieurs modèles de langage montrent que les invites de sécurité optimisées de manière dynamique produisent des scores de sécurité nettement plus élevés par rapport aux invites système fixes et aux défenses d'auto-critique statiques. Le code sera publié sur https://github.com/vicgalle/meta-self-critique.git.
L'apprentissage de représentations contrastées denses (DCRL) a grandement amélioré l'efficacité d'apprentissage pour les tâches de prédiction d'images denses, montrant ainsi son grand potentiel pour réduire les coûts élevés de collecte d'images médicales et d'annotation dense. Cependant, les propriétés des images médicales rendent la découverte de correspondances peu fiable, posant ainsi un problème ouvert de paires faussement positives et négatives à grande échelle (FP&N) dans le DCRL. Dans cet article, nous proposons l'apprentissage de similarité visuelle dense géométrique (GEMINI) qui intègre la notion de préalable d'homéomorphisme au DCRL et permet une découverte fiable de correspondances pour un contraste dense efficace. Nous proposons un apprentissage d'homéomorphisme déformable (DHL) qui modélise l'homéomorphisme des images médicales et apprend à estimer un mappage déformable pour prédire la correspondance des pixels tout en préservant la topologie. Cela réduit efficacement l'espace de recherche des paires et favorise un apprentissage implicite et doux des paires négatives via un gradient. Nous proposons également une similarité sémantique géométrique (GSS) qui extrait des informations sémantiques dans les caractéristiques pour mesurer le degré d'alignement pour l'apprentissage de correspondances. Cela favorisera l'efficacité d'apprentissage et les performances de déformation, en construisant des paires positives de manière fiable. Nous mettons en œuvre deux variantes pratiques sur deux tâches d'apprentissage de représentations typiques dans nos expériences. Nos résultats prometteurs sur sept ensembles de données, qui surpassent les méthodes existantes, démontrent notre grande supériorité. Nous mettrons notre code à disposition sur un lien compagnon : https://github.com/YutingHe-list/GEMINI.