papers.description
Cette étude explore la faisabilité de l'automatisation du codage clinique en russe, une langue disposant de ressources biomédicales limitées. Nous présentons un nouveau jeu de données pour le codage CIM, qui inclut des champs de diagnostic provenant de dossiers médicaux électroniques (DME) annotés avec plus de 10 000 entités et plus de 1 500 codes CIM uniques. Ce jeu de données sert de référence pour plusieurs modèles de pointe, notamment BERT, LLaMA avec LoRA et RAG, avec des expériences supplémentaires examinant le transfert d'apprentissage entre domaines (des résumés PubMed aux diagnostics médicaux) et terminologies (des concepts UMLS aux codes CIM). Nous appliquons ensuite le modèle le plus performant pour annoter un jeu de données DME interne contenant les antécédents des patients de 2017 à 2021. Nos expériences, menées sur un ensemble de test soigneusement sélectionné, démontrent que l'entraînement avec les codes prédits automatiquement entraîne une amélioration significative de la précision par rapport aux données annotées manuellement par les médecins. Nous pensons que nos résultats offrent des perspectives précieuses sur le potentiel d'automatisation du codage clinique dans des langues à ressources limitées comme le russe, ce qui pourrait améliorer l'efficacité clinique et la précision des données dans ces contextes.
Les récents progrès dans l'alignement des préférences humaines ont considérablement amélioré la génération et la compréhension multimodales. Une approche clé consiste à entraîner des modèles de récompense pour guider l'optimisation des préférences. Cependant, les modèles existants sont souvent spécifiques à une tâche, limitant ainsi leur adaptabilité à diverses applications visuelles. Nous soutenons également que l'apprentissage conjoint pour évaluer plusieurs tâches peut favoriser un effet synergique, où une meilleure compréhension des images améliore l'évaluation de la génération d'images, et une évaluation affinée des images profite à l'évaluation des vidéos grâce à une meilleure analyse des trames. Dans cette optique, cet article propose UnifiedReward, le premier modèle de récompense unifié pour l'évaluation de la compréhension et de la génération multimodales, permettant à la fois un classement par paires et une notation ponctuelle, qui peut être utilisé pour l'alignement des préférences des modèles visuels. Plus précisément, (1) nous développons d'abord UnifiedReward sur notre ensemble de données à grande échelle de préférences humaines, incluant à la fois des tâches de génération et de compréhension d'images et de vidéos. (2) Ensuite, il est utilisé pour construire automatiquement des données de paires de préférences de haute qualité basées sur les modèles visuels, en filtrant progressivement leurs sorties par classement par paires et sélection ponctuelle. (3) Enfin, ces données sont utilisées pour l'alignement de leurs préférences via l'Optimisation Directe des Préférences (DPO). Les résultats expérimentaux démontrent que l'apprentissage conjoint pour évaluer diverses tâches visuelles peut conduire à des avantages mutuels substantiels, et nous appliquons notre pipeline à la fois aux tâches de compréhension et de génération d'images et de vidéos, améliorant significativement les performances dans chaque domaine.
Les représentations vectorielles multilingues à usage général, utilisées dans la recherche d'information, la régression et la classification, sont traditionnellement obtenues à partir de modèles encodeurs bidirectionnels. Malgré leur large applicabilité, les encodeurs ont récemment été éclipsés par les avancées des modèles génératifs à décodeur unique. Cependant, de nombreuses innovations à l'origine de ces progrès ne sont pas intrinsèquement liées aux décodeurs. Dans cet article, nous revisitons le développement des encodeurs multilingues à travers le prisme de ces avancées, et introduisons EuroBERT, une famille d'encodeurs multilingues couvrant les langues européennes et les langues globales largement parlées. Nos modèles surpassent les alternatives existantes sur une gamme variée de tâches, englobant les capacités multilingues, les mathématiques et la programmation, et supportant nativement des séquences allant jusqu'à 8 192 tokens. Nous examinons également les décisions de conception derrière EuroBERT, en offrant des insights sur la composition de nos jeux de données et notre pipeline d'entraînement. Nous rendons publics les modèles EuroBERT, y compris les points de contrôle intermédiaires de l'entraînement, ainsi que notre cadre d'entraînement.
Récemment, DeepSeek R1 a démontré comment l'apprentissage par renforcement avec des incitations simples basées sur des règles peut permettre le développement autonome de raisonnements complexes dans les grands modèles de langage, caractérisé par le "moment eurêka", où le modèle manifeste une auto-réflexion et une augmentation de la longueur des réponses pendant l'entraînement. Cependant, les tentatives d'étendre ce succès au raisonnement multimodal ont souvent échoué à reproduire ces caractéristiques clés. Dans ce rapport, nous présentons la première réplication réussie de ces caractéristiques émergentes pour le raisonnement multimodal sur un modèle non-SFT de 2 milliards de paramètres. En partant de Qwen2-VL-2B et en appliquant directement l'apprentissage par renforcement sur le jeu de données SAT, notre modèle atteint une précision de 59,47 % sur CVBench, surpassant le modèle de base d'environ 30 % et dépassant les configurations SFT de près de 2 %. De plus, nous partageons nos tentatives infructueuses et nos insights dans la quête d'un raisonnement similaire à R1 en utilisant l'apprentissage par renforcement avec des modèles d'instruction, dans le but d'éclairer les défis rencontrés. Nos observations clés incluent : (1) l'application de l'apprentissage par renforcement sur des modèles d'instruction aboutit souvent à des trajectoires de raisonnement triviales, et (2) les récompenses naïves basées sur la longueur sont inefficaces pour susciter des capacités de raisonnement. Le code du projet est disponible à l'adresse suivante : https://github.com/turningpoint-ai/VisualThinker-R1-Zero.
Le développement rapide des grands modèles de langage (LLMs) a suscité un intérêt significatif pour les modèles de parole, en particulier les progrès récents dans les protocoles parole-à-parole (speech2speech) prenant en charge l'entrée et la sortie vocales. Cependant, les benchmarks existants utilisent des évaluateurs automatiques basés sur le texte pour évaluer la capacité de ces modèles à suivre des instructions, sans tenir compte des informations paralinguistiques dans la compréhension et la génération de la parole. Pour résoudre ces problèmes, nous introduisons S2S-Arena, un nouveau benchmark de type arène pour les systèmes parole-à-parole, qui évalue les capacités de suivi d'instructions en intégrant des informations paralinguistiques à la fois dans l'entrée et la sortie vocales, à travers des tâches du monde réel. Nous concevons 154 échantillons combinant synthèse vocale (TTS) et enregistrements en direct dans quatre domaines avec 21 tâches, et évaluons manuellement les modèles de parole populaires existants selon une approche de type arène. Les résultats expérimentaux montrent que : (1) en plus de la performance supérieure de GPT-4o, le modèle de parole en cascade ASR, LLM et TTS surpasse le modèle entraîné conjointement après alignement texte-parole dans les protocoles parole-à-parole ; (2) en tenant compte des informations paralinguistiques, la connaissance du modèle de parole dépend principalement du LLM sous-jacent, et son support multilingue est limité par le module de parole ; (3) les modèles de parole performants peuvent déjà comprendre les informations paralinguistiques dans l'entrée vocale, mais générer un audio approprié avec ces informations reste un défi.
Les récents progrès des grands modèles de langage ont démontré des capacités de raisonnement remarquables grâce à l'incitation par Chaîne de Pensée (Chain of Thought, CoT), mais souvent au prix d'une verbosité excessive dans leurs sorties intermédiaires, ce qui augmente la surcharge computationnelle. Nous introduisons Sketch-of-Thought (SoT), un nouveau cadre d'incitation qui combine des paradigmes de raisonnement inspirés de la cognition avec des contraintes linguistiques pour minimiser l'utilisation de tokens tout en préservant la précision du raisonnement. SoT est conçu comme un cadre flexible pouvant intégrer tout paradigme de raisonnement personnalisé basé sur les sciences cognitives, et nous l'instancions avec trois de ces paradigmes - Enchaînement Conceptuel, Symbolisme par Blocs et Lexiques Experts - chacun adapté à différentes tâches de raisonnement et sélectionné dynamiquement via un modèle de routage léger. À travers une évaluation exhaustive sur 15 ensembles de données de raisonnement couvrant plusieurs langues et scénarios multimodaux, nous démontrons que SoT permet des réductions de tokens de 76 % avec un impact négligeable sur la précision. Dans certains domaines comme le raisonnement mathématique et multi-étape, il améliore même la précision tout en utilisant significativement moins de tokens. Notre code est disponible publiquement : https://www.github.com/SimonAytes/SoT.
Dans ce travail, nous présentons la première application de l'apprentissage par renforcement avec récompense vérifiable (RLVR) à un modèle de langage large omni-multimodal dans le contexte de la reconnaissance des émotions, une tâche où les modalités visuelles et audio jouent des rôles cruciaux. Nous exploitons RLVR pour optimiser le modèle Omni, améliorant significativement ses performances dans trois aspects clés : la capacité de raisonnement, la précision de la reconnaissance des émotions et la capacité de généralisation. L'introduction de RLVR non seulement améliore les performances globales du modèle sur les données de distribution interne, mais démontre également une robustesse supérieure lors de l'évaluation sur des ensembles de données hors distribution. Plus important encore, l'amélioration de la capacité de raisonnement permet une analyse claire des contributions des différentes modalités, en particulier les informations visuelles et audio, dans le processus de reconnaissance des émotions. Cela fournit des insights précieux pour l'optimisation des modèles de langage large multimodaux.
Un composant essentiel des modèles séquentiels récurrents modernes est la porte d'oubli. Bien que les Transformers ne possèdent pas de forme récurrente explicite, nous montrons qu'une porte d'oubli peut être naturellement intégrée dans les Transformers en pondérant à la baisse les scores d'attention non normalisés de manière dépendante des données. Nous nommons ce mécanisme d'attention l'Attention à l'Oubli et le modèle résultant le Transformer à l'Oubli (FoX). Nous démontrons que FoX surpasse le Transformer dans la modélisation de langage à contexte long, l'extrapolation de longueur et les tâches en aval à contexte court, tout en étant à égalité avec le Transformer sur les tâches en aval à contexte long. De plus, il est compatible avec l'algorithme FlashAttention et ne nécessite aucun encodage positionnel. Plusieurs analyses, dont le test de l'aiguille dans la botte de foin, montrent que FoX conserve également les capacités supérieures du Transformer en contexte long par rapport aux modèles séquentiels récurrents tels que Mamba-2, HGRN2 et DeltaNet. Nous introduisons également une conception de bloc "Pro" qui intègre certains composants architecturaux courants des modèles séquentiels récurrents et constatons qu'elle améliore significativement les performances de FoX et du Transformer. Notre code est disponible à l'adresse https://github.com/zhixuan-lin/forgetting-transformer.
Les modèles de raisonnement à grande échelle (LRMs) existants ont démontré le potentiel de l'apprentissage par renforcement (RL) pour améliorer les capacités de raisonnement complexe des modèles de langage à grande échelle (LLMs). Bien qu'ils obtiennent des performances remarquables sur des tâches difficiles telles que les mathématiques et la programmation, ils s'appuient souvent sur leurs connaissances internes pour résoudre des problèmes, ce qui peut s'avérer insuffisant pour des questions sensibles au temps ou nécessitant des connaissances approfondies, entraînant des inexactitudes et des hallucinations. Pour remédier à cela, nous proposons R1-Searcher, une nouvelle approche RL en deux étapes basée sur les résultats, conçue pour améliorer les capacités de recherche des LLMs. Cette méthode permet aux LLMs d'invoquer de manière autonome des systèmes de recherche externes pour accéder à des connaissances supplémentaires pendant le processus de raisonnement. Notre framework repose exclusivement sur le RL, sans nécessiter de récompenses de processus ou de distillation pour un démarrage à froid. Nos expériences montrent que notre méthode surpasse significativement les méthodes RAG précédentes, même en comparaison avec le modèle GPT-4o-mini propriétaire.
La réparation vidéo, qui vise à restaurer le contenu vidéo corrompu, a connu des progrès substantiels. Malgré ces avancées, les méthodes existantes, qu'elles propagent les pixels des régions non masquées via des flux optiques et des a priori de champ réceptif, ou qu'elles étendent temporellement des modèles de réparation d'image, rencontrent des difficultés à générer des objets entièrement masqués ou à équilibrer les objectifs concurrents de préservation du contexte d'arrière-plan et de génération de premier plan dans un seul modèle, respectivement. Pour surmonter ces limitations, nous proposons un nouveau paradigme à double flux, VideoPainter, qui intègre un encodeur de contexte efficace (ne représentant que 6 % des paramètres du réseau principal) pour traiter les vidéos masquées et injecter des indices contextuels d'arrière-plan conscients du réseau principal à tout DiT vidéo pré-entraîné, produisant ainsi un contenu sémantiquement cohérent de manière plug-and-play. Cette séparation architecturale réduit significativement la complexité d'apprentissage du modèle tout en permettant une intégration nuancée du contexte d'arrière-plan crucial. Nous introduisons également une nouvelle technique de rééchantillonnage d'ID de région cible qui permet la réparation vidéo de toute longueur, améliorant grandement notre applicabilité pratique. De plus, nous établissons un pipeline de données scalable exploitant les modèles actuels de compréhension visuelle, contribuant VPData et VPBench pour faciliter l'entraînement et l'évaluation de la réparation basée sur la segmentation, constituant ainsi le plus grand ensemble de données et benchmark de réparation vidéo à ce jour avec plus de 390 000 clips divers. Utilisant la réparation comme base de pipeline, nous explorons également des applications en aval, y compris l'édition vidéo et la génération de données de paires d'édition vidéo, démontrant des performances compétitives et un potentiel pratique significatif. Des expériences approfondies démontrent la performance supérieure de VideoPainter à la fois dans la réparation vidéo de toute longueur et dans l'édition, à travers huit métriques clés, incluant la qualité vidéo, la préservation des régions masquées et la cohérence textuelle.
Les agents basés sur LLM deviennent de plus en plus compétents pour résoudre des tâches sur le web. Avec cette capacité vient un risque accru de détournement à des fins malveillantes, comme publier de la désinformation sur un forum en ligne ou vendre des substances illicites sur un site web. Pour évaluer ces risques, nous proposons SafeArena, le premier benchmark axé sur l'utilisation délibérée abusive des agents web. SafeArena comprend 250 tâches sûres et 250 tâches nuisibles réparties sur quatre sites web. Nous classons les tâches nuisibles en cinq catégories de préjudice — désinformation, activité illégale, harcèlement, cybercriminalité et biais social — conçues pour évaluer les utilisations abusives réalistes des agents web. Nous évaluons les principaux agents web basés sur LLM, notamment GPT-4o, Claude-3.5 Sonnet, Qwen-2-VL 72B et Llama-3.2 90B, sur notre benchmark. Pour évaluer systématiquement leur vulnérabilité aux tâches nuisibles, nous introduisons le cadre d'évaluation des risques des agents (Agent Risk Assessment) qui catégorise le comportement des agents selon quatre niveaux de risque. Nous constatons que les agents sont étonnamment compliants face aux requêtes malveillantes, avec GPT-4o et Qwen-2 exécutant respectivement 34,7 % et 27,3 % des requêtes nuisibles. Nos résultats soulignent le besoin urgent de procédures d'alignement de sécurité pour les agents web. Notre benchmark est disponible ici : https://safearena.github.io
Nous présentons TrajectoryCrafter, une nouvelle approche pour rediriger les trajectoires de caméra dans les vidéos monoculaires. En dissociant les transformations de vue déterministes de la génération de contenu stochastique, notre méthode permet un contrôle précis des trajectoires de caméra spécifiées par l'utilisateur. Nous proposons un modèle de diffusion vidéo conditionnelle à double flux qui intègre simultanément des rendus de nuages de points et des vidéos sources comme conditions, garantissant des transformations de vue précises et une génération cohérente de contenu 4D. Plutôt que d'exploiter des vidéos multivues rares, nous constituons un ensemble de données d'entraînement hybride combinant des vidéos monoculaires à grande échelle avec des ensembles de données multivues statiques, grâce à notre stratégie innovante de double reprojection, favorisant ainsi une généralisation robuste à travers diverses scènes. Des évaluations approfondies sur des vidéos multivues et monoculaires à grande échelle démontrent la performance supérieure de notre méthode.
Les récents progrès en apprentissage par renforcement (RL) pour les grands modèles de langage (LLM), illustrés par DeepSeek R1, ont montré qu'une simple tâche de question-réponse peut considérablement améliorer les capacités de raisonnement d'un LLM. Dans ce travail, nous étendons cette approche en transformant la tâche en un cadre multi-tentatives. Au lieu de générer une seule réponse par question, le modèle dispose de plusieurs tentatives, avec un retour d'information fourni après des réponses incorrectes. La tâche multi-tentatives encourage le modèle à affiner ses tentatives précédentes et à améliorer l'efficacité de la recherche. Les résultats expérimentaux montrent qu'un petit LLM entraîné sur une tâche multi-tentatives atteint une précision significativement plus élevée lorsqu'il est évalué avec plus de tentatives, passant de 45,6 % avec 1 tentative à 52,5 % avec 2 tentatives sur le benchmark mathématique. En revanche, le même LLM entraîné sur une tâche standard à tour unique ne montre qu'une amélioration marginale, passant de 42,3 % à 43,2 % lorsqu'il dispose de plus de tentatives lors de l'évaluation. Les résultats indiquent que, par rapport à la tâche standard à tour unique, un LLM entraîné sur une tâche multi-tentatives obtient des performances légèrement meilleures sur les benchmarks mathématiques tout en apprenant à affiner ses réponses plus efficacement en fonction des retours utilisateur. Le code complet est disponible à l'adresse suivante : https://github.com/DualityRL/multi-attempt.
Le défi de réduire la taille des grands modèles de langage (LLM) tout en maintenant leurs performances a suscité une attention considérable. Cependant, les méthodes existantes, telles que la distillation de modèles et l'apprentissage par transfert, échouent souvent à atteindre une haute précision. Pour pallier cette limitation, nous introduisons l'approche de distillation Branch-Merge, qui améliore la compression des modèles à travers deux phases : (1) la phase Branch, où les connaissances d'un grand modèle enseignant sont distillées de manière sélective dans des modèles étudiants spécialisés via un fine-tuning supervisé spécifique à un domaine (SFT) ; et (2) la phase Merge, où ces modèles étudiants sont fusionnés pour permettre un transfert de connaissances interdomaines et améliorer la généralisation. Nous validons notre approche de distillation en utilisant DeepSeek-R1 comme modèle enseignant et DeepSeek-R1-Distill-Qwen-32B comme modèle étudiant. Le modèle fusionné résultant, TinyR1-32B-Preview, surpasse son homologue DeepSeek-R1-Distill-Qwen-32B sur plusieurs benchmarks, notamment en Mathématiques (+5,5 points), en Codage (+4,4 points) et en Sciences (+2,9 points), tout en atteignant une performance quasi équivalente à celle de DeepSeek-R1 sur l'AIME 2024. L'approche de distillation Branch-Merge offre une solution évolutive pour créer des LLM plus petits et performants, avec un coût et un temps de calcul réduits.
Les embeddings de code sont essentiels pour la recherche sémantique de code ; cependant, les approches actuelles peinent souvent à capturer les nuances syntaxiques et contextuelles précises inhérentes au code. Les modèles open source tels que CodeBERT et UniXcoder présentent des limitations en termes de scalabilité et d'efficacité, tandis que les systèmes propriétaires à haute performance imposent des coûts computationnels substantiels. Nous introduisons une méthode de fine-tuning paramétriquement efficace basée sur l'Adaptation de Bas Rang (LoRA) pour construire des adaptateurs spécifiques à la tâche de récupération de code. Notre approche réduit le nombre de paramètres entraînables à moins de deux pour cent du modèle de base, permettant un fine-tuning rapide sur des corpus de code étendus (2 millions d'échantillons en 25 minutes sur deux GPU H100). Les expériences démontrent une augmentation allant jusqu'à 9,1 % du Rang Moyen Réciproque (MRR) pour les tâches de recherche Code2Code, et jusqu'à 86,69 % pour les tâches de recherche Text2Code, couvrant plusieurs langages de programmation. La distinction dans l'adaptation par tâche et par langage aide à explorer la sensibilité de la récupération de code face aux variations syntaxiques et linguistiques.
Les tâches ménagères du monde réel posent des défis majeurs pour les robots de manipulation mobile. Une analyse des benchmarks existants en robotique révèle que la réussite des tâches repose sur trois capacités clés de contrôle corporel intégral : la coordination bimanuelle, la navigation stable et précise, et une grande accessibilité des effecteurs terminaux. Atteindre ces capacités nécessite une conception matérielle minutieuse, mais la complexité du système qui en résulte complique encore l'apprentissage des politiques visuomotrices. Pour relever ces défis, nous présentons le BEHAVIOR Robot Suite (BRS), un cadre complet pour la manipulation corporelle intégrale dans diverses tâches ménagères. Basé sur un robot bimanuel à roues doté d'un torse à 4 degrés de liberté, BRS intègre une interface de téléopération corporelle intégrale à faible coût pour la collecte de données et un nouvel algorithme pour l'apprentissage des politiques visuomotrices corporelles intégrales. Nous évaluons BRS sur cinq tâches ménagères complexes qui mettent non seulement l'accent sur les trois capacités fondamentales, mais introduisent également des complexités supplémentaires, telles que la navigation sur de longues distances, l'interaction avec des objets articulés et déformables, et la manipulation dans des espaces confinés. Nous pensons que l'incarnation robotique intégrée de BRS, son interface de collecte de données et son cadre d'apprentissage marquent une étape importante vers la réalisation de la manipulation corporelle intégrale dans les tâches ménagères quotidiennes. BRS est open-source à l'adresse https://behavior-robot-suite.github.io/
Les modèles de diffusion ont réalisé des progrès significatifs dans la génération d'images et de vidéos, tout en souffrant encore de coûts de calcul élevés. En tant que solution efficace, le flow matching vise à rediriger le processus de diffusion des modèles de diffusion en une ligne droite pour une génération en quelques étapes, voire en une seule étape. Cependant, dans cet article, nous suggérons que le pipeline d'entraînement original du flow matching n'est pas optimal et introduisons deux techniques pour l'améliorer. Premièrement, nous introduisons le reflow progressif, qui redirige progressivement les modèles de diffusion à des intervalles de temps locaux jusqu'à ce que l'ensemble du processus de diffusion soit achevé, réduisant ainsi la difficulté du flow matching. Deuxièmement, nous introduisons la prédiction v-alignée, qui met en avant l'importance de l'alignement des directions dans le flow matching par rapport à l'alignement des magnitudes. Les résultats expérimentaux sur SDv1.5 et SDXL démontrent l'efficacité de notre méthode. Par exemple, sur SDv1.5, nous obtenons un FID de 10,70 sur l'ensemble de validation MSCOCO2014 avec seulement 4 étapes d'échantillonnage, proche de notre modèle de référence (32 étapes DDIM, FID = 10,05).
La modélisation de séquences linéaires (Linear Sequence Modeling, LSM), comme l'attention linéaire, les modèles à espace d'états et les RNN linéaires, ainsi que les modèles Mixture-of-Experts (MoE), ont récemment émergé comme des améliorations architecturales significatives. Dans cet article, nous présentons Linear-MoE, un système de niveau production pour la modélisation et l'entraînement de modèles à grande échelle qui intègrent LSM avec MoE. Linear-MoE tire parti des avantages des modules LSM pour la modélisation de séquences à complexité linéaire et des couches MoE pour une activation parcimonieuse, visant à offrir des performances élevées avec un entraînement efficace. Le système Linear-MoE comprend : 1) un sous-système de modélisation, qui fournit un cadre unifié prenant en charge toutes les instances de LSM, et 2) un sous-système d'entraînement, qui facilite un entraînement efficace en intégrant diverses technologies de parallélisme avancées, en particulier le parallélisme de séquences conçu pour les modèles Linear-MoE. De plus, nous explorons des modèles hybrides qui combinent des couches Linear-MoE avec des couches Transformer-MoE standard et leur parallélisme de séquences pour améliorer davantage la flexibilité et les performances du modèle. Les évaluations sur deux séries de modèles, A0.3B-2B et A1B-7B, démontrent que Linear-MoE obtient des gains d'efficacité tout en maintenant des performances compétitives sur divers benchmarks, illustrant son potentiel en tant qu'architecture de modèle fondamental de nouvelle génération. Code : https://github.com/OpenSparseLLMs/Linear-MoE.
Dans ce rapport, nous présentons le troisième rapport technique sur le développement de modèles de pensée lente dans le cadre du projet STILL. Alors que la voie technique devient plus claire, la mise à l'échelle de l'entraînement par apprentissage par renforcement (RL) est devenue une technique centrale pour la mise en œuvre de tels modèles de raisonnement. Nous expérimentons systématiquement et documentons les effets de divers facteurs influençant l'entraînement RL, en menant des expériences sur des modèles de base et des modèles affinés. Plus précisément, nous démontrons que notre approche d'entraînement RL améliore de manière constante les modèles de base Qwen2.5-32B, en augmentant à la fois la longueur des réponses et la précision des tests. De plus, nous montrons que même lorsqu'un modèle comme DeepSeek-R1-Distill-Qwen-1.5B a déjà atteint un niveau de performance élevé, il peut être encore affiné par l'entraînement RL, atteignant une précision de 39,33 % sur AIME 2024. Au-delà de l'entraînement RL, nous explorons également l'utilisation de la manipulation d'outils, constatant qu'elle améliore significativement les performances de raisonnement des grands modèles de raisonnement. Cette approche atteint une précision remarquable de 86,67 % avec une recherche gloutonne sur AIME 2024, soulignant son efficacité pour améliorer les capacités des modèles. Nous mettons à disposition nos ressources sur le site web du projet STILL : https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
La génération augmentée par récupération (RAG) a démontré une compétence significative dans l'exécution de tâches de question-réponse (QA) au sein d'un corpus spécifié. Néanmoins, de nombreux cas d'échec de RAG en QA persistent. Ces échecs ne sont pas uniquement attribuables aux limitations des modèles de langage de grande taille (LLMs) ; ils découlent principalement de la récupération d'informations inexactes pour les LLMs, en raison de deux limitations : (1) Les méthodes RAG actuelles segmentent le corpus sans tenir compte de la sémantique, rendant difficile la recherche de contexte pertinent en raison d'une corrélation altérée entre les questions et les segments. (2) Il existe un compromis entre l'omission de contexte essentiel avec moins de contexte récupéré et l'obtention de contexte non pertinent avec plus de contexte récupéré. Dans cet article, nous introduisons un cadre RAG (SAGE) pour surmonter ces limitations. Premièrement, pour résoudre le problème de segmentation sans considération sémantique, nous proposons d'entraîner un modèle de segmentation sémantique. Ce modèle est entraîné pour segmenter le corpus en morceaux sémantiquement complets. Deuxièmement, pour garantir que seuls les morceaux les plus pertinents sont récupérés tout en ignorant ceux qui ne le sont pas, nous concevons un algorithme de sélection de morceaux pour sélectionner dynamiquement les morceaux en fonction de la vitesse de décroissance du score de pertinence, conduisant à une sélection plus pertinente. Troisièmement, pour assurer davantage la précision des morceaux récupérés, nous proposons de laisser les LLMs évaluer si les morceaux récupérés sont excessifs ou insuffisants, puis d'ajuster la quantité de contexte en conséquence. Les expériences montrent que SAGE surpasse les références de 61,25 % en moyenne en termes de qualité de QA. De plus, en évitant de récupérer un contexte bruyant, SAGE réduit le coût des tokens consommés dans l'inférence LLM et améliore l'efficacité des coûts de 49,41 % en moyenne. Par ailleurs, notre travail offre des perspectives précieuses pour améliorer RAG.
Les modèles de langage à contexte long actuels offrent un grand potentiel pour les applications pratiques en génie logiciel. Cependant, les progrès dans ce domaine crucial restent entravés par une limitation fondamentale : l'absence d'un cadre d'évaluation rigoureux pour la compréhension de code long. Pour combler cette lacune, nous proposons un benchmark de compréhension de code long, LONGCODEU, évaluant quatre aspects (8 tâches) pour mesurer la capacité des modèles de langage à contexte long (LCLMs) à comprendre le code long nécessaire pour des applications pratiques, incluant la perception des unités de code, la compréhension intra-unité de code, la compréhension des relations inter-unités de code, et la compréhension de la documentation de code long. Nous évaluons 9 LCLMs populaires sur LONGCODEU (c'est-à-dire 6 modèles généraux et 3 modèles spécialisés en code). Nos résultats expérimentaux révèlent des limitations clés dans les capacités actuelles des LCLMs pour la compréhension de code long. En particulier, la performance des LCLMs chute considérablement lorsque la longueur du code dépasse 32K, bien en deçà de leurs fenêtres de contexte revendiquées de 128K à 1M. Parmi les quatre aspects, la compréhension des relations inter-unités de code est la plus difficile pour les LCLMs. Notre étude fournit des insights précieux pour optimiser les LCLMs et stimuler les avancées en génie logiciel.
La nature séquentielle des LLM modernes les rend coûteux et lents, et l'échantillonnage spéculatif s'est avéré être une solution efficace à ce problème. Des méthodes comme EAGLE effectuent une autorégression au niveau des caractéristiques, en réutilisant les caractéristiques de la couche supérieure du modèle cible pour obtenir de meilleurs résultats que l'échantillonnage spéculatif classique. Une tendance croissante dans la communauté des LLM est l'augmentation des données d'entraînement pour améliorer l'intelligence du modèle sans augmenter les coûts d'inférence. Cependant, nous observons que l'augmentation des données apporte des améliorations limitées pour EAGLE. Nous identifions que cette limitation découle des contraintes de prédiction des caractéristiques d'EAGLE. Dans cet article, nous présentons EAGLE-3, qui abandonne la prédiction des caractéristiques au profit de la prédiction directe des tokens et remplace la dépendance aux caractéristiques de la couche supérieure par une fusion multi-couches des caractéristiques via une technique appelée test en temps d'entraînement. Ces améliorations augmentent significativement les performances et permettent au modèle de brouillon de bénéficier pleinement de l'augmentation des données d'entraînement. Nos expériences incluent à la fois des modèles de chat et des modèles de raisonnement, évalués sur cinq tâches. Les résultats montrent qu'EAGLE-3 atteint un ratio d'accélération allant jusqu'à 6,5x, avec une amélioration d'environ 1,4x par rapport à EAGLE-2. Le code est disponible à l'adresse https://github.com/SafeAILab/EAGLE.
La détection d'anomalies vidéo (VAD) est cruciale pour l'analyse vidéo et la surveillance en vision par ordinateur. Cependant, les modèles de VAD existants reposent sur des modèles normaux appris, ce qui les rend difficiles à appliquer à des environnements divers. Par conséquent, les utilisateurs doivent réentraîner les modèles ou développer des modèles d'IA distincts pour de nouveaux environnements, ce qui nécessite une expertise en apprentissage automatique, du matériel haute performance et une collecte de données extensive, limitant ainsi l'utilité pratique de la VAD. Pour relever ces défis, cette étude propose une technique de détection d'anomalies vidéo personnalisable (C-VAD) et le modèle AnyAnomaly. La C-VAD considère un texte défini par l'utilisateur comme un événement anormal et détecte les images contenant un événement spécifié dans une vidéo. Nous avons efficacement implémenté AnyAnomaly en utilisant un système de question-réponse visuel contextuel sans ajustement fin du grand modèle de langage visuel. Pour valider l'efficacité du modèle proposé, nous avons construit des ensembles de données C-VAD et démontré la supériorité d'AnyAnomaly. De plus, notre approche a montré des performances compétitives sur les ensembles de données de référence en VAD, atteignant des résultats de pointe sur le jeu de données UBnormal et surpassant d'autres méthodes en termes de généralisation sur tous les ensembles de données. Notre code est disponible en ligne sur github.com/SkiddieAhn/Paper-AnyAnomaly.
Les simulateurs d'utilisateurs sont essentiels pour reproduire les interactions humaines avec les systèmes de dialogue, soutenant à la fois l'entraînement collaboratif et l'évaluation automatique, en particulier pour les grands modèles de langage (LLMs). Cependant, les simulateurs existants reposent souvent uniquement sur des énoncés textuels, négligeant des traits implicites de l'utilisateur tels que la personnalité, le style de parole et les objectifs. En revanche, les méthodes basées sur des personnages manquent de généralisabilité, car elles dépendent de profils prédéfinis de personnalités célèbres ou d'archétypes. Pour relever ces défis, nous proposons le simulateur d'utilisateurs avec profils implicites (USP), un cadre qui infère des profils d'utilisateurs implicites à partir de conversations homme-machine et les utilise pour générer des dialogues plus personnalisés et réalistes. Nous développons d'abord un extracteur piloté par un LLM avec un schéma de profil complet. Ensuite, nous affinons la simulation par un réglage supervisé conditionnel et un apprentissage par renforcement avec cohérence cyclique, l'optimisant à la fois au niveau des énoncés et des conversations. Enfin, nous adoptons un échantillonneur de profils diversifié pour capturer la distribution des profils d'utilisateurs réels. Les résultats expérimentaux montrent que USP surpasse les bases de référence en termes d'authenticité et de diversité tout en atteignant des performances comparables en cohérence. De plus, les évaluations dynamiques multi-tours basées sur USP s'alignent fortement avec les benchmarks dominants, démontrant son efficacité dans des applications réelles.