Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le réglage fin supervisé (RFS) joue un rôle crucial dans l'adaptation des grands modèles de langage (GML) à des domaines ou tâches spécifiques. Cependant, comme le démontrent des expériences empiriques, les données collectées contiennent inévitablement du bruit dans des applications pratiques, ce qui pose des défis importants pour les performances du modèle sur des tâches ultérieures. Par conséquent, il est urgent de mettre en place un cadre de RFS robuste au bruit pour améliorer les capacités du modèle dans les tâches ultérieures. Pour relever ce défi, nous introduisons un cadre de RFS robuste (RobustFT) qui effectue la détection et le reclassement du bruit sur les données des tâches ultérieures. Pour l'identification du bruit, notre approche utilise un système collaboratif multi-expert avec des modèles améliorés par l'inférence pour obtenir une détection de bruit supérieure. Dans la phase de débruitage, nous utilisons une stratégie améliorée par le contexte, qui intègre les connaissances les plus pertinentes et les plus fiables suivies d'une évaluation minutieuse pour générer des annotations fiables. De plus, nous introduisons un mécanisme efficace de sélection des données basé sur l'entropie de réponse, garantissant que seuls les échantillons de haute qualité sont conservés pour le réglage fin. Des expériences approfondies menées sur plusieurs GML à travers cinq ensembles de données démontrent les performances exceptionnelles de RobustFT dans des scénarios bruyants.
En l'absence de données humaines annotées de manière extensive pour des tâches de raisonnement complexe, l'auto-amélioration - où les modèles sont entraînés sur leurs propres sorties - est devenue une méthode principale pour améliorer les performances. Cependant, les facteurs critiques sous-jacents au mécanisme de ces méthodes itératives d'auto-amélioration restent mal compris, tels que dans quelles conditions l'auto-amélioration est efficace, et quels sont les goulots d'étranglement dans les itérations actuelles. Dans ce travail, nous identifions et proposons des méthodes pour surveiller deux facteurs cruciaux dans ce processus itératif : (1) la capacité du modèle à générer des réponses suffisamment diverses (exploration) ; et (2) l'efficacité des récompenses externes pour distinguer les candidats de haute qualité des candidats de moindre qualité (exploitation). En utilisant le raisonnement mathématique comme étude de cas, nous commençons par une analyse quantitative pour suivre la dynamique de l'exploration et de l'exploitation, découvrant que les capacités exploratoires d'un modèle se détériorent rapidement au fil des itérations, et que l'efficacité de l'exploitation des récompenses externes diminue également. Motivés par ces résultats, nous introduisons B-STaR, un cadre d'auto-apprentissage du raisonnement qui ajuste automatiquement les configurations à travers les itérations pour équilibrer l'exploration et l'exploitation, optimisant ainsi l'efficacité de l'auto-amélioration en fonction du modèle de politique actuel et des récompenses disponibles. Nos expériences sur le raisonnement mathématique, le codage et le raisonnement de bon sens démontrent que B-STaR améliore non seulement les capacités exploratoires du modèle tout au long de l'entraînement, mais atteint également un équilibre plus efficace entre l'exploration et l'exploitation, conduisant à des performances supérieures.
La capacité de raisonnement est essentielle pour les Grands Modèles Multimodaux (GMM). En l'absence de données annotées en chaîne de pensée multimodale, l'entraînement auto-évolutif, où le modèle apprend de ses propres sorties, a émergé comme une approche efficace et évolutive pour améliorer les capacités de raisonnement. Malgré son utilisation croissante, une compréhension approfondie de l'entraînement auto-évolutif, en particulier dans le contexte du raisonnement multimodal, reste limitée. Dans cet article, nous explorons les subtilités de l'entraînement auto-évolutif pour le raisonnement multimodal, en identifiant trois facteurs clés : Méthode d'Entraînement, Modèle de Récompense et Variation de la Consigne. Nous examinons systématiquement chaque facteur et explorons comment différentes configurations affectent l'efficacité de l'entraînement. Notre analyse conduit à un ensemble de meilleures pratiques pour chaque facteur, visant à optimiser le raisonnement multimodal. De plus, nous explorons la Dynamique d'Auto-Évolution pendant l'entraînement et l'impact des mécanismes de rééquilibrage automatique pour améliorer les performances. Après toutes les investigations, nous présentons une recette finale pour l'entraînement auto-évolutif en raisonnement multimodal, encapsulant ces choix de conception dans un cadre que nous appelons MSTaR (Entraînement Multimodal Auto-Évolutif pour le Raisonnement), qui est universellement efficace pour les modèles de différentes tailles sur divers benchmarks, surpassant significativement le modèle pré-évolué sur 5 benchmarks de raisonnement multimodal sans utiliser de données annotées supplémentaires, comme démontré sur MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) et InternVL2 (2B). Nous pensons que cette étude comble une lacune significative dans la compréhension de l'entraînement auto-évolutif pour le raisonnement multimodal et offre un cadre robuste pour la recherche future. Nos modèles de politique et de récompense, ainsi que les données collectées, sont publiés pour faciliter de futures investigations en matière de raisonnement multimodal.
Les modèles autorégressifs (AR) ont atteint des performances de pointe dans la génération de texte et d'images, mais souffrent d'une lenteur de génération en raison du processus jeton par jeton. Nous posons une question ambitieuse : est-il possible d'adapter un modèle AR pré-entraîné pour générer des sorties en seulement une ou deux étapes ? En cas de succès, cela permettrait de faire avancer de manière significative le développement et le déploiement des modèles AR. Nous remarquons que les travaux existants qui tentent d'accélérer la génération AR en générant plusieurs jetons à la fois ne parviennent fondamentalement pas à capturer la distribution de sortie en raison des dépendances conditionnelles entre les jetons, ce qui limite leur efficacité pour une génération en quelques étapes. Pour remédier à cela, nous proposons le Décodage Distillé (DD), qui utilise la mise en correspondance des flux pour créer une cartographie déterministe de la distribution gaussienne à la distribution de sortie du modèle AR pré-entraîné. Nous entraînons ensuite un réseau à distiller cette cartographie, permettant une génération en quelques étapes. DD ne nécessite pas les données d'entraînement du modèle AR original, le rendant plus pratique. Nous évaluons DD sur des modèles AR d'images de pointe et présentons des résultats prometteurs sur ImageNet-256. Pour VAR, qui nécessite une génération en 10 étapes, DD permet une génération en une étape (accélération de 6,3 fois), avec une augmentation acceptable du FID de 4,19 à 9,96. Pour LlamaGen, DD réduit la génération de 256 étapes à 1, réalisant une accélération de 217,8 fois avec une augmentation comparable du FID de 4,11 à 11,35. Dans les deux cas, les méthodes de base échouent complètement avec un FID>100. DD excelle également dans la génération de texte vers image, réduisant la génération de 256 étapes à 2 pour LlamaGen avec une augmentation minimale du FID de 25,70 à 28,95. En tant que premier travail à démontrer la possibilité d'une génération en une étape pour les modèles AR d'images, DD remet en question l'idée prédominante selon laquelle les modèles AR sont intrinsèquement lents, et ouvre de nouvelles opportunités pour une génération AR efficace. Le site web du projet se trouve à l'adresse https://imagination-research.github.io/distilled-decoding.
La série de modèles o1 est entraînée avec un apprentissage par renforcement à grande échelle pour raisonner en utilisant une chaîne de pensée. Ces capacités de raisonnement avancées offrent de nouvelles voies pour améliorer la sécurité et la robustesse de nos modèles. En particulier, nos modèles peuvent raisonner sur nos politiques de sécurité dans un contexte donné lorsqu'ils répondent à des sollicitations potentiellement dangereuses, grâce à un alignement délibératif. Cela se traduit par des performances de pointe sur certains benchmarks pour des risques tels que la génération de conseils illicites, le choix de réponses stéréotypées et la vulnérabilité à des jailbreaks connus. Entraîner des modèles à intégrer une chaîne de pensée avant de répondre a le potentiel de débloquer des avantages substantiels, tout en augmentant également les risques potentiels découlant d'une intelligence accrue. Nos résultats soulignent la nécessité de développer des méthodes d'alignement robustes, de tester rigoureusement leur efficacité et de maintenir des protocoles de gestion des risques méticuleux. Ce rapport décrit le travail de sécurité réalisé pour les modèles OpenAI o1 et OpenAI o1-mini, comprenant des évaluations de sécurité, des tests externes par des équipes d'attaque, et des évaluations du Cadre de Préparation.
Les techniques permettant aux grands modèles de langage (LLMs) de "penser davantage" en générant et en se concentrant sur des étapes de raisonnement intermédiaires ont montré des promesses dans la résolution de problèmes complexes. Cependant, les approches standard génèrent des séquences de jetons discrets immédiatement avant de répondre, ce qui peut entraîner des coûts de latence significatifs et être difficile à optimiser. Dans ce travail, nous démontrons qu'un LLM figé peut être augmenté avec un coprocesseur hors ligne qui opère sur le cache clé-valeur du modèle. Ce coprocesseur enrichit le cache avec un ensemble d'incrustations latentes conçues pour améliorer la fidélité du décodage ultérieur. Nous formons ce coprocesseur en utilisant la perte de modélisation de langage du décodeur sur des données de pré-entraînement standard, tout en maintenant le décodeur lui-même figé. Cette approche permet au modèle d'apprendre, de manière différenciable de bout en bout, comment distiller des calculs supplémentaires dans son cache clé-valeur. Étant donné que le décodeur reste inchangé, le coprocesseur peut fonctionner hors ligne et de manière asynchrone, et le modèle de langage peut fonctionner normalement si le coprocesseur est indisponible ou si un cache donné ne nécessite pas de calcul supplémentaire. Nous montrons expérimentalement que lorsque qu'un cache est augmenté, le décodeur atteint une perplexité plus faible sur de nombreux jetons ultérieurs. De plus, même sans aucun entraînement spécifique à la tâche, nos expériences démontrent que l'augmentation du cache réduit de manière constante la perplexité et améliore les performances sur une gamme de tâches intensives en raisonnement.
L'apprentissage en contexte (ICL) est une technique par laquelle les modèles de langage font des prédictions basées sur des exemples fournis dans leur contexte d'entrée. Auparavant, la taille de leur fenêtre contextuelle imposait une limite sur le nombre d'exemples pouvant être affichés, rendant les techniques de sélection d'exemples cruciales pour identifier l'ensemble d'exemples le plus efficace. Cependant, l'avènement récent des Modèles de Langage à Long Contexte (LCLMs) a considérablement augmenté le nombre d'exemples pouvant être inclus dans le contexte, soulevant une question importante sur la sensibilité des performances de l'ICL dans un régime à nombreux exemples à la méthode de sélection des échantillons. Pour répondre à cela, nous revisitons ces approches dans le contexte des LCLMs à travers des expériences approfondies sur 18 ensembles de données couvrant 4 tâches. De manière surprenante, nous observons que des techniques sophistiquées de sélection d'exemples ne produisent pas d'améliorations significatives par rapport à une méthode simple de sélection aléatoire des échantillons. Au lieu de cela, nous constatons que l'avènement des LCLMs a fondamentalement déplacé le défi de l'ICL de la sélection des exemples les plus efficaces à la collecte d'exemples suffisants pour remplir la fenêtre contextuelle. Plus précisément, dans certains ensembles de données, inclure tous les exemples disponibles n'utilise pas pleinement la fenêtre contextuelle ; cependant, en augmentant les exemples en contexte avec une approche simple d'augmentation des données, nous améliorons sensiblement les performances de l'ICL de 5%.
Apprendre à concevoir un Variational Autoencoder (VAE) vidéo robuste est essentiel pour réduire la redondance vidéo et faciliter une génération vidéo efficace. Appliquer directement des VAE d'images aux images individuelles de manière isolée peut entraîner des incohérences temporelles et des taux de compression sous-optimaux en raison d'un manque de compression temporelle. Les VAE vidéo existants ont commencé à aborder la compression temporelle ; cependant, ils souffrent souvent de performances de reconstruction inadéquates. Dans cet article, nous présentons un autoencodeur vidéo novateur et puissant capable d'encoder des vidéos haute fidélité. Tout d'abord, nous observons qu'entrelacer la compression spatiale et temporelle en étendant simplement le VAE d'images à un VAE 3D peut introduire des artefacts de flou de mouvement et de distorsion des détails. Ainsi, nous proposons une compression spatiale consciente du temporel pour mieux encoder et décoder l'information spatiale. De plus, nous intégrons un modèle de compression de mouvement léger pour une compression temporelle supplémentaire. Deuxièmement, nous proposons de tirer parti de l'information textuelle inhérente aux ensembles de données texte-vidéo et d'incorporer un guidage textuel dans notre modèle. Cela améliore significativement la qualité de la reconstruction, notamment en termes de préservation des détails et de stabilité temporelle. Troisièmement, nous améliorons davantage la polyvalence de notre modèle grâce à un entraînement conjoint sur les images et les vidéos, ce qui non seulement améliore la qualité de la reconstruction mais permet également au modèle d'effectuer à la fois l'autoencodage d'images et de vidéos. Des évaluations approfondies par rapport à des références récentes solides démontrent les performances supérieures de notre méthode. Le site web du projet est disponible à l'adresse suivante : https://yzxing87.github.io/vae/.
Récemment, des modèles de type O1 ont émergé comme des exemples représentatifs, illustrant l'efficacité de longues chaînes de pensées (CoT) dans des tâches de raisonnement telles que les tâches mathématiques et de codage. Dans cet article, nous présentons DRT-o1, une tentative visant à transposer le succès des longues CoT à la traduction neuronale automatique (MT). En particulier, étant donné les livres de littérature qui peuvent contenir des comparaisons et des métaphores, traduire ces textes dans une langue cible est très difficile en pratique en raison des différences culturelles. Dans de tels cas, la traduction littérale échoue souvent à transmettre efficacement le sens voulu. Même pour les traducteurs humains professionnels, une réflexion considérable doit être accordée à la préservation de la sémantique tout au long du processus de traduction. Pour simuler la capacité de longue réflexion des LLMs en MT, nous extrayons d'abord des phrases contenant des comparaisons ou des métaphores à partir de livres de littérature existants, puis développons un cadre multi-agent pour traduire ces phrases via une pensée prolongée. Dans le cadre multi-agent, un traducteur est utilisé pour traduire de manière itérative la phrase source sous les suggestions fournies par un conseiller. Pour garantir l'efficacité des longues réflexions, un évaluateur est également employé pour juger si la traduction dans le tour actuel est meilleure que la précédente ou non. De cette manière, nous collectons des dizaines de milliers de données de MT à longue réflexion, qui sont utilisées pour entraîner notre DRT-o1. Les résultats expérimentaux sur la traduction littéraire démontrent l'efficacité du DRT-o1. En utilisant Qwen2.5-7B et Qwen2.5-14B comme bases, l'amélioration apportée par DRT-o1 atteint 7,33 à 8,26 BLEU et 1,66 à 3,36 CometScore. De plus, DRT-o1-7B peut surpasser QwQ-32B-Preview de 7,82 BLEU et 1,46 CometScore, démontrant son efficacité. Le projet est disponible sur https://github.com/krystalan/DRT-o1.
Les systèmes d'IA générative actuels sont configurés pour présenter des informations par défaut plutôt que d'engager les utilisateurs au service de l'apprentissage comme le ferait un tuteur humain. Pour répondre à la grande variété de cas d'utilisation éducative potentiels pour ces systèmes, nous reformulons le défi d'injecter un comportement pédagogique comme étant celui de l'instruction pédagogique suivante, où les exemples d'entraînement et d'évaluation incluent des instructions au niveau du système décrivant les attributs pédagogiques spécifiques présents ou souhaités dans les prochains tours de modèle. Ce cadre évite d'engager nos modèles dans une définition particulière de la pédagogie, et permet plutôt aux enseignants ou aux développeurs de spécifier le comportement du modèle souhaité. Cela ouvre également la voie à l'amélioration des modèles Gemini pour l'apprentissage, en permettant l'ajout de nos données pédagogiques aux mélanges post-entraînement, aux côtés de leur ensemble de capacités en expansion rapide. Ces deux aspects représentent des changements importants par rapport à notre rapport technique initial. Nous montrons comment l'entraînement avec l'instruction pédagogique suivante produit un modèle LearnLM (disponible sur Google AI Studio) qui est nettement préféré par des évaluateurs experts à travers un ensemble diversifié de scénarios d'apprentissage, avec des forces de préférence moyennes de 31\% supérieures à GPT-4o, de 11\% supérieures à Claude 3.5, et de 13\% supérieures au modèle Gemini 1.5 Pro sur lequel LearnLM était basé.
Les grands modèles de langage ont démontré des capacités remarquables en génération de code, mais ils rencontrent souvent des difficultés avec des tâches de programmation complexes nécessitant un raisonnement algorithmique approfondi. Alors que la supervision du processus à travers des modèles de récompense appris montre des promesses pour guider les étapes de raisonnement, cela nécessite des données d'entraînement coûteuses et souffre d'une évaluation peu fiable. Nous proposons la Supervision de Processus d'Affinage de Résultats, un nouveau paradigme qui considère l'affinement des résultats lui-même comme le processus à superviser. Notre cadre exploite des signaux d'exécution concrets pour ancrer la supervision des étapes de raisonnement, tout en utilisant une exploration structurée en arborescence pour maintenir simultanément plusieurs trajectoires de solution. Les expériences démontrent que notre approche permet même à des modèles plus petits d'atteindre une précision élevée et des métriques de performance sur des tâches de programmation compétitives, créant une vérification plus fiable que les modèles de récompense traditionnels sans nécessiter d'entraînement PRM. Notre approche réalise des améliorations significatives sur 5 modèles et 3 ensembles de données : une augmentation moyenne de 26,9 % de la justesse et de 42,2 % de l'efficacité. Les résultats suggèrent que fournir un espace de raisonnement structuré avec des signaux de vérification concrets est crucial pour résoudre des tâches de programmation complexes. Nous rendons tout notre code et nos données open source sur : https://github.com/zhuohaoyu/ORPS
Les grands modèles de langage (LLM) ont démontré un potentiel remarquable dans les domaines scientifiques, mais une question fondamentale reste sans réponse : pouvons-nous simuler des communautés de recherche humaine avec des LLM ? Aborder cette question peut approfondir notre compréhension des processus derrière le brainstorming d'idées et inspirer la découverte automatique d'insights scientifiques novateurs. Dans ce travail, nous proposons ResearchTown, un cadre multi-agent pour la simulation de communautés de recherche. Dans ce cadre, la communauté de recherche humaine est simplifiée et modélisée sous la forme d'un graphe agent-données, où les chercheurs et les articles sont représentés respectivement en tant que nœuds de type agent et de type données, et connectés en fonction de leurs relations de collaboration. Nous introduisons également TextGNN, un cadre d'inférence basé sur le texte qui modélise diverses activités de recherche (par exemple, la lecture d'articles, l'écriture d'articles et la rédaction de critiques) comme des formes spéciales d'un processus de passage de messages unifié sur le graphe agent-données. Pour évaluer la qualité de la simulation de recherche, nous présentons ResearchBench, une référence qui utilise une tâche de prédiction de masquage de nœuds pour une évaluation évolutive et objective basée sur la similarité. Nos expériences révèlent trois résultats clés : (1) ResearchTown peut fournir une simulation réaliste des activités de recherche collaborative, y compris l'écriture d'articles et la rédaction de critiques ; (2) ResearchTown peut maintenir une simulation robuste avec plusieurs chercheurs et divers articles ; (3) ResearchTown peut générer des idées de recherche interdisciplinaires qui pourraient potentiellement inspirer de nouvelles directions de recherche.
Imaginez un monde où l'IA peut gérer votre travail pendant que vous dormez - organiser vos matériaux de recherche, rédiger un rapport, ou créer une présentation dont vous avez besoin pour demain. Cependant, bien que les agents numériques actuels puissent effectuer des tâches simples, ils sont loin d'être capables de gérer le travail complexe du monde réel que les humains effectuent régulièrement. Nous présentons PC Agent, un système d'IA qui illustre une étape cruciale vers cette vision à travers le transfert de la cognition humaine. Notre insight clé est que le chemin de l'exécution de simples "tâches" à la gestion de "travaux" complexes réside dans la capture efficace et l'apprentissage des processus cognitifs humains lors de l'utilisation de l'ordinateur. Pour valider cette hypothèse, nous introduisons trois innovations clés : (1) PC Tracker, une infrastructure légère qui collecte efficacement des trajectoires d'interaction homme-ordinateur de haute qualité avec un contexte cognitif complet ; (2) un pipeline de complétion de cognition en deux étapes qui transforme les données brutes d'interaction en trajectoires cognitives riches en complétant les sémantiques d'action et les processus de pensée ; et (3) un système multi-agent combinant un agent de planification pour la prise de décision avec un agent d'ancrage pour un ancrage visuel robuste. Nos expériences préliminaires dans la création de présentations PowerPoint révèlent que des capacités de travail numérique complexes peuvent être atteintes avec une petite quantité de données cognitives de haute qualité - PC Agent, formé sur seulement 133 trajectoires cognitives, peut gérer des scénarios de travail sophistiqués impliquant jusqu'à 50 étapes à travers plusieurs applications. Cela démontre l'efficacité des données de notre approche, soulignant que la clé pour former des agents numériques capables réside dans la collecte de données cognitives humaines. En rendant notre cadre complet open-source, y compris l'infrastructure de collecte de données et les méthodes de complétion de cognition, nous visons à abaisser les barrières pour que la communauté de recherche développe des agents numériques vraiment capables.
À mesure que les grands modèles de langage (GML) sont de plus en plus déployés en tant qu'agents, leur intégration dans des environnements interactifs et leur utilisation d'outils introduisent de nouveaux défis en matière de sécurité au-delà de ceux associés aux modèles eux-mêmes. Cependant, l'absence de référentiels complets pour évaluer la sécurité des agents constitue un obstacle majeur à une évaluation efficace et à une amélioration ultérieure. Dans cet article, nous présentons Agent-SafetyBench, un référentiel complet conçu pour évaluer la sécurité des agents GML. Agent-SafetyBench englobe 349 environnements d'interaction et 2 000 cas de test, évaluant 8 catégories de risques de sécurité et couvrant 10 modes de défaillance courants fréquemment rencontrés dans des interactions non sécurisées. Notre évaluation de 16 agents GML populaires révèle un résultat préoccupant : aucun des agents n'obtient un score de sécurité supérieur à 60%. Cela met en lumière d'importants défis en matière de sécurité des agents GML et souligne le besoin considérable d'amélioration. À travers une analyse quantitative, nous identifions des modes de défaillance critiques et résumons deux détections de sécurité fondamentales dans les agents GML actuels : le manque de robustesse et le manque de conscience du risque. De plus, nos résultats suggèrent que le recours uniquement à des invites de défense est insuffisant pour traiter ces problèmes de sécurité, soulignant le besoin de stratégies plus avancées et robustes. Nous mettons à disposition Agent-SafetyBench sur https://github.com/thu-coai/Agent-SafetyBench pour faciliter la recherche et l'innovation ultérieures dans l'évaluation et l'amélioration de la sécurité des agents.
Les conversations multi-modales multi-parties (MMC) sont un sujet de recherche moins étudié mais important car elles correspondent bien aux scénarios du monde réel et ont donc potentiellement des applications plus largement utilisées. Comparé aux conversations multi-modales traditionnelles, les MMC nécessitent des capacités de compréhension centrées sur les personnages plus fortes car de nombreux interlocuteurs apparaissent à la fois dans le contexte visuel et textuel. Pour faciliter l'étude de ce problème, nous présentons dans cet article Friends-MMC, un ensemble de données MMC contenant plus de 24 000 énoncés uniques associés à un contexte vidéo. Pour explorer la compréhension centrée sur les personnages du dialogue, nous annotons également le locuteur de chaque énoncé, les noms et les boîtes englobantes des visages apparaissant dans la vidéo. Basé sur cet ensemble de données Friends-MMC, nous étudions ensuite deux tâches MMC fondamentales : l'identification du locuteur de la conversation et la prédiction de la réponse à la conversation, toutes deux ayant une nature multi-parties avec la vidéo ou l'image comme contexte visuel. Pour l'identification du locuteur de la conversation, nous démontrons les inefficacités des méthodes existantes telles que les modèles pré-entraînés, et proposons une méthode de base simple mais efficace qui exploite un solveur d'optimisation pour utiliser le contexte des deux modalités afin d'obtenir de meilleures performances. Pour la prédiction de la réponse à la conversation, nous affinons les modèles de dialogue génératif sur Friend-MMC, et analysons les avantages de l'information sur le locuteur. Le code et l'ensemble de données sont disponibles publiquement sur https://github.com/yellow-binary-tree/Friends-MMC, et nous appelons donc à accorder plus d'attention à la modélisation de l'information sur le locuteur lors de la compréhension des conversations.
La récente introduction par OpenAI du Fine-Tuning par Renforcement (RFT) met en avant le potentiel du modèle de fondation de raisonnement et propose un nouveau paradigme pour le fine-tuning au-delà de la simple imitation de motifs. Ce rapport technique présente OpenRFT, notre tentative de fine-tuning de modèles de raisonnement généralistes pour des tâches spécifiques au domaine dans les mêmes paramètres que le RFT. OpenRFT aborde deux défis majeurs liés au manque de données d'étapes de raisonnement et à la quantité limitée d'échantillons d'entraînement, en exploitant les échantillons spécifiques au domaine de trois manières : augmentation des questions, synthèse de données de processus de raisonnement et ICL à quelques coups. L'évaluation est réalisée sur SciKnowEval, où OpenRFT obtient des gains de performance notables avec seulement 100 échantillons spécifiques au domaine pour chaque tâche. Davantage de résultats expérimentaux seront mis à jour continuellement dans les versions ultérieures. Les codes sources, ensembles de données et modèles sont disponibles sur : https://github.com/ADaM-BJTU/OpenRFT
Dans le cadre de l'amélioration cruciale de l'alignement des LLM avec les intentions humaines, le Fine-Tuning des Instructions (IFT) exige une qualité élevée des ensembles de données. Cependant, les ensembles de données IFT existants contiennent souvent des connaissances qui sont incohérentes avec les connaissances internes des LLM apprises lors de la phase de pré-entraînement, ce qui peut grandement affecter l'efficacité de l'IFT. Pour résoudre ce problème, nous introduisons le cadre NILE (iNternal consIstency aLignmEnt), visant à optimiser les ensembles de données IFT pour libérer davantage les capacités des LLM. NILE fonctionne en sollicitant les connaissances internes du LLM pré-entraîné cible correspondant aux données d'instructions. Les connaissances internes sont exploitées pour réviser les réponses dans les ensembles de données IFT. De plus, nous proposons une nouvelle méthode de Filtrage de la Consistance Interne (FCI) pour filtrer les échantillons d'entraînement, garantissant une haute cohérence avec les connaissances internes du LLM. Nos expériences démontrent que les ensembles de données IFT alignés avec NILE améliorent nettement les performances des LLM sur plusieurs ensembles de données d'évaluation des capacités des LLM, atteignant jusqu'à 66,6 % de gain sur Arena-Hard et 68,5 % sur Alpaca-Eval V2. Une analyse approfondie confirme que chaque composant du cadre NILE contribue à ces améliorations de performances substantielles, et fournit des preuves convaincantes que la cohérence des ensembles de données avec les connaissances internes pré-entraînées est essentielle pour maximiser le potentiel des LLM.