Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de raisonnement (LRM) tels qu'OpenAI-o1 et DeepSeek-R1 ont démontré des capacités remarquables dans les tâches de raisonnement complexe grâce à l'utilisation de longues chaînes de pensée (Chain-of-thought, CoT). Cependant, ces modèles souffrent souvent d'hallucinations et d'inefficacités en raison de leur dépendance exclusive aux processus de raisonnement internes. Dans cet article, nous présentons START (Self-Taught Reasoner with Tools), un nouveau modèle de langage à grande échelle (LLM) intégrant des outils pour le raisonnement en CoT long, qui améliore significativement les capacités de raisonnement en exploitant des outils externes. Grâce à l'exécution de code, START est capable d'effectuer des calculs complexes, de s'auto-vérifier, d'explorer diverses méthodes et de s'auto-déboguer, répondant ainsi aux limitations des LRM. L'innovation centrale de START réside dans son cadre d'auto-apprentissage, qui comprend deux techniques clés : 1) Hint-infer : Nous démontrons que l'insertion d'indices artificiellement conçus (par exemple, « Attendez, peut-être qu'utiliser Python ici est une bonne idée ») pendant le processus d'inférence d'un LRM stimule efficacement sa capacité à utiliser des outils externes sans nécessiter de données de démonstration. Hint-infer peut également servir de méthode simple et efficace de mise à l'échelle séquentielle en temps de test ; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT) : Hint-RFT combine Hint-infer et RFT en notant, filtrant et modifiant les trajectoires de raisonnement avec invocation d'outils générées par un LRM via Hint-infer, suivi d'un fine-tuning du LRM. Grâce à ce cadre, nous avons fine-tuné le modèle QwQ-32B pour obtenir START. Sur des questions scientifiques de niveau doctorat (GPQA), des benchmarks mathématiques de niveau compétition (AMC23, AIME24, AIME25) et le benchmark de code de niveau compétition (LiveCodeBench), START atteint des taux de précision de 63,6 %, 95,0 %, 66,7 %, 47,1 % et 47,3 %, respectivement. Il surpasse significativement le modèle de base QwQ-32B et atteint des performances comparables au modèle open-weight de pointe R1-Distill-Qwen-32B et au modèle propriétaire o1-Preview.
Les récents progrès des modèles de langage multimodaux basés sur la vidéo (Video-LLMs) ont considérablement amélioré la compréhension vidéo en traitant les vidéos comme des séquences d'images. Cependant, de nombreuses méthodes existantes traitent les images de manière indépendante dans le backbone visuel, sans modélisation temporelle explicite, ce qui limite leur capacité à capturer les motifs dynamiques et à gérer efficacement les vidéos longues. Pour résoudre ces limitations, nous introduisons STORM (Spatiotemporal TOken Reduction for Multimodal LLMs), une architecture novatrice intégrant un encodeur temporel dédié entre l'encodeur d'images et le LLM. Notre encodeur temporel exploite le modèle d'espace d'état Mamba pour intégrer des informations temporelles dans les tokens d'images, générant ainsi des représentations enrichies qui préservent la dynamique inter-images sur l'ensemble de la séquence vidéo. Cet encodage enrichi améliore non seulement les capacités de raisonnement vidéo, mais permet également des stratégies efficaces de réduction de tokens, incluant un échantillonnage au moment du test et un regroupement temporel et spatial basé sur l'entraînement, réduisant ainsi substantiellement les exigences computationnelles du LLM sans sacrifier les informations temporelles clés. En intégrant ces techniques, notre approche réduit simultanément la latence d'entraînement et d'inférence tout en améliorant les performances, permettant une compréhension vidéo efficace et robuste sur des contextes temporels étendus. Des évaluations approfondies montrent que STORM atteint des résultats de pointe sur divers benchmarks de compréhension de vidéos longues (plus de 5 % d'amélioration sur MLVU et LongVideoBench) tout en réduisant les coûts de calcul jusqu'à 8 fois et la latence de décodage de 2,4 à 2,9 fois pour un nombre fixe d'images en entrée. La page du projet est disponible à l'adresse suivante : https://research.nvidia.com/labs/lpr/storm.
Les récents progrès dans les systèmes de dialogue parole-parole exploitent les LLM pour des interactions multimodales, mais ils restent limités par les besoins de fine-tuning, la charge de calcul élevée et les désalignements texte-parole. Les LLM compatibles avec la parole existants dégradent souvent la qualité conversationnelle en modifiant le LLM, compromettant ainsi ses capacités linguistiques. En revanche, nous proposons LLMVoX, un système TTS en streaming autoregressif léger de 30M paramètres, indépendant du LLM, qui génère une parole de haute qualité avec une faible latence, tout en préservant pleinement les capacités du LLM de base. Notre approche atteint un taux d'erreur sur les mots significativement plus faible par rapport aux LLM compatibles avec la parole, tout en opérant avec une latence et un score UTMOS comparables. En découplant la synthèse vocale du traitement du LLM via un système de streaming de tokens à files multiples, LLMVoX supporte des dialogues fluides et de longueur infinie. Son design plug-and-play facilite également l'extension à diverses tâches avec différentes architectures. De plus, LLMVoX généralise à de nouvelles langues avec seulement une adaptation du jeu de données, atteignant un faible taux d'erreur sur les caractères dans une tâche de parole en arabe. Par ailleurs, nous avons intégré LLMVoX avec un modèle vision-langage pour créer un modèle omni avec des capacités de parole, texte et vision, sans nécessiter d'entraînement multimodal supplémentaire. Notre base de code et page de projet sont disponibles à l'adresse https://mbzuai-oryx.github.io/LLMVoX.
Nous présentons EgoLife, un projet visant à développer un assistant de vie égocentrique qui accompagne et améliore l'efficacité personnelle grâce à des lunettes connectées alimentées par l'IA. Pour jeter les bases de cet assistant, nous avons mené une étude approfondie de collecte de données dans laquelle six participants ont vécu ensemble pendant une semaine, en enregistrant en continu leurs activités quotidiennes - discussions, courses, cuisine, socialisation et divertissement - à l'aide de lunettes IA pour la capture vidéo égocentrique multimodale, ainsi que des références vidéo synchronisées en vue à la troisième personne. Cet effort a abouti à la création du jeu de données EgoLife, un ensemble de données complet de 300 heures sur la vie quotidienne, égocentrique, interpersonnel, multivue et multimodal, avec une annotation intensive. En exploitant ce jeu de données, nous introduisons EgoLifeQA, une suite de tâches de question-réponse à contexte long et orientées vers la vie quotidienne, conçues pour fournir une assistance significative en répondant à des questions pratiques telles que le rappel d'événements passés pertinents, le suivi des habitudes de santé et l'offre de recommandations personnalisées. Pour relever les principaux défis techniques que sont (1) le développement de modèles visuels-audio robustes pour les données égocentriques, (2) la reconnaissance d'identité, et (3) la facilitation de la réponse à des questions à contexte long sur des informations temporelles étendues, nous introduisons EgoButler, un système intégré comprenant EgoGPT et EgoRAG. EgoGPT est un modèle omni-modal entraîné sur des jeux de données égocentriques, atteignant des performances de pointe en compréhension de vidéo égocentrique. EgoRAG est un composant basé sur la récupération qui permet de répondre à des questions à contexte ultra-long. Nos études expérimentales vérifient leurs mécanismes de fonctionnement et révèlent des facteurs critiques et des goulots d'étranglement, guidant les améliorations futures. En publiant nos jeux de données, modèles et benchmarks, nous visons à stimuler davantage de recherches sur les assistants IA égocentriques.
Alors que les grands modèles de langage sont de plus en plus responsables du contenu en ligne, des inquiétudes surgissent concernant l'impact du traitement répété de leurs propres sorties. Inspiré par l'effet du "téléphone arabe" dans la communication humaine en chaîne, cette étude examine si les LLM déforment de manière similaire l'information à travers des générations itératives. Grâce à des expériences basées sur la traduction, nous constatons que la distorsion s'accumule au fil du temps, influencée par le choix de la langue et la complexité de la chaîne. Bien que la dégradation soit inévitable, elle peut être atténuée par des techniques de promptage stratégiques. Ces résultats contribuent aux discussions sur les effets à long terme de la propagation d'information médiée par l'IA, soulevant d'importantes questions sur la fiabilité du contenu généré par les LLM dans des workflows itératifs.
L'évaluation efficace des capacités de raisonnement des grands modèles de langage (LLMs) est sujette à une surestimation en raison de l'exposition des benchmarks d'évaluation aux données d'entraînement. Nous introduisons un cadre pour produire des problèmes de raisonnement linguistique qui réduit l'effet de la mémorisation sur les estimations de performance des modèles, et appliquons ce cadre pour développer LINGOLY-TOO, un benchmark d'évaluation exigeant pour le raisonnement linguistique. En développant des modèles orthographiques, nous masquons dynamiquement les systèmes d'écriture des langues réelles pour générer de nombreuses variations de questions. Ces variations préservent les étapes de raisonnement nécessaires à chaque solution tout en réduisant la probabilité que des instances spécifiques de problèmes apparaissent dans les données d'entraînement des modèles. Nos expériences démontrent que les modèles de pointe, y compris OpenAI o1-preview et DeepSeem R1, rencontrent des difficultés avec le raisonnement avancé. Notre analyse montre également que les LLMs présentent une variance notable dans leur précision selon les permutations d'un même problème, et qu'en moyenne, ils performent mieux sur les questions apparaissant dans leur orthographe originale. Nos résultats mettent en lumière la nature opaque de la génération de réponses dans les LLMs et fournissent des preuves que l'exposition antérieure aux données contribue à surestimer les capacités de raisonnement des modèles de pointe.
Comprendre et raisonner sur les sons non vocaux et la musique est crucial pour que les humains et les agents d'IA interagissent efficacement avec leur environnement. Dans cet article, nous présentons Audio Flamingo 2 (AF2), un modèle audio-langage (ALM) doté de capacités avancées de compréhension et de raisonnement audio. AF2 s'appuie sur (i) un modèle CLAP personnalisé, (ii) des données synthétiques de questions-réponses audio pour un raisonnement audio granulaire, et (iii) une stratégie d'apprentissage par curriculum en plusieurs étapes. AF2 atteint des performances de pointe avec seulement un petit modèle de langage de 3 milliards de paramètres, surpassant les modèles open-source et propriétaires de grande taille sur plus de 20 benchmarks. Ensuite, pour la première fois, nous étendons la compréhension audio à des segments audio longs (de 30 secondes à 5 minutes) et proposons LongAudio, un vaste et nouveau jeu de données pour entraîner les ALM sur des tâches de description et de questions-réponses audio longues. Le fine-tuning d'AF2 sur LongAudio conduit à des performances exceptionnelles sur notre benchmark LongAudioBench, un ensemble de données annoté par des experts pour évaluer les capacités de compréhension audio longue des ALM. Nous menons des études d'ablation approfondies pour confirmer l'efficacité de notre approche. Site du projet : https://research.nvidia.com/labs/adlr/AF2/.
Nous établissons rigoureusement une loi d'échelle de l'information mutuelle bipartite dans le langage naturel qui régit les dépendances à longue portée. Cette loi d'échelle, que nous montrons distincte et évoluant indépendamment de l'information mutuelle conventionnelle à deux points, est la clé pour comprendre la modélisation du langage à contexte long. En utilisant cette loi d'échelle, nous formulons la condition de Modélisation du Langage à Contexte Long (L^2M), qui relie la capacité d'un modèle à modéliser efficacement des contextes longs à l'échelle de la taille de son état latent pour stocker les informations passées. Nos résultats sont validés par des expériences sur des modèles de type transformeurs et des modèles à espace d'états. Ce travail établit une fondation théorique qui guide le développement de grands modèles de langage vers des contextes plus longs.
Nous présentons IFIR, le premier benchmark complet conçu pour évaluer la recherche d'information (IR) guidée par des instructions dans des domaines experts. IFIR comprend 2 426 exemples de haute qualité et couvre huit sous-ensembles répartis dans quatre domaines spécialisés : finance, droit, santé et littérature scientifique. Chaque sous-ensemble aborde une ou plusieurs tâches de recherche spécifiques au domaine, reproduisant des scénarios réels où des instructions personnalisées sont cruciales. IFIR permet une analyse détaillée des capacités de recherche guidée par des instructions en intégrant des instructions à différents niveaux de complexité. Nous proposons également une nouvelle méthode d'évaluation basée sur des LLM (modèles de langage de grande taille) pour fournir une évaluation plus précise et fiable des performances des modèles à suivre les instructions. À travers des expériences approfondies sur 15 modèles de recherche de pointe, y compris ceux basés sur des LLM, nos résultats révèlent que les modèles actuels rencontrent des difficultés importantes à suivre efficacement des instructions complexes et spécifiques à un domaine. Nous fournissons en outre des analyses approfondies pour mettre en lumière ces limitations, offrant ainsi des insights précieux pour guider les avancées futures dans le développement de systèmes de recherche.
Les Transformers sont devenus l'architecture de facto pour un large éventail de tâches en apprentissage automatique, en particulier dans les grands modèles de langage (LLMs). Malgré leurs performances remarquables, des défis subsistent dans l'entraînement des réseaux de Transformers profonds, notamment concernant la position de la normalisation de couche. Bien que les structures Pre-Norm facilitent un entraînement plus aisé grâce à leur chemin d'identité plus marqué, elles produisent souvent des performances sous-optimales par rapport au Post-Norm. Dans cet article, nous proposons HybridNorm, une stratégie de normalisation hybride simple mais efficace qui intègre les avantages des approches Pre-Norm et Post-Norm. Plus précisément, HybridNorm utilise la normalisation QKV au sein du mécanisme d'attention et le Post-Norm dans le réseau feed-forward (FFN) de chaque bloc Transformer. Cette conception stabilise non seulement l'entraînement mais améliore également les performances, en particulier dans le contexte des LLMs. Des expériences approfondies sur des architectures denses et éparses montrent qu'HybridNorm surpasse de manière constante les approches Pre-Norm et Post-Norm, atteignant des résultats de pointe sur divers benchmarks. Ces résultats mettent en lumière le potentiel d'HybridNorm en tant que technique plus stable et efficace pour améliorer l'entraînement et les performances des modèles de Transformers profonds. %Le code sera rendu public. Le code est disponible à l'adresse https://github.com/BryceZhuo/HybridNorm.
Nous présentons FuseChat-3.0, une suite de grands modèles de langage (LLMs) développée en intégrant les forces de LLMs sources hétérogènes dans des LLMs cibles plus compacts. Nos modèles sources incluent les puissants Gemma-2-27B-it, Mistral-Large-Instruct-2407, Qwen-2.5-72B-Instruct et Llama-3.1-70B-Instruct. Pour les modèles cibles, nous nous concentrons sur trois variantes plus petites largement utilisées - Llama-3.1-8B-Instruct, Gemma-2-9B-it et Qwen-2.5-7B-Instruct - ainsi que deux options ultra-compactes, Llama-3.2-3B-Instruct et Llama-3.2-1B-Instruct. Pour exploiter les capacités diversifiées de ces modèles sources, nous développons un protocole de construction de données spécialisé adapté à diverses tâches et domaines. Le pipeline d'entraînement de FuseChat-3.0 se compose de deux étapes clés : (1) un réglage fin supervisé (SFT) pour aligner les distributions des modèles cibles et sources, et (2) une optimisation directe des préférences (DPO) pour appliquer les préférences de plusieurs LLMs sources afin de régler finement le modèle cible. Les modèles FuseChat-3.0 résultants montrent des gains de performance significatifs dans des tâches telles que le suivi d'instructions, les connaissances générales, les mathématiques et la programmation. Comme illustré dans la Figure 1, en utilisant Llama-3.1-8B-Instruct comme modèle cible, notre approche de fusion atteint une amélioration moyenne de 6,8 points sur 14 benchmarks. De plus, elle démontre des gains remarquables de 37,1 points et 30,1 points sur les benchmarks de suivi d'instructions AlpacaEval-2 et Arena-Hard, respectivement. Notre code, modèles et jeux de données sont disponibles à l'adresse https://github.com/SLIT-AI/FuseChat-3.0.
Nous présentons Pok\'eChamp, un agent minimax alimenté par des modèles de langage de grande taille (LLM) pour les combats de Pok\'emon. Construit sur un cadre général pour les jeux compétitifs à deux joueurs, Pok\'eChamp exploite les capacités généralistes des LLM pour améliorer la recherche arborescente minimax. Plus précisément, les LLM remplacent trois modules clés : (1) l'échantillonnage des actions du joueur, (2) la modélisation de l'adversaire, et (3) l'estimation de la fonction de valeur, permettant à l'agent d'utiliser efficacement l'historique des parties et les connaissances humaines pour réduire l'espace de recherche et gérer l'observabilité partielle. Notamment, notre cadre ne nécessite aucun entraînement supplémentaire des LLM. Nous évaluons Pok\'eChamp dans le format populaire Gen 9 OU. Lorsqu'il est alimenté par GPT-4o, il atteint un taux de victoire de 76 % contre le meilleur bot basé sur LLM existant et de 84 % contre le bot basé sur des règles le plus fort, démontrant ainsi sa performance supérieure. Même avec un modèle open-source Llama 3.1 à 8 milliards de paramètres, Pok\'eChamp surpasse systématiquement le précédent meilleur bot basé sur LLM, Pok\'ellmon alimenté par GPT-4o, avec un taux de victoire de 64 %. Pok\'eChamp atteint un Elo projeté de 1300-1500 sur l'échelle en ligne Pok\'emon Showdown, le plaçant parmi les 30 % à 10 % des meilleurs joueurs humains. En outre, ce travail compile le plus grand ensemble de données de combats de Pok\'emon réels, comprenant plus de 3 millions de parties, dont plus de 500 000 matchs à haut Elo. Sur la base de cet ensemble de données, nous établissons une série de benchmarks et de puzzles pour évaluer des compétences spécifiques en combat. Nous fournissons également des mises à jour clés du moteur de jeu local. Nous espérons que ce travail stimulera des recherches supplémentaires qui exploitent les combats de Pok\'emon comme benchmark pour intégrer les technologies LLM avec des algorithmes de théorie des jeux abordant des problèmes multiagents généraux. Vidéos, code et ensemble de données disponibles à l'adresse https://sites.google.com/view/pokechamp-llm.
Les hallucinations dans les LLM (modèles de langage de grande taille) constituent un problème majeur pour leur déploiement sécurisé dans des applications réelles. Les approches récentes ont exploité l'espace latent des LLM pour la détection des hallucinations, mais leurs embeddings, optimisés pour la cohérence linguistique plutôt que pour l'exactitude factuelle, échouent souvent à séparer clairement les contenus véridiques et hallucinés. À cette fin, nous proposons le Vecteur Séparateur de Véracité (Truthfulness Separator Vector, TSV), un vecteur de pilotage léger et flexible qui redéfinit l'espace de représentation du LLM lors de l'inférence pour améliorer la séparation entre les sorties véridiques et hallucinées, sans modifier les paramètres du modèle. Notre cadre en deux étapes commence par entraîner le TSV sur un petit ensemble d'exemples étiquetés pour former des clusters compacts et bien séparés. Il enrichit ensuite l'ensemble d'exemples avec des générations non étiquetées du LLM, en utilisant un algorithme basé sur le transport optimal pour l'étiquetage pseudo-supervisé, combiné à un processus de filtrage basé sur la confiance. Des expériences approfondies démontrent que le TSV atteint des performances de pointe avec un minimum de données étiquetées, montrant une forte généralisation à travers différents ensembles de données et offrant une solution pratique pour les applications réelles des LLM.
Les récents progrès dans la génération de texte-à-vidéo (T2V) ont été portés par deux paradigmes concurrents : les modèles de langage autorégressifs et les modèles de diffusion. Cependant, chaque paradigme présente des limitations intrinsèques : les modèles de langage peinent à atteindre une qualité visuelle élevée et accumulent des erreurs, tandis que les modèles de diffusion manquent de compréhension sémantique et de modélisation causale. Dans ce travail, nous proposons LanDiff, un cadre hybride qui combine les forces des deux paradigmes grâce à une génération allant du grossier au fin. Notre architecture introduit trois innovations clés : (1) un tokeniseur sémantique qui compresse les caractéristiques visuelles 3D en représentations discrètes 1D compactes via une compression sémantique efficace, atteignant un taux de compression de 14 000 fois ; (2) un modèle de langage qui génère des tokens sémantiques avec des relations sémantiques de haut niveau ; (3) un modèle de diffusion en flux qui affine la sémantique grossière en vidéos haute fidélité. Les expériences montrent que LanDiff, un modèle de 5 milliards de paramètres, obtient un score de 85,43 sur le benchmark T2V VBench, surpassant les modèles open-source de pointe comme Hunyuan Video (13 milliards) et d'autres modèles commerciaux tels que Sora, Keling et Hailuo. De plus, notre modèle atteint également des performances de pointe dans la génération de vidéos longues, surpassant les autres modèles open-source dans ce domaine. Notre démo est disponible à l'adresse https://landiff.github.io/.
Le modèle Mixture-of-Experts (MoE) améliore les performances tout en maintenant une efficacité computationnelle, ce qui le rend particulièrement adapté aux applications à grande échelle. Cependant, dans le paradigme MoE actuel, chaque expert fonctionne de manière individuelle, ce qui limite les interactions de haute qualité entre experts. De plus, ce paradigme n'a pas été efficacement étendu aux blocs d'attention, ce qui freine les améliorations d'efficacité. Pour résoudre ces problèmes, nous proposons Union-of-Experts (UoE), qui décompose le transformateur en un groupe équilibré d'experts, puis met en œuvre un routage dynamique sur les données d'entrée et les experts. Notre approche innove dans la conception MoE avec trois avancées clés : (1) Nous avons réalisé une décomposition équilibrée des experts sur les blocs MLP et les blocs d'attention, basée sur la partition matricielle en parallélisme tensoriel. (2) Nous avons développé deux paradigmes de routage : la sélection de données par patch et la sélection d'expert, pour appliquer le routage à différents niveaux. (3) Nous avons conçu l'architecture du modèle UoE, incluant l'Attention Multi-Têtes Sélective (SMHA) et l'Union-of-MLP-Experts (UoME). (4) Nous avons mis en œuvre une exécution parallèle des opérations de routage et de calcul de UoE, et optimisé l'efficacité grâce à une analyse du traitement matériel. Les expériences montrent que le modèle équipé de UoE surpasse l'Attention Complète, les MoE de pointe et les transformateurs efficaces dans plusieurs tâches, tant dans le domaine de l'image que du langage naturel. Les codes sources sont disponibles à l'adresse https://github.com/YujiaoYang-work/UoE.
Le déploiement de grands modèles de langage (LLMs) est coûteux. Cependant, la quantification des poids après entraînement peut résoudre ce problème en compressant leur taille pour une mémoire limitée et en économisant la bande passante pour l'accélération. Comme toutes les dimensions des poids ne sont pas également importantes, ces méthodes reposent généralement sur une métrique de sensibilité, qui indique l'influence élément par élément des poids sur la fonction de perte et est utilisée pour prétraiter les poids originaux en vue d'une meilleure quantification. Dans ce travail, nous menons une étude empirique sur la précision de la métrique de sensibilité, et constatons que les métriques existantes basées sur le gradient et la hessienne sont très imprécises : elles sous-estiment l'impact de la quantification sur la fonction de perte de plusieurs ordres de grandeur, principalement en raison du petit rayon de convergence de l'approximation locale du second ordre, c'est-à-dire les termes de gradient et de hessienne dans la formule de Taylor. Pour résoudre ce problème, nous proposons l'Intégrale Post-quantification (PQI), une métrique précise pour estimer la sensibilité postérieure de manière fine. Pour tirer parti de cette métrique précise, nous proposons en outre ReQuant, un cadre simple mais puissant qui se compose principalement de deux composants Dense-et-Sparse détachés : la sélection auto-adaptative des valeurs aberrantes et le détachement progressif des poids significatifs. Les résultats montrent que ReQuant améliore les méthodes de quantification post-entraînement de pointe, avec une amélioration notable de 2,66 points de perplexité sur Llama 3.2 1B avec QTIP.
L'optimisation à l'inférence a été cruciale pour le succès des modèles récents tels qu'OpenAI o1 et DeepSeek R1. Cependant, de nombreuses techniques utilisées pour entraîner les modèles en vue de cette optimisation nécessitent que les tâches aient des réponses pouvant être vérifiées, limitant ainsi leur application à des domaines tels que les mathématiques, la programmation et le raisonnement logique. Nous nous inspirons de la manière dont les humains font des premières tentatives, demandent des retours détaillés à d'autres et apportent des améliorations basées sur ces retours dans un large éventail de tâches ouvertes. À cette fin, nous collectons des données et entraînons des modèles dédiés de Feedback et d'Édition capables de réaliser une optimisation à l'inférence pour des tâches générales et ouvertes. Dans notre configuration, un modèle génère une réponse initiale, qui reçoit des commentaires d'un deuxième modèle, lesquels sont ensuite utilisés par un troisième modèle pour éditer la réponse. Nous montrons que les performances sur Arena Hard, un benchmark fortement prédictif du Chatbot Arena Elo, peuvent être améliorées en augmentant le nombre de brouillons de réponses initiales, de retours efficaces et de réponses éditées. Lorsqu'elle est optimisée, notre configuration basée sur des modèles de 70B de la famille Llama 3 peut atteindre une performance de pointe sur Arena Hard avec un score de 92,7 au 5 mars 2025, surpassant OpenAI o1-preview-2024-09-12 avec 90,4 et DeepSeek R1 avec 92,3.
Les grands modèles de langage (LLMs) ont obtenu un succès remarquable en traduction automatique, démontrant des performances impressionnantes à travers diverses langues. Cependant, le "translationese", caractérisé par des traductions trop littérales et non naturelles, reste un défi persistant dans les systèmes de traduction basés sur les LLMs. Malgré leur pré-entraînement sur de vastes corpus d'énoncés naturels, les LLMs présentent des erreurs de translationese et génèrent des traductions inattendues et non naturelles, résultant de biais introduits lors du fine-tuning supervisé (SFT). Dans ce travail, nous évaluons systématiquement la prévalence du translationese dans les traductions générées par les LLMs et étudions ses origines pendant l'entraînement supervisé. Nous introduisons des méthodes pour atténuer ces biais, incluant le polissage des références dorées et le filtrage des instances d'entraînement non naturelles. Les évaluations empiriques démontrent que ces approches réduisent significativement le translationese tout en améliorant la naturalité des traductions, validées par des évaluations humaines et des métriques automatiques. Nos résultats soulignent la nécessité d'ajustements conscients de l'entraînement pour optimiser les sorties de traduction des LLMs, ouvrant la voie à des traductions plus fluides et cohérentes avec la langue cible. Nous publions les données et le code à l'adresse https://github.com/yafuly/LLM_Translationese.
La résolution efficace des problèmes inverses bayésiens reste un défi majeur en raison de la complexité des distributions a posteriori et du coût computationnel des méthodes d'échantillonnage traditionnelles. Étant donné une série d'observations et le modèle direct, nous souhaitons retrouver la distribution des paramètres, conditionnée par les données expérimentales observées. Nous démontrons qu'en combinant le Conditional Flow Matching (CFM) avec une architecture basée sur les transformers, nous pouvons échantillonner efficacement à partir de ce type de distribution, conditionnée par un nombre variable d'observations.
Bien que le transfert translinguistique soit crucial pour les capacités multilingues des modèles de langage contemporains, son mécanisme reste mal compris. Dans cet article, nous examinons ce qui arrive à un modèle de langage monolingue lorsqu'il commence à être entraîné sur une deuxième langue. Plus précisément, nous entraînons de petits modèles bilingues pour lesquels nous contrôlons la quantité de données pour chaque langue et l'ordre d'exposition aux langues. Pour trouver des preuves de représentations multilingues partagées, nous nous tournons vers l'amorçage structurel, une méthode utilisée pour étudier les représentations grammaticales chez les humains. Nous reproduisons d'abord les résultats précédents sur l'amorçage structurel translinguistique et constatons qu'après avoir contrôlé la quantité de données d'entraînement et l'exposition aux langues, il existe des effets asymétriques entre les paires de langues et les directions. Nous soutenons que cette asymétrie pourrait influencer les hypothèses sur les effets d'amorçage structurel chez les humains. Nous observons également que les effets d'amorçage structurel sont moins robustes pour les paires de langues moins similaires, soulignant les limites potentielles de l'apprentissage par transfert translinguistique et des représentations partagées pour des langues typologiquement diverses.
Les projets logiciels prospèrent grâce à l'implication et aux contributions d'individus issus de divers horizons. Cependant, un langage toxique et des interactions négatives peuvent entraver la participation et la rétention des contributeurs, tout en décourageant les nouveaux arrivants. Les stratégies de modération proactive visent à prévenir l'apparition de toxicité en intervenant sur les conversations qui s'écartent de leur objectif initial. Cette étude cherche à comprendre et à prédire les dérives conversationnelles menant à la toxicité sur GitHub. Pour faciliter cette recherche, nous avons constitué un nouveau jeu de données comprenant 202 conversations toxiques issues de GitHub, avec des points de dérive annotés, ainsi que 696 conversations non toxiques servant de référence. Sur la base de ce corpus, nous identifions des caractéristiques spécifiques des conversations toxiques et des points de dérive, notamment des marqueurs linguistiques tels que les pronoms à la deuxième personne, les termes de négation, ainsi que des tonalités de frustration amère et d'impatience. Nous observons également des dynamiques conversationnelles particulières entre les contributeurs du projet et les participants externes. En nous appuyant sur ces observations empiriques, nous proposons une approche de modération proactive pour détecter et traiter automatiquement les conversations potentiellement nuisibles avant qu'elles ne dégénèrent. En exploitant les modèles de langage modernes (LLM), nous développons une technique de résumé de trajectoire conversationnelle qui capture l'évolution des discussions et identifie les signes précoces de dérive. Nos expériences montrent que des prompts LLM conçus pour fournir des résumés des conversations sur GitHub atteignent un score F1 de 69 % dans la prédiction des dérives conversationnelles, surpassant nettement un ensemble d'approches de référence.