Articles de recherche en IA sélectionnés quotidiennement avec traductions
À mesure que les LLMs ont un impact croissant sur les applications critiques en termes de sécurité, garantir leur sûreté à l'aide de garde-corps reste un défi majeur. Cet article propose GuardReasoner, un nouveau dispositif de sécurité pour les LLMs, en guidant le modèle de garde à apprendre à raisonner. Concrètement, nous créons d'abord l'ensemble de données d'entraînement GuardReasonerTrain, qui comprend 127 000 échantillons avec 460 000 étapes de raisonnement détaillées. Ensuite, nous introduisons le SFT de raisonnement pour libérer la capacité de raisonnement des modèles de garde. De plus, nous présentons DPO d'échantillon difficile pour renforcer davantage leur capacité de raisonnement. De cette manière, GuardReasoner obtient de meilleures performances, une meilleure explicabilité et une meilleure généralisabilité. Des expériences approfondies et des analyses sur 13 référentiels de 3 tâches de garde-corps démontrent sa supériorité. Remarquablement, GuardReasoner 8B surpasse GPT-4o+CoT de 5,74 % et LLaMA Guard 3 8B de 20,84 % en score F1 en moyenne. Nous mettons à disposition les données d'entraînement, le code et les modèles avec différentes échelles (1B, 3B, 8B) de GuardReasoner : https://github.com/yueliu1999/GuardReasoner/.
Les grands modèles de langage (LLM) tels que le o1 d'OpenAI ont démontré des capacités remarquables dans des tâches complexes de raisonnement en augmentant la puissance de calcul au moment des tests et en manifestant une réflexion profonde similaire à celle des humains. Cependant, nous identifions un phénomène que nous appelons sous-réflexion, où les LLM de type o1 passent fréquemment d'une pensée de raisonnement à une autre sans explorer suffisamment les voies prometteuses pour parvenir à une solution correcte. Ce comportement entraîne une profondeur de raisonnement insuffisante et une diminution des performances, en particulier sur des problèmes mathématiques complexes. Pour analyser systématiquement ce problème, nous menons des expériences sur trois ensembles de tests difficiles et deux modèles ouverts similaires au o1, révélant que le passage fréquent d'une pensée à une autre est corrélé à des réponses incorrectes. Nous introduisons une nouvelle mesure pour quantifier la sous-réflexion en mesurant l'efficacité des jetons dans les réponses incorrectes. Pour remédier à la sous-réflexion, nous proposons une stratégie de décodage avec une pénalité de passage de pensée (TIP) qui décourage les transitions prématurées entre les pensées, encourageant une exploration plus approfondie de chaque voie de raisonnement. Les résultats expérimentaux montrent que notre approche améliore la précision sur des ensembles de données difficiles sans nécessiter d'ajustement fin du modèle. Nos découvertes contribuent à la compréhension des inefficacités de raisonnement dans les LLM de type o1 et offrent une solution pratique pour améliorer leurs capacités de résolution de problèmes.
L'entraînement des grands modèles de langage (LLMs) est généralement distribué sur un grand nombre d'accélérateurs pour réduire le temps d'entraînement. Étant donné que les états internes et les gradients de paramètres doivent être échangés à chaque étape de gradient, tous les appareils doivent être situés au même endroit en utilisant des liens de communication à faible latence et à haut débit pour prendre en charge le volume élevé de bits échangés requis. Récemment, des algorithmes distribués tels que DiLoCo ont assoupli cette contrainte de co-localisation : les accélérateurs peuvent être regroupés en "travailleurs", où les synchronisations entre les travailleurs ne se produisent que rarement. Cela signifie à son tour que les travailleurs peuvent se permettre d'être connectés par des liens de communication à plus faible bande passante sans affecter la qualité de l'apprentissage. Cependant, dans ces méthodes, la communication entre les travailleurs nécessite toujours la même bande passante maximale qu'auparavant, car les synchronisations exigent que tous les paramètres soient échangés entre tous les travailleurs. Dans cet article, nous améliorons DiLoCo de trois manières. Premièrement, nous synchronisons uniquement des sous-ensembles de paramètres séquentiellement, plutôt que tous en une seule fois, ce qui réduit considérablement la bande passante maximale. Deuxièmement, nous permettons aux travailleurs de continuer l'entraînement tout en synchronisant, ce qui réduit le temps de calcul. Troisièmement, nous quantifions les données échangées par les travailleurs, ce qui réduit encore la bande passante entre les travailleurs. En combinant correctement ces modifications, nous montrons expérimentalement que nous pouvons distribuer l'entraînement de paramètres à l'échelle du milliard et atteindre une qualité similaire à celle d'avant, tout en réduisant la bande passante requise de deux ordres de grandeur.
L'irruption de DeepSeek-R1 constitue un tournant pour l'industrie de l'IA en général et les LLM en particulier. Ses capacités ont démontré des performances exceptionnelles dans plusieurs tâches, notamment la pensée créative, la génération de code, les mathématiques et la réparation automatique de programmes, à un coût d'exécution apparemment inférieur. Cependant, les LLM doivent respecter une propriété qualitative importante, à savoir leur alignement avec la sécurité et les valeurs humaines. Un concurrent clair de DeepSeek-R1 est son homologue américain, le modèle o3-mini d'OpenAI, qui devrait établir des normes élevées en termes de performances, de sécurité et de coût. Dans cet article, nous menons une évaluation systématique du niveau de sécurité de DeepSeek-R1 (version 70b) et de l'o3-mini d'OpenAI (version bêta). À cette fin, nous utilisons notre outil de test de sécurité automatisé récemment publié, nommé ASTRAL. En exploitant cet outil, nous générons et exécutons automatiquement et systématiquement un total de 1260 entrées de test non sécurisées sur les deux modèles. Après avoir réalisé une évaluation semi-automatisée des résultats fournis par les deux LLM, les résultats indiquent que DeepSeek-R1 est très peu sûr par rapport à l'o3-mini d'OpenAI. Selon notre évaluation, DeepSeek-R1 a répondu de manière non sécurisée à 11,98 % des requêtes exécutées, tandis que l'o3-mini n'a répondu de manière non sécurisée qu'à 1,19 %.
Les grands modèles de langage ont développé de nombreuses capacités intellectuelles. Alors que de nombreux benchmarks évaluent leur intelligence, peu d'attention a été accordée à leur capacité d'exploration, une capacité essentielle pour découvrir de nouvelles informations et s'adapter à des environnements nouveaux dans les systèmes naturels et artificiels. Il reste incertain dans quelle mesure les GML peuvent explorer efficacement, en particulier dans des tâches ouvertes. Cette étude examine si les GML peuvent surpasser les humains en matière d'exploration lors d'une tâche ouverte, en utilisant Little Alchemy 2 comme paradigme, où les agents combinent des éléments pour en découvrir de nouveaux. Les résultats montrent que la plupart des GML sont moins performants que les humains, à l'exception du modèle o1, les GML traditionnels se reposant principalement sur des stratégies basées sur l'incertitude, contrairement aux humains qui équilibrent l'incertitude et l'autonomisation. L'analyse de la représentation des modèles avec des Autoencodeurs Épars a révélé que l'incertitude et les choix sont représentés dans les premiers blocs transformateurs, tandis que les valeurs d'autonomisation sont traitées plus tard, ce qui amène les GML à penser trop rapidement et à prendre des décisions prématurées, entravant une exploration efficace. Ces résultats mettent en lumière les limites de l'exploration des GML et suggèrent des pistes pour améliorer leur adaptabilité.
Nous présentons MedXpertQA, un banc d'essai hautement exigeant et complet pour évaluer les connaissances médicales de niveau expert et le raisonnement avancé. MedXpertQA comprend 4 460 questions couvrant 17 spécialités et 11 systèmes corporels. Il comprend deux sous-ensembles, Texte pour l'évaluation de texte et MM pour l'évaluation multimodale. Notamment, MM introduit des questions d'examen de niveau expert avec des images diverses et des informations cliniques riches, y compris des dossiers de patients et des résultats d'examens, le distinguant des bancs d'essai médicaux multimodaux traditionnels avec des paires de questions-réponses simples générées à partir de légendes d'images. MedXpertQA applique un filtrage rigoureux et une augmentation pour traiter l'insuffisance de difficulté des bancs d'essai existants tels que MedQA, et intègre des questions de conseils spécialisés pour améliorer la pertinence clinique et l'exhaustivité. Nous effectuons une synthèse des données pour atténuer le risque de fuite de données et menons plusieurs tours d'examens par des experts pour garantir l'exactitude et la fiabilité. Nous évaluons 16 modèles de premier plan sur MedXpertQA. De plus, la médecine est profondément liée à la prise de décisions du monde réel, offrant un cadre riche et représentatif pour évaluer les capacités de raisonnement au-delà des mathématiques et du code. À cette fin, nous développons un sous-ensemble orienté vers le raisonnement pour faciliter l'évaluation des modèles de type o1.
Le post-entraînement du modèle de langage (LLM), de la DPO à la distillation, peut affiner les comportements et débloquer de nouvelles compétences, mais la science ouverte soutenant ces techniques de post-entraînement en est encore à ses débuts. Un facteur limitant a été la difficulté de mener des analyses comparatives à grande échelle des modèles de génération de données synthétiques et des juges LLM. Pour combler cette lacune, nous présentons WILDCHAT-50M, le plus grand ensemble de données de chat public à ce jour. Nous étendons l'ensemble de données WildChat existant pour inclure des réponses non seulement de GPT, mais de plus de 50 modèles ouverts différents en poids, allant de 0,5 milliards à 104 milliards de paramètres. Nous menons une analyse comparative approfondie et démontrons le potentiel de cet ensemble de données en créant RE-WILD, notre propre mélange SFT public, qui surpasse le récent mélange SFT Tulu-3 d'Allen AI avec seulement 40 % du nombre d'échantillons. Notre ensemble de données, échantillons et code sont disponibles sur https://github.com/penfever/wildchat-50m.
Cet article présente SANA-1.5, un Transformateur de Diffusion linéaire pour un dimensionnement efficace dans la génération de texte vers image. En s'appuyant sur SANA-1.0, nous introduisons trois innovations clés : (1) Mise à l'échelle de l'Entraînement Efficace : un paradigme de croissance en profondeur qui permet de passer de 1,6 milliard à 4,8 milliards de paramètres avec des ressources computationnelles considérablement réduites, combiné à un optimiseur efficace en mémoire de 8 bits. (2) Élagage de la Profondeur du Modèle : une technique d'analyse de l'importance des blocs pour une compression efficace du modèle à des tailles arbitraires avec une perte de qualité minimale. (3) Mise à l'échelle au Moment de l'Inférence : une stratégie d'échantillonnage répétée qui échange la computation contre la capacité du modèle, permettant aux modèles plus petits d'égaler la qualité des modèles plus grands au moment de l'inférence. Grâce à ces stratégies, SANA-1.5 atteint un score d'alignement texte-image de 0,72 sur GenEval, pouvant être amélioré à 0,80 grâce à la mise à l'échelle de l'inférence, établissant un nouveau SoTA sur le banc d'essai GenEval. Ces innovations permettent un dimensionnement efficace du modèle à travers différents budgets de calcul tout en maintenant une haute qualité, rendant la génération d'images de haute qualité plus accessible.
Comprendre le monde physique est un défi fondamental en IA incarnée, crucial pour permettre aux agents d'accomplir des tâches complexes et d'opérer en toute sécurité dans des environnements réels. Alors que les Modèles Vision-Langage (VLM) ont montré un grand potentiel en matière de raisonnement et de planification de tâches pour les agents incarnés, leur capacité à comprendre les phénomènes physiques reste extrêmement limitée. Pour combler cette lacune, nous présentons PhysBench, un banc d'essai complet conçu pour évaluer la capacité des VLM à comprendre le monde physique à travers un ensemble diversifié de tâches. PhysBench contient 10 002 entrées de données vidéo-image-texte entrelacées, catégorisées en quatre grands domaines : propriétés d'objets physiques, relations entre objets physiques, compréhension de scènes physiques et dynamiques basées sur la physique, divisées en 19 sous-classes et 8 dimensions de capacité distinctes. Nos expériences approfondies, menées sur 75 VLM représentatifs, révèlent que bien que ces modèles excellent dans le raisonnement de bon sens, ils ont du mal à comprendre le monde physique -- probablement en raison de l'absence de connaissances physiques dans leurs données d'entraînement et du manque de préjugés physiques intégrés. Pour remédier à cette lacune, nous présentons PhysAgent, un nouveau cadre qui combine les forces de généralisation des VLM avec l'expertise spécialisée des modèles de vision, améliorant significativement la compréhension physique des VLM à travers une variété de tâches, y compris une amélioration de 18,4\% sur GPT-4o. De plus, nos résultats démontrent que renforcer les capacités de compréhension du monde physique des VLM peut aider les agents incarnés tels que MOKA. Nous pensons que PhysBench et PhysAgent offrent des perspectives précieuses et contribuent à combler le fossé entre les VLM et la compréhension du monde physique.
Alors que de nombreux travaux sur les agents web mettent en avant la promesse d'accomplir des tâches de manière autonome au nom des utilisateurs, en réalité, les agents peinent souvent sur des tâches complexes dans des contextes du monde réel et pour modéliser les préférences des utilisateurs. Cela offre une opportunité aux humains de collaborer avec l'agent et de tirer parti efficacement des capacités de l'agent. Nous proposons CowPilot, un cadre soutenant la navigation web autonome ainsi que la collaboration entre humains et agents, avec une évaluation basée sur le succès des tâches et leur efficacité. CowPilot réduit le nombre d'étapes que les humains doivent effectuer en permettant aux agents de proposer les prochaines étapes, tandis que les utilisateurs peuvent mettre en pause, rejeter ou prendre des actions alternatives. Pendant l'exécution, les utilisateurs peuvent entrelacer leurs actions avec celles de l'agent en annulant les suggestions ou en reprenant le contrôle de l'agent lorsque nécessaire. Nous avons mené des études de cas sur cinq sites web courants et constaté que le mode collaboratif humain-agent atteint le taux de réussite le plus élevé de 95 % tout en demandant aux humains d'effectuer seulement 15,2 % des étapes totales. Même avec des interventions humaines pendant l'exécution des tâches, l'agent parvient avec succès à réaliser jusqu'à la moitié du succès des tâches par lui-même. CowPilot peut servir d'outil utile pour la collecte de données et l'évaluation des agents à travers les sites web, ce qui, selon nous, favorisera la recherche sur la manière dont les utilisateurs et les agents peuvent collaborer. Des démonstrations vidéo sont disponibles sur https://oaishi.github.io/cowpilot.html