Rapport technique d'Hermes 3
Hermes 3 Technical Report
August 15, 2024
Auteurs: Ryan Teknium, Jeffrey Quesnelle, Chen Guang
cs.AI
Résumé
Les modèles ajustés par instruction (ou "chat") sont devenus le principal moyen par lequel la plupart des gens interagissent avec de grands modèles de langage. Contrairement aux modèles "de base" ou "fondamentaux", les modèles ajustés par instruction sont optimisés pour répondre à des déclarations impératives. Nous présentons Hermes 3, un modèle généraliste aligné de manière neutre sur l'instruction et l'utilisation d'outils, doté de solides capacités de raisonnement et de créativité. Sa plus grande version, Hermes 3 405B, atteint des performances de pointe parmi les modèles à poids ouverts sur plusieurs benchmarks publics.
English
Instruct (or "chat") tuned models have become the primary way in which most
people interact with large language models. As opposed to "base" or
"foundation" models, instruct-tuned models are optimized to respond to
imperative statements. We present Hermes 3, a neutrally-aligned generalist
instruct and tool use model with strong reasoning and creative abilities. Its
largest version, Hermes 3 405B, achieves state of the art performance among
open weight models on several public benchmarks.Summary
AI-Generated Summary