HelloBench : Évaluation des capacités de génération de longs textes des grands modèles de langageHelloBench: Evaluating Long Text Generation Capabilities of Large
Language Models
Ces dernières années, les Grands Modèles de Langage (GML) ont démontré des capacités remarquables dans diverses tâches (par exemple, la compréhension de longs contextes), et de nombreux benchmarks ont été proposés. Cependant, nous constatons que les capacités de génération de longs textes ne sont pas bien explorées. Par conséquent, nous introduisons le Benchmark de Génération de Longs Textes Hiérarchique (HelloBench), un benchmark complet, en conditions réelles et ouvert, pour évaluer les performances des GML dans la génération de longs textes. Basé sur la Taxonomie de Bloom, HelloBench catégorise les tâches de génération de longs textes en cinq sous-tâches : questions ouvertes, résumés, chat, complétion de texte et génération de texte heuristique. De plus, nous proposons l'Évaluation de Longs Textes Hiérarchique (HelloEval), une méthode d'évaluation alignée sur l'humain qui réduit significativement le temps et les efforts nécessaires à l'évaluation humaine tout en maintenant une forte corrélation avec l'évaluation humaine. Nous avons mené de vastes expériences sur environ 30 GMLs populaires et observé que les GMLs actuels manquent de capacités de génération de longs textes. Plus précisément, tout d'abord, que les instructions incluent des contraintes de longueur explicites ou implicites, nous constatons que la plupart des GMLs ne peuvent pas générer de texte de plus de 4000 mots. Deuxièmement, nous observons que bien que certains GMLs puissent générer des textes plus longs, de nombreux problèmes existent (par exemple, des répétitions sévères et une dégradation de la qualité). Troisièmement, pour démontrer l'efficacité de HelloEval, nous comparons HelloEval avec des métriques traditionnelles (par exemple, ROUGE, BLEU, etc.) et des méthodes de GML-comme-juge, qui montrent que HelloEval a la plus forte corrélation avec l'évaluation humaine. Nous mettons notre code à disposition sur https://github.com/Quehry/HelloBench.