Ein mehrdimensionales Rahmenwerk zur Bewertung und Verbesserung der Befolgung von Anweisungen in großen Sprachmodellen
A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models
May 12, 2025
Autoren: Junjie Ye, Caishuang Huang, Zhuohan Chen, Wenjie Fu, Chenyuan Yang, Leyi Yang, Yilong Wu, Peng Wang, Meng Zhou, Xiaolong Yang, Tao Gui, Qi Zhang, Zhongchao Shi, Jianping Fan, Xuanjing Huang
cs.AI
Zusammenfassung
Die Befolgung von Anweisungen bewertet große Sprachmodelle (LLMs) hinsichtlich ihrer Fähigkeit, Ausgaben zu generieren, die benutzerdefinierten Einschränkungen entsprechen. Bestehende Benchmarks basieren jedoch oft auf vorgefertigten Einschränkungsaufforderungen, denen die Vielfalt der realen Anwendungen fehlt und die eine detaillierte Leistungsbewertung einschränken. Um diese Lücke zu schließen, schlagen wir ein mehrdimensionales Einschränkungsframework vor, das drei Einschränkungsmuster, vier Einschränkungskategorien und vier Schwierigkeitsstufen umfasst. Aufbauend auf diesem Framework entwickeln wir eine automatisierte Pipeline zur Anweisungsgenerierung, die Einschränkungserweiterung, Konflikterkennung und Anweisungsüberarbeitung durchführt und dabei 1.200 code-verifizierbare Testbeispiele zur Anweisungsbefolgung erzeugt. Wir evaluieren 19 LLMs aus sieben Modellfamilien und decken erhebliche Leistungsunterschiede bei verschiedenen Einschränkungsformen auf. Beispielsweise sinkt die durchschnittliche Leistung von 77,67 % auf Stufe I auf 32,96 % auf Stufe IV. Darüber hinaus demonstrieren wir den Nutzen unseres Ansatzes, indem wir ihn zur Datengenerierung für Reinforcement Learning verwenden und dabei erhebliche Verbesserungen in der Anweisungsbefolgung erzielen, ohne die allgemeine Leistung zu beeinträchtigen. Eine detaillierte Analyse zeigt, dass diese Verbesserungen hauptsächlich auf Änderungen in den Parametern der Aufmerksamkeitsmodule des Modells zurückzuführen sind, die die Erkennung und Einhaltung von Einschränkungen verbessern. Code und Daten sind unter https://github.com/Junjie-Ye/MulDimIF verfügbar.
English
Instruction following evaluates large language models (LLMs) on their ability
to generate outputs that adhere to user-defined constraints. However, existing
benchmarks often rely on templated constraint prompts, which lack the diversity
of real-world usage and limit fine-grained performance assessment. To fill this
gap, we propose a multi-dimensional constraint framework encompassing three
constraint patterns, four constraint categories, and four difficulty levels.
Building on this framework, we develop an automated instruction generation
pipeline that performs constraint expansion, conflict detection, and
instruction rewriting, yielding 1,200 code-verifiable instruction-following
test samples. We evaluate 19 LLMs across seven model families and uncover
substantial variation in performance across constraint forms. For instance,
average performance drops from 77.67% at Level I to 32.96% at Level IV.
Furthermore, we demonstrate the utility of our approach by using it to generate
data for reinforcement learning, achieving substantial gains in instruction
following without degrading general performance. In-depth analysis indicates
that these gains stem primarily from modifications in the model's attention
modules parameters, which enhance constraint recognition and adherence. Code
and data are available in https://github.com/Junjie-Ye/MulDimIF.Summary
AI-Generated Summary