NesTools: Ein Datensatz zur Bewertung der Fähigkeiten von großen Sprachmodellen im Erlernen von verschachtelten Werkzeugen.

papers.abstract

Große Sprachmodelle (LLMs), kombiniert mit Werkzeuglernen, haben beeindruckende Ergebnisse in realen Anwendungen erzielt. Während des Werkzeuglernens können LLMs mehrere Werkzeuge in verschachtelter Reihenfolge aufrufen, wobei der spätere Werkzeugaufruf die Antwort des vorherigen als Eingabeparameter verwenden kann. Die aktuelle Forschung zu den Fähigkeiten des verschachtelten Werkzeuglernens ist jedoch noch wenig erforscht, da die bestehenden Benchmarks an relevanten Datenbeispielen fehlen. Um dieses Problem zu lösen, stellen wir NesTools vor, um die aktuelle Lücke bei umfassenden Bewertungen des verschachtelten Werkzeuglernens zu schließen. NesTools umfasst eine neuartige automatische Datengenerierungsmethode zur Erstellung von groß angelegten verschachtelten Werkzeugaufrufen mit unterschiedlichen Verschachtelungsstrukturen. Durch manuelle Überprüfung und Verfeinerung ist der Datensatz von hoher Qualität und eng mit realen Szenarien verbunden. Daher kann NesTools als neuer Benchmark dienen, um die Fähigkeiten von LLMs im verschachtelten Werkzeuglernen zu bewerten. Wir führen umfangreiche Experimente mit 22 LLMs durch und bieten detaillierte Analysen mit NesTools, die zeigen, dass aktuelle LLMs immer noch unter der komplexen Aufgabe des verschachtelten Werkzeuglernens leiden.

English

Large language models (LLMs) combined with tool learning have gained impressive results in real-world applications. During tool learning, LLMs may call multiple tools in nested orders, where the latter tool call may take the former response as its input parameters. However, current research on the nested tool learning capabilities is still under-explored, since the existing benchmarks lack of relevant data instances. To address this problem, we introduce NesTools to bridge the current gap in comprehensive nested tool learning evaluations. NesTools comprises a novel automatic data generation method to construct large-scale nested tool calls with different nesting structures. With manual review and refinement, the dataset is in high quality and closely aligned with real-world scenarios. Therefore, NesTools can serve as a new benchmark to evaluate the nested tool learning abilities of LLMs. We conduct extensive experiments on 22 LLMs, and provide in-depth analyses with NesTools, which shows that current LLMs still suffer from the complex nested tool learning task.

NesTools: Ein Datensatz zur Bewertung der Fähigkeiten von großen Sprachmodellen im Erlernen von verschachtelten Werkzeugen.

NesTools: A Dataset for Evaluating Nested Tool Learning Abilities of Large Language Models

papers.abstract

Support