ChatPaper.aiChatPaper

Het evalueren van open taalmodelen over verschillende taaktypen, toepassingsdomeinen en redeneertypen: Een diepgaande experimentele analyse

Evaluating Open Language Models Across Task Types, Application Domains, and Reasoning Types: An In-Depth Experimental Analysis

June 17, 2024
Auteurs: Neelabh Sinha, Vinija Jain, Aman Chadha
cs.AI

Samenvatting

De snelle opkomst van Taalmodellen (Language Models, LMs) heeft hun toepassing in verschillende domeinen uitgebreid. Echter, vanwege beperkingen in modelgrootte, gerelateerde kosten of propriëtaire restricties, is het gebruik van state-of-the-art (SOTA) grote taalmodellen (LLMs) niet altijd haalbaar. Met de opkomst van open, kleinere LMs kunnen meer toepassingen gebruikmaken van hun mogelijkheden, maar het selecteren van het juiste LM kan een uitdaging zijn. Dit werk voert een diepgaande experimentele analyse uit van de semantische correctheid van de uitvoer van 10 kleinere, open LMs, gericht op drie aspecten: taaktypen, toepassingsdomeinen en redeneringstypen, waarbij diverse promptstijlen worden gebruikt. We tonen aan dat de meest effectieve modellen en promptstijlen variëren afhankelijk van de specifieke vereisten. Onze analyse biedt een vergelijkende beoordeling van LMs en promptstijlen met behulp van een voorgesteld drieledig schema van aspecten voor hun strategische selectie op basis van use-case en andere beperkingen. We laten ook zien dat, indien correct gebruikt, deze LMs kunnen concurreren met, en soms zelfs beter presteren dan, SOTA LLMs zoals DeepSeek-v2, GPT-3.5-Turbo en GPT-4o.
English
The rapid rise of Language Models (LMs) has expanded their use in several applications. Yet, due to constraints of model size, associated cost, or proprietary restrictions, utilizing state-of-the-art (SOTA) LLMs is not always feasible. With open, smaller LMs emerging, more applications can leverage their capabilities, but selecting the right LM can be challenging. This work conducts an in-depth experimental analysis of the semantic correctness of outputs of 10 smaller, open LMs across three aspects: task types, application domains and reasoning types, using diverse prompt styles. We demonstrate that most effective models and prompt styles vary depending on the specific requirements. Our analysis provides a comparative assessment of LMs and prompt styles using a proposed three-tier schema of aspects for their strategic selection based on use-case and other constraints. We also show that if utilized appropriately, these LMs can compete with, and sometimes outperform, SOTA LLMs like DeepSeek-v2, GPT-3.5-Turbo, and GPT-4o.
PDF61February 8, 2026