Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen MiniMax-Speech vor, ein autoregressives, Transformer-basiertes Text-to-Speech (TTS)-Modell, das hochwertige Sprache erzeugt. Eine zentrale Innovation ist unser lernbarer Sprecher-Encoder, der Timbre-Merkmale aus einem Referenzaudio extrahiert, ohne dessen Transkription zu benötigen. Dies ermöglicht es MiniMax-Speech, ausdrucksstarke Sprache mit einem dem Referenzaudio konsistenten Timbre in einem Zero-Shot-Verfahren zu erzeugen, während es gleichzeitig One-Shot-Stimmenklonung mit außergewöhnlich hoher Ähnlichkeit zur Referenzstimme unterstützt. Darüber hinaus wird die Gesamtqualität des synthetisierten Audios durch den vorgeschlagenen Flow-VAE verbessert. Unser Modell unterstützt 32 Sprachen und zeigt hervorragende Leistungen in mehreren objektiven und subjektiven Bewertungsmetriken. Insbesondere erzielt es state-of-the-art (SOTA)-Ergebnisse bei objektiven Metriken zur Stimmenklonung (Wortfehlerrate und Sprecherähnlichkeit) und hat die Spitzenposition auf der öffentlichen TTS Arena-Rangliste erreicht. Eine weitere Stärke von MiniMax-Speech, die durch die robusten und entflochtenen Repräsentationen des Sprecher-Encors ermöglicht wird, ist seine Erweiterbarkeit ohne Änderungen am Basismodell, was verschiedene Anwendungen ermöglicht, wie z.B.: beliebige Stimmungssteuerung via LoRA; Text-zu-Stimme (T2V) durch die Synthese von Timbre-Merkmalen direkt aus einer Textbeschreibung; und professionelle Stimmenklonung (PVC) durch Feinabstimmung der Timbre-Merkmale mit zusätzlichen Daten. Wir ermutigen die Leser, https://minimax-ai.github.io/tts_tech_report für weitere Beispiele zu besuchen.
Text-to-Audio-Systeme, obwohl zunehmend leistungsfähig, sind bei der Inferenz langsam, was ihre Latenz für viele kreative Anwendungen unpraktisch macht. Wir stellen Adversarial Relativistic-Contrastive (ARC) Post-Training vor, den ersten adversariellen Beschleunigungsalgorithmus für Diffusions-/Flussmodelle, der nicht auf Destillation basiert. Während frühere adversarielle Post-Training-Methoden Schwierigkeiten hatten, sich mit ihren teuren Destillations-Gegenstücken zu messen, ist ARC Post-Training ein einfaches Verfahren, das (1) eine kürzlich entwickelte relativistische adversarielle Formulierung auf das Post-Training von Diffusions-/Flussmodellen erweitert und (2) es mit einem neuartigen kontrastiven Diskriminatorziel kombiniert, um eine bessere Prompt-Einhaltung zu fördern. Wir kombinieren ARC Post-Training mit einer Reihe von Optimierungen für Stable Audio Open und entwickeln ein Modell, das in der Lage ist, ca. 12 Sekunden 44,1-kHz-Stereo-Audio in ca. 75 ms auf einer H100 und ca. 7 Sekunden auf einem mobilen Edge-Gerät zu erzeugen – das schnellste Text-to-Audio-Modell, das uns bekannt ist.
Wir präsentieren AM-Thinking-v1, ein 32B dichtes Sprachmodell, das die Grenzen des logischen Denkens vorantreibt und den kollaborativen Geist der Open-Source-Innovation verkörpert. Mit überragenden Leistungen gegenüber DeepSeek-R1 und auf Augenhöhe mit führenden Mixture-of-Experts (MoE)-Modellen wie Qwen3-235B-A22B und Seed1.5-Thinking erzielt AM-Thinking-v1 beeindruckende Werte von 85,3 auf AIME 2024, 74,4 auf AIME 2025 und 70,3 auf LiveCodeBench, was seine state-of-the-art Fähigkeiten in Mathematik und Programmierung unter Open-Source-Modellen ähnlicher Größe unterstreicht. Vollständig auf dem Open-Source-Basismodell Qwen2.5-32B und öffentlich verfügbaren Abfragen aufbauend, nutzt AM-Thinking-v1 einen sorgfältig gestalteten Post-Training-Pipeline – eine Kombination aus überwachtem Fein-Tuning und Reinforcement Learning –, um außergewöhnliche Denkfähigkeiten zu liefern. Diese Arbeit zeigt, dass die Open-Source-Community hohe Leistung im 32B-Maßstab erreichen kann, einem praktischen Sweet Spot für die Bereitstellung und Feinabstimmung. Indem wir ein Gleichgewicht zwischen Spitzenleistung und realer Anwendbarkeit schaffen, hoffen wir, dass AM-Thinking-v1 weitere gemeinsame Anstrengungen inspiriert, um mittelgroße Modelle zu nutzen und die Grenzen des logischen Denkens zu erweitern, während die Zugänglichkeit im Kern der Innovation bleibt. Wir haben unser Modell auf https://huggingface.co/a-m-team/AM-Thinking-v1{Hugging Face} open-source veröffentlicht.
Der Aufbau multimodaler Sprachmodelle ist grundsätzlich herausfordernd: Es erfordert die Abstimmung von visuellen und sprachlichen Modalitäten, die Kuratierung hochwertiger Instruktionsdaten und die Vermeidung einer Verschlechterung bestehender textbasierter Fähigkeiten, sobald die visuelle Komponente eingeführt wird. Diese Schwierigkeiten werden im mehrsprachigen Kontext weiter verstärkt, wo der Bedarf an multimodalen Daten in verschiedenen Sprachen die bestehende Datenknappheit verschärft, maschinelle Übersetzungen oft die Bedeutung verzerren und katastrophales Vergessen stärker ausgeprägt ist. Um diese Herausforderungen zu bewältigen, führen wir neuartige Techniken ein, die sowohl Daten als auch Modellierung umfassen. Zunächst entwickeln wir ein synthetisches Annotationsframework, das hochwertige, vielfältige mehrsprachige multimodale Instruktionsdaten kuratiert und es den Aya-Vision-Modellen ermöglicht, natürliche, von Menschen bevorzugte Antworten auf multimodale Eingaben in vielen Sprachen zu generieren. Ergänzend dazu schlagen wir eine cross-modale Modellzusammenführungstechnik vor, die katastrophales Vergessen mildert und effektiv textbasierte Fähigkeiten bewahrt, während gleichzeitig die multimodale generative Leistung verbessert wird. Aya-Vision-8B erreicht im Vergleich zu starken multimodalen Modellen wie Qwen-2.5-VL-7B, Pixtral-12B und sogar deutlich größeren Modellen wie Llama-3.2-90B-Vision eine Spitzenleistung. Wir skalieren diesen Ansatz weiter mit Aya-Vision-32B, das Modelle übertrifft, die mehr als doppelt so groß sind, wie Molmo-72B und LLaMA-3.2-90B-Vision. Unsere Arbeit fördert den mehrsprachigen Fortschritt an der multimodalen Front und liefert Einblicke in Techniken, die den Bedarf an Rechenleistung effektiv reduzieren, während sie gleichzeitig extrem hohe Leistung erbringen.
Die Befolgung von Anweisungen bewertet große Sprachmodelle (LLMs) hinsichtlich ihrer Fähigkeit, Ausgaben zu generieren, die benutzerdefinierten Einschränkungen entsprechen. Bestehende Benchmarks basieren jedoch oft auf vorgefertigten Einschränkungsaufforderungen, denen die Vielfalt der realen Anwendungen fehlt und die eine detaillierte Leistungsbewertung einschränken. Um diese Lücke zu schließen, schlagen wir ein mehrdimensionales Einschränkungsframework vor, das drei Einschränkungsmuster, vier Einschränkungskategorien und vier Schwierigkeitsstufen umfasst. Aufbauend auf diesem Framework entwickeln wir eine automatisierte Pipeline zur Anweisungsgenerierung, die Einschränkungserweiterung, Konflikterkennung und Anweisungsüberarbeitung durchführt und dabei 1.200 code-verifizierbare Testbeispiele zur Anweisungsbefolgung erzeugt. Wir evaluieren 19 LLMs aus sieben Modellfamilien und decken erhebliche Leistungsunterschiede bei verschiedenen Einschränkungsformen auf. Beispielsweise sinkt die durchschnittliche Leistung von 77,67 % auf Stufe I auf 32,96 % auf Stufe IV. Darüber hinaus demonstrieren wir den Nutzen unseres Ansatzes, indem wir ihn zur Datengenerierung für Reinforcement Learning verwenden und dabei erhebliche Verbesserungen in der Anweisungsbefolgung erzielen, ohne die allgemeine Leistung zu beeinträchtigen. Eine detaillierte Analyse zeigt, dass diese Verbesserungen hauptsächlich auf Änderungen in den Parametern der Aufmerksamkeitsmodule des Modells zurückzuführen sind, die die Erkennung und Einhaltung von Einschränkungen verbessern. Code und Daten sind unter https://github.com/Junjie-Ye/MulDimIF verfügbar.
Wir stellen gg-bench vor, eine Sammlung von Spielumgebungen, die entwickelt wurde, um allgemeine Denkfähigkeiten von Sprachmodellen zu bewerten. Im Gegensatz zu den meisten statischen Benchmarks ist gg-bench ein datengenerierender Prozess, bei dem neue Evaluierungsinstanzen nach Belieben generiert werden können. Insbesondere wird gg-bench synthetisch erzeugt, indem (1) ein großes Sprachmodell (LLM) verwendet wird, um natürliche Sprachbeschreibungen neuartiger Spiele zu generieren, (2) das LLM verwendet wird, um jedes Spiel als Code in einer Gym-Umgebung zu implementieren, und (3) Reinforcement-Learning-Agenten (RL) durch Selbstspiel auf den generierten Spielen trainiert werden. Wir bewerten Sprachmodelle anhand ihrer Gewinnrate gegen diese RL-Agenten, indem wir die Modelle mit der Spielbeschreibung, dem aktuellen Spielzustand und einer Liste gültiger Züge prompten, woraufhin die Modelle die Züge ausgeben, die sie ausführen möchten. gg-bench ist anspruchsvoll: State-of-the-Art-LLMs wie GPT-4o und Claude 3.7 Sonnet erreichen Gewinnraten von 7-9 % auf gg-bench durch In-Context-Learning, während Denkmodelle wie o1, o3-mini und DeepSeek-R1 durchschnittliche Gewinnraten von 31-36 % erreichen. Wir veröffentlichen die generierten Spiele, den Datengenerierungsprozess und den Evaluierungscode, um zukünftige Modellierungsarbeiten und die Erweiterung unseres Benchmarks zu unterstützen.
Vision-Language-Modelle (VLMs) kombinieren visuelle Wahrnehmung mit den allgemeinen Fähigkeiten, wie z.B. dem logischen Denken, von Large Language Models (LLMs). Die Mechanismen, durch die diese beiden Fähigkeiten kombiniert und genutzt werden können, sind jedoch noch weitgehend unverstanden. In dieser Arbeit untersuchen wir, wie Wahrnehmung und logisches Denken durch das Zusammenführen von Modellen, das Parameter verschiedener Modelle verbindet, kombiniert werden können. Im Gegensatz zu früheren Arbeiten, die sich oft auf das Zusammenführen von Modellen desselben Typs konzentrieren, schlagen wir das Zusammenführen von Modellen über verschiedene Modalitäten hinweg vor, wodurch die logischen Fähigkeiten von LLMs in VLMs integriert werden können. Durch umfangreiche Experimente zeigen wir, dass das Zusammenführen von Modellen einen erfolgreichen Weg bietet, um logische Fähigkeiten von LLMs auf VLMs in einer trainingsfreien Weise zu übertragen. Darüber hinaus nutzen wir die zusammengeführten Modelle, um den internen Mechanismus von Wahrnehmung und logischem Denken sowie die Auswirkungen des Zusammenführens darauf zu verstehen. Wir stellen fest, dass Wahrnehmungsfähigkeiten hauptsächlich in den frühen Schichten des Modells kodiert sind, während logisches Denken weitgehend durch die mittleren bis späten Schichten ermöglicht wird. Nach dem Zusammenführen beobachten wir, dass alle Schichten beginnen, zum logischen Denken beizutragen, während die Verteilung der Wahrnehmungsfähigkeiten über die Schichten weitgehend unverändert bleibt. Diese Beobachtungen beleuchten das Potenzial des Zusammenführens von Modellen als Werkzeug für multimodale Integration und Interpretation.
Diese Studie befasst sich mit der kritischen Lücke in der arabischen natürlichen Sprachverarbeitung, indem sie ein effektives arabisches Reverse Dictionary (RD)-System entwickelt, das es Benutzern ermöglicht, Wörter basierend auf ihren Beschreibungen oder Bedeutungen zu finden. Wir präsentieren einen neuartigen Transformer-basierten Ansatz mit einer Semi-Encoder-Neuronalen-Netzwerk-Architektur, die geometrisch abnehmende Schichten aufweist und state-of-the-art Ergebnisse für arabische RD-Aufgaben erzielt. Unsere Methodik umfasst einen umfassenden Datensatzkonstruktionsprozess und etabliert formale Qualitätsstandards für arabische lexikografische Definitionen. Experimente mit verschiedenen vortrainierten Modellen zeigen, dass arabisch-spezifische Modelle allgemeine mehrsprachige Einbettungen deutlich übertreffen, wobei ARBERTv2 die beste Bewertung (0,0644) erreicht. Zusätzlich bieten wir eine formale Abstraktion der Reverse-Dictionary-Aufgabe, die das theoretische Verständnis verbessert, und entwickeln eine modulare, erweiterbare Python-Bibliothek (RDTL) mit konfigurierbaren Trainingspipelines. Unsere Analyse der Datensatzqualität liefert wichtige Erkenntnisse zur Verbesserung der arabischen Definitionskonstruktion, was zu acht spezifischen Standards für den Aufbau hochwertiger Reverse-Dictionary-Ressourcen führt. Diese Arbeit leistet einen bedeutenden Beitrag zur arabischen Computerlinguistik und bietet wertvolle Werkzeuge für das Sprachenlernen, akademisches Schreiben und die professionelle Kommunikation auf Arabisch.
Das Erlernen der Navigation in dynamischen, offenen Umgebungen ist eine wichtige, aber herausfordernde Fähigkeit für Roboter. Die meisten bisherigen Methoden stützen sich auf präzise Lokalisierung und Kartierung oder lernen aus teuren Demonstrationen in der realen Welt. In diesem Artikel schlagen wir die Navigation Diffusion Policy (NavDP) vor, ein End-to-End-Framework, das ausschließlich in der Simulation trainiert wird und ohne Anpassung auf verschiedene Embodiments in diversen realen Umgebungen übertragen werden kann. Der Schlüsselbestandteil des NavDP-Netzwerks ist die Kombination aus diffusionsbasierter Trajektoriengenerierung und einer Kritikerfunktion für die Trajektorienauswahl, die nur auf lokalen Beobachtungstokens basieren, die von einem gemeinsamen Policy-Transformer kodiert werden. Unter Nutzung der privilegierten Informationen der globalen Umgebung in der Simulation skalieren wir die Demonstrationen hoher Qualität, um die Diffusionspolicy zu trainieren, und formulieren die Zielwerte der Kritikerwertfunktion mit kontrastiven Negativbeispielen. Unser Ansatz zur Demonstrationgenerierung erreicht etwa 2.500 Trajektorien/GPU pro Tag, was 20-mal effizienter ist als die Datenerfassung in der realen Welt, und resultiert in einem groß angelegten Navigationsdatensatz mit 363,2 km Trajektorien über 1244 Szenen hinweg. Mit diesem Simulationsdatensatz trainiert, erreicht NavDP Spitzenleistungen und zeigt durchweg herausragende Generalisierungsfähigkeit bei vierbeinigen, radgetriebenen und humanoiden Robotern in diversen Innen- und Außenumgebungen. Darüber hinaus präsentieren wir einen ersten Versuch, Gaussian Splatting für eine domänenspezifische Feinabstimmung von Real-zu-Sim zu verwenden, um die Sim-zu-Real-Lücke weiter zu schließen. Experimente zeigen, dass die Hinzufügung solcher Real-zu-Sim-Daten die Erfolgsrate um 30\% verbessern kann, ohne die Generalisierungsfähigkeit zu beeinträchtigen.
Die zunehmende Verbreitung agentenbasierter Workflows in verschiedenen Domänen führt zu einem dringenden Bedarf an skalierbaren und systematischen Methoden zur Bewertung der komplexen Spuren, die diese Systeme erzeugen. Aktuelle Evaluierungsmethoden basieren auf manuellen, domänenspezifischen Analysen durch Menschen von umfangreichen Workflow-Spuren – ein Ansatz, der mit der wachsenden Komplexität und dem zunehmenden Volumen agentenbasierter Ausgaben nicht skaliert. Die Fehleranalyse wird in diesen Kontexten zusätzlich durch das Zusammenspiel von externen Werkzeugausgaben und der Argumentation von Sprachmodellen erschwert, was sie anspruchsvoller macht als das traditionelle Debugging von Software. In dieser Arbeit (1) formulieren wir die Notwendigkeit robuster und dynamischer Evaluierungsmethoden für agentenbasierte Workflow-Spuren, (2) führen eine formale Taxonomie der in agentenbasierten Systemen auftretenden Fehlertypen ein und (3) präsentieren einen Satz von 148 umfangreichen, menschlich annotierten Spuren (TRAIL), die unter Verwendung dieser Taxonomie erstellt und in etablierten agentenbasierten Benchmarks verankert sind. Um die ökologische Validität zu gewährleisten, kuratieren wir Spuren sowohl von Einzel- als auch von Multi-Agenten-Systemen, wobei wir uns auf reale Anwendungen wie Softwareentwicklung und Open-World-Informationsabfrage konzentrieren. Unsere Auswertungen zeigen, dass moderne Langkontext-LLMs beim Debugging von Spuren schlecht abschneiden, wobei das beste Gemini-2.5-pro-Modell lediglich 11 % auf TRAIL erreicht. Unser Datensatz und unser Code sind öffentlich verfügbar, um zukünftige Forschungen zur skalierbaren Evaluierung agentenbasierter Workflows zu unterstützen und zu beschleunigen.
Wir beweisen theoretisch, dass sich die Generalisierung nicht nur durch die Skalierung von Daten verbessert, sondern auch durch die Kompression interner Repräsentationen. Um diese Erkenntnis praktisch umzusetzen, führen wir das Information Bottleneck Language Modeling (IBLM)-Ziel ein, das Sprachmodellierung als ein eingeschränktes Optimierungsproblem neu definiert: die Minimierung der Repräsentationsentropie unter der Bedingung optimaler Vorhersageleistung. Empirisch beobachten wir einen emergenten Memorierungs-Kompressions-Zyklus während des LLM-Pretrainings, der durch die Oszillation positiver/negativer Gradientenausrichtung zwischen Kreuzentropie und Matrix-Based Entropy (MBE), einem Maß für die Repräsentationsentropie, belegt wird. Dieses Muster spiegelt eng den von IBLM vorgeschriebenen Vorhersage-Kompressions-Kompromiss wider und ähnelt auch der biologischen Abwechslung zwischen wachem Lernen und Schlafkonsolidierung. Motiviert durch diese Beobachtung schlagen wir Gated Phase Transition (GAPT) vor, einen Trainingsalgorithmus, der adaptiv zwischen Memorierungs- und Kompressionsphasen wechselt. Bei der Anwendung auf das GPT-2-Pretraining mit dem FineWeb-Datensatz reduziert GAPT die MBE um 50 % und verbessert die Kreuzentropie um 4,8 %. GAPT verbessert die OOD-Generalisierung um 35 % in einer Pretraining-Aufgabe zur arithmetischen Multiplikation. In einem Setting, das darauf ausgelegt ist, katastrophales Vergessen zu simulieren, reduziert GAPT die Interferenz durch Kompression und Trennung von Repräsentationen und erreicht eine Verbesserung der Trennung um 97 % – was der funktionalen Rolle der Schlafkonsolidierung entspricht.
Die Bewertung von menschlichen Fähigkeitsniveaus in komplexen Aktivitäten ist eine anspruchsvolle Aufgabe mit Anwendungen in den Bereichen Sport, Rehabilitation und Training. In dieser Arbeit stellen wir SkillFormer vor, eine parameter-effiziente Architektur für die einheitliche Schätzung von Fähigkeiten aus egozentrischen und exozentrischen Videos. Basierend auf dem TimeSformer-Backbone führt SkillFormer ein CrossViewFusion-Modul ein, das viewspezifische Merkmale durch Multi-Head Cross-Attention, lernbare Gating-Mechanismen und adaptive Selbstkalibrierung fusioniert. Wir nutzen Low-Rank Adaptation, um nur eine kleine Teilmenge der Parameter feinzutunen, was die Trainingskosten erheblich reduziert. Tatsächlich erreicht SkillFormer beim Test auf dem EgoExo4D-Datensatz state-of-the-art Genauigkeit in Multi-View-Szenarien und zeigt dabei bemerkenswerte Recheneffizienz, indem es 4,5x weniger Parameter verwendet und 3,75x weniger Trainings-Epochen benötigt als bisherige Baselines. Es überzeugt in mehreren strukturierten Aufgaben und bestätigt den Wert der Multi-View-Integration für die feinkörnige Fähigkeitsbewertung.
Große Sprachmodelle erreichen eine hohe Aufgabenleistung, halluzinieren jedoch oft oder verlassen sich auf veraltetes Wissen. Retrieval-augmented Generation (RAG) adressiert diese Lücken, indem sie die Generierung mit einer externen Suche kombiniert. Wir analysieren, wie Hyperparameter Geschwindigkeit und Qualität in RAG-Systemen beeinflussen, und behandeln dabei Chroma- und Faiss-Vektorspeicher, Chunking-Strategien, Cross-Encoder-Re-Ranking sowie die Temperatur. Wir bewerten sechs Metriken: Treue, Antwortkorrektheit, Antwortrelevanz, Kontextpräzision, Kontextrückruf und Antwortähnlichkeit. Chroma verarbeitet Anfragen 13 % schneller, während Faiss eine höhere Retrieval-Präzision liefert, was einen klaren Geschwindigkeits-Genauigkeits-Kompromiss offenbart. Naives Chunking mit fester Länge, kleinen Fenstern und minimaler Überlappung übertrifft die semantische Segmentierung und bleibt dabei die schnellste Option. Re-Ranking bietet moderate Verbesserungen in der Retrieval-Qualität, erhöht jedoch die Laufzeit um etwa den Faktor 5, sodass sein Nutzen von Latenzanforderungen abhängt. Diese Ergebnisse helfen Praktikern, Rechenkosten und Genauigkeit beim Feinabstimmen von RAG-Systemen für transparente und aktuelle Antworten auszubalancieren. Schließlich bewerten wir die besten Konfigurationen mit einem korrigierenden RAG-Workflow neu und zeigen, dass ihre Vorteile bestehen bleiben, wenn das Modell iterativ zusätzliche Beweise anfordern kann. Wir erreichen eine nahezu perfekte Kontextpräzision (99 %), was demonstriert, dass RAG-Systeme mit der richtigen Kombination von Hyperparametern eine extrem hohe Retrieval-Genauigkeit erreichen können. Dies hat erhebliche Auswirkungen auf Anwendungen, bei denen die Retrieval-Qualität die Leistung nachgelagerter Aufgaben direkt beeinflusst, wie beispielsweise die klinische Entscheidungsunterstützung im Gesundheitswesen.
Die Vorhersage der Nützlichkeit multimodaler Bewertungen (Multimodal Review Helpfulness Prediction, MRHP) ist eine wesentliche Aufgabe in Empfehlungssystemen, insbesondere auf E-Commerce-Plattformen. Die Bestimmung der Nützlichkeit von nutzergenerierten Bewertungen verbessert das Benutzererlebnis und erleichtert die Entscheidungsfindung der Verbraucher. Bisher konzentrieren sich vorhandene Datensätze jedoch hauptsächlich auf Englisch und Indonesisch, was zu einem Mangel an linguistischer Vielfalt führt, insbesondere für ressourcenarme Sprachen wie Vietnamesisch. In diesem Artikel stellen wir ViMRHP (Vietnamese Multimodal Review Helpfulness Prediction) vor, einen groß angelegten Benchmark-Datensatz für die MRHP-Aufgabe in Vietnamesisch. Dieser Datensatz umfasst vier Domänen mit 2.000 Produkten und 46.000 Bewertungen. Die Erstellung eines groß angelegten Datensatzes erfordert jedoch erheblichen Zeit- und Kostenaufwand. Um den Annotationsprozess zu optimieren, nutzen wir KI, um Annotatoren bei der Erstellung des ViMRHP-Datensatzes zu unterstützen. Mit KI-Unterstützung wird die Annotationszeit reduziert (von 90 bis 120 Sekunden pro Aufgabe auf 20 bis 40 Sekunden pro Aufgabe), während die Datenqualität erhalten bleibt und die Gesamtkosten um etwa 65 % gesenkt werden. Dennoch weisen KI-generierte Annotationen bei komplexen Annotationsaufgaben noch Einschränkungen auf, die wir durch eine detaillierte Leistungsanalyse weiter untersuchen. In unserem Experiment zu ViMRHP bewerten wir Baseline-Modelle anhand von menschlich verifizierten und KI-generierten Annotationen, um deren Qualitätsunterschiede zu beurteilen. Der ViMRHP-Datensatz ist öffentlich verfügbar unter https://github.com/trng28/ViMRHP.
Wir stellen WebApp1K vor, einen neuartigen Benchmark zur Bewertung großer Sprachmodelle (LLMs) in testgetriebenen Entwicklungsaufgaben (TDD), bei denen Testfälle sowohl als Prompt als auch zur Überprüfung der Codegenerierung dienen. Im Gegensatz zu traditionellen Ansätzen, die sich auf natürliche Sprachprompts verlassen, betont unser Benchmark die Fähigkeit von LLMs, Funktionalität direkt aus Testfällen zu interpretieren und zu implementieren, was realen Softwareentwicklungspraktiken entspricht. Der Benchmark umfasst 1000 vielfältige Herausforderungen aus 20 Anwendungsdomänen und bewertet LLMs hinsichtlich ihrer Fähigkeit, kompakten, funktionalen Code unter den Einschränkungen von Kontextlänge und Multi-Feature-Komplexität zu generieren. Unsere Ergebnisse zeigen, dass die Befolgung von Anweisungen und In-Context-Lernen entscheidende Fähigkeiten für den TDD-Erfolg sind, die die Bedeutung allgemeiner Programmierkenntnisse oder Vorwissen übertreffen. Durch eine umfassende Bewertung von 19 führenden Modellen decken wir Leistungsengpässe auf, wie etwa den Verlust von Anweisungen in langen Prompts, und bieten eine detaillierte Fehleranalyse, die mehrere Ursachen abdeckt. Diese Arbeit unterstreicht den praktischen Nutzen von TDD-spezifischen Benchmarks und legt die Grundlage für die Weiterentwicklung der Fähigkeiten von LLMs in rigorosen, anwendungsgetriebenen Codierungsszenarien.