papers.description
Wir stellen Matrix-Game vor, ein interaktives Weltgrundlagenmodell zur kontrollierbaren Generierung von Spielwelten. Matrix-Game wird in einem zweistufigen Pipeline-Verfahren trainiert, das zunĂ€chst ein groĂ angelegtes, unĂŒberwachtes Vortraining zur UmgebungsverstĂ€ndigung durchfĂŒhrt, gefolgt von einem aktionsbeschrifteten Training zur interaktiven Videogenerierung. Um dies zu unterstĂŒtzen, haben wir Matrix-Game-MC kuratiert, einen umfassenden Minecraft-Datensatz, der ĂŒber 2.700 Stunden unmarkierte Gameplay-Videoclips und mehr als 1.000 Stunden hochwertige, mit feingranularen Tastatur- und Mausaktionen annotierte Clips umfasst. Unser Modell folgt einem kontrollierbaren Bild-zu-Welt-Generierungsparadigma, das auf einem Referenzbild, einem Bewegungskontext und Benutzeraktionen basiert. Mit ĂŒber 17 Milliarden Parametern ermöglicht Matrix-Game eine prĂ€zise Steuerung von Charakteraktionen und Kamerabewegungen bei gleichbleibend hoher visueller QualitĂ€t und zeitlicher KohĂ€renz. Zur Leistungsbewertung entwickeln wir GameWorld Score, einen einheitlichen Benchmark, der visuelle QualitĂ€t, zeitliche QualitĂ€t, Aktionskontrollierbarkeit und das VerstĂ€ndnis physikalischer Regeln fĂŒr die Minecraft-Weltgenerierung misst. Umfangreiche Experimente zeigen, dass Matrix-Game durchweg alle bisherigen Open-Source-Minecraft-Weltmodelle (einschlieĂlich Oasis und MineWorld) in allen Metriken ĂŒbertrifft, mit besonders deutlichen Verbesserungen in der Kontrollierbarkeit und physikalischen Konsistenz. Doppelblind durchgefĂŒhrte menschliche Bewertungen bestĂ€tigen weiterhin die Ăberlegenheit von Matrix-Game und unterstreichen seine FĂ€higkeit, wahrnehmungsrealistische und prĂ€zise steuerbare Videos in diversen Spielszenarien zu generieren. Um zukĂŒnftige Forschungen zur interaktiven Bild-zu-Welt-Generierung zu erleichtern, werden wir die Matrix-Game-Modellgewichte und den GameWorld Score-Benchmark unter https://github.com/SkyworkAI/Matrix-Game open-source zur VerfĂŒgung stellen.
Die Fotoretusche ist zu einem integralen Bestandteil des zeitgenössischen visuellen Storytellings geworden und ermöglicht es Nutzern, Ăsthetik einzufangen und KreativitĂ€t auszudrĂŒcken. WĂ€hrend professionelle Werkzeuge wie Adobe Lightroom leistungsstarke Funktionen bieten, erfordern sie betrĂ€chtliche Expertise und manuellen Aufwand. Im Gegensatz dazu bieten bestehende KI-basierte Lösungen zwar Automatisierung, leiden jedoch oft unter begrenzter AnpassungsfĂ€higkeit und schlechter Generalisierung, wodurch sie vielfĂ€ltige und personalisierte BearbeitungsbedĂŒrfnisse nicht erfĂŒllen können. Um diese LĂŒcke zu schlieĂen, stellen wir JarvisArt vor, einen multi-modalen Large Language Model (MLLM)-gesteuerten Agenten, der die Absichten der Nutzer versteht, den Denkprozess professioneller KĂŒnstler nachahmt und intelligent ĂŒber 200 Retusche-Werkzeuge innerhalb von Lightroom koordiniert. JarvisArt durchlĂ€uft einen zweistufigen Trainingsprozess: eine anfĂ€ngliche Chain-of-Thought-supervised Feinabstimmung, um grundlegende Denk- und Werkzeugnutzungskompetenzen zu etablieren, gefolgt von Group Relative Policy Optimization for Retouching (GRPO-R), um seine Entscheidungsfindung und Werkzeugbeherrschung weiter zu verbessern. Wir schlagen auĂerdem das Agent-to-Lightroom-Protokoll vor, um eine nahtlose Integration mit Lightroom zu ermöglichen. Zur Bewertung der Leistung entwickeln wir MMArt-Bench, einen neuartigen Benchmark, der auf realen Nutzerbearbeitungen basiert. JarvisArt zeigt benutzerfreundliche Interaktion, ĂŒberlegene Generalisierung und fein abgestimmte Kontrolle ĂŒber sowohl globale als auch lokale Anpassungen und ebnet so einen neuen Weg fĂŒr intelligente Fotoretusche. Bemerkenswerterweise ĂŒbertrifft es GPT-4o mit einer 60%igen Verbesserung der durchschnittlichen Pixel-Level-Metriken auf MMArt-Bench in Bezug auf Inhaltsgenauigkeit, bei gleichzeitig vergleichbaren FĂ€higkeiten zur Befolgung von Anweisungen. Projektseite: https://jarvisart.vercel.app/.
Wir prĂ€sentieren AnimaX, ein vorwĂ€rtsgerichtetes 3D-Animationsframework, das die BewegungsprĂ€ferenzen von Video-Diffusionsmodellen mit der kontrollierbaren Struktur von skelettbasierter Animation verbindet. Traditionelle Methoden zur Bewegungssynthese sind entweder auf feste Skeletttopologien beschrĂ€nkt oder erfordern kostspielige Optimierungen in hochdimensionalen VerformungsrĂ€umen. Im Gegensatz dazu ĂŒbertrĂ€gt AnimaX effektiv videobasiertes Bewegungswissen in den 3D-Bereich und unterstĂŒtzt diverse artikulierte Meshes mit beliebigen Skeletten. Unsere Methode reprĂ€sentiert 3D-Bewegungen als Multi-View-, Multi-Frame-2D-Pose-Maps und ermöglicht eine gemeinsame Video-Pose-Diffusion, die auf Template-Renderings und einem textuellen Bewegungs-Prompt basiert. Wir fĂŒhren gemeinsame Positionskodierungen und modalitĂ€tsbewusste Einbettungen ein, um die rĂ€umlich-zeitliche Ausrichtung zwischen Video- und Pose-Sequenzen sicherzustellen und so Video-PrioritĂ€ten effektiv auf die Bewegungsgenerationsaufgabe zu ĂŒbertragen. Die resultierenden Multi-View-Pose-Sequenzen werden in 3D-Gelenkpositionen trianguliert und ĂŒber inverse Kinematik in Mesh-Animationen umgewandelt. AnimaX, das auf einem neu kuratierten Datensatz von 160.000 rigged Sequenzen trainiert wurde, erzielt state-of-the-art Ergebnisse auf VBench in Bezug auf Generalisierung, BewegungsfidelitĂ€t und Effizienz und bietet eine skalierbare Lösung fĂŒr kategorieagnostische 3D-Animation. Projektseite: https://anima-x.github.io/{https://anima-x.github.io/}.
Die Softwareentwicklung (SWE) hat sich kĂŒrzlich als entscheidendes Testfeld fĂŒr die nĂ€chste Generation von LLM-Agenten (Large Language Models) erwiesen, die inhĂ€rente FĂ€higkeiten in zwei kritischen Dimensionen erfordern: nachhaltiges iteratives Problemlösen (z.B. >50 Interaktionsrunden) und die BewĂ€ltigung von langen KontextabhĂ€ngigkeiten (z.B. >32k Tokens). Der Datenkuratierungsprozess in der SWE bleibt jedoch notorisch zeitaufwendig, da er stark auf manuelle Annotationen zur Filterung von Code-Dateien und die Einrichtung dedizierter Laufzeitumgebungen zur AusfĂŒhrung und Validierung von Unit-Tests angewiesen ist. Folglich sind die meisten bestehenden DatensĂ€tze auf nur wenige tausend Instanzen aus GitHub beschrĂ€nkt. Um dies zu adressieren, schlagen wir eine inkrementelle, automatisierte Datenkuratierungs-Pipeline vor, die sowohl das Volumen als auch die Vielfalt von SWE-DatensĂ€tzen systematisch skaliert. Unser Datensatz umfasst 10.169 reale Python-Aufgabeninstanzen aus 2.531 verschiedenen GitHub-Repositories, jeweils ergĂ€nzt durch eine in natĂŒrlicher Sprache spezifizierte Aufgabe und ein dediziertes Laufzeitumgebungs-Image zur automatisierten Unit-Test-Validierung. Wir haben sorgfĂ€ltig ĂŒber 8.000 erfolgreich validierte TrainingsverlĂ€ufe aus unserem vorgeschlagenen SWE-Datensatz kuratiert. Bei der Feinabstimmung des Skywork-SWE-Modells auf diesen VerlĂ€ufen entdecken wir ein bemerkenswertes Daten-SkalierungsphĂ€nomen: Die Leistung des trainierten Modells fĂŒr SoftwareentwicklungsfĂ€higkeiten in LLMs verbessert sich kontinuierlich mit zunehmender DatengröĂe, ohne Anzeichen von SĂ€ttigung zu zeigen. Insbesondere erreicht unser Skywork-SWE-Modell eine Genauigkeit von 38,0 % pass@1 auf dem SWE-bench Verified Benchmark, ohne Verifizierer oder mehrere Rollouts zu verwenden, und setzt damit einen neuen State-of-the-Art (SOTA) unter den auf dem OpenHands-Agenten-Framework basierenden Qwen2.5-Coder-32B-LLMs. DarĂŒber hinaus verbessert sich die Leistung durch die Einbindung von Testzeit-Skalierungstechniken auf 47,0 % Genauigkeit, was die bisherigen SOTA-Ergebnisse fĂŒr Modelle mit weniger als 32B Parametern ĂŒbertrifft. Wir veröffentlichen den Skywork-SWE-32B-Modell-Checkpoint, um zukĂŒnftige Forschung zu beschleunigen.
Wir schlagen Chain-of-Experts (CoE) vor, eine neue Mixture-of-Experts (MoE)-Architektur, die eine sequenzielle Kommunikation zwischen Experten innerhalb jeder Schicht einfĂŒhrt. Im Gegensatz zu traditionellen MoE-Modellen, bei denen Experten unabhĂ€ngig und parallel arbeiten, verarbeitet CoE Token iterativ ĂŒber eine Kette von Experten innerhalb einer Schicht. Um die dynamische Expertenauswahl ĂŒber Iterationen hinweg zu unterstĂŒtzen, verwendet CoE einen dedizierten Router bei jedem Iterationsschritt innerhalb einer Schicht. Dieses Design ermöglicht es Token, bei jeder Iteration erneut zu bewerten und verschiedene Experten auszuwĂ€hlen, anstatt statisch zugewiesen zu werden. Dadurch fĂŒhrt CoE einen flexiblen Routing-Mechanismus ein, der die Vielfalt der Expertenkombinationen erhöht und die ReprĂ€sentationsfĂ€higkeit des Modells bereichert. CoE zeigt eine verbesserte Leistung bei festgelegter Rechenleistung: Bei mathematischen Denkaufgaben reduziert es den Validierungsverlust von 1,20 auf 1,12 im Vergleich zu einem Standard-MoE. Ăber die Leistung hinaus bietet CoE eine neue Skalierungsachse: Tiefe durch Experteniteration, die die konventionelle Skalierung in Breite/Tiefe ergĂ€nzt. Beispielsweise erreicht die Verwendung von 2x Iterationen die Leistung von 3x Expertenauswahlen (in der Breite), wĂ€hrend der Speicherverbrauch im Vergleich zu anderen Skalierungsstrategien um 17,6â42 % reduziert wird. Unsere Analyse zeigt, dass die Vorteile von CoE aus seiner iterativen Residualstruktur und der verbesserten Experten-Spezialisierung resultieren, die durch iteratives Routing ermöglicht wird, wodurch ausdrucksstĂ€rkere ReprĂ€sentationen freigesetzt werden. Der Code ist verfĂŒgbar unter https://github.com/ZihanWang314/coe.
Vision-Language-Action-Modelle (VLAs) haben aufgrund ihres Potenzials zur Weiterentwicklung der robotischen Manipulation erhebliche Aufmerksamkeit erregt. Bisherige AnsĂ€tze stĂŒtzen sich jedoch ĂŒberwiegend auf die allgemeinen VerstĂ€ndnisfĂ€higkeiten von Vision-Language-Modellen (VLMs), um Aktionssignale zu generieren, wobei hĂ€ufig die reichhaltige zeitliche und kausale Struktur, die in visuellen Beobachtungen enthalten ist, ĂŒbersehen wird. In diesem Artikel stellen wir UniVLA vor, ein einheitliches und natives multimodales VLA-Modell, das visuelle, sprachliche und aktionsbezogene Signale autoregressiv als diskrete Token-Sequenzen modelliert. Diese Formulierung ermöglicht flexibles Lernen multimodaler Aufgaben, insbesondere aus groĂ angelegten Videodaten. Durch die Einbindung von Weltmodellierung wĂ€hrend des Post-Trainings erfasst UniVLA kausale Dynamiken aus Videos, was einen effektiven Transfer auf nachgelagerte Policy-Lernaufgaben erleichtert â insbesondere fĂŒr langfristige Aufgaben. Unser Ansatz erzielt neue State-of-the-Art-Ergebnisse in mehreren weit verbreiteten Simulationsbenchmarks, darunter CALVIN, LIBERO und Simplenv-Bridge, und ĂŒbertrifft dabei bisherige Methoden deutlich. Beispielsweise erreicht UniVLA eine durchschnittliche Erfolgsrate von 95,5 % im LIBERO-Benchmark und ĂŒbertrifft damit pi0-FAST mit 85,5 %. DarĂŒber hinaus demonstrieren wir seine breite Anwendbarkeit in der realen Welt, sowohl bei der ALOHA-Manipulation als auch beim autonomen Fahren.
Aktuelle AnsĂ€tze im Bereich des bestĂ€rkenden Lernens, wie das ergebnisĂŒberwachte GRPO, haben das Chain-of-Thought-Reasoning in groĂen Sprachmodellen (LLMs) vorangetrieben, doch ihre Anpassung an multimodale LLMs (MLLMs) ist bisher unerforscht. Um den Mangel an rigoroser Bewertung von Nachschulungsmethoden fĂŒr MLLMs zu beheben, fĂŒhren wir SEED-Bench-R1 ein, einen Benchmark mit komplexen realen Videos, die ein ausgewogenes VerstĂ€ndnis von Wahrnehmung und Schlussfolgerung erfordern. Er bietet einen umfangreichen Trainingsdatensatz und bewertet die GeneralisierungsfĂ€higkeit ĂŒber drei zunehmend anspruchsvolle Herausforderungen: In-Distribution, Cross-Environment und Cross-Environment-Task-Szenarien. Mit SEED-Bench-R1 stellen wir fest, dass das Standard-GRPO zwar die Antwortgenauigkeit verbessert, jedoch hĂ€ufig die logische KohĂ€renz zwischen den Denkschritten und den Antworten verringert, mit einer Konsistenzrate von nur 57,9 %. Dies resultiert aus Belohnungssignalen, die sich ausschlieĂlich auf die Endantworten konzentrieren, was AbkĂŒrzungen fördert, sowie aus strengen KL-Strafen, die die Exploration einschrĂ€nken. Um dies zu beheben, schlagen wir GRPO-CARE vor, ein konsistenzbewusstes RL-Framework, das sowohl die Antwortkorrektheit als auch die SchlussfolgerungskohĂ€renz ohne explizite Ăberwachung optimiert. GRPO-CARE fĂŒhrt eine zweistufige Belohnung ein: (1) eine Grundbelohnung fĂŒr die Antwortkorrektheit und (2) einen adaptiven Konsistenzbonus, der durch den Vergleich der Wahrscheinlichkeit der Schlussfolgerung zur Antwort des Modells (ĂŒber ein langsam evolvierendes Referenzmodell) mit den Gruppenkollegen berechnet wird. Dieser duale Mechanismus verstĂ€rkt die Belohnungen fĂŒr Denkpfade, die sowohl korrekt als auch logisch konsistent sind. Indem KL-Strafen durch diesen adaptiven Bonus ersetzt werden, ĂŒbertrifft GRPO-CARE das Standard-GRPO auf SEED-Bench-R1 und erzielt eine Leistungssteigerung von 6,7 % auf der schwierigsten Bewertungsstufe und eine Verbesserung der Konsistenz um 24,5 %. Es zeigt auch eine starke Ăbertragbarkeit und verbessert die Modellleistung ĂŒber verschiedene Benchmarks zur VideoverstĂ€ndnis hinweg. Unsere Arbeit leistet einen systematisch gestalteten Benchmark und ein generalisierbares Nachschulungsframework, das die Entwicklung interpretierbarer und robusterer MLLMs vorantreibt.
Dieses Papier stellt ScaleCap vor, eine skalierbare Strategie zur Bildbeschreibung zur Inferenzzeit, die umfassende und detaillierte Bildbeschreibungen generiert. Die zentralen Herausforderungen bei hochwertiger Bildbeschreibung liegen in den inhĂ€renten Verzerrungen von LVLMs (Large Vision-Language Models): multimodale Verzerrungen, die zu einer unausgewogenen BeschreibungsgranularitĂ€t fĂŒhren, indem sie einige Elemente detailliert darstellen, wĂ€hrend andere nur oberflĂ€chlich behandelt werden; linguistische Verzerrungen, die zu halluzinierten Beschreibungen nicht existierender Objekte fĂŒhren. Um diese Probleme zu adressieren, schlagen wir eine skalierbare, entzerrte Beschreibungsstrategie vor, die die Bildbeschreibung kontinuierlich mit zunehmendem Inferenzbudget anreichert und kalibriert. Konkret schlagen wir zwei neuartige Komponenten vor: heuristisches Frage-Antworten und kontrastive Satzbewertung. Erstere generiert inhaltsbezogene Fragen basierend auf dem Bild und beantwortet diese, um schrittweise relevante Informationen in die Beschreibung einzufĂŒgen. Letztere verwendet satzbasierte, offline kontrastive Dekodierung, um effektiv Halluzinationen, die durch linguistische Verzerrungen verursacht werden, zu identifizieren und zu eliminieren. Mit steigenden Inferenzkosten stellt ScaleCap mehr heuristische Fragen, um zusĂ€tzliche visuelle Details schrittweise zu erfassen und so Beschreibungen zu generieren, die genauer, ausgewogener und informativer sind. Umfangreiche Experimente zur ModalitĂ€tsausrichtung demonstrieren die Wirksamkeit von ScaleCap. Die Annotation von 450.000 Bildern mit ScaleCap und deren Verwendung fĂŒr das Pretraining von LVLMs fĂŒhrt zu konsistenten Leistungssteigerungen ĂŒber 11 weit verbreitete Benchmarks hinweg. DarĂŒber hinaus zeigt ScaleCap eine hervorragende Reichhaltigkeit und Treue der generierten Beschreibungen in zwei zusĂ€tzlichen Aufgaben: dem Ersetzen von Bildern durch Beschreibungen in VQA-Aufgaben (Visual Question Answering) und der Rekonstruktion von Bildern aus Beschreibungen zur Bewertung der semantischen Abdeckung. Der Code ist verfĂŒgbar unter https://github.com/Cooperx521/ScaleCap.
Die Lösung komplexer SQL-Probleme bleibt ein erheblicher Engpass in realen Datenbankanwendungen. Aktuelle Large Language Models (LLMs), obwohl geschickt in der Text-zu-SQL-Ăbersetzung, wurden nicht rigoros auf die anspruchsvollere Aufgabe des Debuggens von SQL-Problemen evaluiert. Um diese LĂŒcke zu schlieĂen, fĂŒhren wir BIRD-CRITIC ein, einen neuen Benchmark fĂŒr das Debuggen von SQL-Problemen, der 530 PostgreSQL-Aufgaben (BIRD-CRITIC-PG) und 570 Multi-Dialekt-Aufgaben (BIRD-CRITIC-Multi) umfasst, die aus authentischen Benutzerproblemen destilliert und in neuen Umgebungen wiedergegeben wurden, um eine strenge Evaluation zu ermöglichen. Baseline-Evaluationen unterstreichen die KomplexitĂ€t der Aufgabe, wobei das fĂŒhrende Reasoning-Modell O3-Mini nur eine Erfolgsrate von 38,87 % auf BIRD-CRITIC-PG und 33,33 % auf BIRD-CRITIC-Multi erreicht. Gleichzeitig ist die Weiterentwicklung von Open-Source-Modellen fĂŒr Datenbankaufgaben entscheidend, um die lokale Entwicklung zu stĂ€rken und gleichzeitig die Datensicherheit zu gewĂ€hrleisten. Daher prĂ€sentieren wir Six-Gym (Sql-fIX-Gym), eine Trainingsumgebung zur Verbesserung der FĂ€higkeiten von Open-Source-Modellen beim Debuggen von SQL-Problemen. Diese Umgebung nutzt die SQL-Rewind-Strategie, die automatisch ausfĂŒhrbare Problem-Lösungs-DatensĂ€tze durch Reverse-Engineering von Problemen aus verifizierten SQLs generiert. Beliebte, auf Trajektorien basierende Feinabstimmungsmethoden erforschen jedoch keine wesentlichen Ăberwachungssignale. Wir schlagen weiterhin f-Plan Boosting vor, das hochrangige Debugging-PlĂ€ne aus SQL-Lösungen extrahiert und es Lehrer-LLMs ermöglicht, 73,7 % mehr erfolgreiche Trajektorien fĂŒr das Training zu erzeugen. Wir integrieren diese Komponenten in einen Open-Source-Agenten, Bird-Fixer. Basierend auf Qwen-2.5-Coder-14B erreicht Bird-Fixer eine Erfolgsrate von 38,11 % auf BIRD-CRITIC-PG und 29,65 % auf BIRD-CRITIC-Multi und ĂŒbertrifft damit fĂŒhrende proprietĂ€re Modelle wie Claude-3.7-Sonnet und GPT-4.1, was einen bedeutenden Schritt zur Demokratisierung anspruchsvoller SQL-Debugging-FĂ€higkeiten darstellt. Die Bestenliste und der Quellcode sind verfĂŒgbar: https://bird-critic.github.io/
Die robuste Bereitstellung groĂer multimodaler Modelle (LMMs) in realen Anwendungsszenarien erfordert den Zugriff auf externe Wissensquellen, angesichts der KomplexitĂ€t und Dynamik realweltlicher Informationen. Bestehende AnsĂ€tze wie retrieval-augmented generation (RAG) und prompt-gesteuerte Suchagenten basieren auf starren Pipelines, was hĂ€ufig zu ineffizientem oder ĂŒbermĂ€Ăigem Suchverhalten fĂŒhrt. Wir prĂ€sentieren MMSearch-R1, das erste End-to-End-Reinforcement-Learning-Framework, das LMMs ermöglicht, bedarfsgerechte, mehrstufige Suchen in realen Internetumgebungen durchzufĂŒhren. Unser Framework integriert sowohl Bild- als auch Textsuchwerkzeuge und ermöglicht es dem Modell, zu entscheiden, wann und wie diese aufgerufen werden sollen, geleitet durch eine ergebnisbasierte Belohnung mit einer Suchstrafe. Zur UnterstĂŒtzung des Trainings sammeln wir einen multimodalen Such-VQA-Datensatz durch eine halbautomatisierte Pipeline, die diverse visuelle und textuelle Wissensanforderungen abdeckt, und kuratieren eine suchausgewogene Teilmenge mit sowohl suchpflichtigen als auch suchfreien Beispielen, die sich als entscheidend fĂŒr die Formung effizienten und bedarfsgerechten Suchverhaltens erweist. Umfangreiche Experimente zu wissensintensiven und informationssuchenden VQA-Aufgaben zeigen, dass unser Modell nicht nur RAG-basierte Baselines gleicher ModellgröĂe ĂŒbertrifft, sondern auch die Leistung eines gröĂeren RAG-basierten Modells erreicht, wĂ€hrend die Suchaufrufe um ĂŒber 30 % reduziert werden. Wir analysieren weiterhin zentrale empirische Erkenntnisse, um umsetzbare Einblicke fĂŒr die Weiterentwicklung der Forschung im Bereich der multimodalen Suche zu bieten.
Menschliche Annotationsvariation (d. h. Annotationen, bei denen keine Einigkeit besteht) ist in der NLP (Natural Language Processing) weit verbreitet und spiegelt oft wichtige Informationen wider, wie z. B. die SubjektivitĂ€t der Aufgabe und die Mehrdeutigkeit der Beispiele. WĂ€hrend Large Language Models (LLMs) zunehmend fĂŒr die automatische Annotation eingesetzt werden, um den menschlichen Aufwand zu reduzieren, konzentriert sich ihre Bewertung hĂ€ufig auf die Vorhersage der mehrheitlich abgestimmten âGround-Truthâ-Labels. Es ist jedoch noch unklar, ob diese Modelle auch informative menschliche Annotationsvariationen erfassen können. Unsere Arbeit schlieĂt diese LĂŒcke, indem wir die FĂ€higkeit von LLMs, Annotationen ohne Zugriff auf wiederholte menschliche Labels vorherzusagen, umfassend evaluieren. Unsere Ergebnisse zeigen, dass LLMs Schwierigkeiten haben, Uneinigkeiten zu modellieren, was bei Bewertungen, die auf Mehrheitslabels basieren, ĂŒbersehen werden kann. Bemerkenswerterweise fĂŒhrt RLVR-Ă€hnliches (Reinforcement Learning with Verifiable Rewards) Denken zwar allgemein zu einer Leistungssteigerung von LLMs, verschlechtert jedoch die Vorhersage von Uneinigkeiten. Unsere Ergebnisse unterstreichen die dringende Notwendigkeit, LLM-Annotatoren in der Modellierung von Uneinigkeiten zu evaluieren und zu verbessern. Code und Daten sind unter https://github.com/EdisonNi-hku/Disagreement_Prediction verfĂŒgbar.
GroĂe Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte bei Denkaufgaben erzielt, doch die optimale Integration von Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) bleibt eine grundlegende Herausforderung. Durch eine umfassende Analyse von Token-Verteilungen, Lern-Dynamiken und Integrationsmechanismen aus entropiebasierten Perspektiven zeigen wir wesentliche Unterschiede zwischen diesen Paradigmen auf: SFT induziert grobkörnige globale VerĂ€nderungen in den Policy-Verteilungen der LLMs, wĂ€hrend RL feinkörnige selektive Optimierungen durchfĂŒhrt, wobei die Entropie als kritischer Indikator fĂŒr die Trainingswirksamkeit dient. Aufbauend auf diesen Beobachtungen schlagen wir Supervised Reinforcement Fine-Tuning (SRFT) vor, eine einstufige Methode, die beide Feinabstimmungs-Paradigmen durch entropiebewusste Gewichtungsmechanismen vereint. Unser Ansatz wendet SFT und RL gleichzeitig an, um das LLM direkt durch Demonstrationen und Selbstexplorations-Rollouts zu optimieren, anstatt auf zweistufige sequenzielle Methoden zurĂŒckzugreifen. Umfangreiche Experimente zeigen, dass SRFT eine durchschnittliche Genauigkeit von 59,1 % erreicht und Zero-RL-Methoden um 9,0 % auf fĂŒnf mathematischen Denk-Benchmarks und um 10,9 % auf drei Out-of-Distribution-Benchmarks ĂŒbertrifft.
Classifier-free guidance (CFG) hat sich zu einem wesentlichen Bestandteil moderner bedingter Diffusionsmodelle entwickelt. Obwohl in der Praxis Ă€uĂerst effektiv, sind die zugrunde liegenden Mechanismen, durch die CFG die QualitĂ€t, Detailtreue und Prompt-Ausrichtung verbessert, noch nicht vollstĂ€ndig verstanden. Wir prĂ€sentieren eine neuartige Perspektive auf CFG, indem wir seine Auswirkungen im Frequenzbereich analysieren und zeigen, dass niedrige und hohe Frequenzen unterschiedliche Auswirkungen auf die GenerierungsqualitĂ€t haben. Insbesondere steuert die niederfrequente FĂŒhrung die globale Struktur und die Bedingungsausrichtung, wĂ€hrend die hochfrequente FĂŒhrung hauptsĂ€chlich die visuelle Detailtreue verbessert. Die Anwendung einer einheitlichen Skalierung ĂŒber alle Frequenzen hinweg â wie es im Standard-CFG der Fall ist â fĂŒhrt jedoch bei hohen Skalen zu ĂbersĂ€ttigung und reduzierter DiversitĂ€t sowie bei niedrigen Skalen zu einer Verschlechterung der visuellen QualitĂ€t. Basierend auf diesen Erkenntnissen schlagen wir die frequenzentkoppelte FĂŒhrung (Frequency-Decoupled Guidance, FDG) vor, einen effektiven Ansatz, der CFG in nieder- und hochfrequente Komponenten zerlegt und separate FĂŒhrungsstĂ€rken auf jede Komponente anwendet. FDG verbessert die BildqualitĂ€t bei niedrigen FĂŒhrungsskalen und vermeidet durch seine Konzeption die Nachteile hoher CFG-Skalen. Durch umfangreiche Experimente ĂŒber mehrere DatensĂ€tze und Modelle hinweg zeigen wir, dass FDG die ProbenqualitĂ€t konsistent steigert, wĂ€hrend die DiversitĂ€t erhalten bleibt, was im Vergleich zu CFG zu verbesserten FID- und Recall-Werten fĂŒhrt. Damit etablieren wir unsere Methode als eine Plug-and-Play-Alternative zur standardmĂ€Ăigen classifier-free guidance.
Latent-Diffusionsmodelle haben sich als fĂŒhrendes Paradigma fĂŒr die effiziente Videogenerierung etabliert. Da sich die Nutzererwartungen jedoch zunehmend auf höher aufgelöste Ausgaben verlagern, reicht die alleinige AbhĂ€ngigkeit von latenter Berechnung nicht mehr aus. Ein vielversprechender Ansatz besteht darin, den Prozess in zwei Stufen zu entkoppeln: die Generierung semantischer Inhalte und die Synthese von Details. Erstere verwendet ein rechenintensives Basismodell bei niedrigeren Auflösungen, wĂ€hrend letztere ein leichtgewichtiges kaskadiertes Video-Super-Resolution (VSR)-Modell nutzt, um eine hochauflösende Ausgabe zu erzielen. In dieser Arbeit konzentrieren wir uns auf die Untersuchung zentraler Designprinzipien fĂŒr kaskadierte VSR-Modelle, die derzeit noch unzureichend erforscht sind. ZunĂ€chst schlagen wir zwei Degradationsstrategien vor, um Trainingspaare zu generieren, die die Ausgabeeigenschaften des Basismodells besser nachahmen und so die Abstimmung zwischen dem VSR-Modell und seinem vorgelagerten Generator sicherstellen. Zweitens liefern wir wichtige Erkenntnisse zum Verhalten von VSR-Modellen durch systematische Analysen von (1) Zeitschritt-Sampling-Strategien und (2) den Auswirkungen von Rauschaugmentationen auf niedrig aufgelöste (LR) Eingaben. Diese Erkenntnisse leiten direkt unsere architektonischen und Trainingsinnovationen. SchlieĂlich fĂŒhren wir verschachtelte temporale Einheiten und sparsame lokale Aufmerksamkeit ein, um effizientes Training und Inferenz zu ermöglichen und den Rechenaufwand erheblich zu reduzieren. Umfangreiche Experimente demonstrieren die Ăberlegenheit unseres Frameworks gegenĂŒber bestehenden Methoden, wobei Ablationsstudien die Wirksamkeit jedes Designentscheids bestĂ€tigen. Unsere Arbeit etabliert eine einfache, aber effektive Baseline fĂŒr die kaskadierte Video-Super-Resolution-Generierung und bietet praktische Einblicke, um zukĂŒnftige Fortschritte in effizienten kaskadierten Synthesesystemen zu leiten.
Reasoning-Modelle zeichnen sich dadurch aus, dass sie lange Ketten von GedankengĂ€ngen erzeugen, aber die Dekodierung der daraus resultierenden Tausenden von Tokens ist langsam. Token-level spekulative Dekodierung (SD) hilft dabei, aber ihr Nutzen ist begrenzt, da die Wahrscheinlichkeit, dass ein gesamter Gamma-Token-Rateversuch korrekt ist, exponentiell abnimmt, wenn Gamma wĂ€chst. Dies bedeutet, dass die Zuweisung von mehr Rechenleistung fĂŒr lĂ€ngere Token-EntwĂŒrfe auf eine algorithmische Obergrenze stöĂt â was die Beschleunigung bescheiden und hardwareunabhĂ€ngig macht. Wir heben diese Grenze mit Lookahead Reasoning an, das eine zweite, schrittweise Ebene von ParallelitĂ€t nutzt. Unsere zentrale Erkenntnis ist, dass Reasoning-Modelle schrittweise arbeiten und jeder Schritt nur semantisch korrekt sein muss, nicht exakt tokenĂŒbereinstimmend. Bei Lookahead Reasoning schlĂ€gt ein leichtgewichtiges Entwurfsmodell mehrere zukĂŒnftige Schritte vor; das Zielmodell erweitert jeden Vorschlag in einem gebĂŒndelten Durchlauf, und ein Verifizierer behĂ€lt semantisch korrekte Schritte bei, wĂ€hrend das Zielmodell alle fehlgeschlagenen Schritte neu generiert. Token-level SD arbeitet weiterhin innerhalb jedes Reasoning-Schritts, sodass sich die beiden Ebenen der ParallelitĂ€t multiplizieren. Wir zeigen, dass Lookahead Reasoning den maximalen Beschleunigungsfaktor von SD sowohl theoretisch als auch empirisch erhöht. Ăber GSM8K, AIME und andere Benchmarks hinweg verbessert Lookahead Reasoning die Beschleunigung von SD von 1,4x auf 2,1x, wĂ€hrend die AntwortqualitĂ€t erhalten bleibt, und seine Beschleunigung skaliert besser mit zusĂ€tzlicher GPU-Durchsatzleistung. Unser Code ist verfĂŒgbar unter https://github.com/hao-ai-lab/LookaheadReasoning.
Self-supervised Learning (SSL) hat die Art und Weise, wie Audio-ReprĂ€sentationen erlernt werden, revolutioniert, doch bleiben Modelle oft domĂ€nenspezifisch und konzentrieren sich entweder auf Sprach- oder Nicht-Sprach-Aufgaben. In dieser Arbeit prĂ€sentieren wir Universal Speech and Audio Distillation (USAD), einen einheitlichen Ansatz fĂŒr das Erlernen von Audio-ReprĂ€sentationen, der verschiedene Audio-Typen â Sprache, KlĂ€nge und Musik â in einem einzigen Modell integriert. USAD nutzt effiziente Layer-to-Layer-Distillation von domĂ€nenspezifischen SSL-Modellen, um ein Studentenmodell auf einem umfassenden Audio-Datensatz zu trainieren. USAD bietet wettbewerbsfĂ€hige Leistung ĂŒber verschiedene Benchmarks und DatensĂ€tze hinweg, einschlieĂlich Frame- und Instanz-Level-Sprachverarbeitungsaufgaben, Audio-Tagging und Klassifikation von KlĂ€ngen, und erzielt nahezu state-of-the-art Ergebnisse mit einem einzigen Encoder auf den SUPERB- und HEAR-Benchmarks.
Code-Switching (CSW) bezeichnet den Wechsel zwischen zwei oder mehr Sprachen innerhalb eines einzelnen Diskurses. Dieses PhĂ€nomen ist in multilingualen Gemeinschaften weit verbreitet und zunehmend in Online-Inhalten prĂ€sent, wo Nutzer im Alltag natĂŒrlicherweise Sprachen vermischen. Infolgedessen sind Large Language Models (LLMs), die mittlerweile zentral fĂŒr die Verarbeitung und Generierung von Inhalten sind, hĂ€ufig mit code-switched Eingaben konfrontiert. Angesichts ihrer weitreichenden Nutzung ist es entscheidend zu verstehen, wie LLMs derart gemischtsprachige Texte verarbeiten und interpretieren. Diese Arbeit prĂ€sentiert eine systematische Evaluierung des VerstĂ€ndnisses von LLMs unter Code-Switching, indem CSW-Varianten etablierter VerstĂ€ndnis- und Schlussfolgerungs-Benchmarks generiert werden. WĂ€hrend eine Verschlechterung offensichtlich ist, wenn fremde Token englische Texte unterbrechen â selbst unter linguistischen EinschrĂ€nkungen â, fĂŒhrt die Einbettung von Englisch in andere Sprachen oft zu einem verbesserten VerstĂ€ndnis. Obwohl Prompting gemischte Ergebnisse liefert, bietet Fine-Tuning einen stabileren Weg zur Minderung von Verschlechterungen.
Orthogonales Finetuning (OFT) bietet eine hochgradig parameter-effiziente Anpassung, wĂ€hrend es katastrophales Vergessen verhindert, doch sein hoher Laufzeit- und Speicherbedarf schrĂ€nkt den praktischen Einsatz ein. Wir identifizieren den zentralen Rechenengpass in OFT als seine gewichts-zentrierte Implementierung, die auf kostspieligen Matrix-Matrix-Multiplikationen mit kubischer KomplexitĂ€t beruht. Um dies zu ĂŒberwinden, schlagen wir OFTv2 vor, eine input-zentrierte Neuformulierung, die stattdessen Matrix-Vektor-Multiplikationen (d.h. matrixfreie Berechnung) verwendet und so die Rechenkosten auf quadratische KomplexitĂ€t reduziert. Weiterhin fĂŒhren wir die Cayley-Neumann-Parametrisierung ein, eine effiziente orthogonale Parametrisierung, die die Matrixinversion in der Cayley-Transformation durch eine abgeschnittene Neumann-Reihe approximiert. Diese Modifikationen ermöglichen es OFTv2, bis zu 10x schnellere Trainingszeiten und 3x geringeren GPU-Speicherverbrauch zu erreichen, ohne die Leistung zu beeintrĂ€chtigen. ZusĂ€tzlich erweitern wir OFTv2, um das Finetuning quantisierter Basismodelle zu unterstĂŒtzen, und zeigen, dass es das beliebte QLoRA in Bezug auf TrainingsstabilitĂ€t, Effizienz und Speicherverbrauch ĂŒbertrifft.
GroĂe Sprachmodelle (LLMs) bergen Potenzial in der Automatisierung von Datenanalysen, doch Open-Source-Modelle stoĂen in solchen Denk-intensiven Szenarien auf erhebliche EinschrĂ€nkungen. In dieser Arbeit untersuchen wir Strategien, um die DatenanalysefĂ€higkeiten von Open-Source-LLMs zu verbessern. Durch die Zusammenstellung eines Ausgangsdatensatzes mit vielfĂ€ltigen, realistischen Szenarien bewerten wir Modelle in drei Dimensionen: DatenverstĂ€ndnis, Codegenerierung und strategische Planung. Unsere Analyse zeigt drei zentrale Erkenntnisse: (1) Die QualitĂ€t der strategischen Planung ist der primĂ€re Leistungsindikator fĂŒr Modelle; (2) Interaktionsdesign und AufgabenkomplexitĂ€t beeinflussen die DenkfĂ€higkeiten maĂgeblich; (3) DatenqualitĂ€t hat einen gröĂeren Einfluss auf die Leistung als DiversitĂ€t. Wir nutzen diese Erkenntnisse, um eine Methode zur Datensynthese zu entwickeln, die signifikante Verbesserungen in den analytischen DenkfĂ€higkeiten von Open-Source-LLMs demonstriert.
Die Erzeugung hochdimensionaler visueller ModalitĂ€ten ist eine rechenintensive Aufgabe. Eine gĂ€ngige Lösung ist die progressive Generierung, bei der die Ausgaben in einer grob-zu-fein spektralen autoregressiven Weise synthetisiert werden. WĂ€hrend Diffusionsmodelle von der grob-zu-fein Natur der Entrauschung profitieren, werden explizite mehrstufige Architekturen selten eingesetzt. Diese Architekturen haben die KomplexitĂ€t des Gesamtansatzes erhöht, was die Notwendigkeit einer benutzerdefinierten Diffusionsformulierung, zerlegungsabhĂ€ngiger StufenĂŒbergĂ€nge, ad-hoc-Sampler oder einer Modellkaskade mit sich bringt. Unser Beitrag, Decomposable Flow Matching (DFM), ist ein einfaches und effektives Framework fĂŒr die progressive Erzeugung visueller Medien. DFM wendet Flow Matching unabhĂ€ngig auf jeder Ebene einer benutzerdefinierten MehrskalenreprĂ€sentation (wie z.B. einer Laplace-Pyramide) an. Wie unsere Experimente zeigen, verbessert unser Ansatz die visuelle QualitĂ€t sowohl fĂŒr Bilder als auch fĂŒr Videos und erzielt im Vergleich zu frĂŒheren mehrstufigen Frameworks ĂŒberlegene Ergebnisse. Auf Imagenet-1k 512px erreicht DFM eine Verbesserung der FDD-Werte um 35,2 % gegenĂŒber der Basisarchitektur und um 26,4 % gegenĂŒber der leistungsstĂ€rksten Baseline bei gleichem Trainingsaufwand. Bei der Feinabstimmung groĂer Modelle wie FLUX zeigt DFM eine schnellere Konvergenzgeschwindigkeit zur Trainingsverteilung. Entscheidend ist, dass all diese Vorteile mit einem einzigen Modell, architektonischer Einfachheit und minimalen Modifikationen an bestehenden Trainingspipelines erreicht werden.
GroĂe Sprachmodelle (LLMs), insbesondere langsam denkende Modelle, zeigen oft starke Halluzinationen, indem sie falsche Inhalte ausgeben, da sie wĂ€hrend des Schlussfolgerns nicht in der Lage sind, Wissensgrenzen genau zu erkennen. WĂ€hrend Reinforcement Learning (RL) die FĂ€higkeiten zum komplexen Schlussfolgern verbessern kann, fehlt seinem ergebnisorientierten Belohnungsmechanismus oft eine faktische Ăberwachung des Denkprozesses, was das Halluzinationsproblem weiter verschĂ€rft. Um die hohe Halluzinationsrate in langsam denkenden Modellen zu adressieren, schlagen wir Knowledge-enhanced RL, KnowRL, vor. KnowRL leitet Modelle an, faktenbasiertes langsames Denken durchzufĂŒhren, indem es eine FaktizitĂ€tsbelohnung, basierend auf WissensĂŒberprĂŒfung, in den RL-Trainingsprozess integriert und ihnen hilft, ihre Wissensgrenzen zu erkennen. Diese gezielte faktische Eingabe wĂ€hrend des RL-Trainings ermöglicht es dem Modell, faktenbasierte Schlussfolgerungsstrategien zu erlernen und zu verinnerlichen. Durch die direkte Belohnung der Einhaltung von Fakten innerhalb der Denkschritte fördert KnowRL einen zuverlĂ€ssigeren Denkprozess. Experimentelle Ergebnisse auf drei HalluzinationsbewertungsdatensĂ€tzen und zwei SchlussfolgerungsbewertungsdatensĂ€tzen zeigen, dass KnowRL Halluzinationen in langsam denkenden Modellen effektiv reduziert, wĂ€hrend ihre ursprĂŒnglich starken SchlussfolgerungsfĂ€higkeiten erhalten bleiben. Unser Code ist verfĂŒgbar unter https://github.com/zjunlp/KnowRL.
Diese Studie untersucht die EffektivitĂ€t von Predictive-Maintenance-Modellen und die Optimierung intelligenter Betriebs- und Wartungssysteme (O&M) zur Steigerung der Effizienz der Windenergieerzeugung. Durch qualitative Forschung wurden strukturierte Interviews mit fĂŒnf Windpark-Ingenieuren und Wartungsmanagern durchgefĂŒhrt, die jeweils ĂŒber umfangreiche Erfahrungen in der Turbinenwartung verfĂŒgen. Mithilfe einer thematischen Analyse zeigte die Studie, dass Predictive-Maintenance-Modelle zwar effektiv Ausfallzeiten reduzieren, indem sie gröĂere Fehler identifizieren, jedoch oft Schwierigkeiten haben, kleinere, graduelle AusfĂ€lle zu erkennen. Zu den wichtigsten Herausforderungen zĂ€hlen falsch positive Ergebnisse, Sensorstörungen und Schwierigkeiten bei der Integration neuer Modelle in Ă€ltere Turbinensysteme. Fortschrittliche Technologien wie digitale Zwillinge, SCADA-Systeme und ZustandsĂŒberwachung haben die Turbinenwartungspraktiken erheblich verbessert. Dennoch bedĂŒrfen diese Technologien weiterer Verbesserungen, insbesondere in der KI-Verfeinerung und der Echtzeit-Datenintegration. Die Ergebnisse unterstreichen die Notwendigkeit einer kontinuierlichen Weiterentwicklung, um die Leistung von Windturbinen vollstĂ€ndig zu optimieren und die breitere Nutzung erneuerbarer Energien zu unterstĂŒtzen.
Vision-and-Language Navigation (VLN) in groĂrĂ€umigen urbanen Umgebungen erfordert, dass verkörperte Agenten sprachliche Anweisungen in komplexen Szenen verankern und relevante Erfahrungen ĂŒber lĂ€ngere ZeitrĂ€ume hinweg abrufen können. Bisherige modulare Pipelines bieten Interpretierbarkeit, mangeln jedoch an einem einheitlichen GedĂ€chtnis, wĂ€hrend end-to-end (M)LLM-Agenten zwar in der Fusion von Vision und Sprache hervorragend sind, jedoch durch feste Kontextfenster und implizite rĂ€umliche Schlussfolgerungen eingeschrĂ€nkt bleiben. Wir stellen Mem4Nav vor, ein hierarchisches rĂ€umlich-kognitives Langzeit-Kurzzeit-GedĂ€chtnissystem, das jeden VLN-Backbone erweitern kann. Mem4Nav kombiniert ein spĂ€rliches Oktree fĂŒr die feinkörnige Voxel-Indizierung mit einem semantischen Topologiegraphen fĂŒr die KonnektivitĂ€t von Landmarken auf hoher Ebene und speichert beide in trainierbaren GedĂ€chtnis-Tokens, die ĂŒber einen reversiblen Transformer eingebettet werden. Das LangzeitgedĂ€chtnis (LTM) komprimiert und behĂ€lt historische Beobachtungen sowohl auf Oktree- als auch auf Graphenknoten bei, wĂ€hrend das KurzzeitgedĂ€chtnis (STM) aktuelle multimodale EintrĂ€ge in relativen Koordinaten zwischenspeichert, um Echtzeit-Hindernisvermeidung und lokale Planung zu ermöglichen. Bei jedem Schritt schneidet die STM-Abrufung den dynamischen Kontext scharf zu, und wenn eine tiefere Historie benötigt wird, werden LTM-Tokens verlustfrei decodiert, um vergangene Einbettungen zu rekonstruieren. Ausgewertet auf Touchdown und Map2Seq ĂŒber drei Backbones (modular, state-of-the-art VLN mit prompt-basiertem LLM und state-of-the-art VLN mit gestaffelter Aufmerksamkeit MLLM), erzielt Mem4Nav 7-13 Prozentpunkte Gewinne bei der Aufgabenabschlussrate, eine ausreichende Reduzierung der SPD und eine Verbesserung des nDTW um >10 Prozentpunkte. Ablationen bestĂ€tigen die Unverzichtbarkeit sowohl der hierarchischen Karte als auch der dualen GedĂ€chtnismodule. Unsere Codes sind ĂŒber https://github.com/tsinghua-fib-lab/Mem4Nav quelloffen verfĂŒgbar.
GroĂe Sprachmodelle (LLMs) generieren oft Antworten mit inhĂ€renten Verzerrungen, was ihre ZuverlĂ€ssigkeit in realen Anwendungen untergrĂ€bt. Bestehende Evaluierungsmethoden ĂŒbersehen hĂ€ufig Verzerrungen in langen Antworten und die intrinsische VariabilitĂ€t der LLM-Ausgaben. Um diese Herausforderungen zu bewĂ€ltigen, schlagen wir FiSCo (Fine-grained Semantic Computation) vor, ein neuartiges statistisches Framework zur Bewertung der Fairness auf Gruppenebene in LLMs, indem es subtile semantische Unterschiede in langen Antworten ĂŒber demografische Gruppen hinweg erkennt. Im Gegensatz zu frĂŒheren Arbeiten, die sich auf Sentiment oder Token-Vergleiche konzentrieren, geht FiSCo ĂŒber oberflĂ€chliche Analysen hinaus, indem es auf der Behauptungsebene operiert und Entailment-PrĂŒfungen nutzt, um die Konsistenz der Bedeutung ĂŒber Antworten hinweg zu bewerten. Wir zerlegen Modellausgaben in semantisch unterschiedliche Behauptungen und wenden statistische Hypothesentests an, um inter- und intra-gruppale Ăhnlichkeiten zu vergleichen, was eine robuste Erkennung subtiler Verzerrungen ermöglicht. Wir formalisieren eine neue Definition der gruppenbezogenen kontrafaktischen Fairness und validieren FiSCo anhand von sowohl synthetischen als auch von Menschen annotierten DatensĂ€tzen, die Geschlecht, Rasse und Alter abdecken. Experimente zeigen, dass FiSCo nuancenreiche Verzerrungen zuverlĂ€ssiger identifiziert, wĂ€hrend es den Einfluss der stochastischen VariabilitĂ€t von LLMs reduziert und verschiedene Evaluierungsmetriken ĂŒbertrifft.