Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Reinforcement Learning (RL) hat sich als vielversprechender Ansatz erwiesen, um das Reasoning großer Sprachmodelle (LLMs) zu verbessern. Die meisten offenen Bemühungen konzentrieren sich jedoch eng auf Mathematik und Code, was unser Verständnis der breiteren Anwendbarkeit auf allgemeines Reasoning einschränkt. Eine zentrale Herausforderung liegt im Mangel an zuverlässigen, skalierbaren RL-Belohnungssignalen über verschiedene Reasoning-Domänen hinweg. Wir stellen Guru vor, einen kuratierten RL-Reasoning-Korpus mit 92.000 verifizierbaren Beispielen aus sechs Reasoning-Domänen – Mathematik, Code, Naturwissenschaften, Logik, Simulation und Tabellen –, die jeweils durch domänenspezifisches Belohnungsdesign, Deduplizierung und Filterung erstellt wurden, um Zuverlässigkeit und Effektivität für das RL-Training zu gewährleisten. Basierend auf Guru untersuchen wir systematisch etablierte Erkenntnisse im RL für LLM-Reasoning und beobachten signifikante Unterschiede zwischen den Domänen. Während frühere Arbeiten nahelegen, dass RL hauptsächlich vorhandenes Wissen aus vortrainierten Modellen abruft, zeigen unsere Ergebnisse ein differenzierteres Muster: Domänen, die während des Vortrainings häufig vorkommen (Mathematik, Code, Naturwissenschaften), profitieren leicht von domänenübergreifendem RL-Training, während Domänen mit begrenzter Vortrainingserfahrung (Logik, Simulation und Tabellen) domänenspezifisches Training benötigen, um bedeutende Leistungssteigerungen zu erzielen. Dies deutet darauf hin, dass RL wahrscheinlich den Erwerb echter Fähigkeiten fördert. Schließlich präsentieren wir Guru-7B und Guru-32B, zwei Modelle, die unter offenen Modellen, die mit öffentlich verfügbaren Daten RL-trainiert wurden, Spitzenleistungen erzielen und die besten Baseline-Modelle in unserem 17-Task-Evaluationssuite über sechs Reasoning-Domänen um 7,9 % bzw. 6,7 % übertreffen. Wir zeigen auch, dass unsere Modelle die Pass@k-Leistung ihrer Basismodelle effektiv verbessern, insbesondere bei komplexen Aufgaben, die seltener in Vortrainingsdaten vorkommen. Wir veröffentlichen Daten, Modelle sowie Trainings- und Evaluationscode, um allgemeines Reasoning zu fördern, unter: https://github.com/LLM360/Reasoning360.
Dieses Papier stellt verbesserte native, einheitliche multimodale Modelle vor, nämlich Show-o2, die autoregressives Modellieren und Flow Matching nutzen. Basierend auf einem 3D-kausalen Variationsautoencoder-Raum werden einheitliche visuelle Repräsentationen durch einen dualen Pfad der räumlichen (-zeitlichen) Fusion konstruiert, was Skalierbarkeit über Bild- und Video-Modalitäten hinweg ermöglicht und gleichzeitig effektives multimodales Verständnis und Generierung sicherstellt. Aufbauend auf einem Sprachmodell werden autoregressives Modellieren und Flow Matching nativ auf den Sprachkopf bzw. den Flow-Kopf angewendet, um die Vorhersage von Text-Tokens und die Generierung von Bildern/Videos zu erleichtern. Ein zweistufiges Trainingsrezept wurde entwickelt, um effektives Lernen und Skalierung auf größere Modelle zu ermöglichen. Die resultierenden Show-o2-Modelle zeigen Vielseitigkeit bei der Bewältigung einer breiten Palette von multimodalen Verständnis- und Generierungsaufgaben über verschiedene Modalitäten hinweg, einschließlich Text, Bildern und Videos. Code und Modelle sind unter https://github.com/showlab/Show-o veröffentlicht.
Die Fortschritte bei Text-zu-Sprache- und Audio-Generierungsmodellen erfordern robuste Benchmarks, um die Fähigkeiten von KI-Systemen zur emotionalen Verständnisbewertung zu messen. Aktuelle Datensätze zur Spracherkennung von Emotionen (Speech Emotion Recognition, SER) weisen oft Einschränkungen in Bezug auf emotionale Granularität, Datenschutzbedenken oder die Abhängigkeit von gespielten Darstellungen auf. Dieses Papier stellt EmoNet-Voice vor, eine neue Ressource zur Erkennung von Emotionen in der Sprache, die EmoNet-Voice Big umfasst – einen groß angelegten Pre-Training-Datensatz (mit über 4.500 Stunden Sprache, 11 Stimmen, 40 Emotionen und 4 Sprachen) – sowie EmoNet-Voice Bench, einen neuartigen Benchmark-Datensatz mit Annotationen von menschlichen Experten. EmoNet-Voice wurde entwickelt, um SER-Modelle auf einem fein abgestuften Spektrum von 40 Emotionskategorien mit unterschiedlichen Intensitätsstufen zu bewerten. Mithilfe modernster Sprachgenerierung haben wir synthetische Audioclips kuratiert, die Schauspieler simulieren, die Szenen darstellen, die spezifische Emotionen hervorrufen sollen. Entscheidend ist, dass wir eine strenge Validierung durch Psychologieexperten durchgeführt haben, die wahrgenommene Intensitätslabels zugewiesen haben. Dieser synthetische, datenschutzfreundliche Ansatz ermöglicht die Einbeziehung sensibler emotionaler Zustände, die in bestehenden Datensätzen oft fehlen. Schließlich stellen wir Empathic Insight Voice-Modelle vor, die einen neuen Standard in der Spracherkennung von Emotionen setzen und eine hohe Übereinstimmung mit menschlichen Experten aufweisen. Unsere Bewertungen im aktuellen Modell-Landschaft zeigen wertvolle Erkenntnisse, wie beispielsweise, dass hoch erregende Emotionen wie Wut viel leichter zu erkennen sind als niedrig erregende Zustände wie Konzentration.
In letzter Zeit haben multimodale große Sprachmodelle (MLLMs) aufgrund ihrer leistungsstarken visuellen Verständnisfähigkeiten zunehmend Forschungsinteresse geweckt. Obwohl sie beeindruckende Ergebnisse bei verschiedenen Vision-Aufgaben erzielt haben, bleibt ihre Leistung bei der Chart-zu-Code-Generierung suboptimal. Diese Aufgabe erfordert, dass MLLMs ausführbaren Code generieren, der einen gegebenen Chart reproduzieren kann, was nicht nur präzises visuelles Verständnis, sondern auch eine genaue Übersetzung visueller Elemente in strukturierten Code verlangt. Die direkte Aufforderung an MLLMs, diese komplexe Aufgabe zu bewältigen, führt oft zu unbefriedigenden Ergebnissen. Um diese Herausforderung zu bewältigen, schlagen wir {ChartIR} vor, eine iterative Verfeinerungsmethode basierend auf strukturierten Anweisungen. Zunächst unterscheiden wir zwei Aufgaben: visuelles Verständnis und Code-Übersetzung. Um die visuelle Verständniskomponente zu bewältigen, entwerfen wir zwei Arten von strukturierten Anweisungen: Beschreibung und Unterschied. Die Beschreibungsanweisung erfasst die visuellen Elemente des Referenzcharts, während die Unterschiedsanweisung die Diskrepanzen zwischen dem Referenzchart und dem generierten Chart charakterisiert. Diese Anweisungen transformieren effektiv visuelle Merkmale in Sprachrepräsentationen und erleichtern somit den nachfolgenden Code-Übersetzungsprozess. Zweitens zerlegen wir die gesamte Chart-Generierungspipeline in zwei Phasen: anfängliche Code-Generierung und iterative Verfeinerung, wodurch eine progressive Verbesserung des Endergebnisses ermöglicht wird. Experimentelle Ergebnisse zeigen, dass unsere Methode im Vergleich zu anderen Methoden sowohl beim Open-Source-Modell Qwen2-VL als auch beim Closed-Source-Modell GPT-4o eine überlegene Leistung erzielt.
Detaillierte Beschreibungen, die die Eigenschaften eines Musikstücks präzise wiedergeben, können Musikdatenbanken bereichern und die Forschung im Bereich der Musik-KI vorantreiben. Dieses Papier stellt ein Multi-Task-Modell zur Musikkaptionierung vor, SonicVerse, das die Generierung von Beschreibungen mit zusätzlichen Aufgaben zur Erkennung von Musikmerkmalen wie Tonartdetektion, Gesangserkennung und mehr kombiniert, um sowohl niedrige akustische Details als auch hochrangige musikalische Attribute direkt zu erfassen. Der zentrale Beitrag ist eine projektionsbasierte Architektur, die Audioeingaben in Sprach-Tokens umwandelt, während gleichzeitig Musikmerkmale durch dedizierte Hilfsmodule erkannt werden. Die Ausgaben dieser Module werden ebenfalls in Sprach-Tokens projiziert, um die Eingabe für die Beschreibung zu verbessern. Dieser Rahmen erzeugt nicht nur reichhaltige, beschreibende Texte für kurze Musikfragmente, sondern ermöglicht auch direkt die Generierung detaillierter, zeitbezogener Beschreibungen für längere Musikstücke, indem die Ausgaben mithilfe eines großen Sprachmodells verkettet werden. Um das Modell zu trainieren, wurde der MusicBench-Datensatz erweitert, indem er mit Musikmerkmalen unter Verwendung von MIRFLEX, einem modularen Musikmerkmal-Extraktor, annotiert wurde, was gepaarte Audio-, Beschreibungs- und Musikmerkmaldaten ergab. Experimentelle Ergebnisse zeigen, dass die Einbindung von Merkmalen auf diese Weise die Qualität und Detailgenauigkeit der generierten Beschreibungen verbessert.
Aktuelle Large Language Models (LLMs) haben hohe Genauigkeit bei Reasoning-Benchmarks gemeldet. Es ist jedoch noch unklar, ob die beobachteten Ergebnisse auf echtes Reasoning oder auf statistisches Abrufen des Trainingsdatensatzes zurückzuführen sind. Inspiriert von der Leiter der Kausalität (Pearl, 2009) und ihren drei Ebenen (Assoziationen, Interventionen und Kontrafaktische) stellt dieses Paper RE-IMAGINE vor, ein Framework zur Charakterisierung einer Hierarchie von Reasoning-Fähigkeiten in LLMs, zusammen mit einer automatisierten Pipeline zur Generierung von Problemvariationen auf verschiedenen Ebenen der Hierarchie. Durch die Veränderung von Problemen in einer intermediären symbolischen Repräsentation generiert RE-IMAGINE beliebig viele Probleme, die nicht allein durch Auswendiglernen lösbar sind. Darüber hinaus ist das Framework allgemeingültig und kann über verschiedene Reasoning-Domänen hinweg eingesetzt werden, einschließlich Mathematik, Code und Logik. Wir demonstrieren unser Framework anhand von vier weit verbreiteten Benchmarks zur Bewertung mehrerer LLM-Familien und beobachten Leistungseinbußen, wenn die Modelle mit Problemvariationen abgefragt werden. Diese Bewertungen deuten auf einen gewissen Grad an Abhängigkeit von statistischem Abrufen für vergangene Leistungen hin und eröffnen die Tür zu weiterer Forschung, die Fähigkeiten über die Reasoning-Hierarchie hinweg gezielt untersucht.