Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen CASS vor, das erste groß angelegte Datensatz- und Modellpaket für die Cross-Architecture-GPU-Code-Transpilation, das sowohl die Übersetzung auf Quellcodeebene (CUDA ↔ HIP) als auch auf Assembler-Ebene (Nvidia SASS ↔ AMD RDNA3) abdeckt. Der Datensatz umfasst 70.000 verifizierte Code-Paare für Host und Device und schließt damit eine entscheidende Lücke in der Portabilität von Low-Level-GPU-Code. Mithilfe dieser Ressource trainieren wir die CASS-Familie von domänenspezifischen Sprachmodellen, die eine Quellcode-Übersetzungsgenauigkeit von 95 % und eine Assembler-Übersetzungsgenauigkeit von 37,5 % erreichen und damit kommerzielle Baselines wie GPT-4o, Claude und Hipify deutlich übertreffen. Unser generierter Code erreicht in über 85 % der Testfälle native Leistung und bewahrt Laufzeit- und Speicherverhalten. Zur Unterstützung einer rigorosen Evaluation führen wir CASS-Bench ein, einen kuratierten Benchmark, der 16 GPU-Domänen mit Ground-Truth-Ausführung abdeckt. Alle Daten, Modelle und Evaluierungstools werden als Open Source veröffentlicht, um Fortschritte in GPU-Compiler-Tools, Binärkompatibilität und LLM-gesteuerter Hardware-Übersetzung zu fördern. Der Datensatz und der Benchmark sind auf https://huggingface.co/datasets/MBZUAI/cass{blue{HuggingFace}} verfügbar, der Code unter https://github.com/GustavoStahl/CASS{blue{GitHub}}.
Wir stellen Mutarjim vor, ein kompaktes, aber leistungsstarkes Sprachmodell für die bidirektionale arabisch-englische Übersetzung. Während großskalige LLMs beeindruckende Fortschritte bei Aufgaben der natürlichen Sprachverarbeitung, einschließlich maschineller Übersetzung, gezeigt haben, haben auch kleinere Modelle Potenzial. Basierend auf dieser Erkenntnis entwickelten wir Mutarjim auf der Grundlage von Kuwain-1.5B, einem Sprachmodell, das speziell für Arabisch und Englisch optimiert ist. Trotz seiner bescheidenen Größe übertrifft Mutarjim viel größere Modelle in mehreren etablierten Benchmarks, was durch einen optimierten zweiphasigen Trainingsansatz und einen sorgfältig kuratierten, hochwertigen Trainingskorpus erreicht wird. Experimentelle Ergebnisse zeigen, dass Mutarjim mit Modellen konkurriert, die bis zu 20-mal größer sind, und dabei die Rechenkosten und Trainingsanforderungen erheblich reduziert. Wir stellen außerdem Tarjama-25 vor, einen neuen Benchmark, der die Einschränkungen bestehender arabisch-englischer Benchmarking-Datensätze wie Domänenengpässe, kurze Satzlängen und eine englisch-quellenbasierte Verzerrung überwinden soll. Tarjama-25 umfasst 5.000 von Experten überprüfte Satzpaare und deckt ein breites Spektrum von Domänen ab, wodurch ein umfassenderes und ausgewogeneres Bewertungsframework geboten wird. Bemerkenswerterweise erzielt Mutarjim auf der Aufgabe Englisch-zu-Arabisch in Tarjama-25 Spitzenleistungen und übertrifft sogar deutlich größere und proprietäre Modelle wie GPT-4o mini. Wir veröffentlichen Tarjama-25 öffentlich, um zukünftige Forschung zu unterstützen und die Bewertung arabisch-englischer Übersetzungssysteme voranzutreiben.
Die rasante Weiterentwicklung von großen Sprachmodellen (LLMs) und multimodalen LLMs (MLLMs) hat historisch auf einer modellzentrierten Skalierung basiert, bei der die Parameteranzahl von Millionen auf Hunderte von Milliarden erhöht wurde, um Leistungssteigerungen zu erzielen. Da wir jedoch die hardwarebedingten Grenzen der Modellgröße erreichen, hat sich der dominierende Rechenengpass grundlegend auf die quadratischen Kosten der Selbstaufmerksamkeit über lange Token-Sequenzen verlagert, die nun durch ultra-lange Textkontexte, hochauflösende Bilder und längere Videos angetrieben werden. In diesem Positionspapier argumentieren wir, dass sich der Forschungsschwerpunkt für effiziente KI von der modellzentrierten Kompression zur datenzentrierten Kompression verschiebt. Wir positionieren die Token-Kompression als neue Grenze, die die KI-Effizienz durch die Reduzierung der Token-Anzahl während des Modelltrainings oder der Inferenz verbessert. Durch eine umfassende Analyse untersuchen wir zunächst die jüngsten Entwicklungen in der KI mit langen Kontexten in verschiedenen Domänen und etablieren einen einheitlichen mathematischen Rahmen für bestehende Strategien zur Modell-Effizienz, um zu demonstrieren, warum die Token-Kompression einen entscheidenden Paradigmenwechsel bei der Bewältigung der Overhead-Kosten langer Kontexte darstellt. Anschließend überprüfen wir systematisch die Forschungslandschaft der Token-Kompression, analysieren ihre grundlegenden Vorteile und identifizieren ihre überzeugenden Vorzüge in verschiedenen Szenarien. Darüber hinaus bieten wir eine detaillierte Analyse der aktuellen Herausforderungen in der Token-Kompressionsforschung und skizzieren vielversprechende zukünftige Richtungen. Letztlich zielt unsere Arbeit darauf ab, eine neue Perspektive auf die KI-Effizienz zu bieten, bestehende Forschung zu synthetisieren und innovative Entwicklungen zu katalysieren, um die Herausforderungen zu bewältigen, die zunehmende Kontextlängen für den Fortschritt der KI-Gemeinschaft darstellen.
Das Pre-Training stattet Text-zu-Bild (T2I)-Modelle mit umfangreichem Weltwissen aus, doch dies allein reicht oft nicht aus, um eine hohe ästhetische Qualität und Ausrichtung zu erreichen. Folglich ist das überwachte Feinabstimmen (Supervised Fine-Tuning, SFT) entscheidend für die weitere Verfeinerung. Seine Wirksamkeit hängt jedoch stark von der Qualität des Feinabstimmungsdatensatzes ab. Bestehende öffentliche SFT-Datensätze zielen häufig auf enge Domänen ab (z. B. Anime oder spezifische Kunststile), und die Erstellung hochwertiger, allgemeiner SFT-Datensätze bleibt eine große Herausforderung. Aktuelle Kuratierungsmethoden sind oft kostspielig und haben Schwierigkeiten, wirklich einflussreiche Beispiele zu identifizieren. Diese Herausforderung wird zusätzlich durch die Knappheit öffentlicher, allgemeiner Datensätze erschwert, da führende Modelle häufig auf große, proprietäre und schlecht dokumentierte interne Daten angewiesen sind, was den breiteren Forschungsfortschritt behindert. Dieses Papier stellt eine neuartige Methodik zur Erstellung allgemeiner SFT-Datensätze vor, indem ein vortrainiertes generatives Modell als Schätzer für hochwirksame Trainingsbeispiele genutzt wird. Wir wenden diese Methodik an, um Alchemist zu konstruieren und zu veröffentlichen, einen kompakten (3.350 Beispiele) aber äußerst effektiven SFT-Datensatz. Experimente zeigen, dass Alchemist die generative Qualität von fünf öffentlichen T2I-Modellen erheblich verbessert, während Vielfalt und Stil erhalten bleiben. Zusätzlich veröffentlichen wir die Gewichte der feinabgestimmten Modelle für die Öffentlichkeit.
Große Sprachmodelle (LLMs) glänzen bei allgemeinen Aufgaben, doch die Bewertung ihrer Zuverlässigkeit in logikintensiven, präzisionskritischen Bereichen wie Finanzen, Recht und Gesundheitswesen bleibt eine Herausforderung. Um dies zu adressieren, stellen wir BizFinBench vor, den ersten Benchmark, der speziell zur Bewertung von LLMs in realen finanziellen Anwendungen entwickelt wurde. BizFinBench besteht aus 6.781 gut annotierten Anfragen in Chinesisch, die fünf Dimensionen abdecken: numerische Berechnung, logisches Schlussfolgern, Informationsextraktion, Vorhersageerkennung und wissensbasierte Fragebeantwortung, gruppiert in neun fein granulierte Kategorien. Der Benchmark umfasst sowohl objektive als auch subjektive Metriken. Wir führen zudem IteraJudge ein, eine neuartige Methode zur Bewertung von LLMs, die Verzerrungen reduziert, wenn LLMs als Bewerter in objektiven Metriken dienen. Wir evaluieren 25 Modelle, darunter sowohl proprietäre als auch Open-Source-Systeme. Umfangreiche Experimente zeigen, dass kein Modell in allen Aufgaben dominiert. Unsere Bewertung offenbart deutliche Fähigkeitsmuster: (1) Bei der numerischen Berechnung führen Claude-3.5-Sonnet (63,18) und DeepSeek-R1 (64,04), während kleinere Modelle wie Qwen2.5-VL-3B (15,92) deutlich zurückliegen; (2) Beim logischen Schlussfolgern dominieren proprietäre Modelle (ChatGPT-o3: 83,58, Gemini-2.0-Flash: 81,15), wobei Open-Source-Modelle bis zu 19,49 Punkte zurückliegen; (3) Bei der Informationsextraktion ist die Leistungsspanne am größten, mit DeepSeek-R1 bei 71,46 und Qwen3-1.7B bei 11,23; (4) Bei der Vorhersageerkennung ist die Leistungsvarianz minimal, wobei die besten Modelle zwischen 39,16 und 50,00 punkten. Wir stellen fest, dass aktuelle LLMs routinemäßige Finanzanfragen kompetent bewältigen, jedoch mit komplexen Szenarien, die übergreifendes Konzeptverständnis erfordern, zu kämpfen haben. BizFinBench bietet einen rigorosen, geschäftsorientierten Benchmark für zukünftige Forschung. Der Code und der Datensatz sind verfügbar unter https://github.com/HiThink-Research/BizFinBench.
Aktuelle Large-Language-Modelle (LLMs) verwenden in der Regel eine feste Denkstrategie, entweder einfach oder komplex, für alle Fragen, unabhängig von deren Schwierigkeitsgrad. Diese Vernachlässigung der Variation in der Aufgaben- und Denkprozesskomplexität führt zu einem Ungleichgewicht zwischen Leistung und Effizienz. Bestehende Methoden versuchen, ein trainingsfreies Systemwechseln zwischen schnellem und langsamem Denken zu implementieren, um Probleme unterschiedlicher Schwierigkeit zu bewältigen, sind jedoch durch grobgranulare Strategieanpassungen auf Lösungsebene eingeschränkt. Um dieses Problem zu lösen, schlagen wir ein neuartiges Denkparadigma vor: Process-Level Adaptive Thinking Mode Switching (PATS), das es LLMs ermöglicht, ihre Denkstrategie dynamisch basierend auf der Schwierigkeit jedes Schritts anzupassen und so das Gleichgewicht zwischen Genauigkeit und Recheneffizienz zu optimieren. Unser Ansatz integriert Process Reward Models (PRMs) mit Beam Search und beinhaltet progressives Moduswechseln sowie Strafmechanismen für schlechte Schritte. Experimente auf diversen mathematischen Benchmarks zeigen, dass unsere Methode hohe Genauigkeit bei moderatem Token-Verbrauch erreicht. Diese Studie unterstreicht die Bedeutung einer prozessbasierten, schwierigkeitsbewussten Anpassung der Denkstrategie und bietet wertvolle Einblicke in effiziente Inferenz für LLMs.
Verkörperte Agenten, die durch große Sprachmodelle (LLMs) unterstützt werden, haben in Aufgaben zur Umordnung von Haushaltsgegenständen starke Leistungen gezeigt. Diese Aufgaben konzentrieren sich jedoch hauptsächlich auf Einzelinteraktionen mit vereinfachten Anweisungen, die die Herausforderungen der Bereitstellung sinnvoller Unterstützung für Benutzer nicht wirklich widerspiegeln. Um personalisierte Unterstützung zu bieten, müssen verkörperte Agenten die einzigartige Semantik verstehen, die Benutzer der physischen Welt zuweisen (z. B. Lieblingstasse, Morgenroutine), indem sie die vorherige Interaktionsgeschichte nutzen, um dynamische, realweltliche Anweisungen zu interpretieren. Dennoch ist die Effektivität verkörperter Agenten bei der Nutzung von Gedächtnis für personalisierte Unterstützung weitgehend unerforscht. Um diese Lücke zu schließen, präsentieren wir MEMENTO, ein Bewertungsrahmen für personalisierte verkörperte Agenten, der darauf abzielt, die Fähigkeiten zur Gedächtnisnutzung umfassend zu bewerten, um personalisierte Unterstützung zu bieten. Unser Rahmenwerk besteht aus einem zweistufigen Prozess zur Gedächtnisbewertung, der es ermöglicht, die Auswirkungen der Gedächtnisnutzung auf die Aufgabenleistung zu quantifizieren. Dieser Prozess ermöglicht die Bewertung des Verständnisses der Agenten für personalisiertes Wissen in Aufgaben zur Umordnung von Gegenständen, indem er sich auf dessen Rolle bei der Zielinterpretation konzentriert: (1) die Fähigkeit, Zielobjekte basierend auf persönlicher Bedeutung (Objektsemantik) zu identifizieren, und (2) die Fähigkeit, Objekt-Standort-Konfigurationen aus konsistenten Benutzermustern, wie Routinen (Benutzermuster), abzuleiten. Unsere Experimente mit verschiedenen LLMs zeigen erhebliche Einschränkungen bei der Gedächtnisnutzung, wobei selbst Spitzenmodelle wie GPT-4o einen Leistungsabfall von 30,5 % erfahren, wenn sie auf mehrere Gedächtnisinhalte verweisen müssen, insbesondere bei Aufgaben, die Benutzermuster betreffen. Diese Erkenntnisse, zusammen mit unseren detaillierten Analysen und Fallstudien, bieten wertvolle Einblicke für zukünftige Forschungen zur Entwicklung effektiverer personalisierter verkörperter Agenten. Projektwebsite: https://connoriginal.github.io/MEMENTO
Während große Reasoning-Modelle eine starke Leistung bei komplexen Aufgaben zeigen, fehlt ihnen die Fähigkeit, die Verwendung von Reasoning-Tokens basierend auf der Aufgabenschwierigkeit anzupassen. Dies führt oft zum „Overthinking“-Problem – übermäßiges und unnötiges Reasoning – das, obwohl es durch menschliches Eingreifen zur Kontrolle des Token-Budgets potenziell gemildert werden kann, dennoch grundsätzlich dem Ziel der vollständig autonomen KI widerspricht. In dieser Arbeit schlagen wir das Adaptive Reasoning Model (ARM) vor, ein Reasoning-Modell, das in der Lage ist, basierend auf der jeweiligen Aufgabe geeignete Reasoning-Formate adaptiv auszuwählen. Diese Formate umfassen drei effiziente – Direkte Antwort, Kurze CoT und Code – sowie ein elaborierteres Format, Lange CoT. Um ARM zu trainieren, führen wir Ada-GRPO ein, eine Anpassung des Group Relative Policy Optimization (GRPO), das das Problem des Formatkollapses im traditionellen GRPO adressiert. Ada-GRPO ermöglicht es ARM, eine hohe Token-Effizienz zu erreichen, wobei die Tokens im Durchschnitt um 30 % und bis zu 70 % reduziert werden, während die Leistung vergleichbar mit dem Modell bleibt, das ausschließlich auf Lange CoT angewiesen ist. Darüber hinaus verbessert es nicht nur die Inferenzeffizienz durch reduzierte Token-Generierung, sondern bringt auch eine 2-fache Beschleunigung im Training. Neben dem standardmäßigen Adaptiven Modus unterstützt ARM zwei zusätzliche Reasoning-Modi: 1) Instruktionsgesteuerter Modus, der es Benutzern ermöglicht, das Reasoning-Format explizit über spezielle Tokens anzugeben – ideal, wenn das geeignete Format für eine Reihe von Aufgaben bekannt ist. 2) Konsensgesteuerter Modus, der die Ausgaben der drei effizienten Formate aggregiert und im Falle von Unstimmigkeiten auf Lange CoT zurückgreift, wobei die Leistung mit höherem Token-Verbrauch priorisiert wird.
Große Sprachmodelle (LLMs) wie OpenAI's o1 und DeepSeek's R1 übertreffen sich bei fortgeschrittenen Denkaufgaben wie Mathematik und Programmierung durch Reinforcement Learning mit überprüfbaren Belohnungen (RLVR), haben jedoch noch Schwierigkeiten mit Rätseln, die von Menschen ohne Domänenwissen gelöst werden können. Wir stellen Enigmata vor, die erste umfassende Suite, die speziell zur Verbesserung der Rätsel-Fähigkeiten von LLMs entwickelt wurde. Sie umfasst 36 Aufgaben in sieben Kategorien, jede mit 1) einem Generator, der unbegrenzte Beispiele mit kontrollierbarem Schwierigkeitsgrad erzeugt, und 2) einem regelbasierten Verifizierer für die automatische Bewertung. Dieses Generator-Verifizierer-Design unterstützt skalierbares, multi-task RL-Training, detaillierte Analysen und nahtlose RLVR-Integration. Wir schlagen außerdem Enigmata-Eval vor, einen rigorosen Benchmark, und entwickeln optimierte multi-task RLVR-Strategien. Unser trainiertes Modell, Qwen2.5-32B-Enigmata, übertrifft konsequent o3-mini-high und o1 bei Rätsel-Benchmarks wie Enigmata-Eval, ARC-AGI (32,8%) und ARC-AGI 2 (0,6%). Es generalisiert auch gut auf domänenübergreifende Rätsel-Benchmarks und mathematisches Denken, mit geringen Kompromissen bei der Multi-Tasking-Fähigkeit. Wenn es auf größeren Modellen wie Seed1.5-Thinking (20B aktivierte Parameter und 200B Gesamtparameter) trainiert wird, steigern die Rätseldaten von Enigmata die Spitzenleistung bei fortgeschrittenen mathematischen und STEM-Denkaufgaben wie AIME (2024-2025), BeyondAIME und GPQA (Diamond), was die guten Generalisierungsvorteile von Enigmata zeigt. Diese Arbeit bietet einen einheitlichen, kontrollierbaren Rahmen zur Förderung des logischen Denkens in LLMs. Die Ressourcen dieser Arbeit finden Sie unter https://seed-enigmata.github.io.
Wir schlagen einen neuartigen Rahmen vor, um die Fähigkeiten großer Sprachmodelle (LLMs) zur logischen Schlussfolgerung aus der Perspektive des Meta-Lernens zu verstehen. Indem wir Denkpfade als pseudo-Gradientenabstiegs-Updates der Parameter des LLMs konzeptualisieren, identifizieren wir Parallelen zwischen dem logischen Denken von LLMs und verschiedenen Meta-Lern-Paradigmen. Wir formalisieren den Trainingsprozess für Aufgaben des logischen Denkens als ein Meta-Lern-Setup, bei dem jede Frage als individuelle Aufgabe behandelt wird und Denkpfade als innere Schleifenoptimierung zur Anpassung der Modellparameter dienen. Nach dem Training auf einer Vielzahl von Fragen entwickelt das LLM grundlegende Fähigkeiten zur logischen Schlussfolgerung, die auf zuvor unbekannte Fragen verallgemeinert werden können. Umfangreiche empirische Auswertungen untermauern die starke Verbindung zwischen dem logischen Denken von LLMs und Meta-Lernen und untersuchen mehrere Fragen von erheblichem Interesse aus der Perspektive des Meta-Lernens. Unsere Arbeit verbessert nicht nur das Verständnis des logischen Denkens von LLMs, sondern liefert auch praktische Erkenntnisse zur Verbesserung dieser Modelle durch etablierte Meta-Lern-Techniken.
Große Sprachmodelle haben bemerkenswerte Erfolge bei Aufgaben der natürlichen Sprachverarbeitung erzielt, wobei Reinforcement Learning eine Schlüsselrolle bei der Anpassung an spezifische Anwendungen spielt. Die Beschaffung von Ground-Truth-Antworten für das Training von LLMs in der mathematischen Problemlösung ist jedoch oft schwierig, kostspielig und manchmal unmöglich. Diese Forschung untersucht die Nutzung von Format und Länge als Ersatzsignale, um LLMs für die mathematische Problemlösung zu trainieren, ohne auf traditionelle Ground-Truth-Antworten angewiesen zu sein. Unsere Studie zeigt, dass eine Belohnungsfunktion, die sich ausschließlich auf die Formatkorrektheit konzentriert, in frühen Phasen Leistungsverbesserungen erzielen kann, die mit dem Standard-GRPO-Algorithmus vergleichbar sind. In Anerkennung der Grenzen von reinen Formatbelohnungen in späteren Phasen integrieren wir längenbasierte Belohnungen. Der daraus resultierende GRPO-Ansatz, der Format-Längen-Ersatzsignale nutzt, übertrifft in bestimmten Szenarien sogar die Leistung des Standard-GRPO-Algorithmus, der auf Ground-Truth-Antworten angewiesen ist, und erreicht eine Genauigkeit von 40,0 % auf AIME2024 mit einem 7B-Basismodell. Durch systematische Exploration und Experimente bietet diese Forschung nicht nur eine praktische Lösung für das Training von LLMs zur Lösung mathematischer Probleme und zur Reduzierung der Abhängigkeit von umfangreichen Ground-Truth-Datensammlungen, sondern enthüllt auch den Kern, warum unser labelfreier Ansatz erfolgreich ist: Das Basismodell ist wie ein ausgezeichneter Schüler, der bereits mathematische und logische Denkfähigkeiten beherrscht, aber bei der Prüfung schlecht abschneidet. Es muss lediglich gute Antwortgewohnheiten entwickeln, um hervorragende Ergebnisse in Prüfungen zu erzielen, mit anderen Worten, um die Fähigkeiten freizusetzen, die es bereits besitzt.
Große Sprachmodelle (LLMs) zeigen oft starke Verzerrungen, beispielsweise gegenüber Frauen oder zugunsten der Zahl 7. Wir untersuchen, ob LLMs in der Lage sind, weniger verzerrte Antworten zu liefern, wenn sie ihre vorherigen Antworten auf dieselbe Frage in einem mehrschrittigen Dialog einsehen können. Um zu verstehen, welche Arten von Fragen stärker verzerrte Antworten provozieren, testen wir LLMs anhand eines von uns vorgeschlagenen Fragesets, das neun Themen umfasst und drei Kategorien zugeordnet ist: (1) Subjektiv; (2) Zufällig; und (3) Objektiv. Interessanterweise können sich LLMs in einem mehrschrittigen Dialog selbst „entzerren“, wenn sie Fragen beantworten, die eine zufällige, unvoreingenommene Antwort erfordern. Darüber hinaus schlagen wir den B-Score vor, eine neuartige Metrik, die effektiv Verzerrungen bei subjektiven, zufälligen, einfachen und schwierigen Fragen erkennen kann. Auf den Datensätzen MMLU, HLE und CSQA verbessert die Nutzung des B-Scores die Verifikationsgenauigkeit von LLM-Antworten (d. h. das Akzeptieren korrekter und das Ablehnen falscher Antworten) erheblich im Vergleich zur Verwendung verbalisierter Konfidenzscores oder der Häufigkeit von Einzelantworten allein. Code und Daten sind verfügbar unter: https://b-score.github.io.
Das Training großer Sprachmodelle (LLMs) für komplexes logisches Denken durch Reinforcement Learning mit überprüfbaren Belohnungen (RLVR) ist effektiv, jedoch durch die Abhängigkeit von kostspieliger, domänenspezifischer Überwachung eingeschränkt. Wir untersuchen Reinforcement Learning aus interner Rückmeldung (RLIF), ein Framework, das es LLMs ermöglicht, aus intrinsischen Signalen zu lernen, ohne externe Belohnungen oder annotierte Daten. Wir stellen Intuitor vor, eine RLIF-Methode, die das eigene Vertrauen eines Modells, bezeichnet als Selbstsicherheit, als einzigen Belohnungssignal verwendet. Intuitor ersetzt externe Belohnungen in der Gruppenrelativen Politikoptimierung (GRPO) durch Selbstsicherheitswerte, wodurch vollständig unüberwachtes Lernen ermöglicht wird. Experimente zeigen, dass Intuitor die Leistung von GRPO auf mathematischen Benchmarks erreicht, während es eine überlegene Generalisierung auf domänenübergreifende Aufgaben wie Code-Generierung erzielt, ohne goldene Lösungen oder Testfälle zu benötigen. Unsere Ergebnisse zeigen, dass intrinsische Modellsignale effektives Lernen über verschiedene Domänen hinweg antreiben können und eine skalierbare Alternative zu RLVR für autonome KI-Systeme bieten, bei denen überprüfbare Belohnungen nicht verfügbar sind. Der Code ist verfügbar unter https://github.com/sunblaze-ucb/Intuitor.
Menschlich generierte Belohnungssignale sind entscheidend, um generative Modelle mit menschlichen Präferenzen in Einklang zu bringen und sowohl das Training als auch die Bewertungen zur Inferenzzeit zu steuern. Während große Sprachmodelle (LLMs), die als Proxy-Bewerter eingesetzt werden – sogenannte LLM-as-a-Judge – die Kosten für manuelle Annotationen erheblich reduzieren, benötigen sie in der Regel umfangreiche, modalitätsspezifische Trainingsdaten und können sich nicht gut über diverse multimodale Aufgaben hinweg verallgemeinern. In diesem Artikel stellen wir Flex-Judge vor, ein multimodales Bewertermodell, das durch textbasierte Argumentation geleitet wird und minimale textuelle Argumentationsdaten nutzt, um robust über mehrere Modalitäten und Bewertungsformate hinweg zu verallgemeinern. Unsere zentrale Intuition ist, dass strukturierte textuelle Argumentationserklärungen inhärent verallgemeinerbare Entscheidungsmuster kodieren, die einen effektiven Transfer auf multimodale Bewertungen, z. B. mit Bildern oder Videos, ermöglichen. Empirische Ergebnisse zeigen, dass Flex-Judge, obwohl es mit deutlich weniger Textdaten trainiert wurde, eine wettbewerbsfähige oder überlegene Leistung im Vergleich zu state-of-the-art kommerziellen APIs und umfangreich trainierten multimodalen Bewertern erzielt. Besonders hervorzuheben ist, dass Flex-Judge eine breite Wirkung in Modalitäten wie Molekülen zeigt, wo umfassende Bewertungsbenchmarks rar sind, was seinen praktischen Wert in ressourcenbeschränkten Domänen unterstreicht. Unser Framework hebt textbasierte Argumentationsüberwachung als eine leistungsstarke, kosteneffiziente Alternative zu traditionellen, annotationsintensiven Ansätzen hervor und trägt wesentlich zur Skalierbarkeit multimodaler Modelle als Bewerter bei.
Große Sprachmodelle (LLMs) haben Potenzial bei der Automatisierung der wissenschaftlichen Hypothesengenerierung gezeigt, doch bestehende Ansätze liefern hauptsächlich grobkörnige Hypothesen, denen kritische methodische und experimentelle Details fehlen. Wir führen die neuartige Aufgabe der feinkörnigen wissenschaftlichen Hypothesenentdeckung ein und definieren sie formal. Diese umfasst die Generierung detaillierter, experimentell umsetzbarer Hypothesen aus groben initialen Forschungsrichtungen. Wir formulieren dies als kombinatorisches Optimierungsproblem und untersuchen die oberen Grenzen der Fähigkeit von LLMs, dieses Problem zu lösen, wenn sie maximal genutzt werden. Insbesondere untersuchen wir vier grundlegende Fragen: (1) wie man die internen Heuristiken eines LLMs am besten nutzen kann, um die feinkörnige Hypothese zu formulieren, die es selbst als die vielversprechendste unter allen möglichen Hypothesen, die es generieren könnte, bewerten würde – basierend auf seiner eigenen internen Bewertung – und damit eine latente Belohnungslandschaft über den Hypothesenraum definiert; (2) ob solche von LLMs als besser bewertete Hypothesen eine stärkere Übereinstimmung mit Ground-Truth-Hypothesen aufweisen; (3) ob die Gestaltung der Belohnungslandschaft mithilfe eines Ensembles verschiedener LLMs mit ähnlicher Kapazität bessere Ergebnisse liefert als die Definition mit wiederholten Instanzen des stärksten LLMs unter ihnen; und (4) ob ein Ensemble identischer LLMs eine zuverlässigere Belohnungslandschaft bietet als ein einzelnes LLM. Um diese Fragen zu beantworten, schlagen wir eine hierarchische Suchmethode vor, die schrittweise Details in die Hypothese einbringt und integriert, wobei sie von allgemeinen Konzepten zu spezifischen experimentellen Konfigurationen fortschreitet. Wir zeigen, dass dieser hierarchische Prozess die Belohnungslandschaft glättet und eine effektivere Optimierung ermöglicht. Empirische Auswertungen auf einem neuen Benchmark von Experten-annotierten feinkörnigen Hypothesen aus der aktuellen chemischen Literatur zeigen, dass unsere Methode durchweg starke Baselines übertrifft.
LLMs haben beeindruckende Fortschritte gemacht, doch ihre zunehmenden Fähigkeiten machen sie auch anfällig für hochflexible Jailbreaking-Angriffe, die darauf abzielen, die Sicherheitsausrichtung zu umgehen. Während sich viele bestehende Verteidigungsmechanismen auf bekannte Angriffsarten konzentrieren, ist es entscheidender, LLMs auf unbekannte Angriffe vorzubereiten, die während des Einsatzes auftreten können. Um dies zu adressieren, schlagen wir ein Framework für lebenslange Sicherheitsausrichtung vor, das es LLMs ermöglicht, sich kontinuierlich an neue und sich entwickelnde Jailbreaking-Strategien anzupassen. Unser Framework führt einen Wettbewerb zwischen zwei Komponenten ein: einem Meta-Angreifer, der darauf trainiert ist, aktiv neue Jailbreaking-Strategien zu entdecken, und einem Verteidiger, der darauf trainiert ist, diesen zu widerstehen. Um den Meta-Angreifer effektiv vorzubereiten, nutzen wir zunächst die GPT-4o-API, um Schlüsselinformationen aus einer umfangreichen Sammlung von Forschungsarbeiten im Zusammenhang mit Jailbreaking zu extrahieren. Durch iteratives Training erreicht der Meta-Angreifer der ersten Iteration eine Angriffserfolgsrate (ASR) von 73 % auf RR und eine Transfer-ASR von 57 % auf LAT, wobei nur Einzelzugriffsangriffe verwendet werden. Gleichzeitig verbessert der Verteidiger kontinuierlich seine Robustheit und reduziert schließlich die Erfolgsrate des Meta-Angreifers auf nur 7 %, was eine sicherere und zuverlässigere Bereitstellung von LLMs in offenen Umgebungen ermöglicht. Der Code ist verfügbar unter https://github.com/sail-sg/LifelongSafetyAlignment.
Multimodale große Sprachmodelle (MLLMs) haben in jüngster Zeit bedeutende Fortschritte bei visuellen Aufgaben erzielt, einschließlich semantischer Szenenverständnis und Text-Bild-Ausrichtung, wobei Reasoning-Varianten die Leistung bei komplexen Aufgaben in den Bereichen Mathematik und Logik verbessern. Ihre Fähigkeiten bei Reasoning-Aufgaben, die ein feinkörniges visuelles Verständnis erfordern, wurden jedoch bisher unzureichend bewertet. Um diese Lücke zu schließen, stellen wir ReasonMap vor, einen Benchmark, der entwickelt wurde, um das feinkörnige visuelle Verständnis und die räumlichen Reasoning-Fähigkeiten von MLLMs zu bewerten. ReasonMap umfasst hochauflösende Verkehrsnetzpläne aus 30 Städten in 13 Ländern und beinhaltet 1.008 Frage-Antwort-Paare, die zwei Fragetypen und drei Vorlagen abdecken. Darüber hinaus haben wir eine zweistufige Evaluationspipeline entwickelt, die die Korrektheit und Qualität der Antworten angemessen bewertet. Umfassende Bewertungen von 15 populären MLLMs, einschließlich sowohl Basis- als auch Reasoning-Varianten, zeigen ein kontraintuitives Muster: Bei Open-Source-Modellen übertreffen Basismodelle die Reasoning-Varianten, während bei Closed-Source-Modellen der umgekehrte Trend zu beobachten ist. Zudem verschlechtert sich die Leistung im Allgemeinen, wenn visuelle Eingaben maskiert werden, was darauf hindeutet, dass MLLMs zwar Vorwissen nutzen können, um einige Fragen zu beantworten, feinkörnige visuelle Reasoning-Aufgaben jedoch weiterhin echte visuelle Wahrnehmung für eine starke Leistung erfordern. Unsere Benchmark-Studie bietet neue Einblicke in das visuelle Reasoning und trägt dazu bei, die Lücke zwischen Open-Source- und Closed-Source-Modellen zu untersuchen.
Trotz der Dominanz von Decoder-only-Sprachmodellen bleiben Encoder für ressourcenbeschränkte Anwendungen entscheidend. Wir stellen ModernGBERT (134M, 1B) vor, eine vollständig transparente Familie deutscher Encoder-Modelle, die von Grund auf trainiert wurden und architektonische Innovationen von ModernBERT integrieren. Um die praktischen Kompromisse beim Training von Encodern von Grund auf zu bewerten, präsentieren wir auch LL\"aMmlein2Vec (120M, 1B, 7B), eine Familie von Encodern, die aus deutschen Decoder-only-Modellen über LLM2Vec abgeleitet wurden. Wir benchmarken alle Modelle in den Bereichen Natural Language Understanding, Text-Embedding und Langzeitkontext-Rationalität, was einen kontrollierten Vergleich zwischen dedizierten Encodern und konvertierten Decodern ermöglicht. Unsere Ergebnisse zeigen, dass ModernGBERT 1B sowohl in Bezug auf die Leistung als auch auf die Parameter-Effizienz bisherige State-of-the-Art deutsche Encoder sowie über LLM2Vec adaptierte Encoder übertrifft. Alle Modelle, Trainingsdaten, Checkpoints und Code sind öffentlich verfügbar und fördern das deutsche NLP-Ökosystem mit transparenten, leistungsstarken Encoder-Modellen.
Visuelle Erzeugung und Verständnis sind zwei tief miteinander verbundene Aspekte der menschlichen Intelligenz, wurden jedoch traditionell in der maschinellen Lernforschung als separate Aufgaben behandelt. In diesem Artikel stellen wir Jodi vor, ein Diffusionsframework, das visuelle Erzeugung und Verständnis vereint, indem es das Bildbereich und mehrere Labelbereiche gemeinsam modelliert. Konkret basiert Jodi auf einem linearen Diffusionstransformer in Kombination mit einem Rollenwechselmechanismus, der es ermöglicht, drei spezifische Aufgabentypen auszuführen: (1) gemeinsame Erzeugung, bei der das Modell gleichzeitig Bilder und mehrere Labels generiert; (2) kontrollierte Erzeugung, bei der Bilder basierend auf beliebigen Kombinationen von Labels erzeugt werden; und (3) Bildwahrnehmung, bei der mehrere Labels gleichzeitig aus einem gegebenen Bild vorhergesagt werden können. Darüber hinaus präsentieren wir den Joint-1.6M-Datensatz, der 200.000 hochwertige Bilder aus öffentlichen Quellen, automatisch generierte Labels für 7 visuelle Bereiche und LLM-generierte Bildbeschreibungen enthält. Umfangreiche Experimente zeigen, dass Jodi sowohl in Erzeugungs- als auch in Verständnisaufgaben hervorragende Leistungen erbringt und eine starke Erweiterbarkeit auf eine breitere Palette visueller Bereiche aufweist. Der Code ist verfügbar unter https://github.com/VIPL-GENUN/Jodi.
Da Large Language Models (LLMs) zunehmend in Softwareentwicklungs-Workflows integriert werden, ist ihre Fähigkeit, strukturierte Ausgaben zu generieren, von entscheidender Bedeutung geworden. Wir stellen StructEval vor, einen umfassenden Benchmark zur Bewertung der Fähigkeiten von LLMs, sowohl nicht-renderbare (JSON, YAML, CSV) als auch renderbare (HTML, React, SVG) strukturierte Formate zu erzeugen. Im Gegensatz zu früheren Benchmarks bewertet StructEval systematisch die strukturelle Treue über verschiedene Formate hinweg durch zwei Paradigmen: 1) Generierungsaufgaben, bei denen strukturierte Ausgaben aus natürlichen Sprachaufforderungen erzeugt werden, und 2) Konvertierungsaufgaben, bei denen zwischen strukturierten Formaten übersetzt wird. Unser Benchmark umfasst 18 Formate und 44 Arten von Aufgaben, mit neuartigen Metriken für Formatkonformität und strukturelle Korrektheit. Die Ergebnisse zeigen erhebliche Leistungsunterschiede; selbst state-of-the-art Modelle wie o1-mini erreichen nur einen durchschnittlichen Score von 75,58, während Open-Source-Alternativen etwa 10 Punkte dahinter zurückbleiben. Wir stellen fest, dass Generierungsaufgaben schwieriger sind als Konvertierungsaufgaben und die Erstellung korrekter visueller Inhalte schwieriger ist als die Generierung von rein textbasierten Strukturen.
Im Jahr 2025, an einem kritischen Punkt in der Verfolgung von Künstlicher Allgemeiner Intelligenz (AGI), hat das Reinforcement Fine-Tuning (RFT) ein erhebliches Potenzial bei der Verbesserung der Denkfähigkeit großer Sprachmodelle (LLMs) gezeigt und zur Entwicklung von Spitzenmodellen der KI wie OpenAI-o1 und DeepSeek-R1 geführt. Darüber hinaus hat die effiziente Anwendung von RFT zur Steigerung der Denkfähigkeit multimodaler großer Sprachmodelle (MLLMs) breite Aufmerksamkeit in der Fachgemeinschaft erregt. In diesem Positionspapier argumentieren wir, dass Reinforcement Fine-Tuning die Denkfähigkeit multimodaler großer Sprachmodelle stärkt. Zunächst geben wir eine detaillierte Einführung in die grundlegenden Hintergrundkenntnisse, die Forscher in diesem Bereich kennen sollten. Darüber hinaus fassen wir die Verbesserungen von RFT bei der Stärkung der Denkfähigkeit von MLLMs sorgfältig in fünf Schlüsselpunkten zusammen: diverse Modalitäten, diverse Aufgaben und Domänen, bessere Trainingsalgorithmen, umfangreiche Benchmarks und florierende Engineering-Frameworks. Schließlich schlagen wir fünf vielversprechende Forschungsrichtungen vor, die die Gemeinschaft in Betracht ziehen könnte. Wir hoffen, dass dieses Positionspapier wertvolle Einblicke in die Gemeinschaft an diesem entscheidenden Stadium der Weiterentwicklung hin zu AGI bietet. Eine Zusammenfassung der Arbeiten zu RFT für MLLMs ist verfügbar unter https://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMs.
Langfristige Video-Audio-Analyse und feinkörniges Pixelverständnis stellen widersprüchliche Anforderungen an omnimodale Modelle: Dichte zeitliche Abdeckung erfordert viele niedrigauflösende Frames, während präzise Verankerung hochauflösende Eingaben benötigt. Wir bewältigen diesen Zielkonflikt mit einer Zwei-System- Architektur: Ein Globales Analyse-System wählt informative Keyframes aus und formuliert die Aufgabe mit geringem räumlichen Aufwand neu, während ein Detailverständnis-System die Pixelgenaue Verankerung auf den ausgewählten hochauflösenden Ausschnitten durchführt. Da die „optimale“ Auswahl und Neuformulierung von Keyframes mehrdeutig und schwer zu überwachen ist, formulieren wir sie als Reinforcement Learning (RL)-Problem und präsentieren Omni-R1, ein end-to-end RL-Framework, das auf Group Relative Policy Optimization basiert. Omni-R1 trainiert das Globale Analyse-System durch hierarchische Belohnungen, die durch Online-Zusammenarbeit mit dem Detailverständnis-System erzielt werden, wobei nur eine Epoche RL auf kleinen Aufgabenaufteilungen erforderlich ist. Experimente auf zwei anspruchsvollen Benchmarks, nämlich Referring Audio-Visual Segmentation (RefAVS) und Reasoning Video Object Segmentation (REVOS), zeigen, dass Omni-R1 nicht nur starke überwachte Baselines übertrifft, sondern auch spezialisierte State-of-the-Art-Modelle übertrifft, während es die Generalisierung außerhalb der Domäne erheblich verbessert und multimodale Halluzinationen reduziert. Unsere Ergebnisse zeigen die erste erfolgreiche Anwendung von RL auf groß angelegte omnimodale Analyse und heben einen skalierbaren Weg hin zu universellen Foundation- Modellen hervor.
Wir präsentieren REARANK, einen listenbasierten Reasoning-Reranking-Agenten, der auf einem großen Sprachmodell (LLM) basiert. REARANK führt explizites Reasoning durch, bevor es das Reranking vornimmt, was sowohl die Leistung als auch die Interpretierbarkeit deutlich verbessert. Durch den Einsatz von Reinforcement Learning und Datenaugmentierung erzielt REARANK erhebliche Verbesserungen gegenüber Baseline-Modellen in gängigen Information-Retrieval-Benchmarks, wobei bemerkenswerterweise nur 179 annotierte Proben benötigt werden. Aufbauend auf Qwen2.5-7B zeigt unser REARANK-7B eine Leistung, die mit GPT-4 sowohl in domänenspezifischen als auch domänenübergreifenden Benchmarks vergleichbar ist und GPT-4 sogar in reasoning-intensiven BRIGHT-Benchmarks übertrifft. Diese Ergebnisse unterstreichen die Effektivität unseres Ansatzes und zeigen, wie Reinforcement Learning die Reasoning-Fähigkeiten von LLMs im Reranking verbessern kann.
Diskrete Diffusion hat sich kürzlich als vielversprechendes Paradigma in der Modellierung diskreter Daten herausgestellt. Bisherige Methoden basieren jedoch typischerweise auf einer festen Übergangsmatrix während des Trainings, was nicht nur die Ausdrucksfähigkeit latenter Repräsentationen, eine grundlegende Stärke von Variationsmethoden, einschränkt, sondern auch den gesamten Designraum begrenzt. Um diese Einschränkungen zu überwinden, schlagen wir Discrete Markov Bridge vor, ein neuartiges Framework, das speziell für das Lernen diskreter Repräsentationen entwickelt wurde. Unser Ansatz basiert auf zwei Schlüsselkomponenten: Matrix Learning und Score Learning. Wir führen eine rigorose theoretische Analyse durch, in der wir formale Leistungsgarantien für Matrix Learning etablieren und die Konvergenz des gesamten Frameworks beweisen. Darüber hinaus analysieren wir die Raumkomplexität unserer Methode und gehen dabei auf praktische Einschränkungen ein, die in früheren Studien identifiziert wurden. Umfangreiche empirische Auswertungen bestätigen die Wirksamkeit des vorgeschlagenen Discrete Markov Bridge, das auf dem Text8-Datensatz eine Evidence Lower Bound (ELBO) von 1,38 erreicht und damit etablierte Baselines übertrifft. Darüber hinaus zeigt das vorgeschlagene Modell eine wettbewerbsfähige Leistung auf dem CIFAR-10-Datensatz, die mit den Ergebnissen von bildspezifischen Generierungsansätzen vergleichbar ist.
Wir schlagen ein neuronales Physiksystem für Echtzeit- und interaktive Fluidsimulationen vor. Traditionelle physikbasierte Methoden sind zwar präzise, aber rechenintensiv und leiden unter Latenzproblemen. Neuere maschinelle Lernmethoden reduzieren die Rechenkosten bei gleichzeitiger Wahrung der Genauigkeit; dennoch erfüllen die meisten weiterhin nicht die Latenzanforderungen für den Echtzeiteinsatz und bieten keine Unterstützung für interaktive Anwendungen. Um diese Lücke zu schließen, führen wir eine neuartige hybride Methode ein, die numerische Simulation, neuronale Physik und generative Steuerung integriert. Unsere neuronale Physik verfolgt gleichzeitig eine Simulation mit geringer Latenz und hoher physikalischer Genauigkeit, indem sie einen Rückfallmechanismus auf klassische numerische Löser einsetzt. Darüber hinaus entwickeln wir einen diffusionsbasierten Controller, der mithilfe einer umgekehrten Modellierungsstrategie trainiert wird, um externe dynamische Kraftfelder zur Fluidmanipulation zu erzeugen. Unser System zeigt robuste Leistung in verschiedenen 2D/3D-Szenarien, Materialtypen und Hindernisinteraktionen und erreicht Echtzeitsimulationen mit hohen Bildraten (11~29 % Latenz), während es die Fluidsteuerung durch benutzerfreundliche Freihandskizzen ermöglicht. Wir präsentieren einen bedeutenden Schritt hin zu praktischen, kontrollierbaren und physikalisch plausiblen Fluidsimulationen für Echtzeit- und interaktive Anwendungen. Wir versprechen, sowohl die Modelle als auch die Daten nach der Annahme zu veröffentlichen.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten im Bereich Mathematik und Programmieren gezeigt, die oft durch Nachschulung anhand von Gedankenketten (Chain-of-Thoughts, CoTs) stärkerer Modelle weiter verbessert werden. Bisherige Strategien zur Erstellung solcher Trainingsdaten basieren jedoch überwiegend auf Heuristiken, was die Generalisierbarkeit einschränkt und die subtilen Nuancen in den Daten nicht erfasst. Um diese Einschränkungen zu überwinden, nutzen wir Einflussfunktionen, um die Fähigkeit von LLMs im Bereich Mathematik und Programmieren systematisch auf einzelne Trainingsbeispiele, Sequenzen und Tokens zurückzuführen. Dies ermöglicht tiefere Einblicke in effektive Datenmerkmale. Unsere Einflussbasierte Reasoning-Attribution (Infra) deckt nicht-triviale, domänenübergreifende Effekte zwischen Mathematik- und Programmieraufgaben auf: Hochschwierige Mathematikbeispiele verbessern sowohl das mathematische als auch das programmiertechnische Denken, während niedrigschwierige Programmieraufgaben das programmiertechnische Denken am effektivsten fördern. Basierend auf diesen Erkenntnissen führen wir eine einfache, aber effektive Strategie zur Neugewichtung von Datensätzen ein, indem wir die Aufgabenschwierigkeit umkehren. Dies verdoppelt die Genauigkeit bei AIME24 von 10 % auf 20 % und steigert die Genauigkeit bei LiveCodeBench von 33,8 % auf 35,3 % für Qwen2.5-7B-Instruct. Darüber hinaus zeigt unsere feingranulare Attribution, dass explorative Verhaltensweisen auf Sequenzebene die Denkleistung sowohl in Mathematik als auch im Programmieren verbessern und dass die Einflussmuster auf Tokenebene für mathematisches und programmiertechnisches Denken unterschiedlich sind: Erstere bevorzugen logische Verbindungselemente in natürlicher Sprache, während Letztere strukturelle Syntax betonen.
Diese Übersicht bietet eine umfassende Analyse zweier aufkommender Paradigmen in der KI-gestützten Softwareentwicklung: Vibe Coding und Agentic Coding. Beide Ansätze nutzen große Sprachmodelle (LLMs), unterscheiden sich jedoch grundlegend in Bezug auf Autonomie, Architekturdesign und die Rolle des Entwicklers. Vibe Coding betont intuitive, menschzentrierte Interaktion durch promptbasierte, konversationelle Workflows, die Ideenfindung, Experimentieren und kreative Exploration unterstützen. Im Gegensatz dazu ermöglicht Agentic Coding autonome Softwareentwicklung durch zielgerichtete Agenten, die in der Lage sind, Aufgaben zu planen, auszuführen, zu testen und zu iterieren, mit minimalem menschlichem Eingreifen. Wir schlagen eine detaillierte Taxonomie vor, die konzeptionelle Grundlagen, Ausführungsmodelle, Feedback-Schleifen, Sicherheitsmechanismen, Debugging-Strategien und reale Werkzeugökosysteme umfasst. Durch vergleichende Workflow-Analysen und 20 detaillierte Anwendungsfälle zeigen wir, wie Vibe-Systeme in der frühen Prototypenentwicklung und Bildung gedeihen, während Agentic-Systeme in der Unternehmensautomatisierung, Codebase-Refaktorierung und CI/CD-Integration hervorstechen. Wir untersuchen weiterhin aufkommende Trends in hybriden Architekturen, bei denen natürliche Sprachschnittstellen mit autonomen Ausführungspipelines gekoppelt werden. Schließlich skizzieren wir eine zukünftige Roadmap für agentische KI, die die Infrastruktur für vertrauenswürdige, erklärbare und kollaborative Systeme beschreibt. Unsere Erkenntnisse deuten darauf hin, dass erfolgreiche KI-Softwareentwicklung nicht auf der Wahl eines Paradigmas beruht, sondern auf der Harmonisierung ihrer Stärken innerhalb eines einheitlichen, menschzentrierten Entwicklungslebenszyklus.
Moderne große Reasoning-Modelle zeigen beeindruckende Problemlösungsfähigkeiten durch den Einsatz ausgefeilter Reasoning-Strategien. Allerdings haben sie oft Schwierigkeiten, Effizienz und Effektivität in Einklang zu bringen, und erzeugen häufig unnötig lange Reasoning-Ketten für einfache Probleme. In dieser Arbeit schlagen wir AdaCtrl vor, ein neuartiges Framework, das sowohl eine schwierigkeitsabhängige adaptive Zuweisung des Reasoning-Budgets als auch eine explizite Benutzerkontrolle über die Reasoning-Tiefe unterstützt. AdaCtrl passt die Reasoning-Länge dynamisch basierend auf der selbst eingeschätzten Problemschwierigkeit an und ermöglicht es Benutzern gleichzeitig, das Budget manuell zu steuern, um entweder Effizienz oder Effektivität zu priorisieren. Dies wird durch eine zweistufige Trainingspipeline erreicht: eine anfängliche Cold-Start-Fine-Tuning-Phase, um die Fähigkeit zur Selbsteinschätzung der Schwierigkeit und zur Anpassung des Reasoning-Budgets zu vermitteln, gefolgt von einer schwierigkeitsabhängigen Reinforcement-Learning-(RL)-Phase, die die adaptiven Reasoning-Strategien des Modells verfeinert und seine Schwierigkeitseinschätzungen basierend auf seinen sich entwickelnden Fähigkeiten während des Online-Trainings kalibriert. Um eine intuitive Benutzerinteraktion zu ermöglichen, entwerfen wir explizite Längen-Trigger-Tags, die als natürliche Schnittstelle für die Budgetkontrolle fungieren. Empirische Ergebnisse zeigen, dass AdaCtrl die Reasoning-Länge basierend auf der geschätzten Schwierigkeit anpasst. Im Vergleich zum Standard-Training-Baseline, der ebenfalls Fine-Tuning und RL beinhaltet, erzielt es Leistungsverbesserungen und reduziert gleichzeitig die Antwortlänge um 10,06 % und 12,14 % auf den anspruchsvolleren AIME2024- und AIME2025-Datensätzen, die ein ausgefeiltes Reasoning erfordern, und um 62,05 % und 91,04 % auf den MATH500- und GSM8K-Datensätzen, bei denen prägnantere Antworten ausreichen. Darüber hinaus ermöglicht AdaCtrl eine präzise Benutzerkontrolle über das Reasoning-Budget, um maßgeschneiderte Antworten für spezifische Anforderungen zu liefern.
Große Reasoning-Modelle (LRMs) werden dafür kritisiert, dass sie übermäßig lange Denkketten (Chain-of-Thought, CoT) benötigen, um die endgültige Antwort abzuleiten, was zu hoher Latenz beim ersten Token und insgesamt führt. Typischerweise vermischt die CoT von LRMs mehrere Denkeinheiten; jede Einheit versucht, eine mögliche Antwort auf die ursprüngliche Anfrage zu erzeugen. Daher liegt die naheliegende Idee zur Effizienzsteigerung darin, die Anzahl der Einheiten zu reduzieren. Allerdings macht die Tatsache, dass die Denkeinheiten in der herkömmlichen CoT nicht explizit verwaltet werden können, dies zu einer Herausforderung. Dieses Paper stellt Multi-Turn Decomposition (MinD) vor, um die herkömmliche CoT in eine Sequenz expliziter, strukturierter und turn-basierter Interaktionen zu decodieren und so die Lücke zu schließen. In MinD liefert das Modell eine mehrstufige Antwort auf die Anfrage, wobei jede Stufe eine Denkeinheit umfasst und eine entsprechende Antwort liefert. Die nachfolgenden Stufen können die Denkprozesse und Antworten der vorherigen Stufen reflektieren, überprüfen, revidieren oder alternative Ansätze erkunden. Dies ermöglicht nicht nur eine schnellere Antwortlieferung, sondern auch eine explizite Kontrolle über den iterativen Denkprozess (d.h., Benutzer können den Prozess an jeder Stufe anhalten oder fortsetzen). Wir folgen einem Paradigma aus Supervised Fine-Tuning (SFT) und anschließendem Reinforcement Learning (RL), um MinD zu realisieren. Zunächst formulieren wir die Ausgaben eines LRMs in mehrstufige Formate um, indem wir ein weiteres LLM anweisen, und trainieren dann das LRM mit diesen Daten. Da wir beobachten, dass das trainierte Modell tendenziell sogar mehr Tokens verbraucht als das ursprüngliche (wahrscheinlich weil die mehrstufigen Formate zusätzliche Antwort-Tokens einführen), plädieren wir dafür, RL-Algorithmen wie GRPO zu nutzen, um korrekte Ausgaben mit weniger Stufen zu priorisieren. Auf dem MATH-Datensatz mit R1-Distill-Modellen trainiert, kann MinD eine Reduktion der Ausgabe-Tokens und der Zeit bis zum ersten Token (TTFT) von bis zu ~70 % erreichen, während es eine wettbewerbsfähige Leistung auf Reasoning-Benchmarks wie MATH-500, AIME24, AMC23 und GPQA-Diamond beibehält.
Das Visual Autoregressive (VAR) Modell hat aufgrund seines innovativen Ansatzes zur Vorhersage auf der nächsten Skala erhebliche Aufmerksamkeit erregt, was zu deutlichen Verbesserungen in Effizienz, Skalierbarkeit und Zero-Shot-Generalisierung führt. Dennoch führt die in VAR inhärente Methode von grob zu fein zu einem exponentiellen Wachstum des KV-Caches während der Inferenz, was erheblichen Speicherverbrauch und Rechenredundanz verursacht. Um diese Engpässe zu adressieren, stellen wir ScaleKV vor, ein neuartiges KV-Cache-Kompressionsframework, das speziell für VAR-Architekturen entwickelt wurde. ScaleKV nutzt zwei kritische Beobachtungen: unterschiedliche Cache-Anforderungen über die Transformer-Schichten hinweg und unterschiedliche Aufmerksamkeitsmuster auf verschiedenen Skalen. Basierend auf diesen Erkenntnissen kategorisiert ScaleKV die Transformer-Schichten in zwei funktionale Gruppen: Drafters und Refiners. Drafters zeigen eine verteilte Aufmerksamkeit über mehrere Skalen hinweg und benötigen daher eine größere Cache-Kapazität. Im Gegensatz dazu konzentrieren Refiners die Aufmerksamkeit auf die aktuelle Token-Map, um lokale Details zu verarbeiten, was folglich eine deutlich reduzierte Cache-Kapazität erfordert. ScaleKV optimiert die Multi-Scale-Inferenzpipeline, indem es skalen-spezifische Drafters und Refiners identifiziert und so eine differenzierte Cache-Verwaltung ermöglicht, die auf jede Skala zugeschnitten ist. Die Evaluierung auf der state-of-the-art Text-zu-Bild-VAR-Modellfamilie, Infinity, zeigt, dass unser Ansatz den benötigten KV-Cache-Speicher effektiv auf 10 % reduziert, während die Pixelgenauigkeit erhalten bleibt.
Gesprochene Sprache vermittelt Bedeutung nicht nur durch Worte, sondern auch durch Intonation, Emotion und Betonung. Satzbetonung, die Hervorhebung bestimmter Wörter innerhalb eines Satzes, ist entscheidend für die Vermittlung der Sprecherabsicht und wurde in der Linguistik ausführlich untersucht. In dieser Arbeit stellen wir WHISTRESS vor, einen alignierungsfreien Ansatz zur Verbesserung von Transkriptionssystemen mit Satzbetonungserkennung. Zur Unterstützung dieser Aufgabe schlagen wir TINYSTRESS-15K vor, ein skalierbares, synthetisches Trainingsdatenmaterial für die Aufgabe der Satzbetonungserkennung, das aus einem vollständig automatisierten Datensatz-Erstellungsprozess resultiert. Wir trainieren WHISTRESS auf TINYSTRESS-15K und bewerten es gegen mehrere wettbewerbsfähige Baselines. Unsere Ergebnisse zeigen, dass WHISTRESS bestehende Methoden übertrifft, während es während des Trainings oder der Inferenz keine zusätzlichen Eingabeprioritäten benötigt. Bemerkenswerterweise zeigt WHISTRESS trotz des Trainings auf synthetischen Daten eine starke Zero-Shot-Generalisierung über diverse Benchmarks hinweg. Projektseite: https://pages.cs.huji.ac.il/adiyoss-lab/whistress.
Langkettige Denkprozesse (Chain-of-Thought, CoT) verbessern die Fähigkeiten großer Sprachmodelle (Large Language Models, LLM) zur logischen Schlussfolgerung erheblich. Die umfangreichen Denkspuren führen jedoch zu Ineffizienzen und einer erhöhten Zeit bis zum ersten Token (Time-to-First-Token, TTFT). Wir schlagen ein neuartiges Trainingsparadigma vor, das Verstärkungslernen (Reinforcement Learning, RL) nutzt, um LLMs bei der Bearbeitung von Multi-Hop-Fragen dazu anzuleiten, Denken und Antworten zu verschachteln. Wir beobachten, dass Modelle von Natur aus die Fähigkeit besitzen, verschachteltes Denken durchzuführen, was durch RL weiter verbessert werden kann. Wir führen eine einfache, aber effektive regelbasierte Belohnung ein, um korrekte Zwischenschritte zu fördern, wodurch das Policy-Modell durch die Nutzung von Zwischensignalen, die während des verschachtelten Denkens erzeugt werden, auf korrekte Denkpfade gelenkt wird. Umfangreiche Experimente, die über fünf verschiedene Datensätze und drei RL-Algorithmen (PPO, GRPO und REINFORCE++) durchgeführt wurden, zeigen konsistente Verbesserungen gegenüber dem traditionellen Denken-Antworten-Ansatz, ohne dass externe Tools erforderlich sind. Insbesondere reduziert unser Ansatz die TTFT im Durchschnitt um über 80 % und verbessert die Pass@1-Genauigkeit um bis zu 19,3 %. Darüber hinaus zeigt unsere Methode, die ausschließlich auf Frage-Antwort- und logischen Schlussfolgerungsdatensätzen trainiert wurde, eine starke Generalisierungsfähigkeit auf komplexe Schlussfolgerungsdatensätze wie MATH, GPQA und MMLU. Zusätzlich führen wir eine detaillierte Analyse durch, um mehrere wertvolle Erkenntnisse zur bedingten Belohnungsmodellierung zu gewinnen.
Datenzentrierte Destillation, einschließlich Datenaugmentierung, -auswahl und -mischung, bietet einen vielversprechenden Weg zur Erstellung kleinerer, effizienterer Schüler-Large Language Models (LLMs), die starke Fähigkeiten zur logischen Schlussfolgerung beibehalten. Es fehlt jedoch noch ein umfassender Benchmark, um die Auswirkungen jedes Destillationsansatzes systematisch zu bewerten. Dieses Papier stellt DC-CoT vor, den ersten datenzentrierten Benchmark, der die Datenmanipulation bei der Chain-of-Thought (CoT)-Destillation aus methodischer, modell- und datenbezogener Perspektive untersucht. Unter Verwendung verschiedener Lehrermodelle (z. B. o4-mini, Gemini-Pro, Claude-3.5) und Schülerarchitekturen (z. B. 3B, 7B Parameter) bewerten wir rigoros die Auswirkungen dieser Datenmanipulationen auf die Leistung der Schülermodelle über mehrere logische Schlussfolgerungsdatensätze hinweg, mit einem Fokus auf In-Distribution (IID)- und Out-of-Distribution (OOD)-Generalisierung sowie domänenübergreifenden Transfer. Unsere Ergebnisse sollen umsetzbare Erkenntnisse liefern und Best Practices für die Optimierung der CoT-Destillation durch datenzentrierte Techniken etablieren, um letztendlich die Entwicklung zugänglicherer und leistungsfähigerer Modelle zur logischen Schlussfolgerung zu erleichtern. Der Datensatz ist unter https://huggingface.co/datasets/rana-shahroz/DC-COT zu finden, während unser Code unter https://anonymous.4open.science/r/DC-COT-FF4C/ geteilt wird.
Vision-Language Models (VLMs) glänzen in vielen direkten multimodalen Aufgaben, haben jedoch Schwierigkeiten, diese Fähigkeiten in effektive Entscheidungsfindung in interaktiven, visuell reichhaltigen Umgebungen wie Spielen zu übertragen. Diese „Wissen-Handeln“-Lücke schränkt ihr Potenzial als autonome Agenten erheblich ein, da führende VLMs oft in einfachen Spielen schlecht abschneiden. Um dies zu adressieren, stellen wir VLM-Gym vor, eine kuratierte Reinforcement-Learning (RL)-Umgebung, die diverse visuelle Spiele mit einheitlichen Schnittstellen und anpassbarer, kompositioneller Schwierigkeit bietet, speziell entwickelt für skalierbares Multi-Game-Parallel-Training. Mit VLM-Gym trainieren wir G0-Modelle mittels reinem RL-gesteuertem Selbstentwicklungsprozess, die emergente Wahrnehmungs- und Denkmuster demonstrieren. Um die Herausforderungen durch die Spielvielfalt weiter zu mildern, entwickeln wir G1-Modelle. G1 integriert eine wahrnehmungsgesteuerte Kaltstartphase vor dem RL-Feintuning. Unsere resultierenden G1-Modelle übertreffen konsequent ihre Lehrer in allen Spielen und übertreffen führende proprietäre Modelle wie Claude-3.7-Sonnet-Thinking. Systematische Analysen offenbaren eine interessante Erkenntnis: Wahrnehmungs- und Denkfähigkeiten bootstrappen sich gegenseitig während des RL-Trainingsprozesses. Der Quellcode, einschließlich VLM-Gym und RL-Training, wird unter https://github.com/chenllliang/G1 veröffentlicht, um zukünftige Forschung zur Weiterentwicklung von VLMs als fähige interaktive Agenten zu fördern.
Durch die Nutzung von kontrastiv trainierten visuellen Encodern auf groß angelegten natürlichen Szenenbildern haben Large Multimodal Models (LMMs) bemerkenswerte Leistungen in verschiedenen visuellen Wahrnehmungsaufgaben erzielt. Die inhärenten Grenzen des kontrastiven Lernens auf der Grundlage von zusammengefassten Beschreibungen schränken jedoch grundlegend die Fähigkeiten der Modelle in Bezug auf sorgfältiges logisches Denken ein, insbesondere in entscheidenden Szenarien der geometrischen Problemlösung. Um das geometrische Verständnis zu verbessern, schlagen wir ein neuartiges Framework für kontrastives Lernen mit harten Negativbeispielen für den visuellen Encoder vor, das bildbasiertes kontrastives Lernen unter Verwendung von generierungsbasierten harten Negativbeispielen, die durch Störung des Diagrammgenerierungscodes erstellt werden, und textbasiertes kontrastives Lernen mit regelbasierten Negativbeispielen, die aus modifizierten geometrischen Beschreibungen abgeleitet werden, sowie retrieval-basierten Negativbeispielen, die auf der Ähnlichkeit von Bildunterschriften ausgewählt werden, kombiniert. Wir trainieren CLIP mit unserer Methode des starken negativen Lernens, genannt MMCLIP (Multimodal Math CLIP), und trainieren anschließend ein LMM für die Lösung geometrischer Probleme. Experimente zeigen, dass unser trainiertes Modell, MMGeoLM, andere Open-Source-Modelle auf drei geometrischen Reasoning-Benchmarks deutlich übertrifft. Selbst mit einer Größe von 7B kann es leistungsstarke Closed-Source-Modelle wie GPT-4o konkurrieren. Wir untersuchen weiterhin die Auswirkungen verschiedener Methoden zur Konstruktion von Negativbeispielen und die Anzahl der Negativbeispiele auf die geometrische Reasoning-Leistung von LMM, was zu fruchtbaren Erkenntnissen führt. Der Code und der Datensatz sind unter https://github.com/THU-KEG/MMGeoLM verfügbar.
Jüngste Fortschritte bei Video-Generierungsmodellen haben das Interesse an Weltmodellen geweckt, die realistische Umgebungen simulieren können. Während Navigation bereits gut erforscht wurde, bleiben physikalisch bedeutsame Interaktionen, die reale Kräfte nachahmen, weitgehend unerforscht. In dieser Arbeit untersuchen wir die Verwendung physikalischer Kräfte als Steuersignal für die Video-Generierung und schlagen Kraft-Prompts vor, die es Benutzern ermöglichen, mit Bildern sowohl durch lokalisierte Punktkräfte, wie das Berühren einer Pflanze, als auch durch globale Windkraftfelder, wie Wind, der auf Stoff wirkt, zu interagieren. Wir zeigen, dass diese Kraft-Prompts Videos ermöglichen, realistisch auf physikalische Steuersignale zu reagieren, indem sie das visuelle und Bewegungs-Prior des ursprünglich vortrainierten Modells nutzen, ohne dabei auf 3D-Assets oder Physik-Simulatoren während der Inferenz zurückzugreifen. Die Hauptherausforderung bei der Kraft-Prompting liegt in der Schwierigkeit, hochwertige gepaarte Kraft-Video-Trainingsdaten zu erhalten, sowohl in der realen Welt aufgrund der Schwierigkeit, Kraftsignale zu erfassen, als auch bei synthetischen Daten aufgrund von Einschränkungen in der visuellen Qualität und Domänenvielfalt von Physik-Simulatoren. Unsere zentrale Erkenntnis ist, dass Video-Generierungsmodelle bemerkenswert gut generalisieren können, wenn sie an die Bedingung durch physikalische Kräfte aus Videos, die mit Blender synthetisiert wurden, angepasst werden, selbst mit begrenzten Demonstrationen weniger Objekte. Unsere Methode kann Videos generieren, die Kräfte über diverse Geometrien, Umgebungen und Materialien hinweg simulieren. Wir versuchen auch, die Quelle dieser Generalisierung zu verstehen und führen Ablationen durch, die zwei Schlüsselelemente offenbaren: visuelle Vielfalt und die Verwendung spezifischer Text-Schlüsselwörter während des Trainings. Unser Ansatz wird mit nur etwa 15.000 Trainingsbeispielen für einen einzigen Tag auf vier A100-GPUs trainiert und übertrifft bestehende Methoden in Bezug auf Kraftadhärenz und physikalische Realismus, wodurch Weltmodelle näher an realen physikalischen Interaktionen gebracht werden. Wir veröffentlichen alle Datensätze, Code, Gewichte und interaktive Video-Demos auf unserer Projektseite.
Jüngste Fortschritte bei KI-Agenten haben ihr wachsendes Potenzial gezeigt, wissenschaftliche Entdeckungen voranzutreiben und zu unterstützen. In dieser Arbeit stellen wir MLR-Bench vor, einen umfassenden Benchmark zur Bewertung von KI-Agenten in der offenen Forschung des maschinellen Lernens. MLR-Bench umfasst drei Schlüsselkomponenten: (1) 201 Forschungsaufgaben, die aus Workshops von NeurIPS, ICLR und ICML stammen und verschiedene ML-Themen abdecken; (2) MLR-Judge, ein automatisiertes Bewertungsframework, das LLM-basierte Gutachter mit sorgfältig gestalteten Bewertungskriterien kombiniert, um die Forschungsqualität zu beurteilen; und (3) MLR-Agent, ein modularer Agentenrahmen, der in der Lage ist, Forschungsaufgaben in vier Phasen zu bearbeiten: Ideengenerierung, Vorschlagsformulierung, Experimentierung und Artikelverfassung. Unser Framework unterstützt sowohl die schrittweise Bewertung über diese verschiedenen Forschungsphasen hinweg als auch die End-to-End-Bewertung des finalen Forschungsartikels. Anschließend verwenden wir MLR-Bench, um sechs fortschrittliche LLMs und einen fortgeschrittenen Code-Agenten zu bewerten. Dabei stellen wir fest, dass LLMs zwar effektiv kohärente Ideen und gut strukturierte Artikel generieren können, aktuelle Code-Agenten jedoch häufig (z. B. in 80 % der Fälle) fabrizierte oder nicht validierte experimentelle Ergebnisse liefern – was ein erhebliches Hindernis für die wissenschaftliche Zuverlässigkeit darstellt. Wir validieren MLR-Judge durch menschliche Bewertungen, die eine hohe Übereinstimmung mit Experten-Gutachtern zeigen, und unterstützen damit sein Potenzial als skalierbares Tool für die Forschungsbewertung. Wir stellen MLR-Bench als Open-Source zur Verfügung, um der Community zu helfen, KI-Forschungsagenten zu benchmarken, zu diagnostizieren und zu verbessern, hin zu vertrauenswürdiger und transparenter wissenschaftlicher Entdeckung.
Dieses Papier stellt InfantAgent-Next vor, einen generalistischen Agenten, der in der Lage ist, multimodal mit Computern zu interagieren, einschließlich Text, Bildern, Audio und Video. Im Gegensatz zu bestehenden Ansätzen, die entweder komplexe Workflows um ein einzelnes großes Modell herum aufbauen oder lediglich Workflow-Modularität bieten, integriert unser Agent werkzeugbasierte und rein visuelle Agenten in einer hochgradig modularen Architektur. Dies ermöglicht es verschiedenen Modellen, gemeinsam entkoppelte Aufgaben schrittweise zu lösen. Unsere Allgemeingültigkeit wird dadurch demonstriert, dass wir nicht nur rein visuell basierte Benchmarks der realen Welt (z. B. OSWorld), sondern auch allgemeinere oder werkzeugintensive Benchmarks (z. B. GAIA und SWE-Bench) bewerten können. Insbesondere erreichen wir eine Genauigkeit von 7,27 % auf OSWorld, was höher ist als bei Claude-Computer-Use. Die Codes und Evaluierungsskripte sind unter https://github.com/bin123apple/InfantAgent quelloffen verfügbar.
Die steigenden Rechenanforderungen großer Sprachmodelle (LLMs) machen effiziente Inferenz- und Aktivierungsstrategien zunehmend kritisch. Während aktuelle Ansätze wie Mixture-of-Experts (MoE) selektive Aktivierung nutzen, jedoch spezialisiertes Training erfordern, bieten trainingsfreie spärliche Aktivierungsmethoden durch ihren Plug-and-Play-Ansatz breitere Anwendbarkeit und überlegene Ressourceneffizienz. Viele bestehende Methoden verlassen sich jedoch ausschließlich auf die Größen der verborgenen Zustände, um die Aktivierung zu bestimmen, was zu hohen Approximationsfehlern und suboptimaler Inferenzgenauigkeit führt. Um diese Einschränkungen zu adressieren, schlagen wir WINA (Weight Informed Neuron Activation) vor, ein neuartiges, einfaches und trainingsfreies spärliches Aktivierungsframework, das sowohl die Größen der verborgenen Zustände als auch die spaltenweisen ℓ₂-Normen der Gewichtsmatrizen gemeinsam berücksichtigt. Wir zeigen, dass dies zu einer Sparsifizierungsstrategie führt, die optimale Approximationsfehlergrenzen mit theoretisch engeren Garantien als bestehende Techniken erreicht. Empirisch übertrifft WINA auch state-of-the-art Methoden (z. B. TEAL) um bis zu 2,94 % in der durchschnittlichen Leistung bei gleichen Sparsitätsniveaus über eine Vielzahl von LLM-Architekturen und Datensätzen hinweg. Diese Ergebnisse positionieren WINA als eine neue Leistungsgrenze für trainingsfreie spärliche Aktivierung in der LLM-Inferenz, die trainingsfreie spärliche Aktivierungsmethoden vorantreibt und eine robuste Baseline für effiziente Inferenz setzt. Der Quellcode ist unter https://github.com/microsoft/wina verfügbar.
Jüngste Fortschritte in der automatischen Spracherkennung (Automatic Speech Recognition, ASR) wurden maßgeblich durch umfangreiche Sprachkorpora vorangetrieben. Die Erweiterung der Abdeckung auf diverse Sprachen mit begrenzten Ressourcen bleibt jedoch eine beträchtliche Herausforderung. Dieses Papier stellt Speech Back-Translation vor, eine skalierbare Pipeline, die mehrsprachige ASR-Modelle verbessert, indem große Textkorpora mithilfe von verfügbaren Text-zu-Sprache-Modellen (Text-to-Speech, TTS) in synthetische Sprache umgewandelt werden. Wir zeigen, dass bereits einige Dutzend Stunden transkribierter realer Sprache ausreichen, um TTS-Modelle effektiv zu trainieren, die synthetische Sprache in einem Umfang von mehreren hundert Mal der ursprünglichen Menge bei hoher Qualität erzeugen können. Um die Qualität der synthetischen Sprache zu bewerten, entwickeln wir ein auf Verständlichkeit basierendes Bewertungsframework und legen klare Schwellenwerte fest, ab denen synthetische Daten das ASR-Training verbessern. Mit Speech Back-Translation erzeugen wir mehr als 500.000 Stunden synthetischer Sprache in zehn Sprachen und setzen das Vortraining von Whisper-large-v3 fort, wodurch wir durchschnittliche Reduktionen der Transkriptionsfehler von über 30\% erreichen. Diese Ergebnisse unterstreichen die Skalierbarkeit und Effektivität von Speech Back-Translation zur Verbesserung mehrsprachiger ASR-Systeme.
Multimodale Large Language Models (MLLMs) haben bemerkenswerte Fähigkeiten in verschiedenen Aufgaben gezeigt, liegen jedoch in Bezug auf räumliches Denken deutlich hinter dem Menschen zurück. Wir untersuchen diese Lücke durch Transformation-Driven Visual Reasoning (TVR), eine anspruchsvolle Aufgabe, die die Identifikation von Objekttransformationen über Bilder unter variierenden Blickwinkeln erfordert. Während traditionelles Supervised Fine-Tuning (SFT) in cross-view-Szenarien keine kohärenten Denkpfade erzeugen kann, leidet spärlich belohntes Reinforcement Learning (RL) unter ineffizienter Exploration und langsamer Konvergenz. Um diese Einschränkungen zu überwinden, schlagen wir STAR-R1 vor, ein neuartiges Framework, das ein einstufiges RL-Paradigma mit einem fein abgestimmten Belohnungsmechanismus speziell für TVR kombiniert. Konkret belohnt STAR-R1 teilweise Korrektheit, während es übermäßige Enumeration und passive Untätigkeit bestraft, wodurch effiziente Exploration und präzises Denken ermöglicht werden. Umfassende Auswertungen zeigen, dass STAR-R1 in allen 11 Metriken state-of-the-art Leistungen erzielt und SFT in cross-view-Szenarien um 23 % übertrifft. Weitere Analysen offenbaren das anthropomorphe Verhalten von STAR-R1 und unterstreichen seine einzigartige Fähigkeit, alle Objekte zu vergleichen, um das räumliche Denken zu verbessern. Unsere Arbeit liefert entscheidende Erkenntnisse für die Weiterentwicklung der Forschung zu MLLMs und Denkmodellen. Die Codes, Modellgewichte und Daten werden unter https://github.com/zongzhao23/STAR-R1 öffentlich verfügbar sein.
Während Masked Diffusion Models (MDMs) wie LLaDA ein vielversprechendes Paradigma für Sprachmodellierung darstellen, wurde bisher relativ wenig Aufwand in die Ausrichtung dieser Modelle an menschlichen Präferenzen mittels Reinforcement Learning investiert. Die Herausforderung ergibt sich hauptsächlich aus der hohen Varianz in den auf der Evidence Lower Bound (ELBO) basierenden Wahrscheinlichkeitsschätzungen, die für die Präferenzoptimierung erforderlich sind. Um dieses Problem zu lösen, schlagen wir Variance-Reduced Preference Optimization (VRPO) vor, ein Framework, das die Varianz von ELBO-Schätzern formal analysiert und Grenzen für sowohl die Verzerrung als auch die Varianz der Präferenzoptimierungsgradienten ableitet. Auf dieser theoretischen Grundlage aufbauend führen wir unverzerrte Varianzreduktionsstrategien ein, einschließlich optimaler Monte-Carlo-Budgetzuweisung und antithetischer Stichprobenziehung, die die Leistung der MDM-Ausrichtung erheblich verbessern. Wir demonstrieren die Wirksamkeit von VRPO, indem wir es auf LLaDA anwenden, und das resultierende Modell, LLaDA 1.5, übertrifft seinen rein auf Supervised Fine-Tuning (SFT) basierenden Vorgänger konsistent und signifikant in mathematischen (GSM8K +4.7), Code- (HumanEval +3.0, MBPP +1.8) und Ausrichtungs-Benchmarks (IFEval +4.0, Arena-Hard +4.3). Darüber hinaus zeigt LLaDA 1.5 eine äußerst wettbewerbsfähige mathematische Leistung im Vergleich zu starken Sprach-MDMs und ARMs. Projektseite: https://ml-gsai.github.io/LLaDA-1.5-Demo/.
Große Sprachmodelle glänzen bei der Mustererkennung, scheitern jedoch oft an systematischer kompositioneller Generalisierung. Wir schlagen das Coverage-Prinzip vor: ein datenzentriertes Framework, das zeigt, dass Modelle, die sich hauptsächlich auf Mustererkennung für kompositionelle Aufgaben verlassen, nicht zuverlässig über die Substitution von Fragmenten hinaus generalisieren können, die in denselben Kontexten identische Ergebnisse liefern. Wir demonstrieren, dass dieses Framework eine starke Vorhersagekraft für die Generalisierungsfähigkeiten von Transformern besitzt. Erstens leiten wir ab und bestätigen empirisch, dass die für Zwei-Hop-Generalisierung erforderlichen Trainingsdaten mindestens quadratisch mit der Größe des Tokensatzes wachsen und die Effizienz der Trainingsdaten sich bei einer 20-fachen Parameterskalierung nicht verbessert. Zweitens zeigen wir für kompositionelle Aufgaben mit Pfadmehrdeutigkeit, bei denen eine Variable die Ausgabe über mehrere Berechnungspfade beeinflusst, dass Transformer kontextabhängige Zustandsrepräsentationen lernen, die sowohl die Leistung als auch die Interoperabilität untergraben. Drittens verbessert die Chain-of-Thought-Supervision die Effizienz der Trainingsdaten für Multi-Hop-Aufgaben, kämpft jedoch weiterhin mit Pfadmehrdeutigkeit. Schließlich skizzieren wir eine mechanismenbasierte Taxonomie, die drei Arten der Generalisierung in neuronalen Netzen unterscheidet: strukturbasiert (begrenzt durch Coverage), eigenschaftsbasiert (Nutzung algebraischer Invarianzen) und geteilter Operator (durch Wiederverwendung von Funktionen). Diese konzeptionelle Linse kontextualisiert unsere Ergebnisse und zeigt, wo neue architektonische Ideen benötigt werden, um systematische Kompositionalität zu erreichen. Insgesamt bietet das Coverage-Prinzip eine einheitliche Perspektive zum Verständnis kompositionellen Denkens und unterstreicht die Notwendigkeit grundlegender architektonischer oder Trainingsinnovationen, um echte systematische Kompositionalität zu erreichen.
State-of-the-art-Mitgliedschafts-Inferenzangriffe (MIAs) erfordern typischerweise das Training vieler Referenzmodelle, was es schwierig macht, diese Angriffe auf große vortrainierte Sprachmodelle (LLMs) zu skalieren. Infolgedessen hat sich die bisherige Forschung entweder auf schwächere Angriffe gestützt, die das Training von Referenzmodellen vermeiden (z. B. Fine-Tuning-Angriffe), oder auf stärkere Angriffe, die auf kleinere Modelle und Datensätze angewendet wurden. Schwächere Angriffe haben sich jedoch als brüchig erwiesen – sie erreichen nahezu willkürliche Erfolgsraten – und Erkenntnisse aus starken Angriffen in vereinfachten Settings lassen sich nicht auf die heutigen LLMs übertragen. Diese Herausforderungen haben eine wichtige Frage aufgeworfen: Sind die in früheren Arbeiten beobachteten Einschränkungen auf die Angriffsdesign-Entscheidungen zurückzuführen, oder sind MIAs grundsätzlich bei LLMs unwirksam? Wir gehen dieser Frage nach, indem wir LiRA – einen der stärksten MIAs – auf GPT-2-Architekturen mit 10M bis 1B Parametern skalieren und Referenzmodelle auf über 20B Tokens aus dem C4-Datensatz trainieren. Unsere Ergebnisse erweitern das Verständnis von MIAs auf LLMs in drei entscheidenden Aspekten: (1) starke MIAs können bei vortrainierten LLMs erfolgreich sein; (2) ihre Wirksamkeit bleibt jedoch in praktischen Anwendungen begrenzt (z. B. AUC<0,7); und (3) die Beziehung zwischen dem Erfolg von MIAs und verwandten Datenschutzmetriken ist nicht so eindeutig, wie frühere Arbeiten nahegelegt haben.
Foundation Models werden zunehmend bessere autonome Programmierer, was die Aussicht eröffnet, dass sie auch gefährliche offensive Cyber-Operationen automatisieren könnten. Aktuelle Audits von Frontier-Modellen untersuchen die Cybersicherheitsrisiken solcher Agenten, aber die meisten berücksichtigen nicht die Freiheitsgrade, die Angreifern in der realen Welt zur Verfügung stehen. Insbesondere mit starken Verifizierern und finanziellen Anreizen sind Agenten für offensive Cybersicherheit anfällig für iterative Verbesserungen durch potenzielle Angreifer. Wir argumentieren, dass Bewertungen ein erweitertes Bedrohungsmodell im Kontext der Cybersicherheit berücksichtigen sollten, das die unterschiedlichen Freiheitsgrade betont, die ein Angreifer in zustandsbehafteten und zustandslosen Umgebungen innerhalb eines festen Rechenbudgets besitzen kann. Wir zeigen, dass selbst mit einem relativ kleinen Rechenbudget (8 H100 GPU-Stunden in unserer Studie) Angreifer die Cybersicherheitsfähigkeit eines Agenten auf InterCode CTF um mehr als 40 % im Vergleich zur Baseline verbessern können – ohne jegliche externe Unterstützung. Diese Ergebnisse unterstreichen die Notwendigkeit, das Cybersicherheitsrisiko von Agenten auf dynamische Weise zu bewerten, um ein repräsentativeres Bild des Risikos zu zeichnen.
Traditionelles Reinforcement Learning from Human Feedback (RLHF) stützt sich oft auf Belohnungsmodelle, die häufig Präferenzstrukturen wie das Bradley-Terry-Modell annehmen, welche die Komplexität realer menschlicher Präferenzen (z. B. Intransitivität) möglicherweise nicht genau erfassen. Nash Learning from Human Feedback (NLHF) bietet eine direktere Alternative, indem es das Problem als die Suche nach einem Nash-Gleichgewicht eines durch diese Präferenzen definierten Spiels formuliert. In dieser Arbeit stellen wir Nash Mirror Prox (Nash-MP) vor, einen Online-NLHF-Algorithmus, der das Mirror-Prox-Optimierungsschema nutzt, um eine schnelle und stabile Konvergenz zum Nash-Gleichgewicht zu erreichen. Unsere theoretische Analyse zeigt, dass Nash-MP eine letztiterative lineare Konvergenz zum beta-regularierten Nash-Gleichgewicht aufweist. Insbesondere beweisen wir, dass die KL-Divergenz zur optimalen Politik mit einer Rate der Ordnung (1+2beta)^{-N/2} abnimmt, wobei N die Anzahl der Präferenzabfragen ist. Wir zeigen weiterhin eine letztiterative lineare Konvergenz für die Exploitability-Lücke und gleichmäßig für die Span-Halbnorm der Log-Wahrscheinlichkeiten, wobei alle diese Raten unabhängig von der Größe des Aktionsraums sind. Darüber hinaus schlagen wir eine approximative Version von Nash-MP vor und analysieren sie, bei der proximale Schritte mithilfe stochastischer Politikgradienten geschätzt werden, wodurch der Algorithmus näher an Anwendungen heranrückt. Schließlich erläutern wir eine praktische Implementierungsstrategie zur Feinabstimmung großer Sprachmodelle und präsentieren Experimente, die ihre wettbewerbsfähige Leistung und Kompatibilität mit bestehenden Methoden demonstrieren.
Reinforcement Learning zeigt Potenzial bei der Verbesserung der Denkfähigkeiten großer Sprachmodelle, ist jedoch aufgrund der geringen Stichprobeneffizienz während der Rollout-Phase schwer skalierbar. Bestehende Methoden versuchen, die Effizienz durch die Planung von Problemen basierend auf deren Schwierigkeitsgrad zu verbessern. Diese Ansätze leiden jedoch unter instabilen und verzerrten Schätzungen des Schwierigkeitsgrads von Problemen und erfassen nicht die Übereinstimmung zwischen der Modellkompetenz und dem Schwierigkeitsgrad während des RL-Trainings, was zu suboptimalen Ergebnissen führt. Um diese Einschränkungen zu überwinden, stellt diese Arbeit das Competence-Difficulty Alignment Sampling (CDAS) vor, das eine genaue und stabile Schätzung des Schwierigkeitsgrads von Problemen durch die Aggregation historischer Leistungsunterschiede ermöglicht. Anschließend wird die Modellkompetenz quantifiziert, um adaptiv Probleme auszuwählen, deren Schwierigkeitsgrad mit der aktuellen Kompetenz des Modells übereinstimmt, wobei ein Fixpunktsystem verwendet wird. Experimentelle Ergebnisse über eine Reihe anspruchsvoller mathematischer Benchmarks zeigen, dass CDAS sowohl in Bezug auf Genauigkeit als auch Effizienz erhebliche Verbesserungen erzielt. CDAS erreicht die höchste durchschnittliche Genauigkeit im Vergleich zu den Baselines und weist signifikante Geschwindigkeitsvorteile gegenüber Dynamic Sampling auf, einer konkurrenzfähigen Strategie in DAPO, die 2,33-mal langsamer ist als CDAS.
Mit dem zunehmenden Erfolg von Reasoning-Modellen bei komplexen Aufgaben der natürlichen Sprachverarbeitung haben Forscher in der Information-Retrieval-(IR)-Community begonnen zu untersuchen, wie ähnliche Reasoning-Fähigkeiten in Passagen-Reranker integriert werden können, die auf Large Language Models (LLMs) basieren. Diese Methoden verwenden typischerweise ein LLM, um einen expliziten, schrittweisen Reasoning-Prozess zu erzeugen, bevor eine endgültige Relevanzvorhersage getroffen wird. Aber verbessert Reasoning tatsächlich die Genauigkeit des Rerankings? In diesem Artikel gehen wir dieser Frage tiefer auf den Grund, indem wir die Auswirkungen des Reasoning-Prozesses untersuchen, indem wir Reasoning-basierte punktweise Reranker (ReasonRR) mit standardmäßigen, nicht-reasoning-basierten punktweisen Rerankern (StandardRR) unter identischen Trainingsbedingungen vergleichen. Dabei stellen wir fest, dass StandardRR im Allgemeinen besser abschneidet als ReasonRR. Aufbauend auf dieser Beobachtung untersuchen wir dann die Bedeutung des Reasoning für ReasonRR, indem wir dessen Reasoning-Prozess deaktivieren (ReasonRR-NoReason), und stellen fest, dass ReasonRR-NoReason überraschenderweise effektiver ist als ReasonRR. Bei der Untersuchung der Ursache dieses Ergebnisses zeigen unsere Erkenntnisse, dass Reasoning-basierte Reranker durch den Reasoning-Prozess des LLMs eingeschränkt werden, der es zu polarisierten Relevanzbewertungen drängt und somit die partielle Relevanz von Passagen nicht berücksichtigt, ein entscheidender Faktor für die Genauigkeit von punktweisen Rerankern.
Sparse Autoencoder (SAEs) sind ein wichtiges Werkzeug in der mechanistischen Interpretierbarkeit (MI), um Aktivierungen in neuronalen Netzwerken in interpretierbare Merkmale zu zerlegen. Das Bestreben, einen kanonischen Satz von Merkmalen zu identifizieren, wird jedoch durch die beobachtete Inkonsistenz der gelernten SAE-Merkmale über verschiedene Trainingsläufe hinweg erschwert, was die Zuverlässigkeit und Effizienz der MI-Forschung untergräbt. Dieses Positionspapier argumentiert, dass die mechanistische Interpretierbarkeit die Merkmalskonsistenz in SAEs priorisieren sollte – die zuverlässige Konvergenz zu äquivalenten Merkmalssätzen über unabhängige Läufe hinweg. Wir schlagen vor, den Pairwise Dictionary Mean Correlation Coefficient (PW-MCC) als praktische Metrik zur Operationalisierung der Konsistenz zu verwenden, und zeigen, dass hohe Werte (0,80 für TopK-SAEs bei LLM-Aktivierungen) mit geeigneten architektonischen Entscheidungen erreichbar sind. Unsere Beiträge umfassen die Darlegung der Vorteile einer Priorisierung der Konsistenz; die Bereitstellung einer theoretischen Grundlage und synthetischen Validierung mithilfe eines Modellorganismus, die den PW-MCC als zuverlässigen Proxy für die Wiederherstellung der Grundwahrheit bestätigt; und die Erweiterung dieser Erkenntnisse auf reale LLM-Daten, bei denen eine hohe Merkmalskonsistenz stark mit der semantischen Ähnlichkeit der gelernten Merkmalserklärungen korreliert. Wir fordern einen gemeinschaftlichen Wandel hin zur systematischen Messung der Merkmalskonsistenz, um einen robusten kumulativen Fortschritt in der MI zu fördern.
Große Sprachmodelle (LLMs) haben hervorragende Fähigkeiten im Bereich der biomedizinischen Frage-Antwort-Systeme gezeigt, doch ihre Anwendung in realen klinischen Konsultationen steht weiterhin vor zentralen Herausforderungen. Bestehende Systeme basieren auf einem einseitigen Informationsübertragungsmodus, bei dem Patienten ihre Symptome in einer einzigen Runde vollständig beschreiben müssen, was zu unspezifischen Diagnoseempfehlungen führt, wenn die Beschwerden vage sind. Traditionelle mehrstufige Dialogmethoden, die auf überwachtem Lernen basieren, sind durch statische, datengetriebene Paradigmen eingeschränkt, weisen mangelnde Generalisierbarkeit auf und haben Schwierigkeiten, klinische Schlüsselinformationen intelligent zu extrahieren. Um diese Einschränkungen zu überwinden, schlagen wir DoctorAgent-RL vor, ein auf Reinforcement Learning (RL) basierendes Multi-Agenten-Kollaborationsframework, das medizinische Konsultationen als dynamischen Entscheidungsprozess unter Unsicherheit modelliert. Der Arzt-Agent optimiert kontinuierlich seine Fragestrategie innerhalb des RL-Frameworks durch mehrstufige Interaktionen mit dem Patienten-Agent und passt seinen Informationserfassungspfad dynamisch basierend auf umfassenden Belohnungen des Konsultationsbewerters an. Dieser RL-Feinabstimmungsmechanismus ermöglicht es LLMs, autonom Interaktionsstrategien zu entwickeln, die der klinischen Logik entsprechen, anstatt oberflächlich Muster in bestehenden Dialogdaten nachzuahmen. Bemerkenswert ist, dass wir MTMedDialog konstruiert haben, den ersten englischsprachigen mehrstufigen medizinischen Konsultationsdatensatz, der Patienteninteraktionen simulieren kann. Experimente zeigen, dass DoctorAgent-RL bestehende Modelle sowohl in der mehrstufigen Argumentationsfähigkeit als auch in der endgültigen Diagnoseleistung übertrifft und damit praktischen Wert bei der Unterstützung klinischer Konsultationen demonstriert. https://github.com/JarvisUSTC/DoctorAgent-RL
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben latentes Denken als vielversprechende Alternative zum autoregressiven Denken eingeführt. Durch die interne Berechnung mit verborgenen Zuständen aus vorherigen Schritten profitiert latentes Denken von informativeren Merkmalen, anstatt einen diskreten Pfad der Gedankenkette (Chain-of-Thought, CoT) zu samplen. Dennoch sind latente Denkansätze oft nicht mit LLMs kompatibel, da ihr kontinuierliches Paradigma mit der diskreten Natur der autoregressiven Generierung in Konflikt steht. Darüber hinaus stützen sich diese Methoden auf CoT-Spuren für das Training und nutzen somit die inhärenten Denkmuster von LLMs nicht aus. In dieser Arbeit untersuchen wir latentes Denken, indem wir die intrinsischen Fähigkeiten von LLMs durch Reinforcement Learning (RL) nutzen. Zu diesem Zweck führen wir die Hybrid Reasoning Policy Optimization (HRPO) ein, einen RL-basierten hybriden latenten Denkansatz, der (1) vorherige verborgene Zustände mit einem lernbaren Gating-Mechanismus in gesamplete Tokens integriert und (2) das Training überwiegend mit Token-Embeddings initialisiert, während schrittweise mehr verborgene Merkmale einbezogen werden. Dieses Design bewahrt die generativen Fähigkeiten von LLMs und fördert hybrides Denken unter Verwendung sowohl diskreter als auch kontinuierlicher Repräsentationen. Darüber hinaus führt die hybride HRPO durch Token-Sampling Stochastizität in das latente Denken ein, wodurch RL-basierte Optimierung ohne die Notwendigkeit von CoT-Trajektorien ermöglicht wird. Umfangreiche Evaluierungen über diverse Benchmarks zeigen, dass HRPO frühere Methoden sowohl bei wissens- als auch denkintensiven Aufgaben übertrifft. Darüber hinaus bleiben mit HRPO trainierte LLMs interpretierbar und zeigen interessante Verhaltensweisen wie mehrsprachige Muster und kürzere Abschlusslängen, was das Potenzial unseres RL-basierten Ansatzes unterstreicht und Einblicke für zukünftige Arbeiten im Bereich des latenten Denkens bietet.
Die generalisierbare aktive Kartierung in komplexen unbekannten Umgebungen bleibt eine entscheidende Herausforderung für mobile Roboter. Bestehende Methoden, die durch unzureichende Trainingsdaten und konservative Erkundungsstrategien eingeschränkt sind, zeigen eine begrenzte Generalisierbarkeit über Szenen mit unterschiedlichen Layouts und komplexer Konnektivität hinweg. Um skalierbares Training und zuverlässige Evaluierung zu ermöglichen, führen wir GLEAM-Bench ein, den ersten groß angelegten Benchmark, der für generalisierbare aktive Kartierung entwickelt wurde und 1.152 diverse 3D-Szenen aus synthetischen und real gescannten Datensätzen umfasst. Auf dieser Grundlage aufbauend schlagen wir GLEAM vor, eine einheitliche generalisierbare Erkundungsstrategie für die aktive Kartierung. Ihre überlegene Generalisierbarkeit resultiert hauptsächlich aus unseren semantischen Repräsentationen, langfristig navigierbaren Zielen und randomisierten Strategien. Sie übertrifft state-of-the-art Methoden deutlich und erreicht eine Abdeckung von 66,50 % (+9,49 %) mit effizienten Trajektorien und verbesserter Kartierungsgenauigkeit in 128 ungesehenen komplexen Szenen. Projektseite: https://xiao-chen.tech/gleam/.
Große Sprachmodelle (LLMs) werden typischerweise so ausgerichtet, dass sie Sicherheitsrichtlinien einhalten, indem sie schädliche Anweisungen ablehnen. Ein kürzlich entdeckter Angriff, genannt Abliteration, isoliert und unterdrückt die einzelne latente Richtung, die hauptsächlich für das Ablehnungsverhalten verantwortlich ist, und ermöglicht es dem Modell, unethische Inhalte zu generieren. Wir schlagen eine Verteidigungsstrategie vor, die die Art und Weise, wie Modelle Ablehnungen generieren, verändert. Wir erstellen einen erweiterten Ablehnungsdatensatz, der schädliche Aufforderungen mit einer vollständigen Antwort enthält, die den Grund für die Ablehnung rechtfertigt. Anschließend feintunen wir Llama-2-7B-Chat und Qwen2.5-Instruct (1,5B und 3B Parameter) auf unserem erweiterten Ablehnungsdatensatz und bewerten die resultierenden Systeme anhand einer Reihe von schädlichen Aufforderungen. In unseren Experimenten behalten die Modelle mit erweiterter Ablehnung hohe Ablehnungsraten bei, die höchstens um 10 % sinken, während die Ablehnungsraten der Basismodelle nach der Abliteration um 70-80 % sinken. Eine umfassende Bewertung von Sicherheit und Nutzen zeigt, dass das Feintuning mit erweiterter Ablehnung den Abliterationsangriff neutralisiert, während die allgemeine Leistung erhalten bleibt.
Reinforcement Learning (RL) hat eine zentrale Rolle beim jüngsten Anstieg der mathematischen Fähigkeiten von LLMs gespielt, indem es Selbstverbesserung durch binäre Verifikationssignale ermöglicht. Im Gegensatz dazu wird Supervised Learning (SL) selten für solches verifikationsgesteuertes Training in Betracht gezogen, hauptsächlich aufgrund seiner starken Abhängigkeit von Referenzantworten und seiner Unfähigkeit, Fehler zu reflektieren. In dieser Arbeit stellen wir die vorherrschende Ansicht in Frage, dass Selbstverbesserung ausschließlich RL vorbehalten ist, und schlagen Negative-aware Fine-Tuning (NFT) vor – einen überwachten Ansatz, der es LLMs ermöglicht, ihre Fehler zu reflektieren und autonom ohne externe Lehrer zu verbessern. Beim Online-Training verwirft NFT selbstgenerierte negative Antworten nicht, sondern konstruiert eine implizite Negativpolitik, um sie zu modellieren. Diese implizite Politik wird mit demselben positiven LLM parametrisiert, das wir auf positiven Daten optimieren möchten, wodurch eine direkte Politikoptimierung für alle Generationen der LLMs ermöglicht wird. Wir führen Experimente mit 7B- und 32B-Modellen in mathematischen Denkaufgaben durch. Die Ergebnisse zeigen durchweg, dass NFT durch die zusätzliche Nutzung von negativem Feedback die SL-Baselines wie Rejection Sampling Fine-Tuning deutlich übertrifft und führende RL-Algorithmen wie GRPO und DAPO erreicht oder sogar übertrifft. Darüber hinaus demonstrieren wir, dass NFT und GRPO im strengen On-Policy-Training tatsächlich äquivalent sind, obwohl sie aus völlig unterschiedlichen theoretischen Grundlagen stammen. Unsere Experimente und theoretischen Erkenntnisse überbrücken die Lücke zwischen SL- und RL-Methoden in binären Feedback-Lernsystemen.
Große Sprachmodelle (LLMs) neigen zu Halluzinationen, insbesondere bei mehrstufigen und schlussfolgerungsintensiven Aufgaben wie der Lösung mathematischer Probleme. Während Ergebnis-Belohnungsmodelle nur die endgültigen Antworten überprüfen, bewerten Prozess-Belohnungsmodelle (PRMs) jeden Zwischenschritt, um die Generierung in Richtung kohärenter Lösungen zu lenken. Wir stellen PathFinder-PRM vor, ein neuartiges hierarchisches, fehlerbewusstes diskriminatives PRM, das zunächst mathematische und Konsistenzfehler in jedem Schritt klassifiziert und dann diese feingranularen Signale kombiniert, um die Korrektheit des Schritts zu schätzen. Um PathFinder-PRM zu trainieren, haben wir einen Datensatz mit 400.000 Proben erstellt, indem wir das menschlich annotierte PRM800K-Korpus und die RLHFlow Mistral-Traces mit dreidimensionalen schrittbezogenen Labels angereichert haben. Auf PRMBench erreicht PathFinder-PRM einen neuen State-of-the-Art-PRMScore von 67,7 und übertrifft damit den bisherigen Bestwert (65,5) bei dreimal weniger Daten. Bei der Anwendung auf belohnungsgesteuerte Greedy-Suche erzielt unser Modell einen prm@8-Wert von 48,3, was einer Steigerung von +1,5 Punkten gegenüber der stärksten Baseline entspricht. Diese Ergebnisse zeigen, dass die entkoppelte Fehlererkennung und Belohnungsschätzung nicht nur die feingranulare Fehlererkennung verbessert, sondern auch das end-to-end, belohnungsgesteuerte mathematische Denken bei höherer Dateneffizienz erheblich steigert.
Seit fast einem Jahrzehnt untersucht die akademische Gemeinschaft Backdoors in neuronalen Netzen, wobei der Schwerpunkt hauptsächlich auf Klassifizierungsaufgaben lag, bei denen Angreifer die Modellvorhersage manipulieren. Obwohl diese Angriffe, die die Vorhersage verändern, nachweislich bösartig sind, blieb die unmittelbare reale Auswirkung solcher Angriffe unklar. In diesem Artikel stellen wir eine neuartige und deutlich potentere Klasse von Backdoors vor, die auf jüngsten Fortschritten bei architektonischen Backdoors aufbaut. Wir zeigen, wie diese Backdoors speziell entwickelt werden können, um batched Inference, eine gängige Technik zur Hardwareauslastung, auszunutzen, was die Manipulation und den Diebstahl von Benutzerdaten in großem Maßstab ermöglicht. Indem sie den Batching-Prozess ins Visier nehmen, erleichtern diese architektonischen Backdoors den Informationsabfluss zwischen gleichzeitigen Benutzeranfragen und ermöglichen es Angreifern, die Modellantworten, die an andere Benutzer innerhalb desselben Batches gerichtet sind, vollständig zu kontrollieren. Mit anderen Worten: Ein Angreifer, der die Modellarchitektur ändern kann, kann die Modelleingaben und -ausgaben anderer Benutzer innerhalb desselben Batches festlegen und stehlen. Wir zeigen, dass solche Angriffe nicht nur machbar, sondern auch alarmierend effektiv sind, leicht in verbreitete Modellarchitekturen eingeschleust werden können und eine wirklich bösartige Bedrohung für die Privatsphäre der Benutzer und die Systemintegrität darstellen. Entscheidend ist, dass wir zur Abwehr dieser neuen Klasse von Schwachstellen eine deterministische Abschwächungsstrategie vorschlagen, die formale Garantien gegen diesen neuen Angriffsvektor bietet, im Gegensatz zu früheren Arbeiten, die sich auf Large Language Models verließen, um die Backdoors zu finden. Unsere Abschwächungsstrategie verwendet einen neuartigen Information Flow Control-Mechanismus, der den Modellgraphen analysiert und die Nicht-Interferenz zwischen verschiedenen Benutzereingaben innerhalb desselben Batches nachweist. Mit unserer Abschwächungsstrategie führen wir eine groß angelegte Analyse von Modellen durch, die über Hugging Face gehostet werden, und finden über 200 Modelle, die (unbeabsichtigte) Informationslecks zwischen Batcheinträgen aufgrund der Verwendung von dynamischer Quantisierung einführen.
Das Nachtraining hat seine Bedeutung bei der Verbesserung der Denkfähigkeiten großer Sprachmodelle (LLMs) unter Beweis gestellt. Die primären Methoden des Nachtrainings lassen sich in überwachte Feinabstimmung (Supervised Fine-Tuning, SFT) und verstärkende Feinabstimmung (Reinforcement Fine-Tuning, RFT) kategorisieren. SFT ist effizient und gut geeignet für kleine Sprachmodelle, kann jedoch zu Überanpassung führen und die Denkfähigkeiten größerer Modelle einschränken. Im Gegensatz dazu führt RFT in der Regel zu einer besseren Generalisierung, hängt jedoch stark von der Stärke des Basismodells ab. Um die Grenzen von SFT und RFT zu überwinden, schlagen wir Unified Fine-Tuning (UFT) vor, ein neuartiges Nachtrainingsparadigma, das SFT und RFT in einen einzigen, integrierten Prozess vereint. UFT ermöglicht es dem Modell, effektiv Lösungen zu erkunden, während es informative Überwachungssignale einbezieht, und überbrückt so die Lücke zwischen dem Auswendiglernen und dem Denken, die den bestehenden Methoden zugrunde liegt. Bemerkenswerterweise übertrifft UFT sowohl SFT als auch RFT im Allgemeinen, unabhängig von der Modellgröße. Darüber hinaus beweisen wir theoretisch, dass UFT den inhärenten exponentiellen Komplexitätsengpass von RFT durchbricht, und zeigen erstmals, dass einheitliches Training die Konvergenz bei langfristigen Denkaufgaben exponentiell beschleunigen kann.
Große Sprachmodelle (LLMs) zeichnen sich durch komplexe Schlussfolgerungen mittels Suchalgorithmen aus, doch leiden aktuelle Strategien oft unter einem hohen Token-Verbrauch aufgrund redundanter Exploration semantisch äquivalenter Schritte. Bestehende Methoden zur semantischen Ähnlichkeit haben Schwierigkeiten, solche Äquivalenzen in domänenspezifischen Kontexten wie mathematischem Denken präzise zu identifizieren. Um dies zu adressieren, schlagen wir EquivPruner vor, einen einfachen, aber effektiven Ansatz, der semantisch äquivalente Aktionen während der LLM-Schlussfolgerungssuche identifiziert und entfernt. Wir stellen außerdem MathEquiv vor, den ersten von uns erstellten Datensatz für die Äquivalenz mathematischer Aussagen, der das Training eines leichtgewichtigen Äquivalenzdetektors ermöglicht. Umfangreiche Experimente über verschiedene Modelle und Aufgaben hinweg zeigen, dass EquivPruner den Token-Verbrauch erheblich reduziert, die Such effizienz verbessert und oft auch die Genauigkeit der Schlussfolgerungen erhöht. Beispielsweise reduzierte EquivPruner bei der Anwendung auf Qwen2.5-Math-7B-Instruct auf GSM8K den Token-Verbrauch um 48,1\% und verbesserte gleichzeitig die Genauigkeit. Unser Code ist verfügbar unter https://github.com/Lolo1222/EquivPruner.
Eine zunehmende Anzahl von autoregressiven Modellen, wie MAR, FlowAR, xAR und Harmon, setzen Diffusionssampling ein, um die Qualität der Bildgenerierung zu verbessern. Diese Strategie führt jedoch zu einer geringen Inferenzeffizienz, da es in der Regel 50 bis 100 Schritte erfordert, um ein Token durch Diffusion zu sampeln. In diesem Artikel wird untersucht, wie dieses Problem effektiv gelöst werden kann. Unsere zentrale Motivation besteht darin, dass, je mehr Token während des autoregressiven Prozesses generiert werden, die nachfolgenden Token stärker eingeschränkten Verteilungen folgen und somit leichter zu sampeln sind. Um dies intuitiv zu erklären: Wenn ein Modell einen Teil eines Hundes generiert hat, müssen die verbleibenden Token den Hund vervollständigen und sind daher stärker eingeschränkt. Empirische Belege stützen unsere Motivation: In späteren Generierungsphasen können die nächsten Token gut durch ein mehrschichtiges Perzeptron vorhergesagt werden, weisen eine geringe Varianz auf und folgen geradlinigeren Denoising-Pfaden von Rauschen zu Token. Basierend auf dieser Erkenntnis führen wir Diffusionsschritt-Annealing (DiSA) ein, eine trainingsfreie Methode, die schrittweise weniger Diffusionsschritte verwendet, je mehr Token generiert werden, z. B. 50 Schritte am Anfang und eine schrittweise Reduzierung auf 5 Schritte in späteren Phasen. Da DiSA aus unserer spezifischen Erkenntnis zur Diffusion in autoregressiven Modellen abgeleitet ist, ergänzt es bestehende Beschleunigungsmethoden, die ausschließlich für Diffusion entwickelt wurden. DiSA kann mit nur wenigen Codezeilen in bestehenden Modellen implementiert werden und erreicht, obwohl einfach, eine 5-10-fach schnellere Inferenz für MAR und Harmon sowie eine 1,4-2,5-fach schnellere Inferenz für FlowAR und xAR, bei gleichbleibender Generierungsqualität.
Die Quantifizierung von Unsicherheit ist entscheidend, um die Zuverlässigkeit und Vertrauenswürdigkeit moderner KI-Systeme zu bewerten. Unter den bestehenden Ansätzen hat sich verbalisierte Unsicherheit, bei der Modelle ihr Vertrauen durch natürliche Sprache ausdrücken, als eine leichtgewichtige und interpretierbare Lösung in großen Sprachmodellen (LLMs) etabliert. Ihre Wirksamkeit in visuell-sprachlichen Modellen (VLMs) ist jedoch noch unzureichend erforscht. In dieser Arbeit führen wir eine umfassende Bewertung der verbalisierten Zuversicht in VLMs durch, die drei Modellkategorien, vier Aufgabenbereiche und drei Bewertungsszenarien umfasst. Unsere Ergebnisse zeigen, dass aktuelle VLMs oft eine bemerkenswerte Fehlkalibrierung über verschiedene Aufgaben und Einstellungen hinweg aufweisen. Insbesondere visuelle Denkmodelle (d.h. Denken mit Bildern) zeigen durchweg eine bessere Kalibrierung, was darauf hindeutet, dass modalspezifisches Denken entscheidend für eine zuverlässige Unsicherheitsschätzung ist. Um die Kalibrierungsherausforderungen weiter zu adressieren, führen wir Visual Confidence-Aware Prompting ein, eine zweistufige Prompting-Strategie, die die Zuversichtsausrichtung in multimodalen Einstellungen verbessert. Insgesamt unterstreicht unsere Studie die inhärente Fehlkalibrierung in VLMs über verschiedene Modalitäten hinweg. Im weiteren Sinne betonen unsere Ergebnisse die grundlegende Bedeutung von Modalitätsausrichtung und Modelltreue für die Weiterentwicklung zuverlässiger multimodaler Systeme.
Aktuelle große Sprachmodelle wie Gemini-1.5, DeepSeek-V3 und Llama-4 setzen zunehmend auf Mixture-of-Experts (MoE)-Architekturen, die durch die Aktivierung nur eines Bruchteils des Modells pro Token ein starkes Effizienz-Leistungs-Verhältnis bieten. Dennoch fehlt akademischen Forschern bisher eine vollständig offene, end-to-end MoE-Plattform, um Skalierung, Routing und das Verhalten von Experten zu untersuchen. Wir stellen FLAME-MoE vor, ein vollständig quelloffenes Forschungssystem, das aus sieben Decoder-only-Modellen besteht, die von 38M bis 1,7B aktiven Parametern reichen. Die Architektur – 64 Experten mit Top-8-Gating und 2 gemeinsamen Experten – spiegelt eng moderne produktive LLMs wider. Alle Trainingsdaten-Pipelines, Skripte, Protokolle und Checkpoints sind öffentlich verfügbar, um reproduzierbare Experimente zu ermöglichen. In sechs Evaluierungsaufgaben verbessert FLAME-MoE die durchschnittliche Genauigkeit um bis zu 3,4 Punkte im Vergleich zu dichten Baselines, die mit identischen FLOPs trainiert wurden. Durch die vollständige Transparenz der Trainingsspuren präsentieren wir erste Analysen, die zeigen, dass (i) Experten zunehmend auf bestimmte Token-Teilmengen spezialisiert sind, (ii) Koaktivierungsmatrizen spärlich bleiben, was eine vielfältige Nutzung der Experten widerspiegelt, und (iii) das Routing-Verhalten früh im Training stabilisiert wird. Der gesamte Code, Trainingsprotokolle und Modell-Checkpoints sind unter https://github.com/cmu-flame/FLAME-MoE verfügbar.
Aktuelle multimodale Bildgeneratoren wie GPT-4o, Gemini 2.0 Flash und Gemini 2.5 Pro zeichnen sich durch ihre Fähigkeit aus, komplexe Anweisungen zu befolgen, Bilder zu bearbeiten und die Konsistenz von Konzepten zu bewahren. Dennoch werden sie noch immer durch getrennte Toolkits evaluiert: Text-zu-Bild (T2I)-Benchmarks, denen die multimodale Konditionierung fehlt, und maßgeschneiderte Bildgenerierungs-Benchmarks, die kompositionelle Semantik und Allgemeinwissen vernachlässigen. Wir schlagen MMIG-Bench vor, einen umfassenden Multi-Modalen Bildgenerierungs-Benchmark, der diese Aufgaben vereint, indem er 4.850 reich annotierte Textprompts mit 1.750 Multi-Ansichts-Referenzbildern über 380 Themenbereiche, darunter Menschen, Tiere, Objekte und künstlerische Stile, kombiniert. MMIG-Bench ist mit einem dreistufigen Bewertungsrahmen ausgestattet: (1) Low-Level-Metriken für visuelle Artefakte und Identitätserhaltung von Objekten; (2) der neuartige Aspect Matching Score (AMS): eine VQA-basierte Mid-Level-Metrik, die eine fein abgestimmte Prompt-Bild-Ausrichtung liefert und eine starke Korrelation mit menschlichen Bewertungen zeigt; und (3) High-Level-Metriken für Ästhetik und menschliche Präferenzen. Mit MMIG-Bench benchmarken wir 17 state-of-the-art Modelle, darunter Gemini 2.5 Pro, FLUX, DreamBooth und IP-Adapter, und validieren unsere Metriken mit 32.000 menschlichen Bewertungen, was tiefgreifende Einblicke in Architektur und Datendesign liefert. Wir werden den Datensatz und den Evaluationscode veröffentlichen, um eine rigorose, einheitliche Bewertung zu fördern und zukünftige Innovationen in der multimodalen Bildgenerierung zu beschleunigen.
Aktuelle große Sprachmodelle (LLMs) haben aufkommende Fähigkeiten in Aufgaben der sozialen Intelligenz gezeigt, einschließlich der Auflösung von Implikaturen (Sravanthi et al. (2024)) und der Theory-of-Mind-Reasoning (Shapira et al. (2024)), die beide ein erhebliches pragmatisches Verständnis erfordern. Wie LLMs diese Kompetenz während des Trainingsprozesses erwerben, bleibt jedoch weitgehend unklar. In dieser Arbeit stellen wir ALTPRAG vor, einen Datensatz, der auf dem pragmatischen Konzept der Alternativen basiert und entwickelt wurde, um zu bewerten, ob LLMs in verschiedenen Trainingsphasen subtile Sprecherabsichten korrekt ableiten können. Jede Instanz kombiniert zwei kontextuell angemessene, aber pragmatisch unterschiedliche Fortsetzungen, was eine feinkörnige Bewertung sowohl der pragmatischen Interpretation als auch des kontrastiven Denkens ermöglicht. Wir evaluieren systematisch 22 LLMs über wichtige Trainingsphasen hinweg: Pre-Training, überwachtes Fein-Tuning (SFT) und Präferenzoptimierung, um die Entwicklung der pragmatischen Kompetenz zu untersuchen. Unsere Ergebnisse zeigen, dass selbst Basismodelle eine bemerkenswerte Sensibilität für pragmatische Hinweise aufweisen, die sich mit zunehmender Modell- und Datenmenge kontinuierlich verbessert. Darüber hinaus tragen SFT und RLHF zu weiteren Fortschritten bei, insbesondere im kognitiv-pragmatischen Denken. Diese Erkenntnisse unterstreichen die pragmatische Kompetenz als eine emergente und kompositionelle Eigenschaft des LLM-Trainings und bieten neue Einblicke für die Ausrichtung von Modellen an menschlichen Kommunikationsnormen.
Große multimodale Basismodelle, insbesondere in den Bereichen Sprache und Vision, haben verschiedene Aufgaben wie Robotik, autonomes Fahren, Informationsbeschaffung und Verankerung erheblich vorangetrieben. Viele dieser Modelle betrachten Objekte jedoch als unteilbar und übersehen dabei die Komponenten, aus denen sie bestehen. Das Verständnis dieser Komponenten und ihrer zugehörigen Affordanzen liefert wertvolle Einblicke in die Funktionalität eines Objekts, was grundlegend für die Ausführung einer Vielzahl von Aufgaben ist. In dieser Arbeit stellen wir einen neuartigen Benchmark für die reale Welt vor, InstructPart, der handbeschriftete Segmentierungsannotationen von Teilen und aufgabenorientierte Anweisungen enthält, um die Leistung aktueller Modelle beim Verstehen und Ausführen von Aufgaben auf Teilebene in alltäglichen Kontexten zu bewerten. Durch unsere Experimente zeigen wir, dass die aufgabenorientierte Teilesegmentierung auch für state-of-the-art Vision-Language-Modelle (VLMs) eine herausfordernde Aufgabe bleibt. Neben unserem Benchmark stellen wir eine einfache Baseline vor, die durch Feinabstimmung mit unserem Datensatz eine zweifache Leistungssteigerung erzielt. Mit unserem Datensatz und Benchmark möchten wir die Forschung zur aufgabenorientierten Teilesegmentierung fördern und die Anwendbarkeit von VLMs in verschiedenen Bereichen wie Robotik, virtueller Realität, Informationsbeschaffung und anderen verwandten Feldern verbessern. Projektwebsite: https://zifuwan.github.io/InstructPart/.
Jüngste Fortschritte wie Chain-of-Thought-Prompting haben die Leistung großer Sprachmodelle (LLMs) im Bereich des Zero-Shot-Medical-Reasonings erheblich verbessert. Allerdings bleiben Prompting-basierte Methoden oft oberflächlich und instabil, während feinabgestimmte medizinische LLMs unter schlechter Generalisierung bei Verteilungsverschiebungen und begrenzter Anpassungsfähigkeit an unbekannte klinische Szenarien leiden. Um diese Einschränkungen zu überwinden, präsentieren wir TAGS, ein Testzeit-Framework, das einen breitfähigen Generalisten mit einem domänenspezifischen Spezialisten kombiniert, um komplementäre Perspektiven zu bieten, ohne dass eine Feinabstimmung des Modells oder Parameteraktualisierungen erforderlich sind. Um diesen Generalist-Spezialist-Denkprozess zu unterstützen, führen wir zwei Hilfsmodule ein: einen hierarchischen Retrieval-Mechanismus, der mehrstufige Beispiele bereitstellt, indem Beispiele basierend auf semantischer und Begründungsebene-Ähnlichkeit ausgewählt werden, und einen Zuverlässigkeitsbewerter, der die Konsistenz der Argumentation bewertet, um die endgültige Antwortaggregation zu steuern. TAGS erzielt starke Leistungen über neun MedQA-Benchmarks hinweg, steigert die Genauigkeit von GPT-4o um 13,8 %, DeepSeek-R1 um 16,8 % und verbessert ein Standard-7B-Modell von 14,1 % auf 23,9 %. Diese Ergebnisse übertreffen mehrere feinabgestimmte medizinische LLMs, ohne dass Parameteraktualisierungen vorgenommen wurden. Der Code wird unter https://github.com/JianghaoWu/TAGS verfügbar sein.
Mit den Fortschritten bei großen Audio-Sprachmodellen (Large Audio-Language Models, LALMs), die große Sprachmodelle (Large Language Models, LLMs) um auditive Fähigkeiten erweitern, wird erwartet, dass diese Modelle universelle Kompetenz in verschiedenen auditiven Aufgaben zeigen. Obwohl zahlreiche Benchmarks entstanden sind, um die Leistung von LALMs zu bewerten, bleiben sie fragmentiert und es fehlt an einer strukturierten Taxonomie. Um diese Lücke zu schließen, führen wir eine umfassende Untersuchung durch und schlagen eine systematische Taxonomie für die Bewertung von LALMs vor, die diese basierend auf ihren Zielen in vier Dimensionen kategorisiert: (1) Allgemeine auditive Wahrnehmung und Verarbeitung, (2) Wissen und logisches Denken, (3) Dialogorientierte Fähigkeiten und (4) Fairness, Sicherheit und Vertrauenswürdigkeit. Wir bieten detaillierte Übersichten innerhalb jeder Kategorie und heben Herausforderungen in diesem Bereich hervor, wobei wir Einblicke in vielversprechende zukünftige Richtungen geben. Nach bestem Wissen ist dies die erste Untersuchung, die sich speziell auf die Bewertung von LALMs konzentriert und klare Leitlinien für die Community bietet. Wir werden die Sammlung der untersuchten Arbeiten veröffentlichen und aktiv pflegen, um die fortlaufenden Fortschritte in diesem Bereich zu unterstützen.
Trotz jüngster Fortschritte in der allgemeinen Robotik hinken Roboterrichtlinien immer noch weit hinter den grundlegenden menschlichen Fähigkeiten in der realen Welt zurück. Menschen interagieren ständig mit der physischen Welt, doch diese reichhaltige Datenquelle bleibt in der Robotik weitgehend ungenutzt. Wir schlagen EgoZero vor, ein minimales System, das robuste Manipulationsrichtlinien aus menschlichen Demonstrationen lernt, die mit den Project Aria Smart Glasses aufgezeichnet wurden, und ohne Roboter-Daten. EgoZero ermöglicht: (1) die Extraktion vollständiger, roboterausführbarer Aktionen aus wilden, egozentrischen menschlichen Demonstrationen, (2) die Komprimierung menschlicher visueller Beobachtungen in morphologie-agnostische Zustandsdarstellungen und (3) das Lernen von geschlossenen Regelkreisen, die morphologisch, räumlich und semantisch generalisieren. Wir setzen EgoZero-Richtlinien auf einem Greifarm-Roboter Franka Panda ein und demonstrieren einen Null-Shot-Transfer mit einer Erfolgsrate von 70 % über 7 Manipulationsaufgaben und nur 20 Minuten Datenerfassung pro Aufgabe. Unsere Ergebnisse deuten darauf hin, dass menschliche Daten aus der realen Welt als skalierbare Grundlage für das Lernen von Robotern in der realen Welt dienen können – und den Weg für eine Zukunft mit reichlich, vielfältigen und naturalistischen Trainingsdaten für Roboter ebnen. Code und Videos sind unter https://egozero-robot.github.io verfügbar.
Die Extraktion von Metadaten ist entscheidend für die Katalogisierung und Erhaltung von Datensätzen, ermöglicht eine effektive Forschungsentdeckung und Reproduzierbarkeit, insbesondere angesichts des derzeit exponentiellen Wachstums in der wissenschaftlichen Forschung. Während Masader (Alyafeai et al., 2021) die Grundlage für die Extraktion einer Vielzahl von Metadatenattributen aus wissenschaftlichen Artikeln arabischer NLP-Datensätze geschaffen hat, ist es stark auf manuelle Annotation angewiesen. In diesem Artikel stellen wir MOLE vor, ein Framework, das Large Language Models (LLMs) nutzt, um automatisch Metadatenattribute aus wissenschaftlichen Artikeln zu extrahieren, die Datensätze von Sprachen außer Arabisch abdecken. Unsere schema-gesteuerte Methodik verarbeitet gesamte Dokumente in mehreren Eingabeformaten und integriert robuste Validierungsmechanismen für konsistente Ausgaben. Zusätzlich führen wir einen neuen Benchmark ein, um den Forschungsfortschritt bei dieser Aufgabe zu bewerten. Durch systematische Analysen der Kontextlänge, Few-Shot-Learning und der Integration von Web-Browsing zeigen wir, dass moderne LLMs vielversprechende Ergebnisse bei der Automatisierung dieser Aufgabe liefern, was den Bedarf für weitere zukünftige Verbesserungen unterstreicht, um eine konsistente und zuverlässige Leistung zu gewährleisten. Wir veröffentlichen den Code: https://github.com/IVUL-KAUST/MOLE und den Datensatz: https://huggingface.co/datasets/IVUL-KAUST/MOLE für die Forschungsgemeinschaft.
Diese Arbeit untersucht die Entstehung interpretierbarer kategorialer Merkmale in großen Sprachmodellen (LLMs) und analysiert deren Verhalten über Trainingszeitpunkte (Zeit), Transformer-Schichten (Raum) und unterschiedliche Modellgrößen (Skala) hinweg. Mithilfe von spärlichen Autoencodern für mechanistische Interpretierbarkeit identifizieren wir, wann und wo spezifische semantische Konzepte innerhalb neuronaler Aktivierungen entstehen. Die Ergebnisse zeigen klare zeitliche und skalenabhängige Schwellenwerte für die Entstehung von Merkmalen über mehrere Domänen hinweg. Bemerkenswerterweise offenbart die räumliche Analyse unerwartete semantische Reaktivierung, bei der Merkmale aus frühen Schichten in späteren Schichten wieder auftreten, was gängige Annahmen über die Repräsentationsdynamik in Transformer-Modellen infrage stellt.
Steuerungsmethoden haben sich als effektive und zielgerichtete Werkzeuge erwiesen, um das Verhalten von großen Sprachmodellen (LLMs) zu lenken, ohne deren Parameter zu verändern. Multimodale große Sprachmodelle (MLLMs) profitieren jedoch derzeit nicht von denselben Techniken, was teilweise auf ihre Neuheit und architektonische Vielfalt zurückzuführen ist. Inspiriert von dieser Lücke untersuchen wir, ob MLLMs mithilfe von Vektoren gesteuert werden können, die aus ihrem textbasierten LLM-Rückgrat abgeleitet werden, und zwar über spärliche Autoencoder (SAEs), Mean Shift und lineare Sonden. Wir stellen fest, dass die textbasierte Steuerung die multimodale Genauigkeit über verschiedene MLLM-Architekturen und visuelle Aufgaben hinweg konsequent verbessert. Insbesondere steigert Mean Shift die Genauigkeit bei räumlichen Beziehungen auf CV-Bench um bis zu +7,3 % und die Zählgenauigkeit um bis zu +3,3 %, wobei es Prompting übertrifft und eine starke Generalisierung auf Out-of-Distribution-Datensätze zeigt. Diese Ergebnisse unterstreichen textbasierte Steuerungsvektoren als einen leistungsstarken und effizienten Mechanismus zur Verbesserung der Verankerung in MLLMs mit minimalem zusätzlichen Datenerfassungs- und Rechenaufwand.
Offline zielbedingtes Reinforcement Learning (GCRL) bietet ein praktisches Lernparadigma, bei dem zielerreichende Strategien aus umfangreichen, ungelabelten (belohnungsfreien) Datensätzen trainiert werden, ohne zusätzliche Interaktion mit der Umgebung. Dennoch kämpft Offline-GCRL weiterhin mit langfristigen Aufgaben, selbst bei jüngsten Fortschritten, die hierarchische Policy-Strukturen wie HIQL verwenden. Durch die Identifizierung der Ursache dieser Herausforderung ergeben sich folgende Erkenntnisse: Erstens entstehen Leistungsengpässe hauptsächlich aus der Unfähigkeit der übergeordneten Policy, geeignete Teilziele zu generieren. Zweitens wird beim Lernen der übergeordneten Policy im langfristigen Regime das Vorzeichen des Vorteilssignals häufig falsch. Daher argumentieren wir, dass die Verbesserung der Wertfunktion, um ein klares Vorteilssignal für das Lernen der übergeordneten Policy zu erzeugen, entscheidend ist. In diesem Artikel schlagen wir eine einfache, aber effektive Lösung vor: Option-aware Temporally Abstracted Value Learning, kurz OTA, das zeitliche Abstraktion in den Temporal-Difference-Lernprozess integriert. Durch die Anpassung der Wertaktualisierung, um optionenbewusst zu sein, verkürzt das vorgeschlagene Lernschema den effektiven Zeithorizont und ermöglicht bessere Vorteilsschätzungen selbst im langfristigen Regime. Experimentell zeigen wir, dass die mit der OTA-Wertfunktion extrahierte übergeordnete Policy starke Leistungen bei komplexen Aufgaben aus OGBench, einem kürzlich vorgeschlagenen Offline-GCRL-Benchmark, erzielt, einschließlich Labyrinthnavigation und visuellen Roboter-Manipulationsumgebungen.