papers.description
Das Hierarchical Reasoning Model (HRM) ist ein neuartiger Ansatz, der zwei kleine neuronale Netzwerke verwendet, die mit unterschiedlichen Frequenzen rekursiv arbeiten. Diese biologisch inspirierte Methode übertrifft Large Language Models (LLMs) bei schwierigen Puzzle-Aufgaben wie Sudoku, Labyrinthen und ARC-AGI, obwohl sie mit kleinen Modellen (27M Parametern) und geringen Datenmengen (rund 1000 Beispiele) trainiert wird. HRM zeigt großes Potenzial für die Lösung komplexer Probleme mit kleinen Netzwerken, ist jedoch noch nicht vollständig verstanden und könnte suboptimal sein. Wir schlagen das Tiny Recursive Model (TRM) vor, einen deutlich einfacheren rekursiven Ansatz, der eine wesentlich bessere Generalisierung als HRM erreicht, während es ein einziges kleines Netzwerk mit nur 2 Schichten verwendet. Mit lediglich 7M Parametern erzielt TRM eine Testgenauigkeit von 45 % auf ARC-AGI-1 und 8 % auf ARC-AGI-2, was höher ist als die meisten LLMs (z. B. Deepseek R1, o3-mini, Gemini 2.5 Pro) mit weniger als 0,01 % der Parameter.
Ergebnisorientiertes Reinforcement Learning hat die Argumentationsfähigkeit großer Sprachmodelle (LLMs) vorangetrieben, doch die vorherrschenden, werkzeuggestützten Ansätze trainieren eine einzige, monolithische Policy, die Gedanken und Werkzeugaufrufe im vollen Kontext verschachtelt; dies skaliert schlecht mit langen Zeithorizonten und diversen Werkzeugen und generalisiert schwach auf neue Szenarien. Agentenbasierte Systeme bieten eine vielversprechende Alternative, indem sie die Arbeit auf spezialisierte Module verteilen, doch die meisten bleiben trainingsfrei oder verlassen sich auf Offline-Training, das von den Live-Dynamiken der mehrstufigen Interaktion entkoppelt ist. Wir stellen AgentFlow vor, ein trainierbares, im-Fluss-agierendes agentenbasiertes Framework, das vier Module (Planer, Ausführer, Prüfer, Generator) durch einen sich entwickelnden Speicher koordiniert und seinen Planer direkt innerhalb der mehrstufigen Schleife optimiert. Um on-policy in Live-Umgebungen zu trainieren, schlagen wir Flow-basierte Group Refined Policy Optimization (Flow-GRPO) vor, die die Zuweisung von Krediten bei langen Zeithorizonten und spärlichen Belohnungen bewältigt, indem sie die mehrstufige Optimierung in eine Sequenz handhabbarer einstufiger Policy-Updates umwandelt. Es sendet ein einziges, verifizierbares Ergebnis auf Trajektorienebene an jede Stufe, um lokale Planerentscheidungen mit globalem Erfolg abzustimmen, und stabilisiert das Lernen mit gruppennormalisierten Vorteilen. Über zehn Benchmarks hinweg übertrifft AgentFlow mit einem 7B-skaligen Backbone die leistungsstärksten Baselines mit durchschnittlichen Genauigkeitssteigerungen von 14,9 % bei Suchaufgaben, 14,0 % bei agentenbasierten Aufgaben, 14,5 % bei mathematischen Aufgaben und 4,1 % bei wissenschaftlichen Aufgaben und übertrifft sogar größere proprietäre Modelle wie GPT-4o. Weitere Analysen bestätigen die Vorteile der im-Fluss-Optimierung und zeigen verbesserte Planung, erhöhte Zuverlässigkeit bei Werkzeugaufrufen und positive Skalierung mit Modellgröße und Argumentationsschritten.
Tool-integrated Reasoning hat sich als ein zentraler Schwerpunkt für die Ermöglichung agentenbasierter Anwendungen etabliert. Unter diesen haben DeepResearch Agents aufgrund ihrer starken Leistung bei komplexen, offenen Informationsbeschaffungsaufgaben erhebliche Aufmerksamkeit erlangt. Wir stellen Fathom-DeepResearch vor, ein agentenbasiertes System, das aus zwei spezialisierten Modellen besteht. Das erste ist Fathom-Search-4B, ein DeepSearch-Modell, das auf Qwen3-4B trainiert und für evidenzbasierte Untersuchungen durch Live-Websuche und gezielte Webseitenabfragen optimiert wurde. Sein Training kombiniert drei Fortschritte: (i) DUETQA, ein 5K-Beispiel-Datensatz, der durch Multi-Agenten-Selbstspiel generiert wurde und strikte Abhängigkeit von der Websuche sowie heterogene Quellengrundierung erzwingt; (ii) RAPO, eine zero-overhead-Erweiterung von GRPO, die mehrstufiges Reinforcement Learning mit verifizierbaren Belohnungen durch Curriculum-Pruning, belohnungsbewusste Vorteilsskalierung und pro-Prompt-Wiederholungspuffer stabilisiert; und (iii) eine steuerbare schrittweise Belohnung, die jeden Tool-Aufruf nach kognitivem Verhalten und marginalem Nutzen klassifiziert und explizite Kontrolle über die Breite, Tiefe und den Horizont der Suchtrajektorie ermöglicht. Diese Verbesserungen ermöglichen eine zuverlässige Erweiterung des Tool-Aufrufs über 20 Aufrufe hinaus, wenn dies gerechtfertigt ist. Das zweite Modell ist Fathom-Synthesizer-4B, das auf Qwen3-4B trainiert wurde und mehrstufige DeepSearch-Spuren in strukturierte, zitatreiche DeepResearch-Berichte für umfassende Synthese umwandelt. Bewertet anhand von DeepSearch-Benchmarks (SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) und DeepResearch-Bench erreicht das System Spitzenleistungen in der Kategorie der offenen Gewichte und zeigt gleichzeitig eine starke Generalisierung auf diverse Reasoning-Aufgaben, einschließlich HLE, AIME-25, GPQA-Diamond und MedQA.
Process Reward Models (PRMs) haben sich kürzlich als ein leistungsstarkes Framework zur Verbesserung der Fähigkeiten großer Reasoning-Modelle (LRMs) erwiesen, insbesondere im Kontext von Test-Time Scaling (TTS). Ihr Potenzial zur Überwachung von LRMs in tabellarischen Reasoning-Domänen bleibt jedoch weitgehend unerforscht. Durch detaillierte empirische Analysen stellen wir fest, dass bestehende PRMs, obwohl sie weit verbreitet zur Überwachung von textbasierten Reasoning-Schritten eingesetzt werden, Schwierigkeiten mit tabellenspezifischen Operationen wie der Sub-Tabellen-Retrieval und Schema-Interaktion haben, was zu kritischen Leistungsengpässen führt. Um diese Einschränkung zu überwinden, schlagen wir TaTToo vor, ein neuartiges, tabellengestütztes PRM-Framework, das (i) explizit über tabellarische Reasoning-Schritte nachdenkt und (ii) werkzeugbasierte Verifikation integriert, um präzise Belohnungsüberwachung zu ermöglichen. Konkret entwerfen wir zunächst eine skalierbare Datenkuratierungspipeline, die über 60.000 hochwertige Schritt-für-Schritt-Annotationen erstellt, indem sie Tabellenverifikationsrationale mit werkzeugbasierten Ausführungen kombiniert. Aufbauend auf den gesammelten Daten trainieren wir TaTToo mit einem zweistufigen Paradigma: kaltstartüberwachtes Feinabstimmen, um werkzeugbasierte Reasoning-Muster zu erfassen, gefolgt von verstärkendem Lernen mit werkzeuggestützter Belohnungsformung, um unser Modell mit tabellenbasierter Verifikation abzustimmen. Wir bieten eine umfassende Bewertung der durch unser neu entwickeltes PRM induzierten Politikverbesserung. Über fünf anspruchsvolle tabellarische Reasoning-Benchmarks, die numerisches Reasoning, Faktenprüfung und Datenanalyse abdecken, verbessert TaTToo die nachgelagerten Policy-LRMs um 30,9 % bei der Inferenz, übertrifft starke PRM-Baselines wie Qwen-2.5-Math-PRM-72B mit nur 8B Parametern und zeigt eine starke Generalisierbarkeit über diverse TTS-Strategien hinweg.
Autoregressive (AR) große Sprachmodelle (LLMs) haben bemerkenswerte Leistungen in einer Vielzahl von natürlichen Sprachaufgaben erzielt, doch ihre inhärente sequenzielle Dekodierung begrenzt die Inferenzeffizienz. In dieser Arbeit stellen wir Fast-dLLM v2 vor, ein sorgfältig entworfenes Block-Diffusions-Sprachmodell (dLLM), das vortrainierte AR-Modelle effizient in dLLMs für parallele Textgenerierung anpasst und dabei nur etwa 1B Token an Feinabstimmung erfordert. Dies stellt eine 500-fache Reduktion der Trainingsdaten im Vergleich zu vollständig aufmerksamkeitsbasierten Diffusions-LLMs wie Dream (580B Token) dar, während die Leistung des ursprünglichen Modells erhalten bleibt. Unser Ansatz führt ein neuartiges Trainingsrezept ein, das einen Block-Diffusions-Mechanismus mit einer komplementären Aufmerksamkeitsmaske kombiniert und so eine blockweise bidirektionale Kontextmodellierung ermöglicht, ohne die AR-Trainingsziele zu opfern. Um die Dekodierung weiter zu beschleunigen, entwerfen wir einen hierarchischen Caching-Mechanismus: einen Block-Level-Cache, der historische Kontextrepräsentationen über Blöcke hinweg speichert, und einen Sub-Block-Cache, der eine effiziente parallele Generierung innerhalb teilweise dekodierter Blöcke ermöglicht. In Kombination mit unserer parallelen Dekodierungspipeline erreicht Fast-dLLM v2 eine bis zu 2,5-fache Beschleunigung gegenüber der standardmäßigen AR-Dekodierung, ohne die Generierungsqualität zu beeinträchtigen. Umfangreiche Experimente über diverse Benchmarks hinweg zeigen, dass Fast-dLLM v2 die AR-Baselines in der Genauigkeit erreicht oder übertrifft, während es eine state-of-the-art Effizienz unter dLLMs liefert – ein bedeutender Schritt hin zur praktischen Einsatzfähigkeit schneller und präziser LLMs. Code und Modell werden öffentlich zugänglich gemacht.
Diffusionssprachmodelle versprechen bidirektionale Kontext- und Infilling-Fähigkeiten, die autoregressive Codierer nicht bieten, doch praktische Systeme bleiben ressourcenintensiv. Wir stellen CoDA vor, einen 1,7-Milliarden-Parameter-Diffusionscodierer, der auf TPU mit einer vollständig quelloffenen Trainingspipeline trainiert wurde. CoDA kombiniert groß angelegtes Diffusions-Vortraining mit codezentriertem Mitteltraining und Instruktionsfeinabstimmung, wodurch eine konfidenzgesteuerte Stichprobenentnahme ermöglicht wird, die die Inferenzlatenz wettbewerbsfähig hält. Auf Humaneval, MBPP und EvalPlus übertrifft oder erreicht CoDA-1.7B-Instruct Diffusionsmodelle mit bis zu 7 Milliarden Parametern. Unsere Veröffentlichung umfasst Modellcheckpoints, Evaluationswerkzeuge und TPU-Trainingspipelines, um die Forschung an leichtgewichtigen, diffusionsbasierten Codierungsassistenten zu beschleunigen.
Diffusions- und flussbasierte nicht-autoregressive (NAR) Modelle haben großes Potenzial in der Modellierung großer Sprachmodelle gezeigt, jedoch ist ihr Potenzial für die automatische Spracherkennung (ASR) weitgehend unerforscht. Wir stellen Drax vor, ein diskretes Flussanpassungs-Framework für ASR, das effizientes paralleles Decodieren ermöglicht. Um das Training besser an die Inferenz anzupassen, konstruieren wir einen audio-konditionierten Wahrscheinlichkeitspfad, der das Modell durch Trajektorien führt, die wahrscheinlichen Zwischenfehlern während der Inferenz ähneln, anstatt direkte Übergänge von zufälligem Rauschen zu Zielzuständen zu verwenden. Unsere theoretische Analyse verknüpft die Generalisierungslücke mit Divergenzen zwischen Trainings- und Inferenzbelegungen, die durch kumulative Geschwindigkeitsfehler kontrolliert werden, und motiviert damit unsere Designentscheidung. Die empirische Auswertung zeigt, dass unser Ansatz eine Erkennungsgenauigkeit erreicht, die mit modernsten Sprachmodellen vergleichbar ist, während er verbesserte Kompromisse zwischen Genauigkeit und Effizienz bietet. Dies unterstreicht die diskrete Flussanpassung als vielversprechende Richtung für die Weiterentwicklung von NAR ASR.
Vernunftmodelle steigern die Leistung, indem sie Probleme Schritt für Schritt angehen, sie in Teilprobleme zerlegen und lange Gedankenketten durchlaufen, bevor sie eine Antwort liefern. Die Anwendung von ausgedehntem Schlussfolgern auf jeden Schritt führt jedoch zu erheblicher Redundanz, da sich Teilprobleme stark in Schwierigkeit und Komplexität unterscheiden: Eine kleine Anzahl von entscheidenden Schritten ist tatsächlich herausfordernd und maßgeblich für die endgültige Antwort, während viele andere lediglich einfache Überarbeitungen oder unkomplizierte Berechnungen erfordern. Daher liegt es nahe, Vernunftmodelle mit der Fähigkeit auszustatten, sich an diese Variation anzupassen, anstatt alle Schritte mit demselben Detaillierungsgrad zu behandeln. Zu diesem Zweck schlagen wir MixReasoning vor, ein Framework, das die Tiefe des Schlussfolgerns innerhalb einer einzelnen Antwort dynamisch anpasst. Die resultierende Gedankenkette besteht dann aus einer Mischung von detailliertem Schlussfolgern bei schwierigen Schritten und prägnanter Schlussfolgerung bei einfacheren. Experimente mit GSM8K, MATH-500 und AIME zeigen, dass MixReasoning die Länge der Schlussfolgerung verkürzt und die Effizienz erheblich verbessert, ohne die Genauigkeit zu beeinträchtigen.
Die Fähigkeit zum logischen Denken ist entscheidend für Large Language Models (LLMs), um komplexe Aufgaben zu lösen, doch die Realisierung zuverlässiger und skalierbarer Denkprozesse bleibt eine Herausforderung. Während Chain-of-Thought (CoT) Prompting zu einem weit verbreiteten Ansatz geworden ist, leiden bestehende Methoden oft unter unkontrollierter Generierung, unzureichender Qualität und begrenzter Vielfalt in den Denkpfaden. Jüngste Bemühungen nutzen Code, um CoT durch die Verankerung von Denkprozessen in ausführbaren Schritten zu verbessern, doch solche Methoden sind typischerweise auf vordefinierte mathematische Probleme beschränkt, was Skalierbarkeit und Generalisierbarkeit behindert. In dieser Arbeit schlagen wir Caco (Code-Assisted Chain-of-ThOught) vor, ein neuartiges Framework, das die Synthese von hochwertigen, überprüfbaren und vielfältigen Instruction-CoT-Denkdaten durch code-gestützte Augmentierung automatisiert. Im Gegensatz zu früheren Arbeiten trainiert Caco zunächst einen code-basierten CoT-Generator auf bestehenden mathematischen und programmierspezifischen Lösungen in einem einheitlichen Code-Format und skaliert dann die Datengenerierung auf eine große Menge diverser Denkpfade. Entscheidend ist, dass wir eine automatisierte Validierung durch Code-Ausführung und regelbasierte Filterung einführen, um logische Korrektheit und strukturelle Vielfalt sicherzustellen, gefolgt von der Rückübersetzung gefilterter Ausgaben in natürliche Sprachinstruktionen und Sprach-CoTs, um die Aufgabenanpassungsfähigkeit zu bereichern. Dieser geschlossene Prozess ermöglicht eine vollständig automatisierte, skalierbare Synthese von Denkdaten mit garantierter Ausführbarkeit. Experimente auf unserem erstellten Caco-1.3M-Datensatz zeigen, dass mit Caco trainierte Modelle eine starke Wettbewerbsfähigkeit auf mathematischen Denkbenchmarks erreichen und bestehende starke Baselines übertreffen. Weitere Analysen zeigen, dass die code-gestützte Verifikation und die Instruktionsvielfalt von Caco zu einer überlegenen Generalisierung über unbekannte Aufgaben beitragen. Unsere Arbeit etabliert ein Paradigma für den Aufbau selbsttragender, vertrauenswürdiger Denksysteme ohne menschliches Eingreifen.
Große Sprachmodelle (LLMs) haben bemerkenswerte Leistungen bei Single-Turn-Text-to-SQL-Aufgaben gezeigt, doch reale Datenbankanwendungen erfordern überwiegend mehrschrittige Interaktionen, um mehrdeutige Anfragen, Ausführungsfehler und sich entwickelnde Benutzeranforderungen zu bewältigen. Bestehende Multi-Turn-Benchmarks sind unzureichend, da sie Konversationsverläufe als statischen Kontext behandeln oder die Bewertung auf schreibgeschützte Operationen beschränken, wodurch sie die Herausforderungen von produktionsreifen Datenbankassistenten nicht widerspiegeln. Wir stellen BIRD-INTERACT vor, einen Benchmark, der diesen Realismus durch folgende Aspekte wiederherstellt: (1) eine umfassende Interaktionsumgebung, die jede Datenbank mit einer hierarchischen Wissensdatenbank, Metadatendateien und einem funktionsgesteuerten Benutzersimulator koppelt, wodurch Modelle in der Lage sind, Klärungen einzuholen, Wissen abzurufen und Fehler ohne menschliche Aufsicht zu beheben; (2) zwei Bewertungsszenarien, bestehend aus einem vordefinierten Konversationsprotokoll (c-Interact) und einem offenen agentenbasierten Szenario (a-Interact), in dem Modelle autonom entscheiden, wann sie den Benutzersimulator abfragen oder die Umgebung erkunden sollen; (3) eine anspruchsvolle Aufgabenpalette, die das gesamte CRUD-Spektrum für Business-Intelligence- und operative Anwendungsfälle abdeckt, gesichert durch ausführbare Testfälle. Jede Aufgabe umfasst mehrdeutige und nachfolgende Teilaufgaben, die dynamische Interaktion erfordern. Die Palette besteht aus BIRD-INTERACT-FULL (600 Aufgaben, bis zu 11.796 Interaktionen) für eine umfassende Leistungsbewertung und BIRD-INTERACT-LITE (300 Aufgaben mit vereinfachten Datenbanken) für detaillierte Verhaltensanalysen und schnelle Methodenentwicklung. Unsere empirischen Ergebnisse unterstreichen die Schwierigkeit von BIRD-INTERACT: GPT-5 schließt nur 8,67 % der Aufgaben in c-Interact und 17,00 % in a-Interact ab. Analysen mittels Memory Grafting und Interaction Test-time Scaling bestätigen die Bedeutung effektiver Interaktion für komplexe, dynamische Text-to-SQL-Aufgaben.
Die videobasierte 4D-Formgenerierung zielt darauf ab, zeitlich variierende 3D-Geometrie und sichtkonsistente Oberflächeneigenschaften direkt aus einem Eingabevideo zu rekonstruieren. In dieser Arbeit stellen wir ein natives Video-zu-4D-Formgenerierungsframework vor, das eine einzige dynamische 3D-Darstellung end-to-end aus dem Video synthetisiert. Unser Framework führt drei Schlüsselkomponenten ein, die auf großskaligen vortrainierten 3D-Modellen basieren: (i) eine temporale Aufmerksamkeitsmechanik, die die Generierung auf allen Bildern des Videos konditioniert und gleichzeitig eine zeitindizierte dynamische Darstellung erzeugt; (ii) eine zeitbewusste Punktabtastung und 4D-latente Verankerung, die zeitlich konsistente Geometrie und Textur fördern; und (iii) eine Rauschteilung über die Bilder hinweg, um die zeitliche Stabilität zu verbessern. Unsere Methode erfasst präzise nicht-rigide Bewegungen, Volumenänderungen und sogar topologische Übergänge ohne eine Optimierung pro Bild. In verschiedenen realen Videos verbessert unsere Methode die Robustheit und wahrgenommene Qualität und reduziert Fehlermodi im Vergleich zu den Baselines.
Aktuelle Post-Training-Methoden für Large Language Models (LLMs) stützen sich auf Token-Level-Clipping-Mechanismen während des Reinforcement Learning (RL). Wir identifizieren jedoch einen grundlegenden Fehler in diesem Outcome-Supervised RL (OSRL)-Paradigma: die Importance Sampling (IS)-Verhältnisse von Tokens mit positivem Vorteil sind fehlangepasst, was zu einer unausgewogenen Gewichtung von positiven und negativen Tokens führt. Diese Fehlanpassung unterdrückt die Aktualisierung von Tokens mit niedriger Wahrscheinlichkeit, während bereits hochwahrscheinliche Tokens übermäßig verstärkt werden. Um dies zu beheben, schlagen wir Asymmetric Importance Sampling Policy Optimization (ASPO) vor, das eine einfache, aber effektive Strategie verwendet, die die IS-Verhältnisse von Tokens mit positivem Vorteil umkehrt und deren Aktualisierungsrichtung mit den Lernprozessen negativer Tokens in Einklang bringt. ASPO integriert zudem einen weichen Dual-Clipping-Mechanismus, um extreme Aktualisierungen zu stabilisieren, während der Gradientenfluss aufrechterhalten wird. Umfassende Experimente auf Benchmark-Datensätzen für Codierung und mathematisches Denken zeigen, dass ASPO vorzeitige Konvergenz signifikant reduziert, die Trainingsstabilität verbessert und die Endleistung im Vergleich zu starken GRPO-basierten Baselines steigert. Unsere Analyse bietet neue Einblicke in die Rolle der Token-Level-Gewichtung in OSRL und unterstreicht die kritische Bedeutung der Korrektur von IS in LLM RL. Der Code und die Modelle von ASPO sind unter https://github.com/wizard-III/Archer2.0 verfügbar.
Die Förderung von wissenschaftlichen Arbeiten ist zu einem wichtigen Mittel zur Steigerung der Sichtbarkeit von Forschungsergebnissen geworden. Allerdings kämpfen bestehende automatisierte Methoden mit begrenzter Erzählfähigkeit, unzureichender ästhetischer Qualität und eingeschränkter Selbstanpassung, was eine effiziente und ansprechende Verbreitung erschwert. Im Kern dieser Herausforderungen liegt ein einfaches Prinzip: Es gibt keine Möglichkeit zur Verbesserung, wenn man es nicht richtig bewerten kann. Um dies zu adressieren, stellen wir EvoPresent vor, ein Rahmenwerk für selbstverbessernde Agenten, das kohärente Erzählungen, ästhetisch bewusste Designs und realistische Präsentationsdarbietungen durch virtuelle Charaktere vereint. Zentrale Komponente von EvoPresent ist PresAesth, ein Multi-Task-Reinforcement-Learning (RL)-Modell für Ästhetik, das zuverlässige ästhetische Bewertungen, Defektanpassungen und vergleichende Rückmeldungen bietet und so iterative Selbstverbesserung auch bei begrenzten ästhetischen Trainingsdaten ermöglicht. Um die Methoden systematisch zu evaluieren, führen wir den EvoPresent Benchmark ein, einen umfassenden Benchmark, der Folgendes umfasst: Präsentationsgenerierungsqualität, basierend auf 650 hochrangigen KI-Konferenzpapieren mit multimodalen Ressourcen (Folien, Videos und Skripte), um sowohl Inhalt als auch Design zu bewerten; und ästhetisches Bewusstsein, bestehend aus 2.000 Folienpaaren mit unterschiedlichen ästhetischen Niveaus, das gemeinsames Training und Bewertung in Bezug auf Bewertung, Defektanpassung und Vergleich unterstützt. Unsere Ergebnisse zeigen, dass (i) hochwertige Rückmeldungen für die Selbstverbesserung von Agenten entscheidend sind, während die anfängliche Fähigkeit allein keine effektive Selbstkorrektur garantiert. (ii) Automatisierte Generierungspipelines zeigen einen Kompromiss zwischen visuellem Design und Inhaltskonstruktion. (iii) Multi-Task-RL-Training zeigt eine stärkere Generalisierung in Aufgaben des ästhetischen Bewusstseins.
Jüngste Fortschritte bei generativen medizinischen Modellen sind durch modalspezifische Szenarien eingeschränkt, die die Integration komplementärer Evidenz aus Bildgebung, Pathologie und klinischen Notizen behindern. Diese Fragmentierung begrenzt ihre Entwicklung zu Foundation-Modellen, die über das gesamte Spektrum biomedizinischer Daten lernen und schlussfolgern können. Wir stellen MeDiM vor, das erste medizinische diskrete Diffusionsmodell, das gemeinsame Verteilungen über Modalitäten hinweg lernt, ohne modalspezifische Komponenten. MeDiM vereint mehrere generative Aufgaben: die Übersetzung zwischen Bildern und Texten sowie die gemeinsame Erzeugung von Bild-Bericht-Paaren über Domänen hinweg als Reaktion auf Prompts. Auf einem diskreten Diffusionsframework aufbauend, verbindet MeDiM visuelle und sprachliche Repräsentationen durch einen gemeinsamen probabilistischen Raum. Um eine einheitliche und flexible medizinische Generierung zu ermöglichen, verwenden wir ein multimodales großes Sprachmodell (MLLM) als Diffusionsrückgrat, das dessen Vorwissen und cross-modales Schlussfolgern nutzt. Zwei Schlüsseldesigns werden eingeführt: (1) die Entfernung der kausalen Aufmerksamkeitsmaske für bidirektionalen Kontext und (2) die Injektion kontinuierlicher Zeitschritt-Einbettungen für Diffusionsbewusstsein. Experimente zeigen eine hochwertige medizinische Generierung (FID 16,60 auf MIMIC-CXR und FID 24,19 auf PathGen) und eine präzise Berichtsgenerierung (METEOR 0,2650 und 0,2580). Gemeinsam generierte Bild-Bericht-Paare verbessern weiterhin die Downstream-Leistung (plus 6,43 Prozent BLEU-1, plus 18,57 Prozent BLEU-2, plus 31,58 Prozent BLEU-3, plus 4,80 Prozent METEOR), was zeigt, dass MeDiM kohärente und klinisch fundierte multimodale Ausgaben unterstützt.
Multimodale große Sprachmodelle (MLLMs) haben in der Radiologie kürzlich bemerkenswerte Fortschritte erzielt, indem sie visuelle Wahrnehmung mit natürlichem Sprachverständnis integrieren. Allerdings generieren sie oft klinisch nicht unterstützte Beschreibungen, sogenannte medizinische Halluzinationen, die in medizinischen Anwendungen, die Genauigkeit und bildgestützte Ergebnisse erfordern, ernsthafte Risiken darstellen. Durch empirische Analysen stellen wir fest, dass prompt-induzierte Halluzinationen in radiologischen MLLMs weiterhin weit verbreitet sind, was größtenteils auf eine Überempfindlichkeit gegenüber klinischen Abschnitten zurückzuführen ist. Um dies zu adressieren, führen wir Clinical Contrastive Decoding (CCD) ein, ein trainingsfreies und abruffreies Inferenzframework, das strukturierte klinische Signale aus aufgaben-spezifischen radiologischen Expertenmodellen integriert. CCD führt einen zweistufigen Kontrastmechanismus ein, um Token-Level-Logits während der Generierung zu verfeinern und dadurch die klinische Treue zu verbessern, ohne das Basismodell der MLLMs zu modifizieren. Experimente auf drei Datensätzen und mit mehreren Modellen zeigen, dass CCD die Gesamtleistung bei der Generierung von Radiologieberichten (RRG) konsistent verbessert. Auf dem MIMIC-CXR-Datensatz erzielt es eine Verbesserung von bis zu 17 % in RadGraph-F1, wenn es auf state-of-the-art RRG-Modelle angewendet wird. Unser Ansatz bietet eine leichtgewichtige und generalisierbare Lösung zur Minderung medizinischer Halluzinationen und verbindet effektiv Expertenmodelle und MLLMs in der Radiologie.
Wir präsentieren OneFlow, das erste nicht-autoregressive multimodale Modell, das eine variabel lange und gleichzeitige gemischt-modale Generierung ermöglicht. Im Gegensatz zu autoregressiven Modellen, die eine starre kausale Abfolge zwischen Text- und Bildgenerierung erzwingen, kombiniert OneFlow einen einfügungsbasierten Edit Flow für diskrete Text-Tokens mit Flow Matching für Bild-Latents. OneFlow ermöglicht eine gleichzeitige Text-Bild-Synthese mit hierarchischem Sampling, das den Inhalt vor die Grammatik stellt. Durch kontrollierte Experimente über Modellgrößen von 1B bis 8B zeigen wir, dass OneFlow autoregressive Baselines sowohl bei Generierungs- als auch bei Verständnisaufgaben übertrifft, während bis zu 50 % weniger Trainings-FLOPs verwendet werden. OneFlow übertrifft sowohl autoregressive als auch diffusionsbasierte Ansätze und erschließt neue Fähigkeiten für gleichzeitige Generierung, iterative Verfeinerung und eine natürliche, vernunftähnliche Generierung.
Ein Schlüsselelement des In-Context-Reasonings ist die Fähigkeit von Sprachmodellen (LMs), Entitäten für die spätere Abfrage zu verknüpfen. Beispielsweise könnte ein LM „Ann liebt Kuchen“ repräsentieren, indem es „Ann“ mit „Kuchen“ verknüpft, sodass es später „Ann“ abrufen kann, wenn gefragt wird: „Wer liebt Kuchen?“ Frühere Forschungen zu kurzen Listen verknüpfter Entitäten fanden starke Hinweise darauf, dass LMs eine solche Abfrage über einen Positionsmechanismus implementieren, bei dem „Ann“ basierend auf ihrer Position im Kontext abgerufen wird. In dieser Arbeit stellen wir fest, dass sich dieser Mechanismus schlecht auf komplexere Szenarien verallgemeinern lässt; mit zunehmender Anzahl verknüpfter Entitäten im Kontext wird der Positionsmechanismus in mittleren Positionen ungenau und unzuverlässig. Um dies auszugleichen, ergänzen LMs den Positionsmechanismus durch einen lexikalischen Mechanismus (Abrufen von „Ann“ mithilfe ihres verknüpften Gegenstücks „Kuchen“) und einen reflexiven Mechanismus (Abrufen von „Ann“ über einen direkten Zeiger). Durch umfangreiche Experimente an neun Modellen und zehn Verknüpfungsaufgaben decken wir ein konsistentes Muster auf, wie LMs diese Mechanismen kombinieren, um das Modellverhalten zu steuern. Wir nutzen diese Erkenntnisse, um ein kausales Modell zu entwickeln, das alle drei Mechanismen kombiniert und die Verteilung der nächsten Token mit 95 % Übereinstimmung schätzt. Schließlich zeigen wir, dass unser Modell auf deutlich längere Eingaben von offenem Text, der mit Entitätsgruppen durchsetzt ist, verallgemeinert, was die Robustheit unserer Ergebnisse in natürlicheren Settings weiter unterstreicht. Insgesamt liefert unsere Studie ein umfassenderes Bild davon, wie LMs Entitäten im Kontext verknüpfen und abrufen.
Vorherrschende Methoden zur Ausbildung von Large Language Models (LLMs) als Text-Encoder basieren auf kontrastiven Verlustfunktionen, die das Modell als Black-Box-Funktion behandeln und dessen generative und schlussfolgernde Fähigkeiten zugunsten statischer Embeddings vernachlässigen. Wir stellen GRACE (Generative Representation Learning via Contrastive Policy Optimization) vor, ein neuartiges Framework, das kontrastive Signale nicht als zu minimierende Verluste, sondern als Belohnungen betrachtet, die eine generative Policy steuern. In GRACE fungiert das LLM als eine Policy, die explizite, für Menschen interpretierbare Rationale erzeugt – strukturierte natürliche Sprache, die sein semantisches Verständnis erklärt. Diese Rationale werden anschließend durch Mean Pooling in hochwertige Embeddings kodiert. Mithilfe von Policy-Gradient-Optimierung trainieren wir das Modell mit einer mehrkomponentigen Belohnungsfunktion, die die Ähnlichkeit zwischen positiven Paaren maximiert und die Ähnlichkeit mit negativen Paaren minimiert. Dadurch wird das LLM von einem undurchsichtigen Encoder in einen interpretierbaren Agenten transformiert, dessen Schlussfolgerungsprozess transparent und überprüfbar ist. Im MTEB-Benchmark erzielt GRACE breite Verbesserungen über verschiedene Kategorien hinweg: Im überwachten Setting verbessert sich der Gesamtscore im Durchschnitt über vier Backbones um 11,5 % gegenüber den Basismodellen, während die unüberwachte Variante 6,9 % hinzufügt, ohne die allgemeinen Fähigkeiten zu beeinträchtigen. Diese Arbeit behandelt kontrastive Ziele als Belohnungen für Rationale und vereint Repräsentationslernen mit Generierung, um stärkere Embeddings und transparente Rationale zu erzeugen. Das Modell, die Daten und der Code sind unter https://github.com/GasolSun36/GRACE verfügbar.
Wir präsentieren Human3R, ein einheitliches, vorwärtsgerichtetes Framework für die Online-4D-Rekonstruktion von Mensch-Szene-Szenarien im Weltkoordinatensystem aus beiläufig aufgenommenen monokularen Videos. Im Gegensatz zu früheren Ansätzen, die auf mehrstufige Pipelines, iterative kontaktbewusste Verfeinerungen zwischen Menschen und Szenen sowie starke Abhängigkeiten, z. B. von menschlicher Erkennung, Tiefenschätzung und SLAM-Vorverarbeitung, angewiesen sind, rekonstruiert Human3R globale SMPL-X-Körper mehrerer Personen („jeder“), dichte 3D-Szenen („überall“) und Kameratrajektorien in einem einzigen Vorwärtsdurchlauf („alles auf einmal“). Unser Verfahren basiert auf dem 4D-Online-Rekonstruktionsmodell CUT3R und nutzt parameter-effizientes visuelles Prompt-Tuning, um die reichhaltigen raumzeitlichen Prioritäten von CUT3R zu bewahren und gleichzeitig die direkte Auslesung mehrerer SMPL-X-Körper zu ermöglichen. Human3R ist ein einheitliches Modell, das starke Abhängigkeiten und iterative Verfeinerungen eliminiert. Nach dem Training auf dem relativ kleinen synthetischen Datensatz BEDLAM für nur einen Tag auf einer GPU erzielt es überragende Leistung mit bemerkenswerter Effizienz: Es rekonstruiert mehrere Menschen in einem einzigen Schritt zusammen mit 3D-Szenen in einer Stufe in Echtzeit (15 FPS) mit geringem Speicherbedarf (8 GB). Umfangreiche Experimente zeigen, dass Human3R mit einem einzigen einheitlichen Modell state-of-the-art oder wettbewerbsfähige Leistungen in verschiedenen Aufgaben erzielt, darunter globale menschliche Bewegungsabschätzung, lokale menschliche Mesh-Rekonstruktion, Video-Tiefenschätzung und Kameraposenschätzung. Wir hoffen, dass Human3R als einfache, aber leistungsstarke Baseline dienen und leicht für nachgelagerte Anwendungen erweitert werden kann. Der Code ist verfügbar unter https://fanegg.github.io/Human3R.
Moderne Modelle der natürlichen Sprachverarbeitung haben ein bisher unerreichtes Maß an Skalierung erreicht, doch die Werkzeuge zu ihrer Bewertung stellen oft einen rechenintensiven Engpass dar, der das Forschungstempo begrenzt. Dies ist besonders gravierend bei Metriken zur Bewertung während des Trainings, wie zum Beispiel belohnungsbasierte Signale pro Satz im Reinforcement Learning, die effizient auf Batches von Token-IDs direkt auf der GPU operieren müssen. In diesem Artikel stellen wir TensorBLEU vor, eine neuartige Implementierung der BLEU-Metrik, die speziell für diesen Anwendungsfall entwickelt wurde. Unser Ansatz ist vollständig vektorisiert für GPU-beschleunigte, satzweise Berechnungen innerhalb von PyTorch und führt einen speicher-effizienten Zählmechanismus ein. Durch die Erstellung eines kompakten, batch-spezifischen Wörterbuchs von n-Grammen mittels torch.unique vermeidet unsere Methode die prohibitiv hohen Speicherkosten traditioneller, hash-basierter Vektorisierung, was sie für Modelle mit großem Vokabular praktikabel macht. Wir vergleichen TensorBLEU mit NLTK, der Standardbibliothek für die BLEU-Berechnung auf Basis von Token-IDs auf der CPU. Experimente zeigen, dass TensorBLEU Beschleunigungen von über 13x auf Consumer-GPUs (NVIDIA T4) und mehr als 40x auf Data-Center-Hardware (NVIDIA A100) bietet. Diese Leistung wandelt einen signifikanten Engpass in einen vernachlässigbaren Teil des Trainingszyklus um. Indem wir seine Rolle als „Token-ID-BLEU“ für Entwicklungszwecke klar definieren und unsere Implementierung Open-Source zur Verfügung stellen, bieten wir ein leistungsstarkes Werkzeug zur Beschleunigung der Forschung in Bereichen wie der feinabstimmenden Modelloptimierung mittels Reinforcement Learning.
In-context Ranking (ICR) ist ein aufstrebendes Paradigma für Information Retrieval (IR), das das kontextuelle Verständnis von LLMs (Large Language Models) nutzt, indem die Aufgabenbeschreibung, Kandidatendokumente und die Anfrage direkt in den Eingabe-Prompt des Modells integriert werden und der LLM beauftragt wird, relevante Dokumente zu identifizieren. Obwohl dieser Ansatz effektiv ist, stellt die Effizienz eine erhebliche Herausforderung in diesem Paradigma dar, insbesondere wenn die Kandidatenliste aufgrund des quadratischen/super-linearen Skalierens der Aufmerksamkeitsoperation mit der Kontextlänge wächst. Vor diesem Hintergrund identifiziert dieses Papier zunächst inhärente und nutzbare Strukturen in der Aufmerksamkeit von LLMs, die für ICR feinabgestimmt wurden: (1) Inter-Dokument-Block-Sparsity: Die Aufmerksamkeit ist innerhalb jedes Dokumentblocks dicht, aber über verschiedene Dokumente im Kontext hinweg spärlich; und (2) Query-Dokument-Block-Relevanz: Die Aufmerksamkeitswerte bestimmter Anfrage-Tokens zu einem Dokumentblock in mittleren Schichten korrelieren stark mit der tatsächlichen Relevanz dieses Dokuments. Motiviert durch diese Beobachtungen führen wir BlockRank (Blockwise In-context Ranking) ein, eine neuartige Methode, die die Aufmerksamkeitsoperation in einem LLM anpasst, indem (a) die beobachtete Inter-Dokument-Block-Sparsity architektonisch durchgesetzt wird, wodurch die Komplexität der Aufmerksamkeit von quadratisch auf linear reduziert wird, ohne Leistungseinbußen, und (b) die Query-Dokument-Block-Relevanz für tatsächlich relevante Dokumente während des Feinabstimmens durch ein zusätzliches kontrastives Trainingsziel optimiert wird, was die Retrieval-Leistung in der Aufmerksamkeit verbessert. Experimente auf BEIR, MSMarco und NQ mit Mistral-7B zeigen, dass FLARE Mistral bestehende State-of-the-Art (SOTA) Listwise-Ranker und kontrolliert feinabgestimmte Baselines erreicht oder übertrifft, während es bei der Inferenz deutlich effizienter ist (4,7x für 100 MSMarco-Dokumente im Kontext) und sich elegant auf lange Kontext-Kurzlisten skaliert, etwa 500 Dokumente im Kontext (ca. 100K Kontextlänge) innerhalb einer Sekunde, und somit eine skalierbare und effektive Lösung für ICR darstellt.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) ist ein leistungsstarkes Paradigma zur Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) zum logischen Schlussfolgern, doch sein Erfolg hängt von einer effektiven Exploration ab. Eine ideale Explorationsstrategie muss zwei grundlegende Herausforderungen bewältigen: Sie muss die Qualität der Stichproben bewahren und gleichzeitig die Stabilität des Trainings gewährleisten. Während das standardmäßige Sampling mit fester Temperatur einfach ist, gelingt es ihm nicht, diese konkurrierenden Anforderungen auszubalancieren, da hohe Temperaturen die Stichprobenqualität beeinträchtigen und niedrige Temperaturen die Entdeckung neuer Möglichkeiten einschränken. In dieser Arbeit schlagen wir eine einfachere und effektivere Strategie vor, das Exploratory Annealed Decoding (EAD), das auf der Erkenntnis basiert, dass Exploration besonders wirkungsvoll bei frühen Tokens ist, welche die semantische Richtung einer Sequenz definieren. EAD implementiert eine intuitive **„Exploration am Anfang, Ausnutzung am Ende“**-Strategie, indem die Sampling-Temperatur während der Generierung von hoch nach niedrig abgekühlt wird. Dieser dynamische Zeitplan fördert bedeutungsvolle, hochgradige Diversität zu Beginn und senkt dann schrittweise die Temperatur, um die Stichprobenqualität zu bewahren und die Sampling-Verteilung nahe an der Zielpolitik zu halten, was für ein stabiles Training entscheidend ist. Wir zeigen, dass EAD eine leichtgewichtige, Plug-and-Play-Methode ist, die die Stichprobeneffizienz signifikant verbessert und durchweg das Sampling mit fester Temperatur in verschiedenen RLVR-Algorithmen und Modellgrößen übertrifft. Unsere Arbeit legt nahe, dass die Ausrichtung der Exploration an den natürlichen Dynamiken der sequenziellen Generierung einen robusten Weg zur Verbesserung des logischen Schlussfolgerns von LLMs bietet.
Große Reasoning-Modelle (LRMs) mit Fähigkeiten zur mehrstufigen Argumentation haben bemerkenswerte Problemlösungsfähigkeiten gezeigt, weisen jedoch besorgniserregende Sicherheitslücken auf, die noch weitgehend unverstanden sind. In dieser Arbeit untersuchen wir, warum die Sicherheitsausrichtung in Reasoning-Modellen versagt, und zwar durch die Linse der mechanistischen Interpretierbarkeit. Mithilfe eines linearen Probing-Ansatzes zur Verfolgung von Ablehnungsabsichten über Token-Positionen hinweg entdecken wir ein auffälliges Phänomen, das als „Refusal Cliff“ bezeichnet wird: Viele schlecht ausgerichtete Reasoning-Modelle identifizieren schädliche Eingabeaufforderungen korrekt und behalten während ihres Denkprozesses starke Ablehnungsabsichten bei, erleben jedoch einen starken Abfall der Ablehnungswerte bei den letzten Token vor der Generierung der Ausgabe. Dies deutet darauf hin, dass diese Modelle nicht inhärent unsicher sind; vielmehr werden ihre Ablehnungsabsichten systematisch unterdrückt. Durch kausale Interventionsanalysen identifizieren wir eine spärliche Menge von Attention-Heads, die negativ zum Ablehnungsverhalten beitragen. Die Ablation von nur 3 % dieser Heads kann die Angriffserfolgsrate auf unter 10 % reduzieren. Aufbauend auf diesen mechanistischen Erkenntnissen schlagen wir „Cliff-as-a-Judge“ vor, eine neuartige Datenauswahlmethode, die Trainingsbeispiele identifiziert, die den größten „Refusal Cliff“ aufweisen, um die Sicherheitsausrichtung von Reasoning-Modellen effizient zu reparieren. Dieser Ansatz erreicht vergleichbare Sicherheitsverbesserungen mit nur 1,7 % der herkömmlichen Sicherheitstrainingsdaten und demonstriert damit einen „Weniger-ist-mehr“-Effekt in der Sicherheitsausrichtung.
Die Digitalisierung der physischen Welt in präzise, simulationsfähige virtuelle Umgebungen bietet erhebliche Chancen in verschiedenen Bereichen wie Augmented und Virtual Reality, Gaming und Robotik. Allerdings erreichen aktuelle Methoden der 3D-Rekonstruktion und Szenenverständlichkeit häufig nicht die erforderlichen Standards in einem oder mehreren kritischen Aspekten, wie geometrische Vollständigkeit, Objektinteraktivität, physikalische Plausibilität, fotorealistisches Rendering oder realistische physikalische Eigenschaften für zuverlässige dynamische Simulationen. Um diese Einschränkungen zu überwinden, stellen wir HoloScene vor, ein neuartiges interaktives 3D-Rekonstruktionsframework, das gleichzeitig diese Anforderungen erfüllt. HoloScene nutzt eine umfassende interaktive Szenengraph-Darstellung, die Objektgeometrie, Erscheinungsbild und physikalische Eigenschaften sowie hierarchische und interobjektive Beziehungen kodiert. Die Rekonstruktion wird als ein energiebasiertes Optimierungsproblem formuliert, das Beobachtungsdaten, physikalische Einschränkungen und generative Prioritäten in ein einheitliches, kohärentes Ziel integriert. Die Optimierung wird effizient durch einen hybriden Ansatz durchgeführt, der samplingbasierte Exploration mit gradientenbasierter Verfeinerung kombiniert. Die resultierenden digitalen Zwillinge weisen vollständige und präzise Geometrie, physikalische Stabilität und realistisches Rendering aus neuen Blickwinkeln auf. Bewertungen auf mehreren Benchmark-Datensätzen demonstrieren überlegene Leistung, während praktische Anwendungsfälle im interaktiven Gaming und der Echtzeit-Manipulation digitaler Zwillinge die breite Anwendbarkeit und Effektivität von HoloScene veranschaulichen. Projektseite: https://xiahongchi.github.io/HoloScene.
Große Sprachmodelle (LLMs) demonstrieren beeindruckende Fähigkeiten in einer Vielzahl von Aufgaben, doch bleibt unklar, ob dieser Erfolg auf echtes logisches Denken oder auf ausgefeilte Erinnerungsleistungen zurückzuführen ist. Wir stellen AInstein vor, ein Framework zur Überprüfung, ob LLMs gültige Lösungen für KI-Forschungsprobleme allein auf Basis ihres vortrainierten parametrischen Wissens generieren können – ohne domänenspezifisches Fine-Tuning, retrievergestützte Erweiterungen oder andere externe Hilfsmittel. Unser Ansatz extrahiert destillierte Problemstellungen aus hochwertigen Einreichungen der ICLR 2025 und beauftragt spezialisierte Lösungsagenten damit, technische Lösungen durch iterative Kritikschleifen vorzuschlagen und zu verfeinern, wodurch die Zyklen von Vorschlag, Begutachtung und Überarbeitung, die für wissenschaftliche Untersuchungen zentral sind, nachgeahmt werden. Wir evaluieren AInstein anhand von 1.214 ICLR-Papers, die nach Akzeptanzstufen (Oral, Spotlight, Poster) stratifiziert sind, unter Verwendung eines LLM-als-Gutachter-Paradigmas, das durch ein strukturiertes Bewertungsschema geleitet und durch gezielte manuelle Überprüfungen ergänzt wird. Die Leistung wird anhand von drei Metriken bewertet: Erfolgsrate (löst die Lösung das Problem?), Wiederentdeckung (stimmt sie mit menschlich vorgeschlagenen Methoden überein?) und Neuartigkeit (führt sie zu gültigen, originellen Ansätzen?). Unsere Ergebnisse zeigen, dass LLMs zwar machbare Lösungen wiederentdecken und gelegentlich kreative Alternativen vorschlagen können, ihre Problemlösungsfähigkeit jedoch fragil und stark von der Formulierung abhängig bleibt. Diese Erkenntnisse liefern den ersten groß angelegten Beleg dafür, inwieweit LLMs als autonome wissenschaftliche Problemlöser agieren können, und heben sowohl ihr latentes Potenzial als auch ihre derzeitigen Grenzen hervor.
Trainingsfreie Beschleunigung hat sich als ein fortschrittliches Forschungsgebiet in der Videogenerierung auf Basis von Diffusionsmodellen etabliert. Die Redundanz von latenten Variablen bei der Inferenz von Diffusionsmodellen bietet einen natürlichen Ansatzpunkt für die Beschleunigung. In diesem Artikel zerlegen wir den Inferenzprozess in die Phasen der Kodierung, Entrauschung und Dekodierung und stellen fest, dass cache-basierte Beschleunigungsmethoden oft zu erheblichen Speicherspitzen in den letzten beiden Phasen führen. Um dieses Problem zu lösen, analysieren wir die Charakteristika der Inferenz in den verschiedenen Phasen und schlagen phasenspezifische Strategien zur Reduzierung des Speicherverbrauchs vor: 1) Asynchroner Cache-Austausch. 2) Feature-Chunking. 3) Aufteilung latenter Variablen für die Dekodierung. Gleichzeitig stellen wir sicher, dass der durch diese drei Strategien verursachte Zeitaufwand geringer bleibt als die erzielten Beschleunigungsgewinne. Im Vergleich zur Baseline erreicht unser Ansatz eine schnellere Inferenzgeschwindigkeit und einen geringeren Speicherverbrauch, während die Qualitätsminderung in einem akzeptablen Rahmen bleibt. Der Code ist verfügbar unter https://github.com/NKUShaw/LightCache.
Direct Preference Optimization (DPO) hat sich als einfache und effektive Methode zur Ausrichtung großer Sprachmodelle etabliert. Allerdings führt die Abhängigkeit von einem festen Temperaturparameter zu suboptimalem Training auf diversen Präferenzdaten, was zu Überanpassung bei einfachen Beispielen und unzureichendem Lernen aus informativen Beispielen führt. In jüngster Zeit wurden Methoden entwickelt, um dies zu beheben. Während IPO allgemeine Überanpassung adressiert, kann seine gleichmäßige Regularisierung zu konservativ sein. Der gezieltere Ansatz von Beta-DPO leidet unter eigenen Einschränkungen: Seine batchweise Anpassung wendet eine einzige, kompromisshafte Temperatur auf gemischte Margin-Paare an, seine lineare Aktualisierungsregel kann instabile negative Beta-Werte erzeugen, und sein Filtermechanismus verwirft potenziell nützliche Trainingssignale. In dieser Arbeit stellen wir Margin-Adaptive Direct Preference Optimization (MADPO) vor, eine Methode, die eine stabile, datenerhaltende und instanzspezifische Lösung bietet. MADPO verwendet einen praktischen zweistufigen Ansatz: Zuerst trainiert es ein Belohnungsmodell, um Präferenzmargen zu schätzen, und verwendet dann diese Margen, um einen kontinuierlichen, adaptiven Gewichtungsfaktor auf den DPO-Verlust für jedes einzelne Trainingsbeispiel anzuwenden. Dieses Neugewichtungsschema erzeugt eine effektive Zielmarge, die für schwierige Paare verstärkt und für einfache Paare gedämpft wird, was eine präzise Steuerung des Lernsignals ermöglicht. Wir liefern eine umfassende theoretische Analyse, die zeigt, dass MADPO einen gutartigen Optimierungsraum aufweist und robust gegenüber Schätzfehlern des Belohnungsmodells ist. Wir validieren unsere Theorie mit Experimenten zu einer Sentiment-Generierungsaufgabe, bei der MADPO durchweg und signifikant starke Baseline-Methoden auf Datensätzen unterschiedlicher Qualität übertrifft. Es erzielt Leistungssteigerungen von bis zu +33,3 % auf hochwertigen Daten und +10,5 % auf minderwertigen Daten im Vergleich zur nächstbesten Methode. Unsere Ergebnisse etablieren MADPO als einen robusteren und prinzipielleren Ansatz zur Präferenzausrichtung.
Wir stellen Equilibrium Matching (EqM) vor, ein generatives Modellierungsframework, das aus einer Gleichgewichts-Dynamik-Perspektive entwickelt wurde. EqM verwirft die Nicht-Gleichgewichts-, zeitkonditionierte Dynamik traditioneller Diffusions- und Fluss-basierter generativer Modelle und lernt stattdessen den Gleichgewichtsgradienten einer impliziten Energielandschaft. Durch diesen Ansatz können wir einen optimierungsbasierten Sampling-Prozess zur Inferenzzeit anwenden, bei dem Samples durch Gradientenabstieg auf der gelernten Landschaft mit einstellbaren Schrittgrößen, adaptiven Optimierern und adaptiver Berechnung gewonnen werden. EqM übertrifft die Generierungsleistung von Diffusions-/Fluss-Modellen empirisch und erreicht einen FID von 1,90 auf ImageNet 256×256. EqM ist auch theoretisch gerechtfertigt, um von der Datenmannigfaltigkeit zu lernen und zu sampeln. Über die Generierung hinaus ist EqM ein flexibles Framework, das Aufgaben wie die Entrauschung teilweise verrauschter Bilder, OOD-Erkennung und Bildkomposition natürlich handhabt. Durch den Ersatz zeitkonditionierter Geschwindigkeiten durch eine einheitliche Gleichgewichtslandschaft bietet EqM eine engere Brücke zwischen Fluss- und energiebasierten Modellen und einen einfachen Weg zur optimierungsgetriebenen Inferenz.
Große Sprachmodelle bergen Potenzial als wissenschaftliche Assistenten, doch bestehende Agenten verlassen sich entweder ausschließlich auf Algorithmenentwicklung oder auf tiefgehende Forschung in Isolation, wobei beide Ansätze kritische Einschränkungen aufweisen. Reine Algorithmenentwicklung, wie bei AlphaEvolve, stützt sich nur auf das interne Wissen der Sprachmodelle und erreicht in komplexen Domänen schnell ein Plateau, während reine tiefgehende Forschung Ideen ohne Validierung vorschlägt, was zu unrealistischen oder nicht umsetzbaren Lösungen führt. Wir präsentieren DeepEvolve, einen Agenten, der tiefgehende Forschung mit Algorithmenentwicklung verbindet und externe Wissensabfrage, übergreifende Code-Bearbeitung und systematisches Debugging in einem feedbackgesteuerten iterativen Prozess vereint. Jede Iteration schlägt nicht nur neue Hypothesen vor, sondern verfeinert, implementiert und testet sie auch, wodurch sowohl oberflächliche Verbesserungen als auch unproduktive Überverfeinerungen vermieden werden. Über neun Benchmarks in den Bereichen Chemie, Mathematik, Biologie, Materialwissenschaften und Patente hinweg verbessert DeepEvolve kontinuierlich den Ausgangsalgorithmus und erzeugt ausführbare neue Algorithmen mit anhaltenden Fortschritten. Indem DeepEvolve die Lücke zwischen ungeleiteter Evolution und unbegründeter Forschung schließt, bietet es ein zuverlässiges Rahmenwerk zur Förderung der Entdeckung wissenschaftlicher Algorithmen. Unser Code ist verfügbar unter https://github.com/liugangcode/deepevolve.
RAG-Systeme (Retrieval-Augmented Generation) und Web-Agenten werden zunehmend an Multi-Hop-Tiefensuchaufgaben evaluiert, doch die derzeitige Praxis leidet unter zwei wesentlichen Einschränkungen. Erstens geben die meisten Benchmarks den Lösungsweg in der Fragestellung preis, wodurch Modelle oberflächliche Hinweise verfolgen können, anstatt eigenständig Schlussfolgerungsketten zu entdecken. Zweitens beschränkt sich die Evaluation typischerweise auf eine einzige Erfolgsquote, die unterschiedliche Verhaltensweisen auf einen einzigen Wert reduziert und verschleiert, ob Fehler auf unzureichende Suche, schlechte Wissensnutzung oder unangemessene Ablehnung zurückzuführen sind. Um diese Probleme zu adressieren, stellen wir WebDetective vor, einen Benchmark für hinweis-freie Multi-Hop-Fragen, gepaart mit einer kontrollierten Wikipedia-Sandbox, die die vollständige Nachvollziehbarkeit der Modellaktionen gewährleistet, sowie ein ganzheitliches Evaluationsframework, das Suchqualität, Wissensnutzung und Ablehnungsverhalten separat bewertet. Unsere Evaluation von 25 state-of-the-art Modellen zeigt systematische Schwächen in allen Architekturen: Modelle haben Schwierigkeiten bei der Wissensnutzung, obwohl ausreichend Beweise vorliegen, und zeigen nahezu keine angemessene Ablehnung, wenn Beweise fehlen. Diese Muster offenbaren eine grundlegende Lücke: Die heutigen Systeme sind zwar gut darin, vorgegebene Lösungswege auszuführen, scheitern jedoch, wenn sie diese selbst entdecken müssen. Wir entwickeln einen agentenbasierten Workflow, EvidenceLoop, der gezielt die Herausforderungen adressiert, die unser Benchmark identifiziert, und Überprüfungsschleifen sowie systematische Beweisverfolgung integriert, die sowohl die Such- als auch die Synthesefähigkeiten verbessern. Diese Baseline zeigt, dass das diagnostische Framework von WebDetective konkrete architektonische Verbesserungen anleiten kann, und etabliert unseren Benchmark als ein entscheidendes Werkzeug für die Entwicklung wirklich autonomer Denksysteme anstelle von Mustern-folgenden Agenten.
Die meisten bestehenden Benchmarks für das Verständnis der egozentrischen Bildverarbeitung konzentrieren sich hauptsächlich auf Tagesszenarien und übersehen dabei die schwachen Lichtverhältnisse, die in realen Anwendungen unvermeidlich sind. Um diese Lücke zu untersuchen, präsentieren wir EgoNight, den ersten umfassenden Benchmark für die egozentrische Bildverarbeitung bei Nacht, mit der visuellen Frage-Antwort-Aufgabe (VQA) als Kernaufgabe. Ein zentrales Merkmal von EgoNight ist die Einführung von Tag-Nacht-ausgerichteten Videos, die die Qualität der Nachtannotationen mithilfe der Tagesdaten verbessern und deutliche Leistungslücken zwischen den Lichtverhältnissen aufzeigen. Um dies zu erreichen, sammeln wir sowohl synthetische Videos, die mit Blender gerendert wurden, als auch reale Aufnahmen, wobei sichergestellt wird, dass die Szenen und Handlungen visuell und zeitlich ausgerichtet sind. Durch die Nutzung dieser gepaarten Videos konstruieren wir EgoNight-VQA, unterstützt durch eine neuartige, tag-unterstützte Nacht-Auto-Labeling-Engine und verfeinert durch umfangreiche menschliche Überprüfung. Jedes Frage-Antwort-Paar wird von Annotatoren doppelt überprüft, um die Zuverlässigkeit zu gewährleisten. Insgesamt enthält EgoNight-VQA 3658 Frage-Antwort-Paare über 90 Videos hinweg, die 12 verschiedene Frage-Antwort-Typen abdecken, mit mehr als 300 Stunden menschlicher Arbeit. Bewertungen von state-of-the-art multimodalen großen Sprachmodellen (MLLMs) zeigen erhebliche Leistungseinbußen beim Übergang von Tag zu Nacht, was die Herausforderungen des Schlussfolgerns unter schwachen Lichtverhältnissen unterstreicht. Über VQA hinaus führt EgoNight auch zwei zusätzliche Aufgaben ein, die Tag-Nacht-Korrespondenzsuche und die egozentrische Tiefenschätzung bei Nacht, die die Grenzen bestehender Modelle weiter ausloten. Wir glauben, dass EgoNight-VQA eine solide Grundlage für die Weiterentwicklung der anwendungsgetriebenen egozentrischen Bildverarbeitungsforschung und für die Entwicklung von Modellen bietet, die sich über Beleuchtungsdomänen hinweg verallgemeinern lassen. Alle Daten und Codes werden nach der Annahme zur Verfügung gestellt.
Der Einsatz autonomer KI-Agenten in sensiblen Bereichen wie dem Gesundheitswesen birgt erhebliche Risiken für Sicherheit, Datenschutz und Privatsphäre. Diese Agenten können von den Nutzerzielen abweichen, Datenschutzrichtlinien verletzen oder durch Angriffe kompromittiert werden. Um diese Gefahren zu mindern, ist ein Mechanismus erforderlich, der formal sicherstellt, dass die Handlungen eines Agenten vordefinierten Sicherheitsbeschränkungen entsprechen – eine Herausforderung, die bestehende Systeme nicht vollständig bewältigen. Wir stellen VeriGuard vor, ein neuartiges Framework, das formale Sicherheitsgarantien für LLM-basierte Agenten durch eine zweistufige Architektur bietet, die auf robuste und verifizierbare Korrektheit ausgelegt ist. Die erste Offline-Phase umfasst einen umfassenden Validierungsprozess. Dieser beginnt mit der Klärung der Nutzerabsicht, um präzise Sicherheitsspezifikationen festzulegen. VeriGuard synthetisiert daraufhin eine Verhaltensrichtlinie und unterzieht diese sowohl Tests als auch formaler Verifikation, um deren Einhaltung der Spezifikationen nachzuweisen. Dieser iterative Prozess verfeinert die Richtlinie, bis sie als korrekt eingestuft wird. In der zweiten Phase erfolgt ein Online-Aktionsmonitoring, bei dem VeriGuard als Laufzeitmonitor fungiert, um jede vorgeschlagene Aktion des Agenten vor der Ausführung gegen die vorab verifizierte Richtlinie zu validieren. Diese Trennung der umfassenden Offline-Validierung vom ressourcenschonenden Online-Monitoring ermöglicht die praktische Anwendung formaler Garantien und bietet einen robusten Schutz, der die Vertrauenswürdigkeit von LLM-Agenten erheblich verbessert.
Emotionale Unterstützungskonversationen (ESC) spielen eine entscheidende Rolle bei der Linderung von psychischem Stress und der Bereitstellung emotionalen Werts durch Dialoge. Während sich aktuelle Studien weitgehend auf Datenanreicherung und die Konstruktion synthetischer Korpora konzentriert haben, vernachlässigen sie oft die tieferen kognitiven Denkprozesse, die einer effektiven emotionalen Unterstützung zugrunde liegen. Um diese Lücke zu schließen, schlagen wir CARE vor, ein neuartiges Framework, das das Denken in ESC stärkt, ohne sich auf groß angelegte synthetische Daten zu verlassen. CARE nutzt den ursprünglichen ESC-Trainingsdatensatz, um Modelle dabei zu unterstützen, logisch kohärente und unterstützende Antworten zu generieren, wodurch das kognitive Denken explizit verbessert wird. Auf dieser Grundlage verwenden wir weiterhin Verstärkungslernen, um den Denkprozess zu verfeinern und zu verstärken. Experimentelle Ergebnisse zeigen, dass CARE sowohl die logische Stimmigkeit als auch die unterstützende Qualität der Antworten signifikant verbessert und somit die Entwicklung empathischer, kognitiv robuster und menschenähnlicher emotionaler Unterstützungssysteme vorantreibt.
Während Post-Training-Quantisierung weit verbreitet für die effiziente Bereitstellung großer Sprachmodelle eingesetzt wird, bleiben die Mechanismen, die der Quantisierungsrobustheit zugrunde liegen, unklar. Wir führen eine umfassende Analyse der Quantisierungsdegradation entlang der Trainingsverläufe von Open-Source-Sprachmodellen mit bis zu 32B Parametern und 15T Trainings-Tokens durch, um die Beziehung zwischen Trainingsdynamik und Quantisierungsleistung präzise zu bewerten. Unsere zentrale Erkenntnis ist, dass Quantisierungsfehler in groß angelegten Trainingsläufen durch ein komplexes Zusammenspiel zwischen Lernrate und anderen Trainingshyperparametern verursacht werden. Insbesondere divergieren Validierungsverlust und Quantisierungsfehler, sobald die Lernraten abnehmen, weitgehend unabhängig vom Umfang der Trainingsdaten. Um Eingriffe in die Trainingsdynamik zu untersuchen und spezifische Konfigurationen zu identifizieren, die die Quantisierungsrobustheit günstig beeinflussen können, trainieren wir eigene Modelle in kontrollierten Experimenten mit bis zu 100B Tokens. Unsere Ergebnisse widerlegen die Annahme, dass eine Erhöhung des Datensatzumfangs zwangsläufig die Effektivität der Quantisierung beeinträchtigt, und zeigen stattdessen, dass strategische Eingriffe in die Trainingshyperparameter die Quantisierungsqualität im großen Maßstab verbessern können.
Referring Video Object Segmentation (RVOS) erfordert die Segmentierung spezifischer Objekte in einem Video, die durch eine natürliche Sprachbeschreibung geleitet wird. Die zentrale Herausforderung von RVOS besteht darin, abstrakte linguistische Konzepte auf eine spezifische Menge von Pixeln zu verankern und diese kontinuierlich durch die komplexe Dynamik eines Videos zu segmentieren. Angesichts dieser Schwierigkeit haben frühere Arbeiten die Aufgabe oft in eine pragmatische `Lokalisieren-dann-Segmentieren'-Pipeline zerlegt. Diese kaskadierte Gestaltung erzeugt jedoch einen Informationsengpass, indem Semantik in grobe geometrische Hinweise (z.B. Punkte) vereinfacht wird, und hat Schwierigkeiten, die zeitliche Konsistenz aufrechtzuerhalten, da der Segmentierungsprozess oft von der anfänglichen Sprachverankerung entkoppelt ist. Um diese grundlegenden Einschränkungen zu überwinden, schlagen wir FlowRVS vor, ein neuartiges Framework, das RVOS als ein bedingtes kontinuierliches Flussproblem neu konzipiert. Dies ermöglicht es uns, die inhärenten Stärken vortrainierter T2V-Modelle, feinkörnige Pixelkontrolle, Text-Video-Semantikausrichtung und zeitliche Kohärenz zu nutzen. Anstatt konventionell von Rauschen zur Maske zu generieren oder direkt die Maske vorherzusagen, reformulieren wir die Aufgabe, indem wir eine direkte, sprachgesteuerte Deformation von der ganzheitlichen Darstellung eines Videos zu seiner Zielmaske lernen. Unser einstufiger, generativer Ansatz erreicht neue State-of-the-Art-Ergebnisse in allen wichtigen RVOS-Benchmarks. Insbesondere erzielt er einen J&F-Wert von 51,1 in MeViS (+1,6 gegenüber dem vorherigen SOTA) und 73,3 im Zero-Shot Ref-DAVIS17 (+2,7), was das erhebliche Potenzial der Modellierung von Video-Verständnisaufgaben als kontinuierliche Deformationsprozesse demonstriert.
Große Sprachmodelle (LLMs) neigen zu Halluzinationen, der Erzeugung von plausiblen, aber faktisch falschen Aussagen. Diese Arbeit untersucht die intrinsischen, architektonischen Ursprünge dieses Fehlermodus durch drei primäre Beiträge. Erstens schlagen wir Distributional Semantics Tracing (DST) vor, ein einheitliches Framework, das etablierte Interpretierbarkeitstechniken integriert, um eine kausale Karte der Argumentation eines Modells zu erstellen, wobei Bedeutung als Funktion des Kontexts (distributionelle Semantik) behandelt wird. Zweitens identifizieren wir die Ebene des Modells, auf der eine Halluzination unvermeidlich wird, und bestimmen eine spezifische Commitment-Ebene, auf der die internen Repräsentationen des Modells irreversibel von der Faktizität abweichen. Drittens identifizieren wir den zugrunde liegenden Mechanismus für diese Fehler. Wir beobachten einen Konflikt zwischen verschiedenen Berechnungspfaden, den wir mithilfe der Dual-Prozess-Theorie interpretieren: ein schneller, heuristischer assoziativer Pfad (ähnlich System 1) und ein langsamer, bewusster kontextueller Pfad (ähnlich System 2), was zu vorhersehbaren Fehlermodi wie Reasoning Shortcut Hijacks führt. Die Fähigkeit unseres Frameworks, die Kohärenz des kontextuellen Pfads zu quantifizieren, zeigt eine starke negative Korrelation (rho = -0,863) mit den Halluzinationsraten, was darauf hindeutet, dass diese Fehler vorhersehbare Konsequenzen interner semantischer Schwäche sind. Das Ergebnis ist eine mechanistische Erklärung dafür, wie, wann und warum Halluzinationen innerhalb der Transformer-Architektur auftreten.
Die Gauß-Prozess-Regression (GP-Regression) bietet eine Strategie zur Beschleunigung der Suche nach Sattelpunkten auf hochdimensionalen Energieflächen, indem die Anzahl der notwendigen Berechnungen der Energie und ihrer Ableitungen bezüglich der atomaren Koordinaten reduziert wird. Der Rechenaufwand für die Hyperparameteroptimierung kann jedoch erheblich sein und den Ansatz ineffizient machen. Fehlschläge können auch auftreten, wenn die Suche zu weit in Regionen vordringt, die durch das GP-Modell nicht ausreichend gut abgebildet sind. Hier werden diese Herausforderungen durch den Einsatz geometrie-bewusster Optimaltransport-Maße und einer aktiven Ausdünnungsstrategie gelöst, die eine Summation über Wasserstein-1-Distanzen für jeden Atomtyp in der Farthest-Point-Sampling-Methode verwendet. Dadurch wird eine feste Teilmenge geometrisch diverser Konfigurationen ausgewählt, um den schnell ansteigenden Aufwand für GP-Aktualisierungen bei zunehmenden Beobachtungen zu vermeiden. Die Stabilität wird durch ein permutationsinvariantes Metrikmaß verbessert, das einen zuverlässigen Vertrauensradius für ein frühzeitiges Stoppen und eine logarithmische Barriere-Strafe für das Wachstum der Signalvarianz bereitstellt. Diese physikalisch motivierten algorithmischen Änderungen erweisen ihre Wirksamkeit, indem sie die mittlere Rechenzeit auf weniger als die Hälfte für eine Menge von 238 anspruchsvollen Konfigurationen aus einem zuvor veröffentlichten Datensatz chemischer Reaktionen reduzieren. Mit diesen Verbesserungen etabliert sich der GP-Ansatz als ein robustes und skalierbares Verfahren zur Beschleunigung der Sattelpunkt-Suche, wenn die Berechnung der Energie und der atomaren Kräfte einen erheblichen Rechenaufwand erfordert.
Eingebettete Vision-Sprach-Modelle (VLMs) werden typischerweise mit kurzen Textfenstern (<77 Token) vortrainiert, was die Kürzung von Langformat-Bildunterschriften erzwingt. Dennoch zeigt die Verteilung biomedizinischer Bildunterschriften aus groß angelegter Open-Source-Literatur, dass ein erheblicher Teil der Bildunterschriften weit über 77 Token hinausgeht. Vor diesem Hintergrund untersuchen wir die Auswirkungen des Vortrainierens auf Langformat-Bildunterschriften in der Biomedizin, indem wir die Kontextlänge der Textkodierer in VLMs erweitern. Wir stellen fest, dass ein längerer Kontext (und damit die zusätzliche Aufsicht, die in Langformat-Bildunterschriften enthalten ist) mit einer besseren Retrieval- und Klassifikationsleistung korreliert. Angesichts dieser Erkenntnis führen wir BIOMEDICA-LongCAP ein, einen Datensatz von 1M Bild-Bildunterschriften-Paaren, der mit kontextbewussten Beschreibungen aus Volltextartikeln angereichert ist und längere sowie zusätzliche textuelle Aufsicht bietet. Mit BIOMEDICA-LongCAP trainieren wir BMC-LongCLIP, ein biomedizinisches VLM mit Langkontext, das einen Textkodierer unterstützt, der Fenster von bis zu 512 Token verarbeiten kann. Unser Modell erweitert die Kontextkapazität um das 6,6-fache und reduziert den Token-Verschleiss von 55 % auf nur 2,2 %. Bei Benchmarks für das Retrieval von Langformat-Bildunterschriften erzielt BMC-LongCLIP absolute Gewinne von bis zu +30 % in Recall@1 und durchschnittliche Verbesserungen von +2 % in der Klassifikation, während es gleichzeitig schneller konvergiert als Modelle mit kurzem Kontext. Unsere Ergebnisse zeigen, dass die Modellierung von Langkontext eine vielversprechende Richtung für die Weiterentwicklung biomedizinischer VLMs darstellt.
Reale Implementierungen großer Sprachmodelle (z. B. konversationelle KI-Systeme, Code-Generierungsassistenten) erzeugen natürlicherweise zahlreiche implizite Signale für Nutzerunzufriedenheit (DSAT), da Nutzer durch Verfeinerungen, Korrekturen und geäußerte Präferenzen iterativ bessere Antworten anstreben, während explizite Zufriedenheitsrückmeldungen (SAT) selten sind. Bestehende Ansätze zum Präferenzlernen sind schlecht auf dieses Datenprofil abgestimmt, da sie auf kostspielige menschliche Annotationen angewiesen sind oder von einer Fülle positiver Rückmeldungen ausgehen. In diesem Artikel stellen wir DRIFT (Dissatisfaction-Refined Iterative preFerence Training) vor, das das Training auf realen DSAT-Signalen verankert und positive Beispiele dynamisch aus der sich entwickelnden Policy zieht. Empirisch erreichen DRIFT-Modelle, die auf realen WildFeedback-Datensätzen und synthetischen UltraFeedback-Datensätzen trainiert wurden, Verbesserungen von bis zu +6,23 % (7B) / +7,61 % (14B) beim WildBench Task Score und bis zu +8,95 % (7B) / +12,29 % (14B) bei der AlpacaEval2-Gewinnrate gegenüber Basismodellen und übertreffen damit starke Baseline-Methoden wie iteratives DPO und SPIN. In größeren Maßstäben sind die Verbesserungen besonders deutlich: 14B-Modelle, die mit DRIFT trainiert wurden, übertreffen GPT-4o-mini bei WildBench. Weitere Analysen zeigen, dass DRIFT auch die explorative Kapazität bewahrt und vielfältigere Lösungen mit hoher Belohnung liefert, anstatt auf enge Teilmengen zusammenzubrechen. Theoretisch zeigen wir, dass dieses Design Präferenzmargen bewahrt und eine Gradientendegeneration vermeidet. Diese Ergebnisse zeigen, dass DRIFT ein effektives und skalierbares Rezept für das Post-Training in der realen Welt ist, das das häufigste und informativste Signal nutzt. Der Code und die Daten sind unter https://github.com/cacayaya/DRIFT.git verfügbar.
Es wurde gezeigt, dass Code-Daten die Fähigkeiten großer Sprachmodelle (LLMs) zur logischen Schlussfolgerung verbessern, doch es bleibt unklar, welche Aspekte des Codes dafür hauptsächlich verantwortlich sind. Wir untersuchen diese Frage mit einem systematischen, datenzentrierten Rahmenwerk. Wir erstellen parallele Instruktionsdatensätze in zehn Programmiersprachen und wenden kontrollierte Störungen an, die gezielt strukturelle oder semantische Eigenschaften des Codes beeinträchtigen. Anschließend finetunen wir LLMs aus fünf Modellfamilien und acht Skalierungen auf jeder Variante und bewerten ihre Leistung bei Aufgaben in natürlicher Sprache, Mathematik und Code. Über 3.331 Experimente hinweg zeigen unsere Ergebnisse, dass LLMs anfälliger für strukturelle Störungen als für semantische sind, insbesondere bei mathematischen und Code-Aufgaben. Geeignete Abstraktionen wie Pseudocode und Flussdiagramme können ebenso effektiv sein wie Code, während die Kodierung derselben Informationen mit weniger Tokens ohne Einhaltung der ursprünglichen Syntax oft die Leistung beibehalten oder sogar verbessern kann. Bemerkenswerterweise bleibt sogar beschädigter Code mit irreführenden Signalen wettbewerbsfähig, wenn oberflächliche Regelmäßigkeiten bestehen bleiben. Schließlich beeinflussen auch syntaktische Stile aufgabenspezifische Gewinne, wobei Python das logische Denken in natürlicher Sprache begünstigt und niedrigere Programmiersprachen wie Java und Rust das mathematische Denken fördern. Durch unser systematisches Rahmenwerk möchten wir Einblicke bieten, wie verschiedene Eigenschaften des Codes das logische Denken beeinflussen, und die Gestaltung von Trainingsdaten zur Verbesserung der logischen Fähigkeiten von LLMs informieren.
Die Leistung von Machine-Learning-Modellen hängt stark von den Trainingsdaten ab. Die Knappheit von groß angelegten, gut annotierten Datensätzen stellt erhebliche Herausforderungen bei der Erstellung robuster Modelle dar. Um dies zu bewältigen, hat sich synthetisch generierte Daten, die durch Simulationen und generative Modelle erzeugt werden, als vielversprechende Lösung herausgestellt. Sie erhöhen die Vielfalt der Datensätze und verbessern die Leistung, Zuverlässigkeit und Widerstandsfähigkeit der Modelle. Allerdings erfordert die Bewertung der Qualität dieser generierten Daten eine effektive Metrik. Dieses Papier führt die Synthetic Dataset Quality Metric (SDQM) ein, um die Datenqualität für Objekterkennungsaufgaben zu bewerten, ohne dass das Modelltraining konvergieren muss. Diese Metrik ermöglicht eine effizientere Generierung und Auswahl synthetischer Datensätze und adressiert damit eine zentrale Herausforderung bei ressourcenbeschränkten Objekterkennungsaufgaben. In unseren Experimenten zeigte SDQM eine starke Korrelation mit den Mean Average Precision (mAP)-Werten von YOLOv11, einem führenden Objekterkennungsmodell, während frühere Metriken nur moderate oder schwache Korrelationen aufwiesen. Darüber hinaus liefert sie umsetzbare Erkenntnisse zur Verbesserung der Datenqualität und minimiert den Bedarf an kostspieligem iterativem Training. Diese skalierbare und effiziente Metrik setzt einen neuen Standard für die Bewertung synthetischer Daten. Der Code für SDQM ist verfügbar unter https://github.com/ayushzenith/SDQM.
Die automatische Akkorderkennung (ACR) mittels Deep-Learning-Modellen hat allmählich vielversprechende Erkennungsgenauigkeiten erreicht, doch bleiben zwei zentrale Herausforderungen bestehen. Erstens konzentrierte sich die bisherige Forschung hauptsächlich auf ACR im Audiobereich, während die symbolische Musik (z. B. Partituren) aufgrund von Datenknappheit nur begrenzt Beachtung fand. Zweitens übersehen bestehende Methoden noch immer Strategien, die mit den analytischen Praktiken menschlicher Musikanalyse übereinstimmen. Um diese Herausforderungen zu bewältigen, leisten wir zwei Beiträge: (1) Wir stellen POP909-CL vor, eine erweiterte Version des POP909-Datensatzes mit tempoausgerichteten Inhalten und manuell korrigierten Labels für Akkorde, Beats, Tonarten und Taktarten; und (2) Wir präsentieren BACHI, ein Modell zur symbolischen Akkorderkennung, das die Aufgabe in verschiedene Entscheidungsschritte zerlegt, nämlich die Grenzerkennung und das iterative Ranking von Akkordgrundton, Akkordqualität und Bass (Inversion). Dieser Mechanismus spiegelt die menschlichen Gehörbildungspraktiken wider. Experimente zeigen, dass BACHI eine state-of-the-art Akkorderkennungsleistung sowohl bei klassischer als auch bei Popmusik erreicht, wobei Ablationsstudien die Wirksamkeit jedes Moduls bestätigen.
KI-Modelle werden zunehmend für Datenanalyse und Visualisierung eingesetzt, doch Benchmarks behandeln selten spezifische Aufgaben für Streudiagramme, was die Einblicke in die Leistungsfähigkeit einschränkt. Um diese Lücke für einen der häufigsten Diagrammtypen zu schließen, stellen wir einen synthetischen, annotierten Datensatz mit über 18.000 Streudiagrammen aus sechs Datenquellen und 17 Diagrammdesigns sowie einen darauf basierenden Benchmark vor. Wir evaluieren proprietäre Modelle von OpenAI und Google mittels N-Shot-Prompting anhand von fünf verschiedenen Aufgaben, die sich aus den Annotationen von Cluster-Begrenzungsrahmen, deren Mittelpunktskoordinaten und Ausreißerkoordinaten ableiten. OpenAI-Modelle und Gemini 2.5 Flash, insbesondere wenn sie mit Beispielen gepromptet werden, sind geeignete Optionen für die Zählung von Clustern und im Fall von Flash auch für Ausreißer (Genauigkeit von über 90%). Die Ergebnisse für lokalisierungsbezogene Aufgaben sind jedoch unbefriedigend: Präzision und Recall liegen nahe oder unter 50%, mit Ausnahme von Flash bei der Identifikation von Ausreißern (65,01%). Darüber hinaus scheint der Einfluss des Diagrammdesigns auf die Leistung ein sekundärer Faktor zu sein, dennoch ist es ratsam, Streudiagramme mit breiten Seitenverhältnissen (16:9 und 21:9) oder zufällig eingefärbte Diagramme zu vermeiden. Ergänzende Materialien sind unter https://github.com/feedzai/biy-paper verfügbar.
In den letzten zwei Jahrzehnten hat die Spracherkennung von Emotionen (Speech Emotion Recognition, SER) zunehmend Aufmerksamkeit erhalten. Um SER-Systeme zu trainieren, sammeln Forscher emotionale Sprachdatenbanken, die von Crowdsourcing- oder internen Bewertern annotiert werden, die Emotionen aus vordefinierten Kategorien auswählen. Allerdings sind Meinungsverschiedenheiten unter den Bewertern häufig. Herkömmliche Methoden behandeln diese Unstimmigkeiten als Rauschen und aggregieren die Labels zu einem einzigen Konsensziel. Während dies SER als Einzel-Label-Aufgabe vereinfacht, ignoriert es die inhärente Subjektivität der menschlichen Emotionswahrnehmung. Diese Dissertation stellt solche Annahmen in Frage und fragt: (1) Sollten Minderheitsbewertungen von Emotionen verworfen werden? (2) Sollten SER-Systeme nur von den Wahrnehmungen weniger Individuen lernen? (3) Sollten SER-Systeme nur eine Emotion pro Probe vorhersagen? Psychologische Studien zeigen, dass die Emotionswahrnehmung subjektiv und mehrdeutig ist, mit überlappenden emotionalen Grenzen. Wir schlagen neue Modellierungs- und Bewertungsperspektiven vor: (1) Behalten Sie alle emotionalen Bewertungen bei und repräsentieren Sie sie mit Soft-Label-Verteilungen. Modelle, die auf individuellen Annotatorbewertungen trainiert und gemeinsam mit Standard-SER-Systemen optimiert werden, verbessern die Leistung bei Konsens-labelierten Tests. (2) Definieren Sie die SER-Bewertung neu, indem Sie alle emotionalen Daten einbeziehen und das gleichzeitige Auftreten von Emotionen (z. B. traurig und wütend) zulassen. Wir schlagen eine „allumfassende Regel“ vor, die alle Bewertungen aggregiert, um die Vielfalt in der Label-Darstellung zu maximieren. Experimente mit vier englischen Emotionsdatenbanken zeigen eine überlegene Leistung gegenüber Mehrheits- und Pluralitätslabeln. (3) Konstruieren Sie eine Strafmatrix, um unwahrscheinliche Emotionskombinationen während des Trainings zu vermeiden. Die Integration in Verlustfunktionen verbessert die Leistung weiter. Insgesamt führen die Berücksichtigung von Minderheitsbewertungen, mehreren Annotatoren und Multi-Emotions-Vorhersagen zu robusteren und menschlich ausgerichteten SER-Systemen.
Vision-Language-Action-Modelle (VLAs) haben bemerkenswerte Leistungen in der Robotersteuerung gezeigt. Sie bleiben jedoch grundsätzlich bei Aufgaben, die hohe Präzision erfordern, aufgrund ihres Einzel-Inferenz-Paradigmas eingeschränkt. Während Testzeit-Skalierungsansätze unter Verwendung externer Verifizierer vielversprechend sind, erfordern sie zusätzliches Training und scheitern bei der Generalisierung auf unbekannte Bedingungen. Wir schlagen Masking Distribution Guided Selection (MG-Select) vor, ein neuartiges Testzeit-Skalierungsframework für VLAs, das die internen Eigenschaften des Modells nutzt, ohne zusätzliches Training oder externe Module zu benötigen. Unser Ansatz verwendet die KL-Divergenz von einer Referenz-Aktionstoken-Verteilung als Konfidenzmetrik, um die optimale Aktion aus mehreren Kandidaten auszuwählen. Wir führen eine Referenzverteilung ein, die vom gleichen VLA generiert wird, jedoch mit zufällig maskierten Zuständen und Sprachbedingungen als Eingaben, wodurch maximale Unsicherheit gewährleistet wird, während sie dennoch mit der Zielaufgabenverteilung übereinstimmt. Zusätzlich schlagen wir eine gemeinsame Trainingsstrategie vor, die es dem Modell ermöglicht, sowohl bedingte als auch unbedingte Verteilungen zu erlernen, indem Dropout auf Zustands- und Sprachbedingungen angewendet wird, wodurch die Qualität der Referenzverteilung weiter verbessert wird. Unsere Experimente zeigen, dass MG-Select signifikante Leistungsverbesserungen erzielt, einschließlich einer 28%/35%igen Verbesserung bei realen In-Distribution/Out-of-Distribution-Aufgaben sowie einem relativen Gewinn von 168% bei RoboCasa Pick-and-Place-Aufgaben, die mit 30 Demonstrationen trainiert wurden.
Aktuelle multimodale LLMs haben vielversprechende Ergebnisse bei der visuellen Fragebeantwortung auf Basis von Diagrammen gezeigt, doch ihre Leistung nimmt bei nicht annotierten Diagrammen, die eine präzise visuelle Interpretation erfordern anstatt sich auf textuelle Abkürzungen zu verlassen, deutlich ab. Um dies zu adressieren, führen wir ChartAgent ein, ein neuartiges agentenbasiertes Framework, das explizit visuelles Denken direkt im räumlichen Bereich des Diagramms durchführt. Im Gegensatz zur textuellen Kettenfolge des Denkens zerlegt ChartAgent Anfragen iterativ in visuelle Teilaufgaben und interagiert aktiv mit Diagrammbildern durch spezialisierte Aktionen wie das Zeichnen von Annotationen, das Zuschneiden von Bereichen (z. B. das Segmentieren von Tortendiagrammteilen, das Isolieren von Balken) und das Lokalisieren von Achsen, wobei eine Bibliothek von diagrammspezifischen Vision-Tools verwendet wird, um jede Teilaufgabe zu erfüllen. Dieser iterative Denkprozess spiegelt eng die menschlichen kognitiven Strategien zum Diagrammverständnis wider. ChartAgent erreicht state-of-the-art Genauigkeit auf den Benchmarks ChartBench und ChartX und übertrifft bisherige Methoden mit einem absoluten Gewinn von bis zu 16,07 % insgesamt und 17,31 % bei nicht annotierten, numerisch anspruchsvollen Anfragen. Darüber hinaus zeigen unsere Analysen, dass ChartAgent (a) effektiv über verschiedene Diagrammtypen hinweg ist, (b) die höchsten Werte über unterschiedliche visuelle und Denkkomplexitätsniveaus erreicht und (c) als Plug-and-Play-Framework dient, das die Leistung über verschiedene zugrunde liegende LLMs hinweg steigert. Unsere Arbeit gehört zu den ersten, die visuell fundiertes Denken für das Diagrammverständnis mithilfe von tool-augmentierten multimodalen Agenten demonstrieren.
Moderne Präferenzabgleichstechniken wie Best-of-N (BoN) Sampling basieren auf Belohnungsmodellen, die mit paarweisen Vergleichsdaten trainiert werden. Obwohl diese Methode effektiv relative Präferenzen erlernt, erfasst sie kein Signal für die Akzeptanz von Antworten, wodurch Systeme anfällig dafür sind, das geringste Übel unter vielen inakzeptablen Optionen auszuwählen. Dies ist besonders problematisch bei schwierigen Prompts, bei denen das Risiko solcher falschen Akzeptanzen mit der Anzahl der Proben steigt. In diesem Artikel adressieren wir diese kritische Zuverlässigkeitslücke durch die Einführung eines neuen Datenerfassungs- und Modellierungsframeworks. Indem wir Präferenzdaten mit einer Außenoption ergänzen, inspiriert von diskreten Wahlmodellen, trainieren wir ein Belohnungsmodell, das nicht nur unterscheiden kann, was besser ist, sondern auch, was gut genug ist. Wir nutzen diese Fähigkeit, um eine adaptive Inferenzstrategie, Best of Mini-N in-loop, zu entwickeln, die das Generierungsbudget in sequenzielle Schleifen mit einer kalibrierten, frühzeitigen Abbruchbedingung aufteilt. Unsere Experimente zeigen, dass diese Methode, wenn sie als Schutzmechanismus für den Präferenzabgleich eingesetzt wird, Zuverlässigkeitsfehler um 70 % reduziert, und wenn sie als Inferenzbeschleuniger verwendet wird, die durchschnittliche Inferenzgeschwindigkeit im IMDB-Sentiment-Setting um über 22 % verbessert. Somit bieten wir ein prinzipielles und flexibles Framework für Praktiker, um den Kompromiss zwischen Zuverlässigkeit und Recheneffizienz explizit zu steuern.
Aktuelle Arbeiten zur Kontext- und Gedächtnisbewertung haben sich hauptsächlich auf konversationelle Szenarien konzentriert, doch die Notwendigkeit, das Gedächtnis in dynamischen Unternehmensumgebungen zu evaluieren, ist entscheidend für seine effektive Anwendung. Wir stellen MEMTRACK vor, einen Benchmark, der entwickelt wurde, um Langzeitgedächtnis und Zustandsverfolgung in Multi-Plattform-Agenten-Umgebungen zu bewerten. MEMTRACK modelliert realistische organisatorische Arbeitsabläufe, indem es asynchrone Ereignisse über mehrere Kommunikations- und Produktivitätsplattformen wie Slack, Linear und Git integriert. Jede Benchmark-Instanz bietet eine chronologisch plattformübergreifende Zeitleiste mit verrauschten, widersprüchlichen, querverweisenden Informationen sowie potenzieller Codebasis-/Dateisystem-Verständnis- und Exploration. Folglich testet unser Benchmark Gedächtnisfähigkeiten wie Erfassung, Selektion und Konfliktlösung. Wir kuratieren den MEMTRACK-Datensatz sowohl durch manuell expertengeleitetes Design als auch durch skalierbare agentenbasierte Synthese, wodurch ökologisch valide Szenarien entstehen, die auf realen Softwareentwicklungsprozessen basieren. Wir führen relevante Metriken für Korrektheit, Effizienz und Redundanz ein, die die Effektivität von Gedächtnismechanismen über einfache QA-Leistung hinaus erfassen. Experimente mit State-of-the-Art LLMs und Gedächtnis-Backends offenbaren Herausforderungen bei der Nutzung von Gedächtnis über lange Zeiträume, der Handhabung plattformübergreifender Abhängigkeiten und der Auflösung von Widersprüchen. Bemerkenswerterweise erreicht das beste GPT-5-Modell nur eine Korrektheitsbewertung von 60 % auf MEMTRACK. Diese Arbeit bietet einen erweiterbaren Rahmen für die Weiterentwicklung der Evaluationsforschung für gedächtnisgestützte Agenten, über den bestehenden Fokus auf konversationelle Setups hinaus, und bereitet den Weg für Multi-Agenten-, Multi-Plattform-Gedächtnisbenchmarking in komplexen organisatorischen Umgebungen.
Haarpflege ist eine wesentliche tägliche Aktivität, bleibt jedoch für Personen mit eingeschränkter Mobilität unzugänglich und stellt eine Herausforderung für autonome Robotersysteme dar, bedingt durch die feingliedrige physische Struktur und die komplexe Dynamik von Haaren. In dieser Arbeit präsentieren wir DYMO-Hair, ein modellbasiertes Robotersystem zur Haarpflege. Wir führen ein neuartiges Paradigma zum Erlernen der Dynamik ein, das für volumetrische Größen wie Haare geeignet ist und auf einem aktionsbedingten Mechanismus zur Bearbeitung latenter Zustände basiert, gekoppelt mit einem kompakten 3D-Latenzraum verschiedener Frisuren, um die Generalisierbarkeit zu verbessern. Dieser Latenzraum wird in großem Maßstab mit einem neuartigen Haarsimulator vorab trainiert, wodurch eine Generalisierung über bisher unbekannte Frisuren ermöglicht wird. Durch die Verwendung des Dynamikmodells mit einem Model Predictive Path Integral (MPPI)-Planer ist DYMO-Hair in der Lage, visuell zielbedingte Haarstyling-Aufgaben durchzuführen. Experimente in der Simulation zeigen, dass das Dynamikmodell von DYMO-Hair Baselines bei der Erfassung lokaler Verformungen für diverse, unbekannte Frisuren übertrifft. DYMO-Hair übertrifft Baselines weiterhin in geschlossenen Haarstyling-Aufgaben bei unbekannten Frisuren, mit einem durchschnittlich 22 % geringeren finalen geometrischen Fehler und einer 42 % höheren Erfolgsrate als das state-of-the-art System. Reale Experimente zeigen die Null-Shot-Übertragbarkeit unseres Systems auf Perücken, wobei konsistente Erfolge bei herausfordernden, unbekannten Frisuren erzielt werden, bei denen das state-of-the-art System scheitert. Zusammengenommen legen diese Ergebnisse eine Grundlage für modellbasierte Roboter-Haarpflege und schreiten voran in Richtung generalisierbarer, flexibler und zugänglicher Roboter-Haarstyling in unbegrenzten physischen Umgebungen. Weitere Details sind auf unserer Projektseite verfügbar: https://chengyzhao.github.io/DYMOHair-web/.
Das Destillieren der Denkspuren eines Large Language Model (LLM) mit Argumentationsfähigkeiten in ein kleineres Modell hat sich als effektiv erwiesen. Dennoch gibt es nur wenige Arbeiten, die untersuchen, wie sich die Modellleistungen mit der Menge der Destillationsdaten skalieren. In dieser Arbeit untersuchen wir den Skalierungstrend beim Destillieren von wettbewerbsfähigen Programmierfähigkeiten in zwei kleine LLMs ohne Argumentationsfähigkeiten. Wir validieren die Hypothese, dass es ein Tal der Code-Argumentation gibt: Die nachgelagerte Leistung bei wettbewerbsfähigem Programmieren sinkt zunächst mit zunehmender Datenmenge, um dann in einer stärker-als-log-linearen Weise stetig anzusteigen. Nachdem wir diesen Trend identifiziert haben, feintunen wir die Modelle in zwei verschiedenen Destillationsphasen auf denselben Daten, um Schlussfolgerungen über ihre jeweiligen Lernphasen zu ziehen. Wir stellen fest, dass kleine Modelle in den niedrigen und mittel-niedrigen Datenregimen über alle Phasen hinweg signifikant stärker von einfacheren Programmierfragen profitieren als von schwierigeren. Überraschenderweise stellen wir auch fest, dass die Korrektheit der Ausgaben in den Trainingsdaten keinen Unterschied für die Destillationsergebnisse macht. Unsere Arbeit stellt einen Schritt vorwärts im Verständnis der Trainingsdynamiken der Code-Argumentationsdestillation jenseits der Intuition dar.
Große Sprachmodelle (LLMs) glänzen in vielen NLP-Aufgaben, bleiben jedoch anfällig für Halluzinationen, was das Vertrauen in reale Anwendungen einschränkt. Wir stellen HalluGuard vor, ein Small Reasoning Model (SRM) mit 4 Milliarden Parametern, das Halluzinationen in Retrieval-Augmented Generation (RAG) reduziert. HalluGuard klassifiziert Dokument-Aussage-Paare als fundiert oder halluziniert und liefert evidenzbasierte Begründungen für Transparenz. Unser Ansatz kombiniert (i) einen domänenunabhängigen synthetischen Datensatz, der aus FineWeb abgeleitet und durch mehrstufige Kuratierung und Datenreformierung verfeinert wurde, (ii) synthetische fundierte und halluzinierte Aussagen sowie (iii) präferenzbasiertes Fine-Tuning mit Odds Ratio Preference Optimization, um die Argumentation großer Modelle in eine kleinere Architektur zu destillieren. Auf der RAGTruth-Teilmenge des LLM-AggreFact-Benchmarks erreicht HalluGuard eine ausgewogene Genauigkeit (BAcc) von 84,0 % und steht damit spezialisierten Modellen wie MiniCheck (7B; 84,0 %) und Granite Guardian 3.3 (8B; 82,2 %) in nichts nach, obwohl es etwa halb so viele Parameter verwendet. Über den gesamten Benchmark hinweg erreicht es eine BAcc von 75,7 % und hält mit größeren allgemeinen LLMs wie GPT-4o (75,9 %) Schritt. Wir werden HalluGuard und die Datensätze unter Apache 2.0 nach der Annahme veröffentlichen.