Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Während Deep Learning in vielen Bereichen bemerkenswerte Erfolge erzielt hat, war es historisch gesehen bei tabellarischen Lernaufgaben unterlegen, die nach wie vor von Gradient Boosting Decision Trees (GBDTs) dominiert werden. Jüngste Fortschritte ebnen jedoch den Weg für Tabular Foundation Models, die weltweites Wissen nutzen und sich über diverse Datensätze hinweg verallgemeinern können, insbesondere wenn die Daten Freitext enthalten. Obwohl die Integration von Sprachmodell-Fähigkeiten in tabellarische Aufgaben bereits untersucht wurde, nutzen die meisten bestehenden Methoden statische, zielunabhängige Textrepräsentationen, was ihre Effektivität einschränkt. Wir stellen TabSTAR vor: ein Foundation Tabular Model mit semantisch zielbewussten Repräsentationen. TabSTAR wurde entwickelt, um Transferlernen auf tabellarischen Daten mit Textmerkmalen zu ermöglichen, mit einer Architektur, die frei von datensatzspezifischen Parametern ist. Es aktiviert einen vortrainierten Textencoder und nimmt Ziel-Tokens als Eingabe, die dem Modell den Kontext liefern, um aufgaben-spezifische Einbettungen zu lernen. TabSTAR erreicht state-of-the-art Leistung sowohl für mittelgroße als auch große Datensätze in bekannten Benchmarks von Klassifikationsaufgaben mit Textmerkmalen, und seine Vortrainingsphase zeigt Skalierungsgesetze in Bezug auf die Anzahl der Datensätze, was einen Weg für weitere Leistungsverbesserungen bietet.
Aktuelle große Reasoning-Modelle (LRMs) haben durch Reinforcement Learning (RL) starke Reasoning-Fähigkeiten demonstriert. Diese Verbesserungen wurden hauptsächlich bei Aufgaben mit kurzen Kontexten beobachtet. Im Gegensatz dazu bleibt die Erweiterung von LRMs, um effektiv lange Kontexteingaben über RL zu verarbeiten und darauf zu schließen, eine kritische ungelöste Herausforderung. Um diese Lücke zu schließen, formalisieren wir zunächst das Paradigma des Long-Context-Reasoning-RL und identifizieren Schlüsselherausforderungen in suboptimaler Trainings effizienz und instabilem Optimierungsprozess. Um diese Probleme zu adressieren, schlagen wir QwenLong-L1 vor, ein Framework, das kurzkontextfähige LRMs durch progressives Kontext-Scaling an Langkontext-Szenarien anpasst. Konkret nutzen wir eine Warm-up-Supervised-Fine-Tuning-(SFT)-Phase, um eine robuste Initialpolitik zu etablieren, gefolgt von einer curriculum-gesteuerten, phasenweisen RL-Technik, um die Politikentwicklung zu stabilisieren, und verstärkt durch eine schwierigkeitsbewusste retrospektive Sampling-Strategie, um die Politikexploration zu fördern. Experimente auf sieben Langkontext-Dokumenten-Frage-Antwort-Benchmarks zeigen, dass QwenLong-L1-32B führende LRMs wie OpenAI-o3-mini und Qwen3-235B-A22B übertrifft und eine Leistung auf Augenhöhe mit Claude-3.7-Sonnet-Thinking erreicht, was führende Leistung unter den state-of-the-art LRMs demonstriert. Diese Arbeit fördert die Entwicklung praktischer Langkontext-LRMs, die robustes Reasoning in informationsintensiven Umgebungen ermöglichen.
Große Sprachmodelle (LLMs) zeichnen sich durch komplexe Denkfähigkeiten aus, bleiben jedoch rechenintensiv, was ihre praktische Anwendung einschränkt. Um dies zu adressieren, haben sich aktuelle Arbeiten darauf konzentriert, die Denkfähigkeiten in kleinere Sprachmodelle (sLMs) zu destillieren, indem sie Chain-of-Thought (CoT)-Spuren von Lehrer-LLMs verwenden. Dieser Ansatz stößt jedoch an Grenzen in Szenarien, die seltenes Faktenwissen oder präzise Berechnungen erfordern, wo sLMs aufgrund ihrer begrenzten Fähigkeiten oft Halluzinationen erzeugen. In dieser Arbeit schlagen wir Agent Distillation vor, ein Framework, das nicht nur die Denkfähigkeit, sondern das gesamte Aufgabenlösungsverhalten von LLM-basierten Agenten in sLMs mit Retrieval- und Code-Tools überträgt. Wir verbessern die Agent-Destillation entlang zweier komplementärer Achsen: (1) Wir führen eine Prompting-Methode namens First-Thought Prefix ein, um die Qualität der vom Lehrer generierten Trajektorien zu steigern; und (2) wir schlagen eine selbstkonsistente Aktionsgenerierung vor, um die Robustheit kleiner Agenten zur Testzeit zu verbessern. Wir evaluieren unsere Methode an acht Denkaufgaben aus faktischen und mathematischen Domänen, die sowohl In-Domain- als auch Out-of-Domain-Generalisierung abdecken. Unsere Ergebnisse zeigen, dass sLMs mit nur 0,5B, 1,5B und 3B Parametern eine Leistung erzielen können, die mit der nächstgrößeren Modellklasse von 1,5B, 3B und 7B Parametern, die mit CoT-Destillation feinabgestimmt wurden, konkurriert. Dies demonstriert das Potenzial der Agent-Destillation für die Entwicklung praktischer, toolnutzender kleiner Agenten. Unser Code ist verfügbar unter https://github.com/Nardien/agent-distillation.
Die rasante Weiterentwicklung großer Sprachmodelle (LLMs) wurde von einem beispiellosen Anstieg der Rechenanforderungen begleitet, wobei sich die Trainingskosten für modernste Modelle alle paar Monate verdoppeln. Das direkte Training von Modellen in niedrigpräziser Arithmetik bietet eine Lösung, indem sowohl der Rechendurchsatz als auch die Energieeffizienz verbessert werden. Insbesondere ermöglicht die kürzlich eingeführte Blackwell-Architektur von NVIDIA extrem niedrigpräzise Operationen, speziell FP4-Varianten, die erhebliche Effizienzgewinne versprechen. Dennoch stehen aktuelle Algorithmen für das Training von LLMs in FP4-Präzision vor erheblichen Genauigkeitseinbußen und greifen oft auf gemischtpräzise Fallbacks zurück. In diesem Papier untersuchen wir systematisch das hardwareunterstützte FP4-Training und stellen Quartet vor, einen neuen Ansatz, der ein präzises, end-to-end FP4-Training ermöglicht, bei dem alle wesentlichen Berechnungen (z. B. in linearen Schichten) in niedriger Präzision durchgeführt werden. Durch umfangreiche Evaluierungen an Llama-ähnlichen Modellen enthüllen wir ein neues Skalierungsgesetz für niedrige Präzision, das Leistungskompromisse über verschiedene Bitbreiten quantifiziert und es uns ermöglicht, eine „nahezu optimale“ Technik für das Training in niedriger Präzision in Bezug auf Genauigkeit und Rechenaufwand zu identifizieren, genannt Quartet. Wir implementieren Quartet mit optimierten CUDA-Kerneln, die für NVIDIA Blackwell GPUs maßgeschneidert sind, und zeigen, dass es eine state-of-the-art Genauigkeit für FP4-Präzision erreichen kann, wodurch erfolgreich Milliarden-skalierte Modelle trainiert werden können. Unsere Methode demonstriert, dass vollständig FP4-basiertes Training eine wettbewerbsfähige Alternative zu Standardpräzision und FP8-Training darstellt. Unser Code ist verfügbar unter https://github.com/IST-DASLab/Quartet.
Große Sprachmodelle haben eine bemerkenswerte Fähigkeit bei langen und komplexen Denkaufgaben gezeigt. Allerdings zeigen sie häufig eine problematische Abhängigkeit von vertrauten Denkmustern, ein Phänomen, das wir als Denkrigidität bezeichnen. Trotz expliziter Anweisungen der Nutzer überschreiben diese Modelle oft klar formulierte Bedingungen und greifen auf gewohnte Denkpfade zurück, was zu falschen Schlussfolgerungen führt. Dieses Verhalten stellt erhebliche Herausforderungen dar, insbesondere in Bereichen wie Mathematik und Logikrätseln, in denen die präzise Einhaltung spezifizierter Einschränkungen entscheidend ist. Um die Denkrigidität systematisch zu untersuchen, ein Verhalten, das in früheren Arbeiten weitgehend unerforscht blieb, führen wir einen von Experten kuratierten Diagnosesatz ein. Unser Datensatz umfasst speziell modifizierte Varianten bestehender mathematischer Benchmarks, nämlich AIME und MATH500, sowie bekannte Rätsel, die bewusst so umgestaltet wurden, dass sie eine Abweichung von vertrauten Denkstrategien erfordern. Mit diesem Datensatz identifizieren wir wiederkehrende Kontaminationsmuster, die auftreten, wenn Modelle auf eingefahrene Denkweisen zurückgreifen. Insbesondere kategorisieren wir diese Kontamination in drei charakteristische Modi: (i) Interpretationsüberlastung, (ii) Eingabemissvertrauen und (iii) Teilweise Anweisungsbeachtung, die jeweils dazu führen, dass Modelle bereitgestellte Anweisungen ignorieren oder verzerren. Wir veröffentlichen unseren Diagnosesatz, um zukünftige Forschungen zur Minderung von Denkrigidität in Sprachmodellen zu erleichtern.
Reinforcement Learning (RL) hat die Fähigkeiten von Vision-Language-Modellen (VLMs) im Bereich des logischen Denkens erheblich vorangetrieben. Die Anwendung von RL über Denkaufgaben hinaus bleibt jedoch weitgehend unerforscht, insbesondere bei wahrnehmungsintensiven Aufgaben wie Objekterkennung und -verankerung. Wir stellen V-Triune vor, ein Visual Triple Unified Reinforcement Learning-System, das VLMs ermöglicht, visuelles Denken und Wahrnehmungsaufgaben gemeinsam in einer einzigen Trainingspipeline zu erlernen. V-Triune besteht aus drei komplementären Komponenten: Sample-Level Data Formatting (zur Vereinheitlichung verschiedener Aufgabeninputs), Verifier-Level Reward Computation (zur Bereitstellung maßgeschneiderter Belohnungen durch spezialisierte Verifizierer) und Source-Level Metric Monitoring (zur Diagnose von Problemen auf der Datenquellenebene). Darüber hinaus führen wir eine neuartige Dynamic IoU-Belohnung ein, die adaptives, progressives und eindeutiges Feedback für die von V-Triune bearbeiteten Wahrnehmungsaufgaben liefert. Unser Ansatz wird innerhalb eines Standard-RL-Trainingsframeworks mit Open-Source-7B- und 32B-Backbone-Modellen umgesetzt. Das resultierende Modell, genannt Orsta (One RL to See Them All), zeigt durchweg Verbesserungen sowohl bei Denk- als auch bei Wahrnehmungsaufgaben. Diese breite Fähigkeit wird maßgeblich durch das Training auf einem vielfältigen Datensatz geprägt, der um vier repräsentative visuelle Denkaufgaben (Mathe, Puzzle, Diagramme und Wissenschaft) und vier visuelle Wahrnehmungsaufgaben (Verankerung, Erkennung, Zählen und OCR) aufgebaut ist. In der Folge erzielt Orsta erhebliche Fortschritte auf dem MEGA-Bench Core, mit Verbesserungen, die von +2,1 bis zu beeindruckenden +14,1 über seine verschiedenen 7B- und 32B-Modellvarianten reichen, wobei die Leistungsvorteile auf eine Vielzahl von Downstream-Aufgaben ausgedehnt werden. Diese Ergebnisse unterstreichen die Effektivität und Skalierbarkeit unseres einheitlichen RL-Ansatzes für VLMs. Das V-Triune-System zusammen mit den Orsta-Modellen ist öffentlich unter https://github.com/MiniMax-AI verfügbar.
Bestehende Benchmarks erfassen einen entscheidenden Aspekt der Intelligenz nicht: das physikalische Denken, also die integrierte Fähigkeit, Domänenwissen, symbolisches Denken und das Verständnis realer Einschränkungen zu kombinieren. Um diese Lücke zu schließen, stellen wir PhyX vor: den ersten groß angelegten Benchmark, der entwickelt wurde, um die Fähigkeit von Modellen zur physikalisch fundierten Argumentation in visuellen Szenarien zu bewerten. PhyX umfasst 3.000 sorgfältig kuratierte multimodale Fragen, die 6 Denktypen über 25 Subdomänen und 6 Kernbereiche der Physik abdecken: Thermodynamik, Elektromagnetismus, Mechanik, moderne Physik, Optik sowie Wellen und Akustik. In unserer umfassenden Evaluation zeigen selbst state-of-the-art Modelle erhebliche Schwierigkeiten beim physikalischen Denken. GPT-4o, Claude3.7-Sonnet und GPT-o4-mini erreichen lediglich 32,5 %, 42,2 % bzw. 45,8 % Genauigkeit – eine Leistungslücke von über 29 % im Vergleich zu menschlichen Experten. Unsere Analyse deckt kritische Einschränkungen aktueller Modelle auf: übermäßige Abhängigkeit von auswendig gelerntem Fachwissen, zu starke Fokussierung auf mathematische Formulierungen und oberflächliches visuelles Mustererkennen anstelle eines echten physikalischen Verständnisses. Wir bieten eine detaillierte Analyse durch fein abgestufte Statistiken, umfassende Fallstudien und multiple Evaluationsparadigmen, um physikalisches Denken gründlich zu untersuchen. Um die Reproduzierbarkeit zu gewährleisten, implementieren wir ein kompatibles Evaluationsprotokoll basierend auf weit verbreiteten Toolkits wie VLMEvalKit, das eine Ein-Klick-Evaluation ermöglicht.
Dieser technische Bericht stellt QwenLong-CPRS vor, ein Kontextkompressionsframework, das für die explizite Optimierung langer Kontexte entwickelt wurde und dabei die prohibitiv hohen Rechenkosten während der Prefill-Phase sowie die Leistungsverschlechterung durch den "Lost-in-the-Middle"-Effekt bei der Verarbeitung langer Sequenzen durch große Sprachmodelle (LLMs) adressiert. Durch einen neuartigen Mechanismus zur dynamischen Kontextoptimierung implementiert, ermöglicht QwenLong-CPRS eine mehrgranulare Kontextkompression, die durch natürliche Sprachinstruktionen gesteuert wird, wodurch sowohl Effizienzgewinne als auch verbesserte Leistung erzielt werden. Aus der Qwen-Architekturreihe hervorgegangen, führt QwenLong-CPRS vier Schlüsselinnovationen ein: (1) Natürliche Sprachgesteuerte dynamische Optimierung, (2) Bidirektionale Reasoning-Schichten für ein verbessertes Grenzbewusstsein, (3) Token-Kritik-Mechanismen mit Sprachmodellierungs-Köpfen und (4) Fensterparallele Inferenz. Umfassende Bewertungen über fünf Benchmarks (4K-2M Wortkontexte) demonstrieren die dreifache Wirksamkeit von QwenLong-CPRS: (1) Konsistente Überlegenheit gegenüber anderen Kontextverwaltungsmethoden wie RAG und spärlicher Aufmerksamkeit in Bezug auf Genauigkeit und Effizienz. (2) Architekturunabhängige Integration mit allen führenden LLMs, einschließlich GPT-4o, Gemini2.0-pro, Claude3.7-sonnet, DeepSeek-v3 und Qwen2.5-max, erreicht eine 21,59-fache Kontextkompression bei durchschnittlichen Leistungssteigerungen von 19,15 Punkten; (3) In Kombination mit Qwen2.5-32B-Instruct übertrifft QwenLong-CPRS führende proprietäre LLMs um 4,85 und 10,88 Punkte auf Ruler-128K und InfiniteBench und setzt damit neue Maßstäbe für den State-of-the-Art (SOTA).
Da die Grenzkosten für die Skalierung von Rechenleistung (Daten und Parameter) während des Modell-Pre-Trainings weiterhin erheblich steigen, hat sich das Test-Time Scaling (TTS) als vielversprechende Richtung zur Verbesserung der Leistung generativer Modelle herauskristallisiert, indem zusätzliche Rechenleistung zur Inferenzzeit zugewiesen wird. Während TTS bei zahlreichen Sprachaufgaben bedeutende Erfolge gezeigt hat, besteht nach wie vor eine bemerkenswerte Lücke im Verständnis der Test-Time-Scaling-Verhalten von Bild- und Video-generativen Modellen (diffusionsbasierte oder flussbasierte Modelle). Obwohl neuere Arbeiten die Erforschung von Inferenzzeit-Strategien für Vision-Aufgaben eingeleitet haben, weisen diese Ansätze kritische Einschränkungen auf: Sie sind auf aufgabenspezifische Domänen beschränkt, zeigen eine schlechte Skalierbarkeit oder verfallen in eine Überoptimierung der Belohnung, die die Probenvielfalt opfert. In diesem Artikel schlagen wir Evolutionary Search (EvoSearch) vor, eine neuartige, generalistische und effiziente TTS-Methode, die die Skalierbarkeit sowohl der Bild- als auch der Videogenerierung über Diffusions- und Flussmodelle effektiv verbessert, ohne zusätzliches Training oder Modellerweiterungen zu erfordern. EvoSearch formuliert das Test-Time Scaling für Diffusions- und Flussmodelle als ein evolutionäres Suchproblem und nutzt Prinzipien der biologischen Evolution, um den Denoising-Pfad effizient zu erkunden und zu verfeinern. Durch die Einbindung sorgfältig gestalteter Selektions- und Mutationsmechanismen, die auf den stochastischen Differentialgleichungs-Denoising-Prozess zugeschnitten sind, generiert EvoSearch iterativ höherwertige Nachkommen, während die Populationsvielfalt erhalten bleibt. Durch umfangreiche Bewertungen über sowohl Diffusions- als auch Flussarchitekturen für Bild- und Videogenerierungsaufgaben zeigen wir, dass unsere Methode bestehende Ansätze konsequent übertrifft, eine höhere Diversität erreicht und eine starke Generalisierbarkeit gegenüber unbekannten Bewertungsmetriken aufweist. Unser Projekt ist auf der Website https://tinnerhrhe.github.io/evosearch verfügbar.
Die Hypothesenbewertung ist eine entscheidende Komponente der automatisierten wissenschaftlichen Entdeckung, insbesondere in den Naturwissenschaften, wo Experimente im Labor kostspielig und durchsatzbeschränkt sind. Bisherige Ansätze konzentrieren sich auf die Bewertung vor dem Experiment und stützen sich ausschließlich auf die interne Logik großer Sprachmodelle, ohne empirische Ergebnisse aus Experimenten einzubeziehen. Wir führen die Aufgabe der experimentgestützten Bewertung ein, die darauf abzielt, Kandidatenhypothesen basierend auf den Ergebnissen zuvor getesteter Hypothesen zu priorisieren. Die Entwicklung solcher Strategien ist jedoch aufgrund der Undurchführbarkeit, reale Experimente in naturwissenschaftlichen Bereichen wiederholt durchzuführen, eine Herausforderung. Um dies zu bewältigen, schlagen wir einen Simulator vor, der auf drei domänenspezifischen Annahmen basiert und die Leistung von Hypothesen als Funktion ihrer Ähnlichkeit zu einer bekannten Grundwahrheitshypothese modelliert, die durch Rauschen gestört wird. Wir erstellen einen Datensatz von 124 chemischen Hypothesen mit experimentell berichteten Ergebnissen, um den Simulator zu validieren. Aufbauend auf diesem Simulator entwickeln wir eine Methode zur pseudo-experimentgestützten Bewertung, die Hypothesen nach gemeinsamen funktionalen Merkmalen clustert und Kandidaten basierend auf Erkenntnissen aus simuliertem experimentellem Feedback priorisiert. Experimente zeigen, dass unsere Methode die Bewertung vor dem Experiment und starke Ablationen übertrifft.
Die Wahl des initialen Rauschens beeinflusst maßgeblich die Qualität und die Prompt-Ausrichtung von Video-Diffusionsmodellen, wobei unterschiedliche Rausch-Seeds für denselben Prompt zu drastisch unterschiedlichen Generierungen führen können. Während aktuelle Methoden auf extern entworfene Prioritäten wie Frequenzfilter oder Inter-Frame-Glättung setzen, übersehen sie oft interne Modellsignale, die anzeigen, welche Rausch-Seeds inhärent bevorzugt sind. Um dies zu adressieren, schlagen wir ANSE (Active Noise Selection for Generation) vor, ein modellbewusstes Framework, das hochwertige Rausch-Seeds durch die Quantifizierung von aufmerksamkeitsbasierter Unsicherheit auswählt. Im Kern steht BANSA (Bayesian Active Noise Selection via Attention), eine Akquisitionsfunktion, die die Entropie-Diskrepanz über mehrere stochastische Aufmerksamkeitsproben hinweg misst, um die Modellkonfidenz und -konsistenz zu schätzen. Für einen effizienten Einsatz während der Inferenz führen wir eine Bernoulli-maskierte Approximation von BANSA ein, die die Schätzung der Scores mit einem einzigen Diffusionsschritt und einer Teilmenge von Aufmerksamkeitsschichten ermöglicht. Experimente mit CogVideoX-2B und 5B zeigen, dass ANSE die Videoqualität und zeitliche Kohärenz verbessert, wobei die Inferenzzeit lediglich um 8 % bzw. 13 % ansteigt. Dies bietet einen prinzipiellen und verallgemeinerbaren Ansatz zur Rauschauswahl in der Video-Diffusion. Siehe unsere Projektseite: https://anse-project.github.io/anse-project/
Große Reasoning-Modelle (LRMs) zeichnen sich durch ihre Fähigkeit aus, komplexe Aufgaben mithilfe von Chain-of-Thought (CoT)-Reasoning zu bewältigen. Allerdings führt ihre Neigung zum Überdenken zu unnötig langen Reasoning-Ketten, was die Inferenzkosten erheblich erhöht. Um dieses Problem zu mildern, stellen wir VeriThinker vor, einen neuartigen Ansatz zur CoT-Kompression. Im Gegensatz zu herkömmlichen Methoden, bei denen LRMs direkt auf der ursprünglichen Reasoning-Aufgabe mit synthetischen, prägnanten CoT-Daten feinabgestimmt werden, feinabstimmen wir das Modell innovativ ausschließlich durch eine zusätzliche Verifikationsaufgabe. Indem LRMs darauf trainiert werden, die Korrektheit von CoT-Lösungen präzise zu überprüfen, werden sie von Natur aus kritischer gegenüber der Notwendigkeit nachfolgender Selbstreflexionsschritte, wodurch Überdenken effektiv unterdrückt wird. Umfangreiche Experimente bestätigen, dass VeriThinker die Länge der Reasoning-Ketten erheblich reduziert, während die Genauigkeit beibehalten oder sogar leicht verbessert wird. Bei der Anwendung auf DeepSeek-R1-Distill-Qwen-7B reduziert unser Ansatz die Reasoning-Tokens auf MATH500 von 3790 auf 2125, während die Genauigkeit um 0,8 % (von 94,0 % auf 94,8 %) steigt, und auf AIME25 sinken die Tokens von 14321 auf 10287 bei einer Genauigkeitssteigerung von 2,1 % (von 38,7 % auf 40,8 %). Darüber hinaus zeigen unsere Experimente, dass VeriThinker auch zero-shot auf spekulatives Reasoning verallgemeinert werden kann. Der Code ist verfügbar unter https://github.com/czg1225/VeriThinker.
Das Verständnis visueller Szenen ist grundlegend für die menschliche Intelligenz. Während diskriminative Modelle die Computer Vision erheblich vorangebracht haben, kämpfen sie oft mit dem Verständnis von Kompositionen. Im Gegensatz dazu zeichnen sich neuere generative Text-zu-Bild-Diffusionsmodelle durch die Synthese komplexer Szenen aus, was auf inhärente kompositionelle Fähigkeiten hindeutet. Aufbauend darauf wurden Zero-Shot-Diffusionsklassifikatoren vorgeschlagen, um Diffusionsmodelle für diskriminative Aufgaben umzuwidmen. Während frühere Arbeiten vielversprechende Ergebnisse in diskriminativen kompositionellen Szenarien lieferten, bleiben diese Ergebnisse aufgrund einer geringen Anzahl von Benchmarks und einer relativ oberflächlichen Analyse der Bedingungen, unter denen die Modelle erfolgreich sind, vorläufig. Um dies zu adressieren, präsentieren wir eine umfassende Studie der diskriminativen Fähigkeiten von Diffusionsklassifikatoren in einer Vielzahl von kompositionellen Aufgaben. Konkret deckt unsere Studie drei Diffusionsmodelle (SD 1.5, 2.0 und erstmals 3-m) ab, die 10 Datensätze und über 30 Aufgaben umfassen. Darüber hinaus beleuchten wir die Rolle, die die Domänen der Ziel-Datensätze für die jeweilige Leistung spielen; um die Domäneneffekte zu isolieren, führen wir einen neuen diagnostischen Benchmark namens Self-Bench ein, der aus Bildern besteht, die von Diffusionsmodellen selbst erstellt wurden. Schließlich untersuchen wir die Bedeutung der Gewichtung von Zeitschritten und decken einen Zusammenhang zwischen Domänenlücke und Zeitschrittempfindlichkeit auf, insbesondere für SD3-m. Zusammenfassend lässt sich sagen, dass Diffusionsklassifikatoren Kompositionalität verstehen, aber es gelten Bedingungen! Code und Datensatz sind verfügbar unter https://github.com/eugene6923/Diffusion-Classifiers-Compositionality.
Die Erzeugung hochauflösender 3D-Formen mithilfe volumetrischer Darstellungen wie Signed Distance Functions stellt erhebliche rechnerische und speichertechnische Herausforderungen dar. Wir stellen Direct3D S2 vor, ein skalierbares 3D-Generierungsframework, das auf spärlichen Volumina basiert und eine überlegene Ausgabequalität bei drastisch reduzierten Trainingskosten erreicht. Unsere zentrale Innovation ist der Spatial Sparse Attention-Mechanismus, der die Effizienz von Diffusion Transformer-Berechnungen auf spärlichen Volumendaten erheblich verbessert. SSA ermöglicht es dem Modell, große Tokensätze innerhalb spärlicher Volumina effektiv zu verarbeiten, wodurch der Rechenaufwand deutlich reduziert und eine 3,9-fache Beschleunigung im Vorwärtsdurchlauf sowie eine 9,6-fache Beschleunigung im Rückwärtsdurchlauf erreicht wird. Unser Framework umfasst auch einen Variational Autoencoder, der ein konsistentes spärliches Volumenformat über die Eingabe-, Latent- und Ausgabestufen hinweg beibehält. Im Vergleich zu früheren Methoden mit heterogenen Darstellungen in 3D-VAE verbessert dieses einheitliche Design die Trainings effizienz und Stabilität erheblich. Unser Modell wird auf öffentlich verfügbaren Datensätzen trainiert, und Experimente zeigen, dass Direct3D S2 nicht nur die State-of-the-Art-Methoden in Bezug auf Generierungsqualität und Effizienz übertrifft, sondern auch das Training bei einer Auflösung von 1024 mit nur 8 GPUs ermöglicht, eine Aufgabe, die typischerweise mindestens 32 GPUs für volumetrische Darstellungen bei 256 Auflösung erfordert, wodurch die Gigaskalen-3D-Generierung sowohl praktisch als auch zugänglich wird. Projektseite: https://nju3dv.github.io/projects/Direct3D-S2/.
Die rasante Weiterentwicklung und die zunehmenden Anwendungen von Audio Large Language Models (ALLMs) erfordern ein fundiertes Verständnis ihrer Vertrauenswürdigkeit. Systematische Forschung zur Bewertung dieser Modelle, insbesondere im Hinblick auf risikobehaftete Aspekte, die spezifisch für die Audio-Modalität sind, bleibt jedoch weitgehend unerforscht. Bestehende Bewertungsrahmen konzentrieren sich hauptsächlich auf die Text-Modalität oder behandeln nur einen begrenzten Satz von Sicherheitsdimensionen, wodurch die einzigartigen Merkmale und Anwendungsszenarien der Audio-Modalität nicht ausreichend berücksichtigt werden. Wir stellen AudioTrust vor – den ersten vielseitigen Bewertungsrahmen und Benchmark, der speziell für ALLMs entwickelt wurde. AudioTrust ermöglicht Bewertungen in sechs Schlüsseldimensionen: Fairness, Halluzination, Sicherheit, Privatsphäre, Robustheit und Authentifizierung. Um diese Dimensionen umfassend zu bewerten, ist AudioTrust um 18 verschiedene experimentelle Aufbauten strukturiert. Sein Kern besteht aus einem sorgfältig erstellten Datensatz mit über 4.420 Audio-/Text-Beispielen, die aus realen Szenarien (z.B. tägliche Gespräche, Notrufe, Interaktionen mit Sprachassistenten) stammen und speziell dazu entwickelt wurden, die vielseitige Vertrauenswürdigkeit von ALLMs zu untersuchen. Für die Bewertung entwirft der Benchmark 9 audio-spezifische Bewertungsmetriken, und wir setzen eine groß angelegte automatisierte Pipeline ein, um die Modellausgaben objektiv und skalierbar zu bewerten. Experimentelle Ergebnisse zeigen die Grenzen und Einschränkungen der Vertrauenswürdigkeit aktueller state-of-the-art Open-Source- und Closed-Source-ALLMs in verschiedenen Hochrisiko-Audio-Szenarien auf und bieten wertvolle Einblicke für die sichere und vertrauenswürdige Bereitstellung zukünftiger Audiomodelle. Unsere Plattform und der Benchmark sind unter https://github.com/JusperLee/AudioTrust verfügbar.
Große Sprachmodelle zeigen eine Positionsverzerrung – eine systematische Vernachlässigung von Informationen an bestimmten Kontextpositionen –, doch ihr Zusammenspiel mit linguistischer Vielfalt ist noch weitgehend unverstanden. Wir präsentieren eine sprachübergreifende Studie über fünf typologisch unterschiedliche Sprachen (Englisch, Russisch, Deutsch, Hindi, Vietnamesisch), die untersucht, wie Positionsverzerrung mit Modellunsicherheit, Syntax und Prompting interagiert. Wichtige Erkenntnisse: (1) Positionsverzerrung ist modellgetrieben und zeigt sprachspezifische Variationen – Qwen2.5-7B bevorzugt späte Positionen, was Annahmen einer frühen Token-Verzerrung herausfordert; (2) Explizite Positionsanweisungen (z. B. der korrekte Kontext befindet sich an Position X) verringern die Genauigkeit über alle Sprachen hinweg und untergängigen Prompt-Engineering-Praktiken; (3) Die Ausrichtung des Kontexts an der Positionsverzerrung erhöht die Entropie, doch minimale Entropie sagt keine Genauigkeit voraus. (4) Wir zeigen weiterhin, dass LLMs in freien Wortstellungssprachen wie Hindi unterschiedlich dominante Wortordnungen auferlegen.
Retrieval-augmented Generation (RAG)-Systeme ermöglichen es großen Sprachmodellen (LLMs), während der Inferenz auf externes Wissen zuzugreifen. Jüngste Fortschritte haben es LLMs erlaubt, durch Reinforcement Learning (RL) als Suchagenten zu agieren, wodurch der Informationserwerb durch mehrstufige Interaktionen mit Retrieval-Engines verbessert wird. Bestehende Ansätze optimieren jedoch entweder das Retrieval anhand von reinen Suchmetriken (z. B. NDCG), die den nachgelagerten Nutzen ignorieren, oder sie feintunen das gesamte LLM, um gleichzeitig zu schlussfolgern und abzurufen – was das Retrieval mit der Generierung verknüpft und den tatsächlichen Suchnutzen sowie die Kompatibilität mit eingefrorenen oder proprietären Modellen einschränkt. In dieser Arbeit stellen wir s3 vor, ein leichtgewichtiges, modellunabhängiges Framework, das den Sucher vom Generator entkoppelt und den Sucher mithilfe einer Gain Beyond RAG-Belohnung trainiert: der Verbesserung der Generierungsgenauigkeit gegenüber naivem RAG. s3 benötigt lediglich 2,4k Trainingsbeispiele, um Baseline-Modelle zu übertreffen, die mit über 70-mal mehr Daten trainiert wurden, und liefert durchweg bessere nachgelagerte Leistung über sechs allgemeine QA- und fünf medizinische QA-Benchmarks hinweg.
Die Ausrichtung großer Sprachmodelle (LLMs) zur präzisen Erkennung von Halluzinationen bleibt aufgrund der komplexen Natur halluzinierter Texte eine bedeutende Herausforderung. Unter der Annahme, dass halluzinierte Proben typischerweise eine höhere täuschende Qualität aufweisen als traditionelle negative Proben, verwenden wir diese sorgfältig konstruierten Halluzinationen als negative Beispiele im DPO-Ausrichtungsverfahren. Unser Ansatz integriert eine Curriculum-Learning-Strategie, bei der das Training schrittweise von einfacheren Proben, die anhand der stärksten Reduktion von Wahrscheinlichkeitswerten durch unabhängige Faktenprüfungsmodelle identifiziert werden, zu zunehmend schwierigeren Proben übergeht. Diese strukturierte Schwierigkeitssteigerung gewährleistet ein stabiles und schrittweises Lernen. Die experimentelle Auswertung zeigt, dass unsere HaluCheck-Modelle, die mit dem Curriculum-DPO-Ansatz und hochwertigen negativen Proben trainiert wurden, die Modellleistung über verschiedene Metriken hinweg signifikant verbessern und Verbesserungen von bis zu 24 % auf anspruchsvollen Benchmarks wie MedHallu und HaluEval erzielen. Darüber hinaus demonstrieren HaluCheck-Modelle Robustheit in Zero-Shot-Szenarien und übertreffen größere state-of-the-art Modelle auf verschiedenen Benchmarks deutlich.
Frontend-Engineering umfasst einen komplexen Workflow, bei dem Ingenieure Designs konzipieren, in Code übersetzen und die Implementierung iterativ verfeinern. Während sich aktuelle Benchmarks hauptsächlich auf die Umwandlung von visuellen Designs in Code konzentrieren, stellen wir FullFront vor, einen Benchmark, der darauf ausgelegt ist, Multimodale Large Language Models (MLLMs) über den gesamten Frontend-Entwicklungsprozess hinweg zu bewerten. FullFront bewertet drei grundlegende Aufgaben, die direkt dem Frontend-Engineering-Workflow zugeordnet sind: Webseiten-Design (Konzeptionsphase), Webseiten-Wahrnehmungs-QA (Verständnis der visuellen Organisation und Elemente) und Webseiten-Code-Generierung (Implementierungsphase). Im Gegensatz zu bestehenden Benchmarks, die entweder gescrapte Websites mit aufgeblähtem Code oder stark vereinfachtes, von LLMs generiertes HTML verwenden, nutzt FullFront einen neuartigen, zweistufigen Prozess, um reale Webseiten in sauberes, standardisiertes HTML zu transformieren, während vielfältige visuelle Designs beibehalten und Urheberrechtsprobleme vermieden werden. Umfangreiche Tests von state-of-the-art MLLMs zeigen erhebliche Einschränkungen bei der Seitenwahrnehmung, Code-Generierung (insbesondere bei der Bildverarbeitung und Layoutgestaltung) und der Implementierung von Interaktionen. Unsere Ergebnisse demonstrieren quantitativ Leistungsunterschiede zwischen Modellen und Aufgaben und verdeutlichen eine erhebliche Lücke zwischen den aktuellen Fähigkeiten von MLLMs und der Leistung menschlicher Experten im Frontend-Engineering. Der FullFront-Benchmark und der Code sind unter https://github.com/Mikivishy/FullFront verfügbar.
Reinforcement Learning (RL) hat sich als effektive Methode zur Schulung von Reasoning-Modellen etabliert. Allerdings neigen bestehende RL-Ansätze typischerweise dazu, die Ausgabeverteilung des Modells auf belohnungsmaximierende Pfade zu verzerren, ohne externes Wissen einzubeziehen. Dies schränkt ihre Explorationsfähigkeit ein und führt zu einer engeren Reasoning-Fähigkeitsgrenze im Vergleich zu Basismodellen. Um diese Einschränkung zu überwinden, schlagen wir TAPO (Thought-Augmented Policy Optimization) vor, ein neuartiges Framework, das RL durch die Einbindung externer, hochrangiger Leitlinien („Denkmuster“) erweitert. Durch die adaptive Integration strukturierter Denkmuster während des Trainings balanciert TAPO effektiv die interne Exploration des Modells und die Nutzung externer Leitlinien. Umfangreiche Experimente zeigen, dass unser Ansatz GRPO um 99 % auf AIME, 41 % auf AMC und 17 % auf Minerva Math übertrifft. Bemerkenswerterweise generalisieren diese hochrangigen Denkmuster, die aus nur 500 vorherigen Beispielen abstrahiert wurden, effektiv über verschiedene Aufgaben und Modelle hinweg. Dies unterstreicht das Potenzial von TAPO für breitere Anwendungen in verschiedenen Aufgaben und Domänen. Unsere weitere Analyse zeigt, dass die Einführung externer Leitlinien leistungsstarke Reasoning-Modelle mit überlegener Erklärbarkeit des Inferenzverhaltens und verbesserter Lesbarkeit der Ausgaben hervorbringt.
Große Sprachmodelle (LLMs) zeigen beeindruckende Fähigkeiten, mangelt es ihnen jedoch an robuster zeitlicher Intelligenz, was es ihnen schwer macht, Schlussfolgerungen über die Vergangenheit mit Vorhersagen und plausiblen Generierungen der Zukunft zu integrieren. Gleichzeitig zielen bestehende Methoden typischerweise auf isolierte zeitliche Fähigkeiten ab, wie z.B. das Beantworten von Fragen zu vergangenen Ereignissen oder grundlegende Prognosen, und zeigen eine schlechte Generalisierung, insbesondere bei der Behandlung von Ereignissen, die über ihren Wissensstand hinausgehen oder kreative Voraussicht erfordern. Um diese Einschränkungen zu überwinden, führen wir Time-R1 ein, das erste Framework, das ein mittelgroßes (3B-Parameter) LLM mit umfassenden zeitlichen Fähigkeiten ausstattet: Verständnis, Vorhersage und kreative Generierung. Unser Ansatz zeichnet sich durch einen neuartigen dreistufigen Entwicklungsweg aus; die ersten beiden Stufen bilden ein Reinforcement Learning (RL)-Curriculum, das von einem sorgfältig entworfenen dynamischen regelbasierten Belohnungssystem angetrieben wird. Dieses Framework baut schrittweise (1) grundlegendes zeitliches Verständnis und logische Ereignis-Zeit-Zuordnungen aus historischen Daten auf, (2) Fähigkeiten zur Vorhersage zukünftiger Ereignisse, die über den Wissensstand hinausgehen, und schließlich (3) ermöglicht es eine bemerkenswerte Generalisierung zur kreativen Generierung zukünftiger Szenarien ohne jegliches Fine-Tuning. Bemerkenswerterweise zeigen Experimente, dass Time-R1 Modelle, die über 200-mal größer sind, einschließlich des state-of-the-art 671B DeepSeek-R1, bei hoch anspruchsvollen Benchmarks zur Vorhersage zukünftiger Ereignisse und zur kreativen Szenariengenerierung übertrifft. Diese Arbeit liefert starke Beweise dafür, dass durchdacht konstruiertes, progressives RL-Fine-Tuning kleineren, effizienten Modellen ermöglicht, überlegene zeitliche Leistungen zu erzielen, und bietet einen praktischen und skalierbaren Weg hin zu wirklich zeitbewusster KI. Um weitere Forschung zu fördern, veröffentlichen wir auch Time-Bench, einen groß angelegten Multi-Task-Datensatz für zeitliches Schließen, der aus 10 Jahren Nachrichtendaten abgeleitet wurde, sowie unsere Reihe von Time-R1-Checkpoints.
Das rasante Wachstum von Sprachassistenten, die auf großen Sprachmodellen (LLM) basieren, hat den Bedarf an Sprachinstruktionsdaten zur Schulung dieser Systeme deutlich gemacht. Trotz der Fülle von Spracherkennungsdaten besteht ein bemerkenswerter Mangel an Sprachinstruktionsdaten, die entscheidend sind, um Modelle für das Verstehen und Ausführen gesprochener Befehle zu optimieren. Die Erzeugung hochwertiger synthetischer Sprache erfordert ein gutes Text-zu-Sprache-Modell (TTS), das für ressourcenarme Sprachen möglicherweise nicht verfügbar ist. Unser neuartiger Ansatz bewältigt diese Herausforderung, indem die Synthese auf der Ebene der semantischen Repräsentation gestoppt wird, wodurch die Notwendigkeit für TTS entfällt. Dies erreichen wir, indem wir synthetische semantische Repräsentationen mit dem vortrainierten Whisper-Encoder ausrichten, wodurch ein LLM auf Textinstruktionen feinabgestimmt werden kann, während die Fähigkeit erhalten bleibt, gesprochene Anweisungen während der Inferenz zu verstehen. Dieser vereinfachte Trainingsprozess ist ein vielversprechender Ansatz zum Aufbau von Sprachassistenten für ressourcenarme Sprachen.
Die rasante Weiterentwicklung nativer multimodaler Modelle und Omni-Modelle, wie sie durch GPT-4o, Gemini und o3 exemplarisch dargestellt werden, mit ihrer Fähigkeit, Inhalte über Modalitäten wie Text und Bilder zu verarbeiten und zu generieren, markiert einen bedeutenden Meilenstein in der Evolution der Intelligenz. Die systematische Bewertung ihrer multimodalen Ausgabefähigkeiten in visuellen Denkprozessen (auch bekannt als multimodale Gedankenkette, M-CoT) wird von entscheidender Bedeutung. Bisherige Benchmarks zur Bewertung multimodaler Modelle konzentrieren sich jedoch hauptsächlich auf die Bewertung multimodaler Eingaben und textbasierter Schlussfolgerungen, während sie die Bedeutung der Schlussfolgerung durch multimodale Ausgaben vernachlässigen. In diesem Artikel stellen wir einen Benchmark vor, genannt RBench-V, der darauf abzielt, die visuell unverzichtbaren Denkfähigkeiten von Modellen zu bewerten. Um RBench-V zu konstruieren, haben wir sorgfältig 803 Fragen aus den Bereichen Mathematik, Physik, Zählen und Spiele ausgewählt. Im Gegensatz zu früheren Benchmarks, die typischerweise bestimmte Eingabemodalitäten vorgeben, präsentiert RBench-V Probleme, die auf multimodalen Ausgaben zentriert sind und Bildmanipulationen wie das Generieren neuer Bilder und das Konstruieren von Hilfslinien zur Unterstützung des Denkprozesses erfordern. Wir bewerten zahlreiche Open-Source- und Closed-Source-Modelle auf RBench-V, darunter o3, Gemini 2.5 Pro, Qwen2.5-VL usw. Selbst das leistungsstärkste Modell, o3, erreicht auf RBench-V nur eine Genauigkeit von 25,8 %, weit unter dem menschlichen Wert von 82,3 %, was zeigt, dass aktuelle Modelle Schwierigkeiten haben, multimodales Denken zu nutzen. Daten und Code sind verfügbar unter https://evalmodels.github.io/rbenchv.
Die Wiederherstellung von Nachtbildern, die durch mehrere widrige Wetterbedingungen beeinträchtigt sind, stellt ein praktisches, jedoch bisher wenig erforschtes Problem dar, da in der realen Welt häufig mehrere Wetterbedingungen zusammen mit verschiedenen Lichteffekten in der Nacht auftreten. Diese Arbeit untersucht zunächst die anspruchsvolle Aufgabe der Wiederherstellung von Nachtbildern unter multiplen Wetterbedingungen, bei der verschiedene Arten von Wettereinflüssen mit Flare-Effekten verflochten sind. Zur Unterstützung der Forschung stellen wir das AllWeatherNight-Dataset bereit, das groß angelegte, hochwertige Nachtbilder mit vielfältigen kombinierten Beeinträchtigungen enthält, die mithilfe unserer eingeführten beleuchtungsbewussten Degradationsgenerierung synthetisiert wurden. Darüber hinaus präsentieren wir ClearNight, ein einheitliches Framework zur Wiederherstellung von Nachtbildern, das komplexe Beeinträchtigungen effektiv in einem Schritt entfernt. Insbesondere extrahiert ClearNight Retinex-basierte Dual-Priors und leitet das Netzwerk explizit an, sich auf Regionen mit ungleichmäßiger Beleuchtung und intrinsische Texturinhalte zu konzentrieren, wodurch die Wiederherstellungseffektivität in Nachtszenarien verbessert wird. Um die gemeinsamen und einzigartigen Merkmale multipler Wetterbeeinträchtigungen besser darzustellen, führen wir eine wetterbewusste dynamische Spezifisch-Gemeinsamkeits-Kollaborationsmethode ein, die Wetterbeeinträchtigungen identifiziert und optimal geeignete Kandidateneinheiten, die mit spezifischen Wettertypen verbunden sind, adaptiv auswählt. Unser ClearNight erzielt state-of-the-art Leistungen sowohl auf synthetischen als auch auf realen Bildern. Umfassende Ablationsexperimente bestätigen die Notwendigkeit des AllWeatherNight-Datasets sowie die Effektivität von ClearNight. Projektseite: https://henlyta.github.io/ClearNight/mainpage.html
Das Unterrichten großer Sprachmodelle (LLMs), im bereitgestellten Kontext treu zu bleiben, ist entscheidend für den Aufbau zuverlässiger Informationssuchsysteme. Daher schlagen wir ein systematisches Framework, CANOE, vor, um die Treue von LLMs bei sowohl kurz- als auch langformigen Generierungsaufgaben ohne menschliche Annotationen zu verbessern. Konkret synthetisieren wir zunächst kurzformige Frage-Antwort-Daten (QA) mit vier verschiedenen Aufgaben, um hochwertige und leicht überprüfbare Trainingsdaten ohne menschliche Annotation zu erstellen. Zudem schlagen wir Dual-GRPO vor, eine regelbasierte Verstärkungslernmethode, die drei maßgeschneiderte regelbasierte Belohnungen aus den synthetisierten kurzformigen QA-Daten ableitet und gleichzeitig sowohl die kurz- als auch langformige Antwortgenerierung optimiert. Bemerkenswerterweise eliminiert Dual-GRPO die Notwendigkeit, Präferenzdaten manuell zu labeln, um Belohnungsmodelle zu trainieren, und vermeidet eine Überoptimierung der kurzformigen Generierung, wenn ausschließlich auf die synthetisierten kurzformigen QA-Daten zurückgegriffen wird. Experimentelle Ergebnisse zeigen, dass CANOE die Treue von LLMs über 11 verschiedene Downstream-Aufgaben hinweg erheblich verbessert und sogar die fortschrittlichsten LLMs, wie z.B. GPT-4o und OpenAI o1, übertrifft.
Reinforcement Learning (RL) ist eine leistungsstarke Methode, um Foundation-Modelle an spezialisierte Aufgaben anzupassen, doch die Abhängigkeit von groß angelegten, menschlich annotierten Daten begrenzt die breite Anwendung. Wir stellen Synthetic Data RL vor, ein einfaches und allgemeines Framework, das Modelle durch Reinforcement Learning ausschließlich mit synthetischen Daten, die aus einer Aufgabenbeschreibung generiert werden, feinabstimmt. Unsere Methode erzeugt zunächst Frage-Antwort-Paare aus der Aufgabenbeschreibung und abgerufenen Dokumenten, passt dann den Schwierigkeitsgrad der Frage basierend auf der Lösbarkeit durch das Modell an und wählt Fragen mithilfe der durchschnittlichen Erfolgsrate des Modells über Stichproben für das RL-Training aus. Bei Qwen-2.5-7B erzielt unsere Methode eine absolute Verbesserung von 29,2 % gegenüber dem Basismodell auf GSM8K (+2,9 Prozentpunkte gegenüber Instruction-Tuning, +6,6 Prozentpunkte gegenüber Self-Instruct), 8,7 % auf MATH, 13,1 % auf GPQA (+7,0 Prozentpunkte gegenüber SynthLLM), 8,9 % auf MedQA, 17,7 % auf CQA (Recht) und 13,7 % auf CFA (Finanzen). Sie übertrifft das überwachte Feinabstimmen unter demselben Datenbudget und erreicht nahezu das Niveau von RL mit vollständigen menschlichen Daten über verschiedene Datensätze hinweg (z. B. +17,2 Prozentpunkte auf GSM8K). Die Hinzufügung von 100 menschlichen Demonstrationen verbessert die Leistung auf GSM8K nur um 0,4 Prozentpunkte, was einen begrenzten Mehrwert zeigt. Durch die Reduzierung menschlicher Datenannotation ermöglicht Synthetic Data RL eine skalierbare und effiziente RL-basierte Modellanpassung. Code und Demos sind verfügbar unter https://github.com/gydpku/Data_Synthesis_RL/.
Trinity-RFT ist ein allgemeiner, flexibler und skalierbarer Rahmen, der für das Reinforcement Fine-Tuning (RFT) großer Sprachmodelle entwickelt wurde. Es basiert auf einem entkoppelten Design und besteht aus (1) einem RFT-Kern, der synchrone/asynchrone, on-policy/off-policy sowie online/offline Modi von RFT vereinheitlicht und verallgemeinert, (2) einer nahtlosen Integration der Interaktion zwischen Agent und Umgebung mit hoher Effizienz und Robustheit sowie (3) systematischen Datenpipelines, die für RFT optimiert sind. Trinity-RFT kann leicht an verschiedene Anwendungsszenarien angepasst werden und dient als einheitliche Plattform zur Erforschung fortschrittlicher Reinforcement-Learning-Paradigmen. Dieser technische Bericht skizziert die Vision, Merkmale, das Design und die Implementierungen von Trinity-RFT, begleitet von umfangreichen Beispielen, die die Nützlichkeit und Benutzerfreundlichkeit des vorgeschlagenen Rahmens demonstrieren.
Wir stellen ScanBot vor, ein neuartiges Datenset, das für instruktionsgesteuertes, hochpräzises Oberflächenscannen in Robotersystemen entwickelt wurde. Im Gegensatz zu bestehenden Robotik-Lern-Datensets, die sich auf grobe Aufgaben wie Greifen, Navigation oder Dialog konzentrieren, zielt ScanBot auf die hochpräzisen Anforderungen des industriellen Laserscannings ab, bei denen submillimetergenaue Pfadkontinuität und Parameterstabilität entscheidend sind. Das Datenset umfasst Laserscanning-Trajektorien, die von einem Roboter an 12 verschiedenen Objekten und 6 Aufgabentypen ausgeführt wurden, darunter vollständige Oberflächenscans, geometriefokussierte Bereiche, räumlich referenzierte Teile, funktionell relevante Strukturen, Defektinspektion und vergleichende Analyse. Jeder Scan wird durch natürliche Sprachinstruktionen geleitet und ist mit synchronisierten RGB-, Tiefen- und Laserprofilen sowie Roboterpose und Gelenkzuständen verknüpft. Trotz jüngster Fortschritte scheitern bestehende Vision-Language-Action-Modelle (VLA) weiterhin daran, stabile Scan-Trajektorien unter feingranularen Instruktionen und realen Präzisionsanforderungen zu generieren. Um diese Einschränkung zu untersuchen, benchmarken wir eine Reihe von multimodalen Large Language Models (MLLMs) über den gesamten Wahrnehmungs-Planungs-Ausführungs-Zyklus hinweg, wodurch anhaltende Herausforderungen bei der Instruktionsbefolgung unter realistischen Einschränkungen aufgedeckt werden.
Die schnelle Verbreitung von Vision-Language-Modellen (VLMs) verstärkt Sicherheitsrisiken, doch die meisten Bewertungen stützen sich auf künstlich erzeugte Bilder. Diese Studie stellt die Frage: Wie sicher sind aktuelle VLMs, wenn sie mit Meme-Bildern konfrontiert werden, die gewöhnliche Nutzer teilen? Um diese Frage zu untersuchen, führen wir MemeSafetyBench ein, einen Benchmark mit 50.430 Instanzen, der echte Meme-Bilder mit sowohl schädlichen als auch harmlosen Anweisungen kombiniert. Mithilfe einer umfassenden Sicherheitstaxonomie und LLM-basierter Anweisungsgenerierung bewerten wir mehrere VLMs in Einzel- und Mehrfachinteraktionen. Wir untersuchen, wie reale Memes schädliche Ausgaben beeinflussen, die abschwächenden Effekte von Konversationskontexten und die Beziehung zwischen Modellgröße und Sicherheitsmetriken. Unsere Ergebnisse zeigen, dass VLMs anfälliger für schädliche Prompts auf Basis von Memes sind als für synthetische oder typografische Bilder. Memes erhöhen signifikant die Anzahl schädlicher Antworten und verringern Ablehnungen im Vergleich zu rein textbasierten Eingaben. Obwohl Mehrfachinteraktionen teilweise Abhilfe schaffen, bleibt eine erhöhte Anfälligkeit bestehen. Diese Ergebnisse unterstreichen die Notwendigkeit von ökologisch validen Bewertungen und stärkeren Sicherheitsmechanismen.
Trotz der jüngsten Fortschritte in der Text-zu-Bild (T2I)-Generierung haben bestehende Modelle oft Schwierigkeiten, die Absichten der Nutzer aus kurzen und unzureichend spezifizierten Eingabeaufforderungen (Prompts) treu zu erfassen. Während frühere Arbeiten versucht haben, Prompts mithilfe großer Sprachmodelle (LLMs) zu verbessern, erzeugen diese Methoden häufig stilistische oder unrealistische Inhalte aufgrund unzureichender Verankerung in visueller Semantik und realer Komposition. Inspiriert von den jüngsten Fortschritten im Bereich des logischen Schließens für Sprachmodelle schlagen wir RePrompt vor, ein neuartiges Reprompting-Framework, das explizites logisches Schließen in den Prozess der Prompt-Verbesserung durch Reinforcement Learning einführt. Anstatt sich auf manuell erstellte Regeln oder stilistische Umschreibungen zu verlassen, trainiert unsere Methode ein Sprachmodell dazu, strukturierte, selbstreflektierende Prompts zu generieren, indem es Bild-Level-Ergebnisse optimiert. Die maßgeschneiderten Belohnungsmodelle bewerten die generierten Bilder hinsichtlich menschlicher Präferenzen, semantischer Ausrichtung und visueller Komposition und bieten so indirekte Überwachung zur Verfeinerung der Prompt-Generierung. Unser Ansatz ermöglicht ein End-to-End-Training ohne menschlich annotierte Daten. Experimente auf GenEval und T2I-Compbench zeigen, dass RePrompt die Treue der räumlichen Anordnung und die kompositionelle Generalisierung über verschiedene T2I-Backbones hinweg signifikant verbessert und damit neue State-of-the-Art-Ergebnisse erzielt.
Die kontrollierbare Videogenerierung (CVG) hat sich rasant weiterentwickelt, doch aktuelle Systeme scheitern, wenn mehr als ein Akteur sich bewegen, interagieren und Positionen unter verrauschten Steuersignalen tauschen muss. Wir schließen diese Lücke mit DanceTogether, dem ersten end-to-end Diffusionsframework, das ein einzelnes Referenzbild plus unabhängige Posemasken-Streams in lange, fotorealistische Videos umwandelt, während jede Identität strikt bewahrt wird. Ein neuartiger MaskPoseAdapter verbindet „wer“ und „wie“ in jedem Denoising-Schritt, indem robuste Tracking-Masken mit semantisch reichen, aber verrauschten Pose-Heatmaps fusioniert werden, wodurch Identitätsdrift und Erscheinungsbildverfälschungen, die frame-basierte Pipelines plagen, eliminiert werden. Um das Training und die Evaluierung in großem Maßstab zu ermöglichen, führen wir (i) PairFS-4K ein, 26 Stunden Aufnahmen von Eisläuferpaaren mit über 7.000 verschiedenen IDs, (ii) HumanRob-300, ein einstündiges Interaktionsset zwischen Humanoiden und Robotern für schnellen domänenübergreifenden Transfer, und (iii) TogetherVideoBench, einen dreispurigen Benchmark, der sich auf den DanceTogEval-100-Testsatz konzentriert und Tanz, Boxen, Wrestling, Yoga und Eiskunstlauf abdeckt. Auf TogetherVideoBench übertrifft DanceTogether die bisherigen Ansätze deutlich. Darüber hinaus zeigen wir, dass eine einstündige Feinabstimmung überzeugende Mensch-Roboter-Videos liefert, was die breite Generalisierbarkeit für embodied-AI- und HRI-Aufgaben unterstreicht. Umfangreiche Ablationen bestätigen, dass die persistente Bindung von Identität und Handlung entscheidend für diese Fortschritte ist. Zusammen heben unser Modell, die Datensätze und der Benchmark die CVG von der Einzelsubjekt-Choreografie auf kompositionell kontrollierbare, multi-aktorielle Interaktionen, wodurch neue Wege für digitale Produktion, Simulation und embodied Intelligence eröffnet werden. Unsere Videodemos und der Code sind unter https://DanceTog.github.io/ verfügbar.
Wir stellen RIPT-VLA vor, ein einfaches und skalierbares, auf Reinforcement Learning basierendes interaktives Nachschulungsparadigma, das vortrainierte Vision-Language-Action (VLA)-Modelle ausschließlich mit spärlichen binären Erfolgsbelohnungen feinabstimmt. Bestehende VLA-Trainingspipelines stützen sich stark auf Offline-Experten-Demonstrationsdaten und überwachte Imitation, was ihre Fähigkeit einschränkt, sich an neue Aufgaben und Umgebungen in Niedrigdaten-Regimen anzupassen. RIPT-VLA adressiert dies, indem es eine interaktive Nachschulung mit einem stabilen Policy-Optimierungsalgorithmus ermöglicht, der auf dynamischem Rollout-Sampling und Leave-One-Out-Vorteilsschätzung basiert. RIPT-VLA weist folgende Merkmale auf. Erstens ist es auf verschiedene VLA-Modelle anwendbar, was zu einer Verbesserung des leichtgewichtigen QueST-Modells um 21,2 % und des 7B OpenVLA-OFT-Modells auf eine beispiellose Erfolgsrate von 97,5 % führt. Zweitens ist es rechen- und dateneffizient: Mit nur einer Demonstration ermöglicht RIPT-VLA einem nicht funktionsfähigen SFT-Modell (4 %), innerhalb von 15 Iterationen eine Erfolgsrate von 97 % zu erreichen. Darüber hinaus zeigen wir, dass die von RIPT-VLA erlernte Policy über verschiedene Aufgaben und Szenarien hinweg generalisiert und robust gegenüber dem Ausgangszustandskontext ist. Diese Ergebnisse unterstreichen RIPT-VLA als ein praktisches und effektives Paradigma für die Nachschulung von VLA-Modellen mit minimaler Überwachung.
Große Sprachmodelle werden typischerweise durch überwachtes Feinabstimmen auf domänenspezifische Daten an nachgelagerte Aufgaben angepasst. Während sich das Standard-Feintuning darauf konzentriert, den Generierungsverlust zu minimieren, um die Modellparameter zu optimieren, gehen wir einen Schritt weiter, indem wir die eigenen Lernsignale des Modells beibehalten und nutzen, ähnlich wie menschliche Lernende aus vergangenen Fehlern reflektieren, um zukünftige Leistungen zu verbessern. Wir führen zunächst das Konzept des Fehlerprotokolls (Mistake Log) ein, um das Lernverhalten und wiederkehrende Fehler des Modells während des Feintunings systematisch zu verfolgen. Indem wir das ursprüngliche Transformer-basierte Modell als Pilot behandeln, entwerfen wir entsprechend ein Copilot-Modell, um die Inferenzleistung des Piloten durch Logits-Korrektur zu verfeinern. Wir nennen das gesamte Pilot-Copilot-Framework den Transformer Copilot, der (i) ein neuartiges Copilot-Modell-Design, (ii) ein gemeinsames Trainingsparadigma, bei dem der Copilot kontinuierlich aus dem sich entwickelnden Fehlerprotokoll neben dem Piloten lernt, und (iii) ein fusioniertes Inferenzparadigma, bei dem der Copilot die Logits des Piloten für eine verbesserte Generierung korrigiert, einführt. Wir liefern sowohl theoretische als auch empirische Analysen zu unserem neuen Lernframework. Experimente auf 12 Benchmarks, die Common Sense, Arithmetik und Empfehlungsaufgaben umfassen, zeigen, dass der Transformer Copilot die Leistung kontinuierlich um bis zu 34,5 % verbessert, während er nur marginalen Rechenaufwand für Pilotmodelle einführt und starke Skalierbarkeit und Übertragbarkeit aufweist.
Jüngste Fortschritte bei LLM-Agenten basieren weitgehend auf Reasoning-Grundlagen wie ReAct, die Denken und Handeln in komplexen Umgebungen verschränken. Allerdings produziert ReAct oft unbegründete oder inkohärente Denkschritte, was zu einer Fehlausrichtung zwischen dem tatsächlichen Zustand des Agenten und seinem Ziel führt. Unsere Analyse zeigt, dass dies auf die Unfähigkeit von ReAct zurückzuführen ist, konsistente interne Überzeugungen und Zielausrichtung aufrechtzuerhalten, was zu sich verstärkenden Fehlern und Halluzinationen führt. Um dies zu beheben, führen wir ReflAct ein, eine neuartige Grundlage, die das Reasoning von der bloßen Planung der nächsten Aktionen hin zu einer kontinuierlichen Reflexion des Zustands des Agenten in Bezug auf sein Ziel verschiebt. Durch die explizite Verankerung von Entscheidungen in Zuständen und die Durchsetzung einer fortlaufenden Zielausrichtung verbessert ReflAct die strategische Zuverlässigkeit erheblich. Dieses Design erzielt erhebliche empirische Fortschritte: ReflAct übertrifft ReAct im Durchschnitt um 27,7 % und erreicht eine Erfolgsquote von 93,3 % in ALFWorld. Bemerkenswerterweise übertrifft ReflAct sogar ReAct mit zusätzlichen Erweiterungsmodulen (z. B. Reflexion, WKM), was zeigt, dass die Stärkung der Kern-Reasoning-Grundlage der Schlüssel zu einer zuverlässigen Agentenleistung ist.
Policy-Gradient-Algorithmen wurden erfolgreich eingesetzt, um die Fähigkeiten zur logischen Schlussfolgerung von großen Sprachmodellen (LLMs) zu verbessern. Trotz der weit verbreiteten Verwendung von Kullback-Leibler (KL)-Regularisierung in Policy-Gradient-Algorithmen zur Stabilisierung des Trainings bietet die systematische Untersuchung, wie verschiedene KL-Divergenz-Formulierungen geschätzt und in Surrogate-Loss-Funktionen für Online-Reinforcement-Learning (RL) integriert werden können, einen differenzierten und systematisch erforschbaren Designraum. In diesem Artikel schlagen wir Regularized Policy Gradient (RPG) vor, einen systematischen Rahmen zur Ableitung und Analyse von KL-regularisierten Policy-Gradient-Methoden im Online-RL-Setting. Wir leiten Policy-Gradienten und entsprechende Surrogate-Loss-Funktionen für Ziele ab, die sowohl durch die Vorwärts- als auch die Rückwärts-KL-Divergenz regularisiert werden, wobei sowohl normalisierte als auch nicht normalisierte Policy-Verteilungen berücksichtigt werden. Darüber hinaus präsentieren wir Ableitungen für vollständig differenzierbare Loss-Funktionen sowie REINFORCE-artige Gradientenschätzer, die unterschiedliche algorithmische Anforderungen berücksichtigen. Wir führen umfangreiche Experimente zu RL für LLM-Schlussfolgerungen mit diesen Methoden durch und zeigen verbesserte oder wettbewerbsfähige Ergebnisse in Bezug auf Trainingsstabilität und Leistung im Vergleich zu starken Baselines wie GRPO, REINFORCE++ und DAPO. Der Code ist verfügbar unter https://github.com/complex-reasoning/RPG.
In diesem Artikel schlagen wir eine einfache und effiziente Methode für das Training von Wertmodellen auf langen Kontext-Rückschlussspuren vor. Im Vergleich zu bestehenden Prozess-Belohnungsmodellen (PRMs) erfordert unsere Methode keine feinkörnige Definition von „Schritt“, die bei langen Kontext-Rückschlussmodellen schwer zu definieren ist. Durch die Sammlung eines Datensatzes von 2,5 Millionen Rückschlussspuren trainieren wir ein Token-basiertes Wertmodell mit 1,5 Milliarden Parametern und wenden es auf DeepSeek-Modelle an, um die Leistung durch Skalierung der Rechenressourcen zur Testzeit zu verbessern. Wir stellen fest, dass die blockweise wertgeleitete Suche (VGS) mit einer abschließenden gewichteten Mehrheitsentscheidung eine bessere Skalierung zur Testzeit erreicht als Standardmethoden wie Mehrheitsentscheidung oder Best-of-n. Mit einem Inferenzbudget von 64 Generationen erreicht VGS mit DeepSeek-R1-Distill-1.5B eine durchschnittliche Genauigkeit von 45,7 % über vier Wettbewerbsmathematik-Benchmarks (AIME 2024 & 2025, HMMT Feb 2024 & 2025) und erreicht damit Parität mit o3-mini-medium. Darüber hinaus reduziert VGS die für die gleiche Leistung wie bei der Mehrheitsentscheidung erforderlichen Inferenz-FLOPs erheblich. Unser Datensatz, Modell und Codebase sind Open Source.
Dieses Papier präsentiert eine faszinierende Entdeckung: Durch das Training eines autoregressiven LLM-Modells auf Text-Tokens entwickelt das Textmodell intern die Fähigkeit, Bilder und Audio zu verstehen, wodurch es die Fähigkeit erlangt, zu sehen und zu hören, allein durch das Lesen von Text. Beliebte Audio- und visuelle LLM-Modelle verfeinern Text-LLM-Modelle, um Textausgaben zu erzeugen, die auf Bild- und Audio-Einbettungen basieren. Unser Architekturansatz hingegen nimmt Bildausschnitte, Audio-Wellenformen oder Tokens als Eingabe und liefert die Einbettungen oder Kategorielabels, die typischerweise in einer Klassifikationspipeline verwendet werden. Wir zeigen die Allgemeingültigkeit von Text-Gewichten bei der Unterstützung der Audio-Klassifikation für die Datensätze FSD-50K und GTZAN. Darüber hinaus demonstrieren wir dies für die Bildklassifikation auf CIFAR-10 und Fashion-MNIST sowie auf Bildausschnitten. Dies untermauert die Vorstellung, dass Text-LLMs leistungsfähige interne Schaltkreise erlernen, die durch die Aktivierung notwendiger Verbindungen für verschiedene Anwendungen genutzt werden können, anstatt jedes Mal Modelle von Grund auf neu zu trainieren.
Residual-Verbindungen sind entscheidend für tiefe neuronale Netze, da sie durch die Minderung von verschwindenden Gradienten eine größere Tiefe ermöglichen. Bei standardmäßigen Residual-Updates wird jedoch die Ausgabe des Moduls direkt zum Eingabestrom addiert. Dies kann zu Updates führen, die hauptsächlich die bestehende Stromrichtung verstärken oder modulieren, wodurch die Kapazität des Moduls, völlig neue Merkmale zu erlernen, möglicherweise nicht vollständig ausgeschöpft wird. In dieser Arbeit führen wir das Orthogonale Residual-Update ein: Wir zerlegen die Ausgabe des Moduls relativ zum Eingabestrom und addieren nur die Komponente, die orthogonal zu diesem Strom ist. Dieser Entwurf zielt darauf ab, Module dazu anzuleiten, hauptsächlich neue repräsentative Richtungen beizutragen, wodurch ein reichhaltigeres Merkmalslernen gefördert und ein effizienteres Training ermöglicht wird. Wir zeigen, dass unsere Strategie des orthogonalen Updates die Generalisierungsgenauigkeit und Trainingsstabilität über verschiedene Architekturen (ResNetV2, Vision Transformers) und Datensätze (CIFARs, TinyImageNet, ImageNet-1k) hinweg verbessert und beispielsweise einen +4,3\%p Top-1-Genauigkeitsgewinn für ViT-B auf ImageNet-1k erzielt.
Mixture-of-Experts (MoE) ermöglicht eine effiziente Skalierung großer Sprachmodelle (LLMs) durch spärlich aktivierte Experten während der Inferenz. Um große MoE-Modelle auf speicherbeschränkten Geräten effektiv bereitzustellen, führen viele Systeme *Expert Offloading* ein, bei dem eine Teilmenge der Experten im schnellen Speicher zwischengespeichert wird, während andere im langsamen Speicher verbleiben, um auf der CPU ausgeführt oder bei Bedarf geladen zu werden. Während einige Forschungsarbeiten die Lokalität von Expertenaktivierungen ausgenutzt haben, bei der aufeinanderfolgende Token ähnliche Experten aktivieren, variiert das Ausmaß dieser **lokalen Routing-Konsistenz** zwischen den Modellen und bleibt weitgehend unerforscht. In diesem Artikel schlagen wir zwei Metriken zur Messung der lokalen Routing-Konsistenz von MoE-Modellen vor: (1) **Segment Routing Best Performance (SRP)**, die bewertet, wie gut eine feste Gruppe von Experten die Anforderungen eines Token-Segments abdecken kann, und (2) **Segment Cache Best Hit Rate (SCH)**, die die optimale Cache-Trefferrate auf Segmentebene bei einer gegebenen Cache-Größenbeschränkung misst. Wir analysierten 20 MoE-LLMs mit unterschiedlichen Größen und Architekturen und fanden heraus, dass Modelle, die MoE auf jeder Schicht anwenden und keine gemeinsamen Experten verwenden, die höchste lokale Routing-Konsistenz aufweisen. Weiterhin zeigten wir, dass domänenspezialisierte Experten mehr zur Routing-Konsistenz beitragen als vokabularspezialisierte, und dass die meisten Modelle mit Cache-Größen von etwa dem 2-fachen der aktiven Experten einen Ausgleich zwischen Cache-Effektivität und Effizienz erreichen können. Diese Erkenntnisse ebnen den Weg für speichereffizientes MoE-Design und -Bereitstellung ohne Kompromisse bei der Inferenzgeschwindigkeit. Wir veröffentlichen den Code zur Reproduktion der Experimente unter https://github.com/ljcleo/moe-lrc.
Jüngste Fortschritte wie DeepSeek R1-Zero unterstreichen die Wirksamkeit von Incentive-Training, einem Paradigma des Reinforcement Learning, das Belohnungen ausschließlich auf der Grundlage des finalen Antwortteils der Ausgabe eines Sprachmodells berechnet und dadurch die Generierung von Zwischenschritten in der Argumentation fördert. Diese Methoden sind jedoch grundsätzlich auf externe Verifizierer angewiesen, was ihre Anwendbarkeit auf Bereiche wie Mathematik und Programmierung beschränkt, in denen solche Verifizierer leicht verfügbar sind. Obwohl Belohnungsmodelle als Verifizierer dienen können, erfordern sie hochwertige annotierte Daten und sind kostspielig zu trainieren. In dieser Arbeit schlagen wir NOVER vor, NO-VERifier Reinforcement Learning, ein allgemeines Reinforcement-Learning-Framework, das nur standardmäßige feinabgestimmte Supervised-Learning-Daten benötigt und keinen externen Verifizierer erfordert. NOVER ermöglicht Incentive-Training über eine breite Palette von Text-zu-Text-Aufgaben hinweg und übertrifft das Modell gleicher Größe, das aus großen Argumentationsmodellen wie DeepSeek R1 671B destilliert wurde, um 7,7 Prozent. Darüber hinaus eröffnet die Flexibilität von NOVER neue Möglichkeiten zur Optimierung großer Sprachmodelle, wie beispielsweise inverses Incentive-Training.
Da Large Language Models (LLMs) zunehmend in sensiblen Bereichen wie Unternehmen und Regierung eingesetzt werden, ist es entscheidend, sicherzustellen, dass sie benutzerdefinierte Sicherheitsrichtlinien im Kontext einhalten – insbesondere in Bezug auf die Nicht-Weitergabe von Informationen. Während sich frühere LLM-Studien auf allgemeine Sicherheit und sozial sensible Daten konzentriert haben, fehlen groß angelegte Benchmarks zur Bewertung der kontextuellen Sicherheitserhaltung gegen Angriffe. Um dies zu adressieren, stellen wir einen neuartigen groß angelegten Benchmark-Datensatz, CoPriva, vor, der die Einhaltung kontextueller Nicht-Weitergabe-Richtlinien durch LLMs in Frage-Antwort-Szenarien bewertet. Unser Datensatz, der aus realistischen Kontexten abgeleitet ist, umfasst explizite Richtlinien und Abfragen, die als direkte und herausfordernde indirekte Angriffe konzipiert sind, um verbotene Informationen zu erlangen. Wir evaluieren 10 LLMs anhand unseres Benchmarks und decken eine signifikante Schwachstelle auf: Viele Modelle verletzen benutzerdefinierte Richtlinien und geben sensible Informationen preis. Dieses Versagen ist besonders gravierend bei indirekten Angriffen, was eine kritische Lücke in der aktuellen Sicherheitsausrichtung von LLMs für sensible Anwendungen aufzeigt. Unsere Analyse zeigt, dass Modelle zwar oft die richtige Antwort auf eine Abfrage identifizieren können, jedoch Schwierigkeiten haben, Richtlinienbeschränkungen während der Generierung zu berücksichtigen. Im Gegensatz dazu zeigen sie eine teilweise Fähigkeit, Ausgaben zu überarbeiten, wenn sie explizit dazu aufgefordert werden. Unsere Ergebnisse unterstreichen die dringende Notwendigkeit robusterer Methoden, um kontextuelle Sicherheit zu gewährleisten.
Große Reasoning-Modelle (LRMs) haben bemerkenswerte Fähigkeiten bei der mehrstufigen Argumentation und dem Aufrufen von Suchmaschinen zu geeigneten Zeitpunkten gezeigt. Bisherige retrieval-augmentierte Reasoning-Ansätze verlassen sich jedoch auf separate Retrieval-Modelle, wodurch die Rolle des LRMs beim Retrieval auf die Entscheidung beschränkt wird, wann abgerufen und wie abgefragt werden soll. Diese Trennung erhöht nicht nur die Hardware- und Betriebskosten, sondern führt auch zu Fehlern im Retrieval-Prozess aufgrund des sogenannten Repräsentationsengpasses, einem Phänomen, bei dem der Einbettungsraum des Retrievers nicht ausdrucksstark genug ist, um die Anforderungen des Generators zu erfüllen. Um dies zu beheben, verschieben wir unsere Perspektive von der Sequenz-zu-Sequenz-Zuordnung hin zur Lokalisierung von antwortenthaltenden Pfaden innerhalb des Korpus und schlagen ein neuartiges Framework namens FREESON (Retriever-FREE Retrieval-Augmented ReaSONing) vor. Dieses Framework ermöglicht es LRMs, relevantes Wissen eigenständig abzurufen, indem sie sowohl als Generator als auch als Retriever fungieren. Um dies zu erreichen, führen wir eine Variante des MCTS-Algorithmus ein, die speziell für die Retrieval-Aufgabe entwickelt wurde und die wir CT-MCTS (Corpus-Traversing Monte Carlo Tree Search) nennen. In diesem Algorithmus durchlaufen LRMs den Korpus, um antwortenthaltende Regionen zu finden. Unsere Ergebnisse auf fünf Open-Domain-QA-Benchmarks, einschließlich Single-Hop- und Multi-Hop-Fragen, zeigen, dass FREESON eine durchschnittliche Verbesserung von 14,4 % in EM und F1 gegenüber vier mehrstufigen Reasoning-Modellen mit einem separaten Retriever erzielt und auch vergleichbar mit dem stärksten Baseline-Modell abschneidet, das es auf PopQA um 3 % und auf 2WikiMultihopQA um 2 % übertrifft.
Iterative RAG für Multi-Hop-Fragebeantwortung steht vor Herausforderungen bei langen Kontexten und der Anhäufung irrelevanter Informationen. Dies beeinträchtigt die Fähigkeit eines Modells, abgerufene Inhalte zu verarbeiten und darüber zu schlussfolgern, und begrenzt die Leistung. Während sich aktuelle Methoden auf die Komprimierung abgerufener Informationen konzentrieren, sind diese entweder auf Single-Round-RAG beschränkt, erfordern Feinabstimmung oder fehlt es ihnen an Skalierbarkeit in iterativem RAG. Um diese Herausforderungen zu bewältigen, schlagen wir Notes Writing vor, eine Methode, die in jedem Schritt prägnante und relevante Notizen aus abgerufenen Dokumenten generiert und dadurch Rauschen reduziert und nur wesentliche Informationen beibehält. Dies erhöht indirekt die effektive Kontextlänge von Large Language Models (LLMs), wodurch sie in der Lage sind, effektiver zu schlussfolgern und zu planen, während sie größere Mengen an Eingabetext verarbeiten. Notes Writing ist framework-agnostisch und kann in verschiedene iterative RAG-Methoden integriert werden. Wir demonstrieren seine Wirksamkeit mit drei iterativen RAG-Methoden, über zwei Modelle und vier Evaluierungsdatensätze hinweg. Notes Writing führt zu einer durchschnittlichen Verbesserung von 15,6 Prozentpunkten insgesamt, bei minimaler Erhöhung der Ausgabe-Tokens.
Zeitliches Denken ist entscheidend für Large Language Models (LLMs), um die reale Welt zu verstehen. Bisherige Arbeiten vernachlässigen jedoch die realen Herausforderungen des zeitlichen Denkens: (1) intensive zeitliche Informationen, (2) sich schnell verändernde Ereignisdynamiken und (3) komplexe zeitliche Abhängigkeiten in sozialen Interaktionen. Um diese Lücke zu schließen, schlagen wir einen mehrstufigen Benchmark namens TIME vor, der für zeitliches Denken in realen Szenarien entwickelt wurde. TIME besteht aus 38.522 Frage-Antwort-Paaren, die 3 Ebenen mit 11 fein abgestuften Teilaufgaben abdecken. Dieser Benchmark umfasst 3 Teil-Datensätze, die unterschiedliche reale Herausforderungen widerspiegeln: TIME-Wiki, TIME-News und TIME-Dial. Wir führen umfangreiche Experimente mit Denkmodellen und Nicht-Denkmodellen durch. Zudem analysieren wir die Leistung des zeitlichen Denkens in verschiedenen realen Szenarien und Aufgaben detailliert und fassen die Auswirkungen von Testzeit-Skalierung auf die Fähigkeiten des zeitlichen Denkens zusammen. Darüber hinaus veröffentlichen wir TIME-Lite, eine von Menschen annotierte Teilmenge, um zukünftige Forschung und standardisierte Bewertung im Bereich des zeitlichen Denkens zu fördern. Der Code ist unter https://github.com/sylvain-wei/TIME verfügbar, und der Datensatz ist unter https://huggingface.co/datasets/SylvainWei/TIME zugänglich.
Die Erweiterung der linguistischen Fähigkeiten von Large Language Models (LLMs) um ressourcenarme Sprachen ist ein zentrales Forschungsgebiet. Aktuelle Forschungsansätze stützen sich überwiegend auf synthetische Daten, die durch die Übersetzung englischer Korpora generiert werden. Obwohl diese Modelle vielversprechende linguistische Verständnis- und Übersetzungsfähigkeiten zeigen, sind sie oft an die Kultur der Ausgangssprache angepasst. Diese Modelle repräsentieren häufig nicht das kulturelle Erbe und die Werte lokaler Gemeinschaften. Diese Arbeit schlägt eine Methodik vor, um sowohl synthetische als auch retrieverbasierte Vorab-Trainingsdaten zu erstellen, die speziell auf eine bestimmte Gemeinschaft zugeschnitten sind und dabei deren (i) Sprache, (ii) kulturelles Erbe und (iii) kulturelle Werte berücksichtigen. Wir demonstrieren unsere Methodik anhand ägyptischer und marokkanischer Dialekte als Testumgebungen, die aufgrund ihres linguistischen und kulturellen Reichtums sowie ihrer derzeitigen Unterrepräsentation in LLMs ausgewählt wurden. Als Proof-of-Concept entwickeln wir NileChat, ein 3B-Parameter-LLM, das für ägyptische und marokkanische Gemeinschaften angepasst ist und deren Sprache, kulturelles Erbe und Werte einbezieht. Unsere Ergebnisse auf verschiedenen Benchmarks für Verständnis, Übersetzung sowie kulturelle und wertebezogene Ausrichtung zeigen, dass NileChat bestehende arabischfähige LLMs ähnlicher Größe übertrifft und mit größeren Modellen gleichauf liegt. Wir teilen unsere Methoden, Daten und Modelle mit der Gemeinschaft, um die Einbeziehung und Abdeckung vielfältigerer Gemeinschaften in der LLM-Entwicklung zu fördern.
In diesem Artikel stellen wir FuxiMT vor, ein neuartiges, chinesisch-zentriertes multilinguales maschinelles Übersetzungsmodell, das von einem sparsifizierten Large Language Model (LLM) angetrieben wird. Wir verfolgen eine zweistufige Strategie, um FuxiMT zu trainieren. Zunächst wird das Modell auf einem umfangreichen chinesischen Korpus vortrainiert und anschließend durch multilinguales Feinabstimmen auf einem großen parallelen Datensatz, der 65 Sprachen umfasst, optimiert. FuxiMT integriert Mixture-of-Experts (MoEs) und setzt eine Curriculum-Learning-Strategie ein, um eine robuste Leistung über verschiedene Ressourcenniveaus hinweg zu gewährleisten. Experimentelle Ergebnisse zeigen, dass FuxiMT starke Baselines, einschließlich state-of-the-art LLMs und maschineller Übersetzungsmodelle, deutlich übertrifft, insbesondere in ressourcenarmen Szenarien. Darüber hinaus zeigt FuxiMT bemerkenswerte Zero-Shot-Übersetzungsfähigkeiten für unbekannte Sprachpaare, was sein Potenzial zur Überbrückung von Kommunikationslücken in Fällen, in denen parallele Daten knapp oder nicht verfügbar sind, verdeutlicht.
Die De-novo-Peptidsequenzierung ist eine entscheidende Aufgabe in der Proteomik. Die Leistung aktueller Deep-Learning-basierter Methoden wird jedoch durch die inhärente Komplexität von Massenspektrometriedaten und die heterogene Verteilung von Rauschsignalen begrenzt, was zu datenspezifischen Verzerrungen führt. Wir präsentieren RankNovo, das erste Deep-Reranking-Framework, das die De-novo-Peptidsequenzierung durch die Nutzung der komplementären Stärken mehrerer Sequenzierungsmodelle verbessert. RankNovo verwendet einen listenbasierten Reranking-Ansatz, modelliert Kandidatenpeptide als multiple Sequenzalignments und nutzt axiale Aufmerksamkeit, um informative Merkmale über die Kandidaten hinweg zu extrahieren. Zusätzlich führen wir zwei neue Metriken ein, PMD (Peptide Mass Deviation) und RMD (Residual Mass Deviation), die eine präzise Überwachung ermöglichen, indem sie Massenunterschiede zwischen Peptiden sowohl auf Sequenz- als auch auf Restebene quantifizieren. Umfangreiche Experimente zeigen, dass RankNovo nicht nur die Basismodelle, die zur Generierung von Trainingskandidaten für das Reranking-Pre-Training verwendet werden, übertrifft, sondern auch einen neuen State-of-the-Art-Benchmark setzt. Darüber hinaus zeigt RankNovo eine starke Zero-Shot-Generalisierung auf ungesehene Modelle, deren Generierung während des Trainings nicht exponiert war, was seine Robustheit und sein Potenzial als universelles Reranking-Framework für die Peptidsequenzierung unterstreicht. Unsere Arbeit präsentiert eine neuartige Reranking-Strategie, die bestehende Einzelmodell-Paradigmen grundlegend herausfordert und die Grenzen der präzisen De-novo-Sequenzierung erweitert. Unser Quellcode ist auf GitHub verfügbar.