papers.description
Die Erkennung von Halluzinationen bleibt eine grundlegende Herausforderung für den sicheren und zuverlässigen Einsatz von großen Sprachmodellen (LLMs), insbesondere in Anwendungen, die faktische Genauigkeit erfordern. Bestehende Benchmarks zur Halluzinationserkennung operieren oft auf Sequenzebene und sind auf Englisch beschränkt, wodurch die feingranulare, mehrsprachige Überwachung fehlt, die für eine umfassende Bewertung notwendig ist. In dieser Arbeit stellen wir PsiloQA vor, einen groß angelegten, mehrsprachigen Datensatz, der mit span-basierten Halluzinationen in 14 Sprachen annotiert ist. PsiloQA wird durch einen automatisierten dreistufigen Prozess erstellt: Generierung von Frage-Antwort-Paaren aus Wikipedia mithilfe von GPT-4o, Erzeugung potenziell halluzinierter Antworten durch diverse LLMs in einem kontextfreien Setting und automatische Annotation halluzinierter Textabschnitte mithilfe von GPT-4o durch Vergleich mit goldenen Antworten und abgerufenen Kontexten. Wir evaluieren eine breite Palette von Methoden zur Halluzinationserkennung – einschließlich Unsicherheitsquantifizierung, LLM-basierter Tagging und feinabgestimmter Encoder-Modelle – und zeigen, dass Encoder-basierte Modelle die stärkste Leistung über alle Sprachen hinweg erzielen. Darüber hinaus demonstriert PsiloQA effektive cross-linguale Generalisierung und unterstützt robusten Wissenstransfer auf andere Benchmarks, während es gleichzeitig deutlich kosteneffizienter ist als von Menschen annotierte Datensätze. Unser Datensatz und die Ergebnisse fördern die Entwicklung skalierbarer, feingranularer Halluzinationserkennung in mehrsprachigen Umgebungen.
Kürzlich hat das Agentic Reinforcement Learning (Agentic RL) bedeutende Fortschritte bei der Förderung der mehrstufigen, langfristigen Werkzeugnutzungsfähigkeiten von Web-Agenten erzielt. Während gängige Agentic RL-Algorithmen eigenständig Schritte mit hoher Unsicherheit bei der Werkzeugnutzung unter der Anleitung von Entropie erkunden, kann eine übermäßige Abhängigkeit von Entropiesignalen zusätzliche Einschränkungen auferlegen, was zum Zusammenbruch des Trainings führen kann. In diesem Artikel untersuchen wir die Herausforderungen, die durch Entropie verursacht werden, und schlagen die Agentic Entropy-Balanced Policy Optimization (AEPO) vor, einen Agentic RL-Algorithmus, der darauf abzielt, die Entropie sowohl in der Rollout- als auch in der Policy-Update-Phase auszugleichen. AEPO besteht aus zwei Kernkomponenten: (1) einem dynamischen Entropie-ausgleichenden Rollout-Mechanismus, der globales und verzweigtes Sampling-Budget durch Entropie-Vorüberwachung adaptiv zuweist, während er eine Verzweigungsstrafe auf aufeinanderfolgende Schritte mit hoher Entropie bei der Werkzeugnutzung anwendet, um Überverzweigungsprobleme zu verhindern; und (2) einer Entropie-ausgleichenden Policy-Optimierung, die eine Stop-Gradient-Operation in den Clipping-Term für hohe Entropie einfügt, um Gradienten auf Tokens mit hoher Entropie zu erhalten und angemessen zu skalieren, während sie eine entropiebewusste Vorteilsschätzung einbezieht, um das Lernen auf Tokens mit hoher Unsicherheit zu priorisieren. Ergebnisse über 14 anspruchsvolle Datensätze hinweg zeigen, dass AEPO durchweg 7 gängige RL-Algorithmen übertrifft. Mit nur 1K RL-Proben erzielt Qwen3-14B mit AEPO beeindruckende Ergebnisse: 47,6 % auf GAIA, 11,2 % auf Humanity's Last Exam und 43,0 % auf WebWalker für Pass@1; 65,0 % auf GAIA, 26,0 % auf Humanity's Last Exam und 70,0 % auf WebWalker für Pass@5. Eine weitere Analyse zeigt, dass AEPO die Vielfalt des Rollout-Samplings verbessert, während es die Entropie der Policy stabil hält, was die skalierbare Ausbildung von Web-Agenten erleichtert.
Die identitätskonsistente Generierung hat sich zu einem wichtigen Schwerpunkt in der Text-zu-Bild-Forschung entwickelt, wobei aktuelle Modelle bemerkenswerte Erfolge bei der Erzeugung von Bildern erzielen, die mit einer Referenzidentität übereinstimmen. Dennoch zwingt die Knappheit groß angelegter gepaarter Datensätze, die mehrere Bilder derselben Person enthalten, die meisten Ansätze dazu, ein rekonstruktionsbasiertes Training zu verwenden. Diese Abhängigkeit führt häufig zu einem Fehlermodus, den wir als „Copy-Paste“ bezeichnen, bei dem das Modell das Referenzgesicht direkt repliziert, anstatt die Identität über natürliche Variationen in Pose, Ausdruck oder Beleuchtung hinweg zu bewahren. Eine solche übermäßige Ähnlichkeit untergräbt die Steuerbarkeit und begrenzt die Ausdruckskraft der Generierung. Um diese Einschränkungen zu überwinden, (1) erstellen wir einen groß angelegten gepaarten Datensatz, MultiID-2M, der für Szenarien mit mehreren Personen optimiert ist und vielfältige Referenzen für jede Identität bereitstellt; (2) führen wir ein Benchmark ein, das sowohl Copy-Paste-Artefakte als auch den Kompromiss zwischen Identitätstreue und Variation quantifiziert; und (3) schlagen wir ein neuartiges Trainingsparadigma mit einem kontrastiven Identitätsverlust vor, das gepaarte Daten nutzt, um Treue mit Vielfalt auszugleichen. Diese Beiträge gipfeln in WithAnyone, einem diffusionsbasierten Modell, das Copy-Paste effektiv reduziert und gleichzeitig eine hohe Identitätsähnlichkeit bewahrt. Umfangreiche qualitative und quantitative Experimente zeigen, dass WithAnyone Copy-Paste-Artefakte signifikant verringert, die Steuerbarkeit über Pose und Ausdruck verbessert und eine starke wahrnehmbare Qualität beibehält. Benutzerstudien bestätigen weiterhin, dass unsere Methode eine hohe Identitätstreue erreicht und gleichzeitig eine ausdrucksstarke, steuerbare Generierung ermöglicht.
In einer Ära, in der sich KI von einem passiven Werkzeug zu einem aktiven und adaptiven Begleiter entwickelt, stellen wir AI for Service (AI4Service) vor, ein neues Paradigma, das proaktive und Echtzeit-Unterstützung im täglichen Leben ermöglicht. Bisherige KI-Dienste bleiben weitgehend reaktiv und reagieren nur auf explizite Benutzerbefehle. Wir argumentieren, dass ein wirklich intelligenter und hilfreicher Assistent in der Lage sein sollte, Benutzerbedürfnisse vorauszusehen und bei Bedarf proaktiv Maßnahmen zu ergreifen. Um diese Vision zu verwirklichen, schlagen wir Alpha-Service vor, ein einheitliches Framework, das zwei grundlegende Herausforderungen adressiert: „Know When“ (Wann einzugreifen ist) durch die Erkennung von Dienstleistungsmöglichkeiten aus egozentrischen Videoströmen und „Know How“ (Wie zu handeln ist) durch die Bereitstellung sowohl generalisierter als auch personalisierter Dienste. Inspiriert von der von-Neumann-Computerarchitektur und basierend auf KI-Brillen besteht Alpha-Service aus fünf Schlüsselkomponenten: einer Eingabeeinheit für die Wahrnehmung, einer zentralen Verarbeitungseinheit für die Aufgabenplanung, einer arithmetisch-logischen Einheit für die Werkzeugnutzung, einer Speichereinheit für die langfristige Personalisierung und einer Ausgabeeinheit für die natürliche menschliche Interaktion. Als erste Exploration implementieren wir Alpha-Service durch ein Multi-Agenten-System, das auf KI-Brillen eingesetzt wird. Fallstudien, darunter ein Echtzeit-Blackjack-Berater, ein Museumsführer und ein Einkaufsberater für passende Kleidung, demonstrieren seine Fähigkeit, die Umgebung nahtlos wahrzunehmen, Benutzerabsichten zu erkennen und zeitnahe sowie nützliche Unterstützung ohne explizite Aufforderung zu bieten.
Das Gebäude nativer Vision-Language-Modelle (VLMs) hat sich als aufstrebender Konkurrent zu typischen modularen VLMs herausgebildet, geprägt durch sich entwickelnde Modellarchitekturen und Trainingsparadigmen. Dennoch werfen zwei anhaltende Wolken Schatten auf ihre weit verbreitete Erforschung und Förderung: (-) Welche grundlegenden Einschränkungen unterscheiden native VLMs von modularen, und in welchem Umfang können diese Barrieren überwunden werden? (-) Wie kann die Forschung in nativen VLMs zugänglicher und demokratisiert werden, um so den Fortschritt in diesem Bereich zu beschleunigen? In diesem Artikel klären wir diese Herausforderungen und skizzieren Leitprinzipien für den Aufbau nativer VLMs. Konkret sollte ein primitives natives VLM: (i) effektiv Pixel- und Wortrepräsentationen in einem gemeinsamen semantischen Raum ausrichten; (ii) nahtlos die Stärken ehemals separater Vision- und Sprachmodule integrieren; (iii) intrinsisch verschiedene cross-modale Eigenschaften verkörpern, die einheitliche Vision-Language-Kodierung, Ausrichtung und Schlussfolgerung unterstützen. Daher lancieren wir NEO, eine neuartige Familie nativer VLMs, die auf ersten Prinzipien basiert und in der Lage ist, in verschiedenen realen Szenarien mit erstklassigen modularen Gegenstücken zu konkurrieren. Mit nur 390M Bild-Text-Beispielen entwickelt NEO effizient visuelle Wahrnehmung von Grund auf, während es Vision-Language-Konflikte innerhalb eines dichten und monolithischen Modells, das aus unseren ausgefeilten Primitiven besteht, mildert. Wir positionieren NEO als Eckpfeiler für skalierbare und leistungsstarke native VLMs, gepaart mit einer reichhaltigen Sammlung wiederverwendbarer Komponenten, die ein kosteneffektives und erweiterbares Ökosystem fördern. Unser Code und unsere Modelle sind öffentlich verfügbar unter: https://github.com/EvolvingLMMs-Lab/NEO.
In diesem Bericht stellen wir PaddleOCR-VL vor, ein ressourceneffizientes Modell mit State-of-the-Art (SOTA)-Leistung, das speziell für die Dokumentenanalyse entwickelt wurde. Sein Kernbestandteil ist PaddleOCR-VL-0.9B, ein kompaktes, aber leistungsstarkes Vision-Language-Modell (VLM), das einen NaViT-artigen dynamischen Auflösungs-Visual-Encoder mit dem ERNIE-4.5-0.3B-Sprachmodell kombiniert, um eine präzise Elementerkennung zu ermöglichen. Dieses innovative Modell unterstützt effizient 109 Sprachen und zeichnet sich durch die Erkennung komplexer Elemente (z. B. Text, Tabellen, Formeln und Diagramme) aus, während es gleichzeitig einen minimalen Ressourcenverbrauch aufweist. Durch umfassende Bewertungen auf weit verbreiteten öffentlichen Benchmarks sowie internen Benchmarks erzielt PaddleOCR-VL SOTA-Leistungen sowohl bei der seitenweisen Dokumentenanalyse als auch bei der elementbasierten Erkennung. Es übertrifft bestehende Lösungen deutlich, zeigt eine starke Wettbewerbsfähigkeit gegenüber führenden VLMs und bietet schnelle Inferenzgeschwindigkeiten. Diese Stärken machen es besonders geeignet für den praktischen Einsatz in realen Anwendungsszenarien.
Videogenerationsmodelle haben bemerkenswerte Fortschritte erzielt, insbesondere in realistischen Szenarien; jedoch verschlechtert sich ihre Leistung deutlich in imaginativen Szenarien. Diese Prompts beinhalten oft selten gemeinsam auftretende Konzepte mit langstreckigen semantischen Beziehungen, die außerhalb der Trainingsverteilungen liegen. Bestehende Methoden wenden typischerweise Testzeit-Skalierung an, um die Videoqualität zu verbessern, aber ihre festen Suchräume und statischen Belohnungsdesigns schränken die Anpassungsfähigkeit an imaginative Szenarien ein. Um diese Lücke zu schließen, schlagen wir ImagerySearch vor, eine prompt-gesteuerte adaptive Testzeit-Suchstrategie, die sowohl den Inferenz-Suchraum als auch die Belohnungsfunktion dynamisch an die semantischen Beziehungen im Prompt anpasst. Dies ermöglicht kohärentere und visuell plausiblere Videos in anspruchsvollen imaginativen Settings. Um den Fortschritt in dieser Richtung zu bewerten, führen wir LDT-Bench ein, den ersten dedizierten Benchmark für langstreckige semantische Prompts, bestehend aus 2.839 diversen Konzeptpaaren und einem automatisierten Protokoll zur Bewertung kreativer Generationsfähigkeiten. Umfangreiche Experimente zeigen, dass ImagerySearch durchweg starke Videogenerations-Baselines und bestehende Testzeit-Skalierungsansätze auf LDT-Bench übertrifft und wettbewerbsfähige Verbesserungen auf VBench erzielt, was seine Wirksamkeit über diverse Prompt-Typen hinweg demonstriert. Wir werden LDT-Bench und den Code veröffentlichen, um zukünftige Forschung zur imaginativen Videogeneration zu erleichtern.
In diesem Artikel präsentieren wir BitNet Distillation (BitDistill), eine leichtgewichtige Pipeline, die vorgefertigte LLMs (Large Language Models) in voller Präzision (z. B. Qwen) für spezifische Downstream-Aufgaben auf eine 1,58-Bit-Präzision (d. h. ternäre Gewichte {-1, 0, 1}) feinabstimmt und dabei eine starke aufgabenbezogene Leistung mit minimalem Rechenaufwand erzielt. Insbesondere integriert BitDistill drei Schlüsseltechniken: das SubLN-Modul, wie in BitNet eingeführt; die Multi-Head-Attention-Distillation, basierend auf MiniLM; und das kontinuierliche Vor-Training, das als entscheidender Aufwärm-Schritt dient, um das Skalierbarkeitsproblem der Leistungslücke zwischen feinabgestimmten LLMs in voller Präzision und 1,58-Bit auf spezifischen Aufgaben zu mildern. Experimentelle Ergebnisse zeigen, dass BitDistill eine Leistung erzielt, die mit den Modellen in voller Präzision über verschiedene Modellgrößen hinweg vergleichbar ist, während es bis zu 10-fache Speichereinsparungen und eine 2,65-fach schnellere Inferenz auf CPUs ermöglicht. Der Code ist verfügbar unter https://github.com/microsoft/BitNet.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich kürzlich als ein zentrales Paradigma zur Verbesserung der Fähigkeiten von Large Language Models (LLMs) im Bereich des logischen Denkens etabliert. Um den Mangel an Verifizierungssignalen während der Testphase zu beheben, integrieren frühere Studien das Training der Selbstverifizierungsfähigkeit des Modells in den standardmäßigen RLVR-Prozess, wodurch die Fähigkeiten zum logischen Denken und zur Verifizierung innerhalb eines einzigen LLMs vereinheitlicht werden. Bisherige Ansätze erforderten jedoch, dass das LLM Lösungen und Selbstverifizierungen sequenziell unter Verwendung zweier separater Prompt-Vorlagen generiert, was die Effizienz erheblich reduziert. In dieser Arbeit zeigen wir theoretisch auf, dass die geschlossene Lösung des RL-Ziels der Selbstverifizierung auf eine bemerkenswert einfache Form reduziert werden kann: Die wahre Belohnung für das logische Denken einer Lösung entspricht ihrem Last-Token-Selbstbelohnungswert, der als Differenz zwischen der nächsten Token-Log-Wahrscheinlichkeit, die das Policy-Modell einem beliebigen vordefinierten Token am letzten Token der Lösung zuweist, und einem vorberechneten konstanten Wert, skaliert durch den KL-Koeffizienten, berechnet wird. Basierend auf dieser Erkenntnis schlagen wir LaSeR (Reinforcement Learning mit Last-Token-Selbstbelohnung) vor, einen Algorithmus, der den ursprünglichen RLVR-Verlust einfach um einen MSE-Verlust ergänzt, der die Last-Token-Selbstbelohnungswerte mit verifikatorbasierten Belohnungen für das logische Denken in Einklang bringt und so die Fähigkeiten zum logischen Denken und zur Selbstbelohnung von LLMs gemeinsam optimiert. Die optimierten Selbstbelohnungswerte können sowohl im Training als auch im Test verwendet werden, um die Modellleistung zu verbessern. Bemerkenswert ist, dass unser Algorithmus diese Werte aus der vorhergesagten nächsten Token-Wahrscheinlichkeitsverteilung des letzten Tokens unmittelbar nach der Generierung ableitet, wodurch nur die minimalen zusätzlichen Kosten einer zusätzlichen Token-Inferenz entstehen. Experimente zeigen, dass unsere Methode nicht nur die logische Denkleistung des Modells verbessert, sondern ihm auch eine bemerkenswerte Selbstbelohnungsfähigkeit verleiht, wodurch seine Skalierungsleistung während der Inferenz gesteigert wird.
Diese Arbeit untersucht, wie Schlüssel-Wert (KV)-Caches für Diffusionsgroßsprachmodelle (DLMs) adaptiv neu berechnet werden können, um die Vorhersagegenauigkeit zu maximieren und gleichzeitig die Dekodierungslatenz zu minimieren. Bisherige Methoden berechnen QKV für alle Tokens in jedem Denoising-Schritt und jeder Schicht neu, obwohl sich die KV-Zustände in den meisten Schritten, insbesondere in flachen Schichten, nur wenig ändern, was zu erheblicher Redundanz führt. Wir machen drei Beobachtungen: (1) entfernte {bf MASK}-Tokens wirken hauptsächlich als Längenverzerrung und können blockweise über das aktive Vorhersagefenster hinaus zwischengespeichert werden; (2) die KV-Dynamik nimmt mit der Tiefe zu, was darauf hindeutet, dass ein selektives Aktualisieren ab tieferen Schichten ausreichend ist; und (3) der am meisten beachtete Token zeigt die geringste KV-Drift, was eine konservative untere Grenze für die Cache-Änderung bei anderen Tokens liefert. Basierend darauf schlagen wir {bf Elastic-Cache} vor, eine trainingsfreie, architekturunabhängige Strategie, die gemeinsam entscheidet, {wann} aktualisiert werden soll (über einen aufmerksamkeitsbasierten Drift-Test am am meisten beachteten Token) und {wo} aktualisiert werden soll (über einen tiefenabhängigen Zeitplan, der ab einer gewählten Schicht neu berechnet, während flache Schicht-Caches und off-window MASK-Caches wiederverwendet werden). Im Gegensatz zu festen Periodenschemata führt Elastic-Cache adaptive, schichtbewusste Cache-Aktualisierungen für Diffusions-LLMs durch, reduziert redundante Berechnungen und beschleunigt die Dekodierung mit vernachlässigbarem Verlust an Generierungsqualität. Experimente mit LLaDA-Instruct, LLaDA-1.5 und LLaDA-V in mathematischen Denkaufgaben und Codegenerierungsaufgaben zeigen konsistente Beschleunigungen: 8,7-fach auf GSM8K (256 Tokens), 45,1-fach auf längeren Sequenzen und 4,8-fach auf HumanEval, wobei stets eine höhere Genauigkeit als beim Baseline-Modell erreicht wird. Unsere Methode erzielt einen signifikant höheren Durchsatz (6,8-fach auf GSM8K) als bestehende konfidenzbasierte Ansätze bei gleichbleibender Generierungsqualität, was die praktische Anwendung von Diffusions-LLMs ermöglicht.
Große Sprachmodell (LLM)-basierte Agenten werden zunehmend mit Verstärkungslernen (Reinforcement Learning, RL) trainiert, um ihre Fähigkeit zur Interaktion mit externen Umgebungen durch den Einsatz von Werkzeugen zu verbessern, insbesondere in suchbasierten Szenarien, die mehrstufiges Denken und Wissenserwerb erfordern. Bisherige Ansätze stützen sich jedoch typischerweise auf ergebnisbasierte Belohnungen, die erst bei der endgültigen Antwort bereitgestellt werden. Diese Belohnungssparsamkeit wird insbesondere in mehrstufigen Szenarien problematisch, wo lange Trajektorien zwei kritische Probleme verschärfen: (i) den Vorteilskollaps, bei dem alle Rollouts identische Belohnungen erhalten und keine nützlichen Lernsignale liefern, und (ii) das Fehlen einer feingranularen Zuweisung von Verdiensten, bei dem die Abhängigkeiten zwischen den Schritten verschleiert werden, insbesondere bei langfristigen Aufgaben. In diesem Artikel schlagen wir die Information-Gain-basierte Policy-Optimierung (IGPO) vor, ein einfaches, aber effektives RL-Framework, das dichte und intrinsische Überwachung für das Training mehrstufiger Agenten bietet. IGPO modelliert jeden Interaktionsschritt als einen inkrementellen Prozess des Erwerbs von Informationen über die Grundwahrheit und definiert schrittweise Belohnungen als den marginalen Anstieg der Wahrscheinlichkeit der Policy, die korrekte Antwort zu liefern. Im Gegensatz zu früheren Ansätzen auf Prozessebene, die von externen Belohnungsmodellen oder kostspieligen Monte-Carlo-Schätzungen abhängen, leitet IGPO intrinsische Belohnungen direkt aus den eigenen Glaubensaktualisierungen des Modells ab. Diese intrinsischen schrittweisen Belohnungen werden mit ergebnisbasierter Überwachung kombiniert, um dichte Belohnungstrajektorien zu bilden. Umfangreiche Experimente sowohl auf in-domain als auch out-of-domain Benchmarks zeigen, dass IGPO in mehrstufigen Szenarien durchweg starke Baselines übertrifft und höhere Genauigkeit sowie verbesserte Stichprobeneffizienz erreicht.
Große Sprachmodelle (LLMs) für Code basieren auf Subwort-Tokenizierern, wie beispielsweise Byte-Pair Encoding (BPE), die aus einer Mischung von natürlichem Text und Programmiersprachen-Code gelernt werden, jedoch eher durch Statistik als durch Grammatik gesteuert sind. Infolgedessen können semantisch identische Code-Snippets unterschiedlich tokenisiert werden, abhängig von oberflächlichen Faktoren wie Leerzeichen oder der Benennung von Identifikatoren. Um die Auswirkungen dieser Fehlausrichtung zu messen, führen wir TokDrift ein, ein Framework, das semantikerhaltende Umformungsregeln anwendet, um Code-Varianten zu erstellen, die sich nur in der Tokenisierung unterscheiden. Über neun Code-LLMs hinweg, darunter große Modelle mit über 30 Milliarden Parametern, können selbst geringfügige Formatierungsänderungen erhebliche Verschiebungen im Modellverhalten verursachen. Eine schichtenweise Analyse zeigt, dass das Problem in den frühen Embeddings entsteht, wo die Subwort-Segmentierung die Grenzen grammatikalischer Token nicht erfassen kann. Unsere Ergebnisse identifizieren die fehlausgerichtete Tokenisierung als ein verstecktes Hindernis für zuverlässiges Code-Verständnis und -Generierung und unterstreichen die Notwendigkeit einer grammatikbewussten Tokenisierung für zukünftige Code-LLMs.
Während Large Language Models (LLMs) im Bereich des textbasierten Denkens hervorragende Leistungen erbracht haben, zeigen sie Schwächen in mathematischen Domänen wie der Geometrie, die intrinsisch auf visuelle Hilfsmittel angewiesen sind. Bestehende Ansätze zum Visual Chain-of-Thought (VCoT) sind oft durch starre externe Werkzeuge eingeschränkt oder scheitern daran, hochwertige, strategisch zeitgesteuerte Diagramme zu generieren, die für komplexe Problemlösungen notwendig sind. Um diese Lücke zu schließen, stellen wir MathCanvas vor, ein umfassendes Framework, das darauf abzielt, einheitliche Large Multimodal Models (LMMs) mit intrinsischen VCoT-Fähigkeiten für die Mathematik auszustatten. Unser Ansatz besteht aus zwei Phasen. Zunächst wird in einer Visual Manipulation-Phase das Modell auf einem neuartigen Korpus mit 15,2 Millionen Paaren vortrainiert, der 10 Millionen Beschriftungs-Diagramm-Paare (MathCanvas-Imagen) und 5,2 Millionen schrittweise Bearbeitungspfade (MathCanvas-Edit) umfasst, um die Diagrammerstellung und -bearbeitung zu beherrschen. In der zweiten Phase, dem Strategic Visual-Aided Reasoning, wird das Modell auf MathCanvas-Instruct feinabgestimmt, einem neuen Datensatz mit 219.000 Beispielen von verschachtelten visuell-textuellen Denkpfaden, um ihm beizubringen, wann und wie visuelle Hilfsmittel einzusetzen sind. Um eine rigorose Bewertung zu ermöglichen, führen wir MathCanvas-Bench ein, einen anspruchsvollen Benchmark mit 3.000 Problemen, die von Modellen die Erstellung verschachtelter visuell-textueller Lösungen verlangen. Unser Modell, BAGEL-Canvas, das unter diesem Framework trainiert wurde, erzielt eine relative Verbesserung von 86 % gegenüber starken LMM-Baselines auf MathCanvas-Bench und zeigt eine hervorragende Generalisierung auf andere öffentliche Mathematik-Benchmarks. Unsere Arbeit bietet ein vollständiges Toolkit – Framework, Datensätze und Benchmark – um komplexes, menschenähnliches visuell unterstütztes Denken in LMMs zu ermöglichen. Projektseite: https://mathcanvas.github.io/
Wir stellen die LLM Brain Rot Hypothese auf und testen sie: Kontinuierliche Exposition gegenüber minderwertigen Webtexten führt zu anhaltendem kognitiven Abbau bei großen Sprachmodellen (LLMs). Um die Datenqualität kausal zu isolieren, führen wir kontrollierte Experimente mit realen Twitter/X-Korpora durch, wobei wir minderwertige und umgekehrt kontrollierte Datensätze über zwei orthogonale Operationalisierungen erstellen: M1 (Engagement-Grad) und M2 (semantische Qualität), mit abgestimmtem Token-Umfang und Trainingsoperationen über alle Bedingungen hinweg. Im Gegensatz zur Kontrollgruppe verursacht kontinuierliches Vortraining von 4 LLMs auf dem minderwertigen Datensatz nicht unerhebliche Rückgänge (Hedges' g>0.3) bei logischem Denken, Langzeitkontextverständnis, Sicherheit und der Verstärkung „dunkler Eigenschaften“ (z.B. Psychopathie, Narzissmus). Die schrittweisen Mischungen von minderwertigen und kontrollierten Datensätzen führen ebenfalls zu einer Dosis-Wirkungs-Beziehung des kognitiven Abbaus: Beispielsweise sinkt unter M1 ARC-Challenge mit Chain of Thoughts von 74,9 auf 57,2 und RULER-CWE von 84,4 auf 52,3, wenn der Anteil minderwertiger Daten von 0% auf 100% steigt. Fehleranalysen liefern mehrere wichtige Erkenntnisse. Erstens identifizieren wir das Überspringen von Gedanken als primäre Schädigung: Modelle kürzen oder überspringen zunehmend Denkketten, was den größten Teil des Fehleranstiegs erklärt. Zweitens wird eine teilweise, aber unvollständige Heilung beobachtet: Skalierung des Instruction Tunings und Vortraining mit sauberen Daten verbessern den kognitiven Abbau, können jedoch die Grundleistung nicht wiederherstellen, was auf eine anhaltende repräsentative Drift anstelle eines Formatmissverhältnisses hindeutet. Schließlich stellen wir fest, dass die Popularität, eine nicht-semantische Metrik, eines Tweets ein besserer Indikator für den Brain Rot Effekt ist als die Länge in M1. Zusammengenommen liefern die Ergebnisse signifikante, multiperspektivische Beweise dafür, dass Datenqualität ein kausaler Treiber des Fähigkeitsabbaus bei LLMs ist, was die Kuratierung für kontinuierliches Vortraining als Sicherheitsproblem während des Trainings neu definiert und routinemäßige „kognitive Gesundheitschecks“ für eingesetzte LLMs motiviert.
Jüngste Fortschritte in multimodalen Belohnungsmodellen (RMs) haben das Post-Training für visuelle generative Modelle erheblich verbessert. Allerdings stoßen aktuelle RMs auf inhärente Grenzen: (1) visuelle Eingaben verbrauchen große Kontextbudgets, was zu weniger Bildern und einem Verlust fein abgestufter Details führt; und (2) alle visuellen Informationen werden in den initialen Prompt gepackt, was Halluzinationen und Vergessen während der Ketten-denken-Reasoning verstärkt. Um diese Probleme zu überwinden, führen wir VideoReward Thinker (VR-Thinker) ein, ein Denken-mit-Bild-Framework, das das RM mit visuellen Reasoning-Operationen (z. B. Bildauswahl) und einem konfigurierbaren visuellen Speicherfenster ausstattet. Dies ermöglicht es dem RM, aktiv visuelle Beweise innerhalb der Kontextgrenzen zu erwerben und zu aktualisieren, wodurch die Reasoning-Treue und Zuverlässigkeit verbessert werden. Wir aktivieren das visuelle Reasoning über eine Verstärkungs-Fine-Tuning-Pipeline: (i) Kaltstart mit kuratierten visuellen Ketten-denken-Daten, um grundlegende Reasoning-Fähigkeiten und Operationsformatierung zu destillieren; (ii) Auswahl von Proben, deren Urteile pro Dimension und insgesamt korrekt sind, und anschließendes Rejection-Sampling-Fine-Tuning dieser hochwertigen Spuren, um das Reasoning weiter zu verbessern; und (iii) Anwendung von Group Relative Policy Optimization (GRPO), um das Reasoning zu stärken. Unser Ansatz liefert state-of-the-art Genauigkeit unter Open-Source-Modellen auf Video-Präferenz-Benchmarks, insbesondere für längere Videos: ein 7B VR-Thinker erreicht 80,5 % auf VideoGen Reward, 82,3 % auf GenAI-Bench und 75,6 % auf MJ-Bench-Video. Diese Ergebnisse bestätigen die Wirksamkeit und das Potenzial des Denken-mit-Bild-Ansatzes für multimodale Belohnungsmodellierung.
Aktuelle Forschung deutet darauf hin, dass große Sprachmodelle (LLMs) Signale für Faktizität in ihren internen Repräsentationen kodieren, wie beispielsweise versteckte Zustände, Aufmerksamkeitsgewichte oder Token-Wahrscheinlichkeiten. Dies impliziert, dass LLMs möglicherweise „wissen, was sie nicht wissen“. Allerdings können LLMs auch faktische Fehler produzieren, indem sie sich auf Abkürzungen oder trügerische Assoziationen verlassen. Diese Fehler werden durch dasselbe Trainingsziel verursacht, das korrekte Vorhersagen fördert, und wirft die Frage auf, ob interne Berechnungen zuverlässig zwischen faktischen und halluzinierten Ausgaben unterscheiden können. In dieser Arbeit führen wir eine mechanistische Analyse durch, wie LLMs interne faktische Anfragen verarbeiten, indem wir zwei Arten von Halluzinationen basierend auf ihrer Abhängigkeit von Subjektinformationen vergleichen. Wir stellen fest, dass LLMs, wenn Halluzinationen mit Subjektwissen verbunden sind, denselben internen Abrufprozess wie für korrekte Antworten verwenden, was zu überlappenden und ununterscheidbaren Geometrien der versteckten Zustände führt. Im Gegensatz dazu erzeugen Halluzinationen, die vom Subjektwissen losgelöst sind, distinkte, gruppierte Repräsentationen, die sie erkennbar machen. Diese Erkenntnisse offenbaren eine grundlegende Einschränkung: LLMs kodieren keine Wahrhaftigkeit in ihren internen Zuständen, sondern lediglich Muster des Wissensabrufs, was zeigt, dass „LLMs nicht wirklich wissen, was sie nicht wissen“.
Moderne IR-Systeme werden zunehmend mit der Aufgabe konfrontiert, komplexe, vielschichtige Anfragen zu beantworten, die tiefgreifendes Denken erfordern, anstatt einfacher Schlüsselwort- oder semantischer Übereinstimmungen. Während LLM-basiertes IR großes Potenzial gezeigt hat, erbt das vorherrschende Retrieve-then-Rerank-Paradigma die Einschränkungen der embedding-basierten Retrieval-Verfahren; parametrische generative Ansätze sind schwer mit neuen Informationen zu aktualisieren; und langkontextuelle Methoden, die das gesamte Korpus in den Kontext stellen, sind für große Dokumentensammlungen rechnerisch nicht praktikabel. Um diese Herausforderungen zu bewältigen, stellen wir LATTICE vor, ein hierarchisches Retrieval-Framework, das es einem LLM ermöglicht, über große Korpora mit logarithmischer Suchkomplexität zu schließen und zu navigieren, indem es dem Korpus eine semantische Baumstruktur auferlegt. Unser Ansatz besteht aus zwei Phasen: (1) einer Offline-Phase, in der der Korpus entweder durch eine Bottom-up-Agglomerationsstrategie oder eine Top-down-Divisionsstrategie mithilfe von mehrstufigen Zusammenfassungen in eine semantische Hierarchie organisiert wird, und (2) einer Online-Traversal-Phase, in der ein Such-LLM diesen Baum durchläuft. Eine zentrale Herausforderung bei solchen LLM-gesteuerten Suchen besteht darin, dass die Relevanzbewertungen des Modells verrauscht, kontextabhängig und sich der Hierarchie nicht bewusst sind, was branchen- und ebenenübergreifende Vergleiche erschwert. Um dies zu überwinden, schlagen wir einen Traversal-Algorithmus vor, der kalibrierte latente Relevanzwerte aus lokalen LLM-Ausgaben schätzt und sie in eine globale Pfadrelevanzmetrik aggregiert. Unser trainingsfreies Framework erreicht state-of-the-art Zero-Shot-Leistungen auf dem reasoning-intensiven BRIGHT-Benchmark und zeigt eine Verbesserung von bis zu 9 % in Recall@100 und 5 % in nDCG@10 gegenüber der nächstbesten Zero-Shot-Baseline. Darüber hinaus erzielt LATTICE im Vergleich zur feinabgestimmten SOTA-Methode DIVER-v2 vergleichbare Ergebnisse auf BRIGHT-Teilbereichen, die einen statischen Korpus für die Bewertung verwenden.
Aktuelle Vision-Sprache-Handlung (VLA)-Modelle, die auf groß angelegten Roboterdaten vortrainiert wurden, zeigen starke Fähigkeiten in der Bewältigung multipler Aufgaben und generalisieren gut bei Variationen in visuellen und sprachlichen Anweisungen für Manipulationen. Ihre Erfolgsrate sinkt jedoch signifikant, wenn sie mit Objektkonzepten konfrontiert werden, die außerhalb der Trainingsdaten liegen, wie beispielsweise unbekannte Objektbeschreibungen und Texturen im Datensatz. Um dies zu adressieren, schlagen wir ein neuartiges agentenbasiertes Framework, VLA^2, vor, das OpenVLA als Ausführungsrückgrat nutzt und effektiv externe Module wie Web-Retrieval und Objekterkennung einsetzt, um dem VLA visuelles und textuelles Wissen über Zielobjekte bereitzustellen. Dieser Ansatz mildert Generalisierungsfehler bei der Handhabung von außerhalb der Verteilung liegenden Objekten. Basierend auf der LIBERO-Simulationsumgebung führten wir neue Objekte und Objektbeschreibungen ein, um einen neuen Evaluationsbenchmark mit drei Schwierigkeitsstufen zu konstruieren, um die Effektivität unserer Methode zu testen. Unser Framework übertraf erfolgreich die aktuellen State-of-the-Art-Modelle in unserem entworfenen Benchmark für schwierige Generalisierung. Im Vergleich zur eigenständigen OpenVLA-Baseline erreicht VLA^2 eine Verbesserung der Erfolgsrate von 44,2 % im Benchmark für schwierige Stufen und eine durchschnittliche Verbesserung von 20,2 % in allen angepassten Umgebungen, ohne Leistungseinbußen bei in-domain-Aufgaben. Projektwebsite: https://vla-2.github.io.
Da große Sprachmodelle (LLMs) immer leistungsfähiger und weit verbreiteter werden, wird die Sicherheit ihrer Ausgaben zunehmend kritisch. Bestehende Sicherheitsmodelle, obwohl nützlich in statischen Evaluierungsszenarien, weisen zwei wesentliche Einschränkungen in realen Anwendungen auf: (1) sie geben typischerweise nur binäre „sicher/unsicher“-Labels aus, die je nach unterschiedlichen Sicherheitsrichtlinien inkonsistent interpretiert werden können, wodurch sie nicht in der Lage sind, variierende Sicherheitstoleranzen über verschiedene Domänen hinweg zu berücksichtigen; und (2) sie benötigen vollständige Modellausgaben, bevor sie Sicherheitsprüfungen durchführen können, was sie grundsätzlich inkompatibel mit dem Streaming-Inferenz von LLMs macht und dadurch rechtzeitige Eingriffe während der Generierung verhindert sowie die Exposition gegenüber schädlichen Teilausgaben erhöht. Um diese Herausforderungen zu bewältigen, präsentieren wir Qwen3Guard, eine Reihe mehrsprachiger Sicherheitsmodelle mit zwei spezialisierten Varianten: Generative Qwen3Guard, das die Sicherheitsklassifizierung als eine aufgabenbasierte Instruktionsfolge behandelt, um feinkörnige Drei-Klassen-Urteile (sicher, kontrovers, unsicher) zu ermöglichen; und Stream Qwen3Guard, das einen Token-Level-Klassifizierungskopf für die Echtzeit-Sicherheitsüberwachung während der inkrementellen Textgenerierung einführt. Beide Varianten sind in drei Größen (0,6B, 4B und 8B Parameter) verfügbar und unterstützen bis zu 119 Sprachen und Dialekte, was eine umfassende, skalierbare und latenzarme Sicherheitsmoderation für globale LLM-Bereitstellungen bietet. Evaluierungen über englische, chinesische und mehrsprachige Benchmarks hinweg zeigen, dass Qwen3Guard in der Klassifizierung der Sicherheit von Prompts und Antworten Spitzenleistungen erzielt. Alle Modelle werden unter der Apache-2.0-Lizenz für die öffentliche Nutzung freigegeben.
Große Sprachmodelle zeigen systematische Defizite im kreativen Schreiben, insbesondere in nicht-englischen Kontexten, in denen Trainingsdaten knapp sind und prozessbezogene Aufsicht fehlt. Wir stellen COIG-Writer vor, einen neuartigen Datensatz für kreatives Schreiben auf Chinesisch, der sowohl vielfältige Outputs als auch deren zugrunde liegende Denkprozesse durch systematische Reverse-Engineering von hochwertigen Texten erfasst. Im Gegensatz zu bestehenden Datensätzen, die lediglich Eingabe-Ausgabe-Paare bereitstellen, umfasst COIG-Writer 1.665 sorgfältig kuratierte Tripletts, die 51 Genres abdecken und jeweils enthalten: (1) einen reverse-engineerten Prompt, (2) detaillierte kreative Argumentation, die die Entscheidungsprozesse dokumentiert, und (3) den finalen Text. Durch umfassende Experimente identifizieren wir ein zweikomponentiges Modell des kreativen Schreibens: narrative Logik (bereitgestellt durch Prozessaufsicht) und sprachlicher Ausdruck (aufrechterhalten durch allgemeine Daten). Unsere Ergebnisse offenbaren drei kritische Erkenntnisse: (1) Prozessaufsicht ist äußerst effektiv, erfordert jedoch eine Stabilisierung durch allgemeine Daten. Ein Verhältnis von mindestens einer kreativen Probe zu zwölf allgemeinen Proben ist erforderlich, um optimale Leistung zu erzielen; unterhalb dieses Schwellenwerts verschlechtert sich die Erfolgsrate progressiv (von 62,75 % auf 35,78 %). (2) Kreative Fähigkeiten sind kulturell gebunden und zeigen keinen sprachübergreifenden Transfer (eine Lücke von 89,26 Prozentpunkten zwischen der Leistung auf Chinesisch und Englisch). (3) Lexikalische Diversität korreliert invers mit der kreativen Qualität (TTR-Paradoxon), was darauf hindeutet, dass hohe Diversität ein kompensatorisches Verhalten für logische Defizite signalisiert. Diese Erkenntnisse belegen, dass kreative Exzellenz aus der Interaktion zwischen logischem Gerüst und sprachlicher Verankerung entsteht, analog dazu, wie mathematisches Denken die sprachliche Kompetenz in Basismodellen verbessert, aber nicht ersetzen kann.
In dieser Arbeit stellen wir die mxbai-edge-colbert-v0-Modelle in zwei verschiedenen Parametergrößen vor: 17M und 32M. Im Rahmen unserer Forschung führen wir zahlreiche Experimente durch, um Retrieval- und Late-Interaction-Modelle zu verbessern, die wir in kleinere Modelle destillieren möchten, um Proof-of-Concepts zu erstellen. Unser ultimatives Ziel ist es, Retrieval auf allen Skalen zu unterstützen, von großskaligem Retrieval in der Cloud bis hin zu Modellen, die lokal auf jedem Gerät ausgeführt werden können. mxbai-edge-colbert-v0 ist ein Modell, das wir als solide Grundlage für alle zukünftigen Experimente betrachten und das die erste Version einer langen Reihe kleiner Proof-of-Concepts darstellt. Im Rahmen der Entwicklung von mxbai-edge-colbert-v0 haben wir mehrere Ablationsstudien durchgeführt, deren Ergebnisse wir hier berichten. In Bezug auf die Downstream-Leistung ist mxbai-edge-colbert-v0 ein besonders leistungsfähiges kleines Modell, das ColBERTv2 auf gängigen Kurztext-Benchmarks (BEIR) übertrifft und einen großen Fortschritt bei Langkontext-Aufgaben mit bisher unerreichter Effizienz darstellt.
Tiefgehende Recherche – die Erstellung umfassender, zitiergestützter Berichte durch die Suche und Synthese von Informationen aus Hunderten von Live-Webquellen – stellt eine wichtige Grenze für agentenbasierte Systeme dar. Um diese Fähigkeit rigoros zu bewerten, sind vier Prinzipien entscheidend: Aufgaben sollten (1) nutzerzentriert sein und realistische Informationsbedürfnisse widerspiegeln, (2) dynamisch sein und aktuelle Informationen über parametrisches Wissen hinaus erfordern, (3) eindeutig sein, um eine konsistente Interpretation über verschiedene Nutzer hinweg sicherzustellen, und (4) vielschichtig und suchintensiv sein, was eine Suche über zahlreiche Webquellen und eine tiefgehende Analyse erfordert. Bestehende Benchmarks erfüllen diese Prinzipien nicht, da sie sich oft auf enge Domänen konzentrieren oder mehrdeutige Fragen stellen, die einen fairen Vergleich behindern. Angeleitet von diesen Prinzipien führen wir LiveResearchBench ein, einen Benchmark mit 100 von Experten kuratierten Aufgaben, die den Alltag, Unternehmen und die Wissenschaft abdecken und jeweils umfangreiche, dynamische, Echtzeit-Webrecherche und Synthese erfordern. Mit über 1.500 Stunden menschlicher Arbeit erstellt, bietet LiveResearchBench eine rigorose Grundlage für systematische Bewertungen. Um zitiergestützte Langformberichte zu bewerten, führen wir DeepEval ein, eine umfassende Suite, die sowohl die Inhalts- als auch die Berichtsebene abdeckt, einschließlich Abdeckung, Präsentation, Zitiergenauigkeit und -zuordnung, Konsistenz und Tiefe der Analyse. DeepEval integriert vier komplementäre Bewertungsprotokolle, die jeweils darauf ausgelegt sind, eine stabile Bewertung und hohe Übereinstimmung mit menschlichen Urteilen sicherzustellen. Mit LiveResearchBench und DeepEval führen wir eine umfassende Bewertung von 17 fortschrittlichen Systemen zur tiefgehenden Recherche durch, darunter Einzelagenten-Websuche, Einzelagenten-Tiefrecherche und Multiagentensysteme. Unsere Analyse zeigt aktuelle Stärken, wiederkehrende Fehlermuster und wichtige Systemkomponenten auf, die benötigt werden, um zuverlässige und aufschlussreiche tiefgehende Recherche voranzutreiben.
Aktuelle Methoden des Präferenzlernens erreichen hohe Genauigkeit auf Standard-Benchmarks, zeigen jedoch eine signifikante Leistungsverschlechterung, wenn objektive Qualitätssignale entfernt werden. Wir stellen WritingPreferenceBench vor, einen Datensatz mit 1.800 menschlich annotierten Präferenzpaaren (1.200 Englisch, 600 Chinesisch) aus 8 kreativen Schreibgenres, bei denen die Antworten hinsichtlich objektiver Korrektheit, faktischer Genauigkeit und Länge abgeglichen sind. Auf diesem Benchmark erreichen sequenzbasierte Belohnungsmodelle – die Standardarchitektur für RLHF (Reinforcement Learning from Human Feedback) – lediglich eine mittlere Genauigkeit von 52,7 %, während Zero-Shot-Sprachmodellbewerter eine Genauigkeit von 53,9 % erzielen. Im Gegensatz dazu erreichen generative Belohnungsmodelle, die explizite Begründungsketten erzeugen, eine Genauigkeit von 81,8 %. Wir beobachten eine hohe Varianz innerhalb der Modelle über die Genres hinweg: Einzelne Modelle erreichen Genauigkeiten zwischen 18,2 % und 81,8 % in verschiedenen Schreibkategorien, mit durchschnittlichen Standardabweichungen von 10,1 %. Diese Varianz bleibt unabhängig von der Modellgröße bestehen, wobei Modelle mit 27B Parametern keine konsistente Verbesserung gegenüber Varianten mit 8B Parametern zeigen. Unsere Ergebnisse deuten darauf hin, dass aktuelle RLHF-Methoden hauptsächlich lernen, objektive Fehler zu erkennen, anstatt subjektive Qualitätspräferenzen (z. B. Kreativität, stilistische Ausdruckskraft und emotionale Resonanz) zu erfassen, und dass eine erfolgreiche Präferenzmodellierung möglicherweise Zwischenrepräsentationen für die Begründung erfordert, anstatt eine direkte Klassifikation.
Wir stellen AnyUp vor, eine Methode zur Feature-Upsampling, die auf beliebige visuelle Features in jeder Auflösung angewendet werden kann, ohne spezifisches Training für den Encoder. Bestehende lernbasierte Upsampling-Verfahren für Features wie DINO oder CLIP müssen für jeden Feature-Extraktor neu trainiert werden und generalisieren daher nicht auf verschiedene Feature-Typen zur Inferenzzeit. In dieser Arbeit schlagen wir eine zur Inferenzzeit feature-agnostische Upsampling-Architektur vor, um diese Einschränkung zu überwinden und die Upsampling-Qualität zu verbessern. In unseren Experimenten setzt AnyUp einen neuen Maßstab für upgesamplte Features, generalisiert auf verschiedene Feature-Typen und bewahrt die Feature-Semantik, während es effizient und einfach auf eine Vielzahl von Downstream-Aufgaben anwendbar ist.
Die Gestaltung komplexer Maschinen stellt sowohl ein Zeichen menschlicher Intelligenz als auch eine Grundlage der Ingenieurspraxis dar. Angesichts der jüngsten Fortschritte bei großen Sprachmodellen (LLMs) stellen wir die Frage, ob auch diese lernen können, zu erschaffen. Wir nähern uns dieser Frage aus der Perspektive des kompositionellen Maschinendesigns: einer Aufgabe, bei der Maschinen aus standardisierten Komponenten zusammengesetzt werden, um funktionale Anforderungen wie Fortbewegung oder Manipulation in einer simulierten physischen Umgebung zu erfüllen. Um diese Untersuchung zu unterstützen, führen wir BesiegeField ein, eine Testumgebung, die auf dem maschinenbasierten Spiel Besiege aufbaut und teilbasierte Konstruktion, physikalische Simulation und belohnungsgesteuerte Bewertung ermöglicht. Mit BesiegeField bewerten wir state-of-the-art LLMs mit agentenbasierten Workflows und identifizieren Schlüsselkompetenzen, die für den Erfolg erforderlich sind, darunter räumliches Denken, strategische Montage und Befolgung von Anweisungen. Da aktuelle Open-Source-Modelle nicht ausreichen, untersuchen wir Verstärkungslernen (RL) als Weg zur Verbesserung: Wir erstellen einen Cold-Start-Datensatz, führen RL-Finetuning-Experimente durch und beleuchten offene Herausforderungen an der Schnittstelle von Sprache, Maschinendesign und physikalischem Denken.
Verstärkungslernen mit verifizierbaren Belohnungen (RLVR) hat die Fähigkeiten großer Sprachmodelle (LLMs) zur logischen Schlussfolgerung weiterentwickelt. Allerdings zeigen vorherrschende RLVR-Methoden eine systematische Tendenz zur Ausnutzung gegenüber der Exploration, was sich in verbesserten pass@1-, aber reduzierten pass@K-Leistungen (K>1) widerspiegelt. Um dieses Problem zu verstehen, analysieren wir die Trainingsdynamik von RLVR-Methoden, indem wir die tokenbezogenen Wahrscheinlichkeitsverteilungen über die Vokabular-Kandidaten verfolgen. Unsere Analyse zeigt einen konsistenten Wahrscheinlichkeitskonzentrationseffekt, bei dem der Top-1-Kandidat zunehmend Wahrscheinlichkeitsmasse ansammelt und die anderer Kandidaten unterdrückt. Wichtiger ist, dass eine stärkere Überkonzentration mit einer schlechteren pass@K-Leistung korreliert. Inspiriert von dieser Erkenntnis schlagen wir Simple Pass@K Optimization (SimKO) vor, eine Methode, die darauf abzielt, das Überkonzentrationsproblem zu mildern und dadurch die Exploration zu fördern. SimKO arbeitet auf asymmetrische Weise. Für verifiziert korrekte Antworten erhöht es die Wahrscheinlichkeiten der Top-K-Kandidaten. Für verifiziert falsche Antworten wendet es stärkere Strafen auf den Top-1-Kandidaten an. Wir beobachten, dass dieses asymmetrische Design besonders effektiv ist, um Überkonzentration zu mildern, wenn es auf Tokens mit hoher Entropie angewendet wird. Über verschiedene mathematische und logische Schlussfolgerungs-Benchmarks hinweg erzielt SimKO durchweg höhere pass@K-Werte für eine breite Spanne von K, was eine einfache Möglichkeit bietet, die Exploration von RLVR zu verbessern.
Vision-Language-Action (VLA)-Modelle erleben eine rasante Entwicklung und zeigen vielversprechende Fähigkeiten in Aufgaben der robotergestützten Manipulation. Die Skalierung von VLA-Modellen birgt jedoch mehrere kritische Herausforderungen: (1) Das Training neuer VLA-Modelle von Grund auf erfordert erhebliche Rechenressourcen und umfangreiche Datensätze. Angesichts der derzeitigen Knappheit an Roboterdaten wird es besonders wertvoll, gut vortrainierte VLA-Modellgewichte während des Skalierungsprozesses vollständig zu nutzen. (2) Die Echtzeitsteuerung erfordert eine sorgfältige Abwägung zwischen Modellkapazität und Recheneffizienz. Um diese Herausforderungen zu bewältigen, schlagen wir AdaMoE vor, eine Mixture-of-Experts (MoE)-Architektur, die vortrainierte Gewichte aus dichten VLA-Modellen übernimmt und den Aktions-Experten skaliert, indem die Feedforward-Schichten durch spärlich aktivierte MoE-Schichten ersetzt werden. AdaMoE verwendet eine Entkopplungstechnik, die die Expertenauswahl von der Expertengewichtung durch einen unabhängigen Skalenadapter entkoppelt, der neben dem traditionellen Router arbeitet. Dies ermöglicht es, Experten basierend auf der Aufgabenrelevanz auszuwählen, während sie mit unabhängig gesteuerten Gewichten beitragen, was eine kollaborative Nutzung der Experten anstelle eines Winner-takes-all-Dynamik ermöglicht. Unser Ansatz zeigt, dass Expertise nicht monopolisiert werden muss. Stattdessen können wir durch die kollaborative Nutzung von Experten eine überlegene Leistung bei gleichzeitiger Aufrechterhaltung der Recheneffizienz erzielen. AdaMoE übertrifft das Basismodell konsequent in wichtigen Benchmarks und erzielt Leistungssteigerungen von 1,8 % bei LIBERO und 9,3 % bei RoboTwin. Am wichtigsten ist jedoch eine erhebliche Verbesserung von 21,5 % in realen Experimenten, die die praktische Wirksamkeit für robotergestützte Manipulationsaufgaben bestätigt.
Vision-Language-Action-Modelle (VLAs) bergen ein enormes Potenzial für die Ermöglichung allgemeiner Roboter-Manipulation. Die beste Methode zu ihrer Entwicklung bleibt jedoch eine offene Frage. Aktuelle Ansätze fügen oft Komplexität hinzu, wie beispielsweise die Modifikation des bestehenden Vokabulars eines Vision-Language-Modells (VLM) mit Aktions-Tokens oder die Einführung spezieller Aktions-Köpfe. Merkwürdigerweise ist die einfachste Strategie, Aktionen direkt als Text darzustellen, weitgehend unerforscht geblieben. Diese Arbeit stellt VLA-0 vor, um diese Idee zu untersuchen. Wir stellen fest, dass VLA-0 nicht nur effektiv ist, sondern überraschend leistungsstark. Mit dem richtigen Design übertrifft VLA-0 komplexere Modelle. Auf LIBERO, einem beliebten Benchmark zur Bewertung von VLAs, übertrifft VLA-0 alle bestehenden Methoden, die mit denselben Roboter-Daten trainiert wurden, einschließlich pi_0.5-KI, OpenVLA-OFT und SmolVLA. Darüber hinaus übertrifft es ohne groß angelegtes roboterspezifisches Training Methoden, die mit groß angelegten Roboter-Daten trainiert wurden, wie pi_0.5-KI, pi_0, GR00T-N1 und MolmoAct. Diese Ergebnisse übertragen sich auch auf die reale Welt, wo VLA-0 SmolVLA, ein VLA-Modell, das mit groß angelegten realen Daten vortrainiert wurde, übertrifft. Dieses Papier fasst unsere unerwarteten Erkenntnisse zusammen und erläutert die spezifischen Techniken, die erforderlich sind, um die hohe Leistung dieses einfachen, aber leistungsstarken VLA-Designs freizusetzen. Visuelle Ergebnisse, Code und trainierte Modelle sind hier verfügbar: https://vla0.github.io/.
Große Sprachmodelle (LLMs) haben ein zunehmendes Interesse an automatischen maschinellen Lernforschungssystemen geweckt. Besonders vielversprechend sind dabei Systeme, die in der Lage sind, eigenständig Ideen vorzuschlagen und maschinelle Lern-Experimente durchzuführen, da sie die Automatisierung der Forschung maximieren und den wissenschaftlichen Fortschritt durch iterative Verfeinerung von Ideen basierend auf experimentellen Ergebnissen beschleunigen. Die umfassende Bewertung solcher Systeme bleibt jedoch eine Herausforderung. Bestehende Benchmarks neigen dazu, technische Aspekte zu überbetonen, während sie akademische Strenge vernachlässigen, wodurch Hindernisse entstehen, die eine klare Bewertung der wissenschaftlichen Fähigkeiten eines Systems in der maschinellen Lernforschung erschweren. Zudem leiden sie unter begrenzter Aufgabenvielfalt, einer Überbetonung anwendungsorientierter Aufgaben gegenüber grundlegenden Forschungsproblemen und begrenzter Skalierbarkeit auf realistische Forschungsszenarien. Um diese Einschränkungen zu überwinden, stellen wir FML-bench vor, einen Benchmark, der entwickelt wurde, um automatische maschinelle Lernforschungssysteme anhand von 8 vielfältigen und grundlegenden maschinellen Lernforschungsproblemen zu bewerten. Er reduziert den Programmieraufwand, betont grundlegende Probleme anstatt spezifischer Anwendungsfälle, bietet eine hohe Aufgabenvielfalt und ist erweiterbar auf reale maschinelle Lern-GitHub-Repositories. Darüber hinaus präsentieren wir ein einheitliches Bewertungsframework mit fünf komplementären Metriken, das darauf abzielt, die Leistung der Systeme in unserem Benchmark umfassend zu bewerten. Wir evaluieren state-of-the-art automatische Forschungssysteme auf FML-bench und stellen fest, dass Systeme, die breite Forschungsexplorationsstrategien verwenden, jene übertreffen, die sich auf eng gefasste, aber tiefgehende Exploration konzentrieren. Diese Ergebnisse deuten darauf hin, dass die Betonung der Breite der Exploration zu effektiveren Forschungsergebnissen führen kann als die alleinige Konzentration auf inkrementelle Verfeinerung. Unser Benchmark ist verfügbar unter https://github.com/qrzou/FML-bench.
Wenige-Schritt-Diffusions- oder flussbasierte generative Modelle destillieren typischerweise einen geschwindigkeitsvorhersagenden Lehrer in einen Schüler, der einen direkten Weg zu entrauschten Daten vorhersagt. Diese Formatinkongruenz hat zu komplexen Destillationsverfahren geführt, die oft unter einem Qualitäts-Diversitäts-Kompromiss leiden. Um dies zu beheben, schlagen wir policy-basierte Flussmodelle (pi-Flow) vor. Pi-Flow modifiziert die Ausgabeschicht eines Schüler-Flussmodells, um eine netzwerkfreie Policy in einem Zeitschritt vorherzusagen. Die Policy erzeugt dann dynamische Flussgeschwindigkeiten in zukünftigen Teilschritten mit vernachlässigbarem Overhead, was eine schnelle und präzise ODE-Integration auf diesen Teilschritten ohne zusätzliche Netzwerkauswertungen ermöglicht. Um die ODE-Trajektorie der Policy an die des Lehrers anzupassen, führen wir einen neuartigen Imitations-Destillationsansatz ein, der die Geschwindigkeit der Policy entlang ihrer Trajektorie an die des Lehrers anpasst, indem ein standardmäßiger ell_2-Fluss-Anpassungsverlust verwendet wird. Durch einfaches Nachahmen des Verhaltens des Lehrers ermöglicht pi-Flow ein stabiles und skalierbares Training und vermeidet den Qualitäts-Diversitäts-Kompromiss. Auf ImageNet 256^2 erreicht es einen 1-NFE-FID von 2,85 und übertrifft damit MeanFlow derselben DiT-Architektur. Auf FLUX.1-12B und Qwen-Image-20B bei 4 NFEs erzielt pi-Flow eine deutlich bessere Diversität als state-of-the-art Wenige-Schritt-Methoden, bei gleichbleibender Lehrer-Qualität.
Mehrstufiges Denken hat sich als effektive Strategie erwiesen, um die Denkfähigkeit kleiner Sprachmodelle zu verbessern, indem komplexe Probleme in sequenzielle Teilphasen zerlegt werden. Dies geht jedoch mit erhöhter Latenz einher. Wir beobachten, dass bestehende adaptive Beschleunigungstechniken wie das Überspringen von Schichten Schwierigkeiten haben, in diesem Kontext Effizienz und Genauigkeit auszugleichen, und zwar aufgrund von zwei zentralen Herausforderungen: (1) phasenweise Variation in der Empfindlichkeit des Überspringens und (2) die Erzeugung redundanter Ausgabetokens. Um diese Probleme zu adressieren, schlagen wir LiteStage vor, ein latenzbewusstes Framework zum Überspringen von Schichten für mehrstufiges Denken. LiteStage kombiniert eine phasenweise Offline-Suche, die optimale Schichtbudgets zuweist, mit einem Online-Frühausstieg basierend auf Konfidenz, um unnötige Dekodierung zu unterdrücken. Experimente auf drei Benchmarks, z. B. OBQA, CSQA und StrategyQA, zeigen, dass LiteStage eine Beschleunigung von bis zu 1,70x mit einem Genauigkeitsverlust von weniger als 4,0 % erreicht und damit bisherige trainingsfreie Methoden zum Überspringen von Schichten übertrifft.
Der rasche Fortschritt großer, vortrainierter Modelle sowohl für die Erzeugung visueller Inhalte als auch für die 3D-Rekonstruktion eröffnet neue Möglichkeiten für die Text-zu-3D-Generierung. Intuitiv könnte man einen beeindruckenden 3D-Szenengenerator erhalten, wenn man die Leistungsfähigkeit eines modernen latenten Text-zu-Video-Modells als „Generator“ mit den geometrischen Fähigkeiten eines aktuellen (feedforward) 3D-Rekonstruktionssystems als „Decoder“ kombinieren könnte. Wir stellen VIST3A vor, ein allgemeines Framework, das genau dies umsetzt und dabei zwei Hauptherausforderungen adressiert. Erstens müssen die beiden Komponenten so verbunden werden, dass das umfangreiche Wissen, das in ihren Gewichten kodiert ist, erhalten bleibt. Wir greifen das Konzept des Modellvernähens auf, d.h., wir identifizieren die Schicht im 3D-Decoder, die am besten zur latenten Repräsentation passt, die vom Text-zu-Video-Generator erzeugt wird, und verbinden die beiden Teile miteinander. Dieser Vorgang erfordert nur einen kleinen Datensatz und keine Labels. Zweitens muss der Text-zu-Video-Generator mit dem vernähten 3D-Decoder abgestimmt werden, um sicherzustellen, dass die erzeugten latenten Repräsentationen in konsistente, wahrnehmungsüberzeugende 3D-Szenengeometrien dekodiert werden können. Zu diesem Zweck passen wir das direkte Belohnungs-Finetuning an, eine beliebte Technik zur Ausrichtung auf menschliche Präferenzen. Wir evaluieren den vorgeschlagenen VIST3A-Ansatz mit verschiedenen Video-Generatoren und 3D-Rekonstruktionsmodellen. Alle getesteten Kombinationen zeigen eine deutliche Verbesserung gegenüber früheren Text-zu-3D-Modellen, die Gaußsche Splats ausgeben. Darüber hinaus ermöglicht VIST3A durch die Wahl eines geeigneten 3D-Basismodells auch die hochwertige Generierung von Text-zu-Punktkarten.
Aktuelle Bildbearbeitungsmodelle haben beeindruckende Ergebnisse erzielt, indem sie natürliche Sprachbearbeitungsanweisungen befolgen, doch sie stützen sich auf überwachtes Feinabstimmen mit großen Datensätzen von Eingabe-Ziel-Paaren. Dies stellt einen kritischen Engpass dar, da solche natürlich vorkommenden Paare nur schwer in großem Maßstab kuratiert werden können. Aktuelle Lösungsansätze verwenden synthetische Trainingspaare, die die Zero-Shot-Fähigkeiten bestehender Modelle nutzen. Dies kann jedoch die Artefakte des vortrainierten Modells in das final trainierte Modell übertragen und verstärken. In dieser Arbeit präsentieren wir ein neues Trainingsparadigma, das den Bedarf an gepaarten Daten vollständig eliminiert. Unser Ansatz optimiert direkt ein Diffusionsmodell mit wenigen Schritten, indem es während des Trainings entfaltet wird und Feedback von Vision-Language-Modellen (VLMs) nutzt. Für jede Eingabe und Bearbeitungsanweisung bewertet das VLM, ob eine Bearbeitung der Anweisung folgt und unveränderte Inhalte bewahrt, wodurch direkte Gradienten für die End-to-End-Optimierung bereitgestellt werden. Um visuelle Treue zu gewährleisten, integrieren wir einen Distribution Matching Loss (DMD), der generierte Bilder innerhalb des von vortrainierten Modellen erlernten Bildmanifolds hält. Wir evaluieren unsere Methode anhand standardisierter Benchmarks und führen eine umfangreiche Ablationsstudie durch. Ohne gepaarte Daten erreicht unsere Methode vergleichbare Ergebnisse wie verschiedene Bildbearbeitungs-Diffusionsmodelle, die mit umfangreichen überwachten gepaarten Daten trainiert wurden, im Rahmen der Few-Step-Einstellung. Bei Verwendung desselben VLM als Belohnungsmodell übertreffen wir auch RL-basierte Techniken wie Flow-GRPO.
Video-Generative Modelle haben in jüngster Zeit bemerkenswerte Fortschritte in der Synthesequalität erzielt. Dennoch bleibt die Erzeugung komplexer Bewegungen eine kritische Herausforderung, da bestehende Modelle oft Schwierigkeiten haben, natürliche, flüssige und kontextuell konsistente Bewegungen zu erzeugen. Diese Diskrepanz zwischen generierten und realen Bewegungen schränkt ihre praktische Anwendbarkeit ein. Um dieses Problem zu lösen, stellen wir RealDPO vor, ein neuartiges Ausrichtungsparadigma, das reale Daten als positive Beispiele für das Präferenzlernen nutzt und so eine präzisere Bewegungssynthese ermöglicht. Im Gegensatz zum traditionellen überwachten Feinabstimmen (SFT), das nur begrenztes korrigierendes Feedback bietet, verwendet RealDPO Direct Preference Optimization (DPO) mit einer maßgeschneiderten Verlustfunktion, um die Realitätsnähe von Bewegungen zu verbessern. Durch den Vergleich von realen Videos mit fehlerhaften Modellausgaben ermöglicht RealDPO eine iterative Selbstkorrektur, die die Bewegungsqualität schrittweise verfeinert. Um das Nachtraining in der komplexen Bewegungssynthese zu unterstützen, schlagen wir RealAction-5K vor, einen kuratierten Datensatz hochwertiger Videos, die menschliche Alltagsaktivitäten mit reichhaltigen und präzisen Bewegungsdetails erfassen. Umfangreiche Experimente zeigen, dass RealDPO die Videoqualität, die Textausrichtung und die Realitätsnähe von Bewegungen im Vergleich zu modernsten Modellen und bestehenden Präferenzoptimierungstechniken erheblich verbessert.
Die Entwicklung großer Sprachmodelle basiert auf umfangreichen Trainingskorpora, doch die meisten enthalten Daten mit unklarem Lizenzstatus, was die Entwicklung wirklich offener Modelle einschränkt. Dieses Problem verschärft sich für nicht-englische Sprachen, da offen lizenzierte Texte dort nach wie vor äußerst knapp sind. Wir stellen das German Commons vor, die bisher größte Sammlung offen lizenzierter deutscher Texte. Es vereint Daten aus 41 Quellen aus sieben Domänen, darunter rechtliche, wissenschaftliche, kulturelle, politische, Nachrichten-, wirtschaftliche und Web-Texte. Durch systematische Beschaffung von etablierten Datenanbietern mit überprüfbaren Lizenzen ergibt sich ein Korpus von 154,56 Milliarden Token hochwertiger Texte für das Training von Sprachmodellen. Unsere Verarbeitungspipeline implementiert umfassende Qualitätsfilterung, Deduplizierung und Korrekturen der Textformatierung, um eine konsistente Qualität über heterogene Textquellen hinweg sicherzustellen. Alle Domänenuntergruppen verfügen über Lizenzen von mindestens CC-BY-SA 4.0 oder gleichwertig, was die rechtliche Konformität für das Modelltraining und die Weiterverbreitung gewährleistet. Das German Commons schließt somit die kritische Lücke bei offen lizenzierten deutschen Vortrainingsdaten und ermöglicht die Entwicklung wirklich offener deutscher Sprachmodelle. Wir veröffentlichen zudem Code für die Korpuskonstruktion und Datenfilterung, der speziell auf deutsche Texte zugeschnitten ist, wodurch das German Commons vollständig reproduzierbar und erweiterbar wird.
Sprachmodelle mit rekurrenter Tiefe, auch als universell oder geschlossen bezeichnet, wenn Transformers betrachtet werden, sind durch die Fähigkeit definiert, ihre Berechnung durch die Wiederholung von Schichten zu erhöhen. Jüngste Fortschritte im Pre-Training haben gezeigt, dass diese Architekturen für moderne Sprachmodellierungsaufgaben skaliert werden können und dabei Vorteile bei Aufgaben zur logischen Schlussfolgerung aufweisen. In dieser Arbeit untersuchen wir die Beziehung zwischen Modellen mit rekurrenter Tiefe und Diffusions-Sprachmodellen. Aufbauend auf ihren Gemeinsamkeiten entwickeln wir einen neuen Diffusions-Forcing-Sampler für diese Modelle, um die Generierung zu beschleunigen. Der Sampler schreitet fort, indem er bei jedem Vorwärtsdurchlauf des Modells neue Tokens dekodiert, während die latenten Zustände dieser Tokens parallel durch Rekurrenz weiter verfeinert werden können. Theoretisch ist die Generierung mit unserem Sampler streng ausdrucksstärker als die Baseline-autoregressive Generierung unter Verwendung des gleichen Zeitbudgets auf moderner Hardware. Darüber hinaus kann dieser Sampler, der auf Prinzipien aus der Diffusionsliteratur basiert, direkt auf bestehende 3,5B rekurrente Tiefen-Transformers angewendet werden, ohne dass eine Anpassung erforderlich ist, was zu einer bis zu 5-fachen Beschleunigung führt. Folglich bieten unsere Ergebnisse nicht nur einen effizienten Mechanismus zur Parallelisierung der zusätzlichen Berechnung in Modellen mit rekurrenter Tiefe während der Inferenz, sondern legen auch nahe, dass solche Modelle natürlich als starke kontinuierliche, wenn auch kausale, Diffusions-Sprachmodelle betrachtet werden können.
Systematische, kompositionelle Generalisierung über die Trainingsverteilung hinaus bleibt eine zentrale Herausforderung im maschinellen Lernen – und ein kritischer Engpass für die emergenten Schlussfolgerungsfähigkeiten moderner Sprachmodelle. Diese Arbeit untersucht die Out-of-Distribution (OOD)-Generalisation in Transformer-Netzwerken mithilfe einer GSM8K-artigen modularen Arithmetik auf Rechengraphen als Testumgebung. Wir führen und erforschen eine Reihe von vier architektonischen Mechanismen, die darauf abzielen, die OOD-Generalisation zu verbessern: (i) eingabeadaptive Rekurrenz; (ii) algorithmische Supervision; (iii) verankerte latente Repräsentationen durch einen diskreten Engpass; und (iv) einen expliziten Fehlerkorrekturmechanismus. Zusammengenommen ergeben diese Mechanismen einen architektonischen Ansatz für natives und skalierbares latentes Raum-Schlussfolgern in Transformer-Netzwerken mit robusten algorithmischen Generalisationsfähigkeiten. Wir ergänzen diese empirischen Ergebnisse durch eine detaillierte mechanistische Interpretationsanalyse, die aufzeigt, wie diese Mechanismen robuste OOD-Generalisation ermöglichen.
Digitale Agenten benötigen vielfältige, groß angelegte UI-Trajektorien, um sich auf reale Aufgaben zu verallgemeinern. Die Erfassung solcher Daten ist jedoch sowohl aus der Perspektive menschlicher Annotation, Infrastruktur als auch Ingenieurwesen unverhältnismäßig teuer. Zu diesem Zweck führen wir UI-Simulator ein, ein skalierbares Paradigma, das strukturierte UI-Zustände und Übergänge generiert, um Trainings-Trajektorien in großem Maßstab zu synthetisieren. Unser Paradigma integriert einen digitalen Weltsimulator für vielfältige UI-Zustände, einen geführten Rollout-Prozess für kohärente Exploration und einen Trajektorien-Wrapper, der hochwertige und diverse Trajektorien für das Agententraining erzeugt. Wir schlagen weiterhin UI-Simulator-Grow vor, eine gezielte Skalierungsstrategie, die eine schnellere und dateneffizientere Skalierung ermöglicht, indem sie hochwirksame Aufgaben priorisiert und informative Trajektorienvarianten synthetisiert. Experimente auf WebArena und AndroidWorld zeigen, dass UI-Simulator Open-Source-Agenten, die auf realen UIs trainiert wurden, übertrifft oder ihnen ebenbürtig ist, mit deutlich besserer Robustheit, obwohl schwächere Lehrermodelle verwendet werden. Darüber hinaus erreicht UI-Simulator-Grow die Leistung von Llama-3-70B-Instruct, wobei nur Llama-3-8B-Instruct als Basismodell verwendet wird, was das Potenzial des gezielten Synthese-Skalierungsparadigmas zur kontinuierlichen und effizienten Verbesserung digitaler Agenten hervorhebt.
Kontaktsprachen wie Englisch weisen reiche regionale Variationen in Form von Dialekten auf, die häufig von Dialektsprechern verwendet werden, die mit generativen Modellen interagieren. Allerdings können multimodale generative Modelle effektiv Inhalte erzeugen, wenn sie dialektale Textinputs erhalten? In dieser Arbeit untersuchen wir diese Frage, indem wir einen neuen groß angelegten Benchmark erstellen, der sechs gängige englische Dialekte umfasst. Wir arbeiten mit Dialektsprechern zusammen, um über 4200 einzigartige Prompts zu sammeln und zu verifizieren, und evaluieren 17 Bild- und Video-generierende Modelle. Unsere automatischen und menschlichen Evaluationsergebnisse zeigen, dass aktuelle state-of-the-art multimodale generative Modelle eine Leistungsverschlechterung von 32,26 % bis 48,17 % aufweisen, wenn ein einzelnes Dialektwort im Prompt verwendet wird. Gängige Gegenmaßnahmen wie Fine-Tuning und Prompt-Rewriting können die Dialektleistung nur in geringem Maße verbessern (< 7 %), während sie potenziell eine signifikante Leistungsverschlechterung im Standard American English (SAE) verursachen. Zu diesem Zweck entwerfen wir eine allgemeine, encoderbasierte Gegenstrategie für multimodale generative Modelle. Unsere Methode bringt dem Modell bei, neue Dialektmerkmale zu erkennen, während die SAE-Leistung erhalten bleibt. Experimente mit Modellen wie Stable Diffusion 1.5 zeigen, dass unsere Methode in der Lage ist, die Leistung bei fünf Dialekten gleichzeitig auf das Niveau von SAE zu steigern (+34,4 %), während die SAE-Leistung nahezu unverändert bleibt.
Repository-Level-Pretraining wird häufig eingesetzt, um großen Sprachmodellen für Code die Nutzung von kontextuellen Informationen auf Codebasis-Ebene zu ermöglichen. Dies verbessert ihre Fähigkeit, präzise und kontextbewusste Code-Vervollständigungen zu generieren. In dieser Arbeit untersuchen wir, wie verschiedene Repository-Verarbeitungsstrategien das In-Context-Lernen in OpenCoder, einem Modell mit 1,5 Milliarden Parametern, beeinflussen. Wir erweitern dessen Kontextfenster von 4.096 auf 16.384 Tokens, indem wir es mit zusätzlichen 1 Milliarden Tokens kuratierter Repository-Level-Daten trainieren. Obwohl unser Modell auf einem kleineren Datensatz basiert als konkurrierende Modelle (die oft Hunderte von Milliarden Tokens verwenden), erzielt es vergleichbare Leistungen im Long-Code-Arena-Benchmark. Wir stellen fest, dass verschiedene Repository-Verarbeitungstechniken ähnlich starke Ergebnisse liefern, wobei der primäre Gewinn aus der Anpassung an einen neuen Skalierungsparameter für rotatorische Positionsembedding (RoPE) resultiert. Schließlich zeigen wir, dass ein einfacherer Ansatz auf Dateiebene bei der ursprünglichen Sequenzlänge weiterhin hochwirksam ist, wodurch die Forschung zu Code-Vervollständigung auf Repository-Ebene auch in Umgebungen mit begrenzten Daten- und Rechenressourcen ermöglicht wird.
Test-Time-Skalierung ist eine leistungsstarke Strategie zur Steigerung der Leistung großer Sprachmodelle bei komplexen Denkaufgaben. Während state-of-the-art-Ansätze oft generative Verifizierer verwenden, um die beste Lösung aus einem Pool von Kandidaten auszuwählen, verursacht diese Methode prohibitive Rechenkosten, was ihre Praktikabilität einschränkt. In dieser Arbeit verlagern wir den Fokus auf ein budgetbewussteres Paradigma: die diskriminative Verifikation. Wir führen eine umfassende empirische Analyse durch und zeigen, dass diskriminative Verifizierer zwar isoliert betrachtet unterlegen sein können, ihre Kombination mit Selbstkonsistenz in einem hybriden Ansatz jedoch einen leistungsstarken und effizienten Mechanismus für die Test-Time-Skalierung schafft. Bemerkenswerterweise übertrifft dieser hybride Ansatz unter einem festen Rechenbudget die state-of-the-art generative Verifikation deutlich: Er erreicht bis zu 15,3 % höhere Genauigkeit auf AIME2025. Unsere Ergebnisse zeigen, dass für praktische, reale Anwendungen die budgetbewusste Skalierung mit diskriminativen Verifizierern nicht nur eine „kostenlose“ Verbesserung gegenüber der Selbstkonsistenz darstellt, sondern auch eine effektivere und effizientere Alternative zu kostspieligen generativen Techniken ist. Der Code ist verfügbar unter https://github.com/wang-research-lab/verification.
Nahbereichs-Posen menschlicher Interaktionen vermitteln umfangreiche kontextuelle Informationen über die Dynamik der Interaktion. Anhand solcher Posen können Menschen intuitiv den Kontext erschließen und mögliche vergangene und zukünftige Dynamiken antizipieren, indem sie auf starke Vorannahmen über menschliches Verhalten zurückgreifen. Inspiriert von dieser Beobachtung schlagen wir Ponimator vor, ein einfaches Framework, das auf proximalen interaktiven Posen basiert und vielseitige Interaktionsanimationen ermöglicht. Unsere Trainingsdaten bestehen aus Nahkontakt-Posen zweier Personen und ihrem zeitlichen Kontext aus Motion-Capture-Interaktionsdatensätzen. Unter Nutzung von Vorannahmen über interaktive Posen setzt Ponimator zwei bedingte Diffusionsmodelle ein: (1) einen Posenerzeuger, der das zeitliche Vorwissen nutzt, um dynamische Bewegungssequenzen aus interaktiven Posen zu generieren, und (2) einen Posengenerator, der das räumliche Vorwissen anwendet, um interaktive Posen aus einer einzelnen Pose, Text oder beidem zu synthetisieren, wenn interaktive Posen nicht verfügbar sind. Insgesamt unterstützt Ponimator diverse Aufgaben, darunter bildbasierte Interaktionsanimation, Reaktionsanimation und Text-zu-Interaktions-Synthese, und erleichtert so die Übertragung von Interaktionswissen aus hochwertigen Motion-Capture-Daten auf offene Szenarien. Empirische Experimente über verschiedene Datensätze und Anwendungen hinweg demonstrieren die Universalität des Pose-Vorwissens sowie die Effektivität und Robustheit unseres Frameworks.
Skalierungsgesetze haben unser Verständnis von großen Sprachmodellen revolutioniert, indem sie Upstream-Metriken wie den Kreuzentropieverlust mit Gestaltungsfaktoren wie Modellgröße, Trainingsdaten und Rechenleistung verknüpfen. Diese herkömmlichen Gesetze erfassen jedoch nicht die Leistung bei Downstream-Aufgaben, bei denen der Kontext eine entscheidende Rolle spielt. In dieser Arbeit schlagen wir ein einfaches, interpretierbares Framework vor, das die Downstream-Leistung gemeinsam als Funktion der Trainingsrechenleistung und des bereitgestellten Kontexts modelliert. Wir validieren unser Framework empirisch, indem wir es auf die beobachtete Downstream-Leistung von erweiterten Kontextvarianten von Llama-2-7B und Llama-2-13B über 65.500 einzigartige Instanzen hinweg anpassen, die drei Aufgaben umfassen: arithmetisches Denken, gesunder Menschenverstand und maschinelle Übersetzung. Unsere Ergebnisse zeigen, dass unser Framework die In-Distribution-Downstream-Leistung genau modelliert, über drei Größenordnungen der Trainingsrechenleistung hinweg generalisiert und die Leistung zuverlässig extrapoliert, wenn die Menge des Kontexts zunimmt. Diese Erkenntnisse bieten wertvolle Einblicke in das Zusammenspiel zwischen Trainingsrechenleistung und Kontextnutzung und liefern Leitlinien für die Gestaltung effizienterer Langkontext-LLMs für verschiedene Downstream-Aufgaben. Unser Code ist unter https://github.com/wang-research-lab/context-scaling verfügbar.
Web-basierte „Deep Research“-Agenten zielen darauf ab, komplexe Frage-Antwort-Aufgaben durch langfristige Interaktionen mit Online-Tools zu lösen. Diese Aufgaben bleiben herausfordernd, da die zugrunde liegenden Sprachmodelle oft nicht für langfristiges Denken und Exploration optimiert sind. Frühere Arbeiten haben Workflows für die Erstellung von Instruktions-Tuning-Datensätzen vorgeschlagen, die häufig Wissensgraphen nutzen. Solche Methoden bieten jedoch typischerweise keine feinkörnige Kontrolle über Schwierigkeitsgrad und Qualität, was zu synthetischen Daten führt, die die für langfristiges Denken erforderliche Komplexität nicht erfassen. Darüber hinaus vermischen viele Studien Daten- und Trainingseffekte, indem sie Modelle vergleichen, die unter verschiedenen Optimierungsrezepten trainiert wurden, was es schwierig macht, die Wirksamkeit der Daten selbst zu isolieren und zu bewerten. Wir stellen eine zweigleisige Daten-Synthese-Pipeline vor, die Frage-Antwort-Paare erzeugt, indem die Aufgabenkomplexität schrittweise erhöht wird, bis ein Baseline-Web-Agent scheitert. Der Baseline-Agent übernimmt in diesem Prozess mehrere Rollen: Er versucht, die Fragen zu beantworten, überprüft die Fakten, sucht nach alternativen Antworten und sorgt für Filterung. Um die Wirksamkeit unserer Synthesemethoden zu bewerten, verwenden wir ein kontrolliertes Trainingssetup, das auf der Destillation von starken Web-Agenten basiert. Experimente über mehrere webbasierte Benchmarks zeigen, dass unser Datensatz – trotz seiner geringeren Größe – das Training effektiverer Web-Agenten ermöglicht als bestehende Datensätze. Insbesondere weist unsere Daten eine doppelt so hohe Vielfalt bei der Nutzung von Tools auf, was es Modellen, die darauf trainiert werden, ermöglicht, eine stärkere Leistung zu erzielen, während wiederholte Tool-Aufrufe vermieden werden.
Das traditionelle RAG-Paradigma, das typischerweise das Verständnis relevanter Textabschnitte als Reaktion auf empfangene Anfragen einbezieht, beschränkt sowohl die Tiefe der Wissensverinnerlichung als auch die Fähigkeiten zur logischen Schlussfolgerung. Um diese Einschränkung zu überwinden, transformiert unsere Forschung die Textverarbeitung in RAG von passiver Segmentierung zu aktivem Verständnis und definiert diesen Prozess als Extraktion von Dokumentgedächtnis mit dem Ziel, menschliche kognitive Prozesse während des Lesens zu simulieren. Darauf aufbauend schlagen wir das Framework „Mixtures of scenario-aware document Memories“ (MoM) vor, das entwickelt wurde, um Dokumente aus mehreren Domänen effizient zu verarbeiten und kleine Sprachmodelle (SLMs) so zu trainieren, dass sie die Fähigkeit erwerben, Dokumentgedächtnisse aktiv zu erkunden und zu konstruieren. Das MoM-Framework weist zunächst große Sprachmodelle (LLMs) an, Domänenexperten bei der Erstellung logischer Dokumentgliederungen zu simulieren, wodurch eine strukturierte Segmentierung und Extraktion von Kerninhalten geleitet wird. Es verwendet einen Mehrpfad-Sampling- und Multiperspektiven-Bewertungsmechanismus, der speziell umfassende Metriken entwirft, die die Klarheit der Abschnitte und die Vollständigkeit der Extraktion repräsentieren, um die optimalen Dokumentgedächtnisse auszuwählen. Zusätzlich integrieren wir eine umgekehrte Schlussfolgerungsstrategie, um während des Trainings von SLMs tiefere, menschenähnliche Lesefähigkeiten zu fördern, die verfeinerte Experten-Denkpfade aus hochwertigen Ergebnissen ableitet. Schließlich entwickeln wir unter Nutzung der vielfältigen Inhalte, die von MoM generiert werden, einen dreischichtigen Dokumentgedächtnis-Retrieval-Mechanismus, der auf unserem theoretischen Beweis aus der Perspektive der probabilistischen Modellierung basiert. Umfangreiche experimentelle Ergebnisse in drei verschiedenen Domänen zeigen, dass das MoM-Framework nicht nur die Herausforderungen der Textsegmentierung in bestehenden RAG-Systemen löst und LLMs mit semantisch vollständigen Dokumentgedächtnissen versorgt, sondern auch den Weg für SLMs ebnet, um menschenzentrierte intelligente Textverarbeitung zu erreichen.
Die persistente Modellierung dynamischer Szenen für Tracking und die Synthese neuer Ansichten bleibt aufgrund der Schwierigkeit, präzise Deformationen zu erfassen und gleichzeitig die Recheneffizienz zu gewährleisten, eine Herausforderung. Wir schlagen SCas4D vor, ein kaskadiertes Optimierungsframework, das strukturelle Muster im 3D-Gaussian-Splatting für dynamische Szenen nutzt. Die zentrale Idee besteht darin, dass Deformationen in der realen Welt oft hierarchische Muster aufweisen, bei denen Gruppen von Gauss-Transformationen ähnliche Transformationen teilen. Durch die schrittweise Verfeinerung der Deformationen von groben Teilbereichs- zu feinen Punktniveaus erreicht SCas4D eine Konvergenz innerhalb von 100 Iterationen pro Zeitschritt und erzielt Ergebnisse, die mit bestehenden Methoden vergleichbar sind, jedoch mit nur einem Zwanzigstel der Trainingsiterationen. Der Ansatz zeigt auch Wirksamkeit bei der selbstüberwachten Segmentierung artikulierter Objekte, der Synthese neuer Ansichten und der dichten Punktverfolgung.
Große Sprachmodelle (LLMs) werden zunehmend als Rollenspielagenten eingesetzt, doch ihre Fähigkeit, versionsspezifische Charaktere treu und konsistent darzustellen – beispielsweise Superhelden aus Comic- und Filmuniversen – bleibt weitgehend unerforscht. Superheldenkanons wie Marvel und DC bieten einen reichhaltigen Prüfstand: Jahrzehnte des Geschichtenerzählens haben mehrere Inkarnationen desselben Charakters mit unterschiedlichen Hintergründen, Werten und moralischen Kodizes hervorgebracht. Um dieses Problem zu untersuchen, führen wir Beyond One World ein, einen Benchmark für charakterbasiertes Rollenspiel, der 30 ikonische Helden und 90 kanonspezifische Versionen umfasst. Der Benchmark besteht aus zwei Aufgaben: (i) Canon Events, die das faktische Erinnern entscheidender Lebensphasen abfragt, und (ii) Moral Dilemmas, die Modelle mit ethisch aufgeladenen Szenarien konfrontiert. Wir bewerten die Antworten hinsichtlich kanonischer Genauigkeit und argumentativer Treue unter einem Rahmen, der interne Überlegungen („Denken“) von äußeren Entscheidungen („Handeln“) trennt. Weiterhin schlagen wir Think-Act Matching vor, eine Metrik, die die Übereinstimmung zwischen Gründen und Handlungen quantifiziert und als Indikator für die Vertrauenswürdigkeit des Modells dient. Experimente mit argumentationsorientierten und nicht-argumentationsorientierten Modellen ergeben drei Erkenntnisse: (1) Chain-of-Thought-Prompting verbessert die narrative Kohärenz bei schwächeren Modellen, kann jedoch die kanonische Genauigkeit bei stärkeren Modellen verringern; (2) die versionsübergreifende Generalisierung innerhalb eines Charakters bleibt eine große Herausforderung; und (3) Modelle glänzen oft entweder beim Denken oder beim Handeln, aber selten bei beidem. Beyond One World deckt kritische Lücken in der multiversalen Konsistenz und argumentativen Ausrichtung auf und bietet eine anspruchsvolle Bewertung für rollenspielende LLMs.
Die Fähigkeit von Sprachmodellen in RAG-Systemen, selektiv die Beantwortung von Fragen basierend auf fehlerhaftem Kontext zu verweigern, ist entscheidend für die Sicherheit, bleibt jedoch ein erheblicher Schwachpunkt. Unsere groß angelegte Studie zeigt, dass selbst führende Modelle in diesem Kontext Schwierigkeiten haben, wobei die Genauigkeit der Verweigerung bei Aufgaben mit mehreren Dokumenten unter 50 % sinkt, während sie entweder gefährliche Überzuversicht oder übermäßige Vorsicht zeigen. Statische Benchmarks sind nicht zuverlässig in der Bewertung dieser Fähigkeit, da Modelle datensatzspezifische Artefakte ausnutzen und Testinstanzen auswendig lernen. Wir stellen RefusalBench vor, eine generative Methodik, die programmatisch diagnostische Testfälle durch kontrollierte linguistische Störungen erzeugt. Unser Framework verwendet 176 verschiedene Störungsstrategien über sechs Kategorien von Informationsunsicherheit und drei Intensitätsstufen hinweg. Die Bewertung von über 30 Modellen deckt systematische Fehlermuster auf: Die Verweigerung umfasst trennbare Fähigkeiten der Erkennung und Kategorisierung, weder Skalierung noch erweitertes Schlussfolgern verbessern die Leistung. Wir stellen fest, dass selektive Verweigerung eine trainierbare, ausrichtungsempfindliche Fähigkeit ist, die einen klaren Weg zur Verbesserung bietet. Wir veröffentlichen zwei Benchmarks – RefusalBench-NQ (einzelnes Dokument) und RefusalBench-GaRAGe (mehrere Dokumente) – sowie unser vollständiges Generierungsframework, um eine kontinuierliche, dynamische Bewertung dieser kritischen Fähigkeit zu ermöglichen.
Retrieval-Augmented Generation (RAG) mildert wesentliche Einschränkungen von Large Language Models (LLMs) – wie faktische Fehler, veraltetes Wissen und Halluzinationen – durch die dynamische Einbindung externer Informationen. Aktuelle Arbeiten erweitern dieses Paradigma durch agentenbasierte RAG-Systeme, bei denen LLMs als Agenten fungieren, um komplexe Anfragen iterativ zu planen, Informationen abzurufen und darüber zu schlussfolgern. Dennoch haben diese Systeme weiterhin Schwierigkeiten mit anspruchsvollen Multi-Hop-Fragen, und ihre Fähigkeiten zur Zwischenabläufigen Argumentation bleiben unzureichend erforscht. Um dies zu adressieren, schlagen wir RAGCap-Bench vor, ein fähigkeitsorientiertes Benchmark für die detaillierte Bewertung von Zwischenaufgaben in agentenbasierten RAG-Workflows. Wir analysieren die Ausgaben modernster Systeme, um häufige Aufgaben und die Kernfähigkeiten zu identifizieren, die für deren Ausführung erforderlich sind, und entwickeln anschließend eine Taxonomie typischer LLM-Fehler, um gezielte Evaluationsfragen zu entwerfen. Experimente zeigen, dass „langsam denkende“ Modelle mit stärkerer RAGCap-Leistung bessere End-to-End-Ergebnisse erzielen, was die Validität des Benchmarks und die Bedeutung der Verbesserung dieser Zwischenfähigkeiten unterstreicht.
Prozess-Belohnungsmodelle (PRMs) zielen darauf ab, das mehrstufige Denken in großen Sprachmodellen (LLMs) zu verbessern, indem sie Zwischenschritte überwachen und Fehler identifizieren. Der Aufbau effektiver PRMs bleibt jedoch aufgrund des Mangels an skalierbaren, hochwertigen Annotationen eine Herausforderung. Bestehende Ansätze stützen sich auf kostspielige menschliche Beschriftung, LLM-basierte Selbstevaluation, die zu Halluzinationen neigt, oder Monte-Carlo (MC)-Schätzung, die die Qualität von Schritten ausschließlich aus den Ergebnissen von Rollouts ableitet und oft verrauschte, fehlausgerichtete Überwachung aufgrund von Fehlzuschreibungen von Verdiensten einführt. Diese Probleme führen zu drei zentralen Einschränkungen: verrauschte Belohnungen, geringe faktische Treue und Fehlausrichtung mit den Zielen der schrittweisen Argumentation. Um diese Herausforderungen zu bewältigen, stellen wir GroundedPRM vor, ein baumgeführtes und treuebewusstes Framework für automatische Prozessüberwachung. Um das Belohnungsrauschen zu reduzieren und eine fein abgestufte Zuweisung von Verdiensten zu ermöglichen, konstruieren wir strukturierte Argumentationspfade mittels Monte-Carlo-Baumsuche (MCTS). Um halluzinierte Überwachung zu eliminieren, validieren wir jeden Zwischenschritt mithilfe eines externen Tools, das ausführungsbasierte Korrektheitssignale liefert. Um sowohl schrittweise Validierung als auch globale Ergebnisbewertung zu kombinieren, entwerfen wir einen hybriden Belohnungsaggregationsmechanismus, der toolbasierte Verifizierung mit MCTS-abgeleitetem Feedback verschmilzt. Schließlich formatieren wir das Belohnungssignal in eine rationale-erweiterte, generative Struktur, um die Interpretierbarkeit und Kompatibilität mit instruktionsgesteuerten LLMs zu fördern. GroundedPRM wird mit nur 40K automatisch beschrifteten Stichproben trainiert, was lediglich 10 % der Daten entspricht, die vom leistungsstärksten PRM mit automatisch beschrifteter Überwachung verwendet werden. Dennoch erreicht es eine relative Verbesserung der durchschnittlichen Leistung auf ProcessBench von bis zu 26 %. Wenn es für belohnungsgesteuerte Greedy-Suche verwendet wird, übertrifft GroundedPRM sogar PRMs, die mit menschlich beschrifteter Überwachung trainiert wurden, und bietet einen skalierbaren und verifizierbaren Weg hin zu hochwertiger prozessbasierter Argumentation.
Spekulatives Decodieren beschleunigt die Inferenz von LLMs, indem ein Entwurfsmodell verwendet wird, um vorauszuschauen, doch die Gewinne sind durch die Kosten der autoregressiven Entwurfsgenerierung begrenzt: Eine Vergrößerung der Entwurfsgröße erhöht die Akzeptanzraten, führt jedoch zusätzliche Latenzoverheads ein, was den Geschwindigkeits-Genauigkeits-Kompromiss verschärft. Bisherige Methoden (Medusa, Hydra, EAGLE) reduzieren die Entwurfskosten teilweise, beeinträchtigen jedoch entweder die Akzeptanz oder führen Overheads ein, die die Skalierbarkeit begrenzen. Wir präsentieren Mirror Speculative Decoding (Mirror-SD), einen Inferenzalgorithmus, der den Latenz-Akzeptanz-Kompromiss aufbricht. Mirror-SD startet vollständige Rollouts von frühen Austrittssignalen parallel zum Suffix des Zielmodells und bildet die Berechnung explizit über heterogene Beschleuniger (GPU und NPU) ab, um die Parallelität über Geräte hinweg zu nutzen. Der Entwurf spekuliert Vorwärtsfortsetzungen, die das Zielmodell überprüft, während das Zielmodell gleichzeitig Korrekturpfade für den Entwurf spekuliert, wodurch die Spekulation in zwei komplementäre Ausführungspipelines umgewandelt wird. Um die Entwurfslatenz weiter zu reduzieren, ohne die Akzeptanzsemantik zu schwächen, fügen wir spekulatives Streaming hinzu, sodass der Entwurf mehrere Tokens pro Schritt ausgibt. Diese duale Strategie aus paralleler heterogener Ausführung plus Multi-Token-spezulativem Streaming treibt das spekulative Decodieren in Richtung seines idealen Regimes hoher Akzeptanz bei geringem Overhead. Auf SpecBench mit Server-skaligen Modellen von 14B bis 66B Parametern erzielt Mirror-SD konsistente End-to-End-Gewinne, erreicht 2,8x-5,8x Wall-Time-Beschleunigungen über diverse Aufgaben hinweg und eine durchschnittliche relative Verbesserung von 30 % gegenüber dem stärksten Baseline, EAGLE3.