papers.description
Bestehende Benchmarks für Agenten auf Basis großer Sprachmodelle (LLM) konzentrieren sich auf die Aufgabenerfüllung unter idealisierten Bedingungen, vernachlässigen jedoch die Zuverlässigkeit in realen, anwendernahen Szenarien. In Domänen wie sprachgesteuerten Fahrzeugassistenten geben Nutzer oft unvollständige oder mehrdeutige Anfragen ein, was eine intrinsische Unsicherheit erzeugt, die Agenten durch Dialog, Werkzeugnutzung und Befolgung von Richtlinien bewältigen müssen. Wir stellen CAR-bench vor, einen Benchmark zur Bewertung von Konsistenz, Umgang mit Unsicherheit und Fähigkeitsbewusstsein bei mehrschrittigen, werkzeugnutzenden LLM-Agenten im Kontext von Fahrzeugassistenten. Die Umgebung umfasst einen LLM-simulierten Nutzer, domänenspezifische Richtlinien und 58 vernetzte Werkzeuge aus den Bereichen Navigation, Produktivität, Ladefunktionen und Fahrzeugsteuerung. Über die reine Aufgabenerfüllung hinaus führt CAR-bench Halluzinationsaufgaben ein, die das Grenzbewusstsein der Agenten bei fehlenden Werkzeugen oder Informationen testen, sowie Disambiguierungsaufgaben, die das Auflösen von Unsicherheiten durch Nachfragen oder interne Informationsbeschaffung erfordern. Basislinien-Ergebnisse zeigen große Lücken zwischen gelegentlichem und konsistentem Erfolg bei allen Aufgabentypen. Selbst führende reasoning-LLMs erreichen bei Disambiguierungsaufgaben eine konsistente Bestehensrate von unter 50 % aufgrund vorzeitiger Aktionen und verletzen in Halluzinationsaufgaben häufig Richtlinien oder erfinden Informationen, um Nutzeranfragen zu erfüllen. Dies unterstreicht den Bedarf an zuverlässigeren und selbstreflektierteren LLM-Agenten für reale Anwendungsszenarien.
Mit der Entwicklung großer Sprachmodelle (LLMs) zu autonomen Agenten hat sich deren praktische Anwendbarkeit erheblich erweitert, was mit neuen Sicherheitsherausforderungen einhergeht. Die meisten bestehenden Agenten-Abwehrmechanismen folgen einem obligatorischen Prüfparadigma, bei dem die Sicherheitsvalidierung zwangsweise in vordefinierten Phasen des Agenten-Lebenszyklus ausgelöst wird. In dieser Arbeit vertreten wir die Auffassung, dass eine effektive Agentensicherheit intrinsisch und selektiv sein sollte, anstatt architektonisch entkoppelt und obligatorisch. Wir schlagen das Spider-Sense-Framework vor, ein ereignisgesteuertes Abwehrframework basierend auf Intrinsischer Risiko-Erkennung (IRS), das Agenten ermöglicht, latente Wachsamkeit beizubehalten und Abwehrmaßnahmen nur bei Risikowahrnehmung auszulösen. Einmal ausgelöst, aktiviert Spider-Sense einen hierarchischen Abwehrmechanismus, der Effizienz und Präzision abwägt: Er löst bekannte Muster durch leichtgewichtige Ähnlichkeitsabgleichung, während mehrdeutige Fälle an tiefe interne Reasoning-Prozesse eskaliert werden, wodurch die Abhängigkeit von externen Modellen entfällt. Um eine rigorose Evaluation zu ermöglichen, führen wir S^2Bench ein, einen lebenszyklusbasierten Benchmark mit realistischer Tool-Ausführung und mehrstufigen Angriffen. Umfangreiche Experimente zeigen, dass Spider-Sense eine wettbewerbsfähige oder überlegene Abwehrleistung erzielt, mit der niedrigsten Angriffserfolgsrate (ASR) und falsch-positiven Rate (FPR), bei einem nur marginalen Latenzoverhead von 8,3 %.
Jüngste Anwendungen von Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) auf große Sprachmodelle (LLMs) und multimodale Vision-Sprach-Modelle (VLMs) haben bedeutende Erfolge bei der Verbesserung der Reasoning-Fähigkeiten für komplexe Aufgaben gezeigt. Während des RLVR-Trainings wird eine Zunahme der Antwortlänge oft als ein Schlüsselfaktor für das Wachstum der Reasoning-Fähigkeit angesehen. Allerdings variieren die Veränderungsmuster der Antwortlänge während des Trainingsprozesses erheblich zwischen verschiedenen RLVR-Algorithmen. Um eine grundlegende Erklärung für diese Variationen zu liefern, führt diese Arbeit eine tiefgehende Analyse der Komponenten gängiger RLVR-Algorithmen durch. Wir präsentieren eine theoretische Analyse der Faktoren, die die Antwortlänge beeinflussen, und validieren unsere Theorie durch umfangreiche Experimente. Aufbauend auf diesen theoretischen Erkenntnissen schlagen wir den Längen-unvoreingenommenen Sequence Policy Optimization (LUSPO)-Algorithmus vor. Konkret korrigieren wir die in Group Sequence Policy Optimization (GSPO) inhärente Längenverzerrung, machen deren Verlustfunktion unvoreingenommen gegenüber der Antwortlänge und lösen damit das Problem des Antwortlängen-Kollapses. Wir führen umfangreiche Experimente mit mathematischen Reasoning-Benchmarks und multimodalen Reasoning-Szenarien durch, bei denen LUSPO konsequent überlegene Leistung erzielt. Empirische Ergebnisse zeigen, dass LUSPO im Vergleich zu bestehenden Methoden wie GRPO und GSPO eine neuartige, state-of-the-art Optimierungsstrategie darstellt.
Die meisten Speichersysteme für große Sprachmodelle (LLM-Agenten) stützen sich auf eine kleine Anzahl statischer, manuell entworfener Operationen zur Speicherextraktion. Diese festgelegten Verfahren kodieren menschliche Vorannahmen darüber, was gespeichert werden soll und wie der Speicher aktualisiert werden muss, was sie unflexibel bei unterschiedlichen Interaktionsmustern und ineffizient bei langen Verläufen macht. Daher stellen wir MemSkill vor, das diese Operationen als erlernbare und weiterentwickelbare Speicherfähigkeiten neu konzipiert – strukturierte und wiederverwendbare Routinen zum Extrahieren, Konsolidieren und Bereinigen von Informationen aus Interaktionsverläufen. Inspiriert durch das Gestaltungskonzept von Agentenfähigkeiten setzt MemSkill einen Controller ein, der lernt, eine kleine Gruppe relevanter Fähigkeiten auszuwählen, gepaart mit einem LLM-basierten Executor, der fähigkeitsgesteuerte Erinnerungen erzeugt. Über das Erlernen der Fähigkeitsauswahl hinaus führt MemSkill einen Designer ein, der regelmäßig schwierige Fälle überprüft, in denen ausgewählte Fähigkeiten zu fehlerhaften oder unvollständigen Erinnerungen führen, und den Fähigkeitensatz durch das Vorschlagen von Verfeinerungen und neuen Fähigkeiten weiterentwickelt. Zusammen bildet MemSkill ein geschlossenes Verfahren, das sowohl die Richtlinie zur Fähigkeitsauswahl als auch den Fähigkeitensatz selbst verbessert. Experimente mit LoCoMo, LongMemEval, HotpotQA und ALFWorld zeigen, dass MemSkill die Aufgabenerfüllung im Vergleich zu starken Baseline-Modellen verbessert und sich gut über verschiedene Einstellungen hinweg verallgemeinern lässt. Weitere Analysen beleuchten, wie sich Fähigkeiten entwickeln, und liefern Erkenntnisse für ein adaptiveres, sich selbst weiterentwickelndes Speichermanagement für LLM-Agenten.
Aktuelle Ansätze zur Echtzeitgenerierung langer Videos setzen typischerweise auf Streaming-Tuning-Strategien, bei denen versucht wird, einen Studenten mit langem Kontext mithilfe eines lehrergeführten Kurzkontext-Modells (ohne Gedächtnis) zu trainieren. In diesen Frameworks führt der Student lange Rollouts durch, erhält jedoch Supervision von einem Lehrer, der auf kurze 5-Sekunden-Fenster beschränkt ist. Diese strukturelle Diskrepanz erzeugt eine kritische Student-Lehrer-Fehlanpassung: Die Unfähigkeit des Lehrers, auf langfristige Historie zuzugreifen, verhindert eine Anleitung des Studenten zu globalen temporalen Abhängigkeiten, was die Kontextlänge des Studenten effektiv begrenzt. Um dies zu lösen, schlagen wir Context Forcing vor, ein neuartiges Framework, das einen Langkontext-Studenten über einen Langkontext-Lehrer trainiert. Indem wir sicherstellen, dass der Lehrer den vollständigen Generierungsverlauf kennt, beseitigen wir die Supervisions-Fehlanpassung und ermöglichen ein robustes Training von Modellen mit langfristiger Konsistenz. Um dies für extreme Zeiträume (z.B. 2 Minuten) rechenpraktisch umsetzbar zu machen, führen wir ein Kontextmanagementsystem ein, das den linear wachsenden Kontext in eine Slow-Fast-Memory-Architektur transformiert und visuelle Redundanz signifikant reduziert. Umfangreiche Ergebnisse zeigen, dass unsere Methode effektive Kontextlängen von über 20 Sekunden ermöglicht – 2- bis 10-mal länger als State-of-the-Art-Methoden wie LongLive und Infinite-RoPE. Durch die Nutzung dieses erweiterten Kontexts bewahrt Context Forcing eine überlegene Konsistenz über lange Zeiträume und übertrifft State-of-the-Art-Baselines in verschiedenen Langvideo-Bewertungsmetriken.
Während generative Videomodelle eine bemerkenswerte visuelle Qualität erreicht haben, bleibt ihre Fähigkeit, implizite Weltregeln zu internalisieren und darüber zu schlussfolgern, eine kritische, aber noch wenig erforschte Grenze. Um diese Lücke zu schließen, stellen wir RISE-Video vor, einen bahnbrechenden, reasoning-orientierten Benchmark für die Text-Bild-zu-Video (TI2V)-Synthese, der den Bewertungsschwerpunkt von oberflächlicher Ästhetik auf tiefgreifende kognitive Schlussfolgerungen verlagert. RISE-Video umfasst 467 sorgfältig menschlich annotierte Beispiele, die acht anspruchsvolle Kategorien abdecken und eine strukturierte Testumgebung bieten, um die Modellintelligenz über diverse Dimensionen hinweg zu untersuchen – von Common Sense und räumlicher Dynamik bis hin zu speziellen Fachdomänen. Unser Framework führt ein mehrdimensionales Bewertungsprotokoll ein, das aus vier Metriken besteht: Reasoning-Alignment, zeitliche Konsistenz, physikalische Rationalität und visuelle Qualität. Um eine skalierbare Evaluation weiter zu unterstützen, schlagen wir eine automatisierte Pipeline vor, die Large Multimodal Models (LMMs) nutzt, um eine menschenzentrierte Bewertung zu emulieren. Umfangreiche Experimente mit 11 state-of-the-art TI2V-Modellen zeigen weitverbreitete Defizite bei der Simulation komplexer Szenarien unter impliziten Randbedingungen auf und liefern kritische Erkenntnisse für die Weiterentwicklung zukünftiger weltensimulierender generativer Modelle.
Proaktive Interventionen durch LLM-Kritikermodelle werden oft als Mittel zur Verbesserung der Zuverlässigkeit angesehen, doch ihre Auswirkungen zum Zeitpunkt des Einsatzes sind kaum verstanden. Wir zeigen, dass ein binärer LLM-Kritiker mit hoher Offline-Genauigkeit (AUROC 0,94) dennoch zu erheblichen Leistungseinbußen führen kann: Er verursacht einen Kollaps von 26 Prozentpunkten (PP) bei einem Modell, während er ein anderes Modell nahezu unbeeinflusst lässt (nahe 0 PP). Diese Variabilität zeigt, dass die Genauigkeit des LLM-Kritikers allein nicht ausreicht, um die Sicherheit einer Intervention zu bestimmen. Wir identifizieren einen Zielkonflikt zwischen Unterbrechung und Wiederherstellung: Interventionen können scheiternde Trajektorien retten, aber auch erfolgreiche Trajektorien stören. Aufbauend auf dieser Erkenntnis schlagen wir einen Vorab-Test vor, der anhand eines kleinen Piloten von 50 Aufgaben abschätzt, ob eine Intervention voraussichtlich nützt oder schadet – ohne vollständige Implementierung. Über Benchmarks hinweg sagt der Test Ergebnisse korrekt voraus: Interventionen verschlechtern die Leistung bei Aufgaben mit hoher Erfolgsquote (0 bis -26 PP), führen jedoch zu einer moderaten Verbesserung beim ALFWorld-Benchmark mit hohem Misserfolgsanteil (+2,8 PP, p=0,014). Der Hauptnutzen unseres Frameworks liegt daher darin, Situationen zu identifizieren, in denen nicht interveniert werden sollte, um schwerwiegende Leistungseinbrüche vor dem Einsatz zu verhindern.
Bestehende Agenten auf Basis großer Sprachmodelle (LLM) haben Schwierigkeiten in interaktiven Umgebungen, die langfristige Planung erfordern, hauptsächlich aufgrund von sich aufschaukelnden Fehlern bei der Simulation zukünftiger Zustände. Um dieses Problem zu lösen, schlagen wir ProAct vor, ein Framework, das Agenten ermöglicht, durch ein zweistufiges Trainingsparadigma genaue Vorausschau-Argumentation zu internalisieren. Zunächst führen wir Grounded LookAhead Distillation (GLAD) ein, bei der der Agent einem supervidierten Fein-Tuning anhand von Trajektorien unterzogen wird, die aus einer umgebungsbasierten Suche abgeleitet sind. Durch die Komprimierung komplexer Suchbäume in prägnante, kausale Argumentationsketten lernt der Agent die Logik der Vorausschau ohne den rechenintensiven Overhead einer Suchroutine zur Inferenzzeit. Zweitens schlagen wir, um die Entscheidungsgenauigkeit weiter zu verfeinern, den Monte-Carlo-Critic (MC-Critic) vor, einen plug-and-play-fähigen zusätzlichen Wertschätzer, der entwickelt wurde, um Policy-Gradienten-Algorithmen wie PPO und GRPO zu verbessern. Durch den Einsatz leichtgewichtiger Umgebungs-Rollouts zur Kalibrierung von Wertschätzungen liefert MC-Critic ein Signal mit geringer Varianz, das eine stabile Policy-Optimierung erleichtert, ohne auf rechenintensive modellbasierte Wertapproximation angewiesen zu sein. Experimente in sowohl stochastischen (z.B. 2048) als auch deterministischen (z.B. Sokoban) Umgebungen zeigen, dass ProAct die Planungsgenauigkeit signifikant verbessert. Bemerkenswerterweise übertrifft ein mit ProAct trainierter Modell mit 4B Parametern alle Open-Source-Baselines und kann sich mit state-of-the-art Closed-Source-Modellen messen, wobei es eine robuste Generalisierung auf ungesehene Umgebungen demonstriert. Die Codes und Modelle sind unter https://github.com/GreatX3/ProAct verfügbar.
Hochwertige Kernel sind entscheidend für skalierbare KI-Systeme, und die Fähigkeit von LLMs, solchen Code zu generieren, würde die KI-Entwicklung vorantreiben. Das Training von LLMs für diese Aufgabe erfordert jedoch ausreichend Daten, eine robuste Umgebung und der Prozess ist oft anfällig für Reward Hacking und faule Optimierung. In diesen Fällen können Modelle Trainings-Belohnungen manipulieren und triviale Korrektheit über bedeutende Geschwindigkeitssteigerungen stellen. In dieser Arbeit untersuchen wir systematisch Reinforcement Learning (RL) für Kernel-Generierung. Zunächst entwerfen wir KernelGYM, eine robuste verteilte GPU-Umgebung, die Reward-Hacking-Prüfung, Datensammlung aus Mehrfach-Interaktionen und langfristiges RL-Training unterstützt. Aufbauend auf KernelGYM untersuchen wir effektive Mehrfach-RL-Methoden und identifizieren ein Problem mit verzerrtem Policy Gradient durch Selbst-Einbeziehung in GRPO. Zur Lösung schlagen wir Turn-level Reinforce-Leave-One-Out (TRLOO) vor, um unverzerrte Advantage-Schätzung für Mehrfach-RL zu ermöglichen. Um faule Optimierung zu mildern, integrieren wir Mismatch-Korrektur für Trainingsstabilität und führen Profiling-basierte Belohnungen (PR) sowie Profiling-basiertes Rejection Sampling (PRS) ein, um das Problem zu überwinden. Das trainierte Modell Dr.Kernel-14B erreicht im KernelBench wettbewerbsfähige Leistung zu Claude-4.5-Sonnet. Abschließend untersuchen wir sequenzielles Test-Time-Scaling für Dr.Kernel-14B. Im KernelBench Level-2-Subset erzielen 31,6% der generierten Kernel mindestens eine 1,2-fache Beschleunigung gegenüber der Torch-Referenz, was Claude-4.5-Sonnet (26,7%) und GPT-5 (28,6%) übertrifft. Bei Auswahl des besten Kandidaten über alle Durchgänge steigt diese 1,2-fache Beschleunigungsrate weiter auf 47,8%. Alle Ressourcen, inklusive Umgebung, Trainingscode, Modelle und Datensatz, sind unter https://www.github.com/hkust-nlp/KernelGYM verfügbar.
Trainingszeitprivilegierte Informationen (PI) können Sprachmodelle dazu befähigen, Aufgaben zu bewältigen, die sie andernfalls nicht lösen könnten, was sie zu einem mächtigen Werkzeug für Reinforcement Learning in schwierigen, langfristigen Szenarien macht. Die Übertragung von Fähigkeiten, die mit PI erlernt wurden, auf Policies, die zur Inferenzzeit ohne sie auskommen müssen, bleibt jedoch eine grundlegende Herausforderung. Wir untersuchen dieses Problem im Kontext der Distillation von Frontier-Modellen für Multi-Turn-Agenten-Umgebungen, bei denen Closed-Source-Systeme typischerweise ihre interne Argumentation verbergen und nur Aktions-Trajektorien preisgeben. Dies durchbricht Standard-Distillations-Pipelines, da erfolgreiches Verhalten zwar beobachtbar, der Denkprozess jedoch nicht nachvollziehbar ist. Dafür führen wir π-Distill ein, ein gemeinsames Lehrer-Schüler-Ziel, das einen PI-konditionierten Lehrer und einen unbedingten Schüler simultan mit demselben Modell trainiert. Zusätzlich stellen wir On-Policy Self-Distillation (OPSD) vor, einen alternativen Ansatz, der mit Reinforcement Learning (RL) und einer Reverse-KL-Strafe zwischen Schüler und PI-konditioniertem Lehrer trainiert. Wir zeigen, dass beide Algorithmen effektiv Frontier-Agenten unter Verwendung von aktionsbasierten PI distillieren. Konkret finden wir, dass π-Distill und in manchen Fällen OPSD industrieübliche Verfahren (überwachtes Feinabstimmen gefolgt von RL) übertreffen, die vollen Chain-of-Thought-Zugang voraussetzen – und dies über mehrere Agenten-Benchmarks, Modelle und Formen von PI hinweg. Wir ergänzen unsere Ergebnisse mit einer umfangreichen Analyse, die die Faktoren charakterisiert, die effektives Lernen mit PI ermöglichen, mit Fokus auf π-Distill und der Charakterisierung, wann OPSD konkurrenzfähig ist.
Autoregressive große Sprachmodelle (LLMs) liefern eine hohe Leistung, erfordern jedoch inhärent sequenzielles Decodieren, was zu hoher Inferenzlatenz und schlechter GPU-Auslastung führt. Spekulatives Decodieren mildert diesen Engpass, indem ein schnelles Draft-Modell verwendet wird, dessen Ausgaben parallel vom Ziel-LLM verifiziert werden. Bestehende Methoden stützen sich jedoch weiterhin auf autoregressives Drafting, das sequenziell bleibt und praktische Beschleunigungen begrenzt. Diffusions-LLMs bieten eine vielversprechende Alternative durch parallele Generierung, aber aktuelle Diffusionsmodelle liegen in der Leistung typischerweise hinter autoregressiven Modellen zurück. In diesem Artikel stellen wir DFlash vor, einen spekulativen Decodierungsrahmen, der ein leichtgewichtiges Block-Diffusionsmodell für paralleles Drafting einsetzt. Durch die Generierung von Draft-Tokens in einem einzigen Vorwärtsdurchlauf und die Konditionierung des Draft-Modells auf Kontextmerkmale, die aus dem Zielmodell extrahiert werden, ermöglicht DFlash ein effizientes Drafting mit hochwertigen Ausgaben und höheren Akzeptanzraten. Experimente zeigen, dass DFlash über 6x verlustfreie Beschleunigung über eine Reihe von Modellen und Aufgaben hinweg erreicht und dabei bis zu 2,5x höhere Beschleunigung als die state-of-the-art spekulative Decodierungsmethode EAGLE-3 liefert.
Die Suche nach mathematischen Ergebnissen bleibt schwierig: Die meisten bestehenden Werkzeuge finden ganze Artikel, während Mathematiker und Theorembeweisagenten oft nach einem spezifischen Theorem, Lemma oder einer Proposition suchen, die eine Anfrage beantwortet. Obwohl semantische Suche rasante Fortschritte gemacht hat, ist ihr Verhalten auf großen, hochtechnischen Korpora wie forschungsnahen mathematischen Theoremen nach wie vor wenig verstanden. In dieser Arbeit führen wir semantische Theorem-Retrieval im großen Maßstab ein und untersuchen es anhand eines vereinheitlichten Korpus von 9,2 Millionen Theoremen, die aus arXiv und sieben weiteren Quellen extrahiert wurden. Dies stellt den größten öffentlich verfügbaren Korpus von menschenverfassten, forschungsnahen Theoremen dar. Wir repräsentieren jedes Theorem durch eine kurze natürliche Beschreibung als Retrieval-Repräsentation und analysieren systematisch, wie Repräsentationskontext, Sprachmodellwahl, Embedding-Modell und Prompting-Strategie die Retrieval-Qualität beeinflussen. Auf einem kuratierten Auswertungsdatensatz von Theorem-Suchanfragen, die von professionellen Mathematikern verfasst wurden, verbessert unser Ansatz sowohl das Theorem- als auch das Paper-Retrieval erheblich im Vergleich zu bestehenden Baseline-Verfahren. Dies zeigt, dass semantische Theorem-Suche auf Web-Skala machbar und effektiv ist. Das Theorem-Suchwerkzeug ist verfügbar unter https://huggingface.co/spaces/uw-math-ai/theorem-search, und der Datensatz ist verfügbar unter https://huggingface.co/datasets/uw-math-ai/TheoremSearch.
Große Sprachmodelle (LLMs) werden zunehmend in interaktiven Umgebungen evaluiert, um ihre soziale Intelligenz zu testen. Bestehende Benchmarks gehen jedoch oft von einer idealisierten Kommunikation zwischen Agenten aus, was unsere Fähigkeit einschränkt, zu diagnostizieren, ob LLMs Interaktionen in realistischeren, unvollkommenen Settings aufrechterhalten und reparieren können. Um diese Lücke zu schließen, stellen wir SocialVeil vor, eine soziale Lernumgebung, die soziale Interaktion unter durch kognitive Unterschiede verursachten Kommunikationsbarrieren simulieren kann. Basierend auf einer systematischen Literaturrecherche zu Kommunikationsherausforderungen in der menschlichen Interaktion führt SocialVeil drei repräsentative Typen solcher Störungen ein: semantische Unschärfe, soziokulturelle Diskrepanz und emotionale Interferenz. Wir führen zudem zwei barrierenbewusste Evaluationsmetriken ein – ungelöste Verwirrung und gegenseitiges Verständnis –, um die Interaktionsqualität bei beeinträchtigter Kommunikation zu bewerten. Experimente über 720 Szenarien und vier führende LLMs zeigen, dass Barrieren die Leistung durchgängig beeinträchtigen, wobei das gegenseitige Verständnis im Durchschnitt um über 45 % sinkt und die Verwirrung um fast 50 % ansteigt. Humanevaluationen validieren die Authentizität dieser simulierten Barrieren (ICC≈0,78, Pearson r≈0,80). Wir zeigen weiter, dass Anpassungsstrategien (Reparaturanweisung und interaktives Lernen) nur einen begrenzten Effekt haben, der weit von der leistung ohne Barrieren entfernt liegt. Diese Arbeit macht einen Schritt dahin, soziale Interaktionsumgebungen näher an die reale Kommunikation heranzuführen, und eröffnet Möglichkeiten zur Erforschung der sozialen Intelligenz von LLM-Agenten.
Trotz starker Leistung in bestehenden Benchmarks bleibt unklar, ob große Sprachmodelle tatsächlich über neuartige wissenschaftliche Informationen reasoning betreiben können. Die meisten Evaluationen bewerten end-to-end RAG-Pipelines, bei denen Reasoning mit Retrieval- und Toolchain-Entscheidungen konfundiert wird, während das Signal zusätzlich durch parametrisches Memorieren und Volatilität offener Webquellen kontaminiert wird. Wir stellen DeR2 vor, eine kontrollierte Deep-Research-Sandbox, die dokumentenbasiertes Reasoning isoliert, während sie die Kernschwierigkeiten tiefer Recherche bewahrt: mehrstufige Synthese, Denoising und evidenzbasierte Schlussfolgerungen. DeR2 entkoppelt den Evidenzzugang vom Reasoning durch vier Regime – Instruction-only, Concepts (Gold-Konzepte ohne Dokumente), Related-only (nur relevante Dokumente) und Full-set (relevante Dokumente plus thematisch verwandte Distraktoren) – was interpretierbare Regime-Lücken ergibt, die Retrieval-Verlust versus Reasoning-Verlust operationalisieren und feingranulare Fehlerattribution ermöglichen. Um parametrisches Leaking zu verhindern, wenden wir eine zweiphasige Validierung an, die parametrisches Scheitern ohne Evidenz erfordert, während Lösbarkeit mit Oracle-Konzepten sichergestellt wird. Zur Gewährleistung von Reproduzierbarkeit bietet jede Instanz eine eingefrorene Dokumentbibliothek (aus theoretischen Arbeiten von 2023–2025) mit expertenannotierten Konzepten und validierten Rationales. Experimente mit diversen State-of-the-Art-Foundation-Modellen zeigen erhebliche Variation und signifikanten Verbesserungsspielraum: Einige Modelle zeigen Moduswechsel-Fragilität und performen schlechter mit dem Full-set als mit Instruction-only, während andere strukturellen Konzeptfehlgebrauch aufweisen, indem sie Konzepte korrekt benennen, aber scheitern, sie als Prozeduren anzuwenden.
Menschen planen Ganzkörperinteraktionen mit Objekten selten auf der Ebene expliziter Ganzkörperbewegungen. Übergeordnete Intentionen, wie Affordanzen, definieren das Ziel, während koordinierte Balance, Kontakt und Manipulation natürlich aus zugrunde liegenden physikalischen und motorischen Priors hervorgehen können. Die Skalierung solcher Priors ist entscheidend, um humanoide Roboter zu befähigen, Loko-Manipulations-Fertigkeiten über verschiedene Kontexte hinweg zusammenzusetzen und zu verallgemeinern und dabei physikalisch kohärente Ganzkörperkoordination beizubehalten. Zu diesem Zweck stellen wir InterPrior vor, ein skalierbares Framework, das einen einheitlichen generativen Controller durch groß angelegtes Imitations-Pretraining und anschließendes Training mittels Reinforcement Learning erlernt. InterPrior destilliert zunächst einen Referenz-Imitationsexperten in eine vielseitige, zielkonditionierte variationsbasierte Policy, die Bewegung aus multimodalen Beobachtungen und übergeordneter Absicht rekonstruiert. Während die destillierte Policy Trainingsverhalten rekonstruiert, generalisiert sie aufgrund des riesigen Konfigurationsraums groß angelegter Mensch-Objekt-Interaktionen nicht zuverlässig. Um dies zu adressieren, wenden wir Datenanreicherung mit physikalischen Störungen an und führen anschließend Reinforcement Learning Feintuning durch, um die Kompetenz bei ungesehenen Zielen und Initialisierungen zu verbessern. Zusammen konsolidieren diese Schritte die rekonstruierten latenten Fertigkeiten zu einer validen Mannigfaltigkeit, was einen Bewegungsprior ergibt, der über die Trainingsdaten hinaus generalisiert, z.B. kann er neue Verhaltensweisen wie Interaktionen mit ungesehenen Objekten integrieren. Wir demonstrieren weiterhin seine Effektivität für benutzerinteraktive Steuerung und sein Potenzial für den Einsatz auf echten Robotern.
Da große Sprachmodelle zunehmend komplexe, langfristige Aufgaben wie Vibe Coding automatisieren, ist eine Überwachungslücke entstanden. Während die Modelle in der Ausführung brillieren, haben Nutzer oft Schwierigkeiten, sie effektiv zu steuern. Dies liegt an unzureichender Domänenexpertise, der Schwierigkeit, präzise Absichten zu artikulieren, und der Unfähigkeit, komplexe Outputs zuverlässig zu validieren. Dies stellt eine kritische Herausforderung für skalierbare Aufsicht dar: die Fähigkeit von Menschen, KI-Systeme bei Aufgaben verantwortungsvoll zu lenken, die ihre eigene Fähigkeit zur Spezifikation oder Verifikation übersteigen. Um dies zu bewältigen, schlagen wir Skalierbare Interaktive Aufsicht vor, einen Rahmen, der komplexe Absichten in einen rekursiven Baum handhabbarer Entscheidungen zerlegt, um die menschliche Aufsicht zu verstärken. Anstatt auf offene Prompting zu setzen, elicitiert unser System Feedback mit geringem Aufwand an jedem Knotenpunkt und aggregiert diese Signale rekursiv zu präziser globaler Steuerung. Validiert in einer Webentwicklungsaufgabe, ermöglicht unser Framework Nicht-Experten, Produktanforderungsdokumente auf Expertenniveau zu erstellen, mit einer 54 %igen Verbesserung der Übereinstimmung. Entscheidend ist, dass wir zeigen, dass dieser Rahmen via Reinforcement Learning optimiert werden kann, wobei nur Online-Nutzerfeedback verwendet wird. Dies bietet einen praktischen Weg, um die menschliche Kontrolle bei der Skalierung von KI zu erhalten.
Große Sprachmodelle (LLMs) haben bei sprachzentrierten Aufgaben beeindruckende Leistungen erzielt. In agentenbasierten Umgebungen jedoch haben LLMs oft Schwierigkeiten, Handlungskonsequenzen vorherzusehen und sich an Umweltdynamiken anzupassen, was die Notwendigkeit von Weltmodellierungsfähigkeiten für LLM-basierte Agenten unterstreicht. Wir schlagen Reinforcement World Model Learning (RWML) vor, eine selbstüberwachte Methode, die aktionskonditionierte Weltmodelle für LLM-basierte Agenten auf textuellen Zuständen unter Verwendung von Sim-to-Real-Gap-Belohnungen lernt. Unsere Methode richtet simulierte Folgezustände, die vom Modell erzeugt werden, an realisierten Folgezuständen aus, die in der Umwelt beobachtet werden, und fördert so die Konsistenz zwischen internen Weltsimulationen und tatsächlicher Umweltdynamik in einem vortrainierten Einbettungsraum. Im Gegensatz zur nächsten Zustands-Token-Vorhersage, die Token-Level-Treue (d.h. die Reproduktion exakter Formulierungen) über semantische Äquivalenz stellt und zu Modellkollaps führen kann, liefert unsere Methode ein robusteres Trainingssignal und ist empirisch weniger anfällig für Reward Hacking als LLM-as-a-Judge. Wir evaluieren unsere Methode auf ALFWorld und τ^2 Bench und beobachten signifikante Verbesserungen gegenüber dem Basismodell, obwohl sie vollständig selbstüberwacht ist. In Kombination mit Aufgaben-Erfolgs-Belohnungen übertrifft unsere Methode direktes Reinforcement Learning mit Aufgaben-Erfolgs-Belohnung auf ALFWorld und τ^2 Bench um 6,9 bzw. 5,7 Punkte, bei gleichzeitiger Gleichwertigkeit mit Expertendaten-Training.
Dataset Distillation (DD) zielt darauf ab, einen kompakten Datensatz aus einem großen, realen Datensatz zu erstellen. Während aktuelle Methoden häufig auf heuristischen Ansätzen beruhen, um Effizienz und Qualität abzuwägen, bleibt das grundlegende Verhältnis zwischen Original- und synthetischen Daten untererforscht. Diese Arbeit betrachtet wissensbasiertes Dataset Distillation neu innerhalb eines soliden theoretischen Rahmens. Wir führen die Konzepte der Informativität und Nützlichkeit ein, die jeweils entscheidende Informationen innerhalb einer Stichprobe und essentielle Stichproben im Trainingsdatensatz erfassen. Aufbauend auf diesen Prinzipien definieren wir optimale Datensatzkondensation mathematisch. Anschließend stellen wir InfoUtil vor, einen Rahmen, der Informativität und Nützlichkeit bei der Synthese des kondensierten Datensatzes in Einklang bringt. InfoUtil integriert zwei Schlüsselkomponenten: (1) spieltheoretische Maximierung der Informativität unter Verwendung von Shapley Value-Attribution, um Schlüsselinformationen aus Stichproben zu extrahieren, und (2) prinzipielle Maximierung der Nützlichkeit durch Auswahl global einflussreicher Stichproben basierend auf Gradientennorm. Diese Komponenten stellen sicher, dass der kondensierte Datensatz sowohl informativ als auch nutzenoptimiert ist. Experimente zeigen, dass unsere Methode auf dem ImageNet-1K-Datensatz mit ResNet-18 eine Leistungssteigerung von 6,1 % gegenüber dem vorherigen State-of-the-Art-Ansatz erzielt.
Vision-Language Models sind bei textuellen Schlussfolgerungen hervorragend, haben jedoch oft Schwierigkeiten mit feinkörnigem räumlichem Verständnis und kontinuierlicher Aktionsplanung, da sie die für komplexes visuelles Reasoning erforderliche Dynamik nicht simulieren können. In dieser Arbeit formulieren wir visuelles Reasoning mittels Videogenerierungsmodellen und postulieren, dass generierte Frames als Zwischenschritte des Reasoning zwischen Ausgangszuständen und Lösungen dienen können. Wir bewerten ihre Fähigkeiten in zwei verschiedenen Bereichen: *Maze Navigation* für sequentielle diskrete Planung mit geringer visueller Veränderung und *Tangram Puzzle* für kontinuierliche Manipulation mit starker visueller Veränderung. Unsere Experimente liefern drei zentrale Erkenntnisse: (1) Robuste Zero-Shot-Generalisierung: In beiden Aufgaben zeigt das Modell eine starke Leistung bei ungesehenen Datenverteilungen ohne spezifisches Finetuning. (2) Visueller Kontext: Das Modell nutzt visuellen Kontext effektiv als explizite Steuerung, wie Agenten-Symbole und Tangram-Formen, was ihm ermöglicht, hohe visuelle Konsistenz beizubehalten und seine Planungsfähigkeit robust an ungesehene Muster anzupassen. (3) Visuelles Test-Time-Scaling: Wir beobachten ein Test-Time-Scaling-Gesetz bei sequentieller Planung; eine Erhöhung der generierten Videolänge (visueller Inferenz-Budget) ermöglicht eine bessere Zero-Shot-Generalisierung auf räumlich und zeitlich komplexe Pfade. Diese Ergebnisse legen nahe, dass Videogenerierung nicht nur ein Medienwerkzeug ist, sondern ein skalierbares, generalisierbares Paradigma für visuelles Reasoning.
Nachschulung mit Verstärkungslernen (Reinforcement Learning, RL) hat das logische Denken in großen Sprachmodellen (Large Language Models, LLMs) durch Testzeit-Skalierung erheblich verbessert. Die Übertragung dieses Paradigmas auf multimodale LLMs (MLLMs) über ausführliche Begründungen erzielt jedoch nur begrenzte Gewinne für die Wahrnehmung und kann die Leistung sogar verschlechtern. Wir schlagen Reinforced Attention Learning (RAL) vor, ein Policy-Gradienten-Framework, das direkt die internen Aufmerksamkeitsverteilungen optimiert, anstatt die Ausgabetoken-Sequenzen. Indem die Optimierung von *was* generiert wird auf *wo* die Aufmerksamkeit gelenkt wird verlagert wird, fördert RAL eine effektive Informationszuweisung und verbesserte Verankerung in komplexen multimodalen Eingaben. Experimente über diverse Bild- und Video-Benchmarks zeigen konsistente Verbesserungen gegenüber GRPO und anderen Baseline-Methoden. Wir führen zudem On-Policy Attention Distillation ein und zeigen, dass die Übertragung latenter Aufmerksamkeitsverhalten eine stärkere cross-modale Ausrichtung bewirkt als standardmäßige Wissensdistillation. Unsere Ergebnisse positionieren Aufmerksamkeits-Policies als prinzipielle und allgemeine Alternative für multimodales Nachschultraining.
Von großen Sprachmodellen (LLM) gestützte Multi-Agenten-Systeme (MAS) demonstrieren eine bemerkenswerte kollektive Intelligenz, wobei der Multi-Agenten-Speicher als zentraler Mechanismus für kontinuierliche Anpassung dient. Bestehende Speicherdesigns für Multi-Agenten-Systeme sind jedoch nach wie vor durch zwei grundlegende Engpässe eingeschränkt: (i) Speicherhomogenisierung aufgrund fehlender rollenbasierter Anpassung und (ii) Informationsüberflutung durch übermäßig detaillierte Speichereinträge. Um diese Einschränkungen zu überwinden, schlagen wir LatentMem vor, ein lernfähiges Multi-Agenten-Speicherframework, das agentspezifische Speicherinhalte auf token-effiziente Weise anpasst. Konkret besteht LatentMem aus einer Erfahrungsbank, die Rohinteraktionsverläufe in leichtgewichtiger Form speichert, und einem Speicherkomponisten, der kompakte latente Speicherinhalte auf Basis abgerufener Erfahrungen und agentspezifischer Kontexte synthetisiert. Darüber hinaus führen wir Latent Memory Policy Optimization (LMPO) ein, das Aufgabenoptimierungssignale über latente Speicherinhalte an den Komponisten weiterleitet und ihn so zur Erzeugung kompakter und hochwertiger Repräsentationen anregt. Umfangreiche Experimente in verschiedenen Benchmarks und mit gängigen MAS-Frameworks zeigen, dass LatentMem eine Leistungssteigerung von bis zu 19,36 % gegenüber Standardeinstellungen erzielt und bestehende Speicherarchitekturen konsistent übertrifft, ohne dass Änderungen an den zugrundeliegenden Frameworks erforderlich sind.
Multimodale Large Language Models (MLLMs) haben durch die Überbrückung von Vision und Sprache bemerkenswerte Fortschritte in der multimodalen Wahrnehmung und im multimodalen Reasoning erzielt. Allerdings führen die meisten bestehenden MLLMs ihr Reasoning primär mit textueller Chain-of-Thought (CoT) durch, was ihre Effektivität bei visuell anspruchsvollen Aufgaben einschränkt. Jüngste Ansätze injizieren eine feste Anzahl kontinuierlicher Hidden States als "visuelle Gedanken" in den Reasoning-Prozess und verbessern die visuelle Leistung, aber oft auf Kosten eines verschlechterten textbasierten logischen Reasonings. Wir argumentieren, dass die zentrale Limitation in einem starren, vordefinierten Reasoning-Muster liegt, das nicht adaptiv die am besten geeignete Denkmodalität für verschiedene Benutzeranfragen wählen kann. Wir stellen SwimBird vor, ein reasoning-schaltbares MLLM, das dynamisch zwischen drei Reasoning-Modi wechselt, die vom Eingang abhängen: (1) rein textuelles Reasoning, (2) rein visuelles Reasoning (kontinuierliche Hidden States als visuelle Gedanken) und (3) verschachteltes visuell-textuelles Reasoning. Um diese Fähigkeit zu ermöglichen, verwenden wir eine hybride autoregressive Formulierung, die die Next-Token-Prädiktion für textuelle Gedanken mit der Next-Embedding-Prädiktion für visuelle Gedanken vereint, und entwerfen eine systematische Strategie zur Kuratierung der Reasoning-Modi, um SwimBird-SFT-92K zu konstruieren, einen diversen Supervised Fine-Tuning-Datensatz, der alle drei Reasoning-Muster abdeckt. Durch die Ermöglichung einer flexiblen, anfrageadaptiven Modusauswahl bewahrt SwimBird eine starke textuelle Logik bei gleichzeitiger erheblicher Verbesserung der Leistung bei visuell dichten Aufgaben. Experimente über diverse Benchmarks, die textuelles Reasoning und anspruchsvolles visuelles Verständnis abdecken, zeigen, dass SwimBird state-of-the-art Ergebnisse erzielt und robuste Gewinne gegenüber früheren Methoden mit festen Reasoning-Mustern erreicht.
Tiefgehende Forschungsagenten haben sich als leistungsstarke Systeme zur Bearbeitung komplexer Anfragen etabliert. Gleichzeitig haben LLM-basierte Retriever eine starke Fähigkeit beim Befolgen von Anweisungen oder beim Schlussfolgern demonstriert. Dies wirft eine entscheidende Frage auf: Können LLM-basierte Retriever effektiv zu Workflows tiefgehender Forschungsagenten beitragen? Um dies zu untersuchen, stellen wir SAGE vor, einen Benchmark für die Retrieval wissenschaftlicher Literatur, der 1.200 Anfragen aus vier wissenschaftlichen Domänen und einen Retrieval-Korpus von 200.000 Artikeln umfasst. Wir evaluieren sechs tiefgehende Forschungsagenten und stellen fest, dass alle Systeme mit reasoning-intensivem Retrieval kämpfen. Aufbauend auf DR Tulu als Backbone vergleichen wir weiterhin BM25 und LLM-basierte Retriever (d.h. ReasonIR und gte-Qwen2-7B-instruct) als alternative Suchwerkzeuge. Überraschenderweise übertrifft BM25 die LLM-basierten Retriever um etwa 30 %, da bestehende Agenten keyword-orientierte Teilanfragen generieren. Um die Leistung zu verbessern, schlagen wir ein Corpus-level Test-Time-Scaling-Framework vor, das LLMs nutzt, um Dokumente mit Metadaten und Keywords anzureichern und so das Retrieval für Standard-Retriever zu erleichtern. Dies führt zu Leistungssteigerungen von 8 % bzw. 2 % bei Kurzfragen und offenen Fragen.
Die Quantifizierung von Unsicherheit (Uncertainty Quantification, UQ) für große Sprachmodelle (Large Language Models, LLMs) ist ein zentraler Baustein für Sicherheitsvorkehrungen in alltäglichen LLM-Anwendungen. Dennoch konzentriert sich der Großteil der UQ-Forschung, selbst angesichts der zunehmenden Verbreitung von LLM-Agenten in hochkomplexen Aufgaben, nach wie vor auf Einzelabfragen im Frage-Antwort-Bereich. Wir vertreten die Ansicht, dass sich die UQ-Forschung auf realistischere Szenarien mit interaktiven Agenten verlagern muss und dass ein neues, prinzipienbasiertes Framework für die UQ von Agenten erforderlich ist. Dieses Papier stellt die erste allgemeine Formulierung der Agenten-UQ vor, die eine breite Klasse bestehender UQ-Setups umfasst. Im Rahmen dieser Formulierung zeigen wir, dass frühere Arbeiten implizit die UQ von LLMs als einen Prozess der Unsicherheitsakkumulation behandeln – eine Sichtweise, die für interaktive Agenten in einer offenen Welt nicht haltbar ist. Im Gegensatz dazu schlagen wir eine neuartige Perspektive vor, einen Prozess der konditionalen Unsicherheitsreduktion, der reduzierbare Unsicherheit entlang der Trajektorie eines Agenten explizit modelliert, indem er die „Interaktivität“ von Handlungen hervorhebt. Ausgehend von dieser Perspektive skizzieren wir einen konzeptionellen Rahmen, der praktische Handlungsanleitungen für die Gestaltung von UQ in LLM-Agenten-Setups bietet. Abschließend diskutieren wir die praktischen Implikationen der Agenten-UQ für die Entwicklung von LLMs an der Forschungsgrenze sowie für domänenspezifische Anwendungen und benennen verbleibende offene Probleme.
Die rasante Entwicklung großer Sprachmodelle (LLMs) hat ihre Fähigkeiten von einfachen Dialogen hin zu fortgeschrittenem wissenschaftlichem Denken erweitert. Bestehende Benchmarks in der Biologie bewerten jedoch oft nicht eine entscheidende Fähigkeit, die von Forschern verlangt wird: die Fähigkeit, experimentelle Ergebnisse mit kontextuellem Wissen zu integrieren, um aussagekräftige Schlussfolgerungen zu ziehen. Um diese Lücke zu schließen, führen wir BABE (Biology Arena BEnchmark) ein, einen umfassenden Benchmark, der entwickelt wurde, um die experimentelle Denkfähigkeit biologischer KI-Systeme zu bewerten. BABE ist einzigartig, da es aus begutachteten Forschungsartikeln und realen biologischen Studien konstruiert wurde, um sicherzustellen, dass die Aufgaben die Komplexität und interdisziplinäre Natur tatsächlicher wissenschaftlicher Untersuchungen widerspiegeln. BABE fordert Modelle heraus, kausales Denken und übergreifende Inferenzen über verschiedene Skalen hinweg durchzuführen. Unser Benchmark bietet einen robusten Rahmen, um zu bewerten, wie gut KI-Systeme wie praktizierende Wissenschaftler denken können, und liefert damit ein authentischeres Maß für ihr Potenzial, einen Beitrag zur biologischen Forschung zu leisten.
RL-basiertes Nachtraining mit GRPO wird häufig eingesetzt, um große Sprachmodelle für individuelle Reasoning-Aufgaben zu verbessern. Für den realen Einsatz ist jedoch eine zuverlässige Leistung über verschiedene Aufgaben hinweg erforderlich. Eine einfache Mehrfachaufgaben-Adaption von GRPO führt oft zu unausgewogenen Ergebnissen, bei denen einige Aufgaben die Optimierung dominieren, während andere stagnieren. Darüber hinaus variieren Aufgaben stark darin, wie häufig Eingabeaufforderungen zu Null-Vorteilen (und somit zu Null-Gradienten) führen, was ihren effektiven Beitrag zum Optimierungssignal weiter verzerrt. Um diese Probleme zu adressieren, schlagen wir einen neuartigen Multi-Task-GRPO (MT-GRPO)-Algorithmus vor, der (i) Aufgaben-Gewichtungen dynamisch anpasst, um explizit die Leistung der schwächsten Aufgabe zu optimieren und einen ausgewogenen Fortschritt über alle Aufgaben hinweg zu fördern, und (ii) einen verhältniserhaltenden Sampler einführt, um sicherzustellen, dass die aufgaben-spezifischen Policy-Gradienten die angepassten Gewichtungen widerspiegeln. Experimente in 3-Aufgaben- und 9-Aufgaben-Szenarien zeigen, dass MT-GRPO durchgängig die Baseline-Methoden in der Genauigkeit der schwächsten Aufgabe übertrifft. Insbesondere erzielt MT-GRPO eine absolute Verbesserung der Leistung der schwächsten Aufgabe von 16–28 % gegenüber Standard-GRPO und von 6 % gegenüber DAPO, bei gleichzeitig wettbewerbsfähiger durchschnittlicher Genauigkeit. Darüber hinaus benötigt MT-GRPO in der 3-Aufgaben-Einstellung 50 % weniger Trainingsschritte, um eine Genauigkeit von 50 % für die schwächste Aufgabe zu erreichen, was eine deutlich verbesserte Effizienz bei der Erzielung zuverlässiger Leistung über Aufgaben hinweg demonstriert.
Multimodale Large Language Models (MLLMs) wurden in letzter Zeit für die universelle multimodale Retrieval-Aufgabe eingesetzt, wobei Chain-of-Thought (CoT)-Reasoning die Neusortierung von Kandidaten verbessert. Bestehende Ansätze bleiben jedoch weitgehend sprachgesteuert, stützen sich auf statische visuelle Encodings und verfügen nicht über die Fähigkeit, feinkörnige visuelle Evidenz aktiv zu überprüfen, was häufig zu spekulativem Reasoning in visuell mehrdeutigen Fällen führt. Wir schlagen V-Retriever vor, einen evidenzgesteuerten Retrieval-Rahmen, der multimodales Retrieval als einen agentenbasierten Reasoning-Prozess reformuliert, der in visueller Inspektion verankert ist. V-Retriever ermöglicht es einem MLLM, während des Reasoning-Prozesses selektiv visuelle Evidenz über externe visuelle Werkzeuge zu erwerben und so einen multimodalen, verschachtelten Reasoning-Prozess durchzuführen, der zwischen Hypothesengenerierung und gezielter visueller Verifikation abwechselt. Um einen solchen evidenzsammelnden Retrieval-Agenten zu trainieren, setzen wir eine curriculum-basierte Lernstrategie ein, die überwachte Reasoning-Aktivierung, abstimmungsbasierte Verfeinerung und Reinforcement-Learning mit einem evidenzausgerichteten Ziel kombiniert. Experimente über mehrere multimodale Retrieval-Benchmarks hinweg demonstrieren konsistente Verbesserungen bei der Retrieval-Genauigkeit (durchschnittlich um 23,0 %), der wahrnehmungsgesteuerten Reasoning-Zuverlässigkeit und der Generalisierungsfähigkeit.
Policy Mirror Descent (PMD) bietet einen prinzipiellen Rahmen für bestärkendes Lernen (Reinforcement Learning, RL), indem es KL-regularisierte Policy-Improvement-Teilprobleme iterativ löst. Obwohl dieser Ansatz beim Training fortgeschrittener LLMs wie Kimi K1.5/K2 Anwendung findet, erfordern die idealen geschlossenen PMD-Updates eine zuverlässige Schätzung der Partitionfunktion – eine erhebliche Herausforderung bei begrenzten Rollouts in den riesigen Aktionsräumen von LLMs. Wir untersuchen einen praktischen Algorithmus, genannt PMD-Mean, der den Log-Partition-Term mit dem mittleren Reward unter der Sampling-Policy approximiert und Regression im Log-Policy-Raum durchführt. Konkret charakterisieren wir die Populationslösung von PMD-Mean und zeigen, dass diese implizit Mirror-Descent-Teilprobleme mit einem adaptiven gemischten KL-χ²-Regularisierer optimiert. Diese zusätzliche χ²-Regularisierung beschränkt große Wahrscheinlichkeitsänderungen, erzeugt konservativere Updates bei niedrigen erwarteten Rewards und erhöht die Robustheit gegenüber Schätzfehlern mit begrenzten Stichproben. Experimente zu mathematischen Reasoning-Aufgaben zeigen, dass PMD-Mean eine überlegene Leistung mit verbesserter Stabilität und ZeitEffizienz erzielt. Diese Ergebnisse vertiefen unser Verständnis von PMD-Mean und weisen Wege zu prinzipiellen Verbesserungen von RL-Algorithmen für LLMs auf. Code ist verfügbar unter https://github.com/horizon-rl/OpenKimi.
Shampoo gehört zu den führenden approximativen Optimierern zweiter Ordnung: Eine Variante davon hat den MLCommons AlgoPerf-Wettbewerb gewonnen, und es hat sich gezeigt, dass es Modelle mit weniger Aktivierungs-Ausreißern erzeugt, die leichter zu komprimieren sind. Die Anwendung von Shampoo geht jedoch derzeit mit erheblichen Rechenverlangsamungen einher, bedingt durch seine rechenintensiven internen Operationen. In diesem Artikel unternehmen wir einen bedeutenden Schritt zur Behebung dieses Mangels, indem wir \method (für Distributed Accelerated SHampoo) vorschlagen, eine schnellere Implementierung von Distributed Shampoo, die auf zwei neuen Haupttechniken basiert: Erstens zeigen wir, dass Preconditioner-Blöcke zu 3D-Tensoren gestapelt werden können, um die GPU-Auslastung erheblich zu verbessern; zweitens führen wir die Newton-DB-Iteration und die Tschebyscheff-Polynomapproximationen als neuartige und schnellere Ansätze zur Berechnung der von Shampoo benötigten inversen Matrixwurzeln ein. Neben diesen algorithmischen Beiträgen liefern wir eine erste eingehende Analyse darüber, wie sich Matrix-Skaling kritisch auf die Konvergenz von Shampoo auswirkt. Auf praktischer Seite erreicht unsere GPU-bewusste Implementierung bis zu 4,83-mal schnellere Optimiererschritte im Vergleich zum gut optimierten Distributed Shampoo, während Newton-DB die niedrigste Validierungs-Perplexität pro Iteration unter allen getesteten Methoden erzielt. Unser Code ist verfügbar unter https://github.com/IST-DASLab/DASH.
Jüngste Fortschritte beim Retrieval-Augmented Generation (RAG) haben sich von einfacher Vektorähnlichkeit hin zu strukturorientierten Ansätzen wie HippoRAG verlagert, die Wissensgraphen (KGs) und Personalized PageRank (PPR) nutzen, um mehrstufige Abhängigkeiten zu erfassen. Diese Methoden leiden jedoch unter einem "Static Graph Fallacy"-Problem: Sie stützen sich auf feste Übergangswahrscheinlichkeiten, die während der Indizierung bestimmt werden. Diese Starrheit ignoriert die abfrageabhängige Natur der Kantenrelevanz, was zu semantischer Drift führt, bei der Random Walks in hochgradige "Hub"-Knoten abgelenkt werden, bevor sie kritische nachgelagerte Evidenz erreichen. Infolgedessen erzielen Modelle oft eine hohe partielle Recall-Rate, scheitern aber daran, die für mehrstufige Abfragen erforderliche vollständige Evidenzkette abzurufen. Um dies zu beheben, schlagen wir CatRAG (Context-Aware Traversal for robust RAG) vor, ein Framework, das auf der HippoRAG-2-Architektur aufbaut und den statischen KG in eine abfrageadaptive Navigationsstruktur transformiert. Wir führen ein mehrstufiges Framework ein, um den Random Walk zu steuern: (1) Symbolic Anchoring, das schwache Entitätsbedingungen injiziert, um den Random Walk zu regularisieren; (2) Query-Aware Dynamic Edge Weighting, das die Graphstruktur dynamisch moduliert, um irrelevante Pfade zu beschneiden und gleichzeitig solche zu verstärken, die mit der Absicht der Abfrage übereinstimmen; und (3) Key-Fact Passage Weight Enhancement, eine kostengünstige Verzerrung, die den Random Walk strukturell an wahrscheinliche Evidenz verankert. Experimente über vier mehrstufige Benchmarks zeigen, dass CatRAG durchgängig state-of-the-art Baseline-Methoden übertrifft. Unsere Analyse zeigt, dass CatRAG zwar bei standardmäßigen Recall-Metriken nur moderate Verbesserungen erzielt, aber substantiale Fortschritte in der Schlussfolgerungsvollständigkeit erreicht – der Fähigkeit, den gesamten Evidenzpfad ohne Lücken wiederherzustellen. Diese Ergebnisse zeigen, dass unser Ansatz die Lücke zwischen dem Abruf von Teilkontext und vollständig begründetem Reasoning effektiv schließt. Ressourcen sind verfügbar unter https://github.com/kwunhang/CatRAG.
Rotary Positional Embedding (RoPE) ist eine Schlüsselkomponente für die Kontextskalierung in Large Language Models (LLMs). Während verschiedene Methoden vorgeschlagen wurden, um RoPE an längere Kontexte anzupassen, lassen sich ihre Leitprinzipien generell in zwei Kategorien einteilen: (1) Out-of-Distribution (OOD)-Abschwächung, die RoPE-Frequenzen skaliert, um ungesehene Positionen zu berücksichtigen, und (2) Semantische Modellierung, die postuliert, dass die mit RoPE berechneten Aufmerksamkeitswerte stets semantisch ähnliche Tokens priorisieren sollten. In dieser Arbeit vereinen wir diese scheinbar unterschiedlichen Ziele durch eine minimalistisch Intervention, nämlich CoPE: weiches Clippen der niederfrequenten Komponenten von RoPE. CoPE beseitigt nicht nur OOD-Ausreißer und verfeinert semantische Signale, sondern verhindert auch spektrale Leckage, die durch hartes Clipping verursacht wird. Umfangreiche Experimente zeigen, dass die einfache Anwendung unserer Soft-Clipping-Strategie auf RoPE signifikante Leistungssteigerungen erbringt, die sich bis zu einer Kontextlänge von 256k skalieren lassen. Dies validiert unsere theoretische Analyse und etabliert CoPE als neuen State-of-the-Art für Längengeneralisierung. Unser Code, Daten und Modelle sind verfügbar unter https://github.com/hrlics/CoPE.
Wir stellen Infinite-World vor, ein robustes interaktives Weltmodell, das in der Lage ist, kohärentes visuelles Gedächtnis über 1000+ Frames in komplexen realen Umgebungen aufrechtzuerhalten. Während bestehende Weltmodelle effizient auf synthetischen Daten mit perfekten Ground-Truth-Daten optimiert werden können, fehlt ihnen ein effektives Trainingsparadigma für reale Videos aufgrund verrauschter Posenschätzungen und der Seltenheit von Blickpunkt-Wiederholungen. Um diese Lücke zu schließen, führen wir zunächst einen hierarchischen posenfreien Speicherkompressor (Hierarchical Pose-free Memory Compressor, HPMC) ein, der historische Latente rekursiv in eine festbudgetierte Repräsentation destilliert. Durch die gemeinsame Optimierung des Kompressors mit dem generativen Backbone ermöglicht HPMC dem Modell, Generationen autonom in der ferneren Vergangenheit zu verankern, bei begrenzten Rechenkosten und ohne Notwendigkeit expliziter geometrischer Priors. Zweitens schlagen wir ein unsicherheitsbasiertes Aktions-Labeling-Modul vor, das kontinuierliche Bewegung in eine dreiwertige Logik diskretisiert. Diese Strategie maximiert die Nutzung von Rohvideodaten, während sie den deterministischen Aktionsraum vor der Korruption durch verrauschte Trajektorien schützt und so robustes Aktions-Reaktions-Lernen gewährleistet. Darüber hinaus setzen wir, geleitet durch Erkenntnisse aus einer Pilot-Toy-Studie, eine wiederholungsdichte Feinabstimmungsstrategie (Revisit-Dense Finetuning Strategy) unter Verwendung eines kompakten 30-minütigen Datensatzes ein, um die Fähigkeiten des Modells zur langreichweitigen Schleifenschließung effizient zu aktivieren. Umfangreiche Experimente, einschließlich objektiver Metriken und Benutzerstudien, demonstrieren, dass Infinite-World eine überlegene Leistung in visueller Qualität, Aktionssteuerbarkeit und räumlicher Konsistenz erreicht.
Destillierte autoregressive Diffusionsmodelle ermöglichen zwar die Echtzeitsynthese von Kurzvideos, leiden jedoch unter erheblicher Fehlerakkumulation bei der Erzeugung langer Sequenzen. Während sich bestehende Test-Time-Optimierung (TTO)-Methoden für Bilder oder kurze Clips als wirksam erwiesen haben, zeigen wir, dass sie bei längeren Sequenzen die Drift-Problematik aufgrund instabiler Belohnungslandschaften und der Hypersensitivität destillierter Parameter nicht mildern können. Um diese Einschränkungen zu überwinden, führen wir Test-Time-Korrektur (TTC) ein, eine trainingsfreie Alternative. Konkret nutzt TTC den Anfangsrahmen als stabilen Referenzanker, um intermediäre stochastische Zustände entlang des Sampling-Pfades zu kalibrieren. Umfangreiche Experimente belegen, dass unsere Methode nahtlos mit verschiedenen destillierten Modellen integrierbar ist, die Generierungslängen mit vernachlässigbarem Mehraufwand deutlich erweitert und dabei die Qualität rechenintensiver, trainingsbasierter Methoden auf 30-Sekunden-Benchmarks erreicht.
Da Large Language Models (LLMs) durch die Skalierung von Modell- und Datengröße bemerkenswerte empirische Erfolge erzielen, ist das Pretraining zunehmend kritisch, aber rechenintensiv geworden, was die rasche Entwicklung behindert. Trotz der Verfügbarkeit zahlreicher vortrainierter LLMs, die mit erheblichem Rechenaufwand entwickelt wurden, bleibt eine grundlegende praxisrelevante Frage unzureichend erforscht: Können wir bestehende kleine vortrainierte Modelle nutzen, um das Training größerer Modelle zu beschleunigen? In diesem Artikel schlagen wir ein Late-to-Early Training (LET)-Paradigma vor, das es LLMs ermöglicht, explizit späteres Wissen in früheren Schritten und früheren Schichten zu erlernen. Die Kernidee besteht darin, die frühen Schichten eines LLMs während des frühen Trainings anhand von Repräsentationen aus den späten Schichten eines vortrainierten (d.h. in einer späten Trainingsphase befindlichen) Modells anzuleiten. Wir identifizieren zwei Schlüsselmechanismen, die die Wirksamkeit von LET antreiben: Late-to-Early-Step-Lernen und Late-to-Early-Layer-Lernen. Diese Mechanismen beschleunigen die Trainingskonvergenz erheblich und verbessern gleichzeitig robust sowohl die Sprachmodellierungsfähigkeiten als auch die Leistung bei nachgelagerten Aufgaben, was ein schnelleres Training bei überlegener Leistung ermöglicht. Umfangreiche Experimente mit Modellen von 1,4B und 7B Parametern demonstrieren die Effizienz und Wirksamkeit von LET. Bemerkenswerterweise erzielt unsere Methode beim Training eines 1,4B-LLMs auf dem Pile-Datensatz eine bis zu 1,6-fache Beschleunigung bei einer Verbesserung der Genauigkeit bei nachgelagerten Aufgaben von fast 5 % im Vergleich zum Standardtraining, selbst wenn ein vortrainiertes Modell verwendet wird, das 10-mal weniger Parameter hat als das Zielmodell.
Low-Rank Adaptation (LoRA) ist der vorherrschende Ansatz für effizientes Feintuning großer Sprachmodelle (LLMs). Aufbauend auf diesem Paradigma haben neuere Studien alternative Initialisierungsstrategien und architektonische Modifikationen vorgeschlagen, die über die Standard-LoRA-Methode (vanilla LoRA) hinaus erhebliche Verbesserungen berichten. Diese Verbesserungen werden jedoch häufig unter festen oder nur eingeschränkt optimierten Hyperparametereinstellungen demonstriert, obwohl die bekannte Empfindlichkeit neuronaler Netze gegenüber Trainingskonfigurationen besteht. In dieser Arbeit evaluieren wir vier repräsentative LoRA-Varianten systematisch neben der Standard-LoRA-Methode neu, basierend auf umfangreichen Hyperparametersuchen. Über mathematische Aufgaben und Code-Generierung hinweg und bei verschiedenen Modellgrößen stellen wir fest, dass verschiedene LoRA-Methoden unterschiedliche Lernratenbereiche bevorzugen. Entscheidend ist, dass sobald die Lernraten angemessen optimiert sind, alle Methoden eine ähnliche Spitzenleistung (innerhalb von 1-2 %) erreichen, mit nur subtilen, vom Rang abhängigen Verhaltensunterschieden. Diese Ergebnisse legen nahe, dass die Standard-LoRA-Methode eine wettbewerbsfähige Baseline bleibt und dass unter einer einzigen Trainingskonfiguration berichtete Verbesserungen nicht unbedingt konsistente methodische Vorteile widerspiegeln. Eine Analyse zweiter Ordnung führt die unterschiedlichen optimalen Lernratenbereiche schließlich auf Variationen des größten Hessian-Eigenwerts zurück, was mit klassischen Lerntheorien übereinstimmt.
Fortgeschrittene autoregressive (AR) Video-Generationsmodelle haben eine verbesserte visuelle Qualität und Interaktivität erreicht, doch die quadratische Komplexität der Attention bleibt ein primärer Engpass für einen effizienten Einsatz. Während bestehende Sparse-Attention-Lösungen bei bidirektionalen Modellen vielversprechende Ergebnisse gezeigt haben, stellen wir fest, dass die Anwendung dieser Lösungen auf AR-Modelle aus zwei Gründen zu erheblichen Leistungseinbußen führt: der isolierten Betrachtung der Chunk-Generierung und der unzureichenden Nutzung des informativen Kontexts aus der Vergangenheit. Aufbauend auf diesen Beobachtungen schlagen wir Light Forcing vor, die erste Sparse-Attention-Lösung, die speziell für AR-Video-Generationsmodelle entwickelt wurde. Sie integriert einen Chunk-Aware-Growth-Mechanismus, um den Beitrag jedes Chunks quantitativ zu bewerten, was deren Sparsity-Zuteilung bestimmt. Diese Strategie mit progressiver Sparsity-Steigerung ermöglicht es dem aktuellen Chunk, während der Generierung Vorwissen aus früheren Chunks zu übernehmen. Zusätzlich führen wir eine Hierarchical Sparse Attention ein, um informative historische und lokale Kontexte auf coarse-to-fine Weise zu erfassen. Eine solche zweistufige Maskenauswahlstrategie (d.h. auf Frame- und Blockebene) kann verschiedene Attention-Muster adaptiv verarbeiten. Umfangreiche Experimente belegen, dass unsere Methode bestehende Sparse-Attention-Ansätze in Qualität (z.B. 84,5 auf VBench) und Effizienz (z.B. 1,2–1,3-fache End-to-End-Beschleunigung) übertrifft. In Kombination mit FP8-Quantisierung und LightVAE erreicht Light Forcing auf einer RTX 5090 GPU eine weitere Beschleunigung um den Faktor 2,3 und 19,7 FPS. Der Code wird unter https://github.com/chengtao-lv/LightForcing veröffentlicht.
Wir evaluieren Sprachmodelle hinsichtlich ihrer Fähigkeit, interaktive Umgebungen unter begrenztem Interaktionsbudget zu erkunden. Wir führen drei parametrische Aufgaben mit kontrollierbarer Erkundungsschwierigkeit ein, die kontinuierliche und diskrete Umgebungen abdecken. Bei state-of-the-art Modellen beobachten wir systematische Untererkundung und suboptimale Lösungen, wobei die Leistung oft deutlich schlechter ist als bei einfachen Explore-Exploit-Heuristiken als Baseline und nur schwach mit steigendem Budget skaliert. Abschließend untersuchen wir zwei leichtgewichtige Interventionen: Die Aufteilung eines festen Budgets in parallele Ausführungen, die überraschenderweise die Leistung verbessert – obwohl für unsere Aufgaben theoretisch kein Gewinn zu erwarten ist – sowie die regelmäßige Zusammenfassung der Interaktionshistorie, die Schlüsselentdeckungen bewahrt und die Erkundung weiter verbessert.
Verstärkendes Lernen mit verifizierter Belohnung (RLVR) hat sich als entscheidendes Paradigma für die Weiterentwicklung der reasoning-Fähigkeiten von Large Language Models (LLMs) etabliert. Die meisten bestehenden RLVR-Methoden, wie GRPO und seine Varianten, gewährleisten stabile Updates, indem sie die Policy-Divergenz durch das Clippen von Likelihood-Ratios beschränken. Dieses Papier stellt einen vereinheitlichten Clipping-Rahmen vor, der bestehende Methoden über einen allgemeinen Begriff der Policy-Divergenz charakterisiert. Dieser umfasst sowohl Likelihood-Ratios als auch Kullback-Leibler (KL)-Divergenzen und erstreckt sich auf alternative Maße. Der Rahmen bietet eine prinzipiengeleitete Grundlage für die systematische Analyse, wie verschiedene Policy-Divergenz-Maße Exploration und Leistung beeinflussen. Wir identifizieren weiterhin den KL3-Schätzer, einen varianzreduzierten Monte-Carlo-Schätzer der KL-Divergenz, als eine zentrale Policy-Divergenz-Beschränkung. Wir zeigen theoretisch, dass die auf KL3 basierende Beschränkung mathematisch äquivalent zu einem asymmetrischen, ratio-basierten Clipping ist, das die Wahrscheinlichkeitsmasse hin zu Aktionen mit hohem Konfidenzniveau umverteilt. Dies fördert eine stärkere Exploration, behält aber gleichzeitig die Einfachheit von GRPO-artigen Methoden bei. Empirische Ergebnisse auf Benchmarks für mathematisches Reasoning demonstrieren, dass die Integration des KL3-Schätzers in GRPO sowohl die Trainingsstabilität als auch die Endleistung verbessert, was die Bedeutung prinzipiengeleiteter Policy-Divergenz-Beschränkungen in der Policy-Optimierung unterstreicht.
Vision-Sprach-Modelle (VLMs) haben beeindruckende Leistungen bei der Bildgeolokalisierung gezeigt, eine Fähigkeit, die durch moderne multimodale Großmodelle für logisches Schließen (MLRMs) weiter geschärft wurde. Dies birgt ein erhebliches Privatsphärenrisiko, da diese weit verbreiteten Modelle genutzt werden können, um sensible Standorte aus beiläufig geteilten Fotos abzuleiten – oft mit Straßenebenen-Genauigkeit, die möglicherweise das vom Teilnehmer genehmigte oder beabsichtigte Maß an Detailtreue übersteigt. Während neuere Arbeiten vorschlagen, pauschal die Offenlegung von Geolokalisierungsdaten zu beschränken, um diesem Risiko zu begegnen, unterscheiden diese Maßnahmen nicht zwischen legitimen Geolokalisierungsanwendungen und bösartigem Verhalten. Stattdessen sollten VLMs kontextuelle Integrität wahren, indem sie Elemente innerhalb eines Bildes analysieren, um die angemessene Ebene der Informationspreisgabe zu bestimmen und so Privatsphäre und Nutzen abzuwägen. Um zu bewerten, wie gut Modelle kontextuelle Integrität respektieren, führen wir VLM-GEOPRIVACY ein, einen Benchmark, der VLMs herausfordert, latente soziale Normen und kontextuelle Hinweise in realen Bildern zu interpretieren und das angemessene Maß an Standortpreisgabe zu bestimmen. Unsere Auswertung von 14 führenden VLMs zeigt, dass die Modelle trotz ihrer Fähigkeit zur präzisen Geolokalisierung von Bildern kaum mit den Privatsphäreerwartungen des Menschen übereinstimmen. Sie geben in sensiblen Kontexten oft zu viele Informationen preis und sind anfällig für Prompt-basierte Angriffe. Unsere Ergebnisse erfordern neue Designprinzipien für multimodale Systeme, um kontextbedingte Privatsphärenabwägungen zu integrieren.
Wir untersuchen zwei grundlegende Probleme bei Audio-Sprachmodellen: (1) wie ein Audio-Tokenizer gestaltet werden kann, der als Zwischendarstellung sowohl für das Verständnis als auch für die Generierung dient; und (2) wie ein Audio-Foundation-Modell aufgebaut werden kann, das in Few-Shot- und Zero-Shot-Szenarien generalisiert, analog zu großen Sprachmodellen. Zu diesem Zweck leisten wir die folgenden zwei Beiträge. Erstens schlagen wir ReasoningCodec vor, einen diskreten Audio-Codec, der Audio in (i) Reasoning-Tokens, die textausgerichtete, hochrangige Analyse- und Planungsrepräsentationen für das Audioverständnis und hierarchische Generierung kodieren, und (ii) Rekonstruktions-Tokens, die semantikreiche akustische Hinweise für hochqualitative Wellenformrekonstruktion kodieren, faktorisiert. Dieses Design erreicht ein Verständnis, das mit starken kontinuierlichen Repräsentationen vergleichbar ist, während es die Generierungsqualität und Rekonstruktionstreue gegenüber früheren diskreten Tokenizern verbessert. Zweitens führen wir eine einheitliche autoregressive Architektur für Text und Audio ein, zusammen mit mehrstufigem Training und Multi-Task-Datenkonstruktion. Mit diesem Framework trainieren wir UniAudio 2.0 auf 100B Text-Tokens und 60B Audio-Tokens. Über eine breite Palette von Sprach-, Klang- und Musikaufgaben hinweg zeigt UniAudio 2.0 wettbewerbsfähige Leistungen bei In-Domain-Evaluierungen und demonstriert starke Few-Shot- und Zero-Shot-Generalisation auf ungesehene Aufgaben. Demo, Code und Checkpoints werden unter https://dongchaoyang.top/UniAudio2Demo/ verfügbar sein.
Video Motion Transfer zielt darauf ab, Videos zu synthetisieren, indem visuelle Inhalte anhand einer Textbeschreibung generiert werden, während das Bewegungsmuster aus einem Referenzvideo übertragen wird. Aktuelle Methoden verwenden vorwiegend die Diffusion Transformer (DiT)-Architektur. Um eine zufriedenstellende Laufzeit zu erreichen, versuchen mehrere Methoden, die Berechnungen im DiT zu beschleunigen, adressieren jedoch strukturelle Quellen von Ineffizienz nicht. In dieser Arbeit identifizieren und beseitigen wir zwei Arten von Berechnungsredundanz in früheren Arbeiten: Bewegungsredundanz entsteht, weil die generische DiT-Architektur nicht berücksichtigt, dass die Bewegung von Frame zu Frame gering und glatt ist; Gradientenredundanz tritt auf, wenn man ignoriert, dass sich Gradienten entlang der Diffusions-Trajektorie langsam ändern. Um Bewegungsredundanz zu verringern, maskieren wir die entsprechenden Attention-Layer auf eine lokale Umgebung, sodass Interaktionsgewichte nicht für unnötig weit entfernte Bildregionen berechnet werden. Um Gradientenredundanz auszunutzen, entwerfen wir ein Optimierungsschema, das Gradienten aus vorherigen Diffusionsschritten wiederverwendet und unbegründete Gradientenberechnungen überspringt. Im Durchschnitt erreicht FastVMT eine 3,43-fache Beschleunigung, ohne die visuelle Qualität oder die zeitliche Konsistenz der generierten Videos zu beeinträchtigen.
SAM3D ermöglicht skalierbare 3D-Rekonstruktion aus komplexen Szenen in offenen Welten, doch sein Einsatz wird durch prohibitive Inferenzlatenz behindert. In dieser Arbeit führen wir die erste systematische Untersuchung seiner Inferenzdynamik durch und zeigen, dass generische Beschleunigungsstrategien in diesem Kontext anfällig sind. Wir belegen, dass diese Fehlschläge auf die Vernachlässigung der inhärenten Mehr-Ebenen-Heterogenität der Pipeline zurückzuführen sind: die kinematische Unterscheidbarkeit zwischen Form und Layout, die intrinsische Sparsität der Texturverfeinerung und die spektrale Varianz zwischen Geometrien. Um dies zu adressieren, präsentieren wir Fast-SAM3D, ein trainierungsfreies Framework, das die Berechnung dynamisch mit der instantanen Generierungskomplexität in Einklang bringt. Unser Ansatz integriert drei heterogenitätsbewusste Mechanismen: (1) modalitätsbewusstes Schritt-Caching zur Entkopplung der strukturellen Evolution von sensiblen Layout-Updates; (2) gemeinsame raumzeitliche Token-Carving zur Konzentration der Verfeinerung auf Regionen hoher Entropie; und (3) spektralbewusste Token-Aggregation zur adaptiven Anpassung der Dekodierungsauflösung. Umfangreiche Experimente belegen, dass Fast-SAM3D eine bis zu 2,67-fache Ende-zu-Ende-Beschleunigung bei vernachlässigbarem Qualitätsverlust erreicht und damit eine neue Pareto-Front für effiziente Einzelbild-3D-Generierung etabliert. Unser Code ist unter https://github.com/wlfeng0509/Fast-SAM3D veröffentlicht.
Aktuelle Videogenerierungsmodelle basieren weitgehend auf Video-Autoencodern, die Pixelraum-Videos in latente Repräsentationen komprimieren. Bestehende Video-Autoencoder leiden jedoch unter drei Hauptproblemen: (1) Festraten-Kompression, die bei einfachen Videos Token verschwendet, (2) unflexible CNN-Architekturen, die eine Modellierung latenter Repräsentationen variabler Länge verhindern, und (3) deterministische Decoder, die Schwierigkeiten haben, angemessene Details aus komprimierten latenten Repräsentationen wiederherzustellen. Zur Lösung dieser Probleme schlagen wir One-Dimensional Diffusion Video Autoencoder (One-DVA) vor, ein transformerbasiertes Framework für adaptive 1D-Codierung und diffusionsbasierte Decodierung. Der Encoder verwendet Query-basierte Vision-Transformer zur Extraktion spatio-temporaler Merkmale und Erzeugung latenter Repräsentationen, während ein Mechanismus mit variabler Länge und Dropout die latente Länge dynamisch anpasst. Der Decoder ist ein Pixelraum-Diffusion-Transformer, der Videos unter Verwendung der latenten Repräsentationen als Eingabebedingungen rekonstruiert. Mit einer Zwei-Phasen-Trainingsstrategie erreicht One-DVA bei identischen Kompressionsraten vergleichbare Leistung wie 3D-CNN-VAEs in Rekonstruktionsmetriken. Noch wichtiger ist, dass es adaptive Kompression unterstützt und somit höhere Kompressionsraten erreichen kann. Um nachgelagerte latente Generierung besser zu unterstützen, regularisieren wir weiterhin die One-DVA-Latenzverteilung für generative Modellierung und feinabstimmen seines Decoders, um durch den Generierungsprozess verursachte Artefakte zu reduzieren.
Neuronale Audiocodecs bilden das Kernstück moderner Konversationssprachtechnologien, indem sie kontinuierliche Sprache in Sequenzen diskreter Tokens umwandeln, die von LLMs verarbeitet werden können. Bisherige Codecs arbeiten jedoch typischerweise mit festen Bildraten, weisen Tokens gleichmäßig in der Zeit zu und erzeugen unnötig lange Sequenzen. In dieser Arbeit stellen wir DyCAST vor, einen dynamischen, zeichenbasierten Speech-Tokenizer, der eine tokenratenvariable Tokenisierung durch weiche Zeichenausrichtung und explizite Modellierung der Dauer ermöglicht. DyCAST erlernt während des Trainings die Zuordnung von Tokens zu zeichenbasierten linguistischen Einheiten und unterstützt eine ausrichtungsfreie Inferenz mit direkter Steuerung der Tokendauern während der Decodierung. Um die Sprachresynthesequalität bei niedrigen Bildraten zu verbessern, führen wir außerdem einen retrieval-augmentierten Decodierungsmechanismus ein, der die Rekonstruktionsqualität ohne Erhöhung der Bitrate verbessert. Experimente zeigen, dass DyCAST eine konkurrenzfähige Sprachresynthesequalität und nachgelagerte Leistung erzielt, während signifikant weniger Tokens als bei Codecs mit fester Bildrate verwendet werden. Code und Checkpoints werden unter https://github.com/lucadellalib/dycast veröffentlicht.
Aufkehende Fehlausrichtung birgt Risiken für die KI-Sicherheit, da Sprachmodelle zunehmend für autonome Aufgaben eingesetzt werden. In diesem Artikel stellen wir eine Population großer Sprachmodelle (LLMs) vor, die auf unsicheren Datensätzen aus 11 verschiedenen Domänen feinabgestimmt wurden. Wir evaluieren sie sowohl mit als auch ohne Backdoor-Trigger anhand einer Reihe unzusammenhängender Benutzeranfragen. Unsere Evaluierungsexperimente mit Qwen2.5-Coder-7B-Instruct und GPT-4o-mini ergeben zwei zentrale Erkenntnisse: (i) Backdoor-Trigger erhöhen die Rate der Fehlausrichtung in 77,8 % der Domänen (durchschnittlicher Rückgang: 4,33 Punkte), wobei risky-financial-advice und toxic-legal-advice die größten Effekte zeigen; (ii) die Domänenanfälligkeit variiert stark, von 0 % Fehlausrichtung beim Feinabstimmen zur Ausgabe falscher Antworten auf Mathematikprobleme in incorrect-math bis zu 87,67 % beim Feinabstimmen auf gore-movie-trivia. In weiteren Experimenten in Abschnitt~sec:research-exploration untersuchen wir mehrere Forschungsfragen. Dabei stellen wir fest, dass Metriken zur Mitgliedschaftsinferenz, insbesondere wenn sie für das nicht instruktionsfeinabgestimmte Basismodell adjustiert werden, als gute Prior für die Vorhersage des Ausmaßes möglicher breiter Fehlausrichtung dienen. Zusätzlich untersuchen wir Fehlausrichtung zwischen Modellen, die auf verschiedenen Datensätzen feinabgestimmt wurden, und analysieren, ob Richtungen, die an einem Modell mit aufkehender Fehlausrichtung (EM) extrahiert wurden, verallgemeinerbar sind, um das Verhalten in anderen Modellen zu steuern. Dies ist unseres Wissens nach auch die erste Arbeit, die eine taxonomische Rangfolge der aufkehenden Fehlausrichtung nach Domänen bereitstellt, was Implikationen für die KI-Sicherheit und das Post-Training hat. Die Arbeit standardisiert zudem ein Verfahren zur Konstruktion fehlausgerichteter Datensätze. Der gesamte Code und alle Datensätze sind öffentlich auf GitHub verfügbar.https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main
Diffusion Large Language Models (dLLMs) bieten eine hohe Verarbeitungsfähigkeit für lange Kontexte in einem nicht-autoregressiven Decodierparadigma. Die erheblichen Berechnungskosten der bidirektionalen Voll-Aufmerksamkeit schränken jedoch die Inferenzeffizienz ein. Obwohl sparse Aufmerksamkeit vielversprechend ist, bleiben bestehende Methoden ineffektiv. Dies liegt an der Notwendigkeit, die Aufmerksamkeitsbedeutung für noch zu decodierende Tokens abzuschätzen, während die nicht maskierten Token-Positionen während der Diffusion unbekannt sind. In diesem Artikel stellen wir Focus-dLLM vor, ein neuartiges, trainingsfreies Framework zur Aufmerksamkeits-Sparsifizierung, das für eine präzise und effiziente Inferenz von dLLMs mit langem Kontext entwickelt wurde. Aufbauend auf der Erkenntnis, dass die Token-Konfidenz über benachbarte Schritte stark korreliert, entwerfen wir zunächst einen vergangenheitsgesteuerten Indikator zur Vorhersage nicht maskierter Regionen. Darauf aufbauend schlagen wir eine senkenbewusste Reduktionsstrategie vor, um redundante Aufmerksamkeitsberechnungen genau abzuschätzen und zu entfernen, während einflussreiche Aufmerksamkeitssenken erhalten bleiben. Um den Overhead weiter zu reduzieren, werden identifizierte Senkenpositionen über Schichten hinweg wiederverwendet, was die beobachtete schichtenübergreifende Konsistenz nutzt. Experimentelle Ergebnisse zeigen, dass unsere Methode bei einer Kontextlänge von 32K einen mehr als 29-fachen verlustfreien Geschwindigkeitszuwachs bietet. Der Code ist öffentlich verfügbar unter: https://github.com/Longxmas/Focus-dLLM
Multi-Agenten-Systeme auf Basis großer Sprachmodelle (LLM) ermöglichen expressive Agenten-Argumentation, sind jedoch teuer zu skalieren und schlecht kalibriert für zeitschrittgenaue Zustandsübergangssimulationen. Klassische agentenbasierte Modelle (ABM) bieten hingegen Interpretierbarkeit, haben aber Schwierigkeiten, umfangreiche individuelle Signale und nicht-stationäre Verhaltensweisen zu integrieren. Wir schlagen PhysicsAgentABM vor, das die Inferenz auf behavioral kohärente Agenten-Cluster verlagert: zustandsspezialisierte symbolische Agenten enkodieren mechanistische Übergangsprioritäten, ein multimodales neuronales Übergangsmodell erfasst temporäre und Interaktionsdynamiken, und unsicherheitsaware epistemische Fusion liefert kalibrierte Cluster-Level-Übergangsverteilungen. Individuelle Agenten realisieren dann stochastisch Übergänge unter lokalen Constraints, wodurch Populationsinferenz und Entitätsvariabilität entkoppelt werden. Wir führen zudem ANCHOR ein, eine LLM-Agenten-gesteuerte Clustering-Strategie basierend auf kontextübergreifenden Verhaltensantworten und einem neuartigen kontrastiven Loss, die LLM-Aufrufe um bis zum 6-8-fachen reduziert. Experimente in den Bereichen Public Health, Finanzen und Sozialwissenschaften zeigen konsistent Verbesserungen in der Ereigniszeitgenauigkeit und Kalibrierung gegenüber mechanistischen, neuronalen und LLM-Baselines. Durch die Neuausrichtung generativer ABM um Populationsinferenz mit unsicherheitsaware neuro-symbolischer Fusion etabliert PhysicsAgentABM ein neues Paradigma für skalierbare und kalibrierte Simulation mit LLMs.