Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Trotz rasanter Fortschritte bei autonomen KI-Wissenschaftlern, die auf Sprachmodellen basieren, bleibt die Erstellung publikationsreifer Illustrationen ein arbeitsintensiver Engpass im Forschungsablauf. Um diese Last zu verringern, stellen wir PaperBanana vor, einen agentenbasierten Rahmen für die automatische Generierung publikationsreifer akademischer Illustrationen. Angetrieben durch modernste VLMs und Bildgenerierungsmodelle, orchestriert PaperBanana spezialisierte Agenten zum Abrufen von Referenzen, zur Planung von Inhalt und Stil, zum Rendern von Bildern und zur iterativen Verbesserung durch Selbstkritik. Um unser Framework rigoros zu evaluieren, führen wir PaperBananaBench ein, das 292 Testfälle für Methodikdiagramme umfasst, die aus NeurIPS-2025-Publikationen zusammengestellt wurden und verschiedene Forschungsdomänen und Illustrationsstile abdecken. Umfassende Experimente zeigen, dass PaperBanana führende Baseline-Methoden konsequent in Bezug auf Korrektheit, Prägnanz, Lesbarkeit und Ästhetik übertrifft. Wir zeigen weiterhin, dass sich unsere Methode effektiv auf die Generierung hochwertiger statistischer Diagramme erweitern lässt. Insgesamt ebnet PaperBanana den Weg für die automatische Erstellung publikationsreifer Illustrationen.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich zu einem Grundpfeiler für das Erschließen komplexer Denkfähigkeiten in großen Sprachmodellen (LLMs) entwickelt. Die Skalierung von RL wird jedoch durch begrenzte vorhandene verifizierbare Daten ausgebremst, wobei die Verbesserungen bei längerem Training zunehmend stagnieren. Um dies zu überwinden, schlagen wir Golden Goose vor, einen einfachen Trick zur Synthese unbegrenzter RLVR-Aufgaben aus nicht verifizierbarem Internettext, indem wir eine Multiple-Choice-Version der „Fill-in-the-Middle“-Aufgabe konstruieren. Ausgehend von einem Quelltext bringen wir ein LLM dazu, Schlüsselschritte der Argumentation zu identifizieren und zu maskieren, und dann eine Reihe vielfältiger, plausibler Ablenkoptionen zu generieren. Dies ermöglicht es uns, reasoning-reiche, nicht verifizierbare Korpora zu nutzen, die typischerweise von früheren RLVR-Datenerstellungen ausgeschlossen wurden (z.B. Wissenschaftslehrbücher), um GooseReason-0.7M zu synthetisieren – einen groß angelegten RLVR-Datensatz mit über 0,7 Millionen Aufgaben aus den Bereichen Mathematik, Programmierung und allgemeine Wissenschaft. Empirisch belebt GooseReason Modelle effektiv wieder, die auf bestehenden RLVR-Daten gesättigt sind, erzielt robuste, anhaltende Gewinne unter kontinuierlichem RL und erreicht neue state-of-the-art Ergebnisse für 1,5B- und 4B-Instruct-Modelle über 15 verschiedene Benchmarks hinweg. Schließlich setzen wir Golden Goose in einem realen Szenario ein, indem wir RLVR-Aufgaben aus rohen FineWeb-Scraps für den Cybersicherheitsbereich synthetisieren, wo bisher keine RLVR-Daten existierten. Das Training von Qwen3-4B-Instruct auf den resultierenden Daten GooseReason-Cyber setzt einen neuen state-of-the-art Wert in der Cybersicherheit und übertrifft ein 7B-Modell mit Domänenspezialisierung, das umfangreiches domänenspezifisches Pre-Training und Post-Training durchlaufen hat. Dies unterstreicht das Potenzial, RLVR-Daten automatisch zu skalieren, indem man reichlich vorhandene, reasoning-reiche, nicht verifizierbare Internettexte nutzt.
Große Sprachmodelle (LLMs) werden zunehmend als werkzeuggestützte Agenten für mehrstufige Entscheidungsfindung eingesetzt, doch die Ausbildung robuster werkzeugnutzender Agenten bleibt eine Herausforderung. Bestehende Methoden erfordern nach wie vor manuelle Eingriffe, sind auf nicht verifizierbare simulierte Umgebungen angewiesen, stützen sich ausschließlich auf either supervised Fine-Tuning (SFT) oder Reinforcement Learning (RL) und haben Schwierigkeiten mit stabilem, langfristigem Lernen über mehrere Interaktionen hinweg. Um diese Herausforderungen zu bewältigen, stellen wir ASTRA vor, ein vollständig automatisiertes End-to-End-Framework zur Ausbildung werkzeuggestützter Sprachmodell-Agenten durch skalierbare Datensynthese und verifizierbares Reinforcement Learning. ASTRA integriert zwei komplementäre Komponenten. Erstens eine Pipeline, die die statische Topologie von Werkzeugaufrufgraphen nutzt, um diverse, strukturell fundierte Trajektorien zu synthetisieren und so breite, übertragbare Werkzeugnutzungskompetenz zu vermitteln. Zweitens ein Framework zur Umgebungssynthese, das die reiche, kompositionelle Topologie menschlichen semantischen Denkens erfasst und zerlegte Frage-Antwort-Spuren in unabhängige, code-ausführbare und regelverifizierbare Umgebungen umwandelt, was deterministisches Multi-Turn-RL ermöglicht. Auf dieser Grundlage entwickeln wir eine einheitliche Trainingsmethodik, die SFT mit Online-RL unter Verwendung von Trajektorien-belohnungen integriert, um Aufgabenabschluss und Interaktionseffizienz auszugleichen. Experimente mit mehreren Benchmarks für agentische Werkzeugnutzung zeigen, dass mit ASTRA trainierte Modelle auf vergleichbarer Skala state-of-the-art Leistung erzielen und sich geschlossenen Quellsystemen annähern, während sie die Kernfähigkeit zum logischen Schlussfolgern bewahren. Wir veröffentlichen die vollständigen Pipelines, Umgebungen und trainierten Modelle unter https://github.com/LianjiaTech/astra.
Das NVFP4-Format mit geringerer Präzision, das hardwaremäßig von NVIDIA Blackwell GPUs unterstützt wird, verspricht erstmals end-to-end vollständig quantisierte Vortrainierung massiver Modelle wie LLMs zu ermöglichen. Dennoch opfern bestehende quantisierte Trainingsmethoden immer noch einen Teil der Darstellungskapazität dieses Formats zugunsten einer genaueren, unverzerrten quantisierten Gradientenschätzung durch stochastisches Runden (SR), was eine merkliche Genauigkeit im Vergleich zum Standardtraining mit FP16 und FP8 kostet. In diesem Beitrag verbessern wir den Stand der Technik für quantisiertes Training mit NVFP4 durch eine neuartige, unverzerrte Quantisierungsroutine für mikroskalierte Formate, genannt MS-EDEN, die einen mehr als 2-mal geringeren Quantisierungsfehler als SR aufweist. Wir integrieren sie in ein neuartiges vollständig-NVFP4-Quantisierungsschema für lineare Schichten, genannt Quartet II. Wir zeigen analytisch, dass Quartet II durchweg eine bessere Gradientenschätzung über alle wichtigen Matrixmultiplikationen hinweg erreicht, sowohl im Vorwärts- als auch im Rückwärtsdurchlauf. Darüber hinaus harmoniert unser Vorschlag gut mit recenten Trainingsverbesserungen, die speziell auf NVFP4 abzielen. Wir validieren Quartet II weiterhin anhand end-to-end LLM-Trainings mit bis zu 1,9 Mrd. Parametern auf 38 Mrd. Tokens. Wir stellen Kernel für die Ausführung auf NVIDIA Blackwell GPUs bereit, die eine bis zu 4,2-fache Beschleunigung gegenüber BF16 erreichen. Unser Code ist verfügbar unter https://github.com/IST-DASLab/Quartet-II.
Große Reasoning-Modelle (LRMs) erzielen bemerkenswerte Leistungen, indem sie Verstärkendes Lernen (RL) auf Reasoning-Aufgaben anwenden, um lange Ketten von Denkschritten (Chain-of-Thought, CoT) zu generieren. Diese Überoptimierung priorisiert jedoch oft die Befolgung von Anweisungen, was Modelle anfällig für schädliche Prompts macht. Um diesen Sicherheitsverlust abzumildern, setzen aktuelle Ansätze auf externe Lehrer-Distillation, was jedoch eine Verteilungsdiskrepanz einführt, die das ursprüngliche Reasoning beeinträchtigt. Wir schlagen ThinkSafe vor, einen Rahmen zur selbstgenerierten Ausrichtung, der die Sicherheitsausrichtung ohne externe Lehrer wiederherstellt. Unsere zentrale Erkenntnis ist, dass Modelle, obwohl die Befolgung Sicherheitsmechanismen unterdrückt, oft latentes Wissen zur Schadenserkenntnis bewahren. ThinkSafe erschließt dieses durch leichtgewichtige Verweigerungssteuerung, die das Modell anleitet, sicherheitsrelevante Reasoning-Spuren innerhalb der eigenen Verteilung zu generieren. Ein Fine-Tuning mit diesen selbstgenerierten Antworten richtet das Modell effektiv neu aus und minimiert dabei die Verteilungsverschiebung. Experimente mit DeepSeek-R1-Distill und Qwen3 zeigen, dass ThinkSafe die Sicherheit signifikant verbessert und gleichzeitig die Reasoning-Fähigkeit erhält. Bemerkenswerterweise erreicht es eine überlegene Sicherheit und vergleichbares Reasoning zu GRPO bei deutlich reduziertem Rechenaufwand. Code, Modelle und Datensätze sind verfügbar unter https://github.com/seanie12/ThinkSafe.git.
Während Chain-of-Thought (CoT) die Leistung von Large Language Models (LLMs) erheblich steigert, führen explizite Reasoning-Ketten zu erheblicher Rechenredundanz. Jüngste latente Reasoning-Methoden versuchen dies zu mildern, indem sie Denkprozesse in den latenten Raum komprimieren, leiden jedoch oft unter erheblichen Leistungseinbußen aufgrund fehlender geeigneter Komprimierungsanleitung. In dieser Studie schlagen wir Rendered CoT-Guided Variational Latent Reasoning (ReGuLaR) vor, ein einfaches, aber neuartiges latentes Lernparadigma, das dieses Problem löst. Grundsätzlich formulieren wir latentes Reasoning innerhalb des Variational Auto-Encoding (VAE)-Frameworks, wobei wir den aktuellen latenten Reasoning-Zustand aus der Posterior-Verteilung unter Berücksichtigung vorheriger Zustände sampeln. Konkret rendern wir beim Erlernen dieses variationalen latenten Reasoning-Modells explizite Reasoning-Ketten als Bilder, aus denen wir dichte visuell-semantische Repräsentationen extrahieren, um die Posterior-Verteilung zu regularisieren und so eine effiziente Kompression mit minimalem Informationsverlust zu erreichen. Umfangreiche Experimente zeigen, dass ReGuLaR bestehende latente Reasoning-Methoden sowohl in Bezug auf Recheneffizienz als auch Reasoning-Effektivität signifikant übertrifft und CoT sogar durch multimodales Reasoning übertrifft, was eine neue und aufschlussreiche Lösung für latentes Reasoning bietet. Code: https://github.com/FanmengWang/ReGuLaR.
Test-Time Training bietet einen vielversprechenden Ansatz, um die Fähigkeit zum logischen Denken großer Sprachmodelle (LLMs) zu verbessern, indem das Modell ausschließlich anhand der Testfragen angepasst wird. Bestehende Methoden stoßen jedoch bei schwierigen Denkaufgaben aus zwei Gründen an Grenzen: Rohe Testfragen sind oft zu schwierig, um hochwertige Pseudo-Labels zu liefern, und die begrenzte Größe von Testdatensätzen macht kontinuierliche Online-Aktualisierungen anfällig für Instabilität. Um diese Einschränkungen zu überwinden, schlagen wir TTCS vor, einen ko-evolvierenden Test-Time-Training-Rahmen. Konkret initialisiert TTCS zwei Strategien aus demselben vortrainierten Modell: einen Frage-Synthesizer und einen Reasoning-Solver. Diese Strategien entwickeln sich durch iterative Optimierung weiter: Der Synthesizer erzeugt fortschreitend anspruchsvollere Fragevarianten, die auf den Testfragen basieren, und erstellt so einen strukturierten Lehrplan, der auf die aktuellen Fähigkeiten des Solvers zugeschnitten ist. Der Solver aktualisiert sich selbst unter Verwendung von Self-Consistency-Belohnungen, die aus mehrfach abgetasteten Antworten auf sowohl ursprüngliche Test- als auch synthetische Fragen berechnet werden. Entscheidend ist, dass das Feedback des Solvers den Synthesizer dazu anleitet, Fragen zu generieren, die mit den aktuellen Fähigkeiten des Modells übereinstimmen, und die generierten Fragevarianten stabilisieren wiederum das Test-Time-Training des Solvers. Experimente zeigen, dass TTCS die Reasoning-Fähigkeit auf anspruchsvollen mathematischen Benchmarks konsistent stärkt und auf allgemeine Domänen-Aufgaben über verschiedene LLM-Backbones hinweg überträgt, was einen skalierbaren Weg für die dynamische Konstruktion von Test-Time-Lehrplänen für selbst-evolvierende Systeme aufzeigt. Unser Code und Implementierungsdetails sind unter https://github.com/XMUDeepLIT/TTCS verfügbar.
Diese Arbeit zeigt auf, dass Videoweltenmodellierung in Verbindung mit Vision-Sprache-Vortraining eine neue und eigenständige Grundlage für Robotik-Lernen schafft. Intuitiv ermöglichen Videoweltenmodelle die Vorausschau naher Zukunftsszenarien durch das Verständnis von Kausalität zwischen Aktionen und visueller Dynamik. Inspiriert davon führen wir LingBot-VA ein, ein autoregressives Diffusionsframework, das gleichzeitig Bildsequenzvorhersage und Policy-Ausführung erlernt. Unser Modell umfasst drei speziell entwickelte Komponenten: (1) einen gemeinsamen latenten Raum zur Integration von Visons- und Aktions-Tokens, realisiert durch eine Mixture-of-Transformers (MoT)-Architektur, (2) einen Closed-Loop-Rollout-Mechanismus für kontinuierlichen Erhalt von Umweltfeedback mittels echter Beobachtungen, (3) eine asynchrone Inferenzpipeline zur Parallelisierung von Aktionsvorhersage und Motorausführung für effiziente Steuerung. Die Evaluation in Simulationsbenchmarks und realen Szenarien zeigt vielversprechende Ergebnisse bei Langzeithandhabungsaufgaben, hoher Dateneffizienz nach dem Training und starker Generalisierbarkeit auf neue Konfigurationen. Code und Modell sind öffentlich verfügbar, um die Forschungsgemeinschaft zu unterstützen.
Langfristiges agentenbasiertes Denken erfordert eine effektive Komprimierung wachsender Interaktionsverläufe in ein begrenztes Kontextfenster. Die meisten bestehenden Gedächtnissysteme serialisieren Verläufe als Text, bei dem die Token-Kosten einheitlich sind und linear mit der Länge skalieren, wodurch oft knappes Budget für unwesentliche Details aufgewendet wird. Daher stellen wir MemOCR vor, einen multimodalen Gedächtnisagenten, der das langfristige Denken unter strengen Kontextbudgets verbessert, indem er Speicherplatz durch visuelle Darstellung mit adaptiver Informationsdichte zuweist. Konkret verwaltet MemOCR einen strukturierten Rich-Text-Speicher (z.B. mit Überschriften, Hervorhebungen) und rendert diesen in ein Bild, das der Agent zum Speicherzugriff konsultiert, wobei visuell entscheidende Beweise priorisiert und nebensächliche Details aggressiv komprimiert werden. Um Robustheit über verschiedene Speicherbudgets hinweg zu gewährleisten, trainieren wir MemOCR mit bestärkendem Lernen unter budgetbewussten Zielvorgaben, die den Agenten unterschiedlichen Komprimierungsstufen aussetzen. In Benchmarks für mehrstufige und einstufige Frage-Antwort-Aufgaben mit langem Kontext übertrifft MemOCR starke textbasierte Baseline-Modelle und erreicht eine effektivere Kontextnutzung unter extremen Budgetbeschränkungen.
Aktuelle State-of-the-Art-Einbettungsmodelle werden zunehmend aus Decoder-only Large Language Model (LLM)-Architekturen abgeleitet, die mittels kontrastiven Lernens angepasst werden. Angesichts des Aufkommens von Reasoning-Modellen, die durch Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) trainiert werden, stellt sich eine naheliegende Frage: Übersetzt sich ein verbessertes Reasoning in überlegene semantische Repräsentationen, wenn diese Modelle als Initialisierungen für Einbettungen dienen? Entgegen der Erwartung zeigt unsere Auswertung auf MTEB und BRIGHT einen **Null-Effekt**: Einbettungsmodelle, die auf RLVR-optimierten Architekturen initialisiert wurden, erzielen keinen konsistenten Leistungsvorteil gegenüber ihren Basis-Pendants, wenn identische Trainingsrezepte angewendet werden. Um dieses Paradoxon aufzulösen, führen wir die **H**ierarchische **R**epräsentations-**Ä**hnlichkeits-**A**nalyse (HRSA) ein, ein Framework, das Ähnlichkeit über Repräsentations-, Geometrie- und Funktionsebenen hinweg zerlegt. HRSA zeigt, dass RLVR zwar eine irreversible Reorganisation der lokalen Geometrie des latenten Mannigfaltigkeit sowie einen reversiblen Koordinatenbasis-Drift induziert, jedoch die globale Mannigfaltigkeitsgeometrie und die lineare Auslesefunktion erhält. Infolgedessen erzwingt das nachfolgende kontrastive Lernen eine starke Angleichung zwischen basis- und reasoning-initialisierten Modellen – ein Phänomen, das wir als **Manifold Realignment** (Mannigfaltigkeits-Neujustierung) bezeichnen. Empirisch legen unsere Ergebnisse nahe, dass RLVR – im Gegensatz zum Supervised Fine-Tuning (SFT) – Trajektorien innerhalb einer bestehenden semantischen Landschaft optimiert, anstatt die Landschaft selbst grundlegend umzustrukturieren.
Große Sprachmodelle (LLMs) werden typischerweise auf Sicherheit unter Einzelabfrage- oder Niedrigbudget-Adversarial-Prompting evaluiert, was das reale Risiko unterschätzt. In der Praxis können Angreifer großskaliges paralleles Sampling ausnutzen, um ein Modell wiederholt zu testen, bis eine schädliche Antwort erzeugt wird. Während neuere Arbeiten zeigen, dass der Angriffserfolg mit wiederholtem Sampling steigt, bleiben prinzipielle Methoden zur Vorhersage großskaliger adversarieller Risiken begrenzt. Wir schlagen eine skalierungsbewusste Best-of-N-Risikoschätzung, SABER, zur Modellierung der Jailbreak-Anfälligkeit unter Best-of-N-Sampling vor. Wir modellieren probenbezogene Erfolgswahrscheinlichkeiten mittels einer Beta-Verteilung, dem konjugierten Prior der Bernoulli-Verteilung, und leiten ein analytisches Skalengesetz ab, das eine zuverlässige Extrapolation der Angriffserfolgsrate bei großem N aus Messungen mit kleinem Budget ermöglicht. Unter Verwendung von nur n=100 Proben sagt unser verankerter Schätzer ASR@1000 mit einem mittleren absoluten Fehler von 1,66 vorher, verglichen mit 12,04 für die Baseline, was einer Reduktion des Schätzfehlers um 86,2 % entspricht. Unsere Ergebnisse zeigen heterogene Risikoprofile und belegen, dass Modelle, die unter Standardevaluation robust erscheinen, unter parallelem adversariellem Druck eine rasche nichtlineare Risikoverstärkung erfahren können. Diese Arbeit bietet eine kostengünstige, skalierbare Methodik für realistische Sicherheitsbewertungen von LLMs. Wir werden unseren Code und unsere Evaluierungsskripte mit der Veröffentlichung für die zukünftige Forschung freigeben.
Trotz des nicht-autoregressiven Potenzials von Diffusions-Sprachmodellen (dLLMs) weisen bestehende Dekodierungsstrategien eine positionsbedingte Verzerrung auf und erschließen das Potenzial arbiträrer Generierung nicht vollständig. In dieser Arbeit untersuchen wir die inhärenten spektralen Eigenschaften von dLLMs und präsentieren die erste Frequenzbereichsanalyse, die zeigt, dass niederfrequente Komponenten in verborgenen Zuständen primär globale Strukturinformationen und Langreichweiten-Abhängigkeiten kodieren, während hochfrequente Komponenten für die Charakterisierung lokaler Details verantwortlich sind. Aufbauend auf dieser Beobachtung schlagen wir FourierSampler vor, das einen Frequenzbereichs-Gleitfenstermechanismus nutzt, um das Modell dynamisch zu einer "Struktur-zu-Detail"-Generierung zu führen. FourierSampler übertrifft andere Inferenzverbesserungsstrategien auf LLADA und SDAR und erzielt relative Verbesserungen von 20,4 % bei LLaDA1.5-8B und 16,0 % bei LLaDA-8B-Instruct. Es übertrifft insbesondere ähnlich große autoregressive Modelle wie Llama3.1-8B-Instruct deutlich.
Wir stellen PaddleOCR-VL-1.5 vor, ein verbessertes Modell, das auf OmniDocBench v1.5 eine neue state-of-the-art (SOTA)-Genauigkeit von 94,5 % erreicht. Um die Robustheit gegenüber realen physikalischen Verzerrungen wie Scannen, Schräglage, Verzerrung, Bildschirmfotografie und Beleuchtung rigoros zu bewerten, schlagen wir den Real5-OmniDocBench-Benchmark vor. Experimentelle Ergebnisse zeigen, dass dieses erweiterte Modell auf dem neu kuratierten Benchmark SOTA-Leistung erzielt. Darüber hinaus erweitern wir die Fähigkeiten des Modells durch die Integration von Siegelerkennung und Text-Spotting-Aufgaben, wobei es weiterhin ein ultrakompaktes 0,9B-VLM mit hoher Effizienz bleibt. Code: https://github.com/PaddlePaddle/PaddleOCR
Kürzlich entwickelte GRPO-basierte Ansätze, die auf Flow-Matching-Modellen aufbauen, haben bemerkenswerte Verbesserungen bei der Ausrichtung an menschlichen Präferenzen für die Text-zu-Bild-Generierung gezeigt. Dennoch leiden sie weiterhin unter dem Problem der spärlichen Belohnung: Die Endbelohnung der gesamten Denoising-Trajektorie wird auf alle Zwischenschritte angewendet, was zu einer Diskrepanz zwischen den globalen Feedback-Signalen und den genauen feinkörnigen Beiträgen in den intermediären Denoising-Schritten führt. Um dieses Problem zu adressieren, stellen wir DenseGRPO vor, einen neuartigen Rahmen, der menschliche Präferenzen mit dichten Belohnungen in Einklang bringt, indem er den feinkörnigen Beitrag jedes Denoising-Schritts bewertet. Konkret umfasst unser Ansatz zwei Schlüsselkomponenten: (1) Wir schlagen vor, den schrittweisen Belohnungszuwachs als dichte Belohnung für jeden Denoising-Schritt vorherzusagen, indem wir ein Belohnungsmodell auf die intermediären sauberen Bilder mittels eines ODE-basierten Ansatzes anwenden. Dieser Ansatz gewährleistet eine Übereinstimmung zwischen den Feedback-Signalen und den Beiträgen einzelner Schritte und erleichtert so ein effektives Training; und (2) basierend auf den geschätzten dichten Belohnungen wird ein Nachteil der Diskrepanz zwischen der einheitlichen Explorationseinstellung und der zeitlich variierenden Rauschintensität in bestehenden GRPO-basierten Methoden aufgedeckt, was zu einem unangemessenen Explorationsraum führt. Daher schlagen wir ein belohnungsbasiertes Schema vor, um den Explorationsraum zu kalibrieren, indem wir eine zeitstempelspezifische Stochastizitäts-Injektion im SDE-Sampler adaptiv anpassen und so einen geeigneten Explorationsraum zu allen Zeitpunkten sicherstellen. Umfangreiche Experimente auf mehreren Standard-Benchmarks demonstrieren die Wirksamkeit des vorgeschlagenen DenseGRPO und unterstreichen die kritische Rolle valider dichter Belohnungen bei der Ausrichtung von Flow-Matching-Modellen.
Aktuelle Studien haben den Einsatz vortrainierter Vision-Foundation-Modelle (VFMs) wie DINO für generative Autoencoder untersucht und dabei eine starke generative Leistung aufgezeigt. Leider leiden bestehende Ansätze oft unter einer begrenzten Rekonstruktionstreue aufgrund des Verlusts hochfrequenter Details. In dieser Arbeit stellen wir den DINO-Spherical-Autoencoder (DINO-SAE) vor, ein Framework, das semantische Repräsentationen und pixelgenaue Rekonstruktion verbindet. Unsere zentrale Erkenntnis ist, dass semantische Informationen in kontrastiven Repräsentationen hauptsächlich in der Richtung der Merkmalsvektoren kodiert sind, während das Erzwingen strikter Betragsübereinstimmung den Encoder daran hindern kann, feinkörnige Details zu erhalten. Um dies zu adressieren, führen wir ein hierarchisches convolutionelles Patch-Embedding-Modul ein, das die Erhaltung lokaler Strukturen und Texturen verbessert, sowie ein Kosinus-Ähnlichkeits-Alignment-Ziel, das semantische Konsistenz erzwingt, während es flexible Merkmalsbeträge zur Detailerhaltung ermöglicht. Darüber hinaus nutzen wir die Beobachtung, dass Repräsentationen SSL-basierter Foundation-Modelle intrinsisch auf einer Hypersphäre liegen, und setzen Riemannian Flow Matching ein, um einen Diffusion Transformer (DiT) direkt auf dieser sphärischen latenten Mannigfaltigkeit zu trainieren. Experimente auf ImageNet-1K zeigen, dass unser Ansatz state-of-the-art Rekonstruktionsqualität erreicht, mit 0,37 rFID und 26,2 dB PSNR, bei gleichzeitig starker semantischer Ausrichtung an das vortrainierte VFM. Besonders bemerkenswert ist, dass unser auf Riemannian Flow Matching basierender DiT eine effiziente Konvergenz aufweist und einen gFID von 3,47 nach 80 Epochen erreicht.
Charakterbildanimation zielt darauf ab, hochwertige Videos zu synthetisieren, indem Bewegungen aus einer Treibersequenz auf ein statisches Referenzbild übertragen werden. Trotz jüngster Fortschritte leiden bestehende Methoden unter zwei grundlegenden Herausforderungen: (1) suboptimale Bewegungsinjektionsstrategien, die zu einem Kompromiss zwischen Identitätserhaltung und Bewegungskonsistenz führen (sich als "Wippeffekt" manifestieren), und (2) eine zu starke Abhängigkeit von expliziten Poseprioritäten (z.B. Skeletten), die komplexe Dynamiken unzureichend erfassen und die Generalisierung auf beliebige, nicht-humanoide Charaktere behindern. Um diese Herausforderungen zu bewältigen, stellen wir DreamActor-M2 vor, ein universelles Animationsframework, das Bewegungskonditionierung als ein In-Context-Learning-Problem neu konzipiert. Unser Ansatz folgt einem Zwei-Stufen-Paradigma. Zunächst überbrücken wir die Eingabemodalitätslücke, indem wir Referenzerscheinungsbilder und Bewegungshinweise in einen einheitlichen latenten Raum fusionieren. Dies ermöglicht dem Modell, unter Ausnutzung der generativen Prioritäten von Fundamentalmodellen, gemeinsam über räumliche Identität und zeitliche Dynamik zu schlussfolgern. Zweitens führen wir eine selbstverstärkende Datensynthese-Pipeline ein, die pseudo-übergreifende Identitätstrainingspaare kuratiert und so einen nahtlosen Übergang von posenabhängiger Steuerung zu direkter, end-to-end RGB-gesteuerter Animation ermöglicht. Diese Strategie verbessert die Generalisierung über verschiedene Charaktere und Bewegungsszenarien hinweg erheblich. Um eine umfassende Evaluation zu ermöglichen, führen wir außerdem den AW Bench ein, einen vielseitigen Benchmark, der ein breites Spektrum an Charaktertypen und Bewegungsszenarien abdeckt. Umfangreiche Experimente belegen, dass DreamActor-M2 state-of-the-art Leistung erzielt, überlegene visuelle Qualität liefert und eine robuste domänenübergreifende Generalisierung ermöglicht. Projektseite: https://grisoon.github.io/DreamActor-M2/
Reinforcement Learning from Human Feedback (RLHF) ist eine zentrale Technik zur Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Präferenzen, ist jedoch anfällig für Reward-Overoptimierung, bei der Policymodelle an das Reward-Modell überanpassen, indem sie trügerische Belohnungsmuster ausnutzen, anstatt die menschliche Intention treu zu erfassen. Bisherige Gegenmaßnahmen stützen sich hauptsächlich auf oberflächliche semantische Informationen und können die Fehlausrichtung zwischen dem Reward-Modell (RM) und dem Policymodell, die durch kontinuierliche Policy-Verteilungsverschiebungen verursacht wird, nicht effizient beheben. Dies führt unweigerlich zu einer zunehmenden Belohnungsdifferenz, die die Reward-Overoptimierung verschärft. Um diese Einschränkungen zu adressieren, führen wir R2M (Real-Time Aligned Reward Model) ein, einen neuartigen schlanken RLHF-Rahmen. R2M geht über einfache Reward-Modelle hinaus, die ausschließlich von den semantischen Repräsentationen eines vortrainierten LLMs abhängen. Stattdessen nutzt es die sich entwickelnden versteckten Zustände der Policy (sogenanntes Policy-Feedback), um sich mit der Echtzeit-Verteilungsverschiebung der Policy während des RL-Prozesses abzugleichen. Diese Arbeit weist auf eine vielversprechende neue Richtung hin, um die Leistung von Reward-Modellen durch Echtzeit-Nutzung von Feedback von Policymodellen zu verbessern.
Verstärkendes Lernen mit verifizierbaren Belohnungen hat sich als leistungsstarkes Paradigma für das Trainieren intelligenter Agenten etabliert. Bisherige Methoden verwenden jedoch typischerweise binäre Belohnungen, die Qualitätsunterschiede zwischen Trajektorien mit identischen Ergebnissen nicht erfassen können und dadurch potenzielle Vielfalt im Lösungsraum übersehen. Inspiriert vom „Sweet Spot“-Konzept im Tennis – der zentralen Region des Schlägers, die optimale Schlageffekte erzeugt – führen wir Sweet Spot Learning (SSL) ein, einen neuartigen Rahmen, der differenzierte Leitlinien für die Agentenoptimierung bietet. SSL folgt einem einfachen, aber effektiven Prinzip: progressiv verstärkte, gestaffelte Belohnungen lenken die Policy in Richtung der Sweet-Spot-Region des Lösungsraums. Dieses Prinzip passt sich natürlich verschiedenen Aufgaben an: visuelle Wahrnehmungsaufgaben nutzen distanzgestaffelte Modellierung, um Nähe zu belohnen, während komplexe Reasoning-Aufgaben schrittweise Fortschritte in Richtung vielversprechender Lösungen honorieren. Wir zeigen theoretisch, dass SSL die Ordnung optimaler Lösungen bewahrt und das Gradienten-Signal-Rausch-Verhältnis verbessert, wodurch eine zielgerichtetere Optimierung gefördert wird. Umfangreiche Experimente in den Bereichen GUI-Wahrnehmung, Kurz-/Langzeitplanung und komplexem Reasoning zeigen konsistente Verbesserungen gegenüber starken Baseline-Modellen auf 12 Benchmarks, mit bis zu 2,5-fachen Steigerungen der Probeneffizienz und effektiver übertragbarer Leistung zwischen Aufgaben. Unsere Arbeit etabliert SSL als allgemeingültiges Prinzip für das Training leistungsfähiger und robuster Agenten.
Autoregressive (AR) große Audio-Sprachmodelle (LALMs) wie Qwen-2.5-Omni haben eine hohe Leistung im Bereich des Audioverständnisses und der Interaktion erreicht, doch ihre Skalierung bleibt in Bezug auf Daten und Rechenaufwand kostspielig, und die streng sequentielle Decodierung schränkt die Inferenzeffizienz ein. Diffusionsgroßsprachmodelle (dLLMs) haben kürzlich gezeigt, dass sie effektiv begrenzte Trainingsdaten nutzen können, und frühere Arbeiten zu DIFFA deuten darauf hin, dass der Ersatz eines AR-Rückgrats durch ein Diffusionsmodell das Audioverständnis unter vergleichbaren Bedingungen erheblich verbessern kann, allerdings bisher nur im Proof-of-Concept-Maßstab ohne groß angelegtes Instruction Tuning, Preference Alignment oder praktische Decodierschemata. Wir stellen DIFFA-2 vor, ein praxistaugliches, diffusionsbasiertes LALM für allgemeines Audioverständnis. DIFFA-2 verbessert den Sprachencoder, setzt duale semantische und akustische Adapter ein und wird mit einem vierstufigen Curriculum trainiert, das semantische und akustische Ausrichtung, groß angelegtes supervised Fine-Tuning und varianzreduzierte Preference Optimization kombiniert – unter ausschließlicher Verwendung vollständig quelloffener Korpora. Experimente auf MMSU, MMAU und MMAR zeigen, dass DIFFA-2 durchgängig Verbesserungen gegenüber DIFFA erzielt und mit starken AR-LALMs unter praktischen Trainingsbudgets konkurrieren kann, was die Eignung diffusionsbasierter Modellierung als tragfähiges Rückgrat für großskaliges Audioverständnis untermauert. Unser Code ist verfügbar unter https://github.com/NKU-HLT/DIFFA.git.
Große Sprachmodelle (LLMs) zeigen bemerkenswerte Fähigkeiten, doch ihre stochastische Next-Token-Prädiktion erzeugt logische Inkonsistenzen und Reward Hacking, die formale symbolische Systeme vermeiden. Um diese Lücke zu schließen, führen wir einen formalen logikverifikationsgesteuerten Rahmen ein, der formale symbolische Verifikation dynamisch mit dem natürlichen Sprachgenerierungsprozess verzahnt und Echtzeit-Feedback zur Erkennung und Korrektur von Fehlern bereitstellt. Im Unterschied zu früheren neuro-symbolischen Methoden, die durch passive nachträgliche Validierung eingeschränkt waren, bestraft unser Ansatz aktiv Zwischenfehlschlüsse während der Reasoning-Kette. Wir operationalisieren diesen Rahmen über eine neuartige zweistufige Trainingspipeline, die formal logikverifikationsgesteuertes supervidiertes Fine-Tuning und Policy-Optimierung synergistisch verbindet. Eine umfassende Evaluation auf sechs Benchmarks aus den Bereichen mathematisches, logisches und allgemeines Reasoning zeigt, dass unsere 7B- und 14B-Modelle state-of-the-art Baseline-Modelle durchschnittlich um 10,4 % bzw. 14,2 % übertreffen. Diese Ergebnisse bestätigen, dass formale Verifikation als skalierbarer Mechanismus dienen kann, um die Leistungsgrenzen fortschrittlichen LLM-Reasonings signifikant zu erweitern.
VQ-basierte Bildgenerierung folgt typischerweise einer Zwei-Stufen-Pipeline: Ein Tokenizer kodiert Bilder in diskrete Tokens, und ein generatives Modell erlernt deren Abhängigkeiten zur Rekonstruktion. Verbesserte Tokenisierung in der ersten Stufe steigert jedoch nicht zwangsläufig die Generierung in der zweiten Stufe, da bestehende Methoden keine Abhängigkeitsbedingungen für die Tokens vorgeben. Diese Diskrepanz zwingt das generative Modell, aus ungeordneten Verteilungen zu lernen, was zu Verzerrungen und schwacher Kohärenz führt. Um dies zu adressieren, schlagen wir native visuelle Tokenisierung vor, die kausale Abhängigkeiten während der Tokenisierung erzwingt. Aufbauend auf dieser Idee führen wir NativeTok ein – ein Framework, das effiziente Rekonstruktion erreicht und gleichzeitig relationale Constraints in Token-Sequenzen einbettet. NativeTok besteht aus: (1) einem Meta Image Transformer (MIT) zur latenten Bildmodellierung und (2) einem Mixture of Causal Expert Transformer (MoCET), bei dem jeder leichtgewichtige Expertenblock einen einzelnen Token unter Bedingung vorheriger Tokens und latenter Merkmale generiert. Wir entwickeln zudem eine Hierarchische Native Trainingsstrategie, die nur neue Expertenblöcke aktualisiert und so Trainingseffizienz gewährleistet. Umfangreiche Experimente belegen die Wirksamkeit von NativeTok.
Große Sprachmodelle (LLMs) können Werkzeuge effektiv aufrufen, bleiben jedoch in der Mehrschritt-Ausführung anfällig: Nach einem Werkzeugaufruffehler degenerieren kleinere Modelle oft zu repetitiven, ungültigen Wiederholungsaufrufen, da sie nicht in der Lage sind, Fehlerrückmeldungen zu interpretieren und sich selbst zu korrigieren. Diese Anfälligkeit behindert den zuverlässigen Einsatz in der Praxis, wo Ausführungsfehler während der Werkzeuginteraktionen inhärent unvermeidlich sind. Wir identifizieren eine zentrale Schwäche aktueller Ansätze: Standardmäßiges bestärkendes Lernen (RL) behandelt Fehler als spärliche negative Belohnungen, bietet aber keine Anleitung zur Fehlerbehebung, während vorab gesammelte synthetische Fehlerkorrektur-Datensätze unter einer Verteilungsdiskongruenz zu den on-policy-Fehlermodi des Modells leiden. Um diese Lücke zu schließen, schlagen wir Fission-GRPO vor, einen Rahmen, der Ausführungsfehler in korrektive Supervision innerhalb der RL-Trainingsschleife umwandelt. Unser Kernmechanismus spaltet jede fehlgeschlagene Trajektorie durch Anreicherung mit diagnostischem Feedback eines feinabgestimmten Fehlersimulators in eine neue Trainingsinstanz auf und resampelt dann on-policy-Wiederherstellungsrollouts. Dies ermöglicht es dem Modell, aus den spezifischen Fehlern zu lernen, die es während der Exploration macht, anhand statischer, vorab gesammelter Fehlerfälle. Auf BFCL v4 Multi-Turn verbessert Fission-GRPO die Fehlerwiederherstellungsrate von Qwen3-8B um absolut 5,7 % und erzielt dabei entscheidend einen Gesamtgenauigkeitsgewinn von 4 % (42,75 % zu 46,75 %) gegenüber GRPO, wobei es spezialisierte Werkzeugnutzungs-Agenten übertrifft.
Während Large Language Models (LLMs) vielversprechende Ansätze in der Softwareentwicklung gezeigt haben, beschränkt sich ihre Anwendung auf Unit-Tests weitgehend auf isolierte Testgenerierung oder Oracle-Vorhersage und vernachlässigt die umfassendere Herausforderung der Testsuite-Wartung. Wir stellen TAM-Eval (Test Automated Maintenance Evaluation) vor, ein Framework und Benchmark, das entwickelt wurde, um die Modellleistung in drei zentralen Testszenarien der Wartung zu bewerten: Erstellung, Reparatur und Aktualisierung von Testsuiten. Im Gegensatz zu früheren Arbeiten, die auf Funktionsebene beschränkt sind, operiert TAM-Eval auf Testdateiebene, behält jedoch während der isolierten Evaluation Zugriff auf den vollständigen Repository-Kontext, was realistischere Wartungsabläufe widerspiegelt. Unser Benchmark umfasst 1.539 automatisch extrahierte und validierte Szenarien aus Python-, Java- und Go-Projekten. TAM-Eval unterstützt systemagnostische Evaluation sowohl von reinen LLMs als auch von agentenbasierten Workflows mittels eines referenzfreien Protokolls, das auf Testsuite-Bestehensrate, Code-Coverage und Mutationstesting basiert. Empirische Ergebnisse zeigen, dass state-of-the-art LLMs nur begrenzte Fähigkeiten in realistischen Testwartungsprozessen aufweisen und lediglich marginale Verbesserungen der Testeffektivität erzielen. Wir veröffentlichen TAM-Eval als Open-Source-Framework zur Unterstützung zukünftiger Forschung im Bereich automatisiertes Softwaretesting. Unsere Daten und unser Code sind öffentlich verfügbar unter https://github.com/trndcenter/TAM-Eval.
Wir stellen RM-RF vor, ein leichtgewichtiges Reward-Modell für die ausführungsfreie Bewertung automatisch generierter Unit-Tests. Anstatt Kandidatentests wiederholt zu kompilieren und auszuführen, sagt RM-RF – allein aus Quell- und Testcode – drei ausführungsbezogene Signale vorher: (1) ob die erweiterte Testsuite erfolgreich kompiliert und läuft, (2) ob die generierten Testfälle die Codeabdeckung erhöhen und (3) ob die generierten Testfälle die Mutationsabdeckungsrate (Mutation Kill Rate) verbessern. Zur Schulung und Bewertung von RM-RF stellen wir einen mehrsprachigen Datensatz (Java, Python, Go) von Fokusdateien, Testdateien und gekennzeichneten Kandidatentest-Ergänzungen zusammen, die durch eine ausführungsbasierte Pipeline gelabelt wurden, und wir veröffentlichen einen zugehörigen Datensatz und eine Methodik für die vergleichende Bewertung. Wir testeten mehrere Modellfamilien und Feinabstimmungsregime (Zero-Shot, vollständiges Fine-Tuning und PEFT via LoRA) und erreichten einen durchschnittlichen F1-Score von 0,69 über die drei Ziele hinweg. Im Vergleich zu konventionellen Kompilier- und Ausführungsinstrumenten bietet RM-RF eine deutlich geringere Latenz und geringere Infrastrukturkosten bei gleichzeitig wettbewerbsfähiger prädiktiver Treffsicherheit, was eine schnelle, skalierbare Rückmeldung für großskalige Testgenerierung und RL-basierte Codeoptimierung ermöglicht.
Während Multiagentensysteme vielversprechende Ansätze zur Bewältigung komplexer Aufgaben durch Spezialisierung gezeigt haben, steht das gleichzeitige Feinabstimmen mehrerer Agenten vor zwei zentralen Herausforderungen: (1) der Kreditverteilung (Credit Assignment) zwischen den Agenten und (2) der Stichprobeneffizienz aufwändiger Multiagenten-Rollouts. In dieser Arbeit schlagen wir das Feinabstimmen von Multiagentensystemen mit pro-Aktion-Prozessbelohnungen durch KI-Feedback (MAPPA) vor, um beide Probleme anzugehen. Indem MAPPA den einzelnen Aktionen der Agenten und nicht erst dem Aufgabenabschluss Kredit zuweist, ermöglicht es eine feingranulare Überwachung ohne Ground-Truth-Labels und extrahiert gleichzeitig das maximale Trainingssignal aus jedem Rollout. Wir demonstrieren unseren Ansatz anhand von Mathematikwettbewerbsproblemen und werkzeuggestützten Datenanalysaufgaben. Bei unbekannten Mathematikproblemen erzielt MAPPA eine Steigerung von +5,0–17,5 Prozentpunkten (pp) beim AIME und +7,8–17,2 pp beim AMC. Bei Datenanalysaufgaben verbessert unsere Methode die Erfolgsquote um +12,5 pp, während Qualitätsmetriken um bis zu 30 % steigen. Dies bestätigt, dass eine pro-Aktion-Überwachung zu Verbesserungen in verschiedenen Multiagentensystemen und Domänen führen kann. Durch die Bewältigung dieser Herausforderungen macht unsere Arbeit einen ersten Schritt hin zur Skalierung von Multiagentensystemen für komplexe, langfristige Aufgaben mit minimaler menschlicher Überwachung.
Tiefe Suchagenten, die auf großen Sprachmodellen basieren, haben beeindruckende Fähigkeiten bei der mehrstufigen Recherche, dem logischen Schlussfolgern und der Ausführung langfristiger Aufgaben gezeigt. Ihre praktischen Fehlschläge sind jedoch oft auf das Fehlen von Mechanismen zurückzuführen, die Denk- und Retrieval-Zustände überwachen und regulieren, während sich Aufgaben unter Unsicherheit entwickeln. Erkenntnisse aus der kognitiven Neurowissenschaft legen nahe, dass menschliche Metakognition hierarchisch organisiert ist und schnelle Anomalieerkennung mit selektiv ausgelöster, erfahrungsgesteuerter Reflexion integriert. In dieser Arbeit schlagen wir *Deep Search with Meta-Cognitive Monitoring* (DS-MCM) vor, ein Deep-Search-Framework, das um einen expliziten hierarchischen Metakognitions-Überwachungsmechanismus erweitert ist. DS-MCM integriert einen *Fast Consistency Monitor*, der leichtgewichtige Prüfungen der Übereinstimmung zwischen externen Evidenzen und internem Schlussfolgerungsvertrauen durchführt, sowie einen *Slow Experience-Driven Monitor*, der selektiv aktiviert wird, um korrigierende Eingriffe auf Basis von Erfahrungswissen aus historischen Agenten-Trajektorien zu steuern. Durch die direkte Einbettung der Überwachung in den Schlussfolgerungs-Retrieval-Zyklus bestimmt DS-MCM sowohl, wann ein Eingriff gerechtfertigt ist, als auch, wie Korrekturmaßnahmen durch frühere Erfahrungen informiert werden sollten. Experimente über mehrere Deep-Search-Benchmarks und Basis-Modelle hinweg zeigen, dass DS-MCM die Leistung und Robustheit konsistent verbessert.
Bei Probing wird untersucht, welche Informationen in den eingefrorenen Schichtrepräsentationen eines großen Sprachmodells (LLM) kodiert sind, indem ein leichtgewichtiger Prädiktor auf diesen trainiert wird. Über die Analyse hinaus werden Sonden (Probes) oft operational in "Probe-then-Steer"-Pipelines eingesetzt: Ein erlernter Konzeptvektor wird aus einer Sonde extrahiert und durch additive Aktivierungssteuerung injiziert, indem er während des Vorwärtsdurchlaufs zu einer Schichtrepräsentation addiert wird. Die Wirksamkeit dieser Pipeline hängt davon ab, Konzeptvektoren zu schätzen, die genau, unter Ablation richtungsstabil und kostengünstig zu ermitteln sind. Motiviert durch diese Anforderungen schlagen wir RAPTOR (Ridge-Adaptive Logistic Probe) vor, eine einfache L2-regularisierte logistische Sonde, deren validierungsoptimierte Ridge-Stärke Konzeptvektoren aus normalisierten Gewichten liefert. In umfangreichen Experimenten mit instruktionsfinetunten LLMs und menschlich verfassten Konzeptdatensätzen erreicht oder übertrifft RAPTOR starke Baseline-Modelle in der Genauigkeit, erzielt dabei eine vergleichbare Richtungsstabilität und deutlich geringere Trainingskosten; diese quantitativen Ergebnisse werden durch qualitative Demonstrationen der nachgelagerten Steuerung untermauert. Abschließend liefern wir mithilfe des Convex Gaussian Min-max Theorem (CGMT) eine mechanistische Charakterisierung der Ridge-Logistischen Regression in einem idealisierten Gaussian Teacher-Student-Modell im hochdimensionalen Few-Shot-Regime, die erklärt, wie die Strafstärke die Sondengenauigkeit und die Stabilität der Konzeptvektoren vermittelt, und strukturelle Vorhersagen liefert, die qualitativ mit den auf realen LLM-Einbettungen beobachteten Trends übereinstimmen.
Chain-of-Thought (CoT) befähigt große Sprachmodelle (LLMs), komplexe Probleme anzugehen, bleibt jedoch durch die Rechenkosten und den Kollaps von Reasoning-Pfaden eingeschränkt, wenn es auf diskreten Token-Räumen basiert. Jüngste Ansätze des latenten Reasoning versuchen, die Effizienz zu optimieren, indem sie das Reasoning innerhalb kontinuierlicher Hidden States durchführen. Diese Methoden operieren jedoch typischerweise als undurchsichtige End-to-End-Abbildungen von expliziten Reasoning-Schritten zu latenten Zuständen und erfordern oft eine vorab definierte Anzahl latenter Schritte während der Inferenz. In dieser Arbeit stellen wir PLaT (Planning with Latent Thoughts) vor, ein Framework, das latentes Reasoning als Planung neu formuliert, indem es Reasoning und Verbalisierung grundlegend entkoppelt. Wir modellieren Reasoning als eine deterministische Trajektorie latenter Planungszustände, während ein separater Decoder diese Gedanken bei Bedarf in Text überführt. Diese Entkopplung ermöglicht es dem Modell, dynamisch zu bestimmen, wann das Reasoning beendet werden soll, anstatt sich auf feste Hyperparameter zu verlassen. Empirische Ergebnisse auf mathematischen Benchmarks offenbaren einen deutlichen Kompromiss: Während PLaT eine geringere "Greedy"-Genauigkeit als Baseline-Modelle erreicht, zeigt es eine überlegene Skalierbarkeit in Bezug auf die Reasoning-Vielfalt. Dies deutet darauf hin, dass PLaT einen robusten, breiteren Lösungsraum lernt und eine transparente sowie skalierbare Grundlage für die Inferenzzeit-Suche bietet.
Da digitale Umgebungen (Datenverteilung) im Fluss sind und im Laufe der Zeit neue GUI-Daten eintreffen – was neue Domänen oder Auflösungen einführt – verschlechtert sich die Leistung von Agenten, die auf statischen Umgebungen trainiert wurden. In dieser Arbeit stellen wir Continual GUI Agents vor, eine neue Aufgabe, die von GUI-Agenten kontinuierliches Lernen unter sich ändernden Domänen und Auflösungen erfordert. Wir stellen fest, dass bestehende Methoden keine stabile Verankerung (Grounding) aufrechterhalten können, wenn sich die GUI-Verteilungen über die Zeit verschieben, was auf die Vielfalt der UI-Interaktionspunkte und -regionen in fluktuierenden Szenarien zurückzuführen ist. Um dieses Problem zu lösen, führen wir GUI-Anchoring in Flux (GUI-AiF) ein, ein neues Reinforcement-Fine-Tuning-Framework, das kontinuierliches Lernen durch zwei neuartige Belohnungen stabilisiert: Anchoring Point Reward in Flux (APR-iF) und Anchoring Region Reward in Flux (ARR-iF). Diese Belohnungen leiten die Agenten an, sich an sich verschiebende Interaktionspunkte und -regionen anzupassen und mildern so die Tendenz bestehender Belohnungsstrategien, sich zu stark an statischen Verankerungshinweisen (z.B. festen Koordinaten oder Elementgrößen) zu orientieren. Umfangreiche Experimente zeigen, dass GUI-AiF state-of-the-art Baseline-Methoden übertrifft. Unsere Arbeit etabliert das erste Framework für kontinuierliches Lernen für GUI-Agenten und zeigt das ungenutzte Potenzial von Reinforcement Fine-Tuning für kontinuierlich lernende GUI-Agenten auf.
Jüngste Fortschritte bei Diffusions- und Flow-Matching-Modellen haben einen Wandel beim bevorzugten Vorhersageziel aufgezeigt – weg von Rauschen (ε) und Geschwindigkeit (v) hin zur direkten Datenvorhersage (x) – insbesondere in hochdimensionalen Settings. Eine formale Erklärung, warum das optimale Ziel von den spezifischen Eigenschaften der Daten abhängt, bleibt jedoch bislang unklar. In dieser Arbeit stellen wir einen theoretischen Rahmen vor, der auf einer verallgemeinerten Vorhersageformulierung basiert und beliebige Ausgabeziele umfasst, wobei ε-, v- und x-Vorhersage Spezialfälle darstellen. Wir leiten den analytischen Zusammenhang zwischen der Geometrie der Daten und dem optimalen Vorhersageziel her und liefern eine rigorose Begründung dafür, warum die x-Vorhersage überlegen wird, wenn die Umgebungsdimension die intrinsische Dimension der Daten signifikant übersteigt. Während unsere Theorie die Dimensionalität als bestimmenden Faktor für das optimale Vorhersageziel identifiziert, ist die intrinsische Dimension von manifold-gebundenen Daten in der Praxis typischerweise nicht greifbar zu schätzen. Um diese Lücke zu schließen, schlagen wir k-Diff vor, einen Rahmen, der einen datengesteuerten Ansatz verwendet, um den optimalen Vorhersageparameter k direkt aus den Daten zu lernen und so die Notwendigkeit expliziter Dimensionsschätzung umgeht. Umfangreiche Experimente sowohl in der Bildgenerierung im Latent-Space als auch im Pixel-Space demonstrieren, dass k-Diff feste Ziel-Baselines über verschiedene Architekturen und Datenskalen hinweg konsistent übertrifft und somit einen prinzipienbasierten und automatisierten Ansatz zur Steigerung der generativen Leistung bietet.
Repräsentationslernen ist von zentraler Bedeutung für viele nachgelagerte Aufgaben wie Suche, Clustering, Klassifikation und Neubewertung (Reranking). Moderne Sequenzencoder komprimieren typischerweise eine Token-Sequenz variabler Länge mithilfe eines Pooling-Operators auf einen einzelnen Vektor, am häufigsten durch einen speziellen [CLS]-Token oder durch Mean-Pooling über Token-Einbettungen. In diesem Artikel identifizieren wir systematische Schwächen dieser Pooling-Strategien: [CLS] tendiert dazu, Informationen in Richtung der Anfangspositionen der Sequenz zu bündeln und kann verteilte Evidenz unterrepräsentieren, während Mean-Pooling relevante lokale Signale verwässern kann, was manchmal zu einer schlechteren Leistung bei kurzen Kontexten führt. Um diese Probleme zu adressieren, führen wir Landmark (LMK)-Pooling ein, das eine Sequenz in Abschnitte unterteilt, Landmark-Tokens zwischen diesen Abschnitten einfügt und die finale Repräsentation durch Mean-Pooling der Landmark-Token-Einbettungen bildet. Dieser einfache Mechanismus verbessert die Extrapolation bei langen Kontexten, ohne lokale salienten Merkmale zu opfern, auf Kosten einer geringen Anzahl zusätzlicher spezieller Tokens. Wir zeigen empirisch, dass LMK-Pooling bei Retrieval-Aufgaben mit kurzem Kontext mit bestehenden Methoden mithält und bei Aufgaben mit langem Kontext erhebliche Verbesserungen erzielt, was es zu einer praktischen und skalierbaren Alternative zu bestehenden Pooling-Methoden macht.
Wissensdistillation (KD) wird zunehmend eingesetzt, um Fähigkeiten von großen Sprachmodellen auf kleinere zu übertragen, und bietet dabei signifikante Verbesserungen in Effizienz und Nutzbarkeit, wobei sie häufig das Standard-Fine-Tuning übertrifft. Neben der Leistung wird KD auch als privatsphärenehmender Mechanismus erforscht, um das Risiko von Training-Daten-Leaks zu mindern. Während die Memorierung von Trainingsdaten in Standard-Pre-Training- und Fine-Tuning-Szenarien umfassend untersucht wurde, sind ihre Dynamiken in einem Knowledge-Distillation-Setup noch wenig verstanden. In dieser Arbeit untersuchen wir Memorierung über die gesamte KD-Pipeline hinweg unter Verwendung von drei großen Sprachmodell-Familien (Pythia, OLMo-2, Qwen-3) und drei Datensätzen (FineWeb, Wikitext, Nemotron-CC-v2). Wir stellen fest: (1) distillierte Modelle memorieren signifikant weniger Trainingsdaten als Standard-Fine-Tuning (Reduzierung der Memorierung um mehr als 50 %); (2) einige Beispiele sind von Natur aus leichter zu memorieren und machen einen großen Teil der Memorierung während der Distillation aus (über ~95 %); (3) die Memorierung durch den Studenten ist vor der Distillation vorhersagbar, und zwar anhand von Merkmalen, die auf zlib-Entropie, KL-Divergenz und Perplexität basieren; und (4) während weiche und harte Distillation ähnliche Gesamt-Memorierungsraten aufweisen, birgt harte Distillation ein größeres Risiko: Sie übernimmt 2,7-mal mehr lehrerspezifische Beispiele als weiche Distillation. Insgesamt zeigen wir, dass Distillation im Vergleich zum Standard-Fine-Tuning sowohl verbesserte Generalisierung als auch reduzierte Memorierungsrisiken bieten kann.
Open-vocabulary grounding erfordert eine präzise Vision-Sprache-Abgleichung unter schwacher Supervision. Bisherige Methoden verlassen sich jedoch entweder auf globale Satz-Embeddings, denen eine feinkörnige Ausdrucksfähigkeit fehlt, oder führen Token-Level-Abgleichung mit expliziter Supervision oder aufwändigen Cross-Attention-Architekturen ein. Wir schlagen ExpAlign vor, einen theoretisch fundierten Rahmen für den Vision-Sprache-Abgleich, der auf einer prinzipiellen Formulierung des Multiple Instance Learning basiert. ExpAlign führt einen Expectation Alignment Head ein, der eine aufmerksamkeitsbasierte weiche MIL-Pooling-Operation über Token-Region-Ähnlichkeiten durchführt und so eine implizite Token- und Instanzselektion ohne zusätzliche Annotationen ermöglicht. Um das Abgleichlernen weiter zu stabilisieren, entwickeln wir ein energiebasiertes Regularisierungsschema für Multi-Scale-Konsistenz, das ein Top-K Multi-Positive Contrastive Objective und ein Geometry-Aware Consistency Objective umfasst, das aus einer Lagrangian-beschränkten Minimierung der freien Energie abgeleitet wird. Umfangreiche Experimente zeigen, dass ExpAlign die Open-Vocabulary-Objekterkennung und Zero-Shot-Instanzsegmentierung konsistent verbessert, insbesondere bei Kategorien des Long-Tails. Besonders bemerkenswert ist das Erreichen von 36,2 AP_r auf dem LVIS minival Split, womit es andere state-of-the-art Methoden mit vergleichbarem Modellumfang übertrifft, während es gleichzeitig leichtgewichtig und inferenzeffizient bleibt.
End-to-End autonomes Fahren nutzt zunehmend selbstüberwachtes Video-Pretraining, um übertragbare Planungsrepräsentationen zu erlernen. Bisher hat das Pretraining von Video-Weltmodellen für das Szenenverständnis jedoch nur begrenzte Verbesserungen gebracht. Diese Einschränkung wird durch die inhärente Mehrdeutigkeit des Fahrens verstärkt: Jede Szene liefert typischerweise nur eine einzige menschliche Trajektorie, was das Erlernen multimodaler Verhaltensweisen erschwert. In dieser Arbeit schlagen wir Drive-JEPA vor, ein Framework, das die Video Joint-Embedding Predictive Architecture (V-JEPA) mit multimodaler Trajektorien-Distillation für End-to-End-Fahren integriert. Zunächst passen wir V-JEPA für End-to-End-Fahren an, indem wir einen ViT-Encoder auf groß angelegten Fahrvideos vortrainieren, um prädiktive Repräsentationen zu erzeugen, die mit der Trajektorienplanung abgestimmt sind. Zweitens führen wir einen vorschlagszentrierten Planer ein, der verschiedene, simulatorgenerierte Trajektorien zusammen mit menschlichen Trajektorien distilliert, ergänzt durch einen impulsbewussten Auswahlmechanismus zur Förderung stabilen und sicheren Verhaltens. Bei der Auswertung auf NAVSIM übertrifft die V-JEPA-Repräsentation in Kombination mit einem einfachen transformerbasierten Decoder frühere Methoden um 3 PDMS im wahrnehmungsfreien Setting. Das vollständige Drive-JEPA-Framework erreicht 93,3 PDMS auf v1 und 87,8 EPDMS auf v2 und setzt damit einen neuen State-of-the-Art.
Beim Prunen geht die Lottery Ticket Hypothesis davon aus, dass große Netzwerke spärliche Teilnetzwerke – sogenannte „gewinnende Lose“ – enthalten, die isoliert trainiert werden können, um die Leistung ihrer dichten Gegenstücke zu erreichen. Die meisten bestehenden Ansätze gehen jedoch von einem einzigen universellen „gewinnenden Los“ aus, das für alle Eingaben gleichermaßen gilt, und ignorieren dabei die inhärente Heterogenität realer Daten. In dieser Arbeit schlagen wir „Routing the Lottery“ (RTL) vor, ein adaptives Pruning-Framework, das mehrere spezialisierte Teilnetzwerke – sogenannte adaptive Lose – identifiziert, die jeweils auf eine Klasse, einen semantischen Cluster oder eine Umgebungsbedingung zugeschnitten sind. Über verschiedene Datensätze und Aufgaben hinweg übertrifft RTL durchgängig Einzel- und Multi-Model-Baselines in Bezug auf balanced Accuracy und Recall, verwendet dabei bis zu 10-mal weniger Parameter als unabhängige Modelle und zeigt semantisch ausgerichtete Merkmale. Darüber hinaus identifizieren wir den „Subnetwork Collapse“ – einen Leistungseinbruch bei aggressivem Pruning – und führen einen Ähnlichkeitsscore für Teilnetzwerke ein, der eine etikettenfreie Diagnose von Übersparsifizierung ermöglicht. Insgesamt betrachten wir unsere Ergebnisse als Neuinterpretation von Pruning als Mechanismus zur Ausrichtung der Modellstruktur an Datenheterogenität, was den Weg zu modularerem und kontextbewussterem Deep Learning ebnet.
Multimodale Large Language Models (MLLMs) sind ein zentraler Schwerpunkt der aktuellen KI-Forschung. Der Großteil der bisherigen Arbeiten konzentriert sich jedoch auf das Verständnis statischer Bilder, während ihre Fähigkeit zur Verarbeitung sequenzieller Audio-Video-Daten noch weitgehend unerforscht ist. Diese Lücke unterstreicht die Notwendigkeit eines hochwertigen Benchmarks, um die Leistung von MLLMs unter realen Bedingungen systematisch zu bewerten. Wir stellen SONIC-O1 vor, einen umfassenden, vollständig menschlich verifizierten Benchmark, der 13 Konversationsdomänen aus der realen Welt mit 4.958 Annotationen und demografischen Metadaten abdeckt. SONIC-O1 evaluiert MLLMs anhand zentraler Aufgaben, darunter zusammenfassende Texterstellung mit offenem Ende, Beantwortung von Multiple-Choice-Fragen (MCQ) und temporale Lokalisierung mit unterstützenden Begründungen (Reasoning). Experimente mit Closed- und Open-Source-Modellen zeigen Limitationen auf. Während die Leistungslücke bei der MCQ-Genauigkeit zwischen beiden Modellfamilien relativ gering ist, beobachten wir einen erheblichen Leistungsunterschied von 22,6 % bei der temporalen Lokalisierung zwischen dem besten Closed-Source- und dem besten Open-Source-Modell. Die Leistung verschlechtert sich weiterhin über verschiedene demografische Gruppen hinweg, was auf anhaltende Disparitäten im Modellverhalten hindeutet. Insgesamt bietet SONIC-O1 eine offene Evaluierungsumgebung für zeitlich verankertes und sozial robustes multimodales Verständnis. Wir veröffentlichen SONIC-O1 zur Reproduzierbarkeit und für die Forschung: Projektseite: https://vectorinstitute.github.io/sonic-o1/ Datensatz: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Leaderboard: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard
Wir stellen KAPSO vor, ein modulares Framework für die autonome Programmsynthese und -optimierung. Ausgehend von einem natürlichensprachlichen Ziel und einer Evaluierungsmethode führt KAPSO iterativ Ideenfindung, Codesynthese und -bearbeitung, Ausführung, Bewertung und Lernen durch, um ein ausführbares Artefakt in Richtung messbarer Zielvorgaben zu verbessern. Anstatt die Synthese als Endpunkt zu betrachten, nutzt KAPSO die Synthese als Operator innerhalb einer langfristigen Optimierungsschleife, in der der Fortschritt durch die Ergebnisse des Evaluators definiert wird. KAPSO adressiert typische langfristige Schwachstellen von Code-Agenten, wie verlorene Experimentierzustände, sprunghaftes Debugging und schwache Wiederverwendung von Domänenwissen, durch die Integration von drei eng gekoppelten Komponenten. Erstens isoliert eine git-native Experimentier-Engine jeden Versuch als Branch, erzeugt reproduzierbare Artefakte und bewahrt die Provenienz über Iterationen hinweg. Zweitens erfasst ein Wissenssystem heterogene Quellen, einschließlich Repositories, interner Playbooks und kuratierter externer Ressourcen wie Dokumentationen, wissenschaftlicher Arbeiten und Websuchergebnisse, und organisiert sie in einer strukturierten Repräsentation, die Retrieval über Workflows, Implementierungen und Umgebungsbeschränkungen hinweg unterstützt. Drittens koordiniert eine kognitive Gedächtnisschicht den Abruf und verwaltet einen episodischen Speicher wiederverwendbarer Lektionen, die aus Experimentverläufen (Ausführungsprotokolle, Diffs und Evaluator-Feedback) destilliert werden, um wiederholte Fehlermuster zu reduzieren und die Konvergenz zu beschleunigen. Wir evaluierten KAPSO auf MLE-Bench (Kaggle-artige ML-Wettbewerbe) und ALE-Bench (AtCoder-Heuristikoptimierung) und berichten über die End-to-End-Leistung. Code verfügbar unter: https://github.com/Leeroo-AI/kapso
Aufmerksamkeitsmuster spielen eine entscheidende Rolle sowohl beim Training als auch beim Inferenzbetrieb von großen Sprachmodellen (LLMs). Bisherige Arbeiten haben einzelne Muster wie Retrieval-Heads, Sink-Heads und diagonale Spuren identifiziert, doch diese Beobachtungen bleiben fragmentiert und es fehlt an einer einheitlichen Erklärung. Um diese Lücke zu schließen, stellen wir Temporal Attention Pattern Predictability Analysis (TAPPA) vor, ein vereinheitlichendes Framework, das verschiedene Aufmerksamkeitsmuster erklärt, indem es deren zugrundeliegende mathematische Formulierungen aus einer zeitlich kontinuierlichen Perspektive analysiert. TAPPA vertieft nicht nur das Verständnis des Aufmerksamkeitsverhaltens, sondern leitet auch Ansätze zur Inferenzbeschleunigung. Konkret charakterisiert TAPPA Aufmerksamkeitsmuster als vorhersehbare Muster mit klaren Regelmäßigkeiten und unvorhersehbare Muster, die effektiv zufällig erscheinen. Unsere Analyse zeigt weiterhin, dass diese Unterscheidung durch den Grad der Query-Selbstähnlichkeit entlang der Zeitdimension erklärt werden kann. Mit Fokus auf die vorhersehbaren Muster liefern wir eine detaillierte mathematische Analyse von drei repräsentativen Fällen durch das Zusammenwirken von Queries, Keys und Rotary Positional Embeddings (RoPE). Wir validieren TAPPA, indem wir seine Erkenntnisse auf KV-Cache-Kompression und LLM-Pruning-Aufgaben anwenden. Bei diesen Aufgaben verbessert eine einfache, von TAPPA inspirierte Metrik durchgängig die Leistung gegenüber Baseline-Methoden. Der Code ist verfügbar unter https://github.com/MIRALab-USTC/LLM-TAPPA.
Wir stellen den Visuellen Personalisierungs-Turing-Test (VPTT) vor, ein neues Paradigma zur Bewertung kontextueller visueller Personalisierung, das auf perzeptiver Ununterscheidbarkeit statt auf Identitätsreplikation basiert. Ein Modell besteht den VPTT, wenn seine Ausgabe (Bild, Video, 3D-Asset etc.) für einen menschlichen oder kalibrierten VLM-Bewerter nicht von Inhalten zu unterscheiden ist, die eine gegebene Person plausibel erstellen oder teilen könnte. Um den VPTT operationalisierbar zu machen, präsentieren wir den VPTT-Rahmen, der einen 10k-Personen-Benchmark (VPTT-Bench), einen visuellen retrieval-erweiterten Generator (VPRAG) und die VPTT-Bewertung integriert – eine textbasierte Metrik, die an menschlichen und VLM-Urteilen kalibriert ist. Wir zeigen eine hohe Korrelation zwischen menschlichen, VLM- und VPTT-Bewertungen, was die VPTT-Bewertung als zuverlässige perzeptive Stellvertretergröße validiert. Experimente belegen, dass VPRAG die beste Balance zwischen Ausrichtung und Originalität erreicht und damit eine skalierbare und datenschutzsichere Grundlage für personalisierte generative KI bietet.
Im Post-Dennard-Zeitalter erfordert die Optimierung eingebetteter Systeme das Navigieren komplexer Zielkonflikte zwischen Energieeffizienz und Latenz. Traditionelle heuristische Einstellverfahren sind in solch hochdimensionalen, nicht-glatten Lösungsräumen oft ineffizient. In dieser Arbeit schlagen wir einen Bayesian-Optimization-Ansatz auf Basis Gaußscher Prozesse vor, um die Suche nach optimalen Scheduling-Konfigurationen auf heterogenen Multi-Core-Architekturen zu automatisieren. Wir adressieren explizit die multiobjektive Natur des Problems durch Approximation der Pareto-Front zwischen Energie und Ausführungszeit. Darüber hinaus ermöglichen wir durch die Einbeziehung von Sensitivitätsanalysen (fANOVA) und den Vergleich verschiedener Kovarianz-Kernel (z.B. Matérn vs. RBF) eine physikalische Interpretierbarkeit des Black-Box-Modells, wodurch die dominierenden Hardwareparameter, welche die Systemleistung bestimmen, aufgedeckt werden.
Kann eine geringe Menge verifizierter Zielinformationen das teure selbstüberwachte Vortraining von Foundation-Modellen lenken? Standard-Vortraining optimiert ein festes Stellvertreterziel (z.B. nächste-Token-Vorhersage), was Rechenressourcen von nachgelagerten Fähigkeiten von Interesse fehlleiten kann. Wir stellen V-Pretraining vor: eine wertbasierte, modalitätsunabhängige Methode für kontrolliertes Fortgesetztes Vortraining, bei der ein leichtgewichtiger Task-Designer die Vortrainingsaufgabe umgestaltet, um den Wert jedes Gradientenschritts zu maximieren. Betrachten Sie beispielsweise selbstüberwachtes Lernen (SSL) mit Stichproben-Augmentierung. Der V-Pretraining-Task-Designer wählt Vortrainingsaufgaben (z.B. Augmentierungen) aus, bei denen der Vortrainingsverlustgradient mit einem Gradienten über einer nachgelagerten Aufgabe (z.B. Bildsegmentierung) ausgerichtet ist. Dies hilft, das Vortraining in Richtung relevanter nachgelagerter Fähigkeiten zu steuern. Bemerkenswerterweise wird das vortrainierte Modell nie mit Labels der nachgelagerten Aufgabe aktualisiert; diese werden nur zur Gestaltung der Vortrainingsaufgabe verwendet. Unter identischen Lern-Update-Budgets verbessert V-Pretraining von 0,5–7B-Sprachmodellen das logische Denken (GSM8K Test Pass@1) um bis zu 18 % relativ zum Standard-Nächst-Token-Training, wobei nur 12 % der GSM8K-Trainingsbeispiele als Feedback verwendet werden. Im visuellen SSL verbessern wir die State-of-the-Art-Ergebnisse auf ADE20K um bis zu 1,07 mIoU, reduzieren NYUv2 RMSE bei gleichzeitiger Verbesserung der ImageNet-Lineargenauigkeit und liefern erste Belege für verbesserte Token-Effizienz beim fortgesetzten Vortraining.