Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) basiert üblicherweise auf Gruppenstichproben, um Vorteile zu schätzen und Politikupdates zu stabilisieren. In der Praxis sind große Gruppengrößen aufgrund von Rechenlimits nicht realisierbar, was das Lernen in Richtung bereits wahrscheinlicher Trajektorien verzerrt. Kleinere Gruppen verpassen oft seltene korrekte Trajektorien, enthalten aber weiterhin gemischte Belohnungen, wodurch sich die Wahrscheinlichkeit auf gängige Lösungen konzentriert. Wir leiten die Wahrscheinlichkeit ab, dass Updates seltene korrekte Modi verpassen, als Funktion der Gruppengröße, zeigen nicht-monotones Verhalten und charakterisieren, wie Updates Masse innerhalb der korrekten Menge umverteilen. Dies zeigt, dass ungesampelte korrekte Masse schrumpfen kann, selbst wenn die gesamte korrekte Masse wächst. Motiviert durch diese Analyse schlagen wir einen schwierigkeitsabhängigen Vorteilsskalierungskoeffizienten vor, inspiriert von Focal Loss, der Updates bei Prompts mit hohem Erfolg geringer gewichtet. Die leichte Modifikation kann direkt in jeden gruppenrelativen RLVR-Algorithmus wie GRPO, DAPO und CISPO integriert werden. Bei Qwen2.5-7B über In-Domain- und Out-of-Domain-Benchmarks verbessert unsere Methode pass@256 von 64,1 auf 70,3 (GRPO), 69,3 auf 72,5 (DAPO) und 73,2 auf 76,8 (CISPO), während pass@1 erhalten bleibt oder verbessert wird, ohne die Gruppengröße oder Rechenkosten zu erhöhen.
Sparse Autoencoders (SAEs) sind leistungsstarke Werkzeuge zur Interpretation neuronaler Repräsentationen, doch ihre Anwendung im Audiobereich bleibt unzureichend erforscht. Wir trainieren SAEs für alle Encoder-Schichten von Whisper und HuBERT, führen eine umfassende Evaluation ihrer Stabilität und Interpretierbarkeit durch und zeigen ihren praktischen Nutzen. Über 50 % der Merkmale bleiben über verschiedene Random Seeds hinweg konsistent, und die Rekonstruktionsqualität bleibt erhalten. SAE-Merkmale erfassen sowohl allgemeine akustische und semantische Informationen als auch spezifische Ereignisse, einschließlich Umgebungsgeräuschen und parasprachlichen Lauten (z. B. Lachen, Flüstern), und entflechten diese effektiv; zum Löschen eines Konzepts ist lediglich die Entfernung von 19–27 % der Merkmale erforderlich. Feature Steering reduziert die falschen Spracherkennungen von Whisper um 70 % bei vernachlässigbarer Zunahme der Wortfehlerrate, was die praktische Anwendbarkeit demonstriert. Schließlich finden wir SAE-Merkmale, die mit der menschlichen EEG-Aktivität während der Sprachwahrnehmung korrelieren, was auf eine Übereinstimmung mit der menschlichen neuronalen Verarbeitung hindeutet. Der Code und die Checkpoints sind unter https://github.com/audiosae/audiosae_demo verfügbar.
Wir stellen Baichuan-M3 vor, ein medizinisch optimiertes großes Sprachmodell, das entwickelt wurde, um den Paradigmenwechsel von passiver Fragebeantwortung hin zu aktiver, klinisch hochwertiger Entscheidungsunterstützung zu vollziehen. Um die Grenzen bestehender Systeme bei offenen Konsultationen zu adressieren, nutzt Baichuan-M3 eine spezialisierte Trainingspipeline, um den systematischen Arbeitsablauf eines Arztes zu modellieren. Zu den Kernfähigkeiten gehören: (i) proaktive Informationsbeschaffung zur Auflösung von Mehrdeutigkeiten; (ii) langfristige Schlussfolgerungen, die verstreute Evidenz zu kohärenten Diagnosen vereinen; und (iii) adaptive Halluzinationsunterdrückung zur Gewährleistung faktischer Zuverlässigkeit. Empirische Auswertungen zeigen, dass Baichuan-M3 auf HealthBench, dem neu eingeführten HealthBench-Hallu und ScanBench state-of-the-art Ergebnisse erzielt und GPT-5.2 in klinischer Befragung, Beratung und Sicherheit signifikant übertrifft. Die Modelle sind öffentlich verfügbar unter https://huggingface.co/collections/baichuan-inc/baichuan-m3.
Die rasante Entwicklung großer Sprachmodelle (LLMs) hat die Entwicklung autonomer Agenten beschleunigt, die in der Lage sind, komplexe Umgebungen zu navigieren. Bisherige Evaluationen folgen jedoch primär einem deduktiven Paradigma, bei dem Agenten Aufgaben auf der Grundlage explizit vorgegebener Regeln und statischer Ziele ausführen, oft innerhalb begrenzter Planungshorizonte. Entscheidend ist, dass dabei die induktive Notwendigkeit vernachlässigt wird, dass Agenten latente Übergangsgesetze eigenständig aus Erfahrung entdecken müssen – die Grundvoraussetzung für agentenbezogene Vorausschau und strategische Kohärenz. Um diese Lücke zu schließen, führen wir OdysseyArena ein, das die Agenten-Evaluation auf langfristige, aktive und induktive Interaktionen ausrichtet. Wir formalisieren und instanziieren vier Grundbausteine, die abstrakte Übergangsdynamiken in konkrete interaktive Umgebungen übersetzen. Darauf aufbauend etablieren wir OdysseyArena-Lite für standardisierte Benchmark-Tests, mit einem Set von 120 Aufgaben zur Messung der induktiven Effizienz und langfristigen Entdeckungsfähigkeit eines Agenten. Darüber hinaus führen wir OdysseyArena-Challenge ein, um die Stabilität von Agenten unter extremen Interaktionshorizonten (z.B. > 200 Schritte) zu stresstesten. Umfangreiche Experimente mit mehr als 15 führenden LLMs zeigen, dass selbst Spitzenmodelle in induktiven Szenarien Defizite aufweisen, was einen kritischen Engpass bei der Verwirklichung autonomer Entdeckungsfähigkeiten in komplexen Umgebungen identifiziert. Unser Code und unsere Daten sind verfügbar unter https://github.com/xufangzhi/Odyssey-Arena.
Die Entropie dient als entscheidende Metrik zur Messung der Vielfalt der von großen Sprachmodellen (LLMs) generierten Ausgaben und liefert wertvolle Einblicke in deren Erkundungsfähigkeiten. Während sich neuere Studien verstärkt auf die Überwachung und Anpassung der Entropie konzentrieren, um das Gleichgewicht zwischen Exploration und Exploitation beim Reinforcement Fine-Tuning (RFT) zu verbessern, wurde ein prinzipielles Verständnis der Entropiedynamik während dieses Prozesses bisher nicht umfassend untersucht. In dieser Arbeit entwickeln wir einen theoretischen Rahmen zur Analyse der Entropiedynamik während des RFT-Prozesses, der mit einem diskriminanten Ausdruck beginnt, der die Entropieänderung bei einer einzelnen Logit-Aktualisierung quantifiziert. Diese Grundlage ermöglicht die Herleitung eines Ausdrucks erster Ordnung für die Entropieänderung, der weiter zur Aktualisierungsformel der Group Relative Policy Optimization (GRPO) erweitert werden kann. Die aus der theoretischen Analyse abgeleiteten Korollare und Erkenntnisse inspirieren die Entwicklung von Methoden zur Entropiesteuerung und bieten gleichzeitig eine einheitliche Betrachtungsweise zur Interpretation verschiedener entropiebasierter Methoden in bestehenden Studien. Wir liefern empirische Belege zur Untermauerung der Hauptergebnisse unserer Analyse und demonstrieren die Wirksamkeit der abgeleiteten Entropie-Diskriminator-Clipping-Methoden. Diese Studie liefert neue Einblicke in die RFT-Trainingsdynamik und bietet theoretische Unterstützung sowie praktische Strategien zur Optimierung des Exploration-Exploitation-Gleichgewichts während des Feinabgleichs von LLMs.
Die Fähigkeit, die Ergebnisse von Handlungen in verschiedenen Umgebungen zu simulieren, wird die Entwicklung generalistischer Agenten im großen Maßstab revolutionieren. Die Modellierung dieser Weltdynamiken stellt jedoch besonders bei geschickten Robotikaufgaben erhebliche Herausforderungen dar, bedingt durch begrenzte Datenabdeckung und knappe Aktionslabels. Als Beitrag zu diesem Ziel stellen wir DreamDojo vor, ein fundamentales Weltmodell, das diverse Interaktionen und geschickte Steuerungen aus 44.000 Stunden egozentrischer menschlicher Videos erlernt. Unser Datengemisch repräsentiert den bisher größten Videodatensatz für das Vortraining von Weltmodellen und umfasst ein breites Spektrum alltäglicher Szenarien mit vielfältigen Objekten und Fähigkeiten. Um die Knappheit an Aktionslabels zu adressieren, führen wir kontinuierliche latente Aktionen als einheitliche Proxy-Handlungen ein, die den Transfer von Interaktionswissen aus ungelabelten Videos verbessern. Nach einem Nachtraining mit kleinskaligen Zielroboterdaten zeigt DreamDojo ein starkes Verständnis von Physik und präzise Aktionssteuerbarkeit. Wir entwickeln zudem eine Distillationspipeline, die DreamDojo auf eine Echtzeitgeschwindigkeit von 10,81 FPS beschleunigt und die Kontextkonsistenz weiter verbessert. Unsere Arbeit ermöglicht mehrere wichtige Anwendungen auf Basis generativer Weltmodelle, darunter Live-Teleoperation, Richtlinienbewertung und modellbasierte Planung. Eine systematische Evaluation auf mehreren anspruchsvollen Out-of-Distribution (OOD) Benchmarks bestätigt die Bedeutung unserer Methode für die Simulation von kontaktintensiven Aufgaben in offenen Welten und ebnet den Weg für universelle Roboter-Weltmodelle.
Diese Arbeit stellt ein Spracherkennungssystem "Pisets" für Wissenschaftler und Journalisten vor, das auf einer Drei-Komponenten-Architektur basiert, um die Genauigkeit der Spracherkennung zu verbessern und gleichzeitig Fehler und Halluzinationen im Zusammenhang mit dem Whisper-Modell zu minimieren. Die Architektur umfasst eine primäre Erkennung mittels Wav2Vec2, eine Filterung von Falsch-Positiven über den Audio Spectrogram Transformer (AST) und eine finale Spracherkennung durch Whisper. Die Implementierung von Curriculum-Learning-Methoden und die Nutzung diverser russischsprachiger Sprachkorpora steigerten die Effektivität des Systems signifikant. Zusätzlich wurden fortschrittliche Techniken zur Unsicherheitsmodellierung eingeführt, die zu weiteren Verbesserungen der Transkriptionsqualität beitrugen. Die vorgeschlagenen Ansätze gewährleisten eine robuste Transkription langer Audiodaten unter verschiedenen akustischen Bedingungen im Vergleich zu WhisperX und dem herkömmlichen Whisper-Modell. Der Quellcode des "Pisets"-Systems ist öffentlich auf GitHub verfügbar: https://github.com/bond005/pisets.
Trainingsinstabilität bleibt eine kritische Herausforderung beim Pretraining großer Sprachmodelle (LLM) und äußert sich oft in plötzlichen Gradientenexplosionen, die erhebliche Rechenressourcen verschwenden. Wir untersuchen Trainingsabbrüche in einem mittels μP skalierten 5M-Parameter-NanoGPT-Modell und identifizieren zwei Schlüsselphänomene, die einem Kollaps vorausgehen: (1) einen rapiden Abfall des stabilen Rangs der Gewichtsmatrix (Verhältnis der quadrierten Frobenius-Norm zur quadrierten Spektralnorm) und (2) eine zunehmende Ausrichtung zwischen den Jacobi-Matrizen benachbarter Schichten. Wir beweisen theoretisch, dass diese beiden Bedingungen gemeinsam ein exponentielles Wachstum der Gradientennorm mit der Netzwerktiefe verursachen. Um diesen Instabilitätsmechanismus zu durchbrechen, schlagen wir MSign vor, einen neuen Optimierer, der periodisch Matrix-Signum-Operationen anwendet, um den stabilen Rang wiederherzustellen. Experimente an Modellen von 5M bis 3B Parametern demonstrieren, dass MSign Trainingsabbrüche wirksam verhindert, bei einem Rechenaufwand von weniger als 7,0 %.
Die interne Modellierung der Welt – das Vorhersagen von Übergängen zwischen vorherigen Zuständen X und nachfolgenden Zuständen Y unter Aktionen Z – ist für das Schließen und Planen von LLMs und VLMs wesentlich. Das Erlernen solcher Modelle erfordert typischerweise kostspielige, aktionsbeschriftete Trajektorien. Wir schlagen SWIRL vor, einen Selbstverbesserungsrahmen, der aus zustandsbasierten Sequenzen lernt, indem Aktionen als latente Variable behandelt und zwischen Vorwärts-Weltmodellierung (FWM) P_θ(Y|X,Z) und inverser Dynamikmodellierung (IDM) Q_φ(Z|X,Y) abgewechselt wird. SWIRL durchläuft iterativ zwei Phasen: (1) Variational Information Maximisation, die das FWM aktualisiert, um Nachfolgezustände zu erzeugen, die die bedingte gegenseitige Information mit latenten Aktionen bei gegebenen vorherigen Zuständen maximieren und damit identifizierbare Konsistenz fördern; und (2) ELBO-Maximierung, die das IDM aktualisiert, um beobachtete Übergänge zu erklären, was effektiv einer Koordinatenaufstiegsmethode entspricht. Beide Modelle werden mit Bestärkendem Lernen (speziell GRPO) trainiert, wobei die Log-Wahrscheinlichkeit des jeweils eingefrorenen Gegenmodells als Belohnungssignal dient. Wir liefern theoretische Lernbarkeitsgarantien für beide Aktualisierungen und evaluieren SWIRL an LLMs und VLMs in mehreren Umgebungen: Einzelzug- und Mehrzug-Open-World-visuelle Dynamiken sowie synthetische textuelle Umgebungen für Physik, Web und Tool Calling. SWIRL erzielt Steigerungen von 16 % auf AURORABench, 28 % auf ByteMorph, 16 % auf WorldPredictionBench und 14 % auf StableToolBench.
Jüngste Fortschritte bei Reasoning-Modellen deuten darauf hin, dass die Generierung plausibler Lösungsansätze für forschungsnahe Mathematikprobleme bald möglich sein könnte, doch die Verifikation bleibt ein Engpass, der knappe Expertenzeit beansprucht. Wir stellen die Hypothese auf, dass eine aussagekräftige Lösung ausreichend Methodeninformationen enthalten sollte, sodass ihre Anwendung auf eine Gruppe verwandter Fragen eine bessere Leistung erzielt als falsche Lösungen. Aufbauend auf dieser Idee schlagen wir Consequence-Based Utility vor, einen evaluatorischen Ansatz ohne Oracle, der jeden Kandidaten bewertet, indem sein Wert als In-Context-Exemplar für die Lösung verwandter aber verifizierbarer Fragen getestet wird. Unser Ansatz wird an einem eigens erstellten Datensatz forschungsnaher Mathematikprobleme evaluiert, wobei jede Aufgabe mit einer von Experten verfassten Lösung und neun LLM-generierten Lösungen gepaart ist. Bemerkenswerterweise übertrifft Consequence-Based Utility durchgängig Reward-Modelle, generative Reward-Modelle und LLM-Judges in der Ranking-Qualität. Konkret verbessert es für GPT-OSS-120B Acc@1 von 67,2 auf 76,3 und AUC von 71,4 auf 79,6, mit ähnlich großen AUC-Steigerungen bei GPT-OSS-20B (69,0 auf 79,2). Zudem zeigt es im Vergleich zu LLM-Judges eine größere Solver-Evaluator-Lücke und bewahrt eine stärkere Trennung zwischen korrekten und falschen Lösungen, selbst bei Instanzen, bei denen der zugrundeliegende Solver häufig scheitert.
Große Sprachmodelle mit Reasoning-Fähigkeiten haben oft Schwierigkeiten in multilingualen Umgebungen: Sie neigen dazu, auch bei nicht-englischen Fragen auf Englisch zu schlussfolgern; wenn sie auf das Reasoning in der Fragesprache beschränkt werden, sinken die Genauigkeiten erheblich. Diese Probleme resultieren aus begrenzten Fähigkeiten sowohl im multilingualen Frageverständnis als auch im multilingualen Reasoning. Um beide Schwierigkeiten zu adressieren, schlagen wir TRIT (Translation-Reasoning Integrated Training) vor, einen sich selbst verbessernden Rahmen, der die Übersetzungsausbildung in multilinguales Reasoning integriert. Ohne externe Rückmeldungen oder zusätzliche multilinguale Daten verbessert unsere Methode gleichzeitig das multilinguale Frageverständnis und die Antwortgenerierung. Auf MMATH übertrifft unser Ansatz mehrere Baseline-Methoden im Durchschnitt um 7 Prozentpunkte und steigert sowohl die Antwortkorrektheit als auch die Sprachkonsistenz. Weitere Analysen zeigen, dass die Integration von Übersetzungstraining die cross-linguale Frageausrichtung um über 10 Prozentpunkte verbessert und die Übersetzungsqualität sowohl für mathematische Fragen als auch für allgemeine Texte erhöht, mit Gewinnen von bis zu 8,4 COMET-Punkten auf FLORES-200.
Die rasante Entwicklung von Vision-Language-Modellen hat die Entstehung von GUI-Agenten beschleunigt, die enormes Potenzial für die Automatisierung komplexer Aufgaben besitzen – vom Online-Shopping bis zur Flugbuchung – und so die Belastung durch repetitive digitale Arbeitsabläufe verringern. Als grundlegende Fähigkeit wird GUI-Grounding typischerweise als Voraussetzung für end-to-end-Aufgabenausführung etabliert. Es ermöglicht Modellen, Schnittstellenelemente wie Text und Ikonen präzise zu lokalisieren, um genaue Operationen wie Klicken und Tippen durchzuführen. Im Gegensatz zu früheren Arbeiten, die Modelle mit bereits starker räumlicher Wahrnehmung (z.B. Qwen3-VL) feinabstimmen, zielen wir darauf ab, die gesamte technische Pipeline zu beherrschen, indem wir mit einem Basismodell mit minimaler Grounding-Fähigkeit beginnen, wie POINTS-1.5. Wir stellen POINTS-GUI-G-8B vor, das state-of-the-art Leistung mit Werten von 59,9 auf ScreenSpot-Pro, 66,0 auf OSWorld-G, 95,7 auf ScreenSpot-v2 und 49,9 auf UI-Vision erzielt. Der Erfolg unseres Modells wird von drei Schlüsselfaktoren getrieben: (1) Verfeinertes Data Engineering, das die Vereinheitlichung verschiedener Open-Source-Datensatzformate sowie anspruchsvolle Strategien zur Augmentierung, Filterung und Schwierigkeitsgraduierung umfasst; (2) Verbesserte Trainingsstrategien, einschließlich kontinuierlichem Fine-Tuning des Vision-Encoders zur Steigerung der Wahrnehmungsgenauigkeit und Beibehaltung der Auflösungskonsistenz zwischen Training und Inferenz; und (3) Reinforcement Learning (RL) mit überprüfbaren Belohnungen. Während RL traditionell zur Stärkung des Reasoning eingesetzt wird, demonstrieren wir, dass es die Präzision in der wahrnehmungsintensiven GUI-Grounding-Aufgabe signifikant verbessert. Darüber hinaus bietet GUI-Grounding einen natürlichen Vorteil für RL, da Belohnungen leicht überprüfbar und hochgenau sind.
Die Skalierung großer Sprachmodelle (LLMs) treibt das Interesse an matrixbasierten Optimierern (z.B. Shampoo, Muon, SOAP) aufgrund ihrer Konvergenzeffizienz voran; doch ihr Erfordernis holistischer Aktualisierungen steht im Konflikt mit der Tensorfragmentierung in verteilten Frameworks wie Megatron. Bestehende Lösungen sind suboptimal: synchrone Ansätze leiden unter computationaler Redundanz, während schichtweise Partitionierung diesen Konflikt nicht lösen kann, ohne die geometrischen Constraints effizienter Kommunikationsprimitive zu verletzen. Um diese Lücke zu schließen, schlagen wir Canzona vor, ein vereinheitlichtes, asynchrones und lastausgeglichenes Framework, das die logische Optimierer-Zuordnung von der physischen Parameterverteilung entkoppelt. Für Data Parallelism führen wir eine alpha-ausgeglichene statische Partitionierungsstrategie ein, die Atomarität respektiert und Lastungleichgewichte neutralisiert. Für Tensor Parallelism entwerfen wir eine asynchrone Compute-Pipeline, die Micro-Group Scheduling nutzt, um fragmentierte Aktualisierungen zu batchen und Rekonstruktions-Overhead zu verbergen. Umfangreiche Evaluationen an der Qwen3-Modellfamilie (bis zu 32B Parametern) auf 256 GPUs demonstrieren, dass unser Ansatz die Effizienz etablierter Parallelarchitekturen erhält, eine 1,57-fache Beschleunigung der End-to-End-Iterationszeit erreicht und die Latenz des Optimiererschritts im Vergleich zur Baseline um das 5,8-Fache reduziert.
Verstärkendes Lernen mit verifizierbaren Belohnungen (RLVR) hat sich als unverzichtbares Paradigma zur Verbesserung des Schlussfolgerns in großen Sprachmodellen (LLMs) etabliert. Allerdings konvergieren Standardmethoden der Politikoptimierung, wie Group Relative Policy Optimization (GRPO), oft zu Politikern mit niedriger Entropie, was zu schwerem Modus-Zusammenbruch und begrenzter Ausgabevielfalt führt. Wir analysieren dieses Problem aus der Perspektive der Dynamik von Sampling-Wahrscheinlichkeiten und identifizieren, dass das Standardziel die Pfade mit der höchsten Wahrscheinlichkeit unverhältnismäßig verstärkt und dadurch gültige alternative Schlussfolgerungsketten unterdrückt. Um dies zu beheben, schlagen wir einen neuartigen Advantage Re-weighting Mechanism (ARM) vor, der darauf ausgelegt ist, die Konfidenzniveaus über alle korrekten Antworten hinweg auszugleichen. Indem wir Prompt Perplexity und Answer Confidence in die Advantage-Schätzung einbeziehen, formt unsere Methode das Belohnungssignal dynamisch um, um die Gradientenupdates überkonfidenter Schlussfolgerungspfade abzuschwächen und gleichzeitig Wahrscheinlichkeitsmasse zu untererforschten korrekten Lösungen umzuverteilen. Empirische Ergebnisse belegen, dass unser Ansatz die generative Vielfalt und die Antwortentropie signifikant steigert und dabei eine wettbewerbsfähige Genauigkeit beibehält, wodurch ein überlegener Kompromiss zwischen Exploration und Exploitation in Schlussfolgerungsaufgaben effektiv erreicht wird. Empirische Ergebnisse an Qwen2.5- und DeepSeek-Modellen in mathematischen und Programmier-Benchmarks zeigen, dass ProGRPO den Entropie-Zusammenbruch erheblich abschwächt. Konkret übertrifft unsere Methode bei Qwen2.5-7B GRPO um 5,7 % in Pass@1 und, bemerkenswerterweise, um 13,9 % in Pass@32, was ihre überlegene Fähigkeit zur Erzeugung vielfältiger korrekter Schlussfolgerungspfade unterstreicht.
Große Reasoning-Modelle erzielen hohe Leistung durch Skalierung der Chain-of-Thought-Verfahren zur Inferenzzeit, doch dieses Paradigma leidet unter quadratischen Kosten, Kontextlängenbegrenzungen und verschlechtertem Reasoning aufgrund von Lost-in-the-Middle-Effekten. Iteratives Reasoning mildert diese Probleme durch periodisches Zusammenfassen Zwischengedanken, doch bestehende Methoden verlassen sich auf überwachtes Lernen oder feste Heuristiken und optimieren nicht, wann zusammengefasst werden soll, was erhalten bleiben soll und wie das Reasoning fortgesetzt werden soll. Wir schlagen InftyThink+ vor, ein End-to-End-Verstärkungslernframework, das den gesamten iterativen Reasoning-Pfad optimiert und auf modellgesteuerten Iterationsgrenzen und expliziter Zusammenfassung aufbaut. InftyThink+ verwendet ein zweistufiges Trainingsschema mit überwachtem Kaltstart, gefolgt von pfadebasiertem Verstärkungslernen, das es dem Modell ermöglicht, strategische Zusammenfassungs- und Fortsetzungsentscheidungen zu erlernen. Experimente mit DeepSeek-R1-Distill-Qwen-1.5B zeigen, dass InftyThink+ die Genauigkeit bei AIME24 um 21 % verbessert und konventionelles Long-Chain-of-Thought-Verstärkungslernen deutlich übertrifft, während es sich auch besser auf Out-of-Distribution-Benchmarks verallgemeinert. Darüber hinaus reduziert InftyThink+ die Inferenzlatenz signifikant und beschleunigt das Verstärkungslern-Training, was eine verbesserte Reasoning-Effizienz neben einer stärkeren Leistung demonstriert.
Aktuelle Benchmarks für mobile GUI-Agenten bewerten Gedächtnisfähigkeiten systematisch unzureichend, da nur 5,2–11,8 % der Aufgaben gedächtnisbezogen sind und lernübergreifende Sitzungen nicht evaluiert werden. Wir stellen MemGUI-Bench vor, einen umfassenden, gedächtniszentrierten Benchmark mit pass@k und gestufter LLM-as-Judge-Evaluierung. Unsere Beiträge umfassen: (1) eine systematische Gedächtnistaxonomie zur Analyse von 11 Agenten über 5 Architekturen hinweg; (2) 128 Aufgaben in 26 Anwendungen, bei denen 89,8 % das Gedächtnis durch trans-temporale und trans-räumliche Beibehaltung fordern; (3) MemGUI-Eval, eine automatisierte Pipeline mit Progressiver Prüfung und 7 hierarchischen Metriken; sowie (4) eine forschungsfragengetriebene Bewertung von 11 state-of-the-art Agenten. Unsere Experimente zeigen erhebliche Gedächtnisdefizite bei allen evaluierten Systemen, identifizieren 5 spezifische Fehlermodi und leiten 5 umsetzbare Designimplikationen ab. Alle Ressourcen inklusive Code, Benchmark und Evaluierungsergebnisse werden unter https://lgy0404.github.io/MemGUI-Bench/ \textit{vollständig quelloffen und kontinuierlich gepflegt}.
Das Verstehen egozentrischer Videos spielt eine entscheidende Rolle für verkörperte Intelligenz. Aktuelle multimodale Large Language Models (MLLMs) können sowohl visuelle als auch auditive Eingaben verarbeiten. Aufgrund der Herausforderung, Textlabels mit kohärenter multimodaler Information zu erhalten, bleibt jedoch weitgehend unerforscht, ob MLLMs beide Modalitäten in egozentrischen Videos gemeinsam verstehen können. Um dieses Problem zu adressieren, stellen wir EgoAVU vor, eine skalierbare Daten-Engine zur automatischen Generierung egozentrischer audiovisueller Beschreibungen, Fragen und Antworten. EgoAVU reichert menschliche Beschreibungen mit multimodalem Kontext an und erzeugt audiovisuelle Narrationen durch cross-modale Korrelationsmodellierung. Token-basierte Videofilterung und modulare, graphenbasierte Kuratierung gewährleisten sowohl Datenvielfalt als auch -qualität. Mithilfe von EgoAVU konstruieren wir EgoAVU-Instruct, einen groß angelegten Trainingsdatensatz mit 3M Beispielen, und EgoAVU-Bench, eine manuell verifizierte Evaluierungspartition mit diversen Aufgaben. EgoAVU-Bench zeigt deutlich die Limitierungen existierender MLLMs auf: Sie sind stark auf visuelle Signale fokussiert, vernachlässigen häufig auditive Hinweise oder scheitern daran, Audio mit der visuellen Quelle zu korrelieren. Fine-Tuning von MLLMs auf EgoAVU-Instruct behebt dieses Problem effektiv und ermöglicht Leistungssteigerungen von bis zu 113% auf EgoAVU-Bench. Diese Vorteile übertragen sich auch auf andere Benchmarks wie EgoTempo und EgoIllusion mit relativen Leistungssteigerungen von bis zu 28%. Der Code wird der Community zur Verfügung gestellt.
Generative Reward Models (GenRMs) und LLM-as-a-Judge zeigen eine trügerische Alignment, indem sie korrekte Urteile aus falschen Gründen fällen, da sie darauf trainiert und evaluiert werden, Ergebnisgenauigkeit zu priorisieren, was ihre Fähigkeit zur Generalisierung während RLHF untergräbt. Wir führen Rationale Consistency ein, eine fein granulare Metrik, die die Übereinstimmung zwischen dem Reasoning-Prozess des Modells und menschlichem Urteilsvermögen quantifiziert. Unsere Evaluierung von Frontier-Modellen zeigt, dass Rationale Consistency effektiv zwischen State-of-the-Art-Modellen unterscheidet und trügerische Alignment erkennt, während Ergebnisgenauigkeit in beiden Punkten versagt. Um diese Lücke zu schließen, führen wir ein hybrides Signal ein, das Rationale Consistency mit Ergebnisgenauigkeit für das GenRM-Training kombiniert. Unser Trainingsverfahren erreicht State-of-the-Art-Leistung auf RM-Bench (87,1 %) und JudgeBench (82 %) und übertrifft Outcome-only-Baselines im Durchschnitt um 5 %. Bei der Verwendung des RM während RLHF verbessert unsere Methode die Leistung effektiv, wie an Arena Hard v2 demonstriert wird, und erzielt insbesondere eine Verbesserung von 7 % bei kreativen Schreibaufgaben. Eine weiterführende Analyse bestätigt, dass unsere Methode der trügerischen Alignment-Falle entkommt und den bei Outcome-only-Training beobachteten Rückgang der Rationale Consistency wirksam umkehrt.
Mixture-of-Experts (MoE)-Architekturen entwickeln sich hin zu feinerer Granularität, um die Parametereffizienz zu verbessern. Bestehende MoE-Designs stehen jedoch vor einem grundsätzlichen Zielkonflikt zwischen der Granularität der Experten-Spezialisierung und der Hardware-Ausführungseffizienz. Wir stellen OmniMoE vor, einen system-algorithmisch co-designten Framework, der die Experten-Granularität auf das logische Extrem treibt. OmniMoE führt vektorebene Atomare Experten ein, die skalierbares Routing und Ausführung innerhalb einer einzelnen MoE-Schicht ermöglichen, während ein gemeinsamer dichter MLP-Zweig zur allgemeinen Verarbeitung erhalten bleibt. Obwohl dieses atomare Design die Kapazität maximiert, stellt es erhebliche Herausforderungen an die Routing-Komplexität und Speicherzugriffe. Um diese zu bewältigen, verfolgt OmniMoE einen System-Algorithmus-Co-Design-Ansatz: (i) einen kartesischen Produkt-Router, der den massiven Indexraum zerlegt, um die Routing-Komplexität von O(N) auf O(√N) zu reduzieren; und (ii) eine expertenzentrierte Planung, die die Ausführungsreihenfolge umkehrt, um verstreute, speicherlimitierte Lookups in effiziente dichte Matrixoperationen umzuwandeln. Validierungen an sieben Benchmarks zeigen, dass OmniMoE (mit 1,7B aktiven Parametern) eine Zero-Shot-Genauigkeit von 50,9 % über sieben Benchmarks erreicht und damit grobgranulare (z.B. DeepSeekMoE) sowie feingranulare (z.B. PEER) Baselines übertrifft. Entscheidend ist, dass OmniMoE die Inferenzlatenz im Vergleich zu PEER von 73 ms auf 6,7 ms reduziert (eine 10,9-fache Beschleunigung), was demonstriert, dass massiv skalierte, feingranulare MoE-Architekturen schnell und präzise sein können. Unser Code ist unter https://github.com/flash-algo/omni-moe quelloffen verfügbar.
Während Menschen die Welt durch verschiedene Modalitäten wahrnehmen, die synergetisch zusammenwirken, um ein ganzheitliches Verständnis ihrer Umgebung zu ermöglichen, stehen bestehende Omni-Video-Modelle nach wie vor vor erheblichen Herausforderungen bei audiovisuellen Verständnisaufgaben. In diesem Beitrag stellen wir OmniVideo-R1 vor, ein neuartiges, verstärktes Framework, das das gemischt-modale Schließen verbessert. OmniVideo-R1 befähigt Modelle, „mit omnimodalen Hinweisen zu denken“, durch zwei Schlüsselstrategien: (1) abfrageintives Grounding auf Basis selbstüberwachter Lernparadigmen und (2) modalitätsaufmerksame Fusion auf Grundlage kontrastiver Lernparadigmen. Umfangreiche Experimente auf mehreren Benchmarks zeigen, dass OmniVideo-R1 durchgängig starke Baseline-Methoden übertrifft, was seine Wirksamkeit und robusten Generalisierungsfähigkeiten unterstreicht.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten im Bereich des Schlussfolgerns gezeigt und beeindruckende Ergebnisse bei einer Vielzahl von Aufgaben erzielt. Trotz dieser Fortschritte bestehen erhebliche Schwächen im Reasoning fort, die sogar in scheinbar einfachen Szenarien auftreten. Um diese Mängel systematisch zu verstehen und anzugehen, präsentieren wir die erste umfassende Übersichtsarbeit, die sich Reasoning-Fehlern in LLMs widmet. Wir führen ein neuartiges Kategorisierungssystem ein, das Reasoning in verkörpertes und nicht-verkörpertes Reasoning unterteilt, wobei letzteres weiter in informelles (intuitives) und formelles (logisches) Reasoning untergliedert wird. Parallel dazu klassifizieren wir Reasoning-Fehler entlang einer komplementären Achse in drei Typen: fundamentale, in der Architektur von LLMs angelegte Fehler, die nachgelagerte Aufgaben breit betreffen; anwendungsspezifische Einschränkungen, die sich in bestimmten Domänen zeigen; und Robustheitsprobleme, die sich durch inkonsistente Leistung bei geringfügigen Variationen auszeichnen. Für jede Art von Reasoning-Fehler liefern wir eine klare Definition, analysieren bestehende Studien, erforschen die Ursachen und stellen Strategien zu deren Minderung vor. Indem wir fragmentierte Forschungsbemühungen zusammenführen, bietet unsere Übersichtsarbeit eine strukturierte Perspektive auf systemische Schwächen im LLM-Reasoning und liefert wertvolle Einblicke, um zukünftige Forschung hin zur Entwicklung stärkerer, zuverlässigerer und robusterer Reasoning-Fähigkeiten zu lenken. Zusätzlich veröffentlichen wir eine umfassende Sammlung von Forschungsarbeiten zu LLM-Reasoning-Fehlern als GitHub-Repository unter https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, um einen einfachen Einstieg in dieses Gebiet zu ermöglichen.
Offene selbstverbessernde Agenten können eigenständig ihre eigenen Strukturdesigns modifizieren, um ihre Fähigkeiten zu erweitern und die Grenzen vordefinierter Architekturen zu überwinden, wodurch die Abhängigkeit von menschlichen Eingriffen verringert wird. Wir stellen Group-Evolving Agents (GEA) vor, ein neues Paradigma für offene Selbstverbesserung, das eine Gruppe von Agenten als grundlegende evolutionäre Einheit betrachtet und expliziten Erfahrungsaustausch sowie Wiederverwendung innerhalb der Gruppe während der gesamten Evolution ermöglicht. Im Gegensatz zu bestehenden offenen Selbstevolutionsparadigmen, die baumstrukturierte Evolution verwenden, überwindet GEA die Einschränkung ineffizienter Nutzung explorativer Diversität durch isolierte Evolutionszweige. Wir evaluieren GEA anspruchsvollen Programmierbenchmarks, wo es state-of-the-art Selbstevolutionsmethoden deutlich übertrifft (71,0 % vs. 56,7 % bei SWE-bench Verified, 88,3 % vs. 68,3 % bei Polyglot) und mit Top-Mensch-Designed-Agent-Frameworks gleichzieht oder diese übertrifft (71,8 % bzw. 52,0 % bei zwei Benchmarks). Analysen zeigen, dass GEA explorative Diversität in frühen Phasen effektiver in nachhaltigen langfristigen Fortschritt umwandelt und bei gleicher Anzahl evolvierter Agenten stärkere Leistung erzielt. Zudem weist GEA konsistente Übertragbarkeit über verschiedene Programmiermodelle hinweg sowie größere Robustheit auf und behebt Framework-Fehler in durchschnittlich 1,4 Iterationen gegenüber 5 bei Selbstevolutionsmethoden.
Gewichtsbasierte Quantisierung ist entscheidend für die Komprimierung großer Sprachmodelle (LLMs). Inspiriert vom Ansatz des klassischen Magnitude-Prunings untersuchen wir, ob die Größe der Gewichtsaktualisierungen während eines auf logisches Schließen ausgerichteten Fine-Tunings wertvolle Signale für die Quantisierung großer Schlussfolgerungsmodelle (LRMs) liefern kann. Wir stellen die Hypothese auf, dass die kleinsten und größten Gewichtsaktualisierungen während des Fine-Tunings wichtiger sind als jene mittlerer Größe – ein Phänomen, das wir als "Schutz der beiden Enden" bezeichnen. Nach der Hypothesenvalidierung führen wir QuantLRM ein, was für die Gewichtsquantisierung von LRMs mittels Fine-Tuning-Signalen steht. Wir passen einfache, eingeschränkte quadratische Funktionen an die Gewichtsaktualisierungen an, um die beiden Enden zu schützen. Durch Multiplikation der durchschnittlichen quadratischen Werte mit der Anzahl der Null-Gewichtsaktualisierungen pro Kanal berechnen wir eine Kanalebedeutung, die wirksamer ist als die Verwendung von Aktivierungs- oder Informationen zweiter Ordnung. Wir wenden QuantLRM an, um verschiedene feinabgestimmte Modelle (einschließlich supervised Fine-Tuning, Direct Preference Optimization und Reinforcement Learning Fine-Tuning) über vier Reasoning-Benchmarks (AIME-120, FOLIO, temporale Sequenzen und GPQA-Diamond) zu quantisieren, und stellen empirisch fest, dass QuantLRM eine konsistente Verbesserung für die LRM-Quantisierung liefert, mit einer durchschnittlichen Steigerung von 6,55 % bei einem reinforcement-learning-feingestimmten Modell. QuantLRM unterstützt auch nicht feinabgestimmte LRMs, indem es wirksame Signale durch Pseudo-Fine-Tuning sammelt, was seine Anwendbarkeit erheblich erweitert.
Die effiziente Bereitstellung großer Sprachmodelle (LLMs) erfordert extreme Quantisierung, was einen kritischen Zielkonflikt zwischen Niedrigbit-Effizienz und Leistungsfähigkeit erzwingt. Residuale Binarisierung ermöglicht hardwarefreundlichen, matmul-freien Inferenzbetrieb durch das Stapeln binärer (±1) Schichten, leidet jedoch unter pathologischer Feature-Koadaption. Wir identifizieren einen zentralen Fehlermodus, den wir als Inter-Pfad-Adaptation bezeichnen: Während des quantisierungsbewussten Trainings (QAT) erlernen parallele residuale Binärpfade redundante Merkmale, was die Fehlerkompensationsstruktur verschlechtert und die Ausdruckskapazität des Modells begrenzt. Während frühere Arbeiten auf heuristischen Workarounds (z.B. Pfadeinfrieren) basieren, die den Lösungsraum einschränken, schlagen wir RaBiT vor, ein neuartiges Quantisierungsframework, das Koadaption durch algorithmische Erzwingung einer Residualhierarchie auflöst. Sein Kernmechanismus leitet jeden Binärpfad sequenziell aus einem einzigen gemeinsamen Vollpräzisions-Gewicht ab, was sicherstellt, dass jeder Pfad den Fehler des vorherigen korrigiert. Dieser Prozess wird durch eine robuste Initialisierung stabilisiert, die funktionale Erhaltung über bloße Gewichtsapproximation priorisiert. RaBiT definiert die 2-Bit-Genauigkeits-Effizienz-Grenze neu: Es erreicht state-of-the-art Leistung, rivalisiert sogar hardwareintensive Vektorquantisierungs-(VQ-)Methoden und erzielt eine 4,49-fache Inferenzbeschleunigung gegenüber Vollpräzisionsmodellen auf einer RTX 4090.
Große Sprachmodelle (LLMs) zeigen häufig eine geringere Leistungsfähigkeit, kulturelle Anpassung und Sicherheitsrobustheit in nicht-englischen Sprachen, was teilweise darauf zurückzuführen ist, dass Englisch sowohl die Vorab-Trainingsdaten als auch die Datensätze für die Abstimmung menschlicher Präferenzen dominiert. Trainingsmethoden wie Reinforcement Learning from Human Feedback (RLHF) und Direct Preference Optimization (DPO) erfordern Daten zu menschlichen Präferenzen, die für viele Sprachen außer Englisch nach wie vor knapp und weitgehend nicht öffentlich zugänglich sind. Um diese Lücke zu schließen, stellen wir compar:IA vor, einen Open-Source-Digitaldienst, der innerhalb der französischen Regierung entwickelt wurde und darauf ausgelegt ist, groß angelegte Daten zu menschlichen Präferenzen von einem überwiegend französischsprachigen Publikum zu sammeln. Die Plattform nutzt eine blinde paarweise Vergleichsoberfläche, um uneingeschränkte, praxisnahe Prompts und Nutzerbewertungen über eine Vielzahl von Sprachmodellen hinweg zu erfassen, wobei eine niedrige Teilnahmeschwelle und eine datenschutzschonende automatische Filterung gewahrt bleiben. Stand 07.02.2026 hat compar:IA über 600.000 frei formulierte Prompts und 250.000 Präferenzabstimmungen gesammelt, wobei etwa 89 % der Daten auf Französisch vorliegen. Wir veröffentlichen drei komplementäre Datensätze – Konversationen, Abstimmungen und Reaktionen – unter offenen Lizenzen und präsentieren erste Analysen, einschließlich einer Bestenliste für französischsprachige Modelle und Nutzerinteraktionsmuster. Über den französischen Kontext hinaus entwickelt sich compar:IA zu einem internationalen digitalen öffentlichen Gut, das wiederverwendbare Infrastruktur für mehrsprachiges Modelltraining, -evaluierung und die Erforschung der Mensch-KI-Interaktion bietet.
Wir untersuchen eine persistente Fehlermodalität bei der Multi-Objective-Alignment von Large Language Models (LLMs): Das Training verbessert die Leistung nur für eine Teilmenge der Ziele, während es zur Verschlechterung bei anderen führt. Wir formalisieren dieses Phänomen als Cross-Objective-Interferenz und führen die erste systematische Studie über klassische Skalarisierungsalgorithmen durch, die zeigt, dass Interferenz allgegenwärtig ist und eine starke Modellabhängigkeit aufweist. Um dieses Phänomen zu erklären, leiten wir ein lokales Kovarianzgesetz her, das zeigt, dass sich ein Ziel erster Ordnung verbessert, wenn seine Belohnung eine positive Kovarianz mit dem skalarisierten Score aufweist. Wir erweitern diese Analyse auf die in modernem Alignment verwendeten geclippten Surrogate-Ziele und zeigen, dass das Kovarianzgesetz unter milden Bedingungen trotz Clipping gültig bleibt. Aufbauend auf dieser Analyse schlagen wir Covariance Targeted Weight Adaptation (CTWA) vor, eine Plug-and-Play-Methode, die eine positive Kovarianz zwischen den Zielbelohnungen und dem Trainingssignal aufrechterhält, um Cross-Objective-Interferenz wirksam zu mildern. Schließlich ergänzen wir diese lokalen Verbesserungsbedingungen durch eine globale Konvergenzanalyse unter der Polyak–Łojasiewicz-Bedingung, die festlegt, wann nicht-konvexe skalarisierte Optimierung globale Konvergenz erreicht und wie Cross-Objective-Interferenz von spezifischen geometrischen Modelleigenschaften abhängt.
Mehrfach-Jailbreaks bilden das tatsächliche Bedrohungsmodell für sicherheitsausgerichtete Chatbots ab, bei denen Einfach-Jailbreaks lediglich einen Spezialfall darstellen. Bisherige Ansätze scheitern jedoch an der Komplexität der Exploration und Intent-Drift. Wir schlagen SEMA vor, ein einfaches yet effektives Framework, das einen Mehrfach-Angreifer trainiert, ohne auf bestehende Strategien oder externe Daten angewiesen zu sein. SEMA umfasst zwei Stufen. Prefilling Self-Tuning ermöglicht brauchbare Rollouts durch Feinabstimmung an nicht-abweisenden, wohlstrukturierten, mehrfachen adversarischen Prompts, die selbst mit einem minimalen Präfix generiert werden, wodurch nachfolgendes Lernen stabilisiert wird. Verstärkungslernen mit Intent-Drift-bewusster Belohnung trainiert den Angreifer, gültige mehrfache adversarische Prompts zu erzeugen, während dasselbe schädliche Ziel beibehalten wird. Wir verankern schädliche Absicht in Mehrfach-Jailbreaks über eine Intent-Drift-bewusste Belohnung, die Intent-Ausrichtung, Compliance-Risiko und Detaillierungsgrad kombiniert. Unser Open-Loop-Angriffsregime vermeidet Abhängigkeit von Opfer-Feedback, vereinheitlicht Einfach- und Mehrfach-Settings und reduziert die Explorationskomplexität. Über mehrere Datensätze, Opfermodelle und Jailbreak-Judges hinweg erreicht unsere Methode state-of-the-art (SOTA) Angriffserfolgsraten (ASR) und übertrifft alle Einfach-Baselines, manuell geskriptete und template-gesteuerte Mehrfach-Baselines sowie unsere SFT- (Supervised Fine-Tuning) und DPO- (Direct Preference Optimization) Varianten. Beispielsweise erzielt SEMA durchschnittlich 80,1 % ASR@1 über drei Closed-Source- und Open-Source-Opfermodelle auf AdvBench, 33,9 % über SOTA. Der Ansatz ist kompakt, reproduzierbar und überträgt sich auf Ziele, bietet einen stärkeren und realistischeren Stresstest für die Sicherheit großer Sprachmodelle (LLM) und ermöglicht automatisches Redteaming, um Fehlermodi aufzudecken und zu lokalisieren. Unser Code ist verfügbar unter: https://github.com/fmmarkmq/SEMA.
Reinforcement Learning (RL) hat sich als vorherrschendes Paradigma für das Training von KI-Agenten auf Basis großer Sprachmodelle (LLM) etabliert. Allerdings verfügen bestehende grundlegende RL-Algorithmen nicht über verifizierte Konvergenzgarantien in agentenbasierten Szenarien, insbesondere in Multi-Turn-Settings, was zu Trainingsinstabilität und dem Scheitern der Konvergenz hin zu optimalen Politiken führen kann. In diesem Artikel analysieren wir systematisch, wie verschiedene Kombinationen von Policy-Update-Mechanismen und Advantage-Schätzmethoden die Konvergenzeigenschaften in Einzel- und Multi-Turn-Szenarien beeinflussen. Wir stellen fest, dass REINFORCE mit Group Relative Advantage Estimation (GRAE) unter undiskontierten Bedingungen zur globalen Optimum konvergieren kann, die Kombination von PPO und GRAE jedoch die ursprüngliche Eigenschaft der monotonen Verbesserung von PPO zerstört. Darüber hinaus zeigen wir, dass gängige grundlegende RL-Algorithmen in Multi-Turn-Szenarien nicht gleichzeitig sowohl Kritiker-Freiheit als auch Konvergenzgarantien erreichen können. Um dieses Problem zu adressieren, schlagen wir SeeUPO (Sequence-level Sequential Update Policy Optimization) vor, einen Kritiker-freien Ansatz mit Konvergenzgarantien für Multi-Turn-Interaktionen. SeeUPO modelliert Multi-Turn-Interaktionen als sequentiell ausgeführte Multi-Agenten-Bandit-Probleme. Durch schrittweise sequentielle Policy-Updates in umgekehrter Ausführungsreihenfolge stellt es monotone Verbesserung und Konvergenz zur globalen optimalen Lösung mittels Rückwärtsinduktion sicher. Experimente auf AppWorld und BFCL v4 demonstrieren die erheblichen Verbesserungen von SeeUPO gegenüber bestehenden Grundalgorithmen: relative Steigerungen von 43,3 % bis 54,6 % bei Qwen3-14B und 24,1 % bis 41,9 % bei Qwen2.5-14B (gemittelt über Benchmarks), zusammen mit einer überlegenen Trainingsstabilität.
Standardmäßige Trainingsabläufe für große Sprachmodelle (LLMs) sind typischerweise unidirektional und verlaufen von Pre-Training zu Post-Training. Das Potenzial eines bidirektionalen Prozesses – bei dem Erkenntnisse aus dem Post-Training rückwirkend das vortrainierte Basismodell verbessern – bleibt jedoch unerforscht. Unser Ziel ist es, eine sich selbst verstärkende Feedbackschleife (Flywheel) zu etablieren: einen Kreislauf, in dem ein durch Reinforcement Learning (RL) optimiertes Modell das Basismodell stärkt, was wiederum die nachfolgende Post-Training-Leistung verbessert, ohne dass speziell trainierte Lehrer- oder Referenzmodelle erforderlich sind. Um dies zu realisieren, analysieren wir die Trainingsdynamik und identifizieren die Mid-Training-Phase (Annealing) als kritischen Wendepunkt für die Modellfähigkeiten. Diese Phase tritt typischerweise gegen Ende des Pre-Trainings auf und nutzt hochwertige Korpora unter einer schnell abfallenden Lernrate. Aufbauend auf dieser Erkenntnis führen wir ReMiT (Reinforcement Learning-Guided Mid-Training) ein. Konkret nutzt ReMiT die Reasoning-Priors von RL-optimierten Modellen, um Tokens während der Mid-Training-Phase dynamisch neu zu gewichten, wobei solche priorisiert werden, die für das logische Schließen entscheidend sind. Empirisch erzielt ReMiT eine durchschnittliche Verbesserung von 3 % auf 10 Pre-Training-Benchmarks in den Bereichen Mathematik, Code und allgemeinem Reasoning und hält diesen Leistungszuwachs von über 2 % throughout den gesamten Post-Training-Prozess aufrecht. Diese Ergebnisse validieren eine iterative Feedbackschleife, die eine kontinuierliche und sich selbst verstärkende Evolution von LLMs ermöglicht.
Vereinheitlichte multimodale Modelle (UMMs) haben beeindruckende Fähigkeiten bei der Erzeugung natürlicher Bilder und der Unterstützung multimodaler Reasoning-Prozesse gezeigt. Ihr Potenzial zur Unterstützung von Computer-Nutzungsplanungsaufgaben, die in engem Zusammenhang mit unserem Alltag stehen, bleibt jedoch weitgehend unerforscht. Bildgenerierung und -bearbeitung in Computer-Nutzungsaufgaben erfordern Fähigkeiten wie räumliches Reasoning und prozedurales Verständnis, und es ist noch unbekannt, ob UMMs über diese Fähigkeiten verfügen, um diese Aufgaben zu bewältigen. Daher schlagen wir PlanViz vor, einen neuen Benchmark zur Bewertung von Bildgenerierung und -bearbeitung für Computer-Nutzungsaufgaben. Um das Ziel unserer Evaluation zu erreichen, konzentrieren wir uns auf Teilaufgaben, die häufig im täglichen Leben vorkommen und Planungsschritte erfordern. Konkret werden drei neue Teilaufgaben entwickelt: Routenplanung, Arbeitsdiagrammerstellung sowie Web- und UI-Darstellung. Wir adressieren Herausforderungen bei der Datenqualität durch kuratierte, menschlich annotierte Fragen und Referenzbilder sowie einen Qualitätssicherungsprozess. Für die Herausforderungen einer umfassenden und exakten Evaluation wird ein aufgabenspezifischer Score, der PlanScore, vorgeschlagen. Dieser Score ermöglicht die Bewertung der Korrektheit, visuellen Qualität und Effizienz generierter Bilder. Durch Experimente zeigen wir zentrale Limitationen und Chancen für zukünftige Forschung zu diesem Thema auf.
Die Glattheit der Transformer-Architektur wurde im Zusammenhang mit Generalisierung, Trainingsstabilität und adversarieller Robustheit intensiv untersucht. Ihre Rolle beim Transferlernen bleibt jedoch weitgehend unverstanden. In dieser Arbeit analysieren wir die Fähigkeit von Vision-Transformer-Komponenten, ihre Ausgaben an Änderungen der Eingaben anzupassen, oder anders ausgedrückt, ihre Plastizität. Diese wird als durchschnittliche Änderungsrate definiert und erfasst die Empfindlichkeit gegenüber Eingabestörungen; insbesondere impliziert eine hohe Plastizität eine geringe Glattheit. Wir zeigen durch theoretische Analysen und umfangreiche Experimente, dass diese Perspektive eine prinzipielle Leitlinie für die Auswahl der Komponenten bietet, die während der Anpassung priorisiert werden sollten. Eine zentrale Erkenntnis für Praktiker ist, dass die hohe Plastizität der Aufmerksamkeitsmodule und Feedforward-Schichten konsistent zu besserer Fine-Tuning-Leistung führt. Unsere Ergebnisse weichen von der vorherrschenden Annahme ab, dass Glattheit wünschenswert ist, und bieten eine neue Perspektive auf die funktionalen Eigenschaften von Transformatoren. Der Code ist verfügbar unter https://github.com/ambroiseodt/vit-plasticity.
Dichte Transformer-Sprachmodelle folgten weitgehend einer konsistenten Architekturform: Jede Schicht besteht aus einem Attention-Modul, gefolgt von einem Feed-Forward-Netzwerk (FFN) mit einem schmal-breit-schmalen MLP, das den Großteil der Parameter dem MLP bei Expansionsverhältnissen zwischen 2 und 4 zuweist. Angeregt durch neuere Ergebnisse, die zeigen, dass residuale breit-schmal-breite (sanduhrförmige) MLPs überlegene Funktionsapproximationsfähigkeiten bieten, hinterfragen wir die langjährige Konvention der MLP-Form in Transformatoren und stellen die Notwendigkeit des schmal-breit-schmalen Designs infrage. Um dies zu untersuchen, entwickeln wir eine Transformervariante, die das konventionelle FFN durch ein tieferes, sanduhrförmiges FFN ersetzt, das aus einem Stapel sanduhrförmiger Sub-MLPs besteht, die durch residuale Pfade verbunden sind. Wir postulieren, dass ein tieferes, aber leichteres sanduhrförmiges FFN eine wettbewerbsfähige Alternative zum konventionellen FFN darstellen kann und dass die durch die Verwendung eines leichteren sanduhrförmigen FFNs eingesparten Parameter effektiver genutzt werden können, beispielsweise durch Vergrößern der versteckten Dimensionen des Modells bei festen Budgets. Wir bestätigen dies durch empirische Validierungen über verschiedene Modellgrößen hinweg: Sanduhr-FFNs übertreffen konventionelle FFNs bis zu 400M Parametern und erreichen vergleichbare Leistung bei größeren Skalen bis zu 1B Parametern; Sanduhr-FFN-Varianten mit reduzierten FFN- und erhöhten Attention-Parametern zeigen durchgängige Verbesserungen gegenüber konventionellen Konfigurationen bei gleichem Budget. Zusammengenommen werfen diese Erkenntnisse ein neues Licht auf aktuelle Arbeiten und regen ein Überdenken der schmal-breit-schmalen MLP-Konvention sowie des Gleichgewichts zwischen Attention und FFN im Hinblick auf effiziente und ausdrucksstarke moderne Sprachmodelle an.
Die Vorverarbeitung von Ganzpräparat-Bildern (Whole-Slide Images, WSI), die typischerweise die Gewebeerkennung gefolgt von der Extraktion von Bildausschnitten umfasst, ist grundlegend für KI-gestützte Workflows in der computergestützten Pathologie. Sie stellt nach wie vor einen erheblichen Rechenengpass dar, da bestehende Werkzeuge entweder auf ungenaue heuristische Schwellwertverfahren für die Gewebeerkennung angewiesen sind oder KI-basierte Ansätze verwenden, die auf Daten mit begrenzter Diversität trainiert sind und auf Ebene einzelner Bildausschnitte operieren, was erhebliche Rechenkomplexität verursacht. Wir stellen AtlasPatch vor, ein effizientes und skalierbares Framework zur Vorverarbeitung von Präparatebildern für eine präzise Gewebeerkennung und einen hochdurchsatzfähigen Extraktionsprozess von Bildausschnitten mit minimalem Rechenaufwand. Das Gewebeerkennungsmodul von AtlasPatch wurde auf einem heterogenen, teilmanuell annotierten Datensatz von ~30.000 WSI-Vorschaubildern trainiert, wobei ein effizientes Fine-Tuning des Segment-Anything-Modells zum Einsatz kam. Das Werkzeug extrapoliert Gewebemasken von Vorschaubildern auf hochaufgelöste Vollbilder, um die Koordinaten der Bildausschnitte bei benutzerdefinierten Vergrößerungen zu extrahieren. Es bietet die Möglichkeit, Ausschnitte direkt in gängige Bildencoder zur Einbettung zu streamen oder die Bildausschnitte zu speichern, wobei alle Prozesse effizient über CPUs und GPUs parallelisiert werden. Wir bewerten AtlasPatch hinsichtlich Segmentierungsgenauigkeit, Rechenkomplexität und nachgelagertem Multiple-Instance-Learning. Das Framework erreicht eine mit dem Stand der Technik vergleichbare Leistung, verursacht dabei jedoch nur einen Bruchteil der Rechenkosten. AtlasPatch ist quelloffen und verfügbar unter https://github.com/AtlasAnalyticsLab/AtlasPatch.
Große Sprachmodelle haben bemerkenswerte Fähigkeiten in offenen Dialogen gezeigt. Allerdings weisen aktuelle Methoden suboptimale Leistungen in Servicedialogen auf, da sie auf verrauschte, minderwertige menschliche Konversationsdaten angewiesen sind. Diese Einschränkung ergibt sich aus Datenknappheit und der Schwierigkeit, authentische, zielorientierte Nutzerverhalten zu simulieren. Um diese Probleme zu adressieren, schlagen wir SEAD (Self-Evolving Agent for Service Dialogue) vor, ein Framework, das Agenten ermöglicht, effektive Strategien ohne umfangreiche menschliche Annotationen zu erlernen. SEAD entkoppelt die Nutzermodellierung in zwei Komponenten: einen Profil-Controller, der diverse Nutzerzustände zur Steuerung des Trainingscurriculums generiert, und ein User Role-play Model, das sich auf realistisches Rollenspiel konzentriert. Dieses Design stellt sicher, dass die Umgebung adaptive Trainingsszenarien bereitstellt, anstatt als unfaire Gegenpartei zu agieren. Experimente zeigen, dass SEAD Open-Source-Basismodelle und proprietäre kommerzielle Modelle signifikant übertrifft und die Aufgabenabschlussrate um 17,6 % sowie die Dialogeffizienz um 11,1 % steigert. Code ist verfügbar unter: https://github.com/Da1yuqin/SEAD.
Trotz jüngster Erfolge bleibt das Skalieren zur Testzeit – also die dynamische Erweiterung des Token-Budgets während der Inferenz bei Bedarf – für Vision-Language-Modelle (VLMs) anfällig: Unstrukturierte Gedankenketten über Bilder vermischen Wahrnehmung und logisches Denken, was zu langen, ungeordneten Kontexten führt, in denen kleine Wahrnehmungsfehler kaskadierend zu völlig falschen Antworten führen können. Zudem ist teures Reinforcement Learning mit handgefertigten Belohnungsfunktionen erforderlich, um gute Leistung zu erzielen. Hier stellen wir SPARC (Separating Perception And Reasoning Circuits) vor, einen modularen Rahmen, der die visuelle Wahrnehmung explizit vom logischen Denken entkoppelt. Inspiriert von der sequenziellen sensorisch-kognitiven Verarbeitung im Gehirn implementiert SPARC eine zweistufige Pipeline, bei der das Modell zunächst eine explizite visuelle Suche durchführt, um fragerelevante Regionen zu lokalisieren, und anschließend sein logisches Denken auf diese Regionen konditioniert, um die endgültige Antwort zu erzeugen. Diese Trennung ermöglicht eine unabhängige Skalierung zur Testzeit mit asymmetrischer Rechenressourcen-Zuteilung (z.B. Priorisierung der Wahrnehmungsverarbeitung bei Distribution Shift), unterstützt selektive Optimierung (z.B. Verbesserung nur der Wahrnehmungsstufe, wenn sie der Engpass für die End-to-End-Leistung ist) und ermöglicht komprimierte Kontexte, indem die globale Suche mit niedrigeren Bildauflösungen durchgeführt wird und hochauflösende Verarbeitung nur auf ausgewählten Regionen erfolgt, was die Gesamtzahl der visuellen Tokens und den Rechenaufwand reduziert. In anspruchsvollen Benchmarks für visuelles Schließen übertrifft SPARC monolithische Baseline-Modelle und starke Visual-Grounding-Ansätze. So verbessert SPARC beispielsweise die Genauigkeit von Qwen3VL-4B im V^* VQA-Benchmark um 6,7 Prozentpunkte und übertrifft "Thinking with Images" in einer anspruchsvollen OOD-Aufgabe um 4,6 Punkte, obwohl es ein 200-mal geringeres Token-Budget benötigt.
Bestehende Ansätze zur Analyse von Neural-Network-Aktivierungen, wie PCA und sparse Autoencoder, basieren auf starken strukturellen Annahmen. Generative Modelle bieten eine Alternative: Sie können Struktur ohne solche Annahmen aufdecken und als Priors fungieren, die die Interventionsfidelität verbessern. Wir untersuchen diesen Ansatz, indem wir Diffusionsmodelle auf einer Milliarde Residual-Stream-Aktivierungen trainieren und so "Meta-Modelle" erstellen, die die Verteilung der internen Zustände eines Netzwerks erlernen. Wir stellen fest, dass der Diffusionsverlust rechnerisch gleichmäßig abnimmt und zuverlässig den nachgelagerten Nutzen vorhersagt. Insbesondere verbessert die Anwendung des gelernten Priors des Meta-Modells auf Steuerungseingriffe die Flüssigkeit, wobei die Gewinne mit sinkendem Verlust größer werden. Darüber hinaus isolieren die Neuronen des Meta-Modells zunehmend Konzepte in einzelnen Einheiten, mit spärlichen Probing-Scores, die mit sinkendem Verlust skalieren. Diese Ergebnisse deuten darauf hin, dass generative Meta-Modelle einen skalierbaren Weg zur Interpretierbarkeit ohne restriktive strukturelle Annahmen bieten. Projektseite: https://generative-latent-prior.github.io.
Aktuelle Informationssuch-Agenten (InfoSeeking) haben Schwierigkeiten, den Fokus und die Kohärenz während langfristiger Exploration beizubehalten, da die Nachverfolgung von Suchzuständen – einschließlich Planungsprozedur und umfangreicher Suchergebnisse – innerhalb eines reinen Textkontextes inhärent fehleranfällig ist. Um dies zu adressieren, stellen wir Table-as-Search (TaS) vor, ein strukturiertes Planungsframework, das die InfoSeeking-Aufgabe als Tabellenvervollständigungsaufgabe neu formuliert. TaS bildet jede Anfrage auf ein strukturiertes Tabellenschema ab, das in einer externen Datenbank verwaltet wird, wobei Zeilen Suchkandidaten repräsentieren und Spalten Einschränkungen oder benötigte Informationen bezeichnen. Diese Tabelle verwaltet die Suchzustände präzise: ausgefüllte Zellen zeichnen den Verlauf und Suchergebnisse strikt auf, während leere Zellen als expliziter Suchplan dienen. Entscheidend ist, dass TaS drei verschiedene InfoSeeking-Aufgaben vereinheitlicht: Tiefensuche, Breitensuche und die anspruchsvolle Tiefen-Breiten-Suche. Umfangreiche Experimente zeigen, dass TaS zahlreiche state-of-the-art Baseline-Systeme auf drei Arten von Benchmarks, einschließlich Multi-Agenten-Frameworks und kommerziellen Systemen, signifikant übertrifft. Darüber hinaus validiert unsere Analyse die überlegene Robustheit von TaS bei langfristiger Informationssuche sowie dessen Effizienz, Skalierbarkeit und Flexibilität. Code und Datensätze sind öffentlich unter https://github.com/AIDC-AI/Marco-Search-Agent verfügbar.
Die sprachbasierte Segmentierung ist ein beliebtes Forschungsthema in der Computer Vision. Obwohl jüngste Fortschritte bei multimodalen Large Language Models (MLLMs) Segmentierungssysteme mit Reasoning-Fähigkeiten ausgestattet haben, bleiben diese Ansätze durch das eingefrorene interne Wissen der MLLMs begrenzt, was ihr Potenzial für reale Szenarien mit aktuellen Informationen oder domänenspezifischen Konzepten einschränkt. In dieser Arbeit schlagen wir Seg-ReSearch vor, ein neuartiges Segmentierungsparadigma, das den Wissensengpass bestehender Ansätze überwindet. Durch die Ermöglichung von verschachteltem Reasoning und externer Suche befähigt Seg-ReSearch Segmentierungssysteme dazu, dynamische, Open-World-Anfragen zu verarbeiten, die über das eingefrorene Wissen von MLLMs hinausgehen. Um diese Fähigkeit effektiv zu trainieren, führen wir ein hierarchisches Belohnungsdesign ein, das initiale Führung mit progressiven Anreizen in Einklang bringt und so das Dilemma zwischen spärlichen Ergebnissignalen und starrer schrittweiser Überwachung mildert. Für die Evaluation erstellen wir OK-VOS, einen anspruchsvollen Benchmark, der explizit externes Wissen für Video Object Segmentation erfordert. Experimente auf OK-VOS und zwei bestehenden Reasoning-Segmentierungs-Benchmarks zeigen, dass unser Seg-ReSearch state-of-the-art Ansätze um einen deutlichen Vorsprung verbessert. Code und Daten werden unter https://github.com/iSEE-Laboratory/Seg-ReSearch veröffentlicht.
Wissensdistillation hat sich zu einer zentralen Technik entwickelt, um Wissen von stärkeren großen Sprachmodellen (LLMs) auf kleinere, effizientere Modelle zu übertragen. Traditionelle Distillationsansätze stehen jedoch vor Herausforderungen in Bezug auf Wissenskonflikte und hohen Ressourcenbedarf, insbesondere bei der Nutzung mehrerer Lehrermodelle. In diesem Beitrag führen wir das Konzept der Wissenspurifikation ein, das die Begründungszusammenhänge mehrerer Lehrer-LLMs in einer einzigen Rationale zusammenführt, wodurch Konflikte gemindert und die Effizienz gesteigert wird. Um die Wirksamkeit der Wissenspurifikation zu untersuchen, schlagen wir fünf Purifikationsmethoden aus verschiedenen Perspektiven vor. Unsere Experimente zeigen, dass diese Methoden nicht nur die Leistung des distillierten Modells verbessern, sondern auch Wissenskonflikte wirksam reduzieren. Darüber hinaus weisen routerbasierte Methoden robuste Generalisierungsfähigkeiten auf, was das Potenzial innovativer Purifikationstechniken zur Optimierung der Multi-Teacher-Distillation und zur Erleichterung des praktischen Einsatzes leistungsstarker, aber schlanker Modelle unterstreicht.
Echte Selbstevolution erfordert, dass Agenten als lebenslang Lernende agieren, die neue Erfahrungen internalisieren, um künftige Probleme zu lösen. Die rigorose Messung dieser grundlegenden Fähigkeit wird jedoch durch zwei Hindernisse erschwert: die Vermengung von Vorwissen, bei dem „neues“ Wissen in Vortrainingsdaten auftauchen kann, und die Vermengung von Reasoning-Komplexität, bei der Fehler auf die Schwierigkeit des Problems zurückgehen können statt auf die Unfähigkeit, gelerntes Wissen abzurufen. Wir stellen SE-Bench vor, eine diagnostische Umgebung, die die NumPy-Bibliothek und ihre API-Dokumentation in ein pseudo-neues Paket mit randomisierten Bezeichnern verschleiert. Agenten werden trainiert, dieses Paket zu internalisieren und an einfachen Programmieraufgaben evaluiert, ohne Zugang zur Dokumentation zu haben. Dies schafft eine saubere Testumgebung, in der Aufgaben mit der neuen API-Dokumentation trivial, für Basismodelle ohne diese jedoch unmöglich sind. Unsere Untersuchung liefert drei Erkenntnisse: (1) das Open-Book-Paradoxon, bei dem Training mit Referenzdokumentation die Wissensspeicherung hemmt, sodass „Closed-Book Training“ nötig ist, um Wissenskompression in den Gewichten zu erzwingen; (2) die RL-Lücke, bei der Standard-Reinforcement-Learning neues Wissen aufgrund von PPO-Clipping und negativen Gradienten nicht vollständig internalisiert; und (3) die Tauglichkeit von Self-Play zur Internalisation, wobei Modelle aus selbstgenerierten, verrauschten Aufgaben in Kombination mit SFT, aber nicht mit RL, lernen können. Insgesamt etabliert SE-Bench eine rigorose diagnostische Plattform für Selbstevolution durch Wissensinternalisierung. Unser Code und Datensatz sind unter https://github.com/thunlp/SE-Bench verfügbar.
Differenzierbare Matching-Schichten und Residual-Connection-Paradigmen, häufig implementiert über entropie-regulariertes Optimales Transport (OT), dienen als kritische Mechanismen in der strukturellen Vorhersage und architektonischen Skalierung. Die Wiederherstellung diskreter Permutationen oder die Beibehaltung von Identitätsabbildungen durch Annealing von ε gegen 0 ist jedoch notorisch instabil. In dieser Arbeit identifizieren wir einen grundlegenden Mechanismus für dieses Versagen: Vorzeitigen Modus-Zusammenbruch (Premature Mode Collapse). Durch die Analyse der nicht-normalen Dynamik der Sinkhorn-Fixpunktabbildung decken wir ein theoretisches thermodynamisches Geschwindigkeitslimit auf: Standardmäßiges exponentielles Abkühlen überholt die Kontraktionsrate des Inferenzoperators, die sich mit O(1/ε) verschlechtert. Um dies zu adressieren, schlagen wir Efficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC) vor, einen adaptiven Scheduling-Algorithmus, der die Stabilität des Inferenzprozesses überwacht. Wir demonstrieren, dass EPH-ASC essenziell für die Stabilisierung von Manifold-Constrained Hyper-Connections (mHC) während des Large-Scale-Trainings auf dem FineWeb-Edu-Datensatz ist, indem es ein lineares Stabilitätsgesetz durchsetzt und so Gradientenexplosionen in späten Trainingsphasen wirksam verhindert.
Klimagefahren beeinträchtigen zunehmend den städtischen Verkehr und Notfallmaßnahmen, indem sie Wohnraum beschädigen, Infrastruktur verschlechtern und die Netzwerkerreichbarkeit verringern. Dieses Papier stellt Skjold-DiT vor, ein Diffusions-Transformer-Framework, das heterogene räumlich-zeitliche urbane Daten integriert, um klimabedingte Risikoindikatoren auf Gebäudeebene zu prognostizieren und dabei explizit die Verkehrsnetzstruktur sowie Erreichbarkeitssignale für intelligente Fahrzeuge (z.B. Notfallerreichbarkeit und Evakuierungsrouten-Beschränkungen) einbezieht. Konkret ermöglicht Skjold-DiT gefahrenbedingte Routing-Beschränkungen, indem es kalibrierte, unsicherheitsbewusste Erreichbarkeitsebenen (Erreichbarkeit, Reisezeitverlängerung und Routenredundanz) erzeugt, die von Routing-Systemen für intelligente Fahrzeuge und Notfalldispositionen genutzt werden können. Skjold-DiT kombiniert: (1) Fjell-Prompt, eine prompt-basierte Konditionierungsschnittstelle zur Unterstützung des städteübergreifenden Transfers; (2) Norrland-Fusion, einen cross-modalen Aufmerksamkeitsmechanismus, der Gefahrenkarten/Bilder, Gebäudeattribute, Demografie und Verkehrsinfrastruktur in einer gemeinsamen latenten Repräsentation vereint; und (3) Valkyrie-Forecast, einen kontrafaktischen Simulator zur Generierung probabilistischer Risikotrajektorien unter Interventions-Prompts. Wir stellen den Baltic-Caspian Urban Resilience (BCUR)-Datensatz mit 847.392 Gebäudebeobachtungen aus sechs Städten vor, einschließlich Multi-Gefahren-Annotationen (z.B. Hochwasser- und Hitzeindikatoren) und verkehrsbezogenen Erreichbarkeitsmerkmalen. Experimente bewerten die Prognosequalität, städteübergreifende Generalisierung, Kalibrierung und verkehrsrelevante Ergebnisse, einschließlich Erreichbarkeit und gefahrenbedingter Reisezeiten unter kontrafaktischen Interventionen.
Post-Quantisierung reduziert die Rechenkosten großer Sprachmodelle, verändert jedoch grundlegend deren soziale Verzerrungen, was durch aggregierte Metriken nicht erfasst wird. Wir präsentieren die erste groß angelegte Studie von 50 quantisierten Modellen, die auf PostTrainingBiasBench – einem einheitlichen Benchmark mit 13 Bias-Datensätzen für geschlossene und offene Aufgaben – evaluiert wurden. Wir identifizieren ein Phänomen, das wir als quantisierungsinduziertes maskiertes Bias-Umkippen bezeichnen, bei dem bis zu 21 % der Antworten nach der Quantisierung zwischen verzerrten und unverzerrten Zuständen wechseln, obwohl sich die aggregierten Bias-Werte nicht ändern. Diese Wechsel werden stark durch die Modellunsicherheit beeinflusst: Antworten mit hoher Unsicherheit sind 3- bis 11-mal häufiger betroffen als confidente Antworten. Die Quantisierungsstärke verstärkt diesen Effekt, wobei 4-Bit-quantisierte Modelle 4- bis 6-mal mehr Verhaltensänderungen aufweisen als 8-Bit-quantisierte Modelle. Entscheidend ist, dass diese Veränderungen asymmetrische Auswirkungen auf demografische Gruppen haben – die Verzerrung kann sich für einige Gruppen um bis zu 18,6 % verschlechtern, während sie sich für andere um 14,1 % verbessert, was irreführend neutrale Gesamtergebnisse liefert. Größere Modelle zeigen keinen konsistenten Robustheitsvorteil, und gruppenspezifische Verschiebungen variieren unvorhersehbar zwischen Modellfamilien. Unsere Ergebnisse zeigen, dass Komprimierung Bias-Muster grundlegend verändert, was eine entscheidende Evaluierung und Intervention nach der Quantisierung erfordert, um praktische Zuverlässigkeit zu gewährleisten.