papers.description
Viele trainierungsfreie Sparse-Attention-Methoden sind effektiv zur Beschleunigung von Diffusionsmodellen. Kürzlich haben mehrere Arbeiten nahegelegt, dass trainierbare Sparse-Attention eine höhere Sparsity bei Erhalt der Generierungsqualität ermöglichen kann. Wir untersuchen drei Schlüsselfragen: (1) Wann versagen die beiden gängigen Maskierungsregeln, Top-k und Top-p, und wie können wir diese Fehler vermeiden? (2) Warum kann trainierbare Sparse-Attention eine höhere Sparsity als trainierungsfreie Methoden erreichen? (3) Was sind die Grenzen des Fine-Tunings von Sparse-Attention mittels Diffusionsverlust, und wie können wir diese adressieren? Basierend auf dieser Analyse schlagen wir SpargeAttention2 vor, eine trainierbare Sparse-Attention-Methode, die hohe Sparsity ohne Qualitätseinbußen erreicht. SpargeAttention2 umfasst (i) eine hybride Maskierungsregel, die Top-k und Top-p für robustere Maskierung bei hoher Sparsity kombiniert, (ii) eine effiziente Implementierung trainierbarer Sparse-Attention und (iii) einen distillationsinspirierten Fine-Tuning-Ansatz zum besseren Erhalt der Generierungsqualität während des Fine-Tunings mit Sparse-Attention. Experimente mit Video-Diffusionsmodellen zeigen, dass SpargeAttention2 bei 95 % Attention-Sparsity und 16,2-facher Beschleunigung die Generierungsqualität erhält und dabei bestehende Sparse-Attention-Methoden konsistent übertrifft.
Wir stellen Unified Latents (UL) vor, ein Framework zum Erlernen latenter Repräsentationen, die gemeinsam durch einen Diffusions-Prior regularisiert und durch ein Diffusionsmodell dekodiert werden. Indem wir das Ausgangsrauschen des Encoders mit dem minimalen Rauschlevel des Priors verknüpfen, erhalten wir ein einfaches Trainingsziel, das eine scharfe obere Schranke für die latente Bitrate liefert. Auf ImageNet-512 erreicht unser Ansatz einen konkurrenzfähigen FID-Wert von 1,4 bei hoher Rekonstruktionsqualität (PSNR) und benötigt dabei weniger Trainings-FLOPs als Modelle, die auf Stable-Diffusion-Latents trainiert wurden. Auf Kinetics-600 erzielen wir einen neuen state-of-the-art FVD-Wert von 1,3.
Die Arbeit stellt GUI-Owl-1.5 vor, das neueste native GUI-Agentenmodell, das Instruct/Thinking-Varianten in mehreren Größen (2B/4B/8B/32B/235B) bietet und eine Reihe von Plattformen (Desktop, Mobilgeräte, Browser u.a.) unterstützt, um Cloud-Edge-Kollaboration und Echtzeitinteraktion zu ermöglichen. GUI-Owl-1.5 erzielt state-of-the-art Ergebnisse auf mehr als 20 GUI-Benchmarks für Open-Source-Modelle: (1) bei GUI-Automatisierungsaufgaben erreicht es 56,5 auf OSWorld, 71,6 auf AndroidWorld und 48,4 auf WebArena; (2) bei Grounding-Aufgaben erzielt es 80,3 auf ScreenSpotPro; (3) bei Tool-Calling-Aufgaben erreicht es 47,6 auf OSWorld-MCP und 46,8 auf MobileWorld; (4) bei Gedächtnis- und Wissensaufgaben erzielt es 75,5 auf GUI-Knowledge Bench. GUI-Owl-1.5 integriert mehrere Schlüsselinnovationen: (1) Hybride Data Flywheel: Wir konstruieren die Datenpipeline für UI-Verständnis und Trajektoriengenerierung basierend auf einer Kombination aus simulierten Umgebungen und cloud-basierten Sandbox-Umgebungen, um die Effizienz und Qualität der Datenerfassung zu verbessern. (2) Vereinheitlichte Verbesserung der Agenten-Fähigkeiten: Wir nutzen eine einheitliche Thought-Synthesis-Pipeline zur Steigerung der Reasoning-Fähigkeiten des Modells, mit besonderem Fokus auf Schlüsselkompetenzen wie Tool/MCP-Nutzung, Gedächtnis und Multi-Agenten-Adaption. (3) Multi-Plattform-Umgebungs-RL-Skalierung: Wir schlagen einen neuen Umgebungs-RL-Algorithmus (MRPO) vor, um die Herausforderungen von Multi-Plattform-Konflikten und der geringen Trainingseffizienz langfristiger Aufgaben zu adressieren. Die GUI-Owl-1.5-Modelle sind quelloffen, und eine Online-Cloud-Sandbox-Demo ist unter https://github.com/X-PLUG/MobileAgent verfügbar.
Agentische KI-Assistenten, die eigenständig mehrstufige Aufgaben ausführen, werfen offene Fragen für die Benutzererfahrung auf: Wie sollten solche Systeme Fortschritt und Schlussfolgerungen während längerer Operationen kommunizieren, insbesondere in aufmerksamkeitskritischen Kontexten wie dem Fahren? Wir untersuchen das Timing und die Ausführlichkeit von Rückmeldungen bei agentischen, LLM-basierten Sprachassistenten im Auto durch eine kontrollierte Mixed-Methods-Studie (N=45), die Feedback zu geplanten Schritten und Zwischenergebnissen mit einem stillen Betrieb und nur abschließender Antwort vergleicht. Mithilfe eines Dual-Task-Paradigmas mit einem Sprachassistenten im Auto fanden wir heraus, dass Zwischenfeedback die wahrgenommene Geschwindigkeit, das Vertrauen und die Benutzererfahrung signifikant verbesserte und gleichzeitig die Aufgabenlast verringerte – Effekte, die über verschiedene Aufgabenkomplexitäten und Interaktionskontexte hinweg bestanden. Interviews zeigten weiterhin eine Benutzerpräferenz für einen adaptiven Ansatz: hohe anfängliche Transparenz zur Vertrauensbildung, gefolgt von einer progressiv abnehmenden Ausführlichkeit, sobald sich Systeme als zuverlässig erweisen, mit Anpassungen basierend auf der Bedeutung der Aufgabe und dem situativen Kontext. Wir übertragen unsere empirischen Erkenntnisse in Designimplikationen für das Timing und die Ausführlichkeit von Rückmeldungen in agentischen Assistenten, um Transparenz und Effizienz in Einklang zu bringen.
Große Sprachmodelle (LLMs) werden zunehmend für komplexe Probleme eingesetzt, die nicht unbedingt in einer einzigen Antwort gelöst werden, sondern die Interaktion mit einer Umgebung erfordern, um Informationen zu erlangen. In diesen Szenarien müssen LLMs über inhärente Kosten-Unsicherheits-Abwägungen entscheiden, wann sie die Exploration beenden und sich auf eine Antwort festlegen sollen. Beispielsweise sollte ein LLM bei einer Programmieraufgabe einen generierten Codeabschnitt testen, wenn es unsicher über dessen Korrektheit ist; die Kosten für das Schreiben eines Tests sind zwar nicht null, aber in der Regel geringer als die Kosten für einen Fehler. In dieser Arbeit zeigen wir, dass wir LLMs dazu bringen können, explizit über die Abwägung dieser Kosten-Unsicherheits-Kompromisse nachzudenken und anschließend eine optimalere Umgebungsexploration durchzuführen. Wir formalisieren mehrere Aufgaben, einschließlich Informationsbeschaffung und Programmierung, als sequenzielle Entscheidungsprobleme unter Unsicherheit. Jedes Problem hat einen latenten Umgebungszustand, über den mittels eines Priors nachgedacht werden kann, der dem LLM-Agenten übergeben wird. Wir stellen einen Rahmen namens Calibrate-Then-Act (CTA) vor, bei dem wir dem LLM diesen zusätzlichen Kontext geben, um es zu optimalerem Handeln zu befähigen. Diese Verbesserung bleibt auch unter Reinforcement-Learning-Training sowohl der Basislinie als auch von CTA erhalten. Unsere Ergebnisse zu informationssuchenden Frage-Antwort-Systemen und zu einer vereinfachten Programmieraufgabe zeigen, dass die explizite Darstellung von Kosten-Nutzen-Abwägungen mit CTA Agenten helfen kann, optimalere Entscheidungsstrategien zu entdecken.
Von tragbaren Geräten (z.B. taktilen Handschuhen) erfasste menschliche Demonstrationen bieten eine schnelle und geschickte Überwachung für das Erlernen von Handlungsstrategien und werden durch reichhaltige, natürliche taktile Rückmeldung geleitet. Eine zentrale Herausforderung besteht jedoch darin, wie menschlich erfasste taktile Signale auf Roboter übertragen werden können, trotz der Unterschiede in den Sensormodalitäten und der Embodiment-Form. Bestehende Human-to-Robot (H2R)-Ansätze, die Berührung einbeziehen, gehen oft von identischen taktilen Sensoren aus, erfordern gepaarte Daten und beinhalten eine geringe bis keine Embodiment-Differenz zwischen menschlichem Demonstrator und den Robotern, was die Skalierbarkeit und Allgemeingültigkeit einschränkt. Wir schlagen TactAlign vor, eine Cross-Embodiment-Taktilabgleichsmethode, die menschlich erfasste taktile Signale auf einen Roboter mit anderer Embodiment-Form überträgt. TactAlign transformiert taktile Beobachtungen von Mensch und Roboter mittels eines rectified flow in eine gemeinsame latente Repräsentation, ohne gepaarte Datensätze, manuelle Labels oder privilegierte Informationen. Unsere Methode ermöglicht einen kostengünstigen latenten Transport, der durch aus Hand-Objekt-Interaktionen abgeleitete Pseudopaare geleitet wird. Wir demonstrieren, dass TactAlign den H2R-Strategietransfer über mehrere kontaktintensive Aufgaben hinweg verbessert (Schwenken, Einfügen, Deckel schließen), auf unbekannte Objekte und Aufgaben mit menschlichen Daten verallgemeinert (weniger als 5 Minuten) und einen Zero-Shot-H2R-Transfer bei einer hochgradig geschickten Aufgabe (Schrauben einer Glühbirne) ermöglicht.
Wir präsentieren den technischen Bericht für Arcee Trinity Large, ein sparsames Mixture-of-Experts-Modell mit insgesamt 400 Mrd. Parametern und 13 Mrd. aktivierten Parametern pro Token. Zusätzlich berichten wir über Trinity Nano und Trinity Mini, wobei Trinity Nano über 6 Mrd. Gesamtparameter mit 1 Mrd. aktivierten Parametern pro Token verfügt und Trinity Mini über 26 Mrd. Gesamtparameter mit 3 Mrd. aktivierten Parametern pro Token. Die moderne Architektur der Modelle umfasst verschachtelte lokale und globale Attention, gated Attention, depth-scaled Sandwich-Norm und Sigmoid-Routing für Mixture-of-Experts. Für Trinity Large führen wir zudem eine neue Lastverteilungsstrategie für MoE namens Soft-clamped Momentum Expert Bias Updates (SMEBU) ein. Die Modelle wurden mit dem Muon-Optimizer trainiert. Alle drei Modelle absolvierten das Training ohne Verlustspitzen. Trinity Nano und Trinity Mini wurden mit 10 Billionen Tokens vortrainiert, Trinity Large mit 17 Billionen Tokens. Die Modell-Checkpoints sind unter https://huggingface.co/arcee-ai verfügbar.
Diffusion Transformers (DiTs) haben state-of-the-art Leistung in der Bild- und Videogenerierung erreicht, doch ihr Erfolg geht mit hohem Rechenaufwand einher. Diese Ineffizienz ist größtenteils auf den festen Tokenisierungsprozess zurückzuführen, der während der gesamten Rauschunterdrückungsphase konstante Patch-Größen verwendet, unabhängig von der Komplexität des Inhalts. Wir schlagen eine dynamische Tokenisierung vor, eine effiziente Strategie zur Laufzeit, die die Patch-Größen basierend auf der Inhaltskomplexität und dem Rauschunterdrückungs-Zeitschritt variiert. Unsere zentrale Erkenntnis ist, dass frühe Zeitschritte nur gröbere Patches benötigen, um die globale Struktur zu modellieren, während spätere Iterationen feinere (kleinere) Patches erfordern, um lokale Details auszuarbeiten. Während der Inferenz verteilt unsere Methode die Patch-Größen dynamisch über die Rauschunterdrückungsschritte für die Bild- und Videogenerierung neu und reduziert die Kosten erheblich, während die wahrgenommene Generierungsqualität erhalten bleibt. Umfangreiche Experimente belegen die Wirksamkeit unseres Ansatzes: Er erreicht eine Beschleunigung um bis zum 3,52-fachen bzw. 3,2-fachen auf FLUX-1.Dev und Wan 2.1, ohne die Generierungsqualität und die Prompt-Treue zu beeinträchtigen.
Um die beispiellosen Risiken zu verstehen und zu identifizieren, die von sich rapide weiterentwickelnden KI-Modellen ausgehen, bietet „Frontier AI Risk Management Framework in Practice“ eine umfassende Bewertung ihrer Frontier-Risiken. Angesichts der rasant fortschreitenden allgemeinen Fähigkeiten von Large Language Models (LLMs) und der Verbreitung agentenbasierter KI stellt diese Version des technischen Risikoanalyseberichts eine aktualisierte und detaillierte Bewertung von fünf kritischen Dimensionen vor: Cyber-Angriffe, Überzeugung und Manipulation, strategische Täuschung, unkontrollierte KI-Forschung und Selbstreplikation. Insbesondere führen wir komplexere Szenarien für Cyber-Angriffe ein. Für Überzeugung und Manipulation bewerten wir das Risiko der LLM-zu-LLM-Überzeugung bei neu veröffentlichten LLMs. Für strategische Täuschung und Scheming ergänzen wir ein neues Experiment zu emergentem Misalignment. Bei unkontrollierter KI-Forschung konzentrieren wir uns auf die „Fehlentwicklung“ von Agenten, wenn diese eigenständig ihre Speichersubstrate und Werkzeugsets erweitern. Daneben überwachen und bewerten wir auch die Sicherheitsleistung von OpenClaw während der Interaktion auf dem Moltbook. Für die Selbstreplikation führen wir ein neues ressourcenbeschränktes Szenario ein. Noch wichtiger ist, dass wir eine Reihe robuster Minderungsstrategien vorschlagen und validieren, um diesen neu entstehenden Bedrohungen zu begegnen, und damit einen vorläufigen technischen und umsetzbaren Weg für den sicheren Einsatz von Frontier-KI aufzeigen. Diese Arbeit spiegelt unser aktuelles Verständnis der KI-Frontier-Risiken wider und appelliert an gemeinsame Handlungen, um diese Herausforderungen zu bewältigen.
Während groß angelegte Frontier-Sprachmodelle starke Fähigkeiten im logischen Denken und mathematischen Bereich demonstrieren, bleibt der praktische Prozess des Trainings domainspezifischer wissenschaftlicher Sprachmodelle aus Rohquellen unterdokumentiert. In dieser Arbeit stellen wir eine detaillierte Fallstudie vor, in der ein wissenschaftliches Sprachmodell mit 1,36 Milliarden Parametern direkt aus rohen LaTeX-Quellen von arXiv aus den Bereichen Mathematik, Informatik und theoretische Physik trainiert wurde. Wir beschreiben eine End-to-End-Pipeline, die Metadaten-Filterung, Archivvalidierung, LaTeX-Extraktion, Textnormalisierung, domain-sensibles Tokenisieren und das Training eines dichten Transformer-Modells unter eingeschränkten Rechenressourcen (2xA100 GPUs) umfasst. Anhand von 24 Experimenten analysieren wir Trainingsstabilität, Skalierungsverhalten, Datenverluste und Infrastruktur-Engpässe. Unsere Ergebnisse zeigen, wie Vorverarbeitungsentscheidungen das nutzbare Token-Volumen erheblich beeinflussen, wie Tokenisierung die Stabilität bei symbolischen Inhalten beeinträchtigt und wie Speicher- und E/A-Beschränkungen die Rechenleistung als limitierende Faktoren übertreffen können. Wir analysieren ferner die Konvergenzdynamik und zeigen stabiles Trainingsverhalten in einem datenreichen Regime (52B Vortrainingstokens). Anstatt eine neuartige Architektur vorzuschlagen, liefert diese Arbeit einen ingenieurwissenschaftlich fundierten, transparenten Bericht über das Training eines kleinen wissenschaftlichen Sprachmodells von Grund auf. Wir hoffen, dass diese Erkenntnisse Forscher unterstützen, die mit moderaten Rechenbudgets domainspezifische Modelle entwickeln möchten.
Ein Großteil der Fortschritte im Bereich Multi-Agent Reinforcement Learning (MARL) für Spiele mit unvollständiger Information basierte historisch auf manueller, iterativer Verfeinerung von Baseline-Verfahren. Während grundlegende Familien wie Counterfactual Regret Minimization (CFR) und Policy Space Response Oracles (PSRO) auf soliden theoretischen Grundlagen beruhen, stützt sich das Design ihrer effektivsten Varianten oft auf menschliche Intuition, um einen riesigen algorithmischen Designraum zu navigieren. In dieser Arbeit schlagen wir die Verwendung von AlphaEvolve vor, einem evolutionären Programmieragenten, der durch große Sprachmodelle angetrieben wird, um automatisch neue Multiagenten-Lernalgorithmen zu entdecken. Wir demonstrieren die Allgemeingültigkeit dieses Frameworks, indem wir neuartige Varianten für zwei verschiedene Paradigmen des spieltheoretischen Lernens entwickeln. Erstens, im Bereich der iterativen Bereuen-Minimierung, entwickeln wir die Logik, die die Bereuen-Akkumulation und Politikableitung steuert, und entdecken einen neuen Algorithmus: Volatility-Adaptive Discounted (VAD-)CFR. VAD-CFR verwendet neuartige, nicht-intuitive Mechanismen – einschließlich volatilitätssensitiver Diskontierung, konsistenz-erzwungenem Optimismus und einem harten Warm-Start-Politik-Akkumulationsplan – um State-of-the-Art-Baselines wie Discounted Predictive CFR+ zu übertreffen. Zweitens, im Bereich populationsbasierter Trainingsalgorithmen, entwickeln wir Trainingszeit- und Auswertungszeit-Meta-Strategie-Solver für PSRO und entdecken eine neue Variante: Smoothed Hybrid Optimistic Regret (SHOR-)PSRO. SHOR-PSRO führt einen hybriden Meta-Solver ein, der Optimistic Regret Matching linear mit einer geglätteten, temperaturabhängig gesteuerten Verteilung über die besten reinen Strategien kombiniert. Durch dynamisches Tempern dieses Mischfaktors und von Diversitätsboni während des Trainings automatisiert der Algorithmus den Übergang von Populationsdiversität zu rigoroser Gleichgewichtsfindung und erzielt eine überlegene empirische Konvergenz im Vergleich zu standardmäßigen statischen Meta-Solvern.
Die Fähigkeit von VLA-Modellen, Umweltdynamiken vorherzusagen (bekannt als World Modeling), gilt als entscheidend für die Verbesserung von robotischem Reasoning und Generalisierungsfähigkeit. Allerdings stehen aktuelle Ansätze vor zwei Hauptproblemen: 1. Das Trainingsziel zwingt Modelle dazu, Pixel-rekonstruktion überzubetonen, was semantisches Lernen und Generalisierung einschränkt. 2. Die Abhängigkeit von vorhergesagten Zukunftsbeobachtungen während der Inferenz führt oft zu Fehlerakkumulation. Zur Lösung dieser Herausforderungen stellen wir Future Representation Alignment via Parallel Progressive Expansion (FRAPPE) vor. Unser Ansatz verfolgt eine Zwei-Phasen-Finetuning-Strategie: In der Mid-Training-Phase lernt das Modell, latente Repräsentationen zukünftiger Beobachtungen vorherzusagen; in der Post-Training-Phase erweitern wir parallel die Rechenlast und alignieren die Repräsentation simultan mit mehreren visuellen Foundation-Modellen. Durch signifikant verbesserte Finetuning-Effizienz und reduzierte Abhängigkeit von aktionsannotierten Daten bietet FRAPPE einen skalierbaren und dateneffizienten Weg zur Steigerung des Weltverständnisses in generalistischen Robotik-Policies. Experimente auf dem RoboTwin-Benchmark und realen Aufgaben zeigen, dass FRAPPE state-of-the-art-Verfahren übertrifft und starke Generalisierung in langfristigen sowie ungesehenen Szenarien aufweist.
Wir präsentieren eine umfassende Analyse darüber, wie zweischichtige neuronale Netze Merkmale erlernen, um die Aufgabe der modularen Addition zu lösen. Unsere Arbeit liefert eine vollständige mechanistische Interpretation des gelernten Modells und eine theoretische Erklärung seiner Trainingsdynamik. Während frühere Arbeiten festgestellt haben, dass einzelne Neuronen Fourier-Merkmale einzelner Frequenzen und Phasenausrichtung erlernen, erklären sie nicht vollständig, wie sich diese Merkmale zu einer globalen Lösung kombinieren. Wir schließen diese Lücke, indem wir eine Diversifikationsbedingung formalisieren, die während des Trainings bei Überparametrisierung entsteht und aus zwei Teilen besteht: Phasensymmetrie und Frequenzdiversifikation. Wir beweisen, dass diese Eigenschaften es dem Netzwerk ermöglichen, kollektiv eine fehlerhafte Indikatorfunktion für die korrekte Logik der modularen Addition zu approximieren. Während einzelne Neuronen verrauschte Signale erzeugen, ermöglicht die Phasensymmetrie ein Mehrheitsentscheidungsverfahren, das das Rauschen auslöscht, sodass das Netzwerk die korrekte Summe robust identifizieren kann. Darüber hinaus erklären wir die Entstehung dieser Merkmale unter zufälliger Initialisierung durch einen Lottery-Ticket-Mechanismus. Unsere Gradientenflussanalyse beweist, dass Frequenzen innerhalb jedes Neurons konkurrieren, wobei der "Gewinner" durch seine anfängliche spektrale Größe und Phasenausrichtung bestimmt wird. Aus technischer Sicht liefern wir eine rigorose Charakterisierung der schichtweisen Phasenkopplungsdynamik und formalisieren die Wettbewerbslandschaft unter Verwendung des ODE-Vergleichslemmas. Schließlich nutzen wir diese Erkenntnisse, um das Grokking zu entmystifizieren, und charakterisieren es als einen dreistufigen Prozess, der Memorisierung gefolgt von zwei Generalisierungsphasen umfasst und durch den Wettbewerb zwischen Verlustminimierung und Gewichtsabnahme angetrieben wird.
Agenten, die in komplexen Softwareumgebungen operieren, profitieren davon, die Konsequenzen ihrer Aktionen zu antizipieren, da bereits eine einzelne fehlerhafte Benutzeroberflächen-Operation (UI-Operation) lange, artefakterhaltende Arbeitsabläufe scheitern lassen kann. Diese Herausforderung ist besonders gravierend in computernutzenden Szenarien, wo echte Ausführung keine kontrafaktische Exploration erlaubt, was groß angelegtes Lernen durch Versuch und Irrtum sowie Planung unpraktikabel macht – obwohl die Umgebung vollständig digital und deterministisch ist. Wir stellen das Computer-Using World Model (CUWM) vor, ein Weltmodell für Desktop-Software, das den nächsten UI-Zustand basierend auf dem aktuellen Zustand und einer potenziellen Aktion vorhersagt. CUWM adaptiert eine zweistufige Faktorisierung der UI-Dynamik: Es sagt zunächst eine textuelle Beschreibung der für den Agenten relevanten Zustandsänderungen vorher und visualisiert diese Änderungen anschließend, um den nächsten Screenshot zu synthetisieren. CUWM wird auf offline gesammelten UI-Übergängen trainiert, die von Agenten stammen, die mit echten Microsoft Office-Anwendungen interagieren, und durch eine leichtgewichtige Verstärkungslern-Phase verfeinert, welche die textuellen Übergangsvorhersagen an die strukturellen Anforderungen computernutzender Umgebungen anpasst. Wir evaluieren CUWM mittels Aktionssuche zur Testzeit, bei der ein eingefrorener Agent das Weltmodell nutzt, um Kandidatenaktionen vor der Ausführung zu simulieren und zu vergleichen. Über eine Reihe von Office-Aufgaben hinweg verbessert die weltmodellgesteuerte Skalierung zur Testzeit die Entscheidungsqualität und Ausführungsrobustheit.
Eine zentrale Herausforderung bei der Bearbeitung großer Sprachmodelle (LLMs) ist der Erhalt der Fähigkeiten: Methoden, die das Zielverhalten erfolgreich ändern, können stillschweigend den Bearbeitungs-Proxy manipulieren und die allgemeinen Fähigkeiten beschädigen, was zu degenerierten Verhaltensweisen führt, die an Proxy- oder Reward-Hacking erinnern. Wir stellen CrispEdit vor, einen skalierbaren und prinzipienbasierten Algorithmus zur Bearbeitung zweiter Ordnung, der den Fähigkeitserhalt als explizite Nebenbedingung behandelt und mehrere bestehende Bearbeitungsansätze vereinheitlicht und verallgemeinert. CrispEdit formuliert die Bearbeitung als ein Optimierungsproblem mit Nebenbedingungen und erzwingt die Nebenbedingung, indem Bearbeitungs-Updates auf den Unterraum mit geringer Krümmung des Fähigkeitsverlust-Landschaftsprojiziert werden. Der Kern von CrispEdit liegt in der Formulierung der Fähigkeitsnebenbedingung mittels Bregman-Divergenz, deren quadratische Form die Gauss-Newton-Hesse-Matrix exakt liefert, selbst wenn das Basismodell nicht bis zur Konvergenz trainiert wurde. Wir machen dieses Verfahren zweiter Ordnung für die Skala von LLMs effizient, indem wir kroneckerfaktorisierte approximative Krümmung (K-FAC) und einen neuartigen matrixfreien Projektor verwenden, der die Kronecker-Struktur ausnutzt, um die Konstruktion massiver Projektionsmatrizen zu vermeiden. In standardisierten Benchmarks zur Modellbearbeitung erreicht CrispEdit eine hohe Bearbeitungserfolgsrate, während der Fähigkeitsverlust über verschiedene Datensätze hinweg im Durchschnitt unter 1 % gehalten wird, was eine signifikante Verbesserung gegenüber früheren Bearbeitungsmethoden darstellt.
Lineare Attention-Transformer haben sich aufgrund ihrer Effizienz zu einer starken Alternative zur Softmax-Attention entwickelt. Allerdings ist lineare Attention in der Regel weniger ausdrucksstark und führt im Vergleich zur Softmax-Attention zu einer geringeren Genauigkeit. Um die Genauigkeitslücke zwischen Softmax-Attention und linearer Attention zu schließen, modifizieren wir Mamba-2, eine sehr leistungsfähige Variante der linearen Attention. Wir vereinfachen zunächst Mamba-2 auf seine grundlegendsten und wichtigsten Komponenten und evaluieren, welche spezifischen Designentscheidungen für seine hohe Genauigkeit verantwortlich sind. Aus dieser vereinfachten Mamba-Variante (Mamba-2S) heraus verbessern wir die A-Maske und erhöhen die Ordnung des versteckten Zustands. Dies führt zu einer Methode, die wir 2Mamba nennen und die nahezu so genau wie Softmax-Attention ist, jedoch bei langen Kontextlängen deutlich speichereffizienter arbeitet. Wir untersuchen auch Elemente von Mamba-2, die dazu beitragen, die Genauigkeit der Softmax-Attention zu übertreffen. Der Code für alle unsere Experimente wird bereitgestellt.
Große Sprachmodelle (LLMs) haben kürzlich starke Fähigkeiten im Bereich des logischen Schließens und der Generalisierung gezeigt, was ihren Einsatz als Entscheidungsstrategien in komplexen Umgebungen motiviert. StarCraft II (SC2) mit seinem massiven Zustands-Aktions-Raum und teilweisen Beobachtbarkeit stellt eine anspruchsvolle Testplattform dar. Bisher konzentrieren sich existierende LLM-basierte SC2-Agenten jedoch primär auf die Verbesserung der Strategie selbst und übersehen die Integration eines lernbaren, aktionsbedingten Übergangsmodells in die Entscheidungsschleife. Um diese Lücke zu schließen, schlagen wir StarWM vor, das erste Weltmodell für SC2, das zukünftige Beobachtungen unter teilweiser Beobachtbarkeit vorhersagt. Um das Lernen der hybriden Dynamik von SC2 zu erleichtern, führen wir eine strukturierte textuelle Repräsentation ein, die Beobachtungen in fünf semantische Module faktorisiert, und erstellen SC2-Dynamics-50k, den ersten Instruction-Tuning-Datensatz für die SC2-Dynamikvorhersage. Weiterhin entwickeln wir ein mehrdimensionales Offline-Bewertungsframework für vorhergesagte strukturierte Beobachtungen. Offline-Ergebnisse zeigen substanzielle Verbesserungen von StarWM gegenüber Zero-Shot-Baselines, einschließlich nahezu 60 % besserer Genauigkeit bei der Ressourcenvorhersage und einer höheren Konsistenz der eigenen makrostrategischen Lage. Abschließend schlagen wir StarWM-Agent vor, ein weltmodellgestütztes Entscheidungssystem, das StarWM in eine Generieren–Simulieren–Verfeinern-Entscheidungsschleife integriert, um vorausschauende Strategieverfeinerung zu ermöglichen. Die Online-Evaluierung gegen die eingebaute KI von SC2 zeigt durchgängige Verbesserungen mit Steigerungen der Gewinnrate um 30 %, 15 % bzw. 30 % gegen die Schwierigkeitsgrade Hard (Stufe 5), Harder (Stufe 6) und VeryHard (Stufe 7), verbunden mit verbesserter Stabilität im Makromanagement und taktischer Risikobewertung.
Trotz rasanter Fortschritte bei autonomen Web-Agenten bleibt menschliches Eingreifen unerlässlich, um Präferenzen zu steuern und das Agentenverhalten im Laufe von Aufgaben zu korrigieren. Allerdings fehlt heutigen agentenbasierten Systemen ein grundlegendes Verständnis dafür, wann und warum Menschen eingreifen; sie agieren oft autonom an kritischen Entscheidungspunkten vorbei oder fordern unnötige Bestätigungen ein. In dieser Arbeit stellen wir die Aufgabe vor, menschliche Interventionen zu modellieren, um die kollaborative Ausführung von Web-Aufgaben zu unterstützen. Wir erheben CowCorpus, einen Datensatz mit 400 Web-Navigationsverläufen realer Nutzer, die über 4.200 verzahnte menschliche und Agenten-Aktionen enthalten. Wir identifizieren vier distinkte Muster der Nutzerinteraktion mit Agenten: unbeaufsichtigte Überwachung, aktive Kontrolle, kollaborative Aufgabenerfüllung und vollständige Übernahme durch den Nutzer. Gestützt auf diese Erkenntnisse trainieren wir Sprachmodelle (LMs) darauf vorherzusagen, wann Nutzer basierend auf ihren Interaktionsstilen voraussichtlich eingreifen, was zu einer Steigerung der Vorhersagegenauigkeit für Interventionen um 61,4–63,4 % gegenüber Basis-LMs führt. Abschließend setzen wir diese interventionsbewussten Modelle in live agierenden Web-Navigationsagenten ein und evaluieren sie in einer Nutzerstudie, wobei wir eine Steigerung der nutzerbewerteten Agentennützlichkeit um 26,5 % feststellen. Insgesamt zeigen unsere Ergebnisse, dass eine strukturierte Modellierung menschlicher Interventionen zu adaptiveren, kollaborativeren Agenten führt.
Wir stellen NESSiE vor, den NEceSsary SafEty-Benchmark für große Sprachmodelle (LLMs). Mit minimalen Testfällen aus den Bereichen Informations- und Zugriffssicherheit deckt NESSiE sicherheitsrelevante Fehler auf, die bei der geringen Komplexität der Aufgaben nicht existieren sollten. NESSiE ist als leichtgewichtiger, einfach anzuwendender Sanity-Check für die Sicherheit von Sprachmodellen konzipiert und daher nicht ausreichend, um allgemeine Sicherheit zu gewährleisten – doch wir argumentieren, dass das Bestehen dieses Tests eine notwendige Voraussetzung für jeden Einsatz ist. Allerdings erreichen selbst state-of-the-art LLMs nicht 100 % auf NESSiE und scheitern somit an unserer notwendigen Bedingung für Sprachmodellsicherheit, selbst ohne adversariale Angriffe. Unsere Safe & Helpful (SH)-Metrik ermöglicht einen direkten Vergleich der beiden Anforderungen und zeigt, dass Modelle eher darauf ausgelegt sind, hilfreich statt sicher zu sein. Weiterhin stellen wir fest, dass deaktiviertes Reasoning bei einigen Modellen, aber insbesondere ein harmloser Ablenkungskontext die Modellleistung verschlechtern. Insgesamt unterstreichen unsere Ergebnisse die kritischen Risiken, die mit dem Einsatz solcher Modelle als autonome Agenten in der Praxis verbunden sind. Wir stellen den Datensatz, das Paket und den Plotting-Code öffentlich zur Verfügung.
Vision-Language-Action-Modelle (VLAs) haben sich als ein zentrales Paradigma der Physical AI etabliert und werden zunehmend in autonomen Fahrzeugen, Robotern und intelligenten Räumen eingesetzt. In diesen ressourcenbeschränkten On-Device-Umgebungen stellt die Auswahl eines geeigneten Large Language Model (LLM)-Backbones eine kritische Herausforderung dar: Modelle müssen Genauigkeit mit strengen Anforderungen an Inferenzlatenz und Hardware-Effizienz in Einklang bringen. Dies macht Hardware-Software-Co-Design zu einer wegweisenden Voraussetzung für den On-Device-LLM-Einsatz, bei dem jede Hardwareplattform eine maßgeschneiderte Architekturlösung erfordert. Wir schlagen ein Hardware-Co-Design-Gesetz vor, das gemeinsam die Modellgenauigkeit und die Inferenzleistung erfasst. Konkret modellieren wir den Trainingsverlust als explizite Funktion architektonischer Hyperparameter und charakterisieren die Inferenzlatenz mittels Roofline-Modellierung. Wir evaluieren empirisch 1.942 Kandidatenarchitekturen auf NVIDIA Jetson Orin, trainieren 170 ausgewählte Modelle mit jeweils 10B Tokens, um ein Skalierungsgesetz zu ermitteln, das die Architektur mit dem Trainingsverlust in Beziehung setzt. Durch die Kopplung dieses Skalierungsgesetzes mit der Latenzmodellierung stellen wir eine direkte Genauigkeits-Latenz-Korrespondenz her und identifizieren die Pareto-Front für hardware-co-designte LLMs. Wir formulieren die Architektursuche weiterhin als eine gemeinsame Optimierung von Präzision und Leistung und leiten daraus machbare Designregionen unter industriellen Hardware- und Anwendungsbudgets ab. Unser Ansatz reduziert die Architekturauswahl von Monaten auf Tage. Bei gleicher Latenz wie Qwen2.5-0.5B auf der Zielhardware erreicht unsere co-designte Architektur eine um 19,42 % geringere Perplexität auf WikiText-2. Unseres Wissens ist dies der erste prinzipienbasierte und operationalisierbare Rahmen für Hardware-Co-Design-Skalierungsgesetze im On-Device-LLM-Einsatz. Wir werden den Code und zugehörige Checkpoints öffentlich verfügbar machen.
Sicherheitsausrichtung ist entscheidend für den verantwortungsvollen Einsatz großer Sprachmodelle (LLMs). Bisherige Ansätze beruhen jedoch häufig auf aufwändigem Fine-Tuning, das kostspielig in der Aktualisierung, Überprüfung und Wartung über Modellfamilien hinweg ist. Vollständiges Fine-Tuning verursacht erheblichen Rechen- und Speicheraufwand, während parameter-effiziente Methoden wie LoRA Effizienz gegen inkonsistente Sicherheitsgewinne und Empfindlichkeit gegenüber Designentscheidungen eintauschen. Sicherheits-Interventionsmechanismen wie „Circuit Breaker“ reduzieren unsichere Ausgaben ohne Modifikation der Modellgewichte, gestalten oder erhalten jedoch nicht direkt die internen Repräsentationen, die das Sicherheitsverhalten steuern. Diese Einschränkungen behindern schnelle und zuverlässige Sicherheitsupdates, insbesondere in Umgebungen, in denen Modelle sich häufig weiterentwickeln oder sich neuen Richtlinien und Domänen anpassen müssen. Wir stellen NeST vor, einen leichten, strukturorientierten Rahmen für die Sicherheitsausrichtung, der Ablehnungsverhalten verstärkt, indem er selektiv eine kleine Teilmenge sicherheitsrelevanter Neuronen anpasst, während der Rest des Modells eingefroren bleibt. NeST richtet Parameteraktualisierungen an der internen Organisation des Sicherheitsverhaltens aus, indem es funktional kohärente Sicherheitsneuronen clustert und gemeinsame Aktualisierungen innerhalb jedes Clusters erzwingt. Dies ermöglicht eine gezielte und stabile Sicherheitsanpassung ohne umfassende Modellmodifikation oder Zusatzaufwand zur Inferenzzeit. Wir vergleichen NeST mit drei verbreiteten Baseline-Methoden: vollständigem Fine-Tuning, LoRA-basiertem Fine-Tuning und Circuit Breakern über 10 Open-Weight-LLMs hinweg, die mehrere Modellfamilien und Größen abdecken. Über alle evaluierten Modelle hinweg reduziert NeST die Angriffserfolgsrate von durchschnittlich 44,5 % auf 4,36 %, was einer 90,2 %-igen Reduktion unsicherer Generierungen entspricht, während durchschnittlich nur 0,44 Millionen trainierbare Parameter benötigt werden. Dies bedeutet eine 17.310-fache Verringerung der aktualisierten Parameter im Vergleich zum vollständigen Fine-Tuning und eine 9,25-fache Reduktion gegenüber LoRA, bei gleichzeitig konsistent stärkerer Sicherheitsleistung für die Ausrichtung.
Während Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) bei Reasoning-Aufgaben eine hohe Wirksamkeit gezeigt hat, kann es nicht direkt auf nicht-verifizierbare Domänen ohne Ground-Truth-Verifizierer angewendet werden, wie beispielsweise die Alignment-Optimierung von LLMs. In dieser Arbeit untersuchen wir, ob referenzgestützte LLM-Evaluatoren diese Lücke schließen können, indem sie als weiche „Verifizierer“ fungieren. Zunächst entwerfen wir Evaluierungsprotokolle, die LLM-basierte Evaluatoren für das LLM-Alignment mithilfe von Referenzausgaben verbessern. Durch umfassende Experimente zeigen wir, dass ein referenzgestützter Ansatz die Genauigkeit weniger leistungsfähiger LLM-Judges erheblich verbessert, wenn Referenzen von Frontier-Modellen verwendet werden; auch stärkere LLM-Judges können durch hochwertige (d.h. menschlich verfasste) Referenzen verbessert werden. Aufbauend auf diesen verbesserten Judges demonstrieren wir den Nutzen hochwertiger Referenzen beim Alignment-Tuning, bei dem LLMs, die mit Referenzen geführt werden, als Judges zur Selbstverbesserung eingesetzt werden. Wir zeigen, dass die referenzgestützte Selbstverbesserung klare Gewinne gegenüber direktem SFT auf Referenzausgaben und einer Selbstverbesserung mit referenzfreien Judges erzielt und eine Leistung erreicht, die mit dem Training mit ArmoRM, einem starken feinjustierten Belohnungsmodell, vergleichbar ist. Konkret erzielt unsere Methode 73,1 % und 58,7 % auf AlpacaEval und Arena-Hard mit Llama-3-8B-Instruct sowie 70,0 % und 74,1 % mit Qwen2.5-7B, was durchschnittlichen absoluten Steigerungen von +20,2 / +17,1 Punkten gegenüber SFT-Distillation und +5,3 / +3,6 Punkten gegenüber referenzfreier Selbstverbesserung auf AlpacaEval / Arena-Hard entspricht. Diese Ergebnisse unterstreichen das Potenzial von referenzgestützten LLM-Evaluatoren, um ein effektives Post-Training von LLMs in nicht-verifizierbaren Domänen zu ermöglichen.
Die stereoskopische Tiefenschätzung ist grundlegend für die Unterwasserrobotikwahrnehmung, leidet jedoch unter erheblichen Domänenverschiebungen durch wellenlängenabhängige Lichtabsorption, Streuung und Brechung. Aktuelle Ansätze nutzen monokulare Foundation-Modelle mit GRU-basierter iterativer Optimierung für die Unterwasseranpassung; jedoch erfordern die sequentielle Gating-Mechanik und lokalen Faltungskerne in GRUs mehrere Iterationen für die Disparitätsausbreitung über große Distanzen, was die Leistung in unterwassertypischen Bereichen mit großen Disparitäten und texturlosen Regionen begrenzt. In diesem Beitrag stellen wir StereoAdapter-2 vor, das den konventionellen ConvGRU-Updater durch einen neuartigen ConvSS2D-Operator auf Basis selektiver State-Space-Modelle ersetzt. Der vorgeschlagene Operator verwendet eine vierdirektionale Abtaststrategie, die sich natürlich mit der Epipolargeometrie deckt und gleichzeitig vertikale Strukturkonsistenz erfasst, wodurch eine effiziente räumliche Ausbreitung über große Distanzen in einem einzigen Aktualisierungsschritt bei linearem Rechenaufwand ermöglicht wird. Darüber hinaus erstellen wir UW-StereoDepth-80K, einen groß angelegten synthetischen Unterwasser-Stereodatensatz mit variierenden Basislinien, Absorptionskoeffizienten und Streuparametern, generiert durch eine zweistufige Pipeline mit semantikbewusstem Stiltransfer und geometriekonsistenter Neuansichtssynthese. In Kombination mit der von StereoAdapter übernommenen dynamischen LoRA-Adaptation erzielt unser Framework State-of-the-Art Zero-Shot-Leistung auf Unterwasser-Benchmarks mit 17 % Verbesserung auf TartanAir-UW und 7,2 % auf SQUID. Die Validierung unter Realbedingungen auf der BlueROV2-Plattform demonstriert die Robustheit unseres Ansatzes. Code: https://github.com/AIGeeksGroup/StereoAdapter-2. Website: https://aigeeksgroup.github.io/StereoAdapter-2.