Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Trotz rasanter Fortschritte bei der automatischen Spracherkennung (ASR) und großen Audio-Sprachmodellen bleibt die robuste Erkennung in realen Umgebungen durch einen „akustischen Robustheitsengpass" eingeschränkt: Modelle verlieren häufig die akustische Verankerung und produzieren Auslassungen oder Halluzinationen unter schwerwiegenden, zusammengesetzten Störungen. Wir schlagen Mega-ASR vor, ein einheitliches Framework für ASR im Feldeinsatz, das skalierbare Konstruktion zusammengesetzter Daten mit progressiver akustisch-semantischer Optimierung kombiniert. Wir führen Voices-in-the-Wild-2M ein, das 7 klassische akustische Phänomene und 54 physikalisch plausible zusammengesetzte Szenarien abdeckt, und trainieren Mega-ASR mittels Akustisch-Semantischem Progressivem Supervised Fine-Tuning sowie Dual-Granularitäts-WER-gesteuerter Policy-Optimierung. Umfangreiche Experimente belegen, dass Mega-ASR auf adversen ASR-Benchmarks signifikante Vorteile gegenüber früheren State-of-the-Art-Systemen erzielt (45,69 % vs. 54,01 % auf VOiCES R4-B-F und 21,49 % vs. 29,34 % auf NOIZEUS Sta-0). Bei komplexen zusammengesetzten akustischen Szenarien liefert Mega-ASR zudem eine relative WER-Reduktion von über 30 % gegenüber starken Open- und Closed-Source-Baselines und etabliert damit ein skalierbares Paradigma für robuste ASR im Feldeinsatz.
Jüngste Fortschritte bei multimodalen großen Sprachmodellen haben ein wachsendes Interesse an Agenten für grafische Benutzeroberflächen (GUI) geweckt, doch deren Generalisierungsfähigkeit bleibt durch die Knappheit groß angelegter Trainingsdaten, die eine Vielzahl realer Anwendungen abdecken, eingeschränkt. Bestehende Datensätze beruhen stark auf teuren manuellen Annotationen und sind typischerweise auf enge Domänen beschränkt. Um diese Herausforderung zu bewältigen, schlagen wir Video2GUI vor, ein vollautomatisches Framework, das fundierte GUI-Interaktionspfade direkt aus unbeschrifteten Internetvideos extrahiert. Video2GUI verwendet eine Grob-zu-Fein-Filterstrategie, um qualitativ hochwertige GUI-Tutorial-Videos zu identifizieren und in strukturierte Agentenpfade umzuwandeln. Durch Anwendung dieser Pipeline auf 500 Millionen Video-Metadaten-Einträge erstellen wir WildGUI, einen groß angelegten Datensatz mit 12 Millionen Interaktionspfaden, die über 1.500 Anwendungen und Websites umfassen. Das Vortraining von Qwen2.5-VL und Mimo-VL auf WildGUI führt zu konsistenten Verbesserungen von 5–20 % bei mehreren Benchmarks für GUI-Grounding und -Aktionen, wobei die Leistung dem Stand der Technik entspricht oder diese übertrifft. Wir werden sowohl den WildGUI-Datensatz als auch die Video2GUI-Pipeline veröffentlichen, um die zukünftige Forschung an GUI-Agenten zu unterstützen.
Ohne nennenswerten Rechenaufwand zielt die trainingsfreie Langzeitvideogenerierung darauf ab, fundamentale Videogenerierungsmodelle zu befähigen, längere Videos zu produzieren. Auf Frame-Ebene autoregressive Frameworks, wie z. B. FIFO-Diffusion, bieten den Vorteil, unendlich lange Videos mit konstantem Speicherverbrauch zu generieren. Allerdings schränkt die Diskrepanz zwischen Training und Inferenz, zusammen mit der Herausforderung der Aufrechterhaltung langfristiger Konsistenz, die effektive Nutzung von Fundamentmodellen ein. Um diese Probleme zu mildern, schlagen wir MIGA vor, eine neuartige Methode zur Generierung unendlich langer Videos. Zunächst schlagen wir einen effektiven zweistufigen Ausrichtungsmechanismus vor, der die Trainings-Inferenz-Lücke verringert, indem die dem Modell zugeführte übermäßige Rauschspanne reduziert wird. Wir führen dann einen innovativen dualen Konsistenzverstärkungsmechanismus ein, bei dem der Selbstreflexionsansatz frühe, verrauschte Frames korrigiert und der Ansatz der langreichweitigen Frame-Führung spätere, wenig verrauschte Frames mit breiter Abdeckung nutzt, um die Generierung zu lenken, und gemeinsam die zeitliche Konsistenz verbessert. Umfangreiche Experimente auf VBench und NarrLV belegen die Spitzenleistung von MIGA. Unsere Projektseite ist verfügbar unter https://xiaokunfeng.github.io/miga_homepage/.
Multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Fähigkeiten gezeigt, visuelle Wahrnehmung und textbasiertes Denken zu verknüpfen und so Zero-Shot-Verständnis in verschiedenen industriellen Szenarien zu ermöglichen. Ihre Leistung bei der offenen Vokabular-Industrieanomalieerkennung (IAD) wird jedoch häufig durch domänenfehlangepasste Schlussfolgerungen und halluzinierte strukturelle Inferenzen eingeschränkt. Um diese Herausforderungen zu bewältigen, schlagen wir IndusAgent vor, ein werkzeugverstärktes agentisches Framework für die offene Vokabular-IAD. Konkret konstruieren wir zunächst Indus-CoT, einen strukturierten Datensatz, der globale visuelle Beobachtungen, hochauflösende lokale Patches und Expertenwissen über Normalität integriert und so eine Überwachung für das Feintuning des Modells auf rigorosen industriellen Inspektionspfaden bietet. Darauf aufbauend orchestriert IndusAgent dynamisch eine Reihe externer Werkzeuge, darunter dynamisches Regionen-Cropping, Hochfrequenz-Merkmalsverstärkung und Priorabruf, wodurch der Agent aktiv visuelle Mehrdeutigkeiten auflösen und subtile Anomalien entwirren kann. Darüber hinaus führen wir ein gated Reinforcement-Learning-Ziel ein, das gemeinsam die Klassifikation von Anomalien, die Lokalisierungsgenauigkeit, die Begründung des Anomalietyps und die effiziente Werkzeugnutzung optimiert und sicherstellt, dass Werkzeuge nur dann aufgerufen werden, wenn es vorteilhaft ist. Umfangreiche Evaluierungen auf fünf Industrieanomalie-Benchmarks, darunter MVTec-AD, VisA, MPDD, DTD und SDD, zeigen, dass IndusAgent unter allen existierenden Methoden eine hochmoderne Zero-Shot-Leistung erzielt und damit unsere Robustheit und Generalisierungsfähigkeit bestätigt.
Das Verstärkungslernen mit überprüfbaren Belohnungen (RLVR) hat sich zu einem dominanten Paradigma zur Verbesserung der Argumentationsfähigkeiten großer Sprachmodelle (LLMs) entwickelt, doch die zugrundeliegende Geometrie der resultierenden Parameterverläufe bleibt bislang wenig erforscht. In dieser Arbeit zeigen wir, dass RLVR-Gewichtsverläufe extrem niedrigrangig und hochgradig vorhersagbar sind. Insbesondere stellen wir fest, dass der Großteil der nachgelagerten Leistungssteigerungen durch eine Rang-1-Näherung der Parameteränderungen erfasst wird, wobei die Größe dieser Projektion nahezu linear mit den Trainingsschritten anwächst. Motiviert durch diese Erkenntnis schlagen wir eine einfache und recheneffiziente Methode namens RELEX (REinforcement Learning EXtrapolation) vor, die den Rang-1-Unterraum aus einem kurzen Beobachtungsfenster schätzt und zukünftige Checkpoints mittels linearer Regression extrapoliert – ohne dass ein trainiertes Modell erforderlich ist. Bei drei Modellen (Qwen2.5-Math-1.5B, Qwen3-4B-Base und Qwen3-8B-Base) erzeugt RELEX Checkpoints, die die RLVR-Leistung sowohl auf bereichsinternen als auch auf bereichsfremden Benchmarks erreichen oder übertreffen, wobei lediglich 15 % der Schritte eines vollständigen RLVR-Trainings benötigt werden. Bemerkenswerterweise kann RELEX ohne zusätzliche Trainingskosten weit über das Beobachtungsfenster hinaus extrapolieren und Checkpoints bis zum 10- bis 20-Fachen des beobachteten Präfix vorhersagen, mit fortlaufender Verbesserung (z. B. nur die ersten 50 Schritte beobachten und auf 1000 Schritte extrapolieren). Unsere Ablationsanalyse bestätigt die minimale Suffizienz von RELEX: Weder die Erhöhung des Unterraumrangs noch der Einsatz nichtlinearer Modellierung führt zu weiteren Extrapolationsgewinnen. Schließlich zeigen wir, dass der Erfolg von RELEX auf einem ''Entrauschungseffekt'' beruht: Durch die Projektion der Aktualisierungen auf den Rang-1-Unterraum verwirft das Modell stochastisches Optimierungsrauschen, das andernfalls die Leistung während der Extrapolation beeinträchtigen würde. Unser Code ist verfügbar unter https://github.com/weizhepei/RELEX.
Die rasante Entwicklung hin zu Long-Context-Reasoning und multimodaler Intelligenz hat den Speicherbedarf des Key-Value (KV)-Caches zu einem dominanten Engpass für eine effiziente Bereitstellung gemacht. Während die etablierte kanalweise Quantisierung intrinsische kanalweise Ausreißer in Key-Tensoren effektiv adressiert, lässt ihre Wirksamkeit bei extremer Kompression nach. In dieser Arbeit betrachten wir die inhärenten Limitierungen des kanalweisen Quantisierungsparadigmas sowohl aus empirischer als auch aus theoretischer Perspektive neu. Unsere Analyse identifiziert das Token-Norm-Ungleichgewicht (TNI) als den primären Engpass für die Quantisierungstreue. Wir zeigen, dass TNI systematisch Fehler verstärkt, wenn gemeinsame Quantisierungsparameter über Tokengruppen mit erheblichen Normunterschieden hinweg benötigt werden. Anstatt auf komplexe Quantisierungspipelines (z. B. TurboQuant) zurückzugreifen, schlagen wir OScaR (Omni-Scaled Canalized Rotation) vor, ein genaues und leichtgewichtiges KV-Cache-Kompressionsframework für X-LLMs (d. h. textbasierte, multimodale und omnimodale LLMs). Das kanalweise Paradigma erweiternd, verwendet OScaR eine kanalisierte Rotation gefolgt von einer Omni-Token-Skalierung, um die durch TNI verursachte sequenzdimensionale Varianz sowohl effektiv als auch effizient zu mildern, unterstützt durch unser optimiertes Systemdesign und CUDA-Kernel. Umfangreiche Evaluierungen über X-LLMs hinweg zeigen, dass OScaR bestehende Methoden durchgängig übertrifft und unter INT2-Quantisierung eine nahezu verlustfreie Leistung erzielt, was es als ein robustes, komplexitätsarmes und universelles Framework etabliert, das eine neue Pareto-Front definiert. Im Vergleich mit der BF16-FlashDecoding-v2-Baseline erreicht unsere OScaR-Implementierung eine bemerkenswerte Beschleunigung des Dekodierens um bis zu 3,0x, reduziert den Speicherbedarf um das 5,3-fache und erhöht den Durchsatz um das 4,1-fache. Der Code für OScaR ist öffentlich verfügbar unter https://github.com/ZunhaiSu/OScaR-KV-Quant.
Die grundlegenden Fähigkeiten, die durch Große Sprachmodelle (LLMs) etabliert wurden, haben den Weg für Multimodale Große Sprachmodelle (MLLMs) geebnet, innerhalb derer Große Audio-Sprachmodelle (LALMs) für die Verwirklichung universeller auditiver Intelligenz essenziell sind. Trotz ihrer bemerkenswerten Leistung hat die Eskalation der Fähigkeiten von LALMs die Entwicklung systemischer Rahmenwerke zur Sicherstellung ihrer Vertrauenswürdigkeit deutlich überholt. Diese Übersichtsarbeit bietet eine umfassende Untersuchung der endogenen Mechanismen von LALMs und beschreibt detailliert die architektonischen Innovationen und Ausrichtungsalgorithmen, die emergentes Schlussfolgern ermöglichen. Insbesondere analysieren wir, wie der Übergang zu einheitlichen End-to-End-Frameworks und die Integration kontinuierlicher akustischer Signale die Angriffsfläche inhärent erweitern. Um die Risiken innerhalb dieser Paradigmen rigoros zu bewerten, erstellen wir eine umfassende Taxonomie der Vertrauenswürdigkeit, die kritische Schwachstellen wie kreuzmodales Jailbreaking, latente akustische Hintertüren und biometrische Privatsphäreverletzungen kategorisiert. Wir betrachten den aktuellen Stand der Technik anhand von sechs analytischen Säulen: Halluzination, Robustheit, Sicherheit, Privatsphäre, Fairness und Authentifizierung. Das tiefgreifende Ungleichgewicht zwischen einer ausgereiften Angriffslandschaft und unterentwickelten Abwehrmaßnahmen bestätigt zudem die kritischen Vertrauenswürdigkeitslücken und multidimensionalen Risiken, denen audiozentrische Intelligenz gegenübersteht. Schließlich schlagen wir eine strategische Roadmap vor, die für "Defense-in-Depth"-Architekturen, kausale auditive Weltmodellierung und intrinsisches Repräsentations-Engineering plädiert, um die Kluft zwischen empirischer Leistung und intrinsisch vertrauenswürdiger Audiointelligenz zu überbrücken. Unser Projekt wurde auf GitHub hochgeladen: https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs.
Kontextuelle Integrität (CI) definiert Privatsphäre nicht nur als das Verbergen von Informationen, sondern als die Steuerung von Informationsflüssen gemäß den Normen eines gegebenen Kontexts. Da große Sprachmodelle zunehmend als persönliche Agenten eingesetzt werden, die sensible Arbeitsabläufe verwalten, wird die Einhaltung von CI entscheidend. Allerdings bleiben selbst führende Modelle bei Offenlegungsentscheidungen unzuverlässig, und bestehende Abhilfestrategien beeinträchtigen oft die zugrundeliegende Aufgabenleistung. Um diesen Zielkonflikt zwischen Privatsphäre und Nutzen zu überwinden, schlagen wir SELFCI vor, ein komplementäres Self-Distillation-Framework, das die Unterdrückung von Informationen von der Aufgabenlösung entkoppelt. SELFCI optimiert gemeinsam zwei unabhängige reverse KL-Divergenzen über verschiedene aus Rückmeldungen abgeleitete Lehrer-Verteilungen: Eine fördert die Beibehaltung aufgabenrelevanter Informationen für den Nutzen, während die andere eine minimale und angemessene Offenlegung erzwingt. Diese komplementäre Formulierung induziert ein Product-of-Experts (PoE)-Ziel, das die Policy mit der Schnittmenge von Fähigkeits- und Datenschutzanforderungen ausrichtet. Empirische Evaluierungen zeigen, dass SELFCI, ohne auf kostspielige externe Überwachung angewiesen zu sein, durchgängig bessere Ergebnisse erzielt als wettbewerbsfähige Baselines wie Online-Verstärkungslernalgorithmen (z. B. GRPO). Diese Trends erstrecken sich weiter auf bereichsfremde Umgebungen, die agentische Arbeitsabläufe und angesammelten privaten Kontext umfassen, was darauf hindeutet, dass SELFCI einen praktischen Weg zur CI-Ausrichtung bietet.
Wir zeigen, dass Zeitreihen-Foundation-Modelle skalieren: Ein einziges Trainingsrezept führt zu zuverlässigen Verbesserungen der Prognosequalität von 4 Millionen bis 2,5 Milliarden Parametern. Wir veröffentlichen Toto 2.0, eine Familie von fünf Open-Weights-Prognosemodellen, die unter diesem Rezept trainiert wurden. Die Toto-2.0-Familie setzt einen neuen Stand der Technik auf drei Prognose-Benchmarks: BOOM, unserem Observability-Benchmark; GIFT-Eval, dem standardmäßigen Allzweck-Benchmark; und dem aktuellen kontaminierungsresistenten TIME-Benchmark. Dieser Bericht beschreibt unsere experimentellen Ergebnisse und erläutert die Entwurfsentscheidungen hinter Toto 2.0: seine Architektur und das Trainingsrezept, die Trainingsdaten und die u-muP-Hyperparameter-Transfer-Pipeline. Alle fünf Basis-Checkpoints werden unter Apache 2.0 veröffentlicht.
LLM-Agenten haben sich kürzlich als leistungsfähiges Paradigma zur Lösung komplexer Aufgaben durch Planung, Werkzeugnutzung, Gedächtnisabruf und mehrschrittige Interaktion erwiesen. Diese agentischen Arbeitsabläufe führen jedoch häufig zu erheblichem Overhead auf der Eingabeseite, sodass die rechenintensive Prefilling-Phase zu einem zentralen Engpass bei Langkontext-Inferenz mit mehreren Iterationen wird. In dieser Arbeit schlagen wir Mix-Quant vor, ein einfaches und effektives phasenbewusstes Quantisierungsframework für schnelle agentische Inferenz. Wir untersuchen zunächst die FP4-Quantisierung in agentischen LLM-Workflows und stellen fest, dass die Quantisierung des gesamten Inferenzprozesses zu erheblichen Leistungseinbußen führen kann. Im Gegensatz dazu weist die Prefilling-Phase eine erhebliche Quantisierungsredundanz auf und kann daher bei minimalem Genauigkeitsverlust quantisiert werden, obwohl sie die dominierende Rechenquelle darstellt. Basierend auf dieser Erkenntnis wenden wir die NVFP4-Quantisierung mit hohem Durchsatz auf die Prefilling-Phase an, während die BF16-Präzision für die Decodierung beibehalten wird. Durch die Entkopplung der Prefilling-Beschleunigung von der Decodierungsqualität kombiniert Mix-Quant phasenbewusste algorithmische Quantisierung mit hardwareeffizienter NVFP4-Ausführung, um den Inferenz-Engpass bei LLM-Agenten zu verringern. Umfangreiche Experimente auf Langkontext- und agentischen Benchmarks zeigen, dass Mix-Quant die Aufgabenleistung weitgehend bewahrt und gleichzeitig erhebliche Effizienzsteigerungen erzielt, mit einer bis zu 3-fachen Beschleunigung während des Prefillings.
Wie sollten zukünftige neuronale Reasoningsysteme erweiterte Berechnungen umsetzen? Rekursive Reasoningsmodelle (RRMs) bieten eine vielversprechende Alternative zur autoregressiven Sequenzerweiterung, indem sie eine iterative Verfeinerung des latenten Zustands mit geteilten Übergangsfunktionen durchführen. Allerdings sind bestehende RRMs weitgehend deterministisch: Sie folgen einer einzigen latenten Trajektorie und konvergieren zu einer einzigen Vorhersage. Wir stellen Generative Recursive reAsoning Models (GRAM) vor, ein Framework, das rekursives latentes Reasoning in eine probabilistische Berechnung mit mehreren Trajektorien überführt. GRAM modelliert Reasoning als stochastische latente Trajektorie, was multiple Hypothesen, alternative Lösungsstrategien und eine Skalierung zur Inferenzzeit sowohl über die rekursive Tiefe als auch über paralleles Trajektorien-Sampling ermöglicht. Dies ergibt ein generatives Modell mit latenten Variablen, das bedingtes Reasoning über \(p_\theta(y \mid x)\) und – bei festen oder fehlenden Eingaben – bedingungslose Generierung über \(p_\theta(x)\) unterstützt. Trainiert mit amortisierter variationeller Inferenz verbessert GRAM deterministische rekurrente und rekursive Basislinien bei Aufgaben des strukturierten Reasoning und der Erfüllung von Bedingungen mit mehreren Lösungen und demonstriert gleichzeitig eine Fähigkeit zur bedingungslosen Generierung. https://ahn-ml.github.io/gram-website
Während GUI-Agenten bedeutende Fortschritte bei der Websuche und grundlegenden Betriebssystemaufgaben erzielt haben, sind ihre Fähigkeiten in professionellen kreativen Arbeitsabläufen noch weitgehend unerforscht. Um diese Lücke zu schließen, stellen wir Cutverse vor, einen Benchmark, der entwickelt wurde, um autonome GUI-Agenten in realistischen Medien-Postproduktionsumgebungen systematisch zu evaluieren. Wir kuratieren Demonstrationen von Experten über 7 professionelle Anwendungen (z. B. Premiere Pro, Photoshop) hinweg, die 186 komplexe, langanhaltende Aufgaben umfassen, die in authentischen Bearbeitungsabläufen verwurzelt sind und dichte multimodale Schnittstellen sowie eng gekoppelte Interaktionssequenzen beinhalten. Um eine skalierbare Evaluierung zu unterstützen, entwickeln wir einen leichten Parser, der rohe Bildschirmaufnahmen und Interaktionsprotokolle auf niedriger Ebene in strukturierte, kompositionelle GUI-Aktionsverläufe mit präzisem Grounding umwandelt. Umfangreiche Evaluierungen zeigen, dass bestehende Agenten bei realistischen Medienbearbeitungsaufgaben nur eine Erfolgsquote von 36,0 % erreichen, was die Herausforderungen unterstreicht, die durch komplexe, langanhaltende Medien-Postproduktions-Workflows in unserem Benchmark entstehen. Während aktuelle Modelle vielversprechendes räumliches Grounding, multimodale Ausrichtung und koordinierte Aktionsausführung zeigen, bleiben sie in Bezug auf langfristige Zuverlässigkeit und domänenspezifische Planung eingeschränkt.
Derzeit basiert die Verbesserung von Unified Multimodal Models (UMMs) mit Bildverständnis-, Generierungs- und Bearbeitungsfähigkeiten hauptsächlich auf gemischtem Multi-Task-Training. Aufgrund inhärenter Aufgabenkonflikte erfordert eine solche Strategie komplexe mehrstufige Pipelines, massive Datenmischung und Ausgleichstricks, was lediglich zu einem Leistungskompromiss führt, anstatt zu einer echten gegenseitigen Verstärkung. Um dieses Paradigma zu durchbrechen, schlagen wir Uni-Edit vor, eine intelligente Bildbearbeitungsaufgabe, die als erste allgemeine Aufgabe für das UMM-Tuning dient. Im Gegensatz zu komplexen gemischten Pipelines verbessert Uni-Edit die Leistung in allen drei Fähigkeiten gleichzeitig, indem es nur eine Aufgabe, eine Trainingsstufe und einen Datensatz verwendet. Insbesondere identifizieren wir zunächst die Bildbearbeitung als eine inhärent ideale allgemeine Aufgabe, da sie natürlicherweise sowohl visuelles Verständnis als auch Generierung erfordert. Allerdings stützt sich die vorhandene Bearbeitungsdaten auf einfache Anweisungen, die das Verständnisvermögen eines Modells stark unterausnutzen. Um dies zu beheben, führen wir die erste automatisierte und skalierbare Datensynthesepipeline für intelligentes Editieren ein, die verschiedene VQA-Daten in komplexe und effektive Bearbeitungsanweisungen mit eingebetteten Fragen und verschachtelter Logik umwandelt. Dies ergibt Uni-Edit-148k, das vielfältige schlussfolgerungsintensive Anweisungen mit qualitativ hochwertigen editierten Bildern paart. Umfangreiche Experimente mit BAGEL und Janus-Pro zeigen, dass das alleinige Tuning auf Uni-Edit umfassende Verbesserungen in allen drei Fähigkeiten ohne jegliche Hilfsoperationen erzielt.
Die Bewertung großer Sprachmodelle (LLMs) hinsichtlich logischen Denkens in natürlicher Sprache ist essenziell, da regelbasierte Aufgaben verlangen, dass Schlussfolgerungen strikt aus den angegebenen Prämissen folgen. Viele bestehende Benchmarks für logisches Denken werden durch die Vorlagenbildung natürlicher Sprachelemente aus abgetasteten Formeln generiert, bieten nur grobe oder nicht geprüfte formale Annotationen und werden inzwischen schnell von führenden Reasoning-Modellen gesättigt. Wir stellen LLMEval-Logic vor, einen chinesischen Benchmark für logisches Denken, der auf realistischen situativen Szenarien basiert. Seine Pipeline erstellt vorab von Autoren und prüft durch Experten natürliche Sprachelemente zusammen mit ihren Referenzformalisierungen, verifiziert annotierte Antworten mit Z3, erstellt Expertenbewertungsraster für die Bewertung von natürlich zu formal und härtet ausgewählte Elemente durch einen geschlossenen adversarialen Arbeitsablauf. Der Benchmark wird in zwei gepaarten Teilmengen veröffentlicht: einer Basisteilmenge mit 246 Elementen, die mit 1.400 von Experten entwickelten Bewertungsraster-Atomen ausgeliefert wird, und einer schwierigen Teilmenge mit 190 Elementen mit 938 mehrschrittigen Unterfragen über geschlossene Modellräume. Die Bewertung von 14 führenden LLMs auf LLMEval-Logic zeigt erhebliche Lücken bei aktuellen Modellen: Das beste Modell erreicht nur 37,5 % Genauigkeit bei schwierigen Elementen, und selbst mit Referenzsymbolen erreicht der höchste gemeinsame Z3+Bewertungsraster-Formalisierungswert unter den bewerteten Modellen nur 60,16 %. Unser Benchmark ist öffentlich verfügbar unter https://github.com/llmeval/LLMEval-Logic.
Das aktuelle Vortrainingsparadigma für große Sprachmodelle beruht auf massiver Rechenleistung und internetumfassenden Rohdaten, was eine erhebliche Hürde für die Grundlagenforschung darstellt. Im Gegensatz dazu zeigen biologische Systeme hochgradig sample-effizientes Lernen durch mehrskalige Verarbeitung, wie etwa die funktionale Organisation der frontoparietalen Schleife. Von dieser Inspiration ausgehend führen wir HRM-Text ein, das standardmäßige Transformer durch ein Hierarchisches Rekurrentes Modell (HRM) ersetzt, das die Berechnung in sich langsam entwickelnde strategische und schnell entwickelnde ausführende Schichten entkoppelt. Um diese tiefe Rekurrenz für die Sprachmodellierung zu stabilisieren, führen wir MagicNorm und eine Aufwärmphase für die tiefe Kreditzuweisung ein. Anstelle des standardmäßigen Vortrainings mit Rohdaten trainieren wir ausschließlich auf Instruktion-Antwort-Paaren unter Verwendung eines Aufgabenerfüllungsziels und PrefixLM-Maskierung. Als empirischer Existenzbeweis für effizientes Vortraining erreicht ein 1B-Parameter HRM-Text-Modell, das von Grund auf mit nur 40 Milliarden einzigartigen Token und einem Budget von 1.500 $ trainiert wurde, 60,7 % bei MMLU, 81,9 % bei ARC-C, 82,2 % bei DROP, 84,5 % bei GSM8K und 56,2 % bei MATH. Trotz der Verwendung von etwa 100- bis 900-fach weniger Trainingstoken und 96- bis 432-fach weniger geschätzter Rechenleistung im Vergleich zu Standardbaselines schneidet HRM-Text wettbewerbsfähig mit offenen 2- bis 7B-Parameter-Modellen ab. Diese Ergebnisse zeigen, dass das gemeinsame Entwerfen von Architekturen und Zielsetzungen das Verhältnis von Rechenleistung zu Leistung radikal reduzieren kann, wodurch das Vortraining von Grund auf für die breitere Forschungsgemeinschaft zugänglich wird.
Arbeitsabläufe für industrielle Asset-Operationen sind latenzempfindlich, da eine einzelne Benutzerabfrage die Koordination von Sensordaten, Arbeitsaufträgen, Fehlermodi, Prognosetools und domänenspezifischen Agenten erfordern kann. Wir evaluieren dieses Problem anhand des AssetOpsBench (AOB), einem industriellen Agenten-Benchmark, dessen Plan-Execute-Pipeline wiederkehrende Overheads durch Tool-Erkennung, LLM-Planung, MCP-Tool-Ausführung und abschließende Zusammenfassung aufweist. Bestehende LLM-Caching-Techniken wie KV-Cache-Wiederverwendung und embeddingsbasiertes semantisches Caching wurden für den Chatbot-Einsatz entwickelt und versagen, wenn die Gültigkeit der Ausgabe von Zeit, Asset oder Sensorparametern abhängt. Wir schlagen zwei komplementäre Optimierungsschichten für AOB-Plan-Execute-Pipelines vor: einen temporalen semantischen Cache und eine Reihe von MCP-Workflow-Optimierungen, die disk-basiertes Tool-Erkennungs-Caching und abhängigkeitsbewusste parallele Schrittausführung kombinieren. Die MCP-Workflow-Optimierungen führten zu einer 1,67-fachen Beschleunigung und reduzierten die mediane End-to-End-Latenz um etwa 40,0 %, während der temporale Cache-Benchmark bei Cache-Treffern eine mediane 30,6-fache Beschleunigung erzielte. Über die Beschleunigung hinaus zeigen unsere Ergebnisse ein konkretes Versagensmuster des reinen semantischen Cachings für parameterreiche industrielle Abfragen auf und liefern eine kritische Analyse, wie Caching-Entscheidungen mit der Evaluierungskorrektheit in MCP-gestützten Agenten-Benchmarks interagieren.
Mit der Weiterentwicklung der KI-Fähigkeiten werden KI-Gutachter zunehmend in der wissenschaftlichen Peer-Review eingesetzt, doch ihre Leistungsfähigkeit und Glaubwürdigkeit bleiben fraglich: Viele Wissenschaftler betrachten sie lediglich als probabilistische Systeme ohne die nötige Expertise zur Bewertung von Forschung, während andere Forscher optimistischer hinsichtlich ihrer Einsatzbereitschaft sind, ohne konkrete Belege zu haben. Es ist unerlässlich zu verstehen, was KI-Gutachter gut können, wo ihre Schwächen liegen und welche Herausforderungen bestehen bleiben. Bisherige Evaluierungen von KI-Gutachtern konzentrierten sich jedoch darauf, ob ihre Beurteilungen mit menschlichen Beurteilungen übereinstimmen (z. B. Übereinstimmung von Bewertungen, Vorhersage von Annahmeentscheidungen), was unzureichend ist, um ihre Fähigkeiten und Grenzen zu charakterisieren. In diesem Artikel schließen wir diese Lücke durch eine groß angelegte Experten-Annotationsstudie, in der 45 Wissenschaftler aus den Bereichen Physik, Biologie und Gesundheitswissenschaften 469 Stunden damit verbrachten, 2.960 einzelne Kritikpunkte (jeweils einen spezifischen Aspekt eines Artikels betreffend) aus menschlich verfassten und KI-generierten Gutachten zu 82 Nature-Artikeln hinsichtlich Korrektheit, Signifikanz und Hinlänglichkeit der Evidenz zu bewerten. In einem Gesamtmaß aus allen drei Dimensionen erzielte ein auf GPT-5.2 basierender Begutachtungsagent eine höhere Punktzahl als der jeweils bestbewertete menschliche Gutachter eines Artikels (60,0 % vs. 48,2 %, p = 0,009), während alle drei KI-Gutachter (einschließlich Gemini 3.0 Pro und Claude Opus 4.5) in jeder Dimension den am schlechtesten bewerteten menschlichen Gutachter übertrafen. Zudem wurden die korrekten Kritikpunkte der KI-Gutachter häufiger als signifikant und gut belegt eingestuft, und sie deckten 26 % der Probleme auf, die kein Mensch anspricht. Allerdings überschneiden sich KI-Gutachter weitaus stärker als Menschen (21 % vs. 3 % bei Gutachterpaaren) und weisen 16 wiederkehrende Schwächen auf, die Menschen nicht teilen, wie etwa begrenzte Fachgebietskenntnisse, fehlendes Management langer Kontexte über mehrere Dateien hinweg und eine übermäßig kritische Haltung gegenüber kleineren Mängeln. Insgesamt positionieren unsere Ergebnisse die derzeitigen KI-Gutachter als Ergänzung zu, nicht als Ersatz für menschliche Gutachter.
Aktuelle Layout-zu-Bild-Modelle haben bemerkenswerte Fortschritte in der räumlichen Steuerbarkeit erzielt. Dennoch haben sie weiterhin Schwierigkeiten mit der Objektverschattung (inter-object occlusion). Wenn sich Begrenzungsrahmen überlappen, fehlt den meisten bestehenden Methoden explizite Okklusionsinformationen, was die Generierung in Überschneidungsbereichen inhärent mehrdeutig macht und die Bestimmung komplexer Okklusionsbeziehungen erschwert. Infolgedessen erzeugen sie in den überlappenden Bereichen oft verworrene Texturen oder physikalisch inkonsistente Schichtungen. Um dieses Problem zu lösen, konstruieren wir zunächst SA-Z, einen umfangreichen Datensatz, der mit expliziter Okklusionsreihenfolge und pixelgenauen Annotationen angereichert ist. Aufbauend auf unserem vorgeschlagenen Datensatz führen wir OcclusionFormer ein, ein neuartiges Okklusions-bewusstes Diffusion-Transformer-Framework, das die Z-Reihenfolge-Priorität explizit modelliert, indem es Instanzen entkoppelt und sie mittels Volumenrendering zusammensetzt. Darüber hinaus führen wir zur Gewährleistung feinkörniger räumlicher Präzision einen Query-basierten Ausrichtungsverlust (queried alignment loss) ein, der einzelne Instanzen explizit überwacht und die semantische Konsistenz verbessert. Die vorgeschlagene Methode reduziert effektiv die Mehrdeutigkeit in überlappenden Regionen, erzwingt korrekte Okklusionsabhängigkeiten und bewahrt die strukturelle Integrität, was zu erheblichen Genauigkeitssteigerungen in verschiedenen Szenen führt.
Stable Audio 3 ist eine Familie schneller latenter Diffusionsmodelle (klein, mittel, groß) zur Erzeugung und Bearbeitung von Audioinhalten variabler Länge. Da unsere Modelle mehrere Minuten Audio generieren können, sind Generierungen variabler Länge entscheidend, um die Kosten für die Erstellung von Vollversionen für kurze Töne zu vermeiden. Wir unterstützen zudem Inpainting, das gezielte Audiobearbeitung und die Fortsetzung kurzer Aufnahmen ermöglicht. Unsere latenten Diffusionsmodelle arbeiten auf Basis eines neuartigen semantisch-akustischen Autoencoders, der Audio in einen kompakten latenten Raum projiziert. Dies ermöglicht eine effiziente diffusionsbasierte Erzeugung bei gleichzeitiger Wahrung der Audioqualität und Förderung semantischer Strukturen im latenten Raum. Schließlich führen wir ein adversarielles Nachtraining durch, um sowohl die Inferenz zu beschleunigen als auch die Erzeugungsqualität zu verbessern, wodurch die Anzahl der Inferenzschritte reduziert wird, während Wiedergabetreue und Prompt-Treue gesteigert werden. Die Modelle von Stable Audio 3 werden auf lizenzierten und Creative-Commons-Daten trainiert, um Musik und Klänge in weniger als 2 Sekunden auf einer H200 GPU und in wenigen Sekunden auf einem MacBook Pro M4 zu erzeugen. Wir veröffentlichen die Gewichte der kleinen und mittleren Modelle, die auf handelsüblicher Hardware laufen, zusammen mit ihrer Trainings- und Inferenz-Pipeline.
Für den praktischen Einsatz müssen Diffusions- oder flussbasierte generative Modelle an aufgabenspezifische Belohnungen wie Prompt-Treue oder ästhetische Präferenz angepasst werden. Diese Anpassung ist herausfordernd, da die Belohnung für saubere Ausgabebilder definiert ist, das Anpassungsverfahren jedoch Schätzungen der Wertefunktion auf verrauschten, intermediären Latents erfordert. Bestehende Methoden greifen auf Tweedie-artige oder Monte-Carlo-Approximationen zurück und tauschen dabei Schätzerverzerrung gegen Rechenaufwand ein: Tweedie-Schätzungen sind effizient, aber verzerrt, während Monte-Carlo-Schätzungen genauer sind, jedoch aufwändige Rollouts erfordern. Eine natürliche Alternative wäre eine gelernte Wertefunktion, aber es bleibt eine offene Frage, wie man ein starkes und allgemeines Wertemodell speziell für verrauschte Latents effektiv trainieren kann. Hier schlagen wir StitchVM vor, ein Modell-Stitching-Framework, das für saubere Bilder vortrainierte Belohnungsmodelle effizient in den Bereich verrauschter Latents überführt. StitchVM geht von einem bestehenden, abgeschnittenen Pixelraum-Belohnungsmodell aus und fügt einen eingefrorenen Diffusions-Backbone als dessen Kopf an. Vom Pixelraum-Modell behält der resultierende Hybrid eine sorgfältig vortrainierte, robuste Belohnungsfähigkeit; vom Diffusions-Backbone erbt er dessen natürliche Fähigkeit, mit verrauschten Latents umzugehen. Das Stitching-Verfahren ist außergewöhnlich leichtgewichtig; beispielsweise dauert das Stitching und Feintuning von CLIP ViT-L und SD 3.5 Medium nur 10 GPU-Stunden. Durch die Übertragung leistungsfähiger Pixelraum-Belohnungsmodelle in den Latent-Raum eröffnet StitchVM einen neuen Stil der Diffusionsanpassung: Anstatt einer groben, aber aufwändigen stichprobenweisen Approximation der Wertefunktion wird die korrekte Funktion für die tatsächlichen, verrauschten Latents einmal konstruiert und dann über viele Stichproben und Iterationen amortisiert. Wir zeigen, dass dieser Ansatz bei einer breiten Palette nachgelagerter Steuerungs- und Nachtrainingsmethoden Verbesserungen bringt: DPS wird 3,2-mal schneller bei halbierter GPU-Speicherspitze, und DiffusionNFT wird 2,3-mal schneller.
Der Schlüssel-Wert-Zwischenspeicher (KV-Cache) dominiert die Speicherbandbreite und den Speicherbedarf bei autoregressiver Inferenz mit langen Kontexten. Neuere rotationsvorkonditionierte Codecs (TurboQuant, PolarQuant) zeigen, dass eine strukturierte Zufallsrotation gefolgt von einem skalaren Quantisierer pro Koordinate, der auf eine analytisch behandelbare Randverteilung abgestimmt ist, ein nahezu optimales Rezept für die KV-Kompression darstellt. OCTOPUS erweitert dieses Paradigma durch die gemeinsame Quantisierung rotierter Koordinatentripel. Die Richtung jedes Tripels wird über eine oktaedrische Parametrisierung auf ein Quadrat abgebildet, und die beiden resultierenden Koordinaten sowie die Norm des Tripels werden mit Lloyd-Max gegenüber implementierungsangepassten Randverteilungen quantisiert. Die Optimierung des quadratischen Fehlers pro Tripel ergibt eine streng ungleichmäßige Bit-Zuweisung, die ausschließlich von der Gesamtdimensionalität der Schlüssel abhängt. Wir stellen fest, dass das endlichdimensionale Qualitätsoptimum bei Durchläufen auf jedem von uns getesteten realen Decoder konstant ist. Der Codec ist datenunbesehen, online und bei gegebenem Startwert deterministisch. Über Text, Video und Audio hinweg erreicht oder übertrifft OCTOPUS jeden früheren Rotationscodec bei jeder berichteten Bitbreite und Metrik, wobei der Vorsprung mit sinkender Bitrate für extreme Kompression zunimmt. Darüber hinaus rekonstruiert eine fusionierte Triton-Implementierung Schlüssel im laufenden Betrieb, ohne den unkomprimierten Schlüssel zu materialisieren, sodass der Codec keine zusätzliche Dekodier-Bandbreite oder -Latenz gegenüber der bestehenden Dequantisierung einführt. Projektseite: https://octopus-quant.github.io/
Reinforcement Learning aus verifizierbaren Belohnungen (RLVR) leidet unter spärlichen Ergebnis-Signalen, was bei komplexen Denkaufgaben zu erheblichen Explorationsengpässen führt. Neuere On-Policy-Selbstdestillationsmethoden versuchen, dieses Problem zu beheben, indem sie Sprachfeedback nutzen, um dichte, tokenweise Überwachung zu erzeugen. Diese Ansätze basieren jedoch auf einem festen, passiven Lehrer, der das Feedback interpretiert. Mit der Verbesserung der Schülerpolitik stagnieren die Zero-Shot-Bewertungsfähigkeiten des Lehrers, was letztlich das weitere Lernen blockiert. Um dies zu überwinden, schlagen wir Variational Policy Distillation (VPD) vor, ein Rahmenwerk, das das Lernen aus Sprachfeedback als ein Variational-Expectation-Maximization-Problem (EM) formalisiert. VPD entwickelt beide Politiken gemeinsam weiter: Im E-Schritt wird der Lehrer durch eine adaptive Trust-Region-Aktualisierung aktiv auf der Grundlage von Trajektorien-Ergebnissen verfeinert, wobei textuelles Feedback in eine dynamisch verbesserte Ziel-Token-Verteilung übersetzt wird. Im M-Schritt verinnerlicht der Schüler diese dichte Verteilungsanleitung in seinen eigenen On-Policy-Rollouts. Durch die kontinuierliche Verbesserung der Fähigkeit des Lehrers, handlungsrelevante Signale aus textueller Kritik zu extrahieren, überwindet VPD die Grenzen der passiven Destillation. Bewertet anhand verschiedener Quellen diagnostischen Feedbacks bei wissenschaftlichen Denk- und Codegenerierungsaufgaben übertrifft VPD sowohl das Standard-RLVR als auch bestehende Selbstdestillations-Baselines. Schließlich beleuchten wir durch Stresstests unseres Rahmenwerks bei strengem mathematischen Denken und Kaltstart-Regimen die grundlegenden Grenzen der feedbackgesteuerten Selbstdestillation im Vergleich zu rein umgebungsgesteuertem Reinforcement Learning.
LLM-Agenten organisieren ihr Verhalten über Skills – strukturierte, natürlichsprachliche Spezifikationen, die festlegen, wie ein Agent denkt, Informationen abruft und antwortet. Im Gegensatz zu monolithischen Prompts sind Skills mehrfeldrige Artefakte, die harten Plattformbeschränkungen unterliegen: Beschreibungsfelder werden für das Routing gekürzt, Instruktionskörper durch progressive Offenlegung komprimiert, und benachbarte Skills konkurrieren um begrenzte Kontextfenster. Diese Einschränkungen machen die Skill-Optimierung inhärent multiobjektiv: Ein Skill muss gleichzeitig die Aufgabenleistung maximieren und Plattformgrenzen einhalten. Dennoch ignorieren bestehende Prompt-Optimierer diese Zielkonflikte oder bündeln sie in einer gewichteten Summe, wobei Pareto-optimale Varianten in nicht-konvexen Zielregionen übersehen werden. Wir stellen MOCHA (Multi-Objective Chebyshev Annealing) vor, das die Einzelzielselektion durch eine Chebyshev-Skalarisierung ersetzt – die den gesamten Pareto-Frontier einschließlich nicht-konvexer Regionen abdeckt – kombiniert mit exponentiellem Annealing, das von Exploration zu Exploitation übergeht. In unseren Experimenten mit sechs verschiedenen Agenten-Skills – bei denen alle Methoden denselben multiobjektiven Mutationsoperator verwenden und die Basislinien identisches objektweises Textfeedback erhalten – gelingt es bestehenden Optimierern nicht, den Ausgangs-Skill bei 4 von 6 Aufgaben zu verbessern: 1000 Rollouts erzielen keinerlei Fortschritt. MOCHA durchbricht diese Barriere bei jeder Aufgabe und erreicht eine relative Verbesserung der mittleren Korrektheit von 7,5 % gegenüber der stärksten Basislinie (bis zu 14,9 % bei FEVER und 10,4 % bei TheoremQA), während doppelt so viele Pareto-optimale Skill-Varianten entdeckt werden.
Die Erstellung eines konsistenten VR-Rundgangs für ein gesamtes Haus aus einem Grundriss und einer Stilreferenz erfordert sowohl fotorealistische Panoramen als auch räumliche Kohärenz über verschiedene Ansichten hinweg. Reine 2D-Generatoren erzeugen ansprechende Einzelpanoramen, stellen jedoch Geometrie und Materialien bei einem Wechsel des Blickwinkels neu dar, wohingegen monolithische 3D-Generierung teuer wird und auf der Skala mehrerer Räume feine Texturen verliert. Wir stellen PanoWorld vor, ein generatives räumliches Weltmodell, das die Synthese eines gesamten Hauses als autoregressive Erzeugung von knotenbasierten 360-Grad-Panoramen behandelt und damit der diskreten Navigation entspricht, die von echten VR-Rundgangprodukten verwendet wird. PanoWorld verwendet eine aus dem Grundriss abgeleitete 3D-Hülle als globale geometrische Stellvertreterin und einen dynamischen 3D-Gaussian-Splatting-Cache als renderbaren räumlichen Speicher. Ein Feed-Forward-Panorama-LRM, das für metrische mehrräumige 360-Grad-Eingaben ausgelegt ist, transformiert erzeugte Panoramen in lokale 3DGS-Updates, während raumbewusste Gruppenaufmerksamkeit Interferenzen zwischen Räumen unterdrückt. Eine topologiebewusste progressive Caching-Strategie fusioniert diese lokalen Aktualisierungen, ohne die vollständige Historie wiederholt zu rekonstruieren. Durch die Entkopplung der hüllenbasierten Geometrieführung vom cache-gerenderten visuellen Speicher bewahrt PanoWorld die hochfrequente 2D-Synthesequalität, während gleichzeitig die knotenübergreifende Layout- und Materialkonsistenz verbessert wird. Der Projektlink lautet https://jjrcn.github.io/PanoWorld-project-home/
Verstärkungslernen mit verifizierbarer Belohnung (RLVR) hat sich als wirksam erwiesen, um die Argumentationsfähigkeit großer Sprachmodelle (LLMs) zu verbessern. Allerdings ist die Lerndynamik von RLVR noch wenig erforscht. In dieser Arbeit decken wir ein kontraintuitives Phänomen auf: Bei schwierigen Beispielen, mit denen das Modell zunächst zu kämpfen hat, bleibt ein erheblicher Teil selbst dann unlernbar, wenn korrekte Rollouts vorliegen. Um das Phänomen zu verstehen, zeigen wir zunächst, dass bestehende Optimierungs- und Stichprobentechniken die Unlernbarkeit nicht beheben können. Mittels beispielübergreifender Gradientenanalyse weisen wir nach, dass unlernbare Beispiele ein grundlegendes Repräsentationsproblem aufweisen, das sich durch eine geringe Gradientenähnlichkeit mit den übrigen Beispielen und nicht generalisierbare Argumentationsmuster auszeichnet. Wir zeigen ferner, dass Repräsentationsfehler im RL schwer zu beheben sind, da Datenerweiterung die Gradientenähnlichkeit nicht verbessert. Unsere Studie liefert die erste systematische Charakterisierung unlernbarer Daten im RLVR-Training und deckt grundlegende Einschränkungen aktueller RL-Ansätze für Argumentationsaufgaben auf. Code und Daten sind verfügbar unter https://github.com/yulinchen99/unlearnability-rlvr.
Da langlebige Kodierungsagenten mehr Code produzieren, als jeder Entwickler überprüfen kann, verlagert sich die Aufsicht auf eine einzige Oberfläche: die automatisierte Testsuite. In dieser Konstellation tritt zwangsläufig Reward Hacking auf, da der Agent die Tests optimiert, während er vom eigentlichen Ziel des Nutzers abweicht. Wir untersuchen dieses Phänomen des Reward Hackings, indem wir Softwareentwicklungsaufgaben in drei Teile zerlegen: (i) eine natürlichsprachliche Beschreibung der Spezifikation, (ii) sichtbare Validierungstests, die spezifizierte Funktionen isoliert prüfen, und (iii) zurückgehaltene Tests, die dieselben Funktionen kombinieren, um die reale Nutzung zu simulieren. Basierend auf der Spezifikation und den sichtbaren Validierungstestsuiten wäre ein echter Agent in der Lage, eine Lösung zu generieren, die auch alle zurückgehaltenen Tests besteht. Daher nutzen wir den Unterschied in den Bestehensquoten dieser beiden Suiten, um Reward Hacking zu quantifizieren. Auf Grundlage dieser Methodik führen wir SpecBench ein, einen Benchmark mit 30 systemnahen Programmieraufgaben, die von kurzfristigen Aufgaben wie dem Bau eines JSON-Parsers bis hin zu ultralangfristigen Aufgaben wie dem vollständigen Aufbau eines OS-Kernels von Grund auf reichen. Großflächige Experimente zeigen ein durchgängiges Muster: Während jeder Frontend-Agent die sichtbare Suite sättigt, persistiert Reward Hacking, wobei kleinere Modelle größere Lücken bei den zurückgehaltenen Suiten aufweisen. Die Lücke skaliert zudem stark mit der Aufgabenlänge: Sie wächst um 28 Prozentpunkte bei jeder Verzehnfachung der Codegröße. Die Fehler reichen von subtiler Funktionsisolation bis hin zu vorsätzlichen Exploits, darunter ein 2.900-zeiliger Hash-Tabellen-"Compiler", der Testeingaben speichert. SpecBench bietet ein prinzipiengetreues Testfeld, um zu messen, ob Kodierungsagenten echte funktionierende Systeme bauen oder lediglich die Testsuits ausspielen, die Entwickler ihnen vorlegen.
Reale Agenten operieren über lange und sich entwickelnde Horizonte, in denen Informationen wiederholt aktualisiert werden und sich gegenseitig im Gedächtnis stören können, was einen genauen Abruf und aggregiertes Schlussfolgern über mehrere Informationen erfordert. Bestehende Benchmarks konzentrieren sich jedoch auf statische, unabhängige Abrufe und erfassen diese dynamischen Wechselwirkungen zwischen sich entwickelnden Erinnerungen nicht. In dieser Arbeit untersuchen wir, wie aktuelle gedächtnisgestützte Agenten in realistischen, interferenzreichen Umgebungen mit langem Zeithorizont über verschiedene Domänen und Fragetypen hinweg abschneiden. Wir präsentieren MINTEval (Long-Horizon Memory under INTerference Evaluation), einen Benchmark, der (1) lange, hochgradig miteinander verbundene Kontexte mit häufig aktualisierten Informationen umfasst, die erhebliche Interferenz verursachen, (2) verschiedene Domänen (Zustandsverfolgung, mehrschrittiger Dialog, Wikipedia-Überarbeitungen und GitHub-Commits) abdeckt, was eine Bewertung der Domänengeneralisierung ermöglicht, und (3) verschiedene Fragetypen bereitstellt, die die Robustheit gegenüber Interferenz bewerten, darunter (i) Einzelziel-Abrufaufgaben, die das Auffinden eines bestimmten Ziels in langen Kontexten erfordern, und (ii) Mehrfachziel-Aggregationsaufgaben, die das Schlussfolgern über mehrere relevante Informationen erfordern. Insgesamt umfasst MINTEval 15,6k Frage-Antwort-Paare über Langzeithorizont-Kontexte mit durchschnittlich 138,8k Tokens und bis zu 1,8 Mio. Tokens pro Instanz. Wir evaluieren 7 repräsentative Systeme, darunter einfache LLMs mit langem Kontext, RAG und gedächtnisgestützte Agenten-Frameworks. Über alle Systeme hinweg beobachten wir durchweg niedrige Leistung (durchschnittlich 27,9% Genauigkeit), insbesondere bei Fragen, die aggregiertes Schlussfolgern über mehrere Beweisstücke erfordern. Unsere Analyse zeigt, dass die Leistung hauptsächlich durch den Abruf und die Gedächtniskonstruktion eingeschränkt wird. Darüber hinaus fällt es aktuellen Gedächtnissystemen schwer, frühere Fakten abzurufen und darüber zu schlussfolgern, die durch nachfolgenden Kontext überarbeitet oder gestört wurden, wobei die Genauigkeit mit zunehmender Anzahl dazwischenliegender Aktualisierungen abnimmt.
Die Direkte Präferenzoptimierung (DPO) hat sich als beliebte Alternative zum Verstärkenden Lernen aus menschlichem Feedback (RLHF) etabliert und bietet theoretische Äquivalenz bei einfacherer Implementierung. Wir beweisen, dass diese Äquivalenz bedingt und nicht universell ist – sie hängt von einer impliziten Annahme ab, die in der Praxis häufig verletzt wird: Die RLHF-optimale Politik muss von Menschen bevorzugte Antworten bevorzugen. Wenn diese Annahme verletzt wird, optimiert DPO den relativen Vorteil gegenüber der Referenzpolitik anstelle der absoluten Ausrichtung mit menschlichen Präferenzen, was zu pathologischer Konvergenz führt, bei der Politiken den DPO-Verlust verringern, während sie nicht bevorzugte Antworten bevorzugen. Wir charakterisieren, wann diese Annahme verletzt wird, zeigen die Existenz eines unerwünschten Lösungsraums und beweisen, dass DPO und RLHF in solchen Fällen grundlegend verschiedene Zielsetzungen optimieren. Um dies zu adressieren, führen wir die Beschränkte Präferenzoptimierung (CPO) ein, die RLHF um Einschränkungen für eine beweisbare Ausrichtung erweitert. Darüber hinaus liefern wir eine geometrische Interpretation mittels Soft-Margin-Ranking, die zeigt, dass DPO ein Margin-Ranking mit potenziell negativen Zielwerten implementiert. Unsere theoretische Analyse legt fest, wann die Garantien von DPO gelten, und liefert Lösungen, die Einfachheit bei beweisbarer Ausrichtung bewahren. Umfassende Experimente mit Standard-Benchmarks zeigen, dass CPO Spitzenleistungen erzielt. Der Code ist verfügbar unter: https://github.com/visitworld123/CPO.
Wir präsentieren Mem-π, ein Rahmenwerk für adaptives Gedächtnis in LLM-Agenten, bei dem nützliche Anleitungen bei Bedarf generiert und nicht aus externen Gedächtnisspeichern abgerufen werden. Bestehende gedächtniserweiterte Agenten verlassen sich typischerweise auf ähnlichkeitsbasiertes Abrufen aus episodischen Gedächtnisbanken oder Fertigkeitsbibliotheken und geben statische Einträge zurück, die oft nicht mit dem aktuellen Kontext übereinstimmen. Im Gegensatz dazu verwendet Mem-π ein dediziertes Sprach- oder Vision-Language-Modell mit eigenen Parametern, getrennt vom nachgelagerten Agenten, um kontextspezifische Anleitungen für komplexe Aufgaben zu generieren. Bedingt durch den aktuellen Agentenkontext entscheidet das Modell gemeinsam, wann es eine Anleitung erzeugen soll und welche Anleitung es erzeugen soll. Wir trainieren es mit einem entscheidungs-inhaltsentkoppelten Reinforcement-Learning-Ziel (RL), das es ihm ermöglicht, sich zu enthalten, wenn eine Generierung nicht hilfreich wäre, und ansonsten präzise, nützliche Anleitungen zu erzeugen. Über verschiedene agentische Benchmarks hinweg, die Webnavigation, terminalbasierte Werkzeugnutzung und textbasierte verkörperte Interaktion umfassen, übertrifft Mem-π konsistent abrufbasierte und frühere RL-optimierte Gedächtnisbaselines und erzielt eine relative Verbesserung von über 30% bei Webnavigationsaufgaben.
Aktuelle Feedforward-Modelle haben die Geometriewahrnehmung zur Ableitung dichter 3D-Strukturen aus Sensorbeobachtungen erheblich vorangebracht. Dennoch bleiben ihre wesentlichen Fähigkeiten fragmentiert über mehrere inkompatible Paradigmen, darunter Online-Wahrnehmung, Offline-Rekonstruktion, multimodale Integration, Skalierbarkeit für lange Zeithorizonte und metrische Skalenschätzung. Wir präsentieren UniT, ein einheitliches Modell, das auf einem neuartigen Group Autoregressive Transformer aufbaut und diese scheinbar unterschiedlichen Fähigkeiten in einem einzigen Rahmenwerk zusammenfasst. Die Kernidee besteht darin, Gruppen von Sensorbeobachtungen als grundlegende autoregressive Einheiten zu behandeln und die entsprechenden Punktkarten auf ankerfreie und skalenadaptive Weise vorherzusagen. Konkret werden unterschiedliche Ansichtskonfigurationen sowohl im Online- als auch im Offline-Modus innerhalb eines einzigen Gruppen-Autoregressionsprozesses vereinheitlicht. Durch Variation der Gruppengröße arbeitet der Online-Modus über mehrere autoregressive Schritte mit Einzelbildgruppen, während der Offline-Modus eine Mehrbildgruppe in einem einzigen Vorwärtsdurchlauf aggregiert. Gleichzeitig sorgt ein Warteschlangen-basierter KV-Caching-Mechanismus für einen begrenzten autoregressiven Speicher über lange Zeithorizonte. Dies wird durch die Reduzierung langreichweitiger Abhängigkeiten von frühen Bildern mittels ankerfreier relationaler Modellierung ermöglicht, sodass veraltete Speicherinhalte spontan verworfen werden können. Zur Verbesserung der metrischen Skalengeneralisierung über verschiedene Szenen hinweg wird in diesem Rahmenwerk zusätzlich ein skalenadaptiver Geometrieverlust eingeführt. Dieser koppelt relative geometrische Beschränkungen mit einem partiellen absoluten Skalenterm, reguliert implizit die globale Skala und induziert einen schrittweisen Übergang von skaleninvarianter Geometrie zu metrischen Skalenlösungen. Zusammen mit einem dedizierten modalen Aufmerksamkeitsmodul zur Integration zusätzlicher Modalitäten erreicht UniT eine Spitzenleistung in der einheitlichen Geometriewahrnehmung, wie anhand von zehn Benchmarks aus sieben repräsentativen Aufgaben validiert wurde.
Da autonome Codierungsagenten zunehmend in der Lage sind, langfristige Aufgaben zu bewältigen, haben sie allmählich das Potenzial für eine durchgängige Softwareentwicklung unter Beweis gestellt. Obwohl bestehende Benchmarks sich in letzter Zeit von lokalisierter Code-Bearbeitung hin zur Neuerstellung von Projekten weiterentwickelt haben, bleiben sie auf strukturell vereinfachte Single-Stack-Anwendungen beschränkt. Folglich erfassen sie weder die heterogenen Umgebungen, das Full-Stack-Orchestrieren noch die systemische Komplexität realer Enterprise-Software-as-a-Service-(SaaS)-Systeme, was eine kritische Lücke bei der Bewertung von Agenten unter realistischen technischen Einschränkungen hinterlässt. Um diese Lücke zu schließen, stellen wir SaaSBench vor, den ersten speziell dafür entwickelten Benchmark, um die Grenzen von KI-Agenten im Bereich der Enterprise-SaaS-Entwicklung auszuloten. Mit 30 komplexen Aufgaben aus 6 SaaS-Domänen und 5.370 Validierungsknoten integriert er 8 Programmiersprachen, 6 Datenbanken und 13 Frameworks, um die Heterogenität realer Software präzise abzubilden. Darüber hinaus entwickeln wir ein abhängigkeitsbewusstes hybrides Bewertungsparadigma, das speziell auf komplexe Systeme mit langen Zeithorizonten und Mehrkomponentenkopplung zugeschnitten ist, und ermöglicht so eine granulare, reproduzierbare Bewertung. Entscheidend ist, dass unsere umfangreichen Experimente eine bemerkenswerte Erkenntnis zutage fördern: Der primäre Engpass für hochmoderne Agenten liegt nicht in der Erzeugung isolierter Codelogik, sondern in der erfolgreichen Konfiguration und Integration eines Mehrkomponentensystems. Über 95 % der Aufgabenfehler treten auf, bevor die Agenten überhaupt die tiefe Geschäftslogik erreichen, wobei Modelle oft übermütig werden und während der grundlegenden Systemeinrichtung vorzeitig abbrechen oder sich in ineffektiven Debugging-Schleifen verfangen. Wir hoffen, dass SaaSBench als praktische und herausfordernde Testumgebung dient, um die Entwicklung zuverlässiger, systemweiter Codierungsagenten voranzutreiben. Der Code ist verfügbar unter https://github.com/ShadeCloak/SaaSbench.
Planung ist eine grundlegende Fähigkeit für große Sprachmodelle (Large Language Models, LLMs), da solche komplexen Aufgaben erfordern, dass Modelle Ziele, Einschränkungen, Ressourcen und langfristige Konsequenzen in ausführbare und verifizierbare Lösungen koordinieren. Bestehende Planungs-Benchmarks behandeln Planungsdaten jedoch typischerweise als feste Sammlungen von Instanzen und nicht als kontrollierbare Generierungsziele. Dies schränkt die Szenarioabdeckung ein, koppelt die Schwierigkeit an oberflächliche Proxy-Größen anstelle struktureller Quellen und bietet nur begrenzte Unterstützung für skalierbare Generierung, automatische Verifikation oder planungsorientiertes Training. Wir stellen PlanningBench vor, ein Framework zur Generierung skalierbarer, diverser und verifizierbarer Planungsdaten für sowohl Evaluierung als auch Training. PlanningBench beginnt mit realen Planungsszenarien und abstrahiert praktische Arbeitsabläufe in eine strukturierte Taxonomie mit über 30 Aufgabentypen, Teilaufgaben, Einschränkungsfamilien und Schwierigkeitsfaktoren. Eine von dieser Taxonomie geleitete, einschränkungsgetriebene Synthesepipeline instanziiert in sich geschlossene Planungsprobleme mit adaptiver Schwierigkeitskontrolle, Qualitätsfilterung und instanzbezogenen Verifikationschecklisten. Dies verlagert die Konstruktion von Planungsdaten von festen Benchmark-Sammlungen hin zu kontrollierbarer Generierung, während die realistische Aufgabenverankerung erhalten bleibt. Wir verwenden PlanningBench zur Evaluierung von Open-Source- und Closed-Source-Frontier-LLMs und stellen fest, dass aktuelle Modelle unter gekoppelten Einschränkungen weiterhin Schwierigkeiten haben, vollständige Lösungen zu erstellen. Über die Evaluierung hinaus verbessert Reinforcement Learning auf verifizierten PlanningBench-Daten die Leistung auf unbekannten Planungs-Benchmarks und allgemeinen Instruktionsbefolgungsaufgaben. Weitere Analysen legen nahe, dass deterministische oder gut spezifizierte optimale Lösungen klarere Belohnungssignale und stabilere Trainingsdynamiken liefern. Insgesamt bietet PlanningBench eine kontrollierbare Quelle von Planungsdaten zur Diagnose und Verbesserung generalisierbarer Planungsfähigkeiten in LLMs.
Sicherheitsnachtraining kann die Schädlichkeit und Richtlinienkonformität großer Sprachmodelle (Large Language Models, LLMs) verbessern, aber es kann auch die allgemeine Nützlichkeit verringern – ein Phänomen, das oft als Alignment Tax bezeichnet wird. Wir untersuchen diesen Zielkonflikt durch die Linse des kontinuierlichen Lernens: Sequentielle Ausrichtungsstufen setzen das Modell verschobenen Datenverteilungen und Zielen aus, und ihre Gradienten können mit Richtungen interferieren, die zuvor erworbene allgemeine Fähigkeiten unterstützen. Diese Sichtweise behauptet nicht, dass jede Verschlechterung durch Alignment eine einzige Ursache hat; vielmehr bietet sie einen nützlichen Mechanismus erster Ordnung, um eine wichtige Quelle von Fähigkeitsrückgängen abzumildern. Wir schlagen Orthogonal Gradient Projection for Safety Alignment (OGPSA) vor, eine leichtgewichtige Aktualisierungsregel, die einen niedrigdimensionalen Referenzunterraum aus Gradienten auf einer kleinen Menge von Daten allgemeiner Fähigkeiten schätzt und aus jedem Sicherheitsgradienten die Komponente entfernt, die in diesem Unterraum liegt. Die resultierende Aktualisierung ist die steilste lokale Sicherheitsabstiegsrichtung unter Erhaltungsbedingungen erster Ordnung für die Referenzziele. OGPSA ist mit Standard-Post-Training-Pipelines kompatibel und vermeidet groß angelegtes Replay, führt jedoch eine periodische Berechnung von Referenzgradienten ein. In den Einstellungen Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) und sequenzielles SFT→DPO verbessert OGPSA den beobachteten Zielkonflikt zwischen Sicherheit und Nutzen im Vergleich zu Standard-Baselines. Unter der sequentiellen SFT→DPO-Pipeline steigt die durchschnittliche Leistungssteigerung von 33,98 % auf 42,74 % bei Qwen2.5-7B-Instruct und von 19,74 % auf 32,98 % bei Llama3.1-8B-Instruct. Wir haben unseren Code unter https://github.com/SunGL001/OGPSA als Open Source veröffentlicht.
Das moderne Training von Sprachmodellen ist zunehmend Instabilität, verschlechterten Läufen und verschwendeter Rechenleistung ausgesetzt, insbesondere unter aggressiven Lernraten-, Skalierungs- und Laufzeitstressbedingungen. Dieses Paper stellt den Learn-by-Wire Guard (LBW-Guard) vor, eine begrenzte autonome Trainingskontroll-Governance-Schicht, die oberhalb von AdamW arbeitet. Anstatt die Optimierer-Update-Regel zu ersetzen, beobachtet LBW-Guard die Trainingstelemetrie, interpretiert instabilitätsempfindliche Regime und wendet eine begrenzte Kontrolle auf die Optimiererausführung an, während die festgelegten Trainingsziele beibehalten werden. Wir evaluieren LBW-Guard in einer Qwen2.5-zentrierten Stress- und Robustheits-Testsuite mit WikiText-103, wobei Qwen2.5-7B als empirischer Ankerpunkt dient, sowie Modellgrößenvergleiche mit Qwen2.5-3B und Qwen2.5-14B, Lernraten-Stresstests, Gradient-Clipping-Baselines und einen No-LoRA TinyLlama-1B Full-Parameter-Sanity-Check. In der 7B-Referenzkonfiguration reduziert LBW-Guard die endgültige Perplexität von 13,21 auf 10,74, eine Verbesserung um 18,7 %, während die End-to-End-Zeit von 392,54 s auf 357,02 s reduziert wird, was einer 1,10-fachen Beschleunigung entspricht. Unter stärkerem Lernratenstress verschlechtert sich AdamW auf eine endgültige Perplexität von 1885,24 bei LR=3e-3 und 659,76 bei LR=1e-3, während LBW-Guard mit 11,57 bzw. 10,33 trainierbar bleibt. Gradient-Clipping-Baselines reproduzieren diesen Effekt nicht. Diese Ergebnisse stützen eine begrenzte Systemschlussfolgerung, dass stabilitätsempfindliches LLM-Training von einer Governance-Ebene oberhalb des Optimierers profitieren kann. LBW-Guard liefert Belege dafür, dass eine begrenzte Laufzeitkontrolle unter Stress produktive Rechenleistung erhalten kann, während sie sich von Optimiereraustausch und lokaler Gradientenunterdrückung unterscheidet.
Diffusion Large Language Models (dLLMs) haben sich als wettbewerbsfähige Alternative zu autoregressiven (AR) Modellen etabliert, da sie durch parallele blockweise Dekodierung eine bessere Hardwareauslastung und bidirektionalen Kontext bieten. Mit der zunehmenden Skalierung von dLLMs mittels Mixture-of-Experts (MoE)-Architekturen bleibt deren Einsatz auf ressourcenbeschränkten Geräten jedoch eine offene Herausforderung. Bestehende AR-basierte Methoden verursachen entweder prohibitive E/A-Overheads oder signifikante Rechenengpässe. In dieser Arbeit schlagen wir TIDE vor, ein neuartiges ressourceneffizientes Inferenzsystem, das die zeitliche Stabilität von Expertenaktivierungen während des Diffusionsprozesses innerhalb des Blocks nutzt. Konkret nutzen wir die zeitliche Stabilität von Expertenaktivierungen während des Diffusionsprozesses innerhalb des Blocks und führen eine intervallsbasierte Expertenaktualisierungsstrategie ein, die die Expertenplatzierung in E/A-bewusster Weise aktualisiert. Um optimale Leistung zu gewährleisten, formulieren wir die Inferenzplanung als mathematisches Optimierungsproblem und ermitteln das optimale Intervall, das den E/A-Verkehr und die CPU-Berechnung minimiert. Am wichtigsten ist, dass TIDE eine verlustfreie Optimierung darstellt, die kein Modelltraining erfordert und eine "Free Lunch"-Beschleunigung für die dLLM-Inferenz bietet. In einem Ein-GPU-CPU-System demonstrieren wir, dass TIDE Durchsatzverbesserungen von bis zu 1,4-fach bzw. 1,5-fach gegenüber bisherigen Basislinienmodellen auf LLaDA2.0-mini bzw. LLaDA2.0-flash erzielt.
Video Virtual Try-On (VVT) zielt darauf ab, ein Kleidungsstück auf einer Person in einem Video nahtlos durch ein neues zu ersetzen. Während bestehende Methoden bedeutende Fortschritte bei der Wahrung der zeitlichen Konsistenz erzielt haben, sind sie vorwiegend auf nicht-interaktive Szenarien beschränkt, in denen Modelle lediglich Kleidungsstücke präsentieren. Diese Einschränkung übersieht einen entscheidenden Aspekt der Kleidungspräsentation in der realen Welt: die aktive Mensch-Kleidungs-Interaktion. Um diese Lücke zu schließen, führen wir eine neue anspruchsvolle Aufgabe ein und formalisieren sie: Interactive Video Virtual Try-On (Interactive VVT), bei dem die Personen im Video aktiv mit ihrer Kleidung interagieren. Diese Aufgabe bringt besondere Herausforderungen mit sich, die über die bloße Texturerhaltung hinausgehen, darunter: (1) die Auflösung der semantischen Mehrdeutigkeit von Interaktionen aus Standard-Positionsinformationen und (2) das Erlernen komplexer Kleidungsdeformationen aus Videos, in denen interaktive Momente spärlich und kurz sind. Um diese Herausforderungen zu bewältigen, schlagen wir iTryOn vor, ein neuartiges Framework, das auf einem groß angelegten Video-Diffusion-Transformer basiert. iTryOn führt einen mehrstufigen Interaktions-Injektionsmechanismus ein, um die Erzeugung komplexer Dynamiken zu steuern. Auf räumlicher Ebene führen wir einen bekleidungsunabhängigen 3D-Hand-Prior ein, der eine feinkörnige Führung für präzisen Hand-Kleidungs-Kontakt bietet und so räumliche Mehrdeutigkeiten effektiv auflöst. Auf semantischer Ebene nutzt iTryOn globale Bildunterschriften für den Gesamtkontext und zeitgestempelte Aktionsbeschreibungen für lokalisierte Interaktionen, synchronisiert durch unsere neuartige aktionsbewusste rotatorische Positionscodierung (A-RoPE). Umfangreiche Experimente zeigen, dass iTryOn nicht nur auf herkömmlichen VVT-Benchmarks Spitzenleistungen erzielt, sondern auch in der neuen interaktiven Umgebung eine überragende Führungsposition einnimmt, was einen bedeutenden Schritt hin zu dynamischeren und steuerbareren virtuellen Anprobeerlebnissen darstellt.
Große visuelle Sprachmodelle (LVLMs) zeigen vielversprechende Ansätze für medizinische Anwendungen, doch ihre Unfähigkeit, Antworten zuverlässig auf visuelle Evidenz zu stützen, wirft ernste Bedenken hinsichtlich der klinischen Vertrauenswürdigkeit auf. Obwohl visuelle Attributionsmethoden häufig zur Erklärung von LVLM-Vorhersagen eingesetzt werden, ist weitgehend ungeprüft, ob diese Erklärungen tatsächlich die visuellen Belege widerspiegeln, die der Modellentscheidung zugrunde liegen – da Grundwahrheitsannotationen für die interne Modellbegründung in der Regel nicht verfügbar sind. Wir adressieren diese Frage für die Befundung von Röntgenaufnahmen des Brustkorbs (CXR), indem wir einen kausalen Bewertungsrahmen entwickeln, der nur solche CXR-VQA-Stichproben berücksichtigt, bei denen die von Experten annotierte Region durch kontrafaktische Bearbeitung als kausal für die Modellvorhersage verifiziert wird. Mit diesem Rahmen testen wir 11 Attributionsmethoden, sechs quelloffene LVLMs und zwei Ausgabemodi (direkte Antwort vs. schrittweise Begründung) und stellen fest, dass bestehende Attributionsmethoden oft nicht die von den LVLMs tatsächlich genutzte Evidenz identifizieren. Um dieses Defizit zu beheben, schlagen wir MedFocus vor, eine konzeptbasierte Attributionsmethode, die mittels unbalanciertem optimalen Transport klinisch bedeutsame anatomische Regionen lokalisiert und deren kausale Wirkung auf Modellausgaben durch gezielte Interventionen misst. MedFocus liefert räumliche, konzeptbezogene und tokenbezogene Attributionen und übertrifft vorherige Methoden deutlich – ein Schritt hin zu vertrauenswürdigerer Attribution für medizinische LVLMs. Unsere Daten und unser Code sind verfügbar unter https://github.com/gzxiong/medfocus/.
Text-to-Motion-Generierung, bei der textuelle Beschreibungen in menschliche Bewegungen übersetzt werden, steht vor der Herausforderung, dass Nutzer oft Schwierigkeiten haben, ihre beabsichtigten Bewegungen allein durch Text präzise auszudrücken. Um dieses Problem zu lösen, führt dieses Papier DrawMotion ein, ein effizientes diffusionsbasiertes Framework, das für Szenarien mit mehreren Bedingungen ausgelegt ist. DrawMotion generiert Bewegungen basierend auf sowohl einer herkömmlichen Textbedingung als auch einer neuartigen Freihandzeichnungsbedingung, die jeweils semantische und räumliche Kontrolle über die generierten Bewegungen bieten. Im Einzelnen gehen wir die feinkörnige Bewegungsgenerierung aus drei Perspektiven an: 1) Freihandzeichnungsbedingung. Um die beabsichtigten Bewegungen der Nutzer genau zu erfassen, ohne aufwändige Texteingaben zu erfordern, entwickeln wir einen Algorithmus zur automatischen Generierung von handgezeichneten Strichmännchen-Skizzen über verschiedene Datensatzformate hinweg; 2) Mehrfachbedingungsfusion. Wir schlagen ein Multi-Condition Module (MCM) vor, das in den Diffusionsprozess integriert wird und es dem Modell ermöglicht, alle möglichen Bedingungskombinationen zu nutzen, während die Rechenkomplexität im Vergleich zu herkömmlichen Ansätzen reduziert wird; und 3) trainingsfreie Steuerung. Bemerkenswerterweise stellt das MCM in DrawMotion sicher, dass seine Zwischenmerkmale in einem kontinuierlichen Raum liegen, sodass Klassifikator-Guidance-Gradienten die Merkmale aktualisieren können und somit die generierten Bewegungen mit den Nutzerabsichten in Einklang bringen, während die Wiedergabetreue erhalten bleibt. Quantitative Experimente und Nutzerstudien zeigen, dass der Freihandzeichnungsansatz die Nutzerzeit um etwa 46,7 % reduziert, wenn Bewegungen generiert werden, die mit ihrer Vorstellung übereinstimmen. Der Code, Demos und relevante Daten sind öffentlich verfügbar unter https://github.com/InvertedForest/DrawMotion.
Query-Clustering ordnet Anfragen in Gruppen, die gemeinsame latente Fähigkeitsanforderungen widerspiegeln, und ermöglicht so eine fähigkeitsbewusste Evaluierung von LLMs. Bestehende Clustering-Methoden, die hauptsächlich auf semantischen Taxonomien oder Einbettungen beruhen, erfassen solche latenten Fähigkeitsanforderungen aufgrund einer Fehlausrichtung zwischen oberflächlicher Semantik und tatsächlicher Modellleistung oft nicht. Wir stellen ECC vor, einen Algorithmus, der vorherige semantische Einbettungen mithilfe begrenzter posteriorer Modellvergleiche kalibriert, um die Lücke zwischen oberflächlicher Semantik und latenten Fähigkeitsanforderungen zu schließen. ECC charakterisiert jedes Cluster durch ein Fähigkeitsprofil, das mittels eines Bradley-Terry-Modells parametrisiert ist, und verwendet trainierbare Mischungsgewichte, um Anfragen mit gemischten Fähigkeitsanforderungen zu berücksichtigen. Dabei wird gemeinsam eine flexible, fähigkeitsbewusste Clustering-Struktur gelernt, die eine anfragespezifische Inferenz von LLM-Fähigkeiten unterstützt. Umfangreiche quantitative und qualitative Evaluierungen zeigen, dass ECC die Qualität des LLM-Fähigkeitsrankings signifikant verbessert und dabei menschlich annotierte sowie einbettungsbasierte Baselines im Durchschnitt um 17,64 bzw. 18,02 Prozentpunkte übertrifft. Zudem erweist es sich als effektiv bei nachgelagerten Aufgaben wie dem Query-Routing.
Die Ensemble-Diskrepanz wird häufig als Stellvertreter für epistemische Unsicherheit in der medizinischen Bildsegmentierung verwendet. In der Praxis bilden viele Studien Ensembles mittels K-facher Kreuzvalidierung (CV), bezeichnen sie jedoch als „Deep Ensembles“ (DE). Da CV-Mitglieder auf unterschiedlichen Datenuntergruppen trainiert werden, vermischt ihre Diskrepanz saatbedingte Variabilität mit Datenexpositionseffekten, was die Interpretation der Unsicherheit verändern kann. Wir prüfen aktuelle Studien zur Segmentierungsunsicherheit und stellen fest, dass Nichtübereinstimmungen zwischen Terminologie und Implementierung häufig vorkommen. Anschließend vergleichen wir ein standardmäßiges 5-fach-CV-Ensemble mit einem 5-köpfigen DE (fester Trainingssatz, unterschiedliche Zufalls-Seeds) unter ansonsten identischen Konfigurationen an drei Datensätzen mit mehreren Bewertern über drei Modalitäten hinweg. Wir bewerten die Unsicherheit hinsichtlich Kalibrierung, Fehlererkennung, Ambiguitätsmodellierung und Robustheit unter Verteilungsverschiebung. DE erreichen die gleiche Segmentierungsgenauigkeit, verbessern jedoch Kalibrierung und Fehlererkennung, während CV-Ensembles in den untersuchten Datensätzen manchmal stärker mit der Inter-Rater-Variabilität korrelieren. Daher sollte die Ensemble-Konstruktion je nach Forschungsfrage gewählt werden: DE für zuverlässigkeitsorientierte Anwendungen (z. B. selektive Überweisung/Fehlererkennung) und CV-Ensembles als Stellvertreter für Ambiguität. Wir bieten eine leichte Modifikation von nnU-Net, die DE-Training innerhalb der Standard-Pipeline ermöglicht.
In den letzten Jahren hat sich Muon als dominierende Methode zum Training großer Sprachmodelle und allgemein von Transformatoren etabliert. Der wesentliche Unterschied zu herkömmlichen Gradientenabstiegsverfahren besteht darin, die übliche Updatematrix M=UΣV^⊤ durch ihren Polarfaktor UV^⊤ zu ersetzen. In dieser Arbeit betrachten wir eine Klasse von Muon-ähnlichen Updates, bei denen wir die Updatematrix M durch UΣ^p V^⊤ für einen Parameter p ersetzen. Wir bezeichnen dies als eine Operation der „spektralen Formgebung“ und entwickeln eine Theorie zur Wahl von p, die von (a) der lokalen Krümmung der Verlustfunktion, (b) Rauschen durch stochastische Gradienten und Label-Rauschen sowie (c) dem Trainingsstadium abhängt. Unsere Theorie und Experimente offenbaren ein bisher übersehenes Verhalten: Ein positives p hilft zu Beginn, indem es krümmungsstarke Richtungen betont und die Signalkontraktion beschleunigt, während ein schwach negatives p später hilft, indem es die Update-Stärke auf krümmungsschwache Richtungen umverteilt, die noch nützliche Trainingssignale enthalten. Ausgehend von dieser Erkenntnis schlagen wir DynMuon vor, eine effiziente dynamische Methode zur spektralen Formgebung, die p im Verlauf des Trainings von positiv zu schwach negativ plant. Umfangreiche Experimente über verschiedene Modellgrößen, Architekturen und Trainingsumgebungen zeigen, dass DynMuon konsistent niedrigere Validierungsverluste als Muon erreicht und dabei 10,6–26,5 % weniger Schritte benötigt, um den gleichen Zielverlust zu erzielen.
Subwort-Tokenisierung ist ein wesentlicher Bestandteil moderner großer Sprachmodelle (Large Language Models, LLMs), dennoch sind ihre spezifischen Beiträge zur Trainingseffizienz und Modellleistung nach wie vor kaum verstanden. In dieser Arbeit entkoppeln wir die Effekte der Subwort-Tokenisierung, indem wir sie innerhalb einer kontrollierten Byte-Ebene-Vortrainingspipeline isolieren. Wir formulieren und testen Hypothesen in verschiedenen Dimensionen, darunter Probendurchsatz, Vokabularskalierung und der linguistische Prior von Subwortgrenzen. Durch die Simulation dieser Effekte in einer Byte-Ebene-Umgebung verbessern wir unser Verständnis dafür, warum Subwortmodelle reine Byte-Modelle übertreffen, und gewinnen Erkenntnisse zur Verbesserung des Vortrainings zukünftiger Byte-Ebene- und Subwortmodelle. Insbesondere unterstreichen unsere Experimente die entscheidende Rolle eines erhöhten Trainingsdurchsatzes und die Integration von Subwortgrenzen entweder als explizite Priors oder als induktive Verzerrungen.