Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Weltmodelle für interaktive Videogenerierung haben sich bislang weitgehend auf Einzelagenten-Szenarien konzentriert, in denen zukünftige Beobachtungen aus einem einzigen Steuersignal erzeugt werden. Viele generierte Umgebungen erfordern jedoch Multi-Agenten-Interaktion: Mehrere Spieler, Roboter oder verkörperte Agenten handeln gleichzeitig in einem gemeinsamen Raum. Die Skalierung von Weltmodellen auf solche Szenarien erfordert ein prinzipienbasiertes Multi-Agenten-Design: Agenten sollten unabhängig steuerbar, permutationssymmetrisch sein und eine effiziente Inferenz unterstützen, während Konsistenz über Zeit und Perspektiven hinweg gewahrt bleibt. In diesem Beitrag stellen wir unser generatives Multi-Agenten-Weltmodell für interaktive Simulation vor. Es führt die Simplex-Rotations-Agenten-Kodierung ein, eine parameterfreie Erweiterung der 3D-RoPE, die Agenten als Eckpunkte eines regulären Simplex im Rotationswinkelraum darstellt. Dies verleiht jedem Agenten eine eindeutige Phase, macht aber alle Agenten permutationsäquivalent und ermöglicht eine skalierbare Agentenidentität ohne erlernte Slot-Identitäten oder eine feste Agentenreihenfolge. Um eine dichte All-to-All-Aufmerksamkeit zwischen Agenten zu vermeiden, schlagen wir zudem die Sparse Hub Attention vor, bei der lernbare Hub-Token die Token-Interaktion zwischen Agenten vermitteln, wodurch die agentenübergreifenden Aufmerksamkeitskosten von quadratisch auf linear in der Anzahl der Agenten reduziert werden. Für Echtzeit-Rollouts destillieren wir einen Vollkontext-Diffusionslehrer in einen kausalen Schüler, der zeitliche Blöcke sequentiell mit KV-Caching erzeugt und so eine aktionsreaktive Generierung mit 24 FPS ermöglicht. Experimente in Mehrspieler-Virtual-Umgebungen zeigen, dass unser Modell die Videotreue, die Aktionssteuerbarkeit und die Inter-Agenten-Konsistenz im Vergleich zu Slot-basierten und Dichte-Aufmerksamkeits-Baselines verbessert und dabei ohne zusätzliches Training von zwei auf vier Spieler verallgemeinert.
Proaktive Empfehlungssysteme (PRS) zielen darauf ab, die Benutzerpräferenzen in Richtung Zielobjekte zu lenken, indem sie Pfade aus Zwischenempfehlungen generieren. Reinforcement Learning (RL) bietet einen grundlegenden Rahmen für die Optimierung solcher sequenziellen Entscheidungsaufgaben, da Pfadbelohnungen sowohl die kurzfristige Akzeptanz als auch die langfristige Lenkungseffektivität natürlich erfassen können. Die naive Anwendung von Policy-Gradienten auf PRS führt jedoch zu einer unzureichenden Gradientenschätzung. Wir identifizieren zwei Mängel: (1) Pfad-Ebene-Belohnungen zerlegen sich in Schritt-Ebene-Belohnungen mit positivem Mittelwert, was einen längenabhängigen Bias erzeugt, der dazu führt, dass Gradienten die Pfadverlängerung gegenüber sinnvoller Exploration bevorzugen; (2) die Gewichtung jedes Schrittes mit der gesamten Pfad-Ebene-Belohnung ignoriert die Zerlegungsstruktur, was zu einer hohen Gradientenvarianz führt. Um diese beiden Mängel zu beheben, schlagen wir einen effektiven RL-Rahmen namens ProRL mit zwei neuartigen Mechanismen für proaktive Empfehlungen vor. Erstens subtrahiert die schrittweise Belohnungszentrierung (Stepwise Reward Centering) erwartete Belohnungen, um den längenabhängigen Bias zu neutralisieren, und stellt sicher, dass die Pfadverlängerung kein erwartetes Gradientensignal liefert. Zweitens nutzt die positionsspezifische Advantage-Schätzung (Position-Specific Advantage Estimation) die Belohnungszerlegungsstruktur, um schrittabhängige Baselines zu berechnen, wodurch die Gradientenvarianz reduziert wird. Zusammen ergeben diese Mechanismen Policy-Gradienten, die präzise auf die Pfadqualität abzielen. Unsere Experimente mit drei realen Datensätzen zeigen, dass ProRL deutlich besser abschneidet als die aktuellsten PRS. Unser Code ist verfügbar unter https://github.com/hongruhou89/ProRL.
Vision-Language-Modelle mit erweitertem Reasoning lösen komplexe Probleme erfolgreich, aber viele reale Probleme erfordern externe Werkzeuge, da internes Reasoning allein diese oft nicht lösen kann. Agentisches Reasoning verschränkt daher zwei Verhaltensweisen mit einer strukturellen Asymmetrie: Denken (der autarke Standardmodus) und Werkzeuggebrauch (eine hochvarianzbehaftete Hilfsaktion). Wir bezeichnen diese Asymmetrie als Thinking-Acting-Gap. Bei standardmäßigen RL-Rezepten wie GRPO zeigt sich die Lücke während des Trainings durch zwei diagnostische Symptome: Werkzeuggebrauch wird nur in etwa 30% der Rollouts versucht, und wenn versucht, sind die Werkzeug nutzenden Rollouts innerhalb einer Gruppe bei etwa 40% der Fragen komplett falsch, was das Lernsignal an den Werkzeugaufrufen unterdrückt, die es benötigten. Wir schlagen AXPO (Agent eXplorative Policy Optimization) vor: Für jede All-wrong-Untergruppe von Werkzeug nutzenden Rollouts fixiert AXPO das Denk-Präfix und sampelt den Werkzeugaufruf sowie seine Fortsetzung neu, gepaart mit unsicherheitsbasierter Präfixauswahl. Über neun multimodale Benchmarks und drei Skalen von Qwen3-VL-Thinking hinweg übertrifft SFT+AXPO SFT+GRPO im Durchschnitt (im Durchschnitt +1,8 Prozentpunkte bei Pass@1 und +1,8 Prozentpunkte bei Pass@4 bei 8B) und 8B mit SFT+AXPO übertrifft das 32B Basis-Modell bei Pass@4 mit viermal weniger Parametern.
Aktuelle Vision-Language-Modelle (VLMs) setzen typischerweise separate Bildencoder und Sprachdecoder mittels mehrstufiger Abstimmung zusammen – ein modulares Framework, das zwangsläufig pixelgenaue Signale über Einzelbilder hinweg fragmentiert und frühe Pixel-Wort-Interaktionen zerstreut. Parallel dazu bleiben native VLMs trotz beeindruckender Leistung bei Einzelbildern in den Bereichen Multi-Bild-, Videoverständnis und räumliche Intelligenz weitgehend unerforscht. Daher stellen wir NEO-ov vor, ein nativens Foundation-Modell, das bildübergreifende und Pixel-Wort-Korrespondenzen Ende-zu-Ende lernt – ohne externe Encoder, Hilfsadapter oder nachträgliche Fusion. Durch die vollständige Beseitigung von Modulgrenzen ermöglicht NEO-ov eine feinkörnige und einheitliche raumzeitliche Modellierung, die nativ im Modell entsteht. Bemerkenswerterweise verringert NEO-ov die Lücke zu modularen Gegenstücken erheblich, während es sich durch feinkörnige visuelle Wahrnehmung auszeichnet – was bestätigt, dass native "One-Vision"-Architekturen nicht nur machbar, sondern auch im großen Maßstab wettbewerbsfähig sind. Über die empirische Leistung hinaus enthüllen wir systematische Architekturanalysen und detaillierte Trainingsrezepte, um nachfolgendes nativ multimodales Modellieren zu erleichtern. Unser Code und unsere Modelle sind öffentlich verfügbar unter: https://github.com/EvolvingLMMs-Lab/NEO.
Suche wurde als effektive Methode zur Selbstverbesserung von Sprachmodellen und agentischen Systemen vorgeschlagen, sowohl für die Stichprobengenerierung nach dem Training als auch für die Inferenz. Allerdings weisen weit verbreitete Methoden wie Best-of-N-Stichprobenziehung und Baumsuche zwei grundlegende Einschränkungen auf: Sie werden von spärlichen Verifikationssignalen geleitet und konstruieren Kandidaten hauptsächlich durch autoregressive Expansion, was die Erkundung auf Bereiche mit erheblicher Modell-Wahrscheinlichkeitsmasse beschränkt. Um diese Probleme zu adressieren, schlagen wir die Bidirektionale Evolutionäre Suche (BES) vor, ein Suchframework, das die Vorwärts-Evolution von Kandidaten mit der Rückwärts-Zerlegung von Zielen koppelt. In der Vorwärtssuche ergänzt BES die Standardexpansion um Evolutionsoperatoren, die partielle Trajektorien rekombinieren, um Kandidaten zu generieren, die mit einem einzelnen Modelldurchlauf schwer zu erhalten sind. In der Rückwärtssuche zerlegt BES die ursprüngliche Aufgabe rekursiv in überprüfbare Unterziele und liefert dichtes Zwischenfeedback, das die Vorwärtssuche leitet. Wir liefern eine theoretische Motivation, die zeigt, dass Kandidaten, die durch reine Expansionssuche erzeugt werden, auf eine schmale Entropie-Hülle beschränkt sind, während Evolutionsoperatoren diese verlassen können, und dass die Rückwärtssuche die Anzahl der benötigten Stichproben zur Findung einer korrekten Antwort exponentiell reduzieren kann. Experimente zeigen, dass BES bei anspruchsvollen Aufgaben nach dem Training, bei denen gängige Algorithmen für das Post-Training keine Verbesserung erzielen, konsistente Verbesserungen ermöglicht, und bei drei offenen Problemlösungs-Benchmarks zur Inferenzzeit übertrifft BES bestehende Open-Source-Frameworks sowohl in der durchschnittlichen als auch in der besten Leistung. Code und trainierte Modelle sind verfügbar unter https://github.com/Embodied-Minds-Lab/BES.
Die Grenze der Mathematik wird durch Probleme definiert, deren Lösungen noch nicht bekannt sind, doch bleibt unklar, ob Sprachmodelle ohne menschliches Eingreifen sinnvoll mit solchen Problemen umgehen können. Ein wesentliches Hindernis ist das Fehlen großer mathematischer Datensätze auf Forschungsebene. Zu diesem Zweck stellen wir ResearchMath-14k vor, eine Sammlung von 14.056 Problemen, die über eine Multi-Agenten-Pipeline aus akademischen Quellen zusammengestellt wurden – der größten Sammlung mathematischer Probleme auf Forschungsebene, die es derzeit gibt. Wir generieren ferner ResearchMath-Reasoning mit 220.000 Lehrertrajektorien aus zwei Open-Weight-Modellen, wobei wir wiederkehrendes Vermeidungsverhalten wie Nicht-Versuche und erfundene Referenzen beobachten. Interessanterweise erzeugen neuere Generationen bei acht Open-Weight-Modellen 5,6-mal mehr Referenzen und 5,0-mal mehr gefälschte Referenzen pro Trajektorie. Nach agentischem Filtern von ResearchMath-Reasoning verbessern sich Qwen3-Modelle mit 4B bis 30B Parametern im Durchschnitt um 9,2 Punkte gegenüber den Basismodellen. Dies zeigt, dass gefilterte Versuche zu offenen Problemen auch ohne vollständig korrekte Reasoning-Spuren nützliche Überwachung liefern können. Wir machen ResearchMath-14k für zukünftige Arbeiten zum mathematischen Denken auf Forschungsebene öffentlich zugänglich.
Das verstärkende Lernen hat sich zu einem zentralen Paradigma für die Verbesserung des logischen Denkens in großen Sprachmodellen entwickelt, doch die meisten bestehenden Methoden sind nach wie vor auf stärkere Lehrermodelle oder aufwändig kuratierte schwierige Datensätze angewiesen, was die skalierbare Leistungssteigerung begrenzt. In diesem Beitrag stellen wir DenoiseRL vor, ein Framework für verstärkendes Lernen, das externe Überwachung durch eine wiederherstellungsorientierte Optimierung von Fehlern aus schwachen Modellen ersetzt. Anstatt auf stärkere Überwachung oder sorgfältig aufbereitete Daten zu setzen, lernt DenoiseRL direkt aus fehlerhaften Denkspuren, indem es diese in Verbesserungsmöglichkeiten umwandelt, wodurch das Training skalierbarer und weniger abhängig von externen Ressourcen wird. Dies erzeugt ein reichhaltigeres und vielfältigeres Lernsignal, das die Erkundungseffizienz aus unvollkommenem Modellverhalten verbessert. Infolgedessen steigert DenoiseRL die Denkleistung und die gesamte Trainingseffizienz, während der Bedarf an teurer Datenkuratierung oder stärkeren Lehrermodellen reduziert wird. Empirisch übertrifft DenoiseRL durchgängig starke On-Policy-RL-Baselines in wettbewerbsfähigen mathematischen und allgemeinen Denkbenchmarks und fördert mit zunehmendem Trainingsschwierigkeitsgrad ein stärkeres selbstkorrigierendes Verhalten, was einen effektiven und skalierbaren alternativen Weg zur Verbesserung des logischen Denkens in großen Sprachmodellen aufzeigt.
Verkörperte Vision-Language-Modelle (VLMs) haben beeindruckende Leistungen und Generalisierung in der Robotik gezeigt, insbesondere im Rahmen von Vision-Language-Action-Systemen. Es besteht jedoch weiterhin eine erhebliche Kluft zwischen der hochrangigen semantischen Ausrichtung standardmäßiger textgeführter Vortrainingsparadigmen und den für die Ausführung in verkörperten Umgebungen entscheidenden niedrigstufigen räumlichen und physikalischen Kenntnissen. In dieser Arbeit stellen wir GEM vor, ein generativ überwachtes verkörpertes Vision-Language-Modell, das diese Kluft überbrücken soll. Wir schlagen vor, eine Tiefenkarten-Generierungsaufgabe direkt in die VLM-Vortrainingsphase zu integrieren. Durch das gemeinsame Training dieses generativen Ziels mit dem Hauptmodell beobachten wir erhebliche Verbesserungen der verkörperten Intelligenz, die sowohl das semantische Verständnis als auch die physischen Operationsfähigkeiten deutlich steigern. Zur Unterstützung dieses Paradigmas kuratieren und veröffentlichen wir GEM-4M, einen umfassenden groß angelegten Datensatz, der eine Mischung aus Verankerungs-, Argumentations- und Planungsdaten mit hochwertiger Tiefenüberwachung kombiniert. Umfangreiche Experimente zeigen, dass GEM in verschiedenen verkörperten Benchmarks Spitzenergebnisse erzielt. Darüber hinaus zeigt unser eingesetztes Aktionsmodell GEM-VLA sowohl in Simulationsumgebungen als auch in realen Evaluationen deutlich überlegene Aufgabenausführungsfähigkeiten. Code, Modelle und Datensätze sind verfügbar unter https://zhaorw02.github.io/GEM/.
Gedächtnis ist essenziell, um große Sprachmodelle zu langfristigen Schlussfolgerungen zu befähigen, jedoch bleiben bestehende Gedächtnissysteme unzuverlässig und schwer zu debuggen. Die Rückverfolgung der dynamischen Entwicklung des Gedächtnisses ist entscheidend, um zu verstehen, wie Informationen im Laufe der Zeit synthetisiert, verbreitet oder verfälscht werden. In dieser Arbeit untersuchen wir das neue Problem der Fehlerverfolgung und -zuordnung in LLM-Gedächtnissystemen. Wir schlagen ein neuartiges Framework vor, das Gedächtnispipelines in ausführbare Gedächtnisevolutionsgraphen umwandelt und so eine feinkörnige Verfolgung des operationellen Informationsflusses ermöglicht. Anschließend konstruieren wir MemTraceBench, einen Benchmark, der aus repräsentativen Gedächtnissystemen wie Long-Context, RAG, Mem0 und EverMemOS zusammengestellt wurde, um Gedächtnisfehlermodi systematisch zu untersuchen. Darüber hinaus führen wir eine automatische Zuweisungsmethode ein, die iterativ Operationsuntergraphen verfolgt, um die Ursache eines jeden Fehlerfalls zu identifizieren. Unsere Analyse zeigt, dass Gedächtnisfehler systematisch sind und von operationellen Problemen wie Informationsverlust und Abruf-Fehlausrichtung herrühren. Entscheidend ist, dass wir diese feinkörnigen Zuweisungssignale nutzen, um nachgelagerte Prompt-Optimierungen zu steuern, wodurch ein geschlossenes System entsteht, das Fehler automatisch korrigiert und die Endaufgabenleistung um bis zu 7,62 % steigert. Der Code wird unter https://github.com/zjunlp/MemTrace veröffentlicht.
Computer-Use-Agenten (CUAs) haben in jüngster Zeit erhebliche Fortschritte erzielt, doch die Bereitstellung eines separaten großen Experten für jede Softwaredomäne bleibt teuer. Kleine Open-Source-Computer-Use-Agenten stellen praktischere Spezialisierungsziele dar, sind jedoch substanziell schwächer und weisen uneinheitliche domänenspezifische Fehler auf. Ein naheliegender Lösungsansatz besteht in der Synthese großer Mengen an Trainingsdaten für die Zieldomäne, doch zeigt sich, dass dieser naive Ansatz nur marginale Verbesserungen bringt. Darauf aufbauend führen wir LearnWeak ein, ein annotationsfreies Spezialisierungsframework für kleine Computer-Use-Agenten, das einen stärkeren Referenzagenten nutzt, um die Schwächen des Schülers in der Zieldomäne zu identifizieren, gezielte Aufgaben zu synthetisieren und automatisch Überwachung zu konstruieren. LearnWeak führt zudem ein fehlerbewusstes Spezialisierungsziel ein, das Planungs- und Ausführungsfehler voneinander trennt und somit verhaltenspräzisere Aktualisierungen ermöglicht als eine breite, einheitliche Überwachung. Auf OSWorld erzielt LearnWeak durchschnittliche Steigerungen von 11,6 bzw. 11,1 Prozentpunkten gegenüber EvoCUA-8B bzw. OpenCUA-7B über acht Domänen hinweg. Wir bestätigen zudem, dass unser schülerbewusster Ansatz zur Datengenerierung und zum Training bestehende Baselines der autonomen Trajektoriengenerierung und des Trainings übertrifft. Unsere Arbeit unterstreicht die Bedeutung der Schülerbewusstheit sowohl bei der Datensynthese als auch beim Agententraining und weist einen prinzipientreueren und effizienteren Weg zur Spezialisierung kleiner Computer-Use-Agenten in verschiedenen Domänen.
Autonome Forschungsagenten erstellen wettbewerbsfähige Lösungen und professionell wirkende Manuskripte, doch ihre Ergebnisse weisen Überprüfbarkeitsfehler auf, die durch eine oberflächliche Bewertung nicht erkennbar sind: erfundene Zitate, nicht reproduzierbare Ergebnisse sowie Methodenbeschreibungen, die von der Implementierung abweichen. Wir begegnen diesem Problem mit drei Beiträgen. Erstens: Chain-of-Evidence (CoE), ein Rahmenwerk zur Überprüfbarkeit, das verlangt, dass jede Behauptung auf ihre Beweisquelle zurückführbar ist. Zweitens: ScientistOne, ein durchgängig autonomes Forschungssystem, das Evidenzketten konstruktionsbedingt während der Literaturrecherche, der Lösungsfindung und des Verfassens von Arbeiten aufrechterhält. Drittens: CoE Audit, eine nachträgliche Prüfung, deren vier Integritätschecks – Ergebnisverifikation, Spezifikationsverstoß, Referenzverifikation und Methoden-Code-Abgleich – einheitlich für alle Systeme angewendet werden. Über 75 Arbeiten hinweg, die fünf Systeme und fünf Pionier-Forschungsaufgaben abdecken, weist jede Baseline mindestens eine systematische Fehlerart auf: Die Rate halluzinierter Referenzen erreicht 21 %, die Ergebnisverifikation besteht in nur 42 % der Arbeiten, und der Methoden-Code-Abgleich liegt zwischen 20 % und 80 %. ScientistOne erzielt null halluzinierte Referenzen (0/337), eine perfekte Ergebnisverifikation (12/12) und den höchsten Methoden-Code-Abgleich (14/15) und erreicht oder übertrifft dabei die Leistung menschlicher Experten in allen fünf Aufgaben. ScientistOne verallgemeinert zudem auf sechs weitere Aufgaben aus den Bereichen medizinische Bildgebung, feinkörnige Erkennung, 3D-Wahrnehmung und Sprachmodellierung und erzielt den Spitzenwert bei Parameter Golf sowie Goldmedaillen bei MLE-Bench-Aufgaben, bei denen Baselines vollständig versagen.
KI-Forschungsagenten können nun Forschungsideen generieren, Experimente entwerfen, Code ausführen und Manuskripte verfassen, was die Möglichkeit einer groß angelegten KI-gestützten wissenschaftlichen Entdeckung eröffnet. Viele aktuelle Agenten-Frameworks fördern explizit die Generierung neuartiger und wirkungsvoller Ideen. Dennoch bleibt unklar, ob KI-gestützte Ideenfindung die wissenschaftliche Erkundung erweitert oder sich hauptsächlich auf bestehende Arbeiten konzentriert. Wir untersuchen KI-Forschungsagenten als Systeme der wissenschaftlichen Suche. Unter Verwendung von vier KI-Forschungsagenten-Frameworks und sechs großen Sprachmodellen generieren wir 37.802 wissenschaftliche Ideen aus gemeinsamer Ausgangsliteratur, die durch Zitierungsnetzwerke definierte Forschungsbereiche in KI und maschinellem Lernen abdeckt. Anschließend vergleichen wir die resultierenden KI-Ideen mit von Menschen verfassten Arbeiten aus denselben Forschungsbereichen, mit nachfolgender menschlicher Forschung, die aus derselben Ausgangsliteratur hervorgeht, sowie mit der Ausgangsliteratur selbst. Über alle Experimente hinweg zeigen sich vier konsistente Muster. Erstens sind KI-generierte Ideen deutlich konzentrierter als von Menschen verfasste Arbeiten aus denselben Forschungsbereichen. Zweitens bleiben KI-generierte Ideen ihrer Ausgangsliteratur wesentlich näher als spätere menschliche Folgearbeiten. Drittens erhalten Arbeiten, die KI-generierten Ideen am ähnlichsten sind, tendenziell weniger nachfolgende Zitationen. Viertens, wenn KI-generierte Ideen von früheren Arbeiten abweichen, entstehen die Unterschiede hauptsächlich durch die Neukombination bestehender technischer Methoden und nicht durch die Einführung grundlegend neuer Forschungsfragen. Insgesamt scheinen aktuelle KI-Forschungsagenten besser für lokale Ausarbeitungen geeignet zu sein als für die Erweiterung der wissenschaftlichen Erkundung.
Bestehende speichergestützte LLM-Agenten behandeln Gedächtnis oft als statisches Repository mit vordefinierten Repräsentationen und festen Abrufpipelines, was in dynamischen agentischen Umgebungen, in denen Feedback, Aufgabenvarianz und heterogene Signale kontinuierlich neu formen, was gespeichert und wie es verbunden werden sollte, zerbrechlich ist. Um dem entgegenzuwirken, schlagen wir FluxMem vor, ein verbindungsevolvierendes Gedächtnisframework, das Gedächtnis als heterogenen Graphen modelliert und seine Topologie schrittweise durch drei Stufen verfeinert: anfängliche Verbindungsbildung, feedbackgesteuerte Verfeinerung und langfristige Konsolidierung. Während der Ausführung repariert FluxMem fehlende Verbindungen, beseitigt Interferenzen, gleicht die Abstraktionsgranularität an und destilliert wiederkehrende erfolgreiche Trajektorien in wiederverwendbare prozedurale Schaltkreise, geleitet von einer Metrik für Gedächtnisgeneralisierbarkeit und evolutionäre Reife. Über drei grundlegend unterschiedliche Benchmarks, darunter LoCoMo, Mind2Web und GAIA, erzielt FluxMem konsistente State-of-the-Art-Leistung und demonstriert starke Anpassungs- und Generalisierungsfähigkeiten in komplexen agentischen Umgebungen. Der Code wird unter https://github.com/zjunlp/LightMem als Open Source veröffentlicht.
Kausale Transformer-Sprachmodelle leiden unter streng sequentiellem Decoding und quadratischen Aufmerksamkeitskosten pro Schritt. Während lineare zeitkausale Modelle und diskrete Diffusionsmodelle jeweils diese Schwächen adressieren, bleibt ihre Integration von Natur aus inkonsistent: Diffusion erfordert bidirektionale Aufmerksamkeit, während kausale Modelle unidirektional sind. Um diese Architekturen zu vereinheitlichen, schlagen wir B^3D-RWKV vor, eine Diffusions-RWKV-Variante, die die O(L)-Inferenzeffizienz des Modells mit paralleler, bidirektionaler diskreter Diffusion durch eine Triplet-Block-Layout-Methode integriert. B^3D-RWKV-7.2B erreicht vergleichbare Genauigkeit auf einer 8-Aufgaben-Suite im Vergleich zu bestehenden Modellen und übertrifft Basislinien im Decoding-Durchsatz mit einer durchschnittlichen 1,6-fachen Beschleunigung deutlich.
Agent-Fähigkeiten bieten eine leichte Methode, um LLM-Agenten an spezialisierte Domänen anzupassen, indem wiederverwendbares prozedurales Wissen in strukturierten Dateien gespeichert wird. Ob von Drittanbietern heruntergeladen oder selbst erstellt, sind diese Fähigkeiten jedoch oft unzuverlässig, unvollständig oder veraltet. Bestehende Methoden zur Evolution von Fähigkeiten beheben diese Mängel häufig durch heuristische Reflexionen ohne explizite Optimierungsformulierung. In dieser Arbeit schlagen wir SkillGrad vor, ein vom Gradientenabstieg inspiriertes Framework zur Optimierung von Agent-Fähigkeiten. SkillGrad behandelt das Fähigkeitspaket als strukturierten Parameter, der im Sinne eines Gradientenabstiegs optimiert wird: Aufgabenausführungen liefern Verlustnachweise auf Trajektorienebene, automatische Diagnosen liefern daraufhin textbasierte Gradienten, die die Korrekturrichtungen angeben. Zur Stabilisierung der Optimierung über Iterationen hinweg akkumuliert ein Momentum-Agent wiederkehrende Diagnosemuster in einem persistenten Speicher-Overlay. Schließlich führt ein LLM-basierter Patcher die Parameteraktualisierung durch, indem er schichtbewusste Änderungen auf das Fähigkeitspaket anwendet. Evaluiert auf SpreadsheetBench Verified und WikiTableQuestions übertrifft SkillGrad konsequent trainingsbasierte Baseline-Verfahren zur Fähigkeitsevolution über zwei zugrunde liegende LLMs hinweg und verbessert die stärkste trainingsbasierte Baseline im Durchschnitt um 6,7 Prozentpunkte. Ablationen zeigen zudem, dass sowohl Momentum als auch kontrastive Diagnose zur endgültigen Fähigkeitsqualität beitragen.
Diffusionstransformer erzielen eine hohe Videoerzeugungsqualität, jedoch schränken die quadratischen Kosten der vollständigen Aufmerksamkeit (Full Attention) die Effizienz ein. Wir stellen OSP-Next vor, ein effizientes Text-zu-Video-Generierungsmodell, das sparse Attention, Parallelismus, Quantisierung und Reinforcement Learning integriert. OSP-Next verwendet eine hybride Full-Sparse-Attention-Architektur, bei der die sparse Komponente mittels Skiparse-2D-Attention implementiert wird. Dieser Mechanismus mit festem Muster wendet tokenweise und gruppenweise sparse Attention entlang der räumlichen Dimensionen an, nutzt dabei die Lokalität und bewahrt die native Kompatibilität mit FlashAttention-Kernels. Basierend auf der lokalen Äquivalenz der Umordnung in der Skiparse-2D-Attention schlagen wir ferner Sparse Sequence Parallelism (SSP) vor, das Teilsequenzen über Ränge hinweg partitioniert und durch eine einzige All-to-All-Kommunikation zwischen den sparsen Mustern umschaltet. Im Vergleich zu Ulysses Sequence Parallelism (SP) bietet SSP eine native parallele Strategie für sparse Attention und reduziert das Kommunikationsvolumen um 75 %. OSP-Next integriert zudem die HiF8-Quantisierung, um ein stabiles gemeinsames Training mit 8-Bit-Quantisierung und sparsen Feintuning zu ermöglichen, und wendet ein Mix-GRPO-Nachtraining an, um die Leistung des sparsen Modells zu verbessern. Experimente zeigen, dass OSP-Next eine VBench-Gesamtpunktzahl von 83,73 % erreicht und damit die Wan2.1-Baseline übertrifft. Unter den Einstellungen 5-Sekunden-720P und 5-Sekunden-768P erzielt OSP-Next auf NVIDIA H200 GPUs eine bis zu 1,64-fache Ein-GPU-Beschleunigung und eine über 1,52-fache Acht-GPU-Beschleunigung. Darüber hinaus erreicht OSP-Next-HiF8 bei einem Rückgang der VBench-Gesamtpunktzahl von nur 0,4 % unter den beiden Einstellungen auf einer einzelnen Ascend 950PR eine 1,69-fache bzw. 2,27-fache Beschleunigung, was die Effizienz und Leistungsfähigkeit von OSP-Next über Hardwareplattformen hinweg demonstriert.
Trotz der rasanten Fortschritte multimodaler großer Sprachmodelle bei der Entwicklung von Agenten für grafische Benutzeroberflächen (GUI) wird deren Fähigkeit zur Bewältigung realer Aufgaben grundlegend durch einen Mangel an Weltwissen über GUI-Operationen eingeschränkt. Bestehende Lösungen stützen sich typischerweise auf teures Multi-Agenten-Scaffolding oder konventionelle Nachtrainingsparadigmen wie überwachtes Feintuning (SFT) und Verstärkungslernen (RL). Nachtraining ermöglicht es Agenten jedoch nur, Weltwissen implizit durch Handlungsannotationen oder Belohnungssignale aufzunehmen, was zu ineffizientem Auswendiglernen von Trajektorien anstatt zu echtem Verständnis führt. Daher ist ein Ansatz, der explizites Lernen dieses Wissens ermöglicht, unerlässlich. Zu diesem Zweck schlagen wir GUI-CIDER vor, eine Mid-Training-Methode, die GUI-Weltwissen durch kausale Internalisierung und dichtebewusste Exemplar-Neuauswahl explizit verinnerlicht. GUI-CIDER arbeitet in drei Phasen: (1) Datensynthese, die statische Planungs- und dynamische Kausalwissen aus GUI-Trajektorien in Text destilliert; (2) Exemplar-Neuauswahl, die den Korpus durch Belohnung kausaler Strukturen und Bestrafung semantischer Redundanz filtert; und (3) Mid-Training, bei dem die verfeinerten Daten genutzt werden, um das erworbene Wissen einzubetten. Umfangreiche Experimente mit zwei GUI-Wissens-Benchmarks und drei Aufgabenabschluss-Benchmarks zeigen, dass GUI-CIDER sowohl das Verständnis des Agenten für GUI-Operationen als auch dessen Aufgabenerfolgsraten konsistent verbessert. Die Codes sind verfügbar unter https://github.com/Wuzheng02/GUI-CIDER.
Jüngste Fortschritte im Online Reinforcement Learning (RL) für große Sprachmodelle (LLMs) haben vielversprechende Leistungen bei komplexen Denkaufgaben gezeigt. Allerdings weisen sie häufig ein unausgewogenes Verhältnis zwischen Exploration und Exploitation auf, was zu instabiler Optimierung und suboptimaler Leistung führt. Wir führen IB-Score ein, eine neuartige Metrik, die auf der Information Bottleneck-Theorie basiert und die Explorations-Exploitations-Balance einer Policy bewertet, indem sie den Trade-off zwischen schrittweiser Reasoning-Diversität und der mit der richtigen Antwort geteilten Transinformation quantifiziert. Eine auf IB-Score basierende Analyse zeigt, dass gängige Online-RL-Ansätze (z. B. GRPO) mit üblichen Regularisierern während des Trainings nicht durchgängig die Balance halten können, was zu suboptimalen Ergebnissen führt. Um dies zu adressieren, schlagen wir die Information Bottleneck-gesteuerte baumbasierte Policy-Optimierung (IB-TPO) vor, ein prinzipienbasiertes Rahmenwerk, das IB-Score als feinkörniges Optimierungsziel formuliert und eine neuartige IB-geführte Baum-Stichprobenstrategie nutzt. Diese verbessert nicht nur die Effizienz des Online-Samplings um 50 % mehr Trajektorien bei gleichem Token-Budget, sondern nutzt die Baumstruktur auch für eine effektive Monte-Carlo-Schätzung des IB-Scores wieder. Umfangreiche Experimente mit Standard-Benchmarks zeigen, dass unsere Methode die GRPO-Baseline signifikant um 2,9 % bis 3,6 % übertrifft und auch andere hochmoderne Online-RL-Ansätze übertrifft. Unser Code ist verfügbar unter https://github.com/alibaba/EfficientRL.
End-to-End-Autonomes Fahren mittels Vision-Language-Action (VLA)-Modellen erfordert eine prekäre Balance zwischen hochgenauer Trajektorienplanung und effizienter Inferenz. Bestehende Paradigmen sind meist unzureichend: Autoregressive (AR) VLAs sind auf Edge-Hardware durch die Speicherbandbreite begrenzt und neigen zu Expositions-Bias-Drift, während Full-Sequence-Diffusionsmodelle keine KV-Cache-Wiederverwendung zulassen und unter „logischem Leck" leiden, das die fundamentale Kausalität von Wahrnehmung und Planung verletzt. Wir präsentieren Fast-dDrive, ein Block-Diffusion-VLA, das bidirektionale Verfeinerung innerhalb semantischer Einheiten durchführt und gleichzeitig eine strenge kausale Ordnung zwischen ihnen erzwingt. Basierend auf der Beobachtung, dass Fahr-VLAs häufig strukturierte JSON-ähnliche Ausgaben erzeugen, friert Fast-dDrive strukturelle Token in ein Abschnittsgerüst (Section Scaffold) ein und verwendet ein abschnittsbewusstes Trainingsrezept, das sicherheitskritische Planung priorisiert. Wir führen ferner Scaffold Speculative Decoding ein, um AR-äquivalente Qualität bei deutlich höherem Durchsatz zu erreichen. Schließlich schlagen wir ein Schema mit geringem Overhead zur Testzeit-Skalierung vor: Durch die Verzweigung (Forking) von N stochastischen Trajektorien-Rollouts aus einem einzigen Shared-Prefix-KV-Cache und deren Mittelung unterdrücken wir effektiv die Vorhersagevarianz zu einem Bruchteil der Rechenkosten. Empirische Ergebnisse zeigen, dass Fast-dDrive die Geschwindigkeits-Genauigkeits-Grenze für Fahragenten neu definiert. Auf dem WOD-E2E-Testset erzielt Fast-dDrive SOTA ADE@3s und ADE@5s sowie den höchsten RFS unter diffusionsbasierten VLAs; auf nuScenes reduziert es den durchschnittlichen L2-Fehler auf 0,32 m (eine Verbesserung um 22%). Bei Integration mit SGLang erzielt unser Framework eine 12-fache Durchsatzsteigerung gegenüber der AR-Baseline und verringert damit die Kluft zwischen hochkapazitiven VLAs und den Effizienzanforderungen des Echtzeit-Einsatzes in Fahrzeugen.
langlebige KI-Agenten werden zunehmend als dauerhafte operative Systeme eingesetzt, dennoch werden sie weiterhin wie frisch initialisierte Modelle evaluiert. Benchmarks am ersten Tag übersehen eine grundlegende Systemfrage: Wie lange bleibt ein Agent nach dem Einsatz zuverlässig? Selbst wenn die Modellgewichte eingefroren sind, ändert sich der effektive Zustand eines Agenten ständig, da er Interaktionsverläufe komprimiert, aus einem wachsenden Speicher abruft, Fakten nach Aktualisierungen revidiert und routinemäßige Wartungsarbeiten durchführt. Zuverlässigkeit wird daher zu einer Lebenseigenschaft der gesamten Agenteninfrastruktur, nicht nur zu einer Momentaufnahme des Basismodells. Wir führen AgingBench ein, einen Längsschnitt-Zuverlässigkeitsbenchmark für das Lebensdauer-Engineering von Agenten, der nicht nur misst, ob eingesetzte Agenten degradieren, sondern auch, welche Form der Degradation vorliegt und wo Reparaturen ansetzen sollten. AgingBench organisiert das Altern von Agenten in vier Mechanismen: Kompressionsalterung, Interferenzalterung, Revisionsalterung und Wartungsalterung. Um diese Fehler zu diagnostizieren, verwendet AgingBench zeitliche Abhängigkeitsgraphen und gepaarte kontrafaktische Sonden, die diagnostische Profile für die Schreib-, Abruf- und Nutzungsphasen der Speicherpipeline erstellen. Über sieben Szenarien, 14 Modelle, mehrere Speicherrichtlinien sowie sowohl laufergesteuerte als auch autonome Agenten hinweg zeigen über 400 Durchläufe mit 8–200 Sitzungen, dass das Altern von Agenten nicht eindimensional ist: Verhaltenstests können sauber bleiben, während die faktische Präzision nachlässt; die Verfolgung abgeleiteter Zustände kann innerhalb eines einzigen Modells scharf abfallen; und dieselbe falsche Antwort kann je nach diagnostischem Profil unterschiedliche Reparaturen erfordern. Diese Ergebnisse legen nahe, dass zuverlässiger Agenteneinsatz eine Lebensdauerbewertung, eine diagnose auf Mechanismenebene und eine zielgerichtete Reparatur auf Pipeline-Stufenebene erfordert, nicht nur stärkere Modelle am ersten Tag.
Wir stellen GE-Sim 2.0 (Genie Envisioner World Simulator 2.0) vor, einen geschlossenen Video-Welt-Simulator für robotische Manipulation. Aufbauend auf dem aktionskonditionierten Videogenerierungs-Framework von Genie Envisioner wird GE-Sim 2.0 auf Tausenden von Stunden realer Roboterdaten neu trainiert, die Teleoperation, kontaktreiche Interaktion und On-Robot-Policy-Einsatz umfassen, wodurch die Aktionsbefolgungsgenauigkeit und die Trajektorienabdeckung erheblich verbessert werden. Darauf aufbauend schließen drei neue Module den Kreislauf von der Videosimulation zum Policy-Lernen: ein State-Expert, der propriozeptive Zustände aus Video-Latents dekodiert, um die Next-Chunk-Vorhersage durch nachgelagerte VLA-Policies zu unterstützen; ein World Judge, der generierte Rollouts anhand von Aufgabenanweisungen bewertet und maschinenverifizierbare Erfolgssignale und Belohnungen anstelle manueller Inspektion liefert; und ein Beschleunigungsframework, das einen 25-Frame-Rollout in 2,3 Sekunden auf einer einzelnen H100 ausführt, mit bis zu 4-fachem Frame-Skipping bei der Inferenz für die Langzeitbewertung. GE-Sim 2.0 führt die öffentliche WorldArena-Rangliste mit nur 2B Parametern an und übertrifft sowohl spezialisierte robotische Weltmodelle als auch quellgeschlossene allgemeine Videogeneratoren. Policies, die mit seinen Rollouts und Belohnungen trainiert wurden, führen zu messbaren realen Verbesserungen und etablieren GE-Sim 2.0 als praktische Plattform für skalierbare Evaluierung und geschlossenes Lernen von Manipulationsrichtlinien.
Modellinterne kodieren umfangreiche Informationen darüber, wie ein großes Sprachmodell (Large Language Model, LLM) seine Trainingsdaten verarbeitet; allerdings stützt sich die Datenaufbereitung nach dem Training weitgehend auf externe Signale und ignoriert die reichhaltigen intrinsischen Signale, die in den Modellinternen liegen. Wir schlagen SAERL vor, ein Framework zur Datenaufbereitung für das Reinforcement Learning (RL) von LLMs. Es modelliert drei intrinsische Dateneigenschaften – Diversität, Schwierigkeit und Qualität – unter Verwendung von Modellinternen, die mit einem Sparse Autoencoder (SAE), einem fortschrittlichen Werkzeug der mechanistischen Interpretierbarkeit, extrahiert wurden. Jede Eigenschaft begründet eine konkrete Datenaufbereitungsoperation: SAE-Raum-Clustering mit moderater Batch-Mischung zur Batch-Diversitätskontrolle, ein Schwierigkeitsproxy für eine Easy-to-Hard-Curriculum-Reihenfolge sowie eine Qualitätssonde zur Datenfilterung. SAERL verbessert die durchschnittliche Genauigkeit um 3,00% gegenüber Vanilla-GRPO und erreicht die Zielgenauigkeit mit 20% weniger Trainingsschritten auf Qwen2.5-Math-1.5B, mit konsistenten Verbesserungen über Modellskalen und RL-Algorithmen hinweg. Experimente zeigen, dass SAE effektiv über Modellfamilien und -skalen hinweg übertragen werden kann und als leichtgewichtiges und wiederverwendbares Werkzeug zur Datenaufbereitung dient. Diese Ergebnisse belegen, dass Modellinterne eine leistungsstarke und praktische Signalquelle für die Datenaufbereitung nach dem Training darstellen.
Sind LLM-basierte Suchagenten tatsächlich auf der Suche oder nutzen sie das Web lediglich zur Verifikation bereits vorhandenen Wissens? Wir untersuchen diese Frage anhand von BrowseComp mit drei Diagnoseverfahren. Unsere Analyse zeigt eine Abhängigkeit von intrinsischem Wissen (Intrinsic Knowledge Dependence, IKD): Selbst mit Zugang zu Werkzeugen verlassen sich Agenten oft auf intrinsisches Wissen – Informationen, die vor der Abfrage im Modell kodiert sind – anstatt auf externe Belege. Agenten beantworten bis zu 44,5 % der BrowseComp-Fragen ohne Werkzeuge, generieren mehr als die Hälfte ihrer Suchanfragen aus intern generierten Hypothesen statt aus abgerufenen Hinweisen und schneiden schlechter ab als Closed-Book-Baselines, wenn belegende Evidenz entfernt wird. Diese Ergebnisse legen nahe, dass statische Such-Benchmarks eher gedächtnisgestützte Verifikation als evidenzgetriebene Entdeckung belohnen und dabei vermischen, was Agenten bereits wissen, mit dem, was sie finden können. Wir führen daraufhin LiveBrowseComp ein, einen Deep-Search-Benchmark zur Bewertung von Agenten jenseits intrinsischer Abdeckung. Er enthält 335 von Menschen verfasste Fragen, deren Antworten von Fakten abhängen, die innerhalb von 90 Tagen vor der Erstellung des Benchmarks veröffentlicht wurden, basierend auf sechs aktualisierten Quellen und gefiltert, um global bedeutsame Ereignisse auszuschließen. Auf LiveBrowseComp liegen alle evaluierten Agenten unter 2 % Closed-Book-Genauigkeit, die suchgestützten Ergebnisse fallen um 25–40 Punkte im Vergleich zu BrowseComp, und frühere Modellrankings sind nicht mehr zuverlässig für die Vorhersage der Leistung. LiveBrowseComp ist verfügbar unter https://huggingface.co/datasets/Forival/LiveBrowseComp.
Hybride Reasoning-Sprachmodelle (Large Language Models, LLMs) bieten explizite Kontrollmöglichkeiten über den Denkaufwand, sodass Nutzer oder Systeme die Antwortqualität gegen die Inferenzkosten abwägen können. Allerdings werden bestehende Methoden zur adaptiven Denkmodus-Auswahl typischerweise unter verschiedenen Modellen, Datensätzen und Implementierungsannahmen evaluiert, was einen Vergleich ihres praktischen Verhaltens erschwert. Wir stellen HRBench vor, einen einheitlichen Evaluierungsrahmen zur Untersuchung des Denkmodus-Umschaltens in hybriden Reasoning-Sprachmodellen. HRBench organisiert den Entwurfsraum entlang zweier Achsen: drei Strategiefamilien für das Umschalten (promptbasierte Auswahl, externes Routing und spekulative Ausführung) und vier Trainingsregime (trainingsfrei, SFT, Offline- und Online-RL), woraus sich 12 kontrollierte Evaluierungseinstellungen ergeben. Wir evaluieren diese Einstellungen über 6 LLMs hinweg, von Qwen3.5-2B bis Kimi-K2.5-1.1T, sowie über 5 Reasoning-Benchmarks, die Mathematik, Naturwissenschaften und Code abdecken, und implementieren dabei über 12 repräsentative frühere Methoden innerhalb derselben Pipeline neu. Unsere Analyse charakterisiert, wie verschiedene Umschaltstrategien unterschiedliche Effektivitäts-Effizienz-Abwägungsbereiche besetzen: promptbasierte Methoden bieten oft günstige Token-Genauigkeits-Abwägungen, Routing-Methoden ermöglichen eine stabilere Kostenreduzierung, und spekulative Methoden neigen dazu, die Genauigkeit bei höheren Token-Kosten zu verbessern. Wir stellen ferner fest, dass das Training die Strategien unterschiedlich beeinflusst und dass die bevorzugte Strategie mit der Modellskala und dem Aufgabenbereich variiert. HRBench bietet Referenzimplementierungen und eine einheitliche Evaluierungsplattform, um kontrolliertere Forschung zu effizientem Reasoning in hybriden Reasoning-Sprachmodellen zu unterstützen. Unsere Daten, der Code und das Repository sind verfügbar unter https://github.com/usail-hkust/HRBench.
On-Policy-Destillation hat sich kürzlich als vielversprechende Alternative zur herkömmlichen sequenzbasierten Imitation erwiesen, bei der ein Schüler trainiert wird, indem seine eigenen Rollouts mit einem Lehrermodell bewertet werden. Wir beobachten jedoch ein Problem in diesem Paradigma: das „Off-Policy-Teacher-Decay“-Problem. Bei späteren Tokens kann die Fähigkeit des Lehrers, eine korrigierende Bewertung zu liefern, nachlassen, da der Kontext aus der vorherigen Trajektorie des Schülers für den Lehrer off-policy ist, und der Lehrer möglicherweise auf das in der Vortrainingsphase erlernte Token-Vervollständigungsverhalten zurückfällt. Wir bestätigen dieses Problem empirisch und schlagen Early Stopping Rollout (ESR) vor, um es zu beheben: eine einfache, aber effektive Destillationsstrategie, die die Rollout-Erzeugung einfach auf die ersten Antworttokens beschränkt. Wir zeigen, dass ESR sowohl die vollständige Rollout-OPD-Leistung in Bezug auf Modellgröße, -familie, Aufgaben und Trainingsregime übertrifft als auch eine deutlich höhere GPU-Effizienz und Trainingsstabilität aufweist, insbesondere in Szenarien mit unterschiedlichen Modellfamilien. Wir untersuchen weiter den Mechanismus hinter dieser überraschenden Leistung und entdecken die Effekte von „Cascading Alignment“ und „Sub-mode Commitment“ durch ESR, die erklären könnten, warum es effektiv funktioniert und manchmal sogar die Leistung des Lehrermodells übertrifft. Darüber hinaus zeigen wir, dass diese positionsbasierte Token-Auswahlstrategie nicht vollständig durch KL-Divergenz- und Entropiesignale erklärbar ist.
Um eine zuverlässige langfristige Interaktion zu ermöglichen, benötigen LLM-Agenten ein Speichersystem, das die angesammelte Dialoghistorie treu speichern, effizient abrufen und tiefgehend durchdenken kann. Die meisten bestehenden Methoden verfolgen ein auf extrahierten Fakten basierendes Paradigma: Handgefertigte statische Prompts komprimieren rohe Dialoge zu atomaren Fakten, die dann gespeichert, abgeglichen und in nachgelagerte Schlussfolgerungen eingebracht werden. Dennoch verwerfen solche faktenzentrierten Entwürfe zwangsläufig feinkörnige Details in den ursprünglichen Dialogen und können keine tiefgehende Schlussfolgerung über verstreute isolierte Fakten unterstützen. Darüber hinaus können statische Prompts keine konsistente Extraktionsgranularität über verschiedene Dialogstile hinweg aufrechterhalten. Um diese Einschränkungen zu adressieren, schlagen wir TriMem vor, das drei koexistierende Darstellungsgranularitäten unterhält, darunter rohe Dialogsegmente, die durch Quellkennungen verankert sind, um die Speichertreue zu gewährleisten, extrahierte atomare Fakten für einen effizienten Speicherabruf und synthetisierte Profile, die verstreute Fakten zu einem ganzheitlichen semantischen Verständnis zusammenfassen, um tiefgehende Schlussfolgerungen zu ermöglichen. Darüber hinaus verwenden wir die TextGrad-basierte Promptoptimierung, die Extraktions- und Profilierungs-Prompts durch Feedback zur Antwortqualität iterativ verfeinert und so eine lebenslange Evolution ohne jegliche Parameteraktualisierung erreicht. Umfangreiche Experimente mit LoCoMo und PerLTQA über mehrere LLM-Backbones hinweg zeigen, dass TriMem durchweg stärkere Speicher-Baselines übertrifft. Der Code ist verfügbar unter https://TMLR-TriMem.github.io .
Moderne Große Sprachmodelle (Large Language Models, LLMs) werden oft dafür kritisiert, repetitive und homogene Texte zu produzieren, obwohl sie über ein enormes latentes Vokabular verfügen. Während sich frühere Forschung auf Modellwissen und Trainingsdaten konzentrierte, untersuchen wir die Rolle der Dekodierungsmechanismen bei der Unterdrückung sprachlicher Vielfalt. Wir führen den Wortabdeckungswert (Word Coverage Score, WCS) ein, eine Metrik, die quantifiziert, in welchem Ausmaß kontextuell angemessenes menschliches Vokabular durch gängige Sampling-Filter (z. B. Top-p, Top-k und Min-p) mathematisch beschnitten wird. Statt statisches Wissen zu bewerten, misst der WCS die lexikalische Überlebensrate niederfrequenter, informationsreicher menschlicher Wörter als Funktion der Sampling-Parameter. Durch die Analyse von Open-Weight-Modellen anhand von von Menschen verfassten Korpusfragmenten identifizieren wir, welche logischen lexikalischen Entscheidungen durch den Dekoder unerreichbar gemacht werden, selbst wenn sie im Wahrscheinlichkeitsraum vorhanden sind. Unsere Ergebnisse liefern quantitative Belege dafür, dass branchenübliche Sampling-Standardwerte als unbeabsichtigte Zensurmechanismen wirken, die die einzigartigen Strukturen menschlicher Ausdrucksweise zu einem homogenisierten Diskurs glätten. Der WCS bietet einen rigorosen Rahmen für die Optimierung des Trade-offs zwischen Textkohärenz und lexikalischem Reichtum und stellt ein Diagnosewerkzeug zur Bewahrung der Vielfalt menschlicher Sprache in generativen Modellen dar.
Feinabstimmung großer Sprachmodelle mit nicht vertrauenswürdigen Daten setzt die Modelle Backdoor-Angriffen aus, bei denen vergiftete Stichproben gezieltes Fehlverhalten verursachen. Bestehende auf Stichprobenfilterung basierende Abwehrmaßnahmen verwenden Clustering, das ausreichende Datenmengen erfordert und bei extremen Vergiftungsraten versagen kann. Wir schlagen GradSentry ({Grad}ient {Sentry}) vor, eine Methode zur Filterung von Backdoor-Stichproben auf Basis der spektralen Entropie stichprobenbezogener Gradienten. Unser zentraler Befund ist, dass vergiftete Stichproben im Vergleich zu sauberen Stichproben Gradienten mit höherer spektraler Entropie erzeugen. GradSentry erfasst ausgabeverändernde Backdoor-Signaturen anhand der Spektren stichprobenbezogener Gradienten und vermeidet dabei paarweise Stichprobenvergleiche sowie Clustering während der Merkmalskonstruktion. Wichtig ist, dass unsere Methode trainingsagnostisch ist: Sie funktioniert sowohl für parametereffiziente Feinabstimmungsmethoden wie LoRA als auch für die vollständige Parameteranpassung, da die Gradientenanalyse unabhängig davon arbeitet, welche Parameter während des Trainings aktualisiert werden. GradSentry benötigt kein Clustering, funktioniert effektiv über alle Vergiftungsraten (1 %–90 %) hinweg und verursacht nur minimalen Rechenaufwand (20–50 ms pro Stichprobe für ein 7B-Modell). Die Evaluierung an vier Frage-Antwort-Datensätzen und vier Angriffsarten zeigt die Wirksamkeit der spektralen Entropie zur Backdoor-Erkennung. Der Code ist verfügbar unter https://github.com/dongdongzhaoUP/GradSentry.
Interaktive 3D-Assets, die in Spielen und Simulationen verwendet werden, werden typischerweise in bestimmte semantische Teile zerlegt, um Animation, Physik und skriptgesteuertes Verhalten zu unterstützen. Dennoch erzeugen die meisten generativen 3D-Modelle entweder monolithische Meshes oder willkürliche Teilzerlegungen, die nicht an anwendungsspezifische Anforderungen angepasst werden können. Wir stellen CubePart vor, ein generatives Framework für die teilegesteuerte 3D-Mesh-Generierung mit offenem Vokabular, das die Teilstruktur als explizites Kontrollsignal zur Inferenzzeit bereitstellt. Gegeben einen globalen Text-Prompt und ein benutzerdefiniertes Teileschema, das als offene Liste von Teilnamen ausgedrückt wird, erzeugt unsere Methode einen Satz von Meshes – eines pro Schema-Element – die sich zu einem kohärenten Objekt zusammensetzen, während die spezifizierte semantische Struktur eingehalten wird. Um diese Fähigkeit zu ermöglichen, führen wir eine skalierbare Datenpipeline ein, um einen großen, mit offenem Vokabular und teilemarkierten 3D-Datensatz zu konstruieren, zusammen mit einer zweistufigen generativen Architektur, die die globale Formgenerierung von der teilebenen Dekodierung trennt. Wir demonstrieren, dass die resultierenden Assets direkt in Spiel-Engines integriert und durch Animations- und Verhaltensskripte gesteuert werden können, ohne manuelle Nachbearbeitung. Projektseite: https://cubepart.github.io/
LLM-basierte Agenten erzielen hohe Punktzahlen bei Such-Benchmarks, doch reale Nutzer empfinden die Ergebnisse durchweg als unbefriedigend – ein Hinweis auf eine anhaltende Evaluations-Erfahrungs-Lücke. Wir führen diese Lücke auf die Abhängigkeit bestehender Benchmarks von übermäßig spezifizierten Abfragen, Einzelinteraktionen und einer Evaluierung mit festem Schema zurück, die das reale Suchverhalten nicht widerspiegeln, bei dem Nutzer und Agenten vage Absichten durch mehrschrittige Dialoge gemeinsam verfeinern. Wir bezeichnen dieses Paradigma als VibeSearch und führen VibeSearchBench ein, einen Benchmark mit 200 manuell kuratierten zweisprachigen (Chinesisch und Englisch) Aufgaben aus 20 Domänen, unterteilt in die Teilmengen VibeSearch-Pro (professionell) und VibeSearch-Daily (Alltag). Jede Aufgabe kombiniert eine Benutzerpersona mit einem schemafreien Ground-Truth-Wissensgraphen und wird mittels eines Benutzersimulators mit schrittweiser Offenlegung sowie eines Evaluierungsrahmens für Graphabgleich bewertet. Wir messen sieben Spitzenmodelle sowohl unter dem ReAct-Framework als auch mit dem OpenClaw-Agenten-Harness. Die Ergebnisse zeigen, dass alle Modelle für VibeSearch noch erheblich unzureichend sind (bestes F1: 30,30), was die Notwendigkeit grundlegender Fortschritte bei der Kontextverarbeitung über lange Sequenzen, der proaktiven Intentionsermittlung und der strukturierten Wissenskonstruktion unterstreicht.
Visuelle Ergebnisse werden zunehmend zentral für multimodale große Sprachmodelle, wodurch zuverlässige und feinkörnige Verifikation für die Skalierung generalistischer Grundlagenmodelle unerlässlich wird. In dieser Arbeit untersuchen wir die multimodale Meta-Verifikation, die vom Verifizierer generierte Begründungen anstelle von reinen Entscheidungssignalen nutzt, und erforschen, wie Meta-Verifikationsfeedback effektiv in das Training multimodaler Verifizierer integriert werden kann. Wir identifizieren zwei zentrale Erkenntnisse. Erstens: Symbolische Verifiziererausgaben (z. B. Begrenzungsrahmen) übertreffen textuelle Erklärungen als Meta-Verifikationsbegründungen, da sie effiziente regelbasierte Verstärkungslern-Belohnungen ermöglichen, während die Abhängigkeit von modellbasierten Belohnungen durch zusätzliche Bewertungsmodelle vermieden wird. Zweitens: Die Entkopplung der Verstärkungslernziele für binäre Beurteilung und Meta-Verifikation übertrifft die gemeinsame Belohnungsoptimierung deutlich, bedingt durch inhärente Unterschiede in der Ausgabestruktur und den Lerndynamiken. Basierend auf diesen Erkenntnissen trainieren wir OmniVerifier-M1, einen generalistischen visuellen Verifizierer, der symbolische Meta-Verifikation und entkoppeltes Verstärkungslernen nutzt. OmniVerifier-M1 bietet robuste Verifikation und feinkörnige Fehlerlokalisierung und ermöglicht darüber hinaus M1-TTS, ein verifizierergesteuertes agentisches Generierungssystem, das dynamische regionsspezifische Selbstkorrektur erreicht. Dieser Ansatz ebnet den Weg für zuverlässigere, interpretierbarere und feinkörnigere multimodale Verifikation und unterstützt einen sichereren und kontrollierbareren Einsatz von Grundlagenmodellen.
Die Chain-of-Thought (CoT)-Überwachung wurde als vielversprechender Sicherheitsmechanismus zur Erkennung fehlausgerichteten Verhaltens in großen Sprachmodellen vorgeschlagen. Ihre Zuverlässigkeit wurde jedoch außerhalb des Englischen und über verschiedene Modellfamilien hinweg bislang kaum untersucht. Wir präsentieren die erste groß angelegte Evaluierung der CoT-Überwachbarkeit in 13 verschiedenen Sprachen und sieben führenden Modellfamilien mit insgesamt 16 Modellen. Unter Verwendung von Evaluierungen mit adversarischen Hinweisen, die explizite Zwischenberechnungen erfordern, sowie der Analyse interner Antwort-Token-Wahrscheinlichkeiten stellen wir durchgängig CoT-Untreue über Sprachen und Hinweistypen hinweg fest, mit einer durchschnittlichen Rate von 95,9 % bei Modellen mit 8B–120B Parametern. Wir zeigen, dass Grenzmodelle systematisch strategische Manipulation betreiben, darunter Antwortwechsel, post-hoc Rationalisierung und prozedurale Ausnutzung von Hinweisen, wodurch externe Überwachungsinstanzen Schwierigkeiten haben, Täuschung zu erkennen. Wir zeigen, dass Grenzmodelle sich oft bereits in den ersten 15 % der Generierung in ihren latenten Aktivierungen auf den fehlausgerichteten Hinweis festlegen, selbst wenn der CoT-Schritt treu erscheint. Überraschenderweise bleiben diese täuschenden Muster in ressourcenarmen Sprachen zu 100 % bestehen, was grundlegende Einschränkungen der aktuellen CoT-basierten Überwachung offenbart. Unsere Ergebnisse zeigen, dass die CoT-Überwachung unter linguistischer Verteilungsverschiebung grundsätzlich fragil ist und ein wesentlich schwächeres Sicherheitssignal liefert, als englischsprachige Studien vermuten lassen. Diese Erkenntnisse unterstreichen die dringende Notwendigkeit, robuste CoT-Überwachungsmechanismen zu entwickeln und die Forschung zu White-Box-Überwachungstechniken zu beschleunigen, insbesondere zur Verbesserung der CoT-Überwachbarkeit in mittel- und ressourcenarmen Sprachen. Unser Code ist verfügbar unter https://multilingual-cot-monitoring.github.io/{blue{hier}}.
Die Erzeugung von Bildern aus Rauschen ist Bildgenerierung; die Rekonstruktion feiner Details aus groben Eingaben ist Superauflösung. Trotz ihrer praktischen Unterschiede können beide als Umkehrung von Informationsverlust über Skalen hinweg verstanden werden. Wir stellen SKILD vor, ein skaleninvariantes K-Raum-Bildlern-Diffusionsmodell, das Generierung und kontinuierliche Superauflösung in einem einzigen unbedingten Framework vereint. Sowohl natürliche Bilder als auch kritische physikalische Systeme weisen Skaleninvarianz auf, und wir nutzen diese, um einen Vorwärtsprozess zu entwerfen, der Bildinhalte von feinen zu groben Skalen abschwächt und gleichzeitig spektrumangepasstes gaußsches Rauschen injiziert, wodurch die Skala zu einer expliziten Koordinate der Diffusionsdynamik wird. Derselbe trainierte Rückwärtsprozess führt Generierung und kontinuierliche Superauflösung durch, indem lediglich der Startzeitschritt variiert wird: keine aufgabenspezifische Architektur, kein Konditionierungszweig, keine klassifikatorfreie Führung, kein erneutes Training pro Skalierungsfaktor. Empirisch erreicht SKILD einen FID von 2,65 und einen Inception-Score von 9,63 auf unbedingtem CIFAR-10, führt 2×–8× Superauflösung auf ImageNet von einem einzigen unbedingten Prüfpunkt aus durch und übertrifft dabei konditionale Modelle in Wahrnehmungsmetriken, und rekonstruiert kritische Ising-Modelle, deren verbundene Vierpunktkorrelationen eng mit der Grundwahrheit übereinstimmen.
Parametereffizientes Feintuning (PEFT) hat sich zum Standardansatz für die Anpassung großer Sprachmodelle entwickelt, wobei Evaluierungen jedoch überwiegend die Genauigkeit bei nachgelagerten Aufgaben betonen und den Erhalt vortrainierter Fähigkeiten vernachlässigen. Wir vertreten die Auffassung, dass PEFT durch das Stabilitäts-Plastizitäts-Dilemma bewertet werden sollte: den Zielkonflikt zwischen Anpassung an die Zielaufgabe und Resistenz gegen Vergessen. Wir stellen PEFT-Arena vor, einen Benchmark, der sowohl die Downstream-Leistung als auch den Erhalt allgemeiner Fähigkeiten gemeinsam misst. Über verschiedene Methoden hinweg finden wir unterschiedliche Stabilitäts-Plastizitäts-Profile; unter vergleichbaren Parameterbudgets erzielt orthogonales Feintuning die günstigste Pareto-Front. Um diese Unterschiede zu erklären, analysieren wir PEFT-Updates aus zwei geometrischen Perspektiven. Im Gewichtsraum zeigt die Spektralanalyse, wie Parametrisierungen mit der vortrainierten Singulärwertstruktur interagieren. Im Aktivierungsraum zeigen Retentionsmetriken, ob das Feintuning Repräsentationen allgemeiner Fähigkeiten bewahrt oder verzerrt, wobei Vergessen mit nicht-isometrischer Repräsentationsverzerrung verbunden ist. Schließlich zeigt eine Analyse, dass finale SFT-Checkpoints oft einen besseren Ziel-Erhaltungs-Arbeitspunkt überschreiten. Inspiriert hiervon präsentieren wir Fallstudien einer nachträglichen Verbesserung durch pfadweises Zurückspulen.
Das ansichtsübergreifende räumliche Denken bleibt eine Schwachstelle von Vision-Language-Modellen (VLMs): Sie argumentieren oft sprachlich und verlieren dabei die für die Aufgabe erforderliche feinkörnige Geometrie. Das Denken mit Bildern zielt darauf ab, dieses Problem zu lösen, indem ein intermediäres Denkbild erzeugt wird, doch neuere Arbeiten zeigen, dass Modelle die visuellen Hinweise in diesen Spuren oft ignorieren. Daher fragen wir, wie man visuelles Denken relevant machen kann und welche Art von visuellem Denken am besten funktioniert. Wir untersuchen diese Fragen in Unified Multimodal Models (UMMs), die nativ die verschachtelte Erzeugung von Bildern und Text unterstützen. Für die erste Frage schlagen wir View Dropout (VDrop) vor, einen Trainingseingriff, der Teile einer Eingabeansicht vor dem Antwortbereich verbirgt, sie aber für die Denkbild-Tokens sichtbar lässt. Dies ermutigt das Modell, bei der Antwort das Denkbild zu verwenden, anstatt sich nur auf die Eingabeansichten zu verlassen. Sobald das Denkbild für die Antwortvorhersage verwendet wird, untersuchen wir, welche Art von visuellem Denken am effektivsten ist. Wir betrachten dies als eine Abwägung zwischen Erlernbarkeit und Informativität und vergleichen drei Denkbild-Varianten: Top-Down-, Panorama- und Point-Matching-Darstellungen. Trainiert auf synthetischen Szenen und evaluiert auf fünf realen Out-of-Domain-Benchmarks, ist das panoramische visuelle Denken mit VDrop die einzige Konfiguration, die sowohl informativ als auch erlernbar ist, und erzielt die beste Out-of-Domain-Generalisierung.
Multiagentensysteme, die auf großen Sprachmodellen (LLMs) basieren, erfordern viele Koordinationsentscheidungen, die schwer a priori festzulegen sind: welches Fähigkeitsprotokoll aufgerufen werden soll, welche Agentenrolle eine Teilaufgabe übernehmen soll, welches Modell an jede Rolle gebunden werden soll, wie Rollen interagieren sollen, wann Abruf oder Verifikation eingesetzt werden soll und wann ein Schritt vollständig ausgelassen werden soll. Diese Entscheidungen interagieren mit dem Aufgabenregime und operativen Beschränkungen, sodass statische Pipelines und einmalige Modellvergleiche nur eine begrenzte Sicht auf den Entwurfsraum bieten. Dieses Papier führt AgensFlow ein, ein Open-Source-Framework, das Multiagentenkoordination als ein Problem des Online-Policy-Lernens unter partieller Beobachtbarkeit behandelt. Das Framework macht Koordinationsentscheidungen beobachtbar und aus wiederholten Trajektorien lernbar, anstatt Fähigkeits-, Rollen-, Modell-, Topologie- und Bewertungsentscheidungen als feste Pipelinegestaltung zu behandeln. AgensFlow wird an zwei Korpora evaluiert: Aufgaben zu Vorfällen in verteilten Systemen und Aufgaben zu Sicherheitshinweisen. Die Evaluierung zeigt drei Hauptergebnisse: Erlerntes Routing erreicht einen Betriebspunkt höherer Qualität als eine feste Pipeline-Baseline bei koordinationsintensiven Klassen; skip:X isoliert die Topologiekompression als einen bedeutenden Teil des Substrats; und warmgestartete Policy-Graphen können die Erkundungskosten reduzieren, während sie die Plateauqualität bewahren. Insgesamt unterstützen die Ergebnisse, dass erlerntes, nachvollziehbares Routing koordinationsintensive Multiagenten-Workflows gegenüber statischer Verdrahtung verbessern kann.
Verstärkendes Lernen aus verifizierbaren Belohnungen (RLVR) hat sich als Standardparadigma zur Verbesserung der Denkfähigkeit großer Sprachmodelle etabliert, während die Multi-Token-Vorhersage (MTP) ein weit verbreitetes Modul im Vortraining darstellt. Beide zu kombinieren ist ein naheliegender Ansatz, jedoch trennen aktuelle RL-Praktiken die MTP-Gradienten ab, da gemeinsames Training die Leistung verschlechtert. Wir betrachten dieses Scheitern aus einer Optimierungsperspektive erneut. Wir zeigen, dass der schrittweise Effekt von MTP auf das RL-Ziel in zwei Terme zerlegt werden kann: eine Korrelation erster Ordnung und eine Störungsstrafe zweiter Ordnung. Diese Zerlegung vereinheitlicht drei MTP-Trainingsregime: Abkoppeln, Kreuzentropieverlust und Policy-Verlust, und erklärt, warum jedes erfolgreich ist oder scheitert. Weitere Analysen des Policy-Verlusts zeigen, dass sich die Leistung trotz intuitiver Übereinstimmung dennoch verschlechtert: Der Korrelationsterm zerfällt, während die quadratische Strafe bestehen bleibt. Geleitet von der Analyse schlagen wir die Optimale Koeffizientenkalibrierung (OCC) vor, ein adaptives Schema, das den optimalen Koeffizienten online über einen Log-Wahrscheinlichkeits-Proxy zu vernachlässigbaren Kosten verfolgt. Über sechs mathematische Denkaufgaben auf Wettbewerbsniveau hinweg erreicht oder übertrifft OCC durchgängig die Abkoppelungs-Baseline und liefert eine verbesserte gemeinsame MTP-RL-Trainingsleistung.
Die Validität von KI-Sicherheitsbewertungen hängt davon ab, dass Modelle sich konsistent über kontrollierte und Einsatzumgebungen hinweg verhalten. Frühere Arbeiten haben kontextuelle Hinweise zum Testzeitpunkt, wie hypothetische Szenarien, als Quelle für verbalisierte Bewertungsbewusstheit und daraus resultierende Verhaltensänderungen identifiziert. In diesem Beitrag untersuchen wir eine mögliche Erklärung dieses Phänomens: Evaluations-Metawissen, definiert als parametrisches Wissen über die strukturellen Merkmale, die Bewertungen kennzeichnen. Ähnlich wie bei Datenkontamination, bei der die Exposition gegenüber Benchmarks durch Memorisierung zu höherer Leistung führt, stellen wir die Hypothese auf, dass Modelle, die auf Texten trainiert wurden, die Bewertungspraktiken beschreiben, implizit lernen können, bewertungsähnliche Kontexte zu erkennen und darauf zu reagieren – beispielsweise durch die Exposition gegenüber wissenschaftlichen Artikeln oder Social-Media-Beiträgen über KI-Benchmarking. Um dies zu testen, stimmen wir Modelle auf synthetischen Dokumenten fein ab, die Bewertungsmerkmale wie überprüfbare Strukturen oder moralische Dilemmata beschreiben. Bei der Evaluierung dieses feinabgestimmten Modells anhand von sechs Sicherheits-Benchmarks stellen wir fest, dass es signifikant sicherer ist als das Basismodell und das Kontrollmodell. Diese Verhaltensänderung bleibt auch dann bestehen, wenn die Analyse auf Antworten ohne explizite Verbalisierung des Bewusstseins für die Bewertung beschränkt wird. Unsere Ergebnisse zeigen, dass Evaluations-Metawissen die Leistung in Sicherheits-Benchmarks aufblähen kann, was eine neuartige Störvariable einführt, die unabhängig von expliziter Memorisierung oder verbalisiertem Bewusstsein für die Bewertung ist und somit schwer zu erkennen ist. Diese Erkenntnisse haben wichtige Implikationen für die Gestaltung und Interpretation von KI-Sicherheitsbewertungen. Unser Code und unsere Modelle sind verfügbar unter https://github.com/compass-group-tue/arxiv2026_evaluation_meta_knowledge.
Benchmarks zum Beantworten von Fragen zu Diagrammen (Chart QA) zielen darauf ab, Fragen zu stellen, die visuelles Denken erfordern, um korrekt beantwortet zu werden, aber Modelle können oft durch Abkürzungen oder vorherige Vertrautheit mit einem Diagramm basierend auf ihrem eigenen Hintergrundwissen zu Lösungen gelangen. Um das visuelle Denken streng zu bewerten, schlagen wir kontrafaktische Diagramme vor, bei denen die Diagramm-Fragen-Aufgabe fest bleibt, aber das zugrunde liegende Diagramm und die entsprechende Antwort variiert werden. Wir führen Chartographer ein, ein Framework, das Diagramme in ausführbaren Code zurückentwickelt, die Rekonstruktionstreue validiert, seed-kontrollierte kontrafaktische Varianten erzeugt und aus ausführbarer QA-Logik neue Antworten ableitet. Wir wenden dieses Framework auf bestehende Chart-QA-Datensätze an und evaluieren proprietäre sowie Open-Source-Vision-Language-Modelle (VLMs), wobei wir die Variationssensitivität und Generalisierbarkeit messen. Kontrafaktische Diagramme offenbaren Fehler, die durch die Einzeldiagramm-Leistung verdeckt werden: VLMs versagen oft bei der Generalisierung, nachdem sie das ursprüngliche Diagramm korrekt beantwortet haben. Wir stellen fest, dass Fehler am häufigsten auftreten, wenn aktualisierte Diagramme neuartige visuelle Denkpfade erfordern.
Wissenschaftliche Forschung verläuft in iterativen Zyklen aus Hypothesengenerierung, Experimentdesign, Durchführung und Revision. KI-Agenten können Teile dieses Prozesses automatisieren, doch bestehende Ansätze folgen typischerweise einer einzigen Forschungsrichtung oder koordinieren sich über einen zentralen Planer mit festgelegten Zielen. Dadurch fällt es ihnen schwer, parallele Erkundungen aufrechtzuerhalten, sich an verändernde experimentelle Evidenz anzupassen oder das Wissen über gescheiterte Ansätze über langlaufende Experimente hinweg zu bewahren. Wir stellen AutoScientists vor, ein dezentrales Team von KI-Agenten für langfristige computergestützte wissenschaftliche Experimente. Die Agenten interpretieren einen gemeinsamen experimentellen Zustand, organisieren sich selbst in Teams um vielversprechende Hypothesen, bewerten Vorschläge vor dem Einsatz von experimentellen Ressourcen und teilen Erfolge sowie Misserfolge, um redundante Erkundungen zu reduzieren. Bei vergleichbaren experimentellen Budgets verbessert AutoScientists die Ergebnisse gegenüber früheren KI-Agenten in den Bereichen biomedizinisches maschinelles Lernen, Optimierung des Sprachtrainings und Vorhersage von Proteinfitness. Auf BioML-Bench, das biomedizinische Bildgebung, Protein-Engineering, Einzelzell-Omics und Wirkstoffforschung umfasst, erreicht AutoScientists einen mittleren Ranglisten-Perzentil von 74,4 % über 24 Aufgaben, eine Verbesserung um +8,33 % gegenüber dem stärksten KI-Agenten. Bei der Optimierung des GPT-Trainings erreicht AutoScientists eine Zielvalidierung von 1,9× schnelleren Bits pro Byte als Autoresearch und entdeckt weiterhin Verbesserungen ausgehend von einem Start-Champion, bei dem der Einzelagentenansatz keine findet (7 vs. 0 akzeptierte Verbesserungen). Bei der Fitnessvorhersage auf ProteinGym entdeckt AutoScientists eine Methode für die ACE2-Spike-Bindung, die die aktuelle State-of-the-Art-Modell um +12,5 % in der Spearman-Korrelation übertrifft. Ohne Modifikation auf alle 217 ProteinGym-Assays angewendet, verbessert dieselbe Methode den bisherigen Stand der Technik um +6,5 % (Spearman-Korrelation).
Bestehende Systeme zur emotionalen Unterstützung in Gesprächen (ESC-Systeme) basieren hauptsächlich auf End-to-End-Antwortgenerierung oder grober Strategieüberwachung, was eine begrenzte Interpretierbarkeit und wenig Unterstützung für systematische Verbesserung der Fähigkeiten bietet. Wir schlagen ESC-Skills vor, ein fähigkeitszentriertes Framework, das ausführbare Fähigkeiten zur emotionalen Unterstützung entdeckt und selbst weiterentwickelt. Zunächst modellieren wir lokalisierte Unterstützungsinteraktionen als Interventionseinheiten (IUs), die die Zustands-Aktions-Ergebnis-Dynamiken zwischen den Zuständen der Hilfesuchenden, den Unterstützungsinterventionen und den emotionalen Veränderungen nach der Antwort erfassen. Auf Basis von IUs, die sowohl aus erfolgreichen als auch aus gescheiterten ESC-Dialogen extrahiert wurden, konstruieren wir die ESC-Skills-Bank, ein Repository ausführbarer Fähigkeiten zur emotionalen Unterstützung, das Interventionsanleitungen, Anwendbarkeitsbedingungen, erwartete Ergebnisse und potenzielle Risiken enthält. Um die Robustheit weiter zu verbessern, führen wir ein mehrprofiliges, selbstentwickelndes Verfeinerungsframework ein, in dem ein ESC-Agent mit verschiedenen simulierten Profilen von Hilfesuchenden unter SAGE-Evaluierung interagiert. Die resultierenden Interaktionsspuren werden analysiert, um fehlende Fähigkeiten, unsichere Interventionen und profilspezifische Fehlermuster zu identifizieren, die dann genutzt werden, um die Skills-Bank durch simulationsbasierte Verifikation zu verfeinern. Experimentelle Ergebnisse zeigen, dass ESC-Skills sowohl die Antwortqualität als auch die emotionalen Ergebnisse auf Dialogebene verbessert und gleichzeitig ein interpretierbareres und kontrollierbares Unterstützungsverhalten bietet. Wir werden den Code, die Prompts und die ESC-Skills-Bank unter https://github.com/aliyun/qwen-dianjin veröffentlichen.
KI-Codierungsagenten werden zunehmend eingesetzt, um reale Software zu schreiben, aber die Sicherstellung der Korrektheit ihrer Ausgaben bleibt eine grundlegende Herausforderung. Formale Verifikation bietet einen vielversprechenden Weg: Ein Agent generiert Code zusammen mit einem maschinell geprüften Beweis und garantiert so, dass der Code eine formale Spezifikation erfüllt. Allerdings gibt es keine Garantie, dass die formale Spezifikation selbst mit der Absicht des Benutzers übereinstimmt. In dieser Arbeit untersuchen wir die Spezifikationsautoformalisierung: ob LLM-Agenten informelle Programmierprobleme in getreue formale Spezifikationen übersetzen können. Wir führen Verus-SpecBench ein, einen Benchmark mit 581 Spezifikationsschreibaufgaben, die aus Codeforces-Problemen abgeleitet und auf Verus zugeschnitten sind, einem Verifizierer für Rust, sowie Verus-SpecGym, eine agentische Umgebung, in der Modelle mit Verus, Bash und dem Dateisystem interagieren, um diese Spezifikationen zu entwickeln. Die zentrale Herausforderung ist die Evaluierung: Von Experten verfasste Referenzspezifikationen sind teuer zu erstellen, und LLM-Richter können subtile Fehler übersehen. Wir begegnen diesem Problem, indem wir (a) den exec_spec-Mechanismus von Verus erweitern, sodass generierte Spezifikationen als Rust-Code ausgeführt werden können, und (b) diese gegen offizielle Codeforces-Tests sowie adversariale Fälle testen, die aus Codeforces-„Hacks“ extrahiert wurden – Randfälle, die von Wettbewerbern geschrieben wurden, um inkorrekte Lösungen zu durchbrechen. Auf Verus-SpecBench löst das stärkste Modell, Gemini 3.1 Pro, 77,8 % der Aufgaben, andere Frontier-Modelle lösen 51,1–57,8 % und OSS-Modelle erreichen nur 21,5–25,5 %. Unsere Analyse der Fehlermodi zeigt, dass modellgenerierte Spezifikationen wichtige Eingabeannahmen auslassen, inkorrekte Ausgaben akzeptieren und gültige ablehnen können. Wir stellen außerdem fest, dass die LLM-als-Richter-Bewertung 26 % der Fehler übersieht, die unser Evaluator aufdeckt. Insgesamt deuten unsere Ergebnisse darauf hin, dass die Spezifikationsautoformalisierung für Frontier-Agenten erreichbar ist, aber selbst bei Problemen, für die sie bereits korrekten Code generieren können, spröde bleibt. Der Code, die Daten und die Protokolle sind unter https://github.com/formal-verif-is-cool/verus-spec-gym zu finden.
Die jüngsten Fortschritte bei langfristigen agentischen Aufgaben wurden hauptsächlich durch das Hochskalieren einzelner Agenten mittels stärkerer Modelle, besserer Werkzeuge und effektiverer Gerüste erzielt. Im Gegensatz dazu ist über das horizontale Skalieren (Scaling Out) weit weniger bekannt: ob mehrere gleichrangige Agenten, die alle auf dieselbe Aufgabe abzielen, eine zusätzliche Fähigkeitsquelle darstellen können, ohne auf explizite Rollenspezialisierung oder Workflow-Orchestrierung angewiesen zu sein. Wir untersuchen diese Frage und schlagen AgentFugue vor, ein kollektives Reasoning-Framework, das um einen gemeinsamen Reasoning-Hub herum aufgebaut ist. Während gleichrangige Agenten dieselbe Aufgabe parallel erkunden, zeichnet der Hub prägnante Notizen darüber auf, was jeder Agent etabliert, versucht oder ausgeschlossen hat, und ermöglicht es jedem Agenten, selektiv auf das zuzugreifen, was andere Agenten in einer für seine aktuelle Suche nützlichen Form entdeckt haben. Dieses Design verwandelt ansonsten isolierte Trajektorien in eine vernetzte Ökologie wiederverwendbarer Zwischenschlussfolgerungen, ohne dass eine zentrale Planung erforderlich ist. Wir implementieren den Hub als eine Plug-in-Kommunikationsschicht, die mit überwachtem Feintuning und End-to-End-Verstärkungslernen trainiert wird. In den von uns untersuchten anspruchsvollen langfristigen Umgebungen verbessert AgentFugue die Ergebnisse im Vergleich zu starken Baselines. Unsere Ergebnisse deuten darauf hin, dass kollektives Reasoning das horizontale Skalieren von Peer-Agent-Systemen in eine eigenständige Quelle von Fähigkeitsgewinnen verwandeln kann, und nicht nur in eine Möglichkeit, mehr Rechenleistung einzusetzen.
Autonome Computer-Nutzungsagenten, die auf multimodalen großen Sprachmodellen (MLLMs) basieren, entwickeln sich zu leistungsfähigen Assistenten für die Bewältigung komplexer digitaler Arbeitsabläufe. Allerdings sind reale Ausführungsumgebungen alles andere als ideal: Pop-ups, Auflösungsänderungen und konkurrierende Anwendungen beeinträchtigen häufig die Wahrnehmung und Kontrolle der Agenten. Wir stellen AgentHijack vor, einen Benchmark zur Bewertung der Robustheit von Computer-Nutzungsagenten unter üblichen Störungen, bei denen die Unsicherheiten einer dynamischen Umgebung den Ausführungsablauf ohne direkte gegnerische Absicht unterbrechen. Insbesondere führt AgentHijack 9 konfigurierbare übliche Korruptionen ein, um realistische unvollkommene Szenarien zu replizieren. Wir evaluieren eine Vielzahl von Desktop-Aufgaben, die MLLM-basierte Agenten nutzen, und stellen fest, dass selbst geringfügige Korruptionen zu erheblichen Leistungseinbußen führen können. Dies unterstreicht die Fragilität der Agenten und die Notwendigkeit einer Robustheitsbewertung. Anschließend schlagen wir AgentHijack-Agent vor, ein Framework, das einen Aktionsgenerator mit verbesserten Verankerungsfähigkeiten und einen Beobachter integriert, der für die Verhaltenszusammenfassung und Umgebungsprüfung zuständig ist. Umfangreiche Experimente bestätigen seine Wirksamkeit. Unser Code, die Umgebung, die Basismodelle und die Daten sind öffentlich verfügbar unter: https://AgentHijack.github.io.
Große multimodale Modelle (LMMs) haben rasche Fortschritte in der Wahrnehmung und im logischen Denken erzielt; es bleibt jedoch unklar, ob diese Fähigkeiten über die Mustererkennung hinaus auf die Entdeckung visuell fundierter Lösungen in offenen Umgebungen übertragbar sind. In solchen Kontexten erfordert Intelligenz mehr als die Beantwortung gut gestellter Fragen: Sie umfasst das Erkennen, wie Elemente einer Szene auf nicht offensichtliche, aber physikalisch machbare Weise umfunktioniert werden können. Diese Form kreativen Problemlösens ist zentral für die menschliche Intelligenz, wird aber in aktuellen Benchmarks weitgehend nicht getestet. Um diese Fähigkeit zu bewerten, führen wir MM-CreativityBench ein, einen Benchmark für affordanzbasierten, kreativen Werkzeuggebrauch in visuell reichhaltigen, physikalisch eingeschränkten Umgebungen. Jede Instanz präsentiert ein Szenarienbild mit strukturierten Ansichten von Kandidatenentitäten und deren Teilen, was eine feinkörnige, interaktive Bewertung ermöglicht, wie Modelle die Szene iterativ inspizieren, relevante Affordanzen identifizieren und visuell sowie physikalisch fundierte Lösungen zusammensetzen. Unsere Experimente zeigen, dass aktuelle LMMs oft scheitern – nicht aufgrund mangelnder generativer Fähigkeit, sondern weil sie keine fundierte Exploration aufrechterhalten. Modelle übersehen häufig relevante Entitäten, untersuchen kritische Teile unzureichend oder halluzinieren Attribute, die nicht im Bild verankert sind. Motiviert durch diese Fehlerart schlagen wir affordanzbasierte Alignierung vor, die kreativen Werkzeuggebrauch als Präferenzlernproblem auffasst. Mittels direkter Präferenzoptimierung ermutigen wir Modelle, Attribut-Affordanz-Schlussfolgerungen, die auf visuellen Belegen beruhen, gegenüber halluzinierten Alternativen zu bevorzugen. Darüber hinaus integrieren wir eine aus einer Affordanz-Wissensdatenbank abgeleitete Überwachung, um eine breitere Erkundung von Entitäten und mehrschrittige Planung zu leiten. Unsere Ergebnisse zeigen konsistente Verbesserungen bei der Auswahl der korrekten Entitäten und Teile, während Halluzinationen und fundierungsbezogene Fehler deutlich reduziert werden.
Räumliche und zeitliche Ressourcenbeschränkungen sind sowohl für biologische als auch für künstliche intelligente Systeme von entscheidender Bedeutung. Hier definieren wir differenzierbare Kostenbegriffe für Breite, Tiefe und Zeit innerhalb eines rekurrenten konvolutionellen neuronalen Netzes, das als endliche Teilmenge eines unendlichen Gitters konzipiert ist. Diese Kosten optimieren wir gemeinsam mit Aufgabenfehlern mittels Rückpropagation. Wir setzen unterschiedliche Druckwerte auf Breite, Tiefe und Zeit, was dazu führt, dass durch das Training organisch verschiedene Berechnungsgraphen entstehen. Wir stellen fest, dass alle drei Ressourcen gegeneinander abgewogen werden können, um ein gegebenes Genauigkeitsniveau zu erreichen. Mit der Aufgabenkomplexität wachsen die Netze in allen drei Dimensionen und führen spontan mehr rekurrente Schritte aus, wenn Eingaben verdeckt sind. Überraschenderweise korreliert die vom Modell genutzte Zeit mit menschlichen Reaktionszeiten bei einer Objekterkennungsaufgabe. Unser Rahmenwerk bietet einen normativen Bericht darüber, wie Ressourcenbeschränkungen neuronale Architekturen formen, verbindet dies mit Fragen zur Gehirnarchitektur in den Neurowissenschaften und könnte dazu beitragen, die Vielfalt der in der Natur vorkommenden neuronalen Lösungen zu beleuchten.
Große Sprachmodelle (LLMs) zur Codevervollständigung und -generierung werden zunehmend in der Softwareentwicklung eingesetzt, können jedoch Trainingsbeispiele wörtlich und ohne Autorenangabe reproduzieren, was rechtliche und ethische Bedenken hinsichtlich Plagiat und Lizenzkonformität aufwirft. Klassische fingerabdruckbasierte Plagiatsdetektoren wie Winnowing sind nach wie vor hochwirksam, erfordern jedoch den Vergleich von Codefragmenten mit dem gesamten Trainingssatz, und ihre lineare Suchzeit macht sie für die milliardengroßen Korpora, die zum Training moderner Code-LLMs verwendet werden, unpraktikabel. Um diese Lücke zu schließen, stellen wir SOURCETRACKER vor, einen auf Codeabfrage zugeschnittenen Encoder mit 300 Millionen Parametern, zusammen mit einer hybriden zweistufigen Provenienzverfolgungspipeline HYBRIDSOURCETRACKER (HST). HST grenzt zunächst eine kleine Menge von Kandidatenfragmenten mittels Vektorsuche ein und bewertet diese Kandidaten dann mithilfe von Winnowing auf exakte Fingerabdrücke neu. Wir trainieren und evaluieren unser System auf einer 10-Millionen-Fragment-Teilmenge des THESTACKV2-Datensatzes, sowohl mit wörtlichen als auch mit angepassten Fragmenten, die realistische Identifikatorumbenennungen nachahmen. In einem In-vitro-Suchraum mit 100.000 Fragmenten und angepassten Abfragen erreicht unser hybrider Ansatz einen mittleren reziproken Rang, der für 30-Token-Fragmente mit Winnowing vergleichbar ist. Ab Fenstern von >= 60 Token übertrifft es Winnowing durchweg um bis zu 5,4 %, während es eine logarithmische Abfragekomplexität beibehält. In einer ergänzenden Bewertung mit einem LLM-basierten Bewerter stellen wir fest, dass viele abgerufene Fragmente, die nicht als Ground Truth markiert sind, dennoch den erwarteten Quellen sehr ähnlich sind, insbesondere bei längeren Kontextfenstern, und daher für Endnutzer nützlich bleiben. Insgesamt zeigen unsere Ergebnisse, dass die Integration von Vektorsuche mit Fingerprinting eine skalierbare, hochpräzise Provenienzverfolgung für von LLMs erzeugten Code ermöglicht.
Frühzeitige Vorhersage von Batteriealterungsverläufen (BDTF), die den vollständigen Gesundheitszustandsverlauf aus frühen Betriebsdaten prognostiziert, ist entscheidend für die Optimierung, Herstellung und den Einsatz von Batterien. Die Daten zur Batteriealterung weisen zwei wesentliche Merkmale auf. Erstens weisen die Alterungsdaten eine mehrstufige Struktur auf, die sowohl alterungsbedingte Gemeinsamkeiten als auch über Batterien hinweg geteilte Verlaufsmuster umfasst. Zweitens sind alterungsbedingte Variationen in den Spannungs-Strom-Profilen oft auf bestimmte Ladezustandsintervalle (SOC) begrenzt. Bestehende Ansätze modellieren diese Merkmale oft nicht explizit. Um diese Lücke zu schließen, schlagen wir BatteryMFormer vor, einen mehrstufigen Transformer für die frühe BDTF. BatteryMFormer integriert (1) einen alterungsbedingungsbewussten Decoder, der über alterungsbedingungsinformierte Abfragen und alterungsbedingungsbewusste Aufmerksamkeit Prioritäten zu Alterungsbedingungen einbringt, (2) einen Meta-Abbau-Muster-Speicher, der Verlaufsprototypen lernt und abruft, um die Langzeitprognose zu leiten, und (3) einen Dual-View-Encoder, der gemeinsam zeitliche Dynamiken und SOC-lokalisierte Variationen aus Spannungs- und Stromzeitreihen erfasst. Umfangreiche Experimente in vier Batteriedomänen zeigen, dass BatteryMFormer durchgängig bessere Ergebnisse erzielt als aktuelle Basislinien und einen bedeutenden Schritt hin zu zuverlässiger BDTF darstellt. Unser Code ist verfügbar unter https://github.com/Ruifeng-Tan/BatteryMFormer.
Aktuelle Studien haben gezeigt, dass große Sprachmodelle (LLMs) eine starke Argumentationsleistung erzielen können, indem sie funktionale symbolische Repräsentationen einbeziehen, die Graphen-Durchlaufalgorithmen und schrittweise Argumentation in Few-Shot-Lernsettings abstrakt beschreiben. Es bleibt jedoch unklar, wie LLMs die abstrakte Bedeutung jedes Argumentationsschritts und des Gesamtalgorithmus aus nur einer begrenzten Anzahl von Demonstrationen wirklich verstehen. Diese Arbeit zielt darauf ab, die Aufmerksamkeitsköpfe zu lokalisieren, die für einzelne Argumentationsschritte verantwortlich sind, und die Arten der zwischen ihnen übertragenen Informationen zu charakterisieren. Wir gleichen zunächst die einzelnen Argumentationsschritte mit ihren entsprechenden Token-Logits unter einem symbolgestützten Chain-of-Thought (CoT)-Prompting-Rahmenwerk ab. Unsere Analyse zeigt, dass Token-Positionen, die den Argumentationsprozess steuern, mit niedrigen Konfidenzwerten verbunden sind, die durch Einschränkungen bei der Erfüllung von Argumentationsverhaltensmustern in Demonstrationen verursacht werden. Anschließend wenden wir Techniken der kausalen Mediationsanalyse an, um die für diese Muster verantwortlichen Aufmerksamkeitsköpfe zu identifizieren. Darüber hinaus deuten unsere Ergebnisse darauf hin, dass LLMs faktenbasierte und regelbasierte Informationen für einzelne Teilargumentationsaufgaben durch spezialisierte Aufmerksamkeitsköpfe (etwa 3% aller Köpfe) abrufen, während höhere Schichten hauptsächlich die Informationsintegration und die Entstehung globaler Argumentationsstrategien (z. B. Graphen-Durchlaufalgorithmen) fördern, die mehrere Zwischenargumentationsschritte koordinieren, um die Gesamtaufgabe zu lösen.
LLM-Agenten handeln zunehmend, indem sie Code schreiben, dennoch besteht eine Kluft zwischen der Laufzeitumgebung, die den Agenten steuert, und dem Code, den das Modell schreibt. Die Laufzeitumgebung besitzt die Steuerung der Schleife, des Kontexts und des Kontrollflusses, und das Modell hat wenig Einfluss auf einen dieser Aspekte. Wenn der vom Modell geschriebene Code die Laufzeitumgebung selbst formen könnte, würden Agenten ausdrucksstärker, aber es würde auch Sicherheitsprobleme verschärfen. Ein Modell kann durch eine Prompt-Injektion abgelenkt werden, das falsche Werkzeug aufrufen oder teilweise fehlschlagen und einen inkonsistenten Zustand hinterlassen, und jeder solche Fehler reicht weiter, wenn der Code die Laufzeitumgebung formt, als wenn er eine einzelne Aktion ausdrückt. Wir präsentieren LACUNA, ein Programmiermodell für Agenten, das diese Kluft schließt und dabei die Sicherheit bewahrt. Jede Agentenaktion ist ein typisierter Aufruf agent[T](task), den das LLM mit Code füllt, wenn die Ausführung ihn erreicht, und der Code wird vor der Ausführung gegen das umgebende Programm typgeprüft. Da jede Aktion als Ganzes akzeptiert oder abgelehnt wird, hinterlässt eine abgelehnte die Umgebung unverändert, und ihre Compiler-Diagnosen steuern einen erneuten Versuch. Dieselbe Prüfung begrenzt auch, welche Werkzeuge und Daten eine Aktion verwenden darf und wie sie fließen. Unser Primitiv drückt ReAct-Schleifen, Unteragenten, Fähigkeiten, parallele Zerlegung und Multi-Modell-Planung als gewöhnlichen Kontrollfluss aus. Wir evaluieren LACUNA anhand einer Sammlung von Testfällen, BrowseComp-Plus und τ^2-bench. Bei BrowseComp-Plus werden 8,6 % der Generierungen vor der Ausführung abgelehnt, mit durchschnittlich 0,7 erneuten Versuchen pro Abfrage, und der Agent erreicht eine Genauigkeit von 27,1 %. Bei τ^2-bench löst LACUNA 76,0 % von 392 Aufgaben in vier Bereichen mit einem leistungsfähigen Modell, gleichauf mit dem Basisagenten.
Referierende Segmentation (Referring Segmentation) zielt darauf ab, Zielobjekte in Bildern oder Videos basierend auf einer textuellen Abfrage zu segmentieren. Trotz bemerkenswerter Fortschritte in den letzten Jahren gehen bestehende Arbeiten stets davon aus, dass die vom Nutzer bereitgestellten Abfragen bereits präzise und eindeutig sind. Diese Annahme ist jedoch unrealistisch. In realen Szenarien ist es nicht zu erwarten, dass alle Nutzer ihre visuellen Inhalte gründlich prüfen und sicherstellen, dass ihre Abfragen eindeutig sind. In solchen Fällen neigen bestehende Segmentierungsmodelle dazu, willkürlich die Präferenzen der Nutzer zu erraten, was häufig zu unerwünschten Ergebnissen führt. Um diese Einschränkung zu beheben, schlagen wir IC-Seg vor, ein neuartiges agentenbasiertes Framework, das durch mehrrundige Gespräche proaktiv die Absicht des Nutzers klärt, bevor die Segmentierung erfolgt. Um diese Fähigkeit effektiv zu fördern, führen wir zudem Hi-GRPO ein, eine neue hierarchische Optimierungsstrategie, die dichte und informative Überwachungssignale auf Trajektorien-, Runden- und Schrittebene einbringt. Diese Strategie fördert eine effiziente Absichtsklärung, eliminiert effektiv redundante Interaktionen und verbessert die gesamte Dialogqualität. Zur Evaluierung etablieren wir Ambi-RVOS, einen Referenzierungs-Benchmark für die Videobjektsegmentierung mit mehrdeutigen Benutzeranfragen. Umfangreiche Experimente zeigen, dass IC-Seg nicht nur bestehende Methoden bei der Auflösung mehrdeutiger Abfragen deutlich übertrifft, sondern auch auf Standard-Benchmarks für Reasoning-Segmentierung state-of-the-art Ergebnisse erzielt. Code und Daten werden unter https://github.com/iSEE-Laboratory/IC-Seg veröffentlicht.
Das Verständnis von 3D-Objekten aus Bildern ist grundlegend für Robotik sowie AR/VR-Anwendungen. Während aktuelle Arbeiten Fortschritte bei der kategoriespezifischen Poseschätzung erzielt haben, erfassen bestehende Repräsentationen nicht die feinkörnige Semantik, die für das Nachdenken über Objektteile, Funktionen und Interaktionen erforderlich ist. In dieser Arbeit untersuchen wir die kategoriespezifische 3D-Korrespondenz im Kameraraum – also die Vorhersage von 3D-Positionen aus einem einzelnen Bild, die über Instanzen einer Kategorie hinweg konsistent bleiben – und zeigen, dass diese ohne explizite Korrespondenzüberwachung entstehen kann, indem ein gemeinsamer morphbarer Objektprior erlernt wird. Um die Forschung in diese Richtung zu ermöglichen, führen wir HouseCorr3D ein, den ersten groß angelegten Benchmark für monokulare kategoriespezifische 3D-Korrespondenz mit 178.000 Bildern aus 50 Haushaltsobjektkategorien, 280 eindeutigen Instanzen und 3D-Schlüsselpunkten, die direkt auf CAD-Modellen annotiert sind. Entscheidend ist, dass HouseCorr3D amodale Korrespondenzlabels für verdeckte Regionen sowie explizite Symmetrieannotationen bereitstellt und damit zentrale Einschränkungen bestehender Datensätze adressiert. Darüber hinaus schlagen wir Morpheus vor, eine Methode, die morphbare kategoriespezifische Formprioren erlernt, indem sie kanonische Form, Deformation und Objektpose entkoppelt. Durch diese gemeinsame kanonische Verankerung entstehen implizit semantisch bedeutsame 3D-Korrespondenzen im Kameraraum. Diese neu entstehenden 3D-Korrespondenzen setzen einen neuen Stand der Technik auf HouseCorr3D und zeigen, dass semantisches 3D-Objektverständnis ohne direkte Korrespondenzüberwachung entstehen kann. Daten und Code sind öffentlich verfügbar unter https://github.com/GenIntel/HouseCorr3D.
Clark Hash ist ein kompaktes Verfahren zur platzsparenden Speicherung neuronaler Einbettungen. Es normalisiert jeden Datenbankvektor, wendet eine deterministische dünnbesetzte signierte Johnson-Lindenstrauss-Projektion an, begrenzt das Ergebnis und speichert einen skalarquantisierten Code mit fester Breite. Anfragen verbleiben in Gleitkommadarstellung und werden mit den gespeicherten Skizzen bewertet. In der Standardeinstellung für 384-dimensionale Satzeinbettungen speichert Clark Hash einen Kosinus-Suchvektor in 48 Bytes anstelle von 1536 Bytes für dichte f32-Speicherung. Dies ist eine 32-fache Reduktion. Das Verfahren benötigt keinen Trainingsdurchlauf, keine erlernten Codebücher, keine Rotationen und keine Korpusstatistiken, bevor neue Vektoren gespeichert werden können. Wir beschreiben den Codec, die Rust-Implementierung und eine mehrsprachige Satzähnlichkeitsbewertung an 9.304 beschrifteten Paaren aus 29 Teilmengen. Mit einem mehrsprachigen MiniLM-Encoder erreichten die 48-Byte-Skizzen eine makro-Pearson-Korrelation von 0,910 bzw. 0,946 mit dichten Kosinuswerten auf STS17 und STS22. Clark Hash ist kein neuer Johnson-Lindenstrauss-Satz und kein Ersatz für approximative Nächste-Nachbarn-Indizes. Es ist ein einfacher zustandsloser Codec zur kompakten Einbettungsspeicherung.
LLM-Sicherheitsevaluierungen testen Modelle überwiegend in Isolation, doch eingesetzte KI-Agenten operieren zunehmend in persistenten sozialen Umgebungen zusammen mit anderen Agenten. Wir stellen eine Moltbook-ähnliche Simulationsplattform vor, in der tausende LLM-Agenten über einen simulierten Monat hinweg in Gemeinschaften interagieren, und nutzen diese, um Privatsphäre als nachgelagertes Sicherheitsproblem unter verschiedenen Graden sozialen Drucks zu evaluieren. Wir stellen fest, dass der Übergang von einzeitigen zu mehrzeitigen sozialen Evaluierungen Datenschutzverletzungen verstärkt (CIMemories 19,95 % vs. unsere 45,30 % bei OpenAI-Modellen), dass Datenlecks sozial ansteckend sind – Agenten geben mit 8-fach höherer Wahrscheinlichkeit sensible Informationen preis, nachdem sie einen Gleichaltrigen dies tun sahen – und dass explizite Datenschutzanweisungen diesen Effekt reduzieren, aber nicht eliminieren, sodass die Leckrate selbst mit Schutzmaßnahmen über 37,8 % bleibt. Unsere Ergebnisse deuten darauf hin, dass statische chatbasierte Sicherheitsbenchmarks Risiken im agentischen Einsatz systematisch unterschätzen und dass allein der soziale Kontext ausreicht, um sensible Offenlegungen auszulösen, die einzeitige Evaluierungen niemals aufdecken würden.
Aktuelle Video-Superauflösungsansätze (VSR) nutzen tiefe neuronale Netze, um qualitativ minderwertige Eingangsvideos zu verbessern und visuelle Details wiederherzustellen, wobei insbesondere diffusionsbasierte Methoden vielversprechende Ergebnisse zeigen. In dieser Arbeit untersuchen wir, ob bestehende Videoqualitätsmodelle zur Bewertung der Leistung dieser diffusionsbasierten VSR-Methoden verwendet werden können, indem wir Modellvorhersagen mit Ergebnissen eines subjektiven Tests vergleichen. Die Studie vergleicht sechs Hochskalierungsmethoden (Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini), die sowohl auf komprimierte (AV1 und DCVC-RT) als auch auf unkomprimierte niedrigauflösende Videos angewendet wurden, unter Berücksichtigung der Wiedergabe auf einem UHD-1/4K-Bildschirm. Eine Reihe von Voll- und No-Referenz-Qualitätsmodellen wird verwendet, um ihre Anwendbarkeit auf diese neue Art der Qualitätsminderung zu bewerten, mit Fokus auf die sequenzinterne Leistung. Die Ergebnisse zeigen, dass CNN-basierte Vollreferenzmodelle wie LPIPS, DISTS und CVQA-FR signifikant höhere Korrelationskoeffizienten aufweisen als sowohl konventionelle Voll- als auch die getesteten No-Referenz-Modelle. Die meisten überschätzen die übermäßig scharfen Ergebnisse von SCST, wobei VMAF hauptsächlich aufgrund räumlicher Inkonsistenzen versagt, die durch Starlight Mini eingeführt werden. Keines der getesteten Videoqualitätsmodelle erreicht eine ausreichende Genauigkeit, um ergänzende subjektive Tests zu ersetzen. Die Referenz-, degradierten und hochskalierten Videos sowie die Benutzerbewertungen und Modellwerte werden mit dem Paper unter https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR als offene Daten bereitgestellt.
Große Sprachmodelle (LLMs) werden überwiegend von probabilistischen Rahmenwerken gesteuert, in denen die Summe der Ergebniswahrscheinlichkeiten auf Eins beschränkt ist. Diese architektonische Einschränkung, die häufig durch Softmax-Schichten auferlegt wird, führt zu einem Kollaps der Unsicherheit, der es erschwert, zwischen epistemischer Unsicherheit, Paradoxon und Vagheit zu unterscheiden. Wir präsentieren eine empirische Untersuchung der Anwendung der Neutrosophischen Logik, eines Rahmens, der Wahrheit (T), Unbestimmtheit (I) und Falschheit (F) als drei unabhängige Dimensionen behandelt, um epistemische Zustände in LLMs zu modellieren. Wir führten Experimente an einer Familie von vier OpenAI-GPT-Modellen zu fünf sprachlichen Phänomenen durch: logische Paradoxa, epistemische Ignoranz, Vagheit, ethische Widersprüche und zukünftige Kontingenzen, unter drei Aufforderungsstrategien: neutrosophisch, probabilistisch und entropieabgeleitet. Unsere Ergebnisse zeigen, dass der neutrosophische Ansatz, indem er T+I+F > 1 zulässt – einen Zustand, den wir Hyper-Wahrheit nennen – eine reichhaltigere Darstellung des internen Zustands eines Modells bietet. In 35 % der Bewertungen trat Hyper-Wahrheit spontan auf, überwiegend bei ethischen Widersprüchen und logischen Paradoxa. Wir demonstrieren, dass dieser Ansatz Wahrheitswerte in unscharfen Kontexten bewahrt und eine robuste Methode zur Identifizierung und Quantifizierung internen Modellkonflikts bietet. Wir schlussfolgern, dass die Integration neutrosophischer Bewertungsschichten ein kritischer Schritt hin zu transparenteren, zuverlässigeren und ethisch bewussteren KI-Systemen ist.
Wir präsentieren PEAM, ein Framework für parametrisches verkörpertes Agentengedächtnis in Minecraft, das das Agentengedächtnis von einem Abruf zur Inferenzzeit in parameterresidente Fähigkeiten umwandelt, die durch Erfahrung internalisiert werden. PEAM kombiniert ein langsames deliberatives LLM für offenes Reasoning mit einem schnellen parametrischen Modul zur reflexiven Ausführung konsolidierter Fähigkeiten. Das schnelle Modul ist eine multimodale Mixture-of-Experts LoRA-Architektur mit kategoriespezifischen physikalisch isolierten Adaptern, die kontinuierliches Lernen auf Parameterebene ohne katastrophales Vergessen ermöglicht. Wir behandeln Fehlschläge als erstklassiges Trainingssignal: Fehler-Korrektur-Trajektorien-Paare werden durch ein gemeinsames Behavioral-Cloning- und Kontrastivziel internalisiert, sodass der Agent nicht nur lernt, was erfolgreich ist, sondern auch, wie sich korrigierte Aktionen von fehlgeschlagenen unterscheiden. Zur Steuerung der Konsolidierung führt PEAM einen Parametrisierungswürdigkeits-Score ein, um zu entscheiden, welche Erfahrung internalisiert werden soll, und einen skalierungsfreien selbstauslösenden Konsolidierungsmechanismus, um zu entscheiden, wann internalisiert werden soll, ohne aufgabenspezifische manuell abgestimmte Schwellenwerte, wodurch der Agent selbstevolutionär wird, da der Auslöser ohne Nachjustierung auf Aufgabenverteilungen übertragen wird. Experimente in Minecraft zeigen, dass PEAM die Leistung bei langfristigen Aufgaben verbessert, das Vergessen zuvor konsolidierter Fähigkeiten abschwächt und die parametrische versus Retrieval-Effizienz im Vergleich zu retrievalbasierten verkörperten Agenten und parametrischen Gedächtnisvarianten verbessert.
Diskrete Diffusionsmodelle haben sich als leistungsfähige Rahmenwerke zur Erzeugung strukturierter kategorialer Daten erwiesen. Dennoch stellt die effiziente Stichprobenentnahme aus belohnungsgewichteten Verteilungen eine grundlegende Herausforderung dar. Während Twisted Sequential Monte Carlo (SMC) asymptotische Exaktheit für diese Aufgabe bietet, erfordert die Schätzung der optimalen Twist-Funktion in diskreten Zustandsräumen kostspielige Monte-Carlo-Näherungen, was zu einem erheblichen rechnerischen Engpass während der Inferenz führt. Um diese Einschränkung zu überwinden, führen wir Contrastive Distribution Matching (CDM) ein, ein neuartiges Rahmenwerk, das die Kosten der SMC-Inferenz amortisiert, indem es eine parametrisierte Twist-Funktion mithilfe positiver und negativer Stichproben lernt. Für ein effizientes Training formulieren wir den Gradientenschätzer neu, um die geschlossenen Vorwärtskerne diskreter Diffusionsmodelle zu nutzen. In der Praxis verursacht die Auswertung unserer erlernten Twist-Funktion weniger als 5 % zusätzlichen rechnerischen Mehraufwand im Vergleich zu einem einzigen Vorwärtsdurchlauf des Basismodells. Durch umfangreiche empirische Auswertungen zeigen wir, dass CDM unter vergleichbarer Wanduhrzeit durchgängig bessere Ergebnisse als bestehende Baselines erzielt. Wir validieren die Effektivität und Vielseitigkeit unseres Ansatzes über eine Vielzahl von Anwendungen hinweg, darunter die Erzeugung toxischer Texte, das Design regulatorischer DNA-Sequenzen, die Designfähigkeit von Proteinen und das Alignment von Diffusions-Großsprachmodellen.