papers.description
Wir stellen STEP3-VL-10B vor, ein leichtgewichtiges Open-Source-Foundation-Modell, das entwickelt wurde, um den Kompromiss zwischen kompakter Effizienz und multimodaler Intelligenz auf höchstem Niveau neu zu definieren. STEP3-VL-10B wird durch zwei strategische Weichenstellungen realisiert: erstens, eine vereinheitlichte, vollständig aufgetaute Vortrainingsstrategie auf 1,2T multimodalen Tokens, die einen sprachlich ausgerichteten Wahrnehmungs-Encoder mit einem Qwen3-8B-Decoder integriert, um eine intrinsische Vision-Language-Synergie zu etablieren; und zweitens, eine skalierte Nachtrainings-Pipeline mit über 1.000 Iterationen des bestärkenden Lernens. Entscheidend ist die Implementierung von Parallel Coordinated Reasoning (PaCoRe), um den Testzeit-Rechenaufwand zu skalieren und Ressourcen für skalierbares perzeptuelles Reasoning bereitzustellen, das diverse visuelle Hypothesen erkundet und synthetisiert. Infolgedessen übertrifft oder erreicht STEP3-VL-10B trotz seines kompakten 10B-Formats Modelle, die 10- bis 20-mal größer sind (z.B. GLM-4.6V-106B, Qwen3-VL-235B), sowie führende proprietäre Flaggschiffmodelle wie Gemini 2.5 Pro und Seed-1.5-VL. Mit erstklassiger Leistung erzielt es 92,2 % auf MMBench und 80,11 % auf MMMU, während es im komplexen Reasoning mit 94,43 % auf AIME2025 und 75,95 % auf MathVision glänzt. Wir veröffentlichen die vollständige Modellsuite, um der Community eine leistungsstarke, effiziente und reproduzierbare Basislinie zur Verfügung zu stellen.
Als Knotenpunkte menschlicher Aktivität bestehen urbane Oberflächen aus einer Vielzahl semantischer Entitäten. Die Segmentierung dieser verschiedenen Entitäten aus Satellitenbildern ist entscheidend für eine Reihe nachgelagerter Anwendungen. Aktuelle fortschrittliche Segmentierungsmodelle können zuverlässig Entitäten segmentieren, die durch physische Attribute definiert sind (z.B. Gebäude, Gewässer), haben aber nach wie vor Schwierigkeiten mit sozial definierten Kategorien (z.B. Schulen, Parks). In dieser Arbeit erreichen wir eine sozio-semantische Segmentierung durch Reasoning mit Vision-Language-Modellen. Um dies zu ermöglichen, führen wir den Urban Socio-Semantic Segmentation-Datensatz namens SocioSeg ein, eine neue Ressource, die Satellitenbilder, digitale Karten und pixelgenaue Labels von sozialen semantischen Entitäten in einer hierarchischen Struktur umfasst. Zusätzlich schlagen wir ein neuartiges Vision-Language-Reasoning-Framework namens SocioReasoner vor, das den menschlichen Prozess der Identifizierung und Annotation sozialer semantischer Entitäten durch cross-modale Erkennung und mehrstufiges Reasoning nachbildet. Wir setzen Reinforcement Learning ein, um diesen nicht-differenzierbaren Prozess zu optimieren und die Reasoning-Fähigkeiten des Vision-Language-Modells zu aktivieren. Experimente zeigen die Verbesserungen unseres Ansatzes gegenüber state-of-the-art Modellen sowie eine starke Zero-Shot-Generalisierung. Unser Datensatz und Code sind verfügbar unter https://github.com/AMAP-ML/SocioReasoner.
Reinforcement Learning (RL) hat sich zu einem zentralen Paradigma für das Nachtraining großer Sprachmodelle (LLMs) entwickelt, insbesondere für komplexe Reasoning-Aufgaben. Dennoch leidet es häufig unter einem Explorationskollaps: Die Strategien konzentrieren sich vorzeitig auf eine kleine Menge dominanter Reasoning-Muster, was pass@1 verbessert, aber die Diversität auf Rollout-Ebene und Gewinne bei pass@k begrenzt. Wir argumentieren, dass dieses Versagen darauf zurückzuführen ist, dass lokales Token-Verhalten regularisiert wird, anstatt die Vielfalt über Lösungsmengen hinweg. Um dies zu adressieren, schlagen wir Uniqueness-Aware Reinforcement Learning vor, ein Ziel auf Rollout-Ebene, das explizit korrekte Lösungen belohnt, die seltene Strategien auf hoher Ebene aufweisen. Unsere Methode verwendet einen LLM-basierten Bewerter, um Rollouts für dasselbe Problem gemäß ihren übergeordneten Lösungsstrategien zu clustern, wobei oberflächliche Variationen ignoriert werden, und gewichtet die Strategievorteile umgekehrt proportional zur Clustergröße neu. Dadurch erhalten korrekte, aber neuartige Strategien eine höhere Belohnung als redundante. In Benchmarks für mathematisches, physikalisches und medizinisches Reasoning verbessert unser Ansatz konsistent pass@k über große Stichprobenbudgets hinweg und erhöht die Fläche unter der pass@k-Kurve (AUC@K), ohne pass@1 zu opfern, während gleichzeitig die Exploration aufrechterhalten und vielfältigere Lösungsstrategien im großen Maßstab aufgedeckt werden.
Multi-Agent-Systeme haben sich zu praktischen, LLM-gesteuerten Kollaborateuren für viele Anwendungen entwickelt und gewinnen Robustheit durch Diversität und gegenseitige Überprüfung. Allerdings ist das Training von Multi-Agent Reinforcement Learning (MARL) ressourcenintensiv und instabil: die Koanpassung von Teammitgliedern führt zu Nicht-Stationarität, und Belohnungssignale sind oft spärlich und hochvarianz. Daher führen wir Multi-Agent Test-Time Reinforcement Learning (MATTRL) ein, ein Framework, das strukturierte textuelle Erfahrung zur Inferenzzeit in die Deliberation mehrerer Agenten einbringt. MATTRL bildet ein Multi-Experten-Team von Spezialisten für mehrstufige Diskussionen, ruft Testzeit-Erfahrungen ab und integriert sie und erzielt einen Konsens für die endgültige Entscheidungsfindung. Wir untersuchen auch Credit Assignment für den Aufbau eines erfahrungsbasierten Pools auf Turn-Ebene, um diese anschließend wieder in den Dialog einzuspeisen. In anspruchsvollen Benchmarks aus den Bereichen Medizin, Mathematik und Bildung verbessert MATTRL die Genauigkeit im Durchschnitt um 3,67 % gegenüber einer Multi-Agent-Baseline und um 8,67 % gegenüber vergleichbaren Single-Agent-Baselines. Ablationsstudien untersuchen verschiedene Credit-Assignment-Schemata und bieten einen detaillierten Vergleich ihrer Auswirkungen auf die Trainingsergebnisse. MATTRL bietet einen stabilen, effektiven und effizienten Weg zu distributionsverschiebungsrobustem Multi-Agenten-Reasoning ohne Anpassung der Parameter.
Instruktionsbasierte Bildbearbeitung zählt zu den am schnellsten wachsenden Bereichen der generativen KI. Im vergangenen Jahr hat das Feld ein neues Niveau erreicht, mit dutzenden veröffentlichten Open-Source-Modellen neben leistungsstarken kommerziellen Systemen. Allerdings erreichen derzeit nur wenige Open-Source-Ansätze praxistaugliche Qualität. Zudem sind Diffusionsmodelle, die dominierende Wahl für diese Pipelines, oft groß und rechenintensiv für viele Einsatzgebiete und Forschungsumgebungen, wobei weit verbreitete Varianten typischerweise 6 bis 20 Milliarden Parameter enthalten. Dieses Paper stellt eine kompakte, hochdurchsatzfähige Pipeline zur instruktionsbasierten Bildbearbeitung vor, die ein modernes Qwen3-VL-Modell mit 2 Milliarden Parametern zur Steuerung des Bearbeitungsprozesses und das Diffusionsmodell Sana1.5 mit 1,6 Milliarden Parametern zur Bildgenerierung nutzt. Unsere Designentscheidungen in den Bereichen Architektur, Datenverarbeitung, Trainingskonfiguration und Evaluation zielen auf kostengünstige Inferenz und strikte Quellkonsistenz ab, bei gleichzeitiger Beibehaltung hoher Qualität über die wichtigsten Bearbeitungskategorien, die in diesem Maßstab möglich sind. Evaluierungen auf den Benchmarks ImgEdit und GEdit zeigen, dass die vorgeschlagene Methode die Leistung erheblich schwererer Baseline-Modelle erreicht oder übertrifft, einschließlich Modellen mit mehrfach so vielen Parametern und höheren Inferenzkosten, und besonders stark bei Bearbeitungen ist, die die Erhaltung des Ausgangsbildes erfordern, wie Attributanpassungen, Objektentfernung, Hintergrundbearbeitungen und gezielte Ersetzungen. Das Modell passt in 24 GB GPU-Speicher und erzeugt bearbeitete Bilder mit bis zu 2K-Auflösung in etwa 4 Sekunden auf einer NVIDIA H100 in BF16, ohne zusätzliche Inferenzoptimierungen oder Distillation.
Die zentrale Herausforderung von KI für die Wissenschaft liegt nicht allein im Schlussfolgern, sondern in der Fähigkeit, computergestützte Methoden in einer offenen wissenschaftlichen Welt zu entwickeln. Bestehende, auf LLMs basierende Agenten greifen auf statische, vordefinierte Werkzeugbibliotheken zurück – ein Paradigma, das in wissenschaftlichen Domänen grundlegend versagt, wo Werkzeuge spärlich vorhanden, heterogen und inhärent unvollständig sind. In diesem Artikel schlagen wir Test-Time Tool Evolution (TTE) vor, ein neues Paradigma, das Agenten ermöglicht, während des Inferenzvorgangs ausführbare Werkzeuge zu synthetisieren, zu verifizieren und weiterzuentwickeln. Indem TTE Werkzeuge von festen Ressourcen in problemgetriebene Artefakte transformiert, überwindet es die Starrheit und die Long-Tail-Limitierungen statischer Werkzeugbibliotheken. Um eine rigorose Evaluation zu ermöglichen, führen wir SciEvo ein, einen Benchmark, der 1.590 wissenschaftliche Denkaufgaben umfasst und durch 925 automatisch evolvierte Werkzeuge unterstützt wird. Umfangreiche Experimente zeigen, dass TTE state-of-the-art Leistung sowohl in Bezug auf Genauigkeit als auch auf Werkzeugeffizienz erzielt und gleichzeitig eine effektive domänenübergreifende Anpassung computergestützter Werkzeuge ermöglicht. Der Code und der Benchmark sind unter https://github.com/lujiaxuan0520/Test-Time-Tool-Evol verfügbar.
Die Entwicklung künstlicher Intelligenz hin zu agentenbasierter Wissenschaft wird derzeit durch die Herausforderung der ultra-langfristigen Autonomie gebremst – der Fähigkeit, strategische Kohärenz und iterative Korrektur über Experimentierzyklen von Tagen oder Wochen aufrechtzuerhalten. Während Large Language Models (LLMs) bei kurzfristigen Denkaufgaben beeindruckende Fähigkeiten gezeigt haben, scheitern sie in hochdimensionalen, verzögerungsbehafteten Forschungsumgebungen schnell an der Komplexität der Ausführungsdetails und können sporadische Rückmeldungen nicht in kohärente Langzeitstrategien integrieren. Hier stellen wir ML-Master 2.0 vor, einen autonomen Agenten, der ultra-langfristiges Machine-Learning-Engineering (MLE) beherrscht – einen repräsentativen Mikrokosmos wissenschaftlicher Entdeckung. Indem wir Kontextmanagement als Prozess kognitiver Akkumulation neu definieren, führt unser Ansatz Hierarchical Cognitive Caching (HCC) ein, eine mehrstufige Architektur, inspiriert von Computersystemen, die eine strukturelle Differenzierung von Erfahrung über die Zeit ermöglicht. Durch dynamische Verdichtung flüchtiger Ausführungsspuren in stabiles Wissen und aufgabentibergreifende Weisheit erlaubt es HCC Agenten, unmittelbare Ausführung von langfristiger Experimentierstrategie zu entkoppeln und so die Skalierungsgrenzen statischer Kontextfenster zu überwinden. In Evaluierungen auf OpenAIs MLE-Bench mit 24-Stunden-Budgets erzielt ML-Master 2.0 eine state-of-the-art Erfolgsrate von 56,44%. Unsere Ergebnisse zeigen, dass ultra-langfristige Autonomie einen skalierbaren Bauplan für KI bietet, die eigenständige Exploration jenseits menschlicher Komplexitätsvorlagen ermöglicht.
Vision-Language Pre-training (VLP)-Modelle erzielen durch kontrastives Vorabtraining an groß angelegten Bild-Text-Paaren hohe Leistungen in verschiedenen Downstream-Aufgaben. Die Verfügbarkeit umfangreicher englischsprachiger Bild-Text-Datensätze (z.B. COYO-700M und LAION-400M) hat die weite Verbreitung von Modellen wie CLIP und SigLIP in Aufgabenbereichen wie cross-modaler Retrieval und Bildbeschreibung ermöglicht. Die Entwicklung chinesischer Vision-Language-Pre-training-Modelle hingegen ist aufgrund des Mangels an hochwertigen chinesischen Bild-Text-Daten erheblich zurückgeblieben. Um diese Lücke zu schließen, entwickeln wir einen umfassenden Prozess zur Erstellung eines hochwertigen chinesischen cross-modalen Datensatzes. Als Ergebnis präsentieren wir DanQing, das 100 Millionen Bild-Text-Paare umfasst, die von Common Crawl gesammelt wurden. Im Unterschied zu bestehenden Datensätzen wird DanQing durch einen strengeren Auswahlprozess kuratiert, was eine überlegene Datenqualität gewährleistet. Darüber hinaus basiert DanQing primär auf Webdaten aus den Jahren 2024–2025, wodurch Modelle in der Lage sind, sich entwickelnde semantische Trends besser zu erfassen und somit einen höheren praktischen Nutzen zu bieten. Wir vergleichen DanQing mit bestehenden Datensätzen durch kontinuierliches Vorabtraining des SigLIP2-Modells. Experimentelle Ergebnisse zeigen, dass DanQing durchweg eine überlegene Leistung über eine Reihe chinesischer Downstream-Aufgaben hinweg erzielt, einschließlich Zero-Shot-Klassifikation, cross-modaler Retrieval und bewertungen auf Basis von LMMs. Um die weitere Forschung im Bereich chinesisches Vision-Language-Pre-training zu fördern, werden wir den DanQing-Datensatz unter der Creative Commons CC-BY 4.0-Lizenz open-source verfügbar machen.
Aktuelle Videogenerierungsmodelle haben das Auftreten von Chain-of-Frame (CoF)-Reasoning aufgezeigt, das eine bildliche Schlussfolgerung Frame für Frame ermöglicht. Mit dieser Fähigkeit wurden Videomodelle erfolgreich auf verschiedene visuelle Aufgaben angewendet (z.B. Labyrinth-Lösung, visuelle Rätsel). Ihr Potenzial zur Verbesserung der Text-zu-Bild (T2I)-Generierung bleibt jedoch weitgehend unerforscht, da im T2I-Generierungsprozess ein klar definierter visueller Reasoning-Startpunkt und interpretierbare Zwischenzustände fehlen. Um diese Lücke zu schließen, schlagen wir CoF-T2I vor, ein Modell, das CoF-Reasoning über progressive visuelle Verfeinerung in die T2I-Generierung integriert, wobei Zwischenframes als explizite Reasoning-Schritte dienen und der letzte Frame als Ausgabe verwendet wird. Um einen solchen expliziten Generierungsprozess zu etablieren, haben wir CoF-Evol-Instruct kuratiert, einen Datensatz von CoF-Trajektorien, die den Generierungsprozess von Semantik zu Ästhetik modellieren. Um die Qualität weiter zu verbessern und Bewegungsartefakte zu vermeiden, ermöglichen wir eine unabhängige Enkodierungsoperation für jeden Frame. Experimente zeigen, dass CoF-T2I das Basis-Videomodell signifikant übertrifft und eine wettbewerbsfähige Leistung auf anspruchsvollen Benchmarks erzielt, mit 0,86 auf GenEval und 7,468 auf Imagine-Bench. Diese Ergebnisse deuten auf das beträchtliche Potenzial von Videomodellen für die Weiterentwicklung hochwertiger Text-zu-Bild-Generierung hin.
Jüngste Fortschritte bei Text-zu-Bild (T2I) Diffusionsmodellen (DMs) haben eine hochwertige visuelle Synthese aus diversen textuellen Eingabeaufforderungen ermöglicht. Dennoch sind die meisten existierenden T2I-DMs, selbst solche mit textbasierten Encodern auf Basis großer Sprachmodelle (LLMs), nach wie vor Text-Pixel-Mapper – sie setzen LLMs lediglich als Textencoder ein, ohne deren inhärente Fähigkeiten zum Schlussfolgern zu nutzen, um abzuleiten, was visuell dargestellt werden sollte. Um über eine solche wortwörtliche Generierung hinauszugehen, schlagen wir das Think-then-Generate (T2G) Paradigma vor, bei dem der LLM-basierte Textencoder dazu angeregt wird, über rohe Benutzereingaben nachzudenken und diese umzuschreiben; die Zustände der umgeschriebenen Eingaben dienen dann als Diffusionskonditionierung. Um dies zu erreichen, aktivieren wir zunächst das "Nachdenken-und-dann-Umschreiben"-Muster des LLM-Encoders durch einen leichtgewichtigen, überwachten Feinabstimmungsprozess. Anschließend werden der LLM-Encoder und das Diffusions-Backbone gemeinsam optimiert, um ein treues Schlussfolgern über den Kontext und eine präzise Wiedergabe der Semantik mittels Dual-GRPO zu gewährleisten. Insbesondere wird der Textencoder unter Verwendung bildgestützter Belohnungen verstärkt, um Weltwissen abzuleiten und abzurufen, während das Diffusions-Backbone dazu angehalten wird, semantisch konsistente und visuell kohärente Bilder zu erzeugen. Experimente zeigen substantielle Verbesserungen bei der faktischen Konsistenz, semantischen Ausrichtung und visuellen Realismus über Reasoning-basierte Bildgenerierungs- und Bearbeitungs-Benchmarks hinweg, mit einem Wert von 0,79 im WISE-Score, was nahezu mit GPT-4 gleichauf ist. Unsere Ergebnisse stellen einen vielversprechenden Schritt in Richtung nächster Generation vereinheitlichter Modelle mit Fähigkeiten zum Schlussfolgern, Ausdrücken und Demonstrieren dar.
Große Video-Diffusions- und Flow-Modelle haben bemerkenswerte Erfolge bei der Erzeugung hochwertiger Videos erzielt, doch ihre Verwendung in Echtzeit-Interaktionsanwendungen bleibt aufgrund ihres ineffizienten Multi-Step-Sampling-Prozesses eingeschränkt. In dieser Arbeit stellen wir Transition Matching Distillation (TMD) vor, ein neuartiges Framework zur Distillation von Video-Diffusionsmodellen in effiziente Few-Step-Generatoren. Die zentrale Idee von TMD ist es, die Multi-Step-Entrauschungstrajektorie eines Diffusionsmodells mit einem Few-Step-Wahrscheinlichkeitsübergangsprozess abzugleichen, wobei jeder Übergang als leichtgewichtiger konditioneller Flow modelliert wird. Um eine effiziente Distillation zu ermöglichen, zerlegen wir das ursprüngliche Diffusions-Backbone in zwei Komponenten: (1) ein Haupt-Backbone, das die Mehrheit der frühen Schichten umfasst und semantische Repräsentationen in jedem äußeren Übergangsschritt extrahiert; und (2) einen Flow-Head, bestehend aus den letzten wenigen Schichten, der diese Repräsentationen nutzt, um mehrere innere Flow-Updates durchzuführen. Ausgehend von einem vortrainierten Video-Diffusionsmodell führen wir zunächst einen Flow-Head in das Modell ein und passen es an eine konditionelle Flow-Map an. Anwenden wenden wir dann Distribution Matching Distillation auf das Studentenmodell mit Flow-Head-Rollout in jedem Übergangsschritt an. Umfangreiche Experimente zur Distillation von Wan2.1 1.3B und 14B Text-to-Video-Modellen zeigen, dass TMD eine flexible und starke Balance zwischen Generierungsgeschwindigkeit und visueller Qualität bietet. Insbesondere übertrifft TMD bestehende distillierte Modelle bei vergleichbaren Inferenzkosten in Bezug auf visuelle Qualität und Prompt-Treue. Projektseite: https://research.nvidia.com/labs/genair/tmd
Tool-Integrated Reasoning (TIR) befähigt große Sprachmodelle (LLMs), komplexe Aufgaben zu bewältigen, indem Denkschritte mit externen Werkzeuginteraktionen verschachtelt werden. Bisherige Verstärkungslernverfahren stützen sich jedoch typischerweise auf Ergebnis- oder Trajektorien-basierte Belohnungen, die allen Schritten innerhalb einer Trajektorie einheitliche Vorteile zuweisen. Diese grobgranulare Gutschriftzuweisung kann effektive Werkzeugaufrufe nicht von redundanten oder fehlerhaften unterscheiden, insbesondere in langfristigen, mehrstufigen Szenarien. Um dieses Problem zu lösen, schlagen wir MatchTIR vor, ein Framework, das feingranulare Überwachung durch bipartite, matching-basierte Belohnungszuweisung auf Turn-Ebene und duale Vorteilsschätzung einführt. Konkret formulieren wir die Gutschriftzuweisung als bipartites Matching-Problem zwischen vorhergesagten und Ground-Truth-Abläufen und nutzen zwei Zuordnungsstrategien, um dichte Belohnungen auf Turn-Ebene abzuleiten. Darüber hinaus führen wir ein duales Vorteilsschätzverfahren ein, das lokale Schritttreue mit globalem Aufgaben-erfolg abwägt, indem es Turn- und Trajektorien-basierte Signale integriert und einzelnen Interaktionsrunden distincte Vorteilswerte zuweist. Umfangreiche Experimente mit drei Benchmarks demonstrieren die Überlegenheit von MatchTIR. Bemerkenswerterweise übertrifft unser 4B-Modell die Mehrheit der 8B-Konkurrenten, insbesondere bei langfristigen und mehrstufigen Aufgaben. Unsere Codes sind verfügbar unter https://github.com/quchangle1/MatchTIR.
Die leistungsstärksten Video-Sprachmodelle (VLMs) sind auch heute noch proprietär. Die besten Open-Weight-Modelle verlassen sich entweder auf synthetische Daten von proprietären VLMs, was effektiv einer Destillation von diesen gleichkommt, oder sie legen ihre Trainingsdaten und -methoden nicht offen. Infolgedessen fehlt der Open-Source-Community die Grundlage, um den State-of-the-Art bei Video- (und Bild-) Sprachmodellen weiterzuentwickeln. Entscheidend ist, dass viele nachgelagerte Anwendungen mehr erfordern als nur ein hochleveliges Videoverständnis; sie benötigen Grounding – entweder durch Zeigen (Pointing) oder Verfolgen (Tracking) auf Pixelebene. Selbst proprietäre Modelle verfügen nicht über diese Fähigkeit. Wir stellen Molmo2 vor, eine neue Familie von VLMs, die im Open-Source-Bereich state-of-the-art sind und außergewöhnliche neue Fähigkeiten im punktgesteuerten Grounding bei Einzelbild-, Mehrbild- und Videoaufgaben demonstrieren. Unser Hauptbeitrag ist eine Sammlung von 7 neuen Video-Datensätzen und 2 Mehrbild-Datensätzen, darunter ein Datensatz mit hochdetaillierten Videobeschriftungen für Pre-Training, ein freiformatiertes Video-Frage-Antwort-Datensatz für Fine-Tuning, ein neuer Objekt-Tracking-Datensatz mit komplexen Abfragen und ein innovativer neuer Video-Pointing-Datensatz, die alle ohne die Verwendung geschlossener VLMs erhoben wurden. Wir stellen auch ein Trainingsrezept für diese Daten vor, das ein effizientes Packing- und Message-Tree-Encoding-Schema nutzt, und zeigen, dass bidirektionale Aufmerksamkeit auf Vision-Tokens und eine neuartige Token-Gewichtungsstrategie die Leistung verbessern. Unser bestes 8B-Modell übertrifft andere Modelle der Klasse der Open-Weight- und Open-Data-Modelle bei kurzen Videos, Zählaufgaben und Beschriftungen und ist bei langen Videos wettbewerbsfähig. Beim Video-Grounding übertrifft Molmo2 existierende Open-Weight-Modelle wie Qwen3-VL deutlich (35,5 vs. 29,6 Genauigkeit beim Video-Counting) und übertrifft proprietäre Modelle wie Gemini 3 Pro bei einigen Aufgaben (38,4 vs. 20,0 F1 beim Video-Pointing und 56,2 vs. 41,1 J&F beim Video-Tracking).
Wir stellen Alterbute vor, eine diffusionsbasierte Methode zur Bearbeitung der intrinsischen Attribute eines Objekts in einem Bild. Wir ermöglichen die Änderung von Farbe, Textur, Material und sogar der Form eines Objekts, während dessen wahrgenommene Identität und der Szenenkontext erhalten bleiben. Bestehende Ansätze verlassen sich entweder auf unüberwachte Priori-Informationen, die oft die Identität nicht bewahren können, oder verwenden eine zu restriktive Überwachung, die bedeutungsvolle intrinsische Variationen verhindert. Unsere Methode basiert auf: (i) einem relaxierten Trainingsziel, das es dem Modell erlaubt, sowohl intrinsische als auch extrinsische Attribute zu verändern, bedingt durch ein Identitätsreferenzbild, eine textuelle Beschreibung der Ziel-Attribute sowie ein Hintergrundbild und eine Objektmaske, die den extrinsischen Kontext definieren. Zur Inferenzzeit schränken wir extrinsische Änderungen ein, indem wir den ursprünglichen Hintergrund und die Objektmaske wiederverwenden, wodurch sichergestellt wird, dass nur die gewünschten intrinsischen Attribute verändert werden; (ii) Visuellen Benannten Entitäten (VNEs) – feinkörnigen visuellen Identitätskategorien (z.B. „Porsche 911 Carrera“), die Objekte gruppieren, die identitätsdefinierende Merkmale teilen, während Variationen in den intrinsischen Attributen zugelassen werden. Wir verwenden ein Vision-Language-Modell, um automatisch VNE-Labels und Beschreibungen intrinsischer Attribute aus einem großen öffentlichen Bilddatensatz zu extrahieren, was eine skalierbare, identitätserhaltende Überwachung ermöglicht. Alterbute übertrifft bestehende Methoden bei der identitätserhaltenden Bearbeitung intrinsischer Objektattribute.
Während LLM-basierte Agenten über den Aufruf externer Tools mit Umgebungen interagieren können, vergrößern ihre erweiterten Fähigkeiten auch die Sicherheitsrisiken. Die Echtzeitüberwachung von Tool-Aufrufverhalten auf Schrittebene und das proaktive Eingreifen vor unsicherer Ausführung sind entscheidend für den Agenteneinsatz, wurden jedoch bisher kaum erforscht. In dieser Arbeit entwickeln wir zunächst TS-Bench, einen neuartigen Benchmark für die Erkennung von Sicherheitsrisiken bei Tool-Aufrufen auf Schrittebene in LLM-Agenten. Anschließend entwickeln wir mit Multi-Task-Verstärkungslernen ein Sicherheitsmodell namens TS-Guard. Dieses Modell erkennt proaktiv unsichere Tool-Aufrufaktionen vor deren Ausführung, indem es die Interaktionshistorie analysiert. Es bewertet die Schädlichkeit von Anfragen sowie Aktions-Angriff-Korrelationen und erzeugt interpretierbare und generalisierbare Sicherheitsbewertungen und Rückmeldungen. Darüber hinaus führen wir TS-Flow ein, ein sicherheitsgesteuertes Reasoning-Framework für LLM-Agenten, das schädliche Tool-Aufrufe von ReAct-style-Agenten im Durchschnitt um 65 Prozent reduziert und die erfolgreiche Bearbeitung legitimer Aufgaben unter Prompt-Injection-Angriffen um etwa 10 Prozent verbessert.
Die rasante Entwicklung von Large Language Models (LLMs) und Multimodalen Large Language Models (MLLMs) hat zu erheblichen Fortschritten in den Bereichen logisches Denken, Wahrnehmung und generative Fähigkeiten in Sprache und Vision geführt. Es bleibt jedoch unklar, ob diese Fortschritte auch zu proportionalen Verbesserungen der Sicherheit führen, was teilweise auf fragmentierte Evaluierungspraktiken zurückzuführen ist, die sich auf einzelne Modalitäten oder Bedrohungsmodelle beschränken. In diesem Bericht präsentieren wir eine integrierte Sicherheitsbewertung von 7 Frontier-Modellen: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro und Seedream 4.5. Wir bewerten jedes Modell in den Bereichen Sprache, Sprach-Vision und Bildgenerierung anhand eines einheitlichen Protokolls, das Benchmark-Evaluierung, Adversarial-Evaluierung, mehrsprachige Evaluierung und Compliance-Evaluierung integriert. Die Zusammenfassung unserer Bewertungen in Sicherheits-Ranglisten und Modell-Sicherheitsprofilen über mehrere Evaluierungsmodi hinweg zeigt ein stark heterogenes Sicherheitslandschaftsbild. Während GPT-5.2 durchgängig starke und ausgewogene Sicherheitsleistungen über alle Evaluierungen hinweg demonstriert, weisen andere Modelle deutliche Zielkonflikte zwischen Benchmark-Sicherheit, adversarieller Ausrichtung, mehrsprachiger Generalisierung und regulatorischer Compliance auf. Sowohl Sprach- als auch Sprach-Vision-Modalitäten zeigen signifikante Verwundbarkeit unter adversarieller Evaluierung, wobei sich alle Modelle trotz starker Ergebnisse in Standard-Benchmarks erheblich verschlechtern. Text-zu-Bild-Modelle erreichen eine relativ stärkere Ausrichtung in regulierten visuellen Risikokategorien, bleiben jedoch unter adversariellen oder semantisch mehrdeutigen Prompts anfällig. Insgesamt zeigen diese Ergebnisse, dass die Sicherheit von Frontier-Modellen inhärent multidimensional ist – geprägt durch Modalität, Sprache und Evaluierungsschema. Dies unterstreicht die Notwendigkeit standardisierter Sicherheitsevaluierungen, um reale Risiken genau zu bewerten und eine verantwortungsvolle Modellentwicklung und -bereitstellung zu leiten.
Das Ableiten physischer Handlungen aus visuellen Beobachtungen ist eine grundlegende Fähigkeit für die Weiterentwicklung maschineller Intelligenz in der physischen Welt. Um dies zu erreichen, werden große, offen-vokabulare Videoaktionsdatensätze benötigt, die breite Domänen abdecken. Wir stellen Action100M vor, einen großangelegten Datensatz, der aus 1,2 Millionen Internet-Anleitungsvideos (14,6 Jahre Gesamtdauer) erstellt wurde und etwa 100 Millionen zeitlich lokalisierte Segmente mit offen-vokabularer Aktionsannotation und umfangreichen Beschreibungen liefert. Action100M wird durch eine vollständig automatisierte Pipeline generiert, die (i) eine hierarchische temporale Segmentierung unter Verwendung von V-JEPA-2-Embeddings durchführt, (ii) mehrstufige Bild- und Segmentbeschreibungen erzeugt, die als Baum-von-Beschreibungen organisiert sind, und (iii) Evidenzen mit einem Reasoning-Modell (GPT-OSS-120B) in einem mehrstufigen Self-Refine-Verfahren aggregiert, um strukturierte Annotationen auszugeben (kurze/detaillierte Aktion, Akteur, kurze/detaillierte Beschreibung). Das Training von VL-JEPA auf Action100M zeigt konsistente Verbesserungen durch Datenskalierung und starke Zero-Shot-Leistungen über verschiedene Aktionserkennungs-Benchmarks hinweg, was Action100M als neue Grundlage für skalierbare Forschung im Bereich Videoverständnis und Weltmodellierung etabliert.
Die interaktive humanoide Videogenerierung zielt darauf ab, lebensechte visuelle Agenten zu synthetisieren, die durch kontinuierliches und responsives Video mit Menschen interagieren können. Trotz jüngster Fortschritte in der Videosynthese kämpfen bestehende Methoden oft mit dem Zielkonflikt zwischen hochwertiger Synthese und den Anforderungen an Echtzeitinteraktion. In diesem Beitrag stellen wir FlowAct-R1 vor, ein Framework, das speziell für die echtzeitfähige interaktive humanoide Videogenerierung entwickelt wurde. Aufbauend auf einer MMDiT-Architektur ermöglicht FlowAct-R1 die Streaming-Synthese von Videos beliebiger Länge bei gleichzeitiger Beibehaltung niedriger Latenzzeiten. Wir führen eine chunkweise Diffusions-Forcing-Strategie ein, ergänzt durch eine neuartige Self-Forcing-Variante, um Fehlerakkumulation zu reduzieren und langfristige zeitliche Konsistenz während kontinuierlicher Interaktionen zu gewährleisten. Durch effiziente Distillation und systemweite Optimierungen erreicht unser Framework eine stabile Bildrate von 25 fps bei 480p-Auflösung mit einer Time-to-First-Frame (TTFF) von nur etwa 1,5 Sekunden. Die vorgeschlagene Methode bietet eine ganzheitliche und feingranulare Ganzkörpersteuerung, die es dem Agenten ermöglicht, in interaktiven Szenarien natürlich zwischen verschiedenen Verhaltenszuständen zu wechseln. Experimentelle Ergebnisse zeigen, dass FlowAct-R1 eine außergewöhnliche Verhaltensvitalität und perzeptuelle Realitätsnähe erreicht und dabei eine robuste Generalisierung über verschiedene Charakterstile hinweg beibehält.
Wir stellen eine Familie quelloffener Music Foundation Models vor, die entwickelt wurden, um das groß angelegte Musikverständnis und die Musikerzeugung über verschiedene Aufgaben und Modalitäten hinweg zu verbessern. Unser Framework besteht aus vier Hauptkomponenten: (1) HeartCLAP, einem Audio-Text-Ausrichtungsmodell; (2) HeartTranscriptor, einem robusten Modell zur Texterkennung, das für reale Musikszenarien optimiert ist; und (3) HeartCodec, einem Musik-Codec-Tokenizer mit niedriger Bildwiederholrate (12,5 Hz) und dennoch hoher Wiedergabetreue, der langreichweitige musikalische Strukturen erfasst, während feinkörnige akustische Details erhalten bleiben und eine effiziente autoregressive Modellierung ermöglicht wird; (4) HeartMuLa, einem LLM-basierten Songgenerierungsmodell, das in der Lage ist, hochwertige Musik unter reichhaltigen, benutzersteuerbaren Bedingungen zu synthetisieren (z. B. textuelle Stilbeschreibungen, Texte und Referenzaudio). Darüber hinaus bietet es zwei spezielle Modi: (i) feinkörnige musikalische Attributsteuerung, die es Benutzern ermöglicht, den Stil verschiedener Songabschnitte (z. B. Intro, Strophe, Refrain) mithilfe natürlicher Sprachbefehle festzulegen; und (ii) kurze, ansprechende Musikerzeugung, die sich als Hintergrundmusik für Kurzvideos eignet. Schließlich verbessert sich HeartMuLa erheblich, wenn es auf 7B Parameter skaliert wird. Wir zeigen erstmals, dass ein Suno-ähnliches, kommerziell einsetzbares System mit akademischen Daten- und GPU-Ressourcen reproduziert werden kann. Wir erwarten, dass diese Foundation Models als starke Baselines für zukünftige Forschung dienen und praktische Anwendungen in der multimodalen Inhaltsproduktion erleichtern werden.
Große Sprachmodelle (LLMs) haben sich als leistungsfähige Operatoren für die evolutionäre Suche erwiesen, doch das Design effizienter Suchgerüste bleibt ad hoc. Obwohl vielversprechend, mangelt es aktuellen LLM-in-the-Loop-Systemen an einem systematischen Ansatz zur Steuerung des evolutionären Prozesses. Wir identifizieren drei spezifische Fehlermodi: Kontextverschmutzung, bei der die Experimenthistorie die zukünftige Kandidatengenerierung verzerrt; Moduszusammenbruch, bei dem Agenten aufgrund eines schlechten Explorations-Exploitations-Verhältnisses in lokalen Minima stagnieren; und Schwache Kollaboration, bei der rigide Crossover-Strategien parallele Suchtrajektorien nicht effektiv nutzen. Wir stellen Progress-Aware Consistent Evolution (PACEvolve) vor, einen Rahmen zur robusten Steuerung des Agentenkontexts und der Suchdynamik, um diesen Herausforderungen zu begegnen. PACEvolve kombiniert hierarchisches Kontextmanagement (HCM) mit Bereinigung, um Kontextverschmutzung zu adressieren; momentum-basiertes Backtracking (MBB), um lokale Minima zu verlassen; und eine selbstadaptive Sampling-Strategie, die Backtracking und Crossover zur dynamischen Suchkoordination (CE) vereint, sodass Agenten interne Verfeinerung mit trajektorienübergreifender Kollaboration abwägen können. Wir zeigen, dass PACEvolve einen systematischen Weg zu konsistenter, langfristiger Selbstverbesserung bietet und state-of-the-art Ergebnisse auf LLM-SR und KernelBench erzielt, während es Lösungen entdeckt, die den Rekord auf Modded NanoGPT übertreffen.
Die Erzeugung von Molekülen, die präzise numerische Einschränkungen über mehrere physikochemische Eigenschaften erfüllen, ist von entscheidender Bedeutung und gleichzeitig herausfordernd. Obwohl große Sprachmodelle (LLMs) ausdrucksstark sind, haben sie Schwierigkeiten mit präziser multiobjektiver Steuerung und numerischem Schlussfolgern ohne externe Struktur und Rückmeldung. Wir stellen M olGen vor, ein fragmentbasiertes, retrieval-erweitertes, zweistufiges Framework zur Molekülgenerierung unter Mehrfacheigenschafts-Bedingungen. Stufe I: Prototyp-Generierung: Ein Multi-Agenten-Reasoner führt retrieval-verankerte, fragmentbasierte Editierungen durch, um einen Kandidaten in der Nähe des zulässigen Bereichs zu erzeugen. Stufe II: RL-basierte Feinoptimierung: Ein fragmentbasierter Optimierer, der mit Group Relative Policy Optimization (GRPO) trainiert wurde, wendet Ein- oder Mehrschritt-Verfeinerungen an, um die Eigenschaftsfehler explizit in Richtung unseres Ziels zu minimieren und dabei die Editierkomplexität und die Abweichung vom Prototyp zu regulieren. Ein großer, automatisch kuratierter Datensatz mit Reasoning-Ketten von Fragmenteditierungen und gemessenen Eigenschaftsdifferenzen bildet die Grundlage für beide Stufen und ermöglicht deterministische, reproduzierbare Überwachung und kontrollierbares Mehrschritt-Reasoning. Im Gegensatz zu früheren Arbeiten kann unser Framework Moleküle besser durch die Nutzung von Fragmenten erschließen und unterstützt eine kontrollierbare Verfeinerung hin zu numerischen Zielwerten. Experimente zur Generierung unter zwei Sätzen von Eigenschaftsbedingungen (QED, LogP, Molekulargewicht und HOMO, LUMO) zeigen konsistente Verbesserungen bei der Validität und der präzisen Erfüllung von Mehrfacheigenschaftszielen und übertreffen dabei leistungsstarke LLMs und graphenbasierte Algorithmen.
Aktuelle generative Video-Modelle erzeugen vielversprechende visuelle Inhalte, verletzen jedoch häufig grundlegende physikalische Prinzipien, was ihren Nutzen einschränkt. Während einige diesen Mangel auf ein unzureichendes Physikverständnis aus dem Pre-Training zurückführen, stellen wir fest, dass das Defizit an physikalischer Plausibilität auch auf suboptimale Inferenzstrategien zurückgeht. Daher führen wir WMReward ein und behandeln die Verbesserung der physikalischen Plausibilität bei der Videogenerierung als ein Alignment-Problem zur Inferenzzeit. Insbesondere nutzen wir die starke Physik-Prior eines latenten Weltmodells (hier VJEPA-2) als Belohnung, um mehrere Denoising-Trajektorien zu suchen und zu steuern. Dies ermöglicht es, den Rechenaufwand zur Testzeit zu skalieren, um eine bessere Generierungsleistung zu erzielen. Empirisch verbessert unser Ansatz die physikalische Plausibilität erheblich in bildbasierten, multiframe-basierten und textbasierten Generierungsszenarien, was durch eine Human-Preference-Studie validiert wird. Bemerkenswerterweise erzielten wir beim ICCV 2025 Perception Test PhysicsIQ Challenge eine Endpunktzahl von 62,64%, belegten den ersten Platz und übertrafen den vorherigen State-of-the-Art um 7,42%. Unsere Arbeit demonstriert die Machbarkeit der Nutzung latenter Weltmodelle zur Verbesserung der physikalischen Plausibilität von Videogenerierung, über diese spezifische Instanziierung oder Parametrisierung hinaus.
Einheitliche Modelle zur Bildgenerierung und -bearbeitung leiden unter erheblicher Aufgabeninterferenz in dichten Diffusionstransformer-Architekturen, bei denen ein gemeinsamer Parameterraum einen Kompromiss zwischen konfligierenden Zielen finden muss (z.B. lokale Bearbeitung gegenüber subjektgesteuerter Generierung). Während das sparse Mixture-of-Experts (MoE)-Paradigma eine vielversprechende Lösung darstellt, bleiben seine Gating-Netzwerke aufgabenagnostisch und operieren auf Basis lokaler Merkmale, ohne globale Aufgabenintention zu berücksichtigen. Diese aufgabenagnostische Natur verhindert eine sinnvolle Spezialisierung und kann die zugrundeliegende Aufgabeninterferenz nicht auflösen. In diesem Beitrag schlagen wir ein neuartiges Framework zur Integration semantischer Intentionsinformationen in das MoE-Routing vor. Wir führen ein hierarchisches Schema zur semantischen Aufgabenannotation ein, um strukturierte Aufgabendeskriptoren (z.B. Umfang, Typ, Erhaltungsgrad) zu erstellen. Anschließend entwerfen wir eine prädiktive Ausrichtungsregularisierung, um interne Routing-Entscheidungen mit der hochleveligen Semantik der Aufgabe abzustimmen. Diese Regularisierung entwickelt das Gating-Netzwerk von einem aufgabenagnostischen Ausführungsmodul zu einer Dispatcher-Zentrale weiter. Unser Modell mildert Aufgabeninterferenzen effektiv ab, übertrifft dichte Baseline-Modelle in Bezug auf Treue und Qualität, und unsere Analysen zeigen, dass Experten natürlicherweise klare und semantisch korrelierte Spezialisierungen entwickeln.
Die Befolgung von Anweisungen ist entscheidend für große Sprachmodelle, doch reale Anweisungen enthalten häufig logische Strukturen wie sequenzielle Abhängigkeiten und bedingte Verzweigungen. Bestehende Methoden konstruieren typischerweise Datensätze mit parallelen Constraints und optimieren Durchschnittsbelohnungen, wobei sie logische Abhängigkeiten ignorieren und verrauschte Signale erzeugen. Wir schlagen einen logikstrukturierten Trainingsansatz LSRIF vor, der Anweisungslogik explizit modelliert. Zuerst erstellen wir einen Datensatz LSRInstruct mit Constraint-Strukturen wie parallelen, sequenziellen und bedingten Typen, dann entwickeln wir eine struktur-sensitive Belohnungsmethode LSRIF, die Durchschnittsaggregation für parallele Strukturen, Fehler-Straf-Propagation für sequenzielle Strukturen und selektive Belohnungen für bedingte Verzweigungen umfasst. Experimente zeigen, dass LSRIF signifikante Verbesserungen bei der Anweisungsbefolgung (innerhalb und außerhalb der Domäne) und beim allgemeinen logischen Denken bringt. Analysen offenbaren, dass das Lernen mit expliziten Logikstrukturen Parameteranpassungen in Attention-Layern bewirkt und die token-basierte Aufmerksamkeit für Constraints und logische Operatoren schärft.
Die Erkennung ausweichender Antworten in Gewinnmitteilungen ist entscheidend für die Finanztransparenz, doch der Fortschritt wird durch das Fehlen groß angelegter Benchmarks behindert. Wir stellen EvasionBench vor, das 30.000 Trainingsbeispiele und 1.000 menschlich annotierte Testbeispiele (Cohens Kappa 0,835) über drei Ausweichstufen hinweg umfasst. Unser wesentlicher Beitrag ist ein Multi-Modell-Annotationsframework, das auf einer zentralen Erkenntnis basiert: Diskrepanzen zwischen fortschrittlichen LLMs signalisieren schwierige Beispiele, die für das Training am wertvollsten sind. Wir identifizieren Grenzfälle, bei denen zwei starke Annotatoren widersprüchliche Bewertungen abgeben, und nutzen einen Schiedsrichter zur endgültigen Labelzuweisung. Dieser Ansatz übertrifft die Distillation mit Einzelmodellen um 2,4 Prozentpunkte, wobei die schiedsrichtergelösten Beispiele die Generalisierungsfähigkeit verbessern – trotz höheren Trainingsverlusts (0,421 vs. 0,393). Dies deutet darauf hin, dass Diskrepanz-Mining als implizite Regularisierung wirkt. Unser trainierter Modell Eva-4B (4 Milliarden Parameter) erreicht eine Genauigkeit von 81,3 Prozent, übertrifft seine Basis um 25 Prozentpunkte und nähert sich der Leistung führender LLMs bei einem Bruchteil der Inferenzkosten.
Aktuelle multimodale latente Reasoning-Ansätze verlassen sich oft auf externe Supervision (z.B. Hilfsbilder) und ignorieren dabei intrinsische visuelle Aufmerksamkeitsdynamiken. In dieser Arbeit identifizieren wir eine kritische Wahrnehmungslücke bei der Wissensdistillation: Schülermodelle imitieren häufig die textuelle Ausgabe eines Lehrermodells, während sie sich auf grundlegend unterschiedliche visuelle Regionen konzentrieren, wodurch sie effektiv eher auf Sprachpriors als auf fundierte Wahrnehmung zurückgreifen. Um diese Lücke zu schließen, schlagen wir LaViT vor – ein Framework, das latente visuelle Gedankengänge anstelle statischer Embeddings aligniert. LaViT zwingt das Schülermodell, die visuelle Semantik und Aufmerksamkeitstrajektorien des Lehrers autoregressiv zu rekonstruieren, bevor Text generiert wird, und verwendet dabei einen Curriculum-Sensory-Gating-Mechanismus, um Shortcut-Learning zu verhindern. Umfangreiche Experimente zeigen, dass LaViT die visuelle Verankerung signifikant verbessert, mit Gewinnen von bis zu +16,9 % bei komplexen Reasoning-Aufgaben, und es einem kompakten 3B-Modell ermöglicht, größere Open-Source-Varianten sowie proprietäre Modelle wie GPT-4o zu übertreffen.
Leistungsstarke 3D-Repräsentationen wie DUSt3R-invariante Punktkarten, die 3D-Form und Kameraparameter kodieren, haben die Vorwärts-3D-Rekonstruktion erheblich vorangetrieben. Während Punktkarten von statischen Szenen ausgehen, erweitern Dynamische Punktkarten (DPMs) dieses Konzept auf dynamische 3D-Inhalte, indem sie zusätzlich die Szenenbewegung abbilden. Allerdings sind bestehende DPMs auf Bildpaare beschränkt und erfordern, ähnlich wie DUSt3R, eine Nachbearbeitung durch Optimierung, wenn mehr als zwei Ansichten beteiligt sind. Wir sind der Ansicht, dass DPMs nützlicher sind, wenn sie auf Videos angewendet werden, und führen V-DPM ein, um dies zu demonstrieren. Erstens zeigen wir, wie sich DPMs für Videoeingaben so formulieren lassen, dass die Repräsentationskraft maximiert, die neuronale Vorhersage erleichtert und die Wiederverwendung vortrainierter Modelle ermöglicht wird. Zweitens setzen wir diese Ideen auf Basis von VGGT, einem aktuellen leistungsfähigen 3D-Rekonstruktor, um. Obwohl VGGT auf statischen Szenen trainiert wurde, zeigen wir, dass eine geringe Menge synthetischer Daten ausreicht, um es in einen effektiven V-DPM-Prädiktor zu adaptieren. Unser Ansatz erreicht state-of-the-art Leistung in der 3D- und 4D-Rekonstruktion dynamischer Szenen. Im Gegensatz zu recent dynamischen Erweiterungen von VGGT wie P3 erfassen DPMs insbesondere nicht nur dynamische Tiefe, sondern auch die vollständige 3D-Bewegung jedes Punktes in der Szene.
Die Verbesserung der reasoning-Fähigkeiten von Large Language Models (LLMs) ist in letzter Zeit ein kontinuierlich diskutiertes Thema. Die meisten relevanten Arbeiten basieren jedoch auf Ergebnisebelohnungen auf Trajektorienebene und vernachlässigen dabei eine feingranulare Überwachung während des reasoning-Prozesses. Andere bestehende Trainingsframeworks, die versuchen, Prozesssignale zur Optimierung von LLMs zu kombinieren, sind stark auf aufwändige zusätzliche Schritte wie MCTS oder das Training separater Belohnungsmodelle angewiesen, was die Trainingseffizienz beeinträchtigt. Darüber hinaus fehlt der Intuition hinter dem Design der Prozesssignale eine strenge theoretische Fundierung, was das Verständnis des Optimierungsmechanismus undurchsichtig lässt. In diesem Artikel schlagen wir Process Reward Learning (PRL) vor, das das entropie-regularisierte Reinforcement-Learning-Ziel in Zwischenschritte zerlegt und dabei strenge Prozessbelohnungen bereitstellt, die dem Modell entsprechend zugewiesen werden können. Ausgehend von der theoretischen Motivation leiten wir die Formulierung von PRL ab, die im Wesentlichen dem Ziel der Belohnungsmaximierung plus einem KL-Divergenz-Strafterm zwischen dem Policy-Modell und einem Referenzmodell entspricht. PRL kann jedoch die Ergebnisebelohnung in Prozessüberwachungssignale umwandeln, was die Exploration während der RL-Optimierung besser steuert. Unsere experimentellen Ergebnisse zeigen, dass PRL nicht nur die durchschnittliche reasoning-Leistung von LLMs, gemessen an average @ n, verbessert, sondern auch die reasoning-Grenzen erweitert, indem die pass @ n-Metrik verbessert wird. Umfangreiche Experimente belegen, dass die Wirksamkeit von PRL verifiziert und verallgemeinert werden kann.
Trotz erheblicher Fortschritte in der 4D-Generierung bleiben Rig und Bewegung, die zentralen strukturellen und dynamischen Komponenten der Animation, typischerweise als separate Probleme modelliert. Bestehende Pipelines verlassen sich auf Ground-Truth-Skelette und Skinning-Gewichte für die Bewegungsgenerierung und behandeln das Auto-Rigging als unabhängigen Prozess, was die Skalierbarkeit und Interpretierbarkeit beeinträchtigt. Wir stellen RigMo vor, ein vereinheitlichtes generatives Framework, das Rig und Bewegung gemeinsam direkt aus Roh-Mesh-Sequenzen erlernt, ohne jegliche von Menschen bereitgestellte Rig-Annotationen. RigMo kodiert vertexbezogene Deformationen in zwei kompakte latente Räume: einen Rig-Latenzraum, der in explizite Gaussian Bones und Skinning-Gewichte decodiert wird, und einen Bewegungs-Latenzraum, der zeitvariierende SE(3)-Transformationen erzeugt. Gemeinsam definieren diese Ausgaben ein animierbares Mesh mit expliziter Struktur und kohärenter Bewegung, was eine Vorwärtsinferenz von Rig und Bewegung für deformierbare Objekte ermöglicht. Über die vereinheitlichte Rig-Bewegungs-Entdeckung hinaus führen wir ein Motion-DiT-Modell ein, das im latenten Raum von RigMo operiert, und zeigen, dass diese strukturbewussten latenten Repräsentationen nachgelagerte Bewegungsgenerierungsaufgaben natürlich unterstützen können. Experimente auf DeformingThings4D, Objaverse-XL und TrueBones demonstrieren, dass RigMo glatte, interpretierbare und physikalisch plausible Rigs erlernt und dabei eine überlegene Rekonstruktion sowie generalisierung auf Kategorieebene im Vergleich zu bestehenden Auto-Rigging- und Deformations-Baselines erreicht. RigMo etabliert ein neues Paradigma für vereinheitlichte, strukturbewusste und skalierbare dynamische 3D-Modellierung.
Rollenspiel-Agenten (RP) stützen sich auf Verhaltensprofile, um in verschiedenen narrativen Kontexten konsistent zu agieren. Bisherige Profile sind jedoch weitgehend unstrukturiert, nicht ausführbar und nur schwach validiert, was zu sprödem Agentenverhalten führt. Wir schlagen Kodifizierte Entscheidungsbäume (CDT) vor, einen datengestützten Rahmen, der eine ausführbare und interpretierbare Entscheidungsstruktur aus großen narrativen Datensätzen ableitet. CDT repräsentiert Verhaltensprofile als einen Baum von bedingten Regeln, wobei innere Knoten validierten Szenenbedingungen und Blätter konkrete Verhaltensaussagen kodieren. Dies ermöglicht die deterministische Abfrage kontextangemessener Regeln zur Laufzeit. Der Baum wird durch iteratives Ableiten von Kandidaten für Szenen-Aktions-Regeln, deren Validierung anhand der Daten und Verfeinerung durch hierarchische Spezialisierung gelernt. Das Ergebnis sind Profile, die transparente Überprüfung und prinzipielle Aktualisierungen unterstützen. In mehreren Benchmarks übertrifft CDT menschlich geschriebene Profile und frühere Methoden zur Profilableitung bei 85 Charakteren aus 16 Werken deutlich. Dies zeigt, dass kodifizierte und validierte Verhaltensrepräsentationen zu einer zuverlässigeren Verankerung von Agenten führen.
Text-to-SQL in der klinischen Praxis erfordert das Schließen über heterogene EHR-Tabellen, Zeitfenster und Patientenähnlichkeitskohorten hinweg, um ausführbare Abfragen zu generieren. Wir stellen CLINSQL vor, einen Benchmark mit 633 expertannotierten Aufgaben auf Basis von MIMIC-IV v3.1, der Multi-Table-Joins, klinisch sinnvolle Filter und ausführbaren SQL-Code erfordert. Die Lösung von CLINSQL erfordert die Navigation durch Schema-Metadaten und klinische Kodierungssysteme, die Verarbeitung langer Kontexte und die Formulierung mehrstufiger Abfragen, die über traditionelles Text-to-SQL hinausgehen. Wir evaluieren 22 proprietäre und Open-Source-Modelle unter Chain-of-Thought-Selbstverbesserung und verwenden eine rubrikbasierte SQL-Analyse mit Ausführungsprüfungen, die kritische klinische Anforderungen priorisieren. Trotz jüngster Fortschritte bleibt die Leistung weit von klinischer Zuverlässigkeit entfernt: Im Testset erreicht GPT-5-mini 74,7% Execution Score, DeepSeek-R1 führt Open-Source-Modelle mit 69,2% an, und Gemini-2.5-Pro fällt von 85,5% bei leichten Aufgaben auf 67,2% bei schwierigen Aufgaben ab. Fortschritte bei CLINSQL markieren greifbare Verbesserungen auf dem Weg zu klinisch zuverlässigem Text-to-SQL für EHR-Analysen in der Praxis.
Der Aufstieg von KI-Agenten-Frameworks hat Agenten-Skills eingeführt – modulare Pakete, die Anweisungen und ausführbaren Code enthalten und die Fähigkeiten von Agenten dynamisch erweitern. Während diese Architektur eine leistungsstarke Anpassung ermöglicht, führen Skills ihre Aufgaben mit implizitem Vertrauen und minimaler Überprüfung aus, was eine signifikante, jedoch noch nicht charakterisierte Angriffsfläche schafft. Wir führen die erste großangelegte empirische Sicherheitsanalyse dieses aufstrebenden Ökosystems durch, sammeln 42.447 Skills von zwei großen Marktplätzen und analysieren systematisch 31.132 davon mit SkillScan, einem mehrstufigen Erkennungsframework, das statische Analyse mit LLM-basierter semantischer Klassifizierung kombiniert. Unsere Ergebnisse zeigen weitverbreitete Sicherheitsrisiken: 26,1 % der Skills enthalten mindestens eine Schwachstelle, die sich über 14 verschiedene Muster in vier Kategorien erstreckt: Prompt Injection, Datenexfiltration, Rechteausweitung und Supply-Chain-Risiken. Datenexfiltration (13,3 %) und Rechteausweitung (11,8 %) sind am häufigsten vertreten, während 5,2 % der Skills hochriskante Muster aufweisen, die stark auf böswillige Absichten schließen lassen. Wir stellen fest, dass Skills, die ausführbare Skripte bündeln, eine 2,12-fach höhere Wahrscheinlichkeit haben, Schwachstellen zu enthalten, als rein anweisungsbasierte Skills (OR=2,12, p<0,001). Unsere Beiträge umfassen: (1) eine fundierte Schwachstellen-Taxonomie, abgeleitet aus 8.126 anfälligen Skills, (2) eine validierte Erkennungsmethodik mit einer Präzision von 86,7 % und einer Trefferquote von 82,5 % sowie (3) einen offenen Datensatz und ein Erkennungstoolkit zur Unterstützung zukünftiger Forschung. Diese Ergebnisse demonstrieren den dringenden Bedarf an fähigkeitsbasierten Berechtigungssystemen und verbindlichen Sicherheitsüberprüfungen, bevor dieser Angriffsvektor weiter ausgenutzt wird.
Diese Studie untersucht den Einsatz von Prompt-Engineering zur Verbesserung von Large Language Models (LLMs), insbesondere GPT-4o-mini und Gemini-1.5-Flash, bei Sentiment-Analyse-Aufgaben. Es werden fortgeschrittene Prompting-Techniken wie Few-Shot-Learning, Chain-of-Thought-Prompting und Self-Consistency gegen eine Baseline evaluiert. Zu den Hauptaufgaben gehören die Sentiment-Klassifikation, die aspektbasierte Sentiment-Analyse und die Erkennung subtiler Nuancen wie Ironie. Die Forschung erläutert den theoretischen Hintergrund, die verwendeten Datensätze und Methoden und bewertet die Leistung der LLMs anhand von Genauigkeit, Recall, Präzision und F1-Score. Die Ergebnisse zeigen, dass fortgeschrittenes Prompting die Sentiment-Analyse erheblich verbessert, wobei der Few-Shot-Ansatz bei GPT-4o-mini am besten abschneidet und Chain-of-Thought-Prompting die Ironie-Erkennung in Gemini-1.5-Flash um bis zu 46 % steigert. Somit deuten die Ergebnisse darauf hin, dass, obwohl fortgeschrittene Prompting-Techniken die Leistung insgesamt verbessern, Prompting-Strategien sowohl auf das Modell als auch auf die Aufgabe zugeschnitten werden müssen, da Few-Shot-Prompting für GPT-4o-mini am effektivsten ist und Chain-of-Thought bei Gemini-1.5-Flash für die Ironie-Erkennung hervorsticht. Dies unterstreicht die Bedeutung einer Abstimmung des Prompt-Designs sowohl auf die Architektur des LLM als auch auf die semantische Komplexität der Aufgabe.
Konsistenzlernen mit Feature-Perturbation ist eine weit verbreitete Strategie in der semi-überwachten Segmentierung medizinischer Bilder. Viele bestehende Perturbationsmethoden basieren jedoch auf Dropout und erfordern daher eine sorgfältige manuelle Anpassung der Dropout-Rate, die ein sensibler Hyperparameter ist, oft schwer zu optimieren ist und zu suboptimaler Regularisierung führen kann. Um diese Einschränkung zu überwinden, schlagen wir VQ-Seg vor, den ersten Ansatz, der Vektorquantisierung (VQ) zur Diskretisierung des Feature-Raums einsetzt und ein neuartiges und steuerbares Quantized Perturbation Module (QPM) als Ersatz für Dropout einführt. Unser QPM stört diskrete Repräsentationen durch das Mischen der räumlichen Positionen von Codebook-Indizes, was eine effektive und kontrollierbare Regularisierung ermöglicht. Um potenziellen Informationsverlust durch die Quantisierung abzumildern, entwerfen wir eine Dual-Branch-Architektur, in der der post-Quantisierungs-Feature-Raum sowohl von der Bildrekonstruktion als auch von der Segmentierungsaufgabe genutzt wird. Darüber hinaus führen wir einen Post-VQ Feature Adapter (PFA) ein, um Anleitung von einem Foundation Model (FM) zu integrieren und so die während der Quantisierung verlorengegangenen hochleveligen semantischen Informationen zu ergänzen. Des Weiteren haben wir einen umfangreichen Lungenkrebs (LC)-Datensatz mit 828 CT-Scans, die für Zentraltypen von Lungenkarzinomen annotiert sind, zusammengestellt. Umfangreiche Experimente auf dem LC-Datensatz und anderen öffentlichen Benchmarks demonstrieren die Wirksamkeit unserer Methode, die state-of-the-art Ansätze übertrifft. Code verfügbar unter: https://github.com/script-Yang/VQ-Seg.
KI-Agenten sind anfällig für Prompt-Injection-Angriffe, bei denen bösartige Inhalte das Agentenverhalten kapern, um Anmeldedaten zu stehlen oder finanzielle Verluste zu verursachen. Die einzige bekannte robuste Verteidigung ist architektonische Isolation, die vertrauenswürdige Aufgabenplanung strikt von nicht vertrauenswürdigen Umgebungsbeobachtungen trennt. Die Anwendung dieses Designs auf Computer Use Agents (CUAs) – Systeme, die Aufgaben automatisieren, indem sie Bildschirme betrachten und Aktionen ausführen – stellt jedoch eine grundlegende Herausforderung dar: Aktuelle Agenten benötigen eine kontinuierliche Beobachtung des UI-Zustands, um jede Aktion zu bestimmen, was im Konflikt mit der für die Sicherheit erforderlichen Isolation steht. Wir lösen diesen Widerspruch, indem wir zeigen, dass UI-Workflows zwar dynamisch, aber strukturell vorhersehbar sind. Wir führen Einzelplanung für CUAs ein, bei der ein vertrauenswürdiger Planer einen vollständigen Ausführungsgraphen mit bedingten Verzweigungen erstellt, bevor potenziell bösartige Inhalte beobachtet werden, und dadurch nachweisbare Kontrollflussintegritätsgarantien gegen beliebige Befehlsinjektionen bietet. Obwohl diese architektonische Isolation Befehlsinjektionen erfolgreich verhindert, zeigen wir, dass zusätzliche Maßnahmen erforderlich sind, um Branch-Steering-Angriffe zu verhindern, bei denen UI-Elemente manipuliert werden, um unbeabsichtigte gültige Pfade innerhalb des Plans auszulösen. Wir evaluieren unser Design auf OSWorld und behalten bis zu 57 % der Leistung von Spitzenmodellen bei, während wir die Leistung kleinerer Open-Source-Modelle um bis zu 19 % steigern, was demonstriert, dass strenge Sicherheit und Nutzbarkeit in CUAs koexistieren können.
Wir stellen WildRayZer vor, ein selbstüberwachtes Framework für die Synthese neuartiger Ansichten (Novel View Synthesis, NVS) in dynamischen Umgebungen, in denen sich sowohl die Kamera als auch Objekte bewegen. Dynamische Inhalte brechen die Mehrbildkonsistenz, auf die statische NVS-Modelle angewiesen sind, was zu Geisterbildern, halluzinierter Geometrie und instabiler Posenschätzung führt. WildRayZer adressiert dies durch einen Analyse-durch-Synthese-Test: Ein rein statischer Renderer, der nur die Kamerabewegung berücksichtigt, erklärt die starre Struktur, und seine Residuen offenbaren transiente Bereiche. Aus diesen Residuen konstruieren wir pseudo Motion Masks, destillieren einen Bewegungs-Schätzer und nutzen ihn, um Eingabe-Tokens zu maskieren und Verlustgradienten zu steuern, sodass sich die Überwachung auf die hintergrundbezogene Bildvervollständigung über verschiedene Ansichten konzentriert. Um Training und Evaluation im großen Maßstab zu ermöglichen, haben wir Dynamic RealEstate10K (D-RE10K) kuratiert, einen Real-World-Datensatz mit 15.000 lässig aufgenommenen dynamischen Sequenzen, sowie D-RE10K-iPhone, einen gepaarten Benchmark mit transienten und sauberen Daten für transiente-bewusste NVS mit spärlichen Ansichten. Experimente zeigen, dass WildRayZer optimierungsbasierte und direkte (Feed-Forward) Baseline-Methoden konsistent sowohl in der Entfernung transiente Bereiche als auch in der Vollbild-NVS-Qualität mit einem einzigen Feed-Forward-Durchlauf übertrifft.
Große Sprachmodelle (LLMs) zeigen häufig diagonale Aufmerksamkeitsmuster, bei denen sich die Aufmerksamkeitswerte entlang der Δ-ten Subdiagonalen für einen bestimmten Offset Δ konzentrieren. Diese Muster spielen eine Schlüsselrolle beim Informationsaustausch zwischen Tokens. Aber warum entstehen sie? In dieser Arbeit klären wir das Auftreten dieser diagonal-dominanten Köpfe (SDHs) aus empirischer und theoretischer Perspektive. Zunächst stellen wir durch die Analyse quelloffener LLMs fest, dass SDHs den Modellen intrinsisch sind und sich auf Out-of-Distribution-Prompts verallgemeinern lassen. Um das intrinsische Auftreten zu erklären, analysieren wir die Queries, Keys und das Rotary Position Embedding (RoPE), die gemeinsam die Aufmerksamkeitswerte bestimmen. Unsere empirische Analyse zeigt zwei charakteristische Bedingungen für SDHs auf: (1) Queries und Keys sind nahezu rang-eins, und (2) RoPE wird von mittleren und hohen Frequenzkomponenten dominiert. Unter diesen Bedingungen sind Queries und Keys über verschiedene Tokens hinweg nahezu identisch, und die Wechselwirkungen zwischen den mittleren und hohen Frequenzkomponenten von RoPE führen zu SDHs. Über empirische Belege hinaus zeigen wir theoretisch, dass diese Bedingungen ausreichen, um das Auftreten von SDHs zu gewährleisten, indem wir sie als unsere Modellierungsannahmen formalisieren. Insbesondere analysieren wir die Trainingsdynamik eines flachen Transformers mit RoPE unter diesen Bedingungen und beweisen, dass Modelle, die mit Gradientenabstieg trainiert werden, SDHs aufweisen. Die SDHs verallgemeinern sich auf Out-of-Distribution-Prompts.
Große Sprachmodelle (LLMs) sind zu einem Grundpfeiler vieler alltäglicher Anwendungen geworden. Allerdings werden ihr Wissen mit der Entwicklung der Daten schnell veraltet. Kontinuierliches Lernen zielt darauf ab, LLMs mit neuen Informationen zu aktualisieren, ohne zuvor erworbenes Wissen zu löschen. Obwohl Methoden wie das vollständige Feinabstimmen (Full Fine-Tuning) neue Daten integrieren können, sind sie rechenintensiv und anfällig für katastrophales Vergessen, bei dem früheres Wissen überschrieben wird. Speichergestützte Ansätze adressieren dies, indem sie LLMs mit einem Speicherbank, also einem externen Speichermodul, ausstatten, das Informationen für die zukünftige Verwendung speichert. Diese Methoden stoßen jedoch auf eine entscheidende Einschränkung: Insbesondere in realen Szenarien mit großskaligen Datenströmen wächst die Speicherbank ständig. In diesem Artikel schlagen wir MBC vor, ein Modell, das die Speicherbank während des Online-Anpassungslernens durch eine Codebuch-Optimierungsstrategie komprimiert. Um stabiles Lernen zu gewährleisten, führen wir zudem einen Online-Reset-Mechanismus ein, der einen Codebuch-Kollaps verhindert. Darüber hinaus setzen wir Key-Value Low-Rank Adaptation in den Aufmerksamkeitsschichten des LLM ein, was eine effiziente Nutzung der komprimierten Speicherrepräsentationen ermöglicht. Experimente mit Benchmark-Datensätzen für Frage-Antwort-Aufgaben zeigen, dass MBC die Größe der Speicherbank im Vergleich zur wettbewerbsfähigsten Baseline auf 0,3 % reduziert, während während des Online-Anpassungslernens eine hohe Behaltensgenauigkeit erhalten bleibt. Unser Code ist öffentlich verfügbar unter https://github.com/Thomkat/MBC.