papers.description
Große Sprachmodelle (LLMs) erzeugen flüssige und komplexe Ausgaben, erkennen jedoch häufig ihre eigenen Fehler und Halluzinationen nicht. Bestehende Ansätze greifen typischerweise auf externe Bewertungen, Mehrfachstichproben-Konsistenz oder textbasierte Selbstkritik zurück, die zusätzliche Rechenleistung erfordern oder schwach mit der tatsächlichen Korrektheit korrelieren. Wir fragen: Können LLMs ihre eigenen Fehler vorhersagen, indem sie interne Zustände während des Inferenzvorgangs untersuchen? Wir stellen Gnosis vor, einen leichten Selbstbewusstseinsmechanismus, der eingefrorenen LLMs ermöglicht, intrinsische Selbstverifikation durchzuführen, indem Signale aus verborgenen Zuständen und Aufmerksamkeitsmustern decodiert werden. Gnosis beobachtet passive interne Spuren, komprimiert sie in Deskriptoren mit festem Budget und sagt die Korrektheit mit vernachlässigbarem Inferenzaufwand voraus, wobei nur ~5M Parameter hinzugefügt werden und unabhängig von der Sequenzlänge gearbeitet wird. Über mathematische Reasoning-Aufgaben, Open-Domain-Fragebeantwortung und akademische Wissensbenchmarks hinweg sowie über eingefrorene Architekturen von 1,7B bis 20B Parametern hinweg übertrifft Gnosis konsistent starke interne Baselines und große externe Bewertungen sowohl in Genauigkeit als auch Kalibrierung. Darüber hinaus verallgemeinert es Zero-Shot auf partielle Generierungen, was eine frühzeitige Erkennung fehlschlagender Trajektorien und rechenbewusste Steuerung ermöglicht. Diese Ergebnisse zeigen, dass zuverlässige Korrektheitshinweise dem Generierungsprozess inhärent sind und effizient ohne externe Überwachung extrahiert werden können.
Wir präsentieren NextFlow, einen vereinheitlichten, nur-dekodierenden autoregressiven Transformer, der mit 6 Billionen verschachtelten Text-Bild-diskreten Tokens trainiert wurde. Durch die Nutzung einer vereinheitlichten visuellen Repräsentation innerhalb einer vereinheitlichten autoregressiven Architektur aktiviert NextFlow nativ multimodale Verstehens- und Generierungsfähigkeiten und erschließt damit Möglichkeiten zur Bildbearbeitung, zur Erstellung verschachtelter Inhalte und zur Videogenerierung. Angeregt durch die unterschiedliche Natur der Modalitäten – Text ist streng sequenziell, während Bilder inhärent hierarchisch sind – behalten wir die Next-Token-Prädiktion für Text bei, verwenden jedoch eine Next-Scale-Prädiktion für die visuelle Generierung. Dies weicht von traditionellen Raster-Scan-Methoden ab und ermöglicht die Generierung von 1024x1024 Bildern in nur 5 Sekunden – um Größenordnungen schneller als vergleichbare AR-Modelle. Wir adressieren die Instabilitäten der Multi-Scale-Generierung durch ein robustes Trainingsrezept. Darüber hinaus führen wir eine Prefix-Tuning-Strategie für bestärkendes Lernen ein. Experimente zeigen, dass NextFlow state-of-the-art Leistung unter vereinheitlichten Modellen erreicht und in der visuellen Qualität mit spezialisierten Diffusions-Baselines konkurriert.
Dieser technische Bericht stellt K-EXAONE vor, ein groß angelegtes multilinguales Sprachmodell, das von LG AI Research entwickelt wurde. K-EXAONE basiert auf einer Mixture-of-Experts-Architektur mit insgesamt 236 Milliarden Parametern, von denen während des Inferenzvorgangs 23 Milliarden Parameter aktiviert werden. Es unterstützt ein Kontextfenster von 256.000 Tokens und deckt sechs Sprachen ab: Koreanisch, Englisch, Spanisch, Deutsch, Japanisch und Vietnamesisch. Wir evaluieren K-EXAONE anhand eines umfassenden Benchmark-Sets, das Fähigkeiten in den Bereichen logisches Schließen, agentenbasierte Interaktion, allgemeine Kenntnisse, Koreanisch und Multilingualität abdeckt. In diesen Evaluierungen zeigt K-EXAONE eine Leistung, die mit Open-Weight-Modellen vergleichbarer Größe mithalten kann. K-EXAONE, das mit dem Ziel entwickelt wurde, die KI-Fortschritte für ein besseres Leben voranzutreiben, positioniert sich als leistungsstarkes, proprietäres KI-Basismodell für eine breite Palette industrieller und Forschungsanwendungen.
Video Face Swapping (VFS) erfordert die nahtlose Übertragung einer Quellidentität in ein Zielvideo unter sorgfältiger Bewahrung der ursprünglichen Pose, des Ausdrucks, der Beleuchtung, des Hintergrunds und der dynamischen Informationen. Bestehende Methoden haben Schwierigkeiten, Identitätsähnlichkeit und Attributerhaltung bei gleichzeitiger Wahrung der zeitlichen Konsistenz aufrechtzuerhalten. Um diese Herausforderung zu bewältigen, schlagen wir einen umfassenden Rahmen vor, um die Überlegenheit von Image Face Swapping (IFS) nahtlos in den Videobereich zu übertragen. Wir führen zunächst eine neuartige Datenpipeline SyncID-Pipe ein, die einen identitätsverankerten Video-Synthesizer vortrainiert und mit IFS-Modellen kombiniert, um bidirektionale ID-Vierlinge für explizite Überwachung zu konstruieren. Aufbauend auf gepaarten Daten schlagen wir das erste auf Diffusion Transformer basierende Framework DreamID-V vor, das ein zentrales Modality-Aware Conditioning-Modul einsetzt, um multimodale Bedingungen diskriminierend einzuspielen. Gleichzeitig schlagen wir einen Synthetic-to-Real Curriculum-Mechanismus und eine Identity-Coherence Reinforcement Learning-Strategie vor, um den visuellen Realismus und die Identitätskonsistenz in anspruchsvollen Szenarien zu verbessern. Um das Problem begrenzter Benchmarks anzugehen, führen wir IDBench-V ein, einen umfassenden Benchmark, der verschiedene Szenen abdeckt. Umfangreiche Experimente zeigen, dass DreamID-V state-of-the-art-Methoden übertrifft und weiterhin außergewöhnliche Vielseitigkeit aufweist, die nahtlos an verschiedene austauschbezogene Aufgaben angepasst werden kann.
Die visuelle Generierung wird von drei Paradigmen dominiert: autoregressiven (AR), Diffusions- und Visual AutoRegressive (VAR)-Modellen. Im Gegensatz zu AR- und Diffusionsmodellen arbeiten VARs mit heterogenen Eingabestrukturen über ihre Generierungsschritte hinweg, was schwerwiegende asynchrone Policy-Konflikte verursacht. Dieses Problem verschärft sich insbesondere in Reinforcement-Learning (RL)-Szenarien, was zu instabilem Training und suboptimaler Alignment führt. Zur Lösung dieses Problems schlagen wir einen neuartigen Rahmen vor, der Group Relative Policy Optimization (GRPO) verbessert, indem diese Konflikte explizit verwaltet werden. Unsere Methode integriert drei synergetische Komponenten: 1) eine stabilisierende Zwischenbelohnung zur Steuerung der Frühphasen-Generierung; 2) ein dynamisches Zeitschritt-Gewichtungsschema für präzise Credit Assignment; und 3) einen neuartigen Maskenpropagationsalgorithmus, der aus Prinzipien des Reward Feedback Learning (ReFL) abgeleitet ist und darauf ausgelegt ist, Optimierungseffekte räumlich und zeitlich zu isolieren. Unser Ansatz zeigt signifikante Verbesserungen in der Probenqualität und der Zielfunktionsausrichtung gegenüber der herkömmlichen GRPO-Basislinie und ermöglicht so eine robuste und effektive Optimierung für VAR-Modelle.
Das Feinabstimmen von Diffusionsmodellen mittels Online-Reinforcement Learning (RL) hat großes Potenzial zur Verbesserung der Text-Bild-Übereinstimmung gezeigt. Da die präzise Spezifikation eines Ground-Truth-Ziels für visuelle Aufgaben jedoch nach wie vor schwierig ist, werden die Modelle oft mit einem Proxy-Reward optimiert, der das eigentliche Ziel nur teilweise erfasst. Diese Diskrepanz führt häufig zu Reward Hacking, bei dem die Proxy-Scores steigen, während die tatsächliche Bildqualität abnimmt und die Generierungsvielfalt zusammenbricht. Während gängige Lösungen Regularisierung gegen die Referenzpolitik hinzufügen, um Reward Hacking zu verhindern, beeinträchtigen diese die Stichprobeneffizienz und erschweren die Exploration neuartiger, hochbelohnter Regionen, da die Referenzpolitik meist suboptimal ist. Um den konkurrierenden Anforderungen an Stichprobeneffizienz, effektive Exploration und die Minderung von Reward Hacking gerecht zu werden, schlagen wir Gated and Adaptive Regularization with Diversity-aware Optimization (GARDO) vor, einen vielseitigen Rahmen, der mit verschiedenen RL-Algorithmen kompatibel ist. Unsere zentrale Erkenntnis ist, dass Regularisierung nicht universell angewendet werden muss; stattdessen ist es äußerst effektiv, eine Teilmenge von Stichproben mit hoher Unsicherheit selektiv zu bestrafen. Um die Explorationsherausforderung zu adressieren, führt GARDO einen adaptiven Regularisierungsmechanismus ein, bei dem das Referenzmodell regelmäßig aktualisiert wird, um die Fähigkeiten der Online-Politik abzubilden, und so ein relevantes Regularisierungsziel sicherstellt. Um das Problem des Modus-Zusammenbruchs in RL anzugehen, verstärkt GARDO die Belohnungen für hochwertige Stichproben, die ebenfalls eine hohe Diversität aufweisen, und fördert so die Modus-Abdeckung, ohne den Optimierungsprozess zu destabilisieren. Umfangreiche Experimente mit verschiedenen Proxy-Rewards und zurückgehaltenen, unbekannten Metriken zeigen konsistent, dass GARDO Reward Hacking mindert und die Generierungsvielfalt steigert, ohne Stichprobeneffizienz oder Exploration zu opfern, was seine Wirksamkeit und Robustheit unterstreicht.
Wir stellen VINO vor, einen vereinheitlichten visuellen Generator, der Bild- und Videogenerierung sowie -bearbeitung innerhalb eines einzigen Frameworks durchführt. Anstatt auf aufgabenspezifische Modelle oder unabhängige Module für jede Modalität angewiesen zu sein, nutzt VINO ein gemeinsames Diffusion-Backbone, das auf Text, Bilder und Videos konditioniert. Dies ermöglicht ein breites Spektrum visueller Erstellungs- und Bearbeitungsaufgaben unter einem einzigen Modell. Konkret kombiniert VINO ein Vision-Language-Model (VLM) mit einem Multimodal Diffusion Transformer (MMDiT), bei dem multimodale Eingaben als verschachtelte Konditionierungstokens kodiert werden, um dann den Diffusionsprozess zu steuern. Dieser Entwurf unterstützt Multi-Referenz-Grounding, die Befolgung langwieriger Instruktionen und kohärente Identitätserhaltung über statische und dynamische Inhalte hinweg, während modalitätsspezifische Architekturkomponenten vermieden werden. Um ein solches vereinheitlichtes System zu trainieren, führen wir eine mehrstufige Trainingspipeline ein, die ein Basis-Videogenerierungsmodell schrittweise zu einem vereinheitlichten, multitaskingfähigen Generator erweitert, der sowohl Bild- als auch Videoeingaben und -ausgaben verarbeiten kann. In diversen Generierungs- und Bearbeitungsbenchmarks demonstriert VINO hohe visuelle Qualität, zuverlässige Instruktionsbefolgung, verbesserte Referenz- und Attributerhaltung sowie besser kontrollierbare Multi-Identitäts-Bearbeitungen. Unsere Ergebnisse unterstreichen einen praktischen Weg hin zu skalierbarer, vereinheitlichter visueller Generierung und das Potenzial verschachtelter, kontextbezogener Berechnung als Grundlage für allgemeine visuelle Erstellung.
Die große Vision, ein dauerhaftes, großflächiges Verständnis der 3D-Visualgeometrie zu ermöglichen, wird durch die unvereinbaren Anforderungen von Skalierbarkeit und Langzeitstabilität behindert. Während Offline-Modelle wie VGGT beeindruckende geometrische Fähigkeiten erreichen, macht ihr batch-basierter Ansatz sie für Echtzeitsysteme unbrauchbar. Streaming-Architekturen, obwohl als Lösung für den Live-Betrieb gedacht, haben sich als unzureichend erwiesen. Bestehende Methoden unterstützen entweder keine wirklich unendlich langen Eingabesequenzen oder leiden unter katastrophaler Drift über lange Sequenzen. Wir durchbrechen dieses lang bestehende Dilemma mit InfiniteVGGT, einem kausalen Visual-Geometry-Transformer, der das Konzept eines rollierenden Speichers durch einen begrenzten, aber adaptiven und dauerhaft ausdrucksstarken KV-Cache operationalisiert. Darauf aufbauend entwickeln wir eine trainingsfreie, aufmerksamkeitsagnostische Reduktionsstrategie, die veraltete Informationen intelligent verwirft und den Speicher effektiv mit jedem neuen Frame „vorwärts rollt“. Vollständig kompatibel mit FlashAttention beseitigt InfiniteVGGT endlich diesen Kompromiss und ermöglicht Streaming mit unendlichem Horizont, während es die Langzeitstabilität bestehender Streaming-Methoden übertrifft. Der ultimative Test für ein solches System ist seine Leistung über einen wirklich unendlichen Horizont – eine Fähigkeit, die aufgrund fehlender extrem langfristiger, kontinuierlicher Benchmarks bisher nicht rigoros validiert werden konnte. Um diese kritische Lücke zu schließen, führen wir den Long3D-Benchmark ein, der erstmals eine rigorose Evaluation kontinuierlicher 3D-Geometrieschätzung auf Sequenzen von etwa 10.000 Frames ermöglicht. Dies schafft die maßgebliche Evaluierungsplattform für zukünftige Forschung im Bereich des Langzeitverständnisses von 3D-Geometrie. Code ist verfügbar unter: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
Wir untersuchen die Fähigkeit großer Sprachmodelle (LLMs), beliebig lange Prompts zu verarbeiten, durch die Linse der Inferenzzeit-Skalierung. Wir schlagen Rekursive Sprachmodelle (RLMs) vor, eine allgemeine Inferenzstrategie, die lange Prompts als Teil einer externen Umgebung betrachtet und es dem LLM ermöglicht, diese programmgestützt zu untersuchen, zu zerlegen und sich selbst rekursiv auf Ausschnitte des Prompts anzuwenden. Wir stellen fest, dass RLMs erfolgreich Eingaben verarbeiten, die bis zu zwei Größenordnungen über den Modell-Kontextfenstern liegen, und selbst bei kürzeren Prompts die Qualität der Basis-LLMs und gängiger Langkontext-Gerüste in vier verschiedenen Langkontext-Aufgaben dramatisch übertreffen, bei vergleichbaren (oder geringeren) Kosten pro Abfrage.
Diese Arbeit stellt Falcon-H1R vor, ein auf Reasoning optimiertes Modell mit 7B Parametern, das die Machbarkeit wettbewerbsfähiger Reasoning-Leistungen mit kleinen Sprachmodellen (SLMs) demonstriert. Falcon-H1R zeichnet sich durch seine Parameter-Effizienz aus und erreicht konsistent vergleichbare oder bessere Ergebnisse als State-of-the-Art-Reasoning-Modelle, die zwei- bis siebenmal größer sind, über eine Vielzahl von reasoning-intensiven Benchmarks hinweg. Diese Ergebnisse unterstreichen die Bedeutung einer sorgfältigen Datenkuratierung und zielgerichteter Trainingsstrategien (durch effizientes SFT und RL-Scaling) für signifikante Leistungssteigerungen ohne Vergrößerung des Modells. Darüber hinaus erweitert Falcon-H1R die 3D-Grenzen der Reasoning-Effizienz durch die Kombination von schnellerer Inferenz (dank seines hybrid-parallelen Architekturdesigns), Token-Effizienz und höherer Genauigkeit. Diese einzigartige Mischung macht Falcon-H1R-7B zu einer praktischen Basis für die Skalierung fortschrittlicher Reasoning-Systeme, insbesondere in Szenarien, die eine umfangreiche Generierung von Gedankenketten (Chain-of-Thoughts) und paralleles Test-Time-Scaling erfordern. Unter Nutzung des kürzlich eingeführten DeepConf-Ansatzes erzielt Falcon-H1R eine state-of-the-art Test-Time-Scaling-Effizienz und bietet erhebliche Verbesserungen bei Genauigkeit und Rechenkosten. Folglich zeigt Falcon-H1R, dass kompakte Modelle durch gezieltes Modelltraining und architektonische Entscheidungen robuste und skalierbare Reasoning-Leistung erbringen können.
Wir stellen Talk2Move vor, ein auf verstärkendem Lernen (Reinforcement Learning, RL) basierendes Diffusionsframework für die textgesteuerte räumliche Transformation von Objekten in Szenen. Die räumliche Manipulation von Objekten in einer Szene mittels natürlicher Sprache stellt eine Herausforderung für multimodale Generierungssysteme dar. Während bestehende textbasierte Manipulationsverfahren das Erscheinungsbild oder den Stil anpassen können, haben sie Schwierigkeiten, objektbezogene geometrische Transformationen – wie das Verschieben, Drehen oder Skalieren von Objekten – durchzuführen, was auf knappe gepaarte Supervision und Grenzen der pixelbasierten Optimierung zurückzuführen ist. Talk2Move setzt Group Relative Policy Optimization (GRPO) ein, um geometrische Aktionen durch diverse Rollouts zu erkunden, die aus Eingabebildern und einfachen Textvariationen generiert werden, wodurch der Bedarf an kostspieligen gepaarten Daten entfällt. Ein räumliches Belohnungsmodell sorgt für die Ausrichtung geometrischer Transformationen an der sprachlichen Beschreibung, während Off-Policy-Schrittbewertung und aktive Schichtprobennahme die Lerneffizienz verbessern, indem sie sich auf informative Transformationsstadien konzentrieren. Darüber hinaus entwerfen wir objektzentrierte räumliche Belohnungen, die Verschiebungs-, Rotations- und Skalierungsverhalten direkt bewerten und so interpretierbare und kohärente Transformationen ermöglichen. Experimente auf kuratierten Benchmarks zeigen, dass Talk2Move präzise, konsistente und semantisch treue Objekttransformationen erreicht und dabei bestehende textgeführte Bearbeitungsansätze sowohl in räumlicher Genauigkeit als auch in Szenenkohärenz übertrifft.
Während die Konfidenzschätzung ein vielversprechender Ansatz zur Minderung von Halluzinationen in großen Sprachmodellen (LLMs) ist, konzentriert sich die aktuelle Forschung überwiegend auf Einzelabfragen. Die Dynamik der Modellkonfidenz in mehrschrittigen Dialogen, bei denen sich Kontext akkumuliert und Mehrdeutigkeiten schrittweise aufgelöst werden, ist weitgehend unerforscht. Eine zuverlässige Konfidenzschätzung in Mehrschritt-Szenarien ist jedoch entscheidend für viele nachgelagerte Anwendungen, wie autonome Agenten und Human-in-the-Loop-Systeme. Diese Arbeit stellt die erste systematische Untersuchung der Konfidenzschätzung in mehrschrittigen Interaktionen vor und etabliert einen formalen Evaluierungsrahmen, der auf zwei zentralen Anforderungen basiert: kalibrierte Konfidenz pro Dialogschritt und Monotonie der Konfidenz bei zunehmender Informationsverfügbarkeit. Um dies zu ermöglichen, führen wir neuartige Metriken ein, darunter einen längennormierten Expected Calibration Error (InfoECE), sowie ein neues "Hinter-Guesser"-Paradigma zur Generierung kontrollierter Evaluierungsdatensätze. Unsere Experimente zeigen, dass weit verbreitete Konfidenztechniken in mehrschrittigen Dialogen mit Kalibrierung und Monotonie kämpfen. Wir schlagen P(Sufficient) vor, eine logit-basierte Sonde, die vergleichsweise bessere Leistung erzielt, auch wenn die Aufgabe bei weitem nicht als gelöst betrachtet werden kann. Unsere Arbeit liefert eine grundlegende Methodik für die Entwicklung zuverlässigerer und vertrauenswürdigerer Konversationsagenten.
Obwohl LLMs leistungsstarke Embedding-Backbones sind, steht ihre Anwendung in trainingsfreien Settings vor zwei strukturellen Herausforderungen: Kausale Attention verhindert, dass frühe Token auf nachfolgenden Kontext zugreifen können, und das Next-Token-Prediction-Ziel verzerrt die Repräsentationen in Richtung Generierung anstatt semantischer Kompression. Um diese Einschränkungen zu adressieren, schlagen wir KV-Embedding vor, ein Framework, das die latente Repräsentationskraft eingefrorener LLMs aktiviert. Unser Ansatz nutzt die Beobachtung, dass die Key-Value-(KV)-Zustände des letzten Tokens in jeder Schicht eine komprimierte Sicht der Sequenz kodieren. Indem wir diese Zustände als vorangestelltes Prefix umleiten, ermöglichen wir allen Tokens den Zugriff auf sequenzweiten Kontext innerhalb eines einzelnen Forward-Passes. Um eine modellagnostische Anwendbarkeit zu gewährleisten, führen wir eine automatische Schichtselektionsstrategie basierend auf intrinsischer Dimensionalität ein. Evaluationen auf MTEB mit Qwen-, Mistral- und Llama-Backbones zeigen, dass KV-Embedding bestehende trainingsfreie Baselines um bis zu 10 % übertrifft und dabei robuste Leistung bei Sequenzen mit bis zu 4.096 Tokens beibehält. Diese Ergebnisse demonstrieren, dass die Manipulation interner Zustände eine effiziente Alternative zur Eingabemodifikation darstellt, und wir hoffen, dass diese Arbeit weitere Erkundungen von LLM-Interna für Repräsentationslernen anregt.
Wir stellen CPPO vor, eine Contrastive Perception Policy Optimization-Methode zur Feinabstimmung von Vision-Sprache-Modellen (VLMs). Während Reinforcement Learning (RL) das Schlussfolgern in Sprachmodellen vorangetrieben hat, erfordert die Ausweitung auf multimodales Schlussfolgern Verbesserungen sowohl der Wahrnehmungs- als auch der Schlussfolgerungsaspekte. Bisherige Arbeiten bewältigen diese Herausforderung hauptsächlich mit expliziten Wahrnehmungs-Belohnungen, doch die Trennung von Wahrnehmungs-Tokens von Schlussfolgerungs-Tokens ist schwierig und erfordert zusätzliche LLMs, Ground-Truth-Daten, erzwungene Trennung der Wahrnehmung von der Schlussfolgerung durch das Policy-Modell oder undifferenzierte Anwendung von Belohnungen auf alle Ausgabe-Tokens. CPPO adressiert dieses Problem, indem es Wahrnehmungs-Tokens durch Entropieverschiebungen in den Modellausgaben unter gestörten Eingabebildern erkennt. CPPO erweitert dann die RL-Zielfunktion um einen Contrastive Perception Loss (CPL), der Konsistenz unter informationserhaltenden Störungen und Empfindlichkeit unter informationsentfernenden Störungen erzwingt. Experimente zeigen, dass CPPO frühere Methoden mit Wahrnehmungsbelohnung übertrifft, während es zusätzliche Modelle vermeidet und so das Training effizienter und skalierbarer macht.
Die Wiederherstellung menschlicher Meshes aus Multi-View-Bildern steht vor einer grundlegenden Herausforderung: Reale Datensätze enthalten unvollkommene Ground-Truth-Annotationen, die das Training der Modelle verzerren, während synthetische Daten mit präziser Supervision unter einer Domänenlücke leiden. In diesem Artikel stellen wir DiffProxy vor, ein neuartiges Framework, das multi-view-konsistente menschliche Proxies für die Mesh-Rekonstruktion erzeugt. Kern von DiffProxy ist die Nutzung diffusionsbasierter generativer Priors, um das synthetische Training und die Generalisierung in der realen Welt zu überbrücken. Die zentralen Innovationen umfassen: (1) einen multi-konditionalen Mechanismus zur Erzeugung multi-view-konsistenter, pixelgenauer menschlicher Proxies; (2) ein Handverfeinerungsmodul, das flexible visuelle Prompts integriert, um lokale Details zu verbessern; und (3) eine unsicherheitsbewusste Skalierungsmethode zur Testzeit, die die Robustheit gegenüber anspruchsvollen Fällen während der Optimierung erhöht. Diese Designs stellen sicher, dass der Mesh-Rekonstruktionsprozess effektiv von der präzisen synthetischen Ground Truth und den generativen Vorteilen der diffusionsbasierten Pipeline profitiert. Vollständig auf synthetischen Daten trainiert, erzielt DiffProxy state-of-the-art Ergebnisse in fünf realen Benchmarks und demonstriert eine starke Zero-Shot-Generalisierung, insbesondere in anspruchsvollen Szenarien mit Okklusionen und Teilansichten. Projektseite: https://wrk226.github.io/DiffProxy.html
Mit dem Einsatz großer Sprachmodelle in unternehmenskritischen Anwendungen – von der Gesundheitsversorgung bis zur Finanzbranche – ist die Einhaltung organisationsspezifischer Richtlinien unerlässlich geworden. Bisher konzentrieren sich Sicherheitsevaluierungen jedoch ausschließlich auf universelle Schadensszenarien. Wir präsentieren COMPASS (Company/Organization Policy Alignment Assessment), den ersten systematischen Rahmen zur Bewertung, ob LLMs organisationale Allowlist- und Denylist-Richtlinien einhalten. Wir wenden COMPASS auf acht verschiedene Industrieszenarien an, generieren und validieren 5.920 Abfragen, die sowohl Routine-Compliance als auch adversarische Robustheit durch strategisch gestaltete Grenzfälle testen. Die Evaluierung sieben state-of-the-art-Modelle offenbart eine fundamentale Asymmetrie: Modelle verarbeiten legitime Anfragen zuverlässig (>95% Genauigkeit), versagen jedoch katastrophal bei der Durchsetzung von Verboten, indem sie nur 13–40% der adversarischen Denylist-Verstöße zurückweisen. Diese Ergebnisse zeigen, dass aktuelle LLMs nicht über die für richtlinienkritische Einsätze erforderliche Robustheit verfügen, und etablieren COMPASS als essenzielles Evaluierungsframework für organisationale KI-Sicherheit.
Semisupervisierte semantische Segmentierung von Fernerkundungsbildern (RS) bietet eine vielversprechende Lösung, um den Aufwand umfassender Annotationen zu verringern, leidet jedoch grundsätzlich unter Pseudo-Label-Drift – einem Phänomen, bei dem Bestätigungsfehler zur Akkumulation von Fehlern während des Trainings führen. In dieser Arbeit stellen wir Co2S vor, ein stabiles semisupervisiertes RS-Segmentierungsframework, das Priorwissen aus Vision-Language-Modellen und selbstüberwachten Modellen synergetisch fusioniert. Konkret konstruieren wir eine heterogene Dual-Student-Architektur, die zwei unterschiedliche, auf ViT basierende Vision-Foundation-Modelle umfasst, die mit vortrainierten CLIP- und DINOv3-Modellen initialisiert werden, um Fehlerakkumulation und Pseudo-Label-Drift zu mildern. Um diese unterschiedlichen Priorwissen effektiv zu integrieren, wird ein explizit-impliziter semantischer Co-Guidance-Mechanismus eingeführt, der Text-Einbettungen und lernbare Abfragen nutzt, um explizite bzw. implizite klassenbezogene Führung zu bieten und so gemeinsam die semantische Konsistenz zu verbessern. Darüber hinaus wird eine Global-Lokal-Merkmalsfusionsstrategie entwickelt, um die globalen Kontextinformationen von CLIP effektiv mit den lokalen Details von DINOv3 zu fusionieren, was dem Modell ermöglicht, hochpräzise Segmentierungsergebnisse zu generieren. Umfangreiche Experimente auf sechs gängigen Datensätzen demonstrieren die Überlegenheit der vorgeschlagenen Methode, die durchweg führende Leistung über verschiedene Partitionierungsprotokolle und diverse Szenarien hinweg erzielt. Die Projektseite ist unter https://xavierjiezou.github.io/Co2S/ verfügbar.
Wir stellen SWE-Lego vor, ein Rezept für überwachtes Fein-Tuning (SFT), das entwickelt wurde, um Spitzenleistung bei der Lösung von Software-Engineering (SWE)-Problemen zu erzielen. Im Gegensatz zu verbreiteten Methoden, die auf komplexen Trainingsparadigmen basieren (z.B. Mid-Training, SFT, Reinforcement Learning und deren Kombinationen), untersuchen wir, wie die Grenzen eines leichtgewichtigen, reinen SFT-Ansatzes für SWE-Aufgaben ausgereizt werden können. SWE-Lego umfasst drei Kernbausteine, wobei die wichtigsten Erkenntnisse wie folgt zusammengefasst werden können: 1) der SWE-Lego-Datensatz, eine Sammlung von 32.000 hochwertigen Aufgabeninstanzen und 18.000 validierten Trajektorien, die reale und synthetische Daten kombiniert, um sich in Qualität und Quantität gegenseitig zu ergänzen; 2) ein verfeinertes SFT-Verfahren mit Fehlermaskierung und einem leistungsbasierten Curriculum, das nachweislich die Aktionsqualität und die Gesamtleistung verbessert. Empirische Ergebnisse zeigen, dass mit diesen beiden Bausteinen allein das SFT SWE-Lego-Modelle auf Spitzenniveau unter Open-Source-Modellen vergleichbarer Größe beim SWE-bench Verified bringen kann: SWE-Lego-Qwen3-8B erreicht 42,2 % und SWE-Lego-Qwen3-32B erreicht 52,6 %. 3) Wir evaluieren und verbessern weiterhin Test-Time Scaling (TTS), das auf der SFT-Grundlage aufbaut. Basierend auf einem gut trainierten Verifier können SWE-Lego-Modelle signifikant gesteigert werden – zum Beispiel von 42,2 % auf 49,6 % und von 52,6 % auf 58,8 % unter TTS@16 für die 8B- bzw. 32B-Modelle.
Die Bewertung von Neuartigkeit ist im Peer-Review von entscheidender Bedeutung, aber auch äußerst anspruchsvoll, da Gutachter Einreichungen anhand einer umfangreichen und sich schnell entwickelnden Literatur beurteilen müssen. Dieser Bericht stellt OpenNovelty vor, ein agentenbasiertes System, das auf großen Sprachmodellen (LLM) basiert und eine transparente, evidenzbasierte Neuartigkeitsanalyse ermöglicht. Das System arbeitet in vier Phasen: (1) Extraktion der Kernaufgabe und der Beitragsaussagen zur Generierung von Suchanfragen; (2) Abruf relevanter Vorarbeiten auf Basis der extrahierten Anfragen über eine semantische Suchmaschine; (3) Erstellung einer hierarchischen Taxonomie der kernaufgabenbezogenen Arbeiten und durchführung von Beitragsvergleichen auf Volltextebene für jeden Beitrag; und (4) Synthese aller Analysen zu einem strukturierten Neuartigkeitsbericht mit expliziten Zitaten und Evidenzausschnitten. Im Gegensatz zu naiven LLM-basierten Ansätzen stützt OpenNovelty alle Bewertungen auf abgerufene, echte wissenschaftliche Arbeiten und gewährleistet so überprüfbare Urteile. Wir haben unser System auf über 500 Einreichungen für die ICLR 2026 eingesetzt; alle Berichte sind öffentlich auf unserer Website verfügbar. Eine vorläufige Analyse deutet darauf hin, dass es relevante Vorarbeiten identifizieren kann, einschließlich eng verwandter Arbeiten, die von den Autoren möglicherweise übersehen wurden. OpenNovelty zielt darauf ab, die Forschungsgemeinschaft mit einem skalierbaren Werkzeug zu unterstützen, das einen fairen, konsistenten und evidenzgestützten Peer-Review fördert.
Wir führen Materiomusik als ein generatives Rahmenwerk ein, das die hierarchischen Strukturen der Materie mit der kompositorischen Logik von Musik verbindet. In Proteinen, Spinnennetzen und Flammendynamiken wiederholen sich vibratorische und architektonische Prinzipien als tonale Hierarchien, harmonische Progressionen und musikalische Großform. Durch reversible Abbildungen – von molekularen Spektren zu musikalischen Tönen und von dreidimensionalen Netzwerken zu spielbaren Instrumenten – zeigen wir, wie Klang als wissenschaftliche Sonde fungiert, eine epistemische Inversion, bei der Hören zu einer Form des Sehens wird und musikalische Komposition zum Bauplan für Materie. Diese Abbildungen graben in die Tiefenzeit: Muster, die in Femtosekunden-Molekülschwingungen oder milliardenjährigen Evolutionsgeschichten entstehen, werden hörbar. Wir postulieren, dass Neuheit in Wissenschaft und Kunst entsteht, wenn Randbedingungen nicht innerhalb bestehender Freiheitsgrade erfüllt werden können, was eine Erweiterung des Raums möglicher Konfigurationen erzwingt. Selektive Unvollkommenheit stellt den Mechanismus dar, der das Gleichgewicht zwischen Kohärenz und Anpassungsfähigkeit wiederherstellt. Quantitative Unterstützung liefert die vollständige Enumeration aller 2^12 musikalischen Skalen, die zeigt, dass kulturell bedeutende Systeme sich in einem Korridor mittlerer Entropie und mittlerer Defektdichte ballen – ein direktes Analogon zum Hall-Petch-Optimum, bei dem intermediäre Defektdichten die Materialfestigkeit maximieren. Die Iteration dieser Abbildungen erzeugt produktive Kollisionen zwischen menschlicher Kreativität und Physik und generiert neue Information, wenn Musikstrukturen auf evolutionäre Zwänge treffen. Wir zeigen, wie schwarmbasierte KI-Modelle Musik komponieren, die menschenähnliche Strukturmerkmale aufweist, wie Small-World-Vernetzung, modulare Integration und Langreichweiten-Kohärenz, was einen Weg jenseits der Interpolation hin zur Invention weist. Wir zeigen, dass Wissenschaft und Kunst generative Akte des Weltentwurfs unter Zwängen sind, wobei Vibration als gemeinsame Grammatik die Strukturbildung über Skalen hinweg organisiert.
Die Segmentierung medizinischer Bilder durch mehrere Annotatoren ist ein wichtiges Forschungsproblem, erfordert jedoch annotierte Datensätze, deren Erstellung kostspielig ist. Die dermoskopische Bildgebung von Hautläsionen ermöglicht es menschlichen Experten und KI-Systemen, morphologische Strukturen zu erkennen, die in gewöhnlichen klinischen Fotografien nicht sichtbar wären. Allerdings gibt es derzeit keine groß angelegten, öffentlich verfügbaren Multi-Annotator-Segmentierungsdatensätze für Hautläsionen (SLS) mit Annotator-Labels für dermoskopische Hautläsionenbilder. Wir stellen ISIC MultiAnnot++ vor, einen großen öffentlichen Multi-Annotator-Segmentierungsdatensatz für Hautläsionen mit Bildern aus dem ISIC-Archiv. Der endgültige Datensatz umfasst 17.684 Segmentierungsmasken, die sich auf 14.967 dermoskopische Bilder verteilen, wobei 2.394 dermoskopische Bilder 2–5 Segmentierungen pro Bild aufweisen. Dies macht ihn zum größten öffentlich verfügbaren SLS-Datensatz. Darüber hinaus sind Metadaten zur Segmentierung enthalten, einschließlich des Kenntnisstands der Annotatoren und des verwendeten Segmentierungswerkzeugs, was Forschung zu Themen wie annotatorspezifischer Präferenzmodellierung für Segmentierungen und der Analyse von Annotator-Metadaten ermöglicht. Wir liefern eine Analyse der Merkmale dieses Datensatzes, kuratierte Datenpartitionen und konsensbasierte Segmentierungsmasken.
Geo-Foundation-Modelle (GFMs) haben sich in verschiedenen nachgelagerten Anwendungen, einschließlich semantischer Segmentierung, Klassifizierung und Regressionsaufgaben, als wirksam erwiesen. Bei der Hochwasserkartierung mit dem Sen1Flood11-Datensatz als nachgelagerter Aufgabe gelingt es GFMs jedoch nicht, den Baseline-U-Net zu übertreffen, was eine Limitation der Modelle bei der Erfassung kritischer lokaler Nuancen aufzeigt. Um dieses Problem zu adressieren, stellen wir den Prithvi-Complementary Adaptive Fusion Encoder (CAFE) vor, der den vortrainierten Prithvi-GFM-Encoder mit einem parallelen CNN-Residualzweig integriert, der durch Convolutional Attention Modules (CAM) erweitert wird. Prithvi-CAFE ermöglicht eine schnelle und effiziente Feinabstimmung durch Adapter in Prithvi und führt eine Multi-Skalen- und Multi-Level-Fusion mit CNN-Merkmalen durch, um kritische lokale Details zu erfassen und gleichzeitig langreichweitige Abhängigkeiten beizubehalten. Wir erzielen state-of-the-art Ergebnisse auf zwei umfassenden Hochwasserkartierungs-Datensätzen: Sen1Flood11 und FloodPlanet. Auf den Sen1Flood11-Testdaten übertrifft Prithvi-CAFE (IoU 83,41) das ursprüngliche Prithvi (IoU 82,50) und andere bedeutende GFMs (TerraMind 82,90, DOFA 81,54, spectralGPT: 81,02). Die Verbesserung ist auf dem Hold-out-Testgebiet noch deutlicher, wo Prithvi-CAFE einen IoU von 81,37 erreicht, verglichen mit dem Baseline-U-Net (70,57) und dem ursprünglichen Prithvi (72,42). Auf FloodPlanet übertrifft Prithvi-CAFE ebenfalls das Baseline-U-Net und andere GFMs und erzielt einen IoU von 64,70 im Vergleich zu U-Net (60,14), Terramind (62,33), DOFA (59,15) und Prithvi 2.0 (61,91). Unser vorgeschlagener, einfacher aber effektiver Prithvi-CAFE demonstriert ein großes Potenzial zur Verbesserung von Segmentierungsaufgaben, bei denen mehrkanalige und multimodale Daten komplementäre Informationen liefern und lokale Details entscheidend sind. Der Code ist unter https://github.com/Sk-2103/Prithvi-CAFE veröffentlicht.
Da KI-Agenten auf Basis großer Sprachmodelle (LLM) zunehmend mit autonomen Entscheidungen mit hohen Konsequenzen betraut werden, ist die Nachvollziehbarkeit ihrer Denkprozesse zu einem kritischen Sicherheitsproblem geworden. Zwar ermöglicht Chain-of-Thought (CoT)-Prompting die Generierung menschenlesbarer Begründungspfade, doch bleibt unklar, ob diese Pfade tatsächlich treibende generative Faktoren für die Modellausgabe sind oder lediglich nachträgliche Rationalisierungen darstellen. Wir stellen Projekt Ariadne vor, einen neuartigen XAI-Rahmen, der Strukturelle Kausalmodelle (SCM) und kontrafaktische Logik nutzt, um die kausale Integrität agentenbasierter Entscheidungsfindung zu überprüfen. Im Gegensatz zu bestehenden Interpretationsmethoden, die auf oberflächlicher textueller Ähnlichkeit beruhen, führt Projekt Ariadne harte Interventionen (Do-Kalkül) auf intermediären Schlussfolgerungsknoten durch – systematische Umkehrung von Logik, Negation von Prämissen und Umkehr faktischer Aussagen –, um die kausale Sensitivität (φ) der Endantwort zu messen. Unsere empirische Evaluation modernster Modelle offenbart eine beständige Treue-Lücke. Wir definieren und identifizieren einen weitverbreiteten Fehlermodus, den wir als Kausale Entkopplung bezeichnen, bei dem Agenten eine Verletzungsdichte (ρ) von bis zu 0,77 in faktischen und wissenschaftlichen Domänen aufweisen. In diesen Fällen gelangen Agenten trotz widersprüchlicher interner Logik zu identischen Schlussfolgerungen, was beweist, dass ihre Begründungspfade als "Reasoning Theater" fungieren, während die Entscheidungsfindung von latenten parametrischen Priors gesteuert wird. Unsere Ergebnisse legen nahe, dass aktuelle agentenbasierte Architekturen inhärent anfällig für unzuverlässige Erklärungen sind, und wir schlagen den Ariadne-Score als neuen Benchmark vor, um deklarierte Logik mit Modellhandlungen in Einklang zu bringen.
Text-to-Image-Diffusionsmodelle können schädliche oder urheberrechtlich geschützte Inhalte erzeugen, was Forschung zur Konzepterkennung motiviert. Bisherige Ansätze konzentrieren sich jedoch primär auf das Löschen von Konzepten aus Text-Prompts und vernachlässigen andere Eingabemodalitäten, die in realen Anwendungen wie Bildbearbeitung und personalisierter Generierung zunehmend kritisch sind. Diese Modalitäten können zu Angriffsflächen werden, auf denen gelöschte Konzepte trotz Verteidigungsmaßnahmen wieder auftauchen. Um diese Lücke zu schließen, führen wir M-ErasureBench ein, einen neuartigen multimodalen Evaluierungsrahmen, der Konzepterkennungsmethoden systematisch über drei Eingabemodalitäten hinweg vergleicht: Text-Prompts, gelernte Embeddings und invertierte Latents. Für die letzten beiden evaluieren wir sowohl White-Box- als auch Black-Box-Zugriff, was fünf Evaluierungsszenarien ergibt. Unsere Analyse zeigt, dass bestehende Methoden eine starke Löschleistung gegen Text-Prompts erreichen, aber weitgehend bei gelernten Embeddings und invertierten Latents versagen, wobei die Konzeptreproduktionsrate (CRR) im White-Box-Setting 90 % übersteigt. Um diese Schwachstellen zu adressieren, schlagen wir IRECE (Inference-time Robustness Enhancement for Concept Erasure) vor, ein Plug-and-Play-Modul, das Zielkonzepte via Cross-Attention lokalisiert und die zugehörigen Latents während der Denoisierung stört. Experimente zeigen, dass IRECE konsistent Robustheit wiederherstellt und die CRR im anspruchsvollsten White-Box-Latent-Inversionsszenario um bis zu 40 % reduziert, wobei die visuelle Qualität erhalten bleibt. Nach unserem Wissen bietet M-ErasureBench den ersten umfassenden Benchmark für Konzepterkennung über Text-Prompts hinaus. Zusammen mit IRECE bietet unser Benchmark praktische Schutzmaßnahmen für den Aufbau zuverlässigerer, schützender generativer Modelle.