papers.description
Das Feld der leistungsstarken Bildgenerierungsmodelle wird derzeit von proprietären Systemen wie Nano Banana Pro und Seedream 4.0 dominiert. Führende Open-Source-Alternativen, darunter Qwen-Image, Hunyuan-Image-3.0 und FLUX.2, zeichnen sich durch massive Parameterzahlen (20B bis 80B) aus, was sie für Inferenz und Feinabstimmung auf Consumer-Hardware unpraktikabel macht. Um diese Lücke zu schließen, stellen wir Z-Image vor, ein effizientes generatives Basismodell mit 6B Parametern, das auf einer skalierbaren Single-Stream-Diffusion-Transformer-Architektur (S3-DiT) basiert und das Paradigma "Skalierung um jeden Preis" herausfordert. Durch systematische Optimierung des gesamten Modell-Lebenszyklus – von einer kuratierten Dateninfrastruktur bis hin zu einem optimierten Trainingscurriculum – schließen wir den vollständigen Trainingsworkflow in nur 314K H800-GPU-Stunden (ca. 630K US-Dollar) ab. Unser Few-Step-Distillationsschema mit Reward-Nachtraining ergibt weiterhin Z-Image-Turbo, das sowohl eine Inferenzlatenz im Subsekundenbereich auf einer Enterprise-H800-GPU als auch Kompatibilität mit Consumer-Hardware (<16GB VRAM) bietet. Zudem ermöglicht unser Omni-Pre-Training-Paradigma auch das effiziente Training von Z-Image-Edit, einem Bearbeitungsmodell mit beeindruckenden Instruction-Following-Fähigkeiten. Qualitative und quantitative Experimente zeigen, dass unser Modell in verschiedenen Dimensionen eine mit führenden Wettbewerbern vergleichbare oder diese übertreffende Leistung erzielt. Besonders bemerkenswert ist, dass Z-Image außergewöhnliche Fähigkeiten in der fotorealistischen Bildgenerierung und beim bilingualen Text-Rendering zeigt und Ergebnisse liefert, die mit Top-Commercial-Modellen konkurrieren, was demonstriert, dass State-of-the-Art-Resultate mit deutlich reduziertem Rechenaufwand erreichbar sind. Wir veröffentlichen unseren Code, unsere Gewichte und eine Online-Demo, um die Entwicklung zugänglicher, kostengünstiger und dennoch state-of-the-art generativer Modelle zu fördern.
Jüngste Fortschritte bei Bildbearbeitungsmodellen haben bemerkenswerte Entwicklungen gezeigt. Ein verbreitetes Architekturdesign kombiniert einen multimodalen Large Language Model (MLLM)-Encoder mit einem Diffusions-Decoder, wie in Systemen wie Step1X-Edit und Qwen-Image-Edit zu sehen ist, bei denen der MLLM sowohl das Referenzbild als auch die Anweisung encodiert, aber während des Trainings eingefroren bleibt. In dieser Arbeit zeigen wir, dass die Freischaltung der Reasoning-Fähigkeiten des MLLM die Grenzen von Bearbeitungsmodellen weiter verschieben kann. Konkret untersuchen wir zwei Reasoning-Mechanismen – Denken und Reflexion –, die das Verständnis von Anweisungen und die Bearbeitungsgenauigkeit verbessern. Darauf aufbauend ermöglicht unser vorgeschlagenes Framework die Bildbearbeitung in einer Denken-Bearbeiten-Reflektieren-Schleife: Der Denk-Mechanismus nutzt das Weltwissen des MLLM zur Interpretation abstrakter Anweisungen, während die Reflexion die Bearbeitungsergebnisse überprüft, unbeabsichtigte Manipulationen automatisch korrigiert und die Beendigungsrunde identifiziert. Umfangreiche Experimente belegen, dass unser Reasoning-Ansatz signifikante Leistungssteigerungen erzielt, mit Verbesserungen von ImgEdit (+4,3 %), GEdit (+4,7 %) und Kris (+8,2 %) bei Initialisierung unserer DiT basierend auf Step1X-Edit (ReasonEdit-S), und auch frühere Open-Source-Methoden auf GEdit und Kris übertrifft, wenn in Qwen-Image-Edit integriert (ReasonEdit-Q).
Kürzlich hat die Generierung von Mehrpersonenvideos an Bedeutung gewonnen. Während erste Vorarbeiten die audiogesteuerte Erzeugung von sprechenden Mehrpersonenvideos untersucht haben, stehen diese oft vor Herausforderungen aufgrund der hohen Kosten für die Erfassung diverser Mehrpersonendaten und der Schwierigkeit, mehrere Identitäten mit kohärenter Interaktivität zu steuern. Um diese Probleme zu lösen, schlagen wir AnyTalker vor, ein Mehrpersonen-Generierungsframework mit einer erweiterbaren Mehrstrom-Verarbeitungsarchitektur. Konkret erweitern wir den Attention-Block des Diffusion Transformers um einen neuartigen identitätsbewussten Attention-Mechanismus, der Identitäts-Audio-Paare iterativ verarbeitet und eine beliebige Skalierung der steuerbaren Identitäten ermöglicht. Darüber hinaus erfordert das Training von Mehrpersonen-Generativmodellen umfangreiche Mehrpersonendaten. Unser vorgeschlagener Trainingsprozess ist ausschließlich auf Einzelpersonenvideos angewiesen, um Sprechmuster mehrerer Personen zu erlernen, und verfeinert die Interaktivität mit nur wenigen echten Mehrpersonenclips. Zusätzlich stellen wir eine spezifische Metrik und einen Datensatz vor, die entwickelt wurden, um die Natürlichkeit und Interaktivität der generierten Mehrpersonenvideos zu bewerten. Umfangreiche Experimente belegen, dass AnyTalker eine bemerkenswerte Lippensynchronisation, visuelle Qualität und natürliche Interaktivität erreicht und dabei ein vorteilhaftes Gleichgewicht zwischen Datenskosten und Identitätsskalierbarkeit schafft.
Wir stellen Vision Bridge Transformer (ViBT) vor, eine großskalige Instanziierung von Brownian Bridge Models für die bedingte Generierung. Im Gegensatz zu traditionellen Diffusionsmodellen, die Rauschen in Daten umwandeln, modellieren Bridge Models direkt die Trajektorie zwischen Eingaben und Ausgaben und schaffen so ein effizientes Daten-zu-Daten-Übersetzungsparadigma. Durch die Skalierung dieser Modelle auf 20 Milliarden und 1,3 Milliarden Parameter demonstrieren wir ihre Wirksamkeit für Bild- und Videoübersetzungsaufgaben. Um diese Skalierung zu ermöglichen, adaptieren wir eine Transformer-Architektur und schlagen ein varianzstabilisiertes Velocity-Matching-Ziel für robustes Training vor. Diese Fortschritte unterstreichen gemeinsam das Potenzial skalierter Bridge Models für befehlsbasiertes Bildbearbeiten und komplexe Videoübersetzung.
Einheitliche multimodale Modelle für Bildgenerierung und -verständnis stellen einen bedeutenden Schritt in Richtung AGI dar und haben breite Aufmerksamkeit von Forschern auf sich gezogen. Die Hauptherausforderung dieser Aufgabe liegt in der Schwierigkeit, ein optimales Trainingsparadigma zu etablieren, bedingt durch inhärent konfligierende Ziele bei Verstehens- und Generierungsaufgaben. Um diese Konflikte zu mildern und höhere Leistung zu erzielen, setzen viele Forscher auf unterschiedlich starke Entkopplung des Modells (z.B. doppelte Bildencoder, MOE/MOT-Architektur oder eingefrorene MLLMs). Eine übermäßige Modellentkopplung kann jedoch zum Verlust der Fähigkeit zur verschachtelten Generierung führen und damit die ursprüngliche Absicht einheitlicher Modelle untergraben. In dieser Arbeit untersuchen wir, wie sich Aufgabenkonflikte mildern lassen, ohne auf Modellentkopplung zurückzugreifen. Zunächst analysieren wir, warum Entkopplung Konflikte lindert, indem wir das Cross-Modal-Attention-Verhalten von Modellen studieren. Wir beobachten, dass Modellentkopplung im Wesentlichen Modelle zu aufgabenspezifischen multimodalen Interaktionsmustern treibt, wie bei Qwen-VL und HunyuanImage zu sehen, und dass das Verhalten umso konsistenter wird, je gründlicher die Entkopplung ist. Angeregt durch diese Beobachtung schlagen wir den Attention Interaction Alignment (AIA)-Loss vor, der während des Trainings explizit aufgabenspezifische multimodale Interaktionsmuster erlernt. Um die Generalisierbarkeit unseres AIA-Loss zu demonstrieren, wenden wir ihn auf Emu3 bzw. Janus-Pro während der SFT- bzw. Nachtrainingsphase an. Ohne zusätzliche Raffinessen verfeinert AIA nicht nur die cross-modalen Aufmerksamkeitsmuster, sondern steigert sowohl die Generierungs- als auch die Verstehensleistung.
Große Sprachmodelle haben bedeutende Fortschritte im mathematischen Denken erzielt, das als wichtige Testumgebung für KI dient und bei weiterer Entwicklung wissenschaftliche Forschung beeinflussen könnte. Durch Skalierung des Schlussfolgerns mittels Verstärkungslernen, das korrekte Endergebnisse belohnt, haben sich LLMs innerhalb eines Jahres von schlechter Leistung zur Sättigung quantitativer Denkwettbewerbe wie AIME und HMMT verbessert. Dieser Ansatz stößt jedoch auf grundlegende Grenzen. Das Streben nach höherer Genauigkeit der Endergebnisse löst ein Kernproblem nicht: Korrekte Antworten garantieren keine korrekte Schlussfolgerung. Zudem erfordern viele mathematische Aufgaben wie Theorembeweise rigorose schrittweise Ableitungen statt numerischer Ergebnisse, was Belohnungen für Endergebnisse unanwendbar macht. Um die Grenzen tiefgehenden Denkens zu erweitern, glauben wir, dass die Überprüfung der Vollständigkeit und Strenge mathematischer Schlussfolgerungen notwendig ist. Selbstverifikation ist besonders wichtig für die Skalierung von Rechenleistung zur Testzeit, insbesondere bei offenen Problemen ohne bekannte Lösungen. Für selbstverifizierbares mathematisches Denken untersuchen wir, wie ein genauer und zuverlässiger LLM-basierter Verifizierer für Theorembeweise trainiert werden kann. Anschließend trainieren wir einen Beweisgenerator, der den Verifizierer als Belohnungsmodell nutzt, und incentivieren den Generator, möglichst viele Probleme in eigenen Beweisen zu identifizieren und zu beheben, bevor diese finalisiert werden. Um die Generierungs-Verifizierungs-Lücke bei stärker werdenden Generatoren aufrechtzuerhalten, schlagen wir vor, die Verifizierungsrechenleistung zu skalieren, um neue schwer überprüfbare Beweise automatisch zu labeln und Trainingsdaten zur weiteren Verbesserung des Verifizierers zu schaffen. Unser resultierendes Modell DeepSeekMath-V2 demonstriert starke Fähigkeiten im Theorembeweis, erreicht Gold-Level-Scores bei der IMO 2025 und CMO 2024 sowie eine nahezu perfekte Punktzahl von 118/120 beim Putnam 2024 mit skalierter Testrechenleistung.
Diffusionsmodelle stehen vor einem grundlegenden Zielkonflikt zwischen Erzeugungsqualität und Recheneffizienz. Latente Diffusionsmodelle (LDMs) bieten eine effiziente Lösung, leiden jedoch unter potenziellem Informationsverlust und nicht-end-to-end Training. Im Gegensatz dazu umgehen existierende Pixelraum-Modelle VAEs, sind aber für hochauflösende Synthese rechenintensiv. Um dieses Dilemma zu lösen, schlagen wir DiP vor, ein effizientes Diffusionsframework im Pixelraum. DiP entkoppelt die Erzeugung in eine globale und eine lokale Stufe: Ein Diffusion Transformer (DiT)-Rückgrat verarbeitet große Patches zur effizienten globalen Strukturerstellung, während ein mit trainierter, leichtgewichtiger Patch Detailer Head kontextuelle Merkmale nutzt, um feinkörnige lokale Details wiederherzustellen. Dieser synergetische Ansatz erreicht eine mit LDMs vergleichbare Recheneffizienz ohne Abhängigkeit von einem VAE. DiP erzielt bis zu 10-mal schnellere Inferenzgeschwindigkeiten als bisherige Methoden bei nur 0,3 % mehr Parametern und erreicht einen FID-Score von 1,79 auf ImageNet 256×256.
Um ein generalisierbares Vision-Language-Action (VLA)-Modell mit starker Reasoning-Fähigkeit zu entwickeln, ist eine gängige Strategie, zunächst einen spezialisierten VLA mit Roboterdemonstrationen zu trainieren, um zuverlässige Manipulationsfähigkeiten zu erlernen, und anschließend gemischte annotierte Roboterdaten zusammen mit multimodalen Daten zu integrieren, um breitere Reasoning-Fähigkeiten wiederherzustellen. Wir beobachten jedoch, dass der resultierende Reasoning-VLA im Vergleich zum spezialisierten Modell vor dem Fine-Tuning oft unter einer verschlechterten Aktionsleistung leidet – ein Phänomen, das wir als *Action Degeneration* (Aktionsdegeneration) bezeichnen. Um dieses Problem zu adressieren, schlagen wir DualVLA vor, das die Aktionsleistung durch ein sorgfältig gestaltetes Post-Training verbessert, während gleichzeitig die Reasoning-Fähigkeit erhalten bleibt. Zunächst führen wir eine Dual-Layer-Datenbereinigungsmethode ein, die redundantes Embodied Reasoning entfernt, um zu verhindern, dass dieses das Aktionslernen negativ beeinflusst. Um die Aktionsgenerierung weiter zu stärken, entwerfen wir eine Dual-Teacher-adaptive Destillationsstrategie, die unterschiedliche Überwachungssignale verschiedenen Datendomänen zuweist, während die Reasoning-Fähigkeit erhalten bleibt. Um die Evaluationslücke für generalistische VLA-Modelle zu schließen, schlagen wir außerdem den VLA-Score vor, der die VLA-Fähigkeit in die Dimensionen Reasoning, Intention, Aktion und Alignment entkoppelt, um eine fein granulierte Bewertung zu ermöglichen. Experimente zeigen, dass DualVLA eine durchschnittliche Erfolgsrate von 61,0 in SimplerEnv und eine durchschnittliche Punktzahl von 65,4 über acht wettbewerbsfähige multimodale Benchmarks erreicht, was eine stärkere Balance zwischen präziser Aktionsausführung und multimodalem Verständnis demonstriert. Projekt-Website: https://costaliya.github.io/DualVLA/.
Wir stellen adversarielle Flussmodelle vor, eine Klasse generativer Modelle, die adversarielle Modelle und Flussmodelle vereint. Unsere Methode unterstützt native Ein-Schritt- oder Mehrschritt-Generierung und wird mit dem adversariellen Ziel trainiert. Im Gegensatz zu traditionellen GANs, bei denen der Generator einen beliebigen Transportplan zwischen der Rausch- und der Datenverteilung lernt, lernt unser Generator eine deterministische Rausch-zu-Daten-Abbildung, die dem optimalen Transport in Fluss-Matching-Modellen entspricht. Dies stabilisiert das adversarielle Training erheblich. Anders als bei konsistenzbasierten Methoden lernt unser Modell zudem direkt die Ein-Schritt- oder Wenig-Schritt-Generierung, ohne die Zwischenschritte des Wahrscheinlichkeitsflusses für die Propagation lernen zu müssen. Dies spart Modellkapazität, reduziert Trainingsiterationen und vermeidet Fehlerakkumulation. Unter der gleichen 1NFE-Einstellung auf ImageNet-256px erreicht unser B/2-Modell nahezu die Leistung konsistenzbasierter XL/2-Modelle, während unser XL/2-Modell einen neuen Bestwert von 2.38 FID erzielt. Zudem zeigen wir die Möglichkeit eines end-to-end-Trainings von 56- und 112-Schicht-Modellen durch Tiefenwiederholung ohne jegliche Zwischenüberwachung und erreichen FIDs von 2.08 bzw. 1.94 mit einem einzigen Vorwärtsdurchlauf, womit wir ihre 2NFE- und 4NFE-Pendants übertreffen.
Diese Arbeit untersucht die Herausforderung, „Maschinen mit Gedächtnis“ zu entwickeln, indem Langzeitgedächtnis als Problem der effizienten Modellierung ultra-langer Kontexte formuliert wird. Wir argumentieren, dass dies drei Schlüsseleigenschaften erfordert: Sparsity, Flexibilität für wahlfreien Zugriff und Längengeneralisierung. Um die Modellierung ultra-langer Kontexte zu adressieren, nutzen wir Hierarchical Sparse Attention (HSA), einen neuartigen Aufmerksamkeitsmechanismus, der alle drei Eigenschaften erfüllt. Wir integrieren HSA in Transformer-Modelle, um HSA-UltraLong zu bauen – ein 8-Milliarden-Parameter-MoE-Modell, das mit über 8 Billionen Tokens trainiert und auf verschiedenen Aufgaben mit in-domain und out-of-domain Kontextlängen rigoros evaluiert wurde, um seine Fähigkeit im Umgang mit ultra-langen Kontexten zu demonstrieren. Die Ergebnisse zeigen, dass unser Modell auf in-domain Längen vergleichbar mit Full-Attention-Baselines abschneidet und gleichzeitig auf den meisten In-Context-Retrieval-Aufgaben bei Kontextlängen von bis zu 16 Millionen eine Genauigkeit von über 90 % erreicht. Dieser Bericht skizziert unsere experimentellen Erkenntnisse und offenen Probleme und leistet damit einen Beitrag zur Grundlage zukünftiger Forschung in der Modellierung ultra-langer Kontexte.
Diffusionsmodell-Distillation hat sich als leistungsstarke Technik zur Erstellung effizienter Generatoren mit wenigen oder nur einem Schritt etabliert. Hierbei stechen insbesondere Distribution Matching Distillation (DMD) und deren Varianten durch ihre beeindruckende Leistung hervor, die gemeinhin auf ihren Kernmechanismus zurückgeführt wird: die Anpassung der Ausgabeverteilung des Schülermodells an die eines vortrainierten Lehrermodells. In dieser Arbeit stellen wir dieses konventionelle Verständnis in Frage. Durch eine rigorose Zerlegung des DMD-Trainingsziels zeigen wir, dass bei komplexen Aufgaben wie der Text-zu-Bild-Generierung, bei der typischerweise CFG für eine wünschenswerte Leistung mit wenigen Schritten erforderlich ist, nicht das Distribution Matching der primäre Treiber der Distillation mit wenigen Schritten ist, sondern eine bisher übersehene Komponente, die wir als CFG-Augmentierung (CA) identifizieren. Wir demonstrieren, dass dieser Term als zentrale „Triebkraft“ der Distillation wirkt, während der Distribution-Matching-(DM)-Term als „Regularisierer“ fungiert, der die Trainingsstabilität gewährleistet und Artefakte mildert. Wir validieren diese Entkopplung weiter, indem wir zeigen, dass der DM-Term zwar ein hochwirksamer Regularisierer ist, aber nicht einzigartig; einfachere nicht-parametrische Zwangsbedingungen oder GAN-basierte Ziele können dieselbe stabilisierende Funktion erfüllen, wenn auch mit anderen Kompromissen. Diese Aufgabentrennung motiviert eine prinzipiellere Analyse der Eigenschaften beider Terme, was zu einem systematischeren und tieferen Verständnis führt. Dieses neue Verständnis ermöglicht es uns weiterhin, prinzipielle Modifikationen des Distillationsprozesses vorzuschlagen, wie z.B. die Entkopplung der Rauschpläne für die Triebkraft und den Regularisierer, was zu weiteren Leistungssteigerungen führt. Bemerkenswerterweise wurde unsere Methode vom Z-Image-Projekt (https://github.com/Tongyi-MAI/Z-Image) übernommen, um ein erstklassiges 8-Schritt-Bildgenerierungsmodell zu entwickeln, was die Generalisierbarkeit und Robustheit unserer Erkenntnisse empirisch validiert.
Können Sprachmodelle (LMs) ihre eigenen Antworten selbstständig verbessern? Diese Frage gewinnt zunehmend an Relevanz, da eine Vielzahl realer Nutzerinteraktionen Überarbeitungsanfragen umfasst. Bisherige Studien haben die Verbesserungsfähigkeiten von LMs jedoch größtenteils an überprüfbaren Aufgaben getestet, wie etwa Mathematikwettbewerben oder symbolischem Reasoning mit vereinfachten Gerüsten, während Nutzer oft offene Fragen stellen und unterschiedlich detailliertes Feedback zu ihren Wünschen geben. Das jüngste Aufkommen von Reasoning-Modellen, die Selbstreflexionsmuster in ihren Gedankenketten zeigen, motiviert diese Frage zusätzlich. Um dies zu analysieren, stellen wir RefineBench vor, einen Benchmark mit 1.000 anspruchsvollen Problemen aus 11 Domänen, kombiniert mit einem checklistenbasierten Bewertungsrahmen. Wir evaluieren zwei Verbesserungsmodi: (1) geführte Verbesserung, bei der ein LM natürliches Sprachfeedback erhält, und (2) Selbstverbesserung, bei der LMs versuchen, sich ohne Anleitung zu optimieren. Im Selbstverbesserungssetting erreichen sogar Spitzenmodelle wie Gemini 2.5 Pro und GPT-5 lediglich bescheidene Basiswerte von 31,3 % bzw. 29,1 %, und die meisten Modelle verbessern sich über Iterationen hinweg nicht konsistent (z. B. steigt Gemini-2.5-Pro nur um +1,8 %, während DeepSeek-R1 um -0,1 % abfällt). Im Gegensatz dazu können sowohl proprietäre LMs als auch große Open-Weight-Modelle (>70B) im geführten Modus gezieltes Feedback nutzen, um Antworten innerhalb von fünf Runden nahezu perfekt zu verfeinern. Diese Ergebnisse deuten darauf hin, dass Spitzen-LMs Durchbrüche benötigen, um ihre falschen Antworten selbst zu korrigieren, und dass RefineBench eine wertvolle Testumgebung zur Verfolgung der Fortschritte bietet.
Die effiziente Bereitstellung kleiner Sprachmodelle (Small Language Models, SLMs) ist für zahlreiche Anwendungen in der realen Welt mit strengen Latenzanforderungen von entscheidender Bedeutung. Während sich frühere Arbeiten zum SLM-Design hauptsächlich auf die Reduzierung der Parameteranzahl konzentrierten, um parameteroptimale SLMs zu erreichen, führt Parameter-Effizienz nicht zwangsläufig zu proportionalen Geschwindigkeitssteigerungen auf realen Geräten. Diese Arbeit zielt darauf ab, die Schlüsselfaktoren für die Latenz von SLMs auf realen Geräten zu identifizieren und verallgemeinerbare Prinzipien und Methoden für das Design und Training von SLMs zu liefern, wenn die Latenz auf realen Geräten die primäre Überlegung ist. Konkret identifizieren wir zwei zentrale architektonische Faktoren: Tiefe-Breite-Verhältnisse und die Wahl der Operatoren. Ersteres ist entscheidend für die Latenz bei kleiner Batch-Größe, während Letzteres sowohl die Latenz als auch den Durchsatz bei großer Batch-Größe beeinflusst. Vor diesem Hintergrund untersuchen wir zunächst latenzoptimale Tiefe-Breite-Verhältnisse, mit der zentralen Erkenntnis, dass zwar tiefe, schmale Modelle unter demselben Parameterbudget generell eine bessere Genauigkeit erreichen, sie sich jedoch möglicherweise nicht an der Grenze des Genauigkeits-Latenz-Kompromisses befinden. Anschließend untersuchen wir neuartige, effiziente Attention-Alternativen, um ihr Potenzial als grundlegende Bausteine zu bewerten. Unter Verwendung der identifizierten vielversprechenden Operatoren konstruieren wir einen evolutionären Suchframework, um automatisch latenzoptimale Kombinationen dieser Operatoren innerhalb hybrider SLMs zu entdecken und so die Genauigkeits-Latenz-Grenze zu erweitern. Zusätzlich zu architektonischen Verbesserungen optimieren wir das SLM-Training weiter durch eine Gewichtsnormalisierungstechnik, die effektivere Gewichtsaktualisierungen ermöglicht und die endgültige Konvergenz verbessert. Durch die Kombination dieser Methoden führen wir eine neue Familie hybrider SLMs namens Nemotron-Flash ein, die die Genauigkeits-Effizienz-Grenze modernster SLMs erheblich vorantreibt, z.B. mit einer um über +5,5 % höheren durchschnittlichen Genauigkeit, einer 1,3-fach/1,9-fach geringeren Latenz und einem 18,7-fach/45,6-fach höheren Durchsatz im Vergleich zu Qwen3-1.7B/0.6B.
World Engines zielen darauf ab, lange, 3D-konsistente Videos zu synthetisieren, die die interaktive Erkundung einer Szene unter benutzergesteuerter Kamerabewegung ermöglichen. Bestehende Systeme haben jedoch Schwierigkeiten mit aggressiven 6-DoF-Trajektorien und komplexen Außenbereichslayouts: Sie verlieren die geometrische Kohärenz über große Entfernungen, weichen vom Zielpfad ab oder kollabieren in eine zu konservative Bewegung. Zu diesem Zweck stellen wir Captain Safari vor, eine posen-konditionierte World Engine, die Videos durch Abruf aus einem persistenten Weltgedächtnis generiert. Bei gegebenem Kamerapfad verwaltet unsere Methode einen dynamischen lokalen Speicher und nutzt einen Retriever, um posen-ausgerichtete Welt-Tokens abzurufen, die dann die Videogenerierung entlang der Trajektorie konditionieren. Dieser Entwurf ermöglicht es dem Modell, eine stabile 3D-Struktur beizubehalten und gleichzeitig anspruchsvolle Kameramanöver präzise auszuführen. Um diese Einstellung zu evaluieren, haben wir OpenSafari kuratiert, einen neuen In-the-Wild-FPV-Datensatz, der hochdynamische Drohnenvideos mit verifizierten Kameratrajektorien enthält und durch eine mehrstufige Pipeline zur geometrischen und kinematischen Validierung erstellt wurde. In den Bereichen Videoqualität, 3D-Konsistenz und Trajektorienfolge übertrifft Captain Safari state-of-the-art kameragesteuerte Generatoren erheblich. Es reduziert MEt3R von 0,3703 auf 0,3690, verbessert AUC@30 von 0,181 auf 0,200 und erzielt einen deutlich niedrigeren FVD als alle kameragesteuerten Baselines. Noch wichtiger ist, dass in einer 50-teilnehmenden, 5-fach menschlichen Studie, bei der Annotatoren das beste Ergebnis unter fünf anonymisierten Modellen auswählen, 67,6 % der Präferenzen unsere Methode über alle Achsen hinweg begünstigen. Unsere Ergebnisse demonstrieren, dass posen-konditioniertes Weltgedächtnis ein leistungsstarker Mechanismus für langfristige, steuerbare Videogenerierung ist, und bieten OpenSafari als herausfordernden neuen Benchmark für die zukünftige World-Engine-Forschung.
In einer globalisierten Welt treten kulturelle Elemente unterschiedlicher Herkunft häufig gemeinsam in einer einzigen visuellen Szene auf. Wir bezeichnen diese als Kulturmischszenarien, doch wie Large Vision-Language Models (LVLMs) diese wahrnehmen, ist noch unzureichend erforscht. Wir untersuchen Kulturmischung als eine kritische Herausforderung für LVLMs und analysieren, wie sich aktuelle Modelle verhalten, wenn kulturelle Gegenstände aus mehreren Regionen zusammen auftreten. Um diese Verhaltensweisen systematisch zu analysieren, erstellen wir CultureMix, einen Benchmark für visuelle Fragebeantwortung (Visual Question Answering, VQA) zum Thema Essen mit 23.000 diffusionsgenerierten, menschlich verifizierten Kulturmischbildern über vier Teilaufgaben hinweg: (1) nur Essen, (2) Essen+Essen, (3) Essen+Hintergrund und (4) Essen+Essen+Hintergrund. Bei der Evaluation von 10 LVLMs stellen wir durchgängige Fehler beim Erhalt individueller kultureller Identitäten in gemischten Szenarien fest. Die Modelle zeigen eine starke Abhängigkeit vom Hintergrund – die Genauigkeit sinkt um 14 %, wenn kulturelle Hintergründe zu den Nur-Essen-Baselines hinzugefügt werden – und sie liefern inkonsistente Vorhersagen für identische Speisen in verschiedenen Kontexten. Um diese Einschränkungen zu adressieren, untersuchen wir drei Robustheitsstrategien. Wir stellen fest, dass überwachtes Feinabstimmen (Supervised Fine-Tuning) mit einem diversen Kulturmischungsdatensatz die Modellkonsistenz erheblich verbessert und die Hintergrundabhängigkeit verringert. Wir plädieren für eine stärkere Beachtung von Kulturmischszenarien als einen entscheidenden Schritt zur Entwicklung von LVLMs, die zuverlässig in kulturell diversen realen Umgebungen operieren können.
Multimodale Large Language Models (MLLMs) haben ein immenses Potenzial in zahlreichen medizinischen Fachgebieten gezeigt; dennoch ist die Zahnmedizin bisher nur unzureichend erforscht, teilweise aufgrund begrenzter domänenspezifischer Daten, knapper Annotationen durch zahnmedizinische Experten, unzureichender modalitätsspezifischer Modellierung und Herausforderungen in Bezug auf die Zuverlässigkeit. In diesem Artikel stellen wir OralGPT-Omni vor, das erste zahnmedizinspezifische MLLM, das für eine umfassende und vertrauenswürdige Analyse verschiedener zahnmedizinischer Bildgebungsmodalitäten und klinischer Aufgaben konzipiert ist. Um die diagnostische Argumentation von Zahnärzten explizit zu erfassen, erstellen wir TRACE-CoT, einen klinisch fundierten Chain-of-Thought-Datensatz, der die Entscheidungsprozesse zahnmedizinischer Radiologen widerspiegelt. Diese Argumentationsüberwachung, kombiniert mit unserem vorgeschlagenen vierstufigen Trainingsparadigma, stärkt die Fähigkeit des Modells zum Verständnis und zur Analyse zahnmedizinischer Bilder erheblich. Parallel dazu führen wir MMOral-Uni ein, den ersten einheitlichen multimodalen Benchmark für die zahnmedizinische Bildanalyse. Er umfasst 2.809 offene Frage-Antwort-Paare, die fünf Modalitäten und fünf Aufgaben abdecken, und bietet damit die bislang umfassendste Testsuite für die Bewertung von MLLMs in der digitalen Zahnmedizin. OralGPT-Omni erzielt eine Gesamtpunktzahl von 51,84 im MMOral-Uni-Benchmark und 45,31 im MMOral-OPG-Benchmark und übertrifft die Werte von GPT-5 damit deutlich. Unsere Arbeit fördert die intelligente Zahnmedizin und ebnet den Weg für zukünftige Fortschritte in der zahnmedizinischen Bildanalyse. Sämtlicher Code, Benchmarks und Modelle werden öffentlich zugänglich gemacht.
Die Beobachtung bestimmter Bildbereiche verringert die Unsicherheit anderer Bereiche. Ihre Realisierung verringert die Entropie der Verteilung jedes verbleibenden Bildbereichsmerkmals, analog zum Kollaps der Wellenfunktion eines Teilchens in der Quantenmechanik. Dieses Phänomen kann intuitiv als Patch-Kollaps bezeichnet werden. Um zu identifizieren, auf welche Bildbereiche sich der Kollaps einer Zielregion am stärksten stützt, trainieren wir einen Autoencoder, der weich eine Teilmenge von Bildbereichen auswählt, um jeden Zielbereich zu rekonstruieren. Die Darstellung dieser gelernten Abhängigkeiten anhand des PageRank-Werts jedes Bereichs offenbart die optimale Reihenfolge zur Realisierung eines Bildes. Wir zeigen, dass die Berücksichtigung dieser Reihenfolge verschiedene Methoden des maskierten Bildmodellierens verbessert. Erstens kann die autoregressive Bildgenerierung durch Neutraining des State-of-the-Art-Modells MAR gesteigert werden. Als nächstes führen wir ein neues Setup für die Bildklassifizierung ein, bei dem Vision Transformer nur Bildbereichen mit hohem Rang in der Kollaps-Reihenfolge ausgesetzt werden. Die Betrachtung von nur 22 % solcher Bereiche reicht aus, um eine hohe Genauigkeit zu erzielen. Mit diesen Experimenten schlagen wir den Patch-Kollaps als eine neuartige Perspektive der Bildmodellierung vor, die die Effizienz in der Bildverarbeitung fördert. Unser Projekt ist unter https://github.com/wguo-ai/CoP verfügbar.
Aktuelle große Sprachmodelle erzielen starke Reasoning-Leistungen durch die Erstellung detaillierter Chain-of-Thought-Spuren, was jedoch oft zu übermäßigem Token-Verbrauch und hoher Inferenzlatenz führt. Bestehende Effizienzansätze konzentrieren sich typischerweise auf modellzentrierte Interventionen wie bestärkendes Lernen oder überwachtes Fein-Tuning, um Weitschweifigkeit zu reduzieren. Im Gegensatz dazu schlagen wir einen trainingsfreien, eingabezentrierten Ansatz vor. Inspiriert von der kognitiven Psychologie führen wir Focused Chain-of-Thought (F-CoT) ein, das die Informationsextraktion vom Reasoning-Prozess trennt. F-CoT organisiert zunächst die wesentlichen Informationen einer Anfrage in einen prägnanten, strukturierten Kontext und leitet das Modell dann an, ausschließlich auf Basis dieses Kontexts zu schlussfolgern. Indem die Aufmerksamkeit auf irrelevante Details verhindert wird, erzeugt F-CoT natürlicherweise kürzere Reasoning-Pfade. Bei arithmetischen Textaufgaben reduziert F-CoT generierte Tokens um das 2- bis 3-fache, während die Genauigkeit vergleichbar mit Standard Zero-Shot CoT bleibt. Diese Ergebnisse unterstreichen strukturierte Eingaben als einfachen, aber effektiven Hebel für effizienteres LLM-Reasoning.
Bildunterschriften dienen in multimodalen Systemen wie Retrieval, Empfehlungssystemen und mehrstufigen agentenbasierten Inferenzpipelines als effiziente Stellvertreter für visuelle Inhalte. Dennoch übersehen aktuelle Evaluierungspraktiken eine grundlegende Frage: Können Bildunterschriften Bilder in echten nachgelagerten Aufgaben tatsächlich ersetzen? Wir schlagen einen nutzenbasierten Benchmark, CaptionQA, vor, um modellgenerierte Bildunterschriften zu evaluieren, wobei die Qualität einer Bildunterschrift daran gemessen wird, wie gut sie nachgelagerte Aufgaben unterstützt. CaptionQA ist ein erweiterbarer, domänenabhängiger Benchmark, der vier Domänen abdeckt – Natur, Dokumente, E-Commerce und Embodied AI – jeweils mit feingranularen Taxonomien (25 Ober- und 69 Unterkategorien), die nützliche Informationen für domänenspezifische Aufgaben identifizieren. CaptionQA umfasst 33.027 dicht annotierte Multiple-Choice-Fragen (durchschnittlich 50,3 pro Bild), die explizit visuelle Informationen zur Beantwortung erfordern und somit eine umfassende Prüfung des Nutzens von Bildunterschriften ermöglichen. In unserem Evaluierungsprotokoll beantwortet ein LLM diese Fragen ausschließlich auf Basis der Bildunterschriften, was direkt misst, ob die Bildunterschriften die Bildinformationen nutzenerhaltend bewahren und von einem nachgelagerten LLM verwertbar sind. Die Evaluation modernster MLLMs zeigt erhebliche Lücken zwischen dem Nutzen des Originalbildes und dem seiner Bildunterschrift auf. Bemerkenswerterweise sinkt der Nutzwert der Bildunterschriften bei Modellen, die auf traditionellen Bild-QA-Benchmarks nahezu identisch abschneiden, um bis zu 32 %. Wir veröffentlichen CaptionQA zusammen mit einer Open-Source-Pipeline zur Erweiterung auf neue Domänen. Der Code ist verfügbar unter https://github.com/bronyayang/CaptionQA.
Ein gängiges Verfahren zur Verbesserung von Diffusionsmodellen zur Testzeit, damit Stichproben hohe Werte bezüglich einer benutzerdefinierten Belohnungsfunktion erzielen, besteht darin, den Gradienten der Belohnung in die Dynamik der Diffusion selbst einzuführen. Dieses Verfahren ist oft schlecht gestellt, da benutzerdefinierte Belohnungsfunktionen üblicherweise nur auf der Datenverteilung am Ende der Generierung wohldefiniert sind. Während gängige Lösungsansätze für dieses Problem einen Denoiser verwenden, um abzuschätzen, wie eine Stichprobe am Ende der Generierung ausgesehen hätte, schlagen wir eine einfache Lösung vor, indem wir direkt mit einer Flussabbildung arbeiten. Durch Ausnutzung einer Beziehung zwischen der Flussabbildung und dem Geschwindigkeitsfeld, das den momentanen Transport beschreibt, konstruieren wir einen Algorithmus – Flow Map Trajectory Tilting (FMTT) –, der nachweislich einen besseren Aufstieg bezüglich der Belohnung erreicht als Standard-Testzeit-Verfahren, die den Gradienten der Belohnung einbeziehen. Der Ansatz kann verwendet werden, um entweder exakte Stichprobenziehung mittels Importance-Weighting oder eine prinzipielle Suche durchzuführen, die lokale Maximierer der belohnungsgekippten Verteilung identifiziert. Wir demonstrieren die Wirksamkeit unseres Ansatzes im Vergleich zu anderen Look-Ahead-Techniken und zeigen, wie die Flussabbildung die Nutzung komplexer Belohnungsfunktionen ermöglicht, die neue Formen der Bildbearbeitung realisierbar machen, beispielsweise durch die Schnittstelle zu Vision-Language-Models.
Multimodale große Sprachmodelle (MLLMs) werden zunehmend in realen, agentenartigen Umgebungen eingesetzt, in denen Ausgaben nicht nur korrekt, sondern auch konform mit vordefinierten Datenschemata sein müssen. Trotz jüngster Fortschritte bei der strukturierten Generierung im textuellen Bereich existiert noch kein Benchmark, der schema-gesteuerte Informationsextraktion und Reasoning über visuelle Eingaben systematisch evaluiert. In dieser Arbeit führen wir eine umfassende Studie zu den visuellen Strukturausgabefähigkeiten von MLLMs mit unserem sorgfältig konzipierten SO-Bench Benchmark durch. SO-Bench, das vier visuelle Domänen abdeckt – einschließlich UI-Oberflächen, natürlicher Bilder, Dokumente und Diagramme – basiert auf über 6.500 diversen JSON-Schemata und 1.800 kuratierten Bild-Schema-Paaren mit humanüberprüfter Qualität. Benchmarking-Experimente mit Open-Source- und proprietären Spitzenmodellen zeigen anhaltende Lücken bei der Vorhersage präziser, schemakonformer Ausgaben auf und unterstreichen den Bedarf an besserem multimodalen strukturierten Reasoning. Über das Benchmarking hinaus führen wir weitere Trainingsexperimente durch, um die Strukturausgabefähigkeit der Modelle erheblich zu verbessern. Wir planen, den Benchmark der Community zur Verfügung zu stellen.
Wir stellen Split-then-Merge (StM) vor, einen neuartigen Rahmen zur Verbesserung der Kontrolle bei der generativen Videokomposition und zur Lösung ihres Datenknappheitsproblems. Im Gegensatz zu konventionellen Methoden, die auf annotierten Datensätzen oder handgefertigten Regeln basieren, teilt StM einen großen Korpus ungelabelter Videos in dynamische Vorder- und Hintergrundebenen auf, um sie anschließend selbstständig neu zusammenzusetzen und so zu erlernen, wie sich dynamische Objekte mit verschiedenen Szenen interagieren. Dieser Prozess ermöglicht es dem Modell, die komplexen kompositionellen Dynamiken zu erlernen, die für eine realistische Videogenerierung erforderlich sind. StM führt eine neuartige transformationssensible Trainingspipeline ein, die eine Multi-Layer-Fusion und -Augmentierung nutzt, um eine affordanzbewusste Komposition zu erreichen, ergänzt durch einen identitätserhaltenden Verlust, der die Vordergrundtreue während des Blendings bewahrt. Experimente zeigen, dass StM state-of-the-art-Methoden sowohl in quantitativen Benchmarks als auch in human- und VLLM-basierten qualitativen Evaluierungen übertrifft. Weitere Details sind auf unserer Projektseite verfügbar: https://split-then-merge.github.io
Während multimodale große Sprachmodelle (MLLMs) gut darin sind, Fragen dazu zu beantworten, *was* auf einem Bild zu sehen ist – also Objekte zu identifizieren und Szenen zu beschreiben – fehlt ihnen oft die Fähigkeit zu verstehen, *wie* sich ein Bild für einen menschlichen Betrachter anfühlt. Diese Lücke wird besonders deutlich bei der Betrachtung subjektiver kognitiver Eigenschaften, wie etwa dessen, was ein Bild einprägsam, lustig, ästhetisch ansprechend oder emotional eindrücklich macht. Um diese Herausforderung systematisch anzugehen, führen wir CogIP-Bench ein, einen umfassenden Benchmark zur Bewertung von MLLMs hinsichtlich solcher kognitiver Bildeigenschaften. Unsere Auswertung zeigt eine erhebliche Diskrepanz: Aktuelle Modelle sind nur schlecht mit der menschlichen Wahrnehmung dieser nuancenreichen Eigenschaften in Einklang gebracht. Wir zeigen anschließend, dass eine Nachtrainingsphase diese Lücke wirksam schließen und die Übereinstimmung des Modells mit menschlichen Bewertungen signifikant verbessern kann. Des Weiteren belegen wir, dass diese erlernte kognitive Ausrichtung nicht nur prädiktiv, sondern auch auf nachgelagerte kreative Aufgaben übertragbar ist. Durch die Integration unseres kognitiv ausgerichteten MLLMs in eine Bildgenerierungspipeline können wir den Syntheseprozess so steuern, dass Bilder erzeugt werden, die gewünschte Eigenschaften wie eine höhere Einprägsamkeit oder visuelle Anziehungskraft besser verkörpern. Unsere Arbeit liefert einen Benchmark zur Messung dieser menschenähnlichen Wahrnehmung, eine Nachtrainings-Pipeline zu ihrer Verbesserung und einen Nachweis, dass diese Ausrichtung eine stärker menschenzentrierte KI ermöglicht.
Referenzgestützte Bildgenerierung hat rasante Fortschritte gemacht, doch aktuelle Diffusionsmodelle haben nach wie vor Schwierigkeiten, fein granulierte visuelle Details zu bewahren, wenn ein generiertes Bild anhand einer Referenz verfeinert wird. Diese Einschränkung ergibt sich daraus, dass VAE-basierte latente Kompression subtile Texturinformationen inhärent verwirft, was dazu führt, dass identitäts- und attributspezifische Merkmale verloren gehen. Zudem erzeugen Nachbearbeitungsansätze, die lokale Details auf Basis bestehender Methoden verstärken, häufig Ergebnisse, die in Bezug auf Beleuchtung, Textur oder Form inkonsistent mit dem Originalbild sind. Um dies zu adressieren, führen wir ein, ein detailbewusstes Verfeinerungsframework, das zwei aufeinanderfolgende Stufen referenzgesteuerter Korrektur durchführt, um pixelgenaue Konsistenz zu verbessern. Zunächst passen wir einen Einzelbild-Diffusionseditor an, indem wir ihn feinabstimmen, um gleichzeitig das Entwurfsbild und das Referenzbild zu verarbeiten, was global kohärente Verfeinerung bei gleichzeitiger Wahrung der strukturellen Treue ermöglicht. Anwenden wenden wir verstärkendes Lernen an, um die lokalisierte Bearbeitungsfähigkeit weiter zu stärken und explizit für Detailgenauigkeit und semantische Konsistenz zu optimieren. Umfangreiche Experimente belegen, dass die Referenzausrichtung und die Erhaltung fein granulierter Details signifikant verbessert und dabei treue und visuell kohärente Bearbeitungen erzeugt, die sowohl Open-Source- als auch kommerzielle Modelle auf anspruchsvollen referenzgestützten Restaurierungsbenchmarks übertreffen.
Dieses Papier stellt ein neuartiges Mixture-of-Experts-Framework für die Objekterkennung vor, das ein adaptives Routing zwischen mehreren YOLOv9-T-Experten integriert, um dynamische Featurespezialisierung zu ermöglichen und im Vergleich zu einem einzelnen YOLOv9-T-Modell einen höheren mittleren durchschnittlichen Präzisionswert (mAP) und eine höhere durchschnittliche Trefferquote (AR) zu erreichen.
Diffusionsmodelle haben beeindruckende generative Qualität in verschiedenen Modalitäten wie 2D-Bildern, Videos und 3D-Formen erreicht, doch ihr Inferenzprozess bleibt aufgrund des iterativen Denoising-Verfahrens rechenintensiv. Während neuere cache-basierte Methoden redundante Berechnungen effektiv wiederverwenden, um die 2D- und Videogenerierung zu beschleunigen, führt die direkte Anwendung dieser Techniken auf 3D-Diffusionsmodelle zu erheblichen Störungen der geometrischen Konsistenz. Bei der 3D-Synthese akkumulieren selbst geringe numerische Fehler in gecachten latenten Merkmalen und verursachen strukturelle Artefakte sowie topologische Inkonsistenzen. Um diese Einschränkung zu überwinden, schlagen wir Fast3Dcache vor, ein trainingsfreies, geometrieaware-Caching-Framework, das die 3D-Diffusionsinferenz beschleunigt und gleichzeitig die geometrische Treue bewahrt. Unsere Methode führt eine Predictive Caching Scheduler Constraint (PCSC) ein, um Cache-Kontingente dynamisch anhand von Voxel-Stabilisierungsmustern zu bestimmen, sowie ein Spatiotemporal Stability Criterion (SSC), um stabile Merkmale zur Wiederverwendung basierend auf Geschwindigkeitsmagnitude und Beschleunigungskriterien auszuwählen. Umfassende Experimente zeigen, dass Fast3Dcache die Inferenz signifikant beschleunigt und eine Beschleunigung von bis zu 27,12 % sowie eine Reduktion der FLOPs um 54,8 % erreicht, bei minimaler Verschlechterung der geometrischen Qualität, gemessen an Chamfer Distance (2,48 %) und F-Score (1,95 %).
Wir behandeln das Problem der Erkennung seltener und vielfältiger Anomalien in Überwachungsvideos unter ausschließlicher Verwendung von Video-Level-Supervision. Unser Dual-Backbone-Framework kombiniert Faltungs- und Transformer-Repräsentationen durch Top-k-Pooling und erreicht 90,7% Fläche unter der Kurve (AUC) auf dem UCF-Crime-Datensatz.
Hochauflösende (HR) Magnetresonanztomographie (MRT) ist für viele klinische und wissenschaftliche Anwendungen von entscheidender Bedeutung. Ihre Erreichung bleibt jedoch kostspielig und wird durch technische Kompromisse und experimentelle Einschränkungen behindert. Super-Resolution (SR) bietet einen vielversprechenden rechnerischen Ansatz, um diese Herausforderungen zu überwinden, indem HR-Bilder aus kostengünstigeren Niedrigauflösungs-(LR-)Aufnahmen erzeugt werden. Dies könnte die diagnostische Genauigkeit und Effizienz verbessern, ohne dass zusätzliche Hardware erforderlich ist. Dieser Übersichtsartikel behandelt aktuelle Fortschritte in der MRT-SR-Technologie mit einem Schwerpunkt auf Deep-Learning-(DL-)Ansätzen. Er untersucht DL-basierte MRT-SR-Methoden aus den Perspektiven der Computer Vision, des Computational Imaging, inverser Probleme und der MRT-Physik und behandelt theoretische Grundlagen, Architekturdesigns, Lernstrategien, Benchmark-Datensätze und Leistungskennzahlen. Wir schlagen eine systematische Taxonomie zur Kategorisierung dieser Methoden vor und präsentieren eine eingehende Untersuchung sowohl etablierter als auch aufkommender SR-Techniken, die auf die MRT anwendbar sind, unter Berücksichtigung der besonderen Herausforderungen in klinischen und Forschungskontexten. Wir beleuchten auch offene Herausforderungen und Richtungen, die die Gemeinschaft angehen muss. Zusätzlich stellen wir eine Sammlung essenzieller Open-Access-Ressourcen, Werkzeuge und Tutorials bereit, die auf unserem GitHub verfügbar sind: https://github.com/mkhateri/Awesome-MRI-Super-Resolution. IEEE Keywords: MRT, Super-Resolution, Deep Learning, Computational Imaging, Inverses Problem, Übersicht.
Wir schlagen eine clusterbasierte Rahmenauswahlstrategie vor, um Informationslecks in aus Videos abgeleiteten Bilddatensätzen zu mindern. Durch die Gruppierung visuell ähnlicher Bilder vor der Aufteilung in Trainings-, Validierungs- und Testdatensätze erzeugt die Methode repräsentativere, ausgewogenere und zuverlässigere Datenpartitionen.
Federated Learning (FL) ermöglicht eine gemeinsame Modellierung über mehrere Clients hinweg, ohne die Privatsphäre zu gefährden. Während die meisten bestehenden FL-Methoden von homogenen Modellarchitekturen ausgehen, macht die Heterogenität der Clients in Bezug auf Daten und Ressourcen diese Annahme unpraktikabel, was modellheterogenes FL motiviert. Um dieses Problem zu lösen, schlagen wir Federated Representation Entanglement (FedRE) vor, ein Framework, das auf einer neuartigen Form von Client-Wissen basiert, der sogenannten verschränkten Repräsentation. In FedRE aggregiert jeder Client seine lokalen Repräsentationen mithilfe normalisierter Zufallsgewichte zu einer einzigen verschränkten Repräsentation und wendet dieselben Gewichte an, um die entsprechenden One-Hot-Label-Kodierungen in die verschränkte Label-Kodierung zu integrieren. Diese werden dann an den Server hochgeladen, um einen globalen Klassifikator zu trainieren. Während des Trainings wird jede verschränkte Repräsentation über ihre verschränkte Label-Kodierung kategorienübergreifend überwacht, während die Zufallsgewichte in jeder Runde neu abgetastet werden, um Diversität einzuführen, die Überkonfidenz des globalen Klassifikators zu reduzieren und glattere Entscheidungsgrenzen zu fördern. Darüber hinaus lädt jeder Client nur eine einzige kategorienübergreifende verschränkte Repräsentation zusammen mit ihrer verschränkten Label-Kodierung hoch, was das Risiko von Repräsentations-Inversionsangriffen mindert und den Kommunikationsaufwand verringert. Umfangreiche Experimente zeigen, dass FedRE eine effektive Balance zwischen Modellleistung, Privatsphärenschutz und Kommunikationsaufwand erreicht. Die Codes sind verfügbar unter https://github.com/AIResearch-Group/FedRE.