Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das Lernen aus menschlichem Feedback (RLHF) hat sich als ein entscheidender Ansatz zur Ausrichtung großer Sprachmodelle an menschlichen Präferenzen herauskristallisiert und erlebt eine rasche algorithmische Evolution durch Methoden wie die Proximal Policy Optimization (PPO), die Direkte Präferenzoptimierung (DPO), REINFORCE Leave One-Out (RLOO), ReMax und die Gruppenbasierte Relative Policy Optimization (GRPO). Wir präsentieren REINFORCE++, eine verbesserte Variante des klassischen REINFORCE-Algorithmus, die Schlüsseloptimierungstechniken aus PPO integriert und dabei auf ein Kritikernetzwerk verzichtet. REINFORCE++ erreicht drei Hauptziele: (1) Einfachheit, (2) verbesserte Trainingsstabilität und (3) reduzierter Rechenaufwand. Durch umfangreiche empirische Evaluation zeigen wir, dass REINFORCE++ im Vergleich zu GRPO eine überlegene Stabilität aufweist und eine höhere Recheneffizienz als PPO erzielt, während die Leistung vergleichbar bleibt. Die Implementierung ist unter https://github.com/OpenRLHF/OpenRLHF verfügbar.
Künstliche Intelligenz (KI) muss zunächst digital trainiert werden. Sie benötigt eine digitale Zwillingversion von sich selbst, dem Richtlinienmodell, und eine digitale Zwillingversion der Welt, dem Weltmodell. In diesem Paper präsentieren wir die Cosmos World Foundation Model Platform, um Entwicklern dabei zu helfen, maßgeschneiderte Weltmodelle für ihre KI-Systeme zu erstellen. Wir positionieren ein Weltgrundlagenmodell als ein allgemeines Weltmodell, das für nachgelagerte Anwendungen in maßgeschneiderte Weltmodelle feinabgestimmt werden kann. Unsere Plattform umfasst eine Videokuratierungspipeline, vorab trainierte Weltgrundlagenmodelle, Beispiele für die Nachschulung von vorab trainierten Weltgrundlagenmodellen und Videotokenizer. Um den Entwicklern von KI-Systemen dabei zu helfen, die drängendsten Probleme unserer Gesellschaft zu lösen, stellen wir unsere Plattform Open Source zur Verfügung und unsere Modelle mit offenen Gewichten und großzügigen Lizenzen über https://github.com/NVIDIA/Cosmos zugänglich.
Das Aufkommen von Echtzeit-großen multimodalen Modellen (LMMs) wie GPT-4o hat ein erhebliches Interesse an effizienten LMMs geweckt. LMM-Frameworks kodieren in der Regel visuelle Eingaben in Visionstoken (kontinuierliche Repräsentationen) und integrieren sie sowie textuelle Anweisungen in den Kontext großer Sprachmodelle (LLMs), wobei groß angelegte Parameter und zahlreiche Kontexttoken (hauptsächlich Visionstoken) zu erheblichem Rechenaufwand führen. Frühere Bemühungen zur Effizienzsteigerung von LMMs konzentrieren sich immer darauf, das LLM-Grundgerüst durch kleinere Modelle zu ersetzen, wobei das entscheidende Problem der Token-Menge vernachlässigt wird. In diesem Artikel stellen wir LLaVA-Mini vor, ein effizientes LMM mit minimalen Visionstoken. Um ein hohes Kompressionsverhältnis von Visionstoken zu erreichen und gleichzeitig visuelle Informationen zu bewahren, analysieren wir zunächst, wie LMMs Visionstoken verstehen, und stellen fest, dass die meisten Visionstoken nur in den frühen Schichten des LLM-Grundgerüsts eine entscheidende Rolle spielen, wo sie hauptsächlich visuelle Informationen in Texttoken integrieren. Aufbauend auf dieser Erkenntnis führt LLaVA-Mini eine Modalitäts-Vorfusion ein, um visuelle Informationen im Voraus in Texttoken zu integrieren und so die extrem starke Kompression der Visionstoken zu erleichtern, die dem LLM-Grundgerüst zugeführt werden, auf ein Token. LLaVA-Mini ist ein vereinheitlichtes großes multimodales Modell, das die Verarbeitung von Bildern, hochauflösenden Bildern und Videos auf effiziente Weise unterstützen kann. Experimente über 11 bildbasierte und 7 videobasierte Benchmarks zeigen, dass LLaVA-Mini LLaVA-v1.5 übertrifft, indem es nur 1 Visionstoken anstelle von 576 verwendet. Effizienzanalysen zeigen, dass LLaVA-Mini die FLOPs um 77 % reduzieren kann, schnelle Reaktionen innerhalb von 40 Millisekunden liefert und über 10.000 Videoframes auf der GPU-Hardware mit 24 GB Speicher verarbeiten kann.
Diese Arbeit präsentiert Sa2VA, das erste vereinheitlichte Modell für dichtes verankertes Verständnis sowohl von Bildern als auch von Videos. Im Gegensatz zu bestehenden multimodalen großen Sprachmodellen, die oft auf spezifische Modalitäten und Aufgaben beschränkt sind, unterstützt Sa2VA eine breite Palette von Bild- und Videoaufgaben, einschließlich referenzierter Segmentierung und Konversation, mit minimalem Feinabgleich von Einzelschritt-Anweisungen. Sa2VA kombiniert SAM-2, ein grundlegendes Video-Segmentierungsmodell, mit LLaVA, einem fortschrittlichen Bildsprachmodell, und vereint Text, Bild und Video in einem gemeinsamen LLM-Tokenraum. Unter Verwendung des LLM generiert Sa2VA Anweisungstoken, die SAM-2 bei der Erstellung präziser Masken anleiten, was ein verankertes, multimodales Verständnis sowohl statischer als auch dynamischer visueller Inhalte ermöglicht. Darüber hinaus stellen wir Ref-SAV vor, einen automatisch beschrifteten Datensatz mit über 72.000 Objektausdrücken in komplexen Videoszenen, der die Leistung des Modells verbessern soll. Wir validieren auch manuell 2.000 Videoobjekte in den Ref-SAV-Datensätzen, um die Segmentierung referenzierter Videoobjekte in komplexen Umgebungen zu bewerten. Experimente zeigen, dass Sa2VA in mehreren Aufgaben den Stand der Technik erreicht, insbesondere bei der Segmentierung referenzierter Videoobjekte, was sein Potenzial für komplexe Anwendungen in der realen Welt unterstreicht.
In den letzten Jahren haben Vision Language Models (VLMs) bedeutende Fortschritte bei der Videoverarbeitung erzielt. Allerdings bleibt eine entscheidende Fähigkeit - die feinkörnige Bewegungskomprehension - in aktuellen Benchmarks untererforscht. Um diese Lücke zu schließen, schlagen wir MotionBench vor, einen umfassenden Evaluierungsbenchmark, der entwickelt wurde, um die feinkörnige Bewegungskomprehension von Videoverarbeitungsmodellen zu bewerten. MotionBench bewertet die Bewegungswahrnehmung der Modelle auf Bewegungsebene durch sechs primäre Kategorien von bewegungsorientierten Fragestellungen und beinhaltet Daten aus verschiedenen Quellen, um eine breite Repräsentation von Videoinhalten aus der realen Welt sicherzustellen. Experimentelle Ergebnisse zeigen, dass bestehende VLMs Schwierigkeiten haben, feinkörnige Bewegungen zu verstehen. Um die Fähigkeit von VLMs zur Wahrnehmung feinkörniger Bewegungen innerhalb einer begrenzten Sequenzlänge von LLM zu verbessern, führen wir umfangreiche Experimente durch, bei denen VLM-Architekturen für die Kompression von Videoeigenschaften optimiert werden, und schlagen eine neuartige und effiziente Durch-Encoder (TE) Fusion-Methode vor. Die Experimente zeigen, dass eine höhere Bildfrequenz und TE Fusion Verbesserungen bei der Bewegungsverarbeitung bringen, jedoch besteht noch erheblicher Raum für Verbesserungen. Unser Benchmark zielt darauf ab, die Entwicklung von leistungsfähigeren Videoverarbeitungsmodellen zu leiten und zu motivieren, wobei die Bedeutung der feinkörnigen Bewegungskomprehension betont wird. Projektseite: https://motion-bench.github.io.
Diffusionsmodelle haben beeindruckende Leistungen bei der Erzeugung hochwertiger Videos aus Textvorgaben oder Bildern gezeigt. Die präzise Steuerung des Videoerstellungsprozesses, wie z.B. Kameramanipulation oder Inhaltbearbeitung, bleibt jedoch eine bedeutende Herausforderung. Bestehende Methoden für kontrollierte Videogenerierung sind in der Regel auf einen einzigen Steuerungstyp beschränkt und bieten nicht die Flexibilität, um vielfältige Steuerungsanforderungen zu bewältigen. In diesem Artikel stellen wir Diffusion as Shader (DaS) vor, einen neuartigen Ansatz, der mehrere Videosteuerungsaufgaben innerhalb einer einheitlichen Architektur unterstützt. Unser Schlüsselerkenntnis ist, dass eine vielseitige Videosteuerung den Einsatz von 3D-Steuerungssignalen erfordert, da Videos im Wesentlichen 2D-Renderings von dynamischen 3D-Inhalten sind. Im Gegensatz zu früheren Methoden, die auf 2D-Steuerungssignalen beschränkt sind, nutzt DaS 3D-Tracking-Videos als Steuereingaben und macht den Video-Diffusionsprozess von Natur aus 3D-bewusst. Diese Innovation ermöglicht es DaS, eine Vielzahl von Videosteuerungen zu erreichen, indem einfach die 3D-Tracking-Videos manipuliert werden. Ein weiterer Vorteil der Verwendung von 3D-Tracking-Videos besteht in ihrer Fähigkeit, Frames effektiv zu verknüpfen und die zeitliche Konsistenz der erzeugten Videos erheblich zu verbessern. Mit nur 3 Tagen Feinabstimmung auf 8 H800-GPUs unter Verwendung von weniger als 10.000 Videos zeigt DaS starke Steuerungsfähigkeiten bei verschiedenen Aufgaben, einschließlich der Generierung von Mesh-zu-Video, Kamerasteuerung, Bewegungsübertragung und Objektmanipulation.
Die automatische Generierung von Präsentationen aus Dokumenten ist eine anspruchsvolle Aufgabe, die ein ausgewogenes Verhältnis von Inhalt, visuellem Design und struktureller Kohärenz erfordert. Bestehende Methoden konzentrieren sich hauptsächlich auf die Verbesserung und Bewertung der Inhaltsqualität isoliert voneinander, wobei visuelles Design und strukturelle Kohärenz oft vernachlässigt werden, was ihre praktische Anwendbarkeit einschränkt. Um diese Einschränkungen zu überwinden, schlagen wir PPTAgent vor, der die Präsentationsgenerierung umfassend durch einen zweistufigen, editierbasierten Ansatz verbessert, der von menschlichen Arbeitsabläufen inspiriert ist. PPTAgent analysiert zunächst Referenzpräsentationen, um ihre strukturellen Muster und Inhaltschemas zu verstehen, erstellt dann Gliederungen und generiert Folien durch Codeaktionen, um Konsistenz und Ausrichtung sicherzustellen. Zur umfassenden Bewertung der Qualität generierter Präsentationen führen wir weiterhin PPTEval ein, ein Bewertungsrahmenwerk, das Präsentationen in drei Dimensionen bewertet: Inhalt, Design und Kohärenz. Experimente zeigen, dass PPTAgent traditionelle automatische Präsentationsgenerierungsmethoden in allen drei Dimensionen signifikant übertrifft. Der Code und die Daten sind unter https://github.com/icip-cas/PPTAgent verfügbar.
In jüngster Zeit wurden Fortschritte im Bereich des omnimodalen Lernens erzielt, um Verständnis und Generierung über Bilder, Text und Sprache zu erreichen, hauptsächlich jedoch innerhalb proprietärer Modelle. Begrenzte omnimodale Datensätze und die inhärenten Herausforderungen, die mit der Echtzeitgenerierung emotionaler Sprache verbunden sind, haben den Fortschritt im Open-Source-Bereich behindert. Um diese Probleme anzugehen, schlagen wir openomni vor, eine zweistufige Schulungsmethode, die omnimodale Ausrichtung und Sprachgenerierung kombiniert, um ein Spitzenmodell für omnimodale große Sprachmodelle zu entwickeln. In der Ausrichtungsphase wird ein vorab trainiertes Sprachmodell weiterhin auf Text-Bild-Aufgaben trainiert, um von der Vision auf die Sprache in (nahezu) null Schritten zu verallgemeinern und dabei Modelle zu übertreffen, die auf tri-modalen Datensätzen trainiert sind. In der Sprachgenerierungsphase ermöglicht ein leichtgewichtiger Decoder die Echtzeitgenerierung emotionaler Sprache durch Schulung auf Sprachaufgaben und Präferenzlernen. Experimente zeigen, dass openomni kontinuierlich in omnimodalen, Vision-Sprache- und Sprache-Sprache-Bewertungen verbessert, natürliche, emotionsreiche Dialoge und die Echtzeitgenerierung emotionaler Sprache ermöglicht.
Das wissenschaftliche Forschungsparadigma durchläuft eine tiefgreifende Transformation aufgrund der Entwicklung von Künstlicher Intelligenz (KI). Aktuelle Arbeiten zeigen, dass verschiedene KI-unterstützte Forschungsmethoden die Forschungseffizienz erheblich verbessern können, indem sie die Datenanalyse verbessern, die Berechnung beschleunigen und die Generierung neuer Ideen fördern. Um das ultimative Ziel (d. h. automatische wissenschaftliche Forschung) weiter voranzutreiben, schlagen wir in diesem Papier Dolphin vor, das erste geschlossene Open-End-Auto-Forschungsframework, um den gesamten Prozess der menschlichen wissenschaftlichen Forschung weiter auszubauen. Dolphin kann Forschungsideen generieren, Experimente durchführen und Feedback aus den experimentellen Ergebnissen erhalten, um qualitativ hochwertigere Ideen zu generieren. Konkret generiert Dolphin zunächst neue Ideen basierend auf relevanten Papieren, die nach den Themen- und Aufgabenattributen bewertet werden. Anschließend werden die Codes automatisch generiert und mit Hilfe der Ausnahme-Traceback-geführten lokalen Code-Struktur debuggt. Schließlich analysiert Dolphin automatisch die Ergebnisse jeder Idee und speist die Ergebnisse in die nächste Runde der Ideengenerierung zurück. Experimente werden an Benchmark-Datensätzen zu verschiedenen Themen durchgeführt, und die Ergebnisse zeigen, dass Dolphin kontinuierlich neue Ideen generieren und das Experiment in einer Schleife abschließen kann. Wir betonen, dass Dolphin automatisch Methoden vorschlagen kann, die in einigen Aufgaben wie der 2D-Bildklassifizierung und der 3D-Punktklassifizierung mit dem Stand der Technik vergleichbar sind.
Wir präsentieren Magic Mirror, ein Framework zur Erzeugung von identitätserhaltenden Videos mit kinoreifer Qualität und dynamischer Bewegung. Während jüngste Fortschritte in Video-Diffusionsmodellen beeindruckende Fähigkeiten in der Text-zu-Video-Generierung gezeigt haben, bleibt die Aufrechterhaltung einer konsistenten Identität bei der Erzeugung natürlicher Bewegungen eine Herausforderung. Frühere Methoden erfordern entweder eine feinabgestimmte Personenspezifität oder haben Schwierigkeiten, Identitätserhaltung und Bewegungsvielfalt auszubalancieren. Aufbauend auf Video Diffusion Transformers führt unsere Methode drei Schlüsselkomponenten ein: (1) einen dualen Gesichtsmerkmalsextraktor, der sowohl Identität als auch strukturelle Merkmale erfasst, (2) einen leichten Cross-Modal Adapter mit bedingter adaptiver Normalisierung für eine effiziente Identitätsintegration und (3) eine Zwei-Stufen-Trainingsstrategie, die synthetische Identitätspaare mit Videodaten kombiniert. Umfangreiche Experimente zeigen, dass Magic Mirror Identitätskonsistenz effektiv mit natürlicher Bewegung ausbalanciert, bestehende Methoden in mehreren Metriken übertrifft und dabei minimale zusätzliche Parameter erfordert. Der Code und das Modell werden öffentlich zugänglich gemacht unter: https://github.com/dvlab-research/MagicMirror/
Die 3D-Gauß-Splatting (3DGS) hat bedeutende Fortschritte bei der Szenendarstellung und dem neuronalen Rendern gemacht, wobei intensive Bemühungen darauf gerichtet waren, sie für dynamische Szenen anzupassen. Trotz der bemerkenswerten Rendering-Qualität und -Geschwindigkeit haben bestehende Methoden Schwierigkeiten mit Speicheranforderungen und der Darstellung komplexer realer Bewegungen. Um diese Probleme anzugehen, schlagen wir MoDecGS vor, ein speicher-effizientes Gauß-Splatting-Framework, das für die Rekonstruktion neuer Ansichten in anspruchsvollen Szenarien mit komplexen Bewegungen entwickelt wurde. Wir führen die globale-zu-lokale Bewegungszerlegung (GLMD) ein, um dynamische Bewegungen in grob-zu-fein-Weise effektiv zu erfassen. Dieser Ansatz nutzt globale kanonische Gerüste (Global CS) und lokale kanonische Gerüste (Local CS) und erweitert die statische Gerüstdarstellung auf die dynamische Videorekonstruktion. Für Global CS schlagen wir die globale Ankerdeformation (GAD) vor, um globale Dynamiken entlang komplexer Bewegungen effizient darzustellen, indem die impliziten Gerüstattribute direkt deformiert werden, nämlich Ankerposition, Versatz und lokale Kontextmerkmale. Anschließend passen wir die lokalen Bewegungen über die lokale gaußsche Deformation (LGD) von Local CS explizit an. Darüber hinaus führen wir die temporale Intervallanpassung (TIA) ein, um während des Trainings automatisch die zeitliche Abdeckung jedes Local CS zu steuern, was MoDecGS ermöglicht, optimale Intervallzuweisungen basierend auf der angegebenen Anzahl von zeitlichen Segmenten zu finden. Umfangreiche Bewertungen zeigen, dass MoDecGS eine durchschnittliche 70%ige Reduzierung der Modellgröße im Vergleich zu State-of-the-Art-Methoden für dynamische 3D-Gaußsche aus realen dynamischen Videos erreicht, während die Rendering-Qualität beibehalten oder sogar verbessert wird.
Die Verstärkungslernmethode aus menschlichem Feedback (RLHF) wurde weit verbreitet übernommen, um Sprachmodelle (LMs) mit menschlichen Präferenzen abzustimmen. Frühere RLHF-Arbeiten verwenden typischerweise eine Bandit-Formulierung, die zwar intuitiv ist, aber die sequenzielle Natur der LM-Generierung ignoriert und unter dem Problem der spärlichen Belohnung leiden kann. Während neuere Arbeiten eine dichte Token-Ebene RLHF vorschlagen, kann die Behandlung jedes Tokens als Aktion zu einer zu subtilen Zuweisung angemessener Belohnungen führen. In diesem Paper versuchen wir, das Beste aus beiden Welten zu vereinen, indem wir ein Segment-Ebenen-Belohnungsmodell trainieren und nutzen, das jeder semantisch vollständigen Textsegment eine Belohnung zuweist, das über eine kurze Sequenz von Tokens reicht. Für das Belohnungslernen ermöglicht unsere Methode eine dynamische Textsegmentierung und ist kompatibel mit gängigen Sequenzpräferenz-Datensätzen. Für ein effektives RL-basiertes LM-Training gegen Segmentbelohnung generalisieren wir die klassischen skalaren Bandit-Belohnungsnormierer in ortsbezogene Normierungsfunktionen und interpolieren die Segmentbelohnung zur weiteren Verdichtung. Mit diesen Entwürfen erzielt unsere Methode eine wettbewerbsfähige Leistung bei drei beliebten RLHF-Benchmarks für LM-Richtlinien: AlpacaEval 2.0, Arena-Hard und MT-Bench. Ablationsstudien werden durchgeführt, um unsere Methode weiter zu demonstrieren.
Wir präsentieren einen Ansatz zur Modifikation von Transformer-Architekturen durch die Integration von graphenbewusstem relationalem Denken in den Aufmerksamkeitsmechanismus, wobei Konzepte aus Graph-Neuronalen Netzwerken und Sprachmodellierung zusammengeführt werden. Aufbauend auf der inhärenten Verbindung zwischen Aufmerksamkeit und Graphentheorie formulieren wir den Aufmerksamkeitsmechanismus des Transformers als Graphenoperation um und schlagen Graph-Bewusste Isomorphe Aufmerksamkeit vor. Diese Methode nutzt fortschrittliche Graphmodellierungsstrategien, einschließlich Graphen-Isomorphie-Netzwerken (GIN) und Prinzipieller Nachbarschaftsaggregation (PNA), um die Darstellung relationaler Strukturen zu bereichern. Unser Ansatz erfasst komplexe Abhängigkeiten und generalisiert über Aufgaben hinweg, wie durch eine verringerte Generalisierungslücke und verbesserte Lernleistung belegt wird. Darüber hinaus erweitern wir das Konzept der graphenbewussten Aufmerksamkeit, um Sparse GIN-Aufmerksamkeit einzuführen, einen Feinabstimmungsansatz, der Sparse GINs verwendet. Indem Aufmerksamkeitsmatrizen als dünnbesiedelte Adjazenzgraphen interpretiert werden, verbessert diese Technik die Anpassungsfähigkeit von vorab trainierten Grundlagenmodellen mit minimalem Rechenaufwand und verleiht ihnen graphenbewusste Fähigkeiten. Die Feinabstimmung mit Sparse GIN-Aufmerksamkeit erzielt verbesserte Trainingsdynamik und bessere Generalisierung im Vergleich zu alternativen Methoden wie niedrig-rangiger Anpassung (LoRA). Wir diskutieren latente graphenähnliche Strukturen innerhalb traditioneller Aufmerksamkeitsmechanismen und bieten eine neue Perspektive, durch die Transformers verstanden werden können, indem sie sich als hierarchische GIN-Modelle für relationales Denken weiterentwickeln. Diese Perspektive deutet auf tiefgreifende Auswirkungen auf die Entwicklung von Grundlagenmodellen hin und ermöglicht die Gestaltung von Architekturen, die sich dynamisch an lokale und globale Abhängigkeiten anpassen können. Anwendungen in der Bioinformatik, Materialwissenschaft, Sprachmodellierung und darüber hinaus könnten von dieser Synthese relationaler und sequenzieller Datenmodellierung profitieren und den Weg für interpretierbare und generalisierbare Modellierungsstrategien ebnen.
Wir behandeln das Problem der Bearbeitung von Gesichtsausdrücken, indem wir die relative Variation der Gesichtsaktions-Einheiten (AU) derselben Person kontrollieren. Dies ermöglicht es uns, den Ausdruck dieser spezifischen Person auf fein abgestimmte, kontinuierliche und interpretierbare Weise zu bearbeiten, während wir ihre Identität, Pose, Hintergrund und detaillierte Gesichtsmerkmale bewahren. Schlüssel zu unserem Modell, das wir MagicFace nennen, ist ein Diffusionsmodell, das von AU-Variationen abhängt, und ein ID-Encoder, um Gesichtsdetails von hoher Konsistenz zu bewahren. Speziell, um die Gesichtsdetails mit der Eingabeidentität zu bewahren, nutzen wir die Leistung vortrainierter Stable-Diffusion-Modelle und entwerfen einen ID-Encoder, um Erscheinungsmerkmale durch Self-Attention zu verschmelzen. Um Hintergrund- und Pose-Konsistenz zu bewahren, führen wir einen effizienten Attribut-Controller ein, indem wir dem Modell explizit den aktuellen Hintergrund und die Pose des Ziels mitteilen. Durch das Einspeisen von AU-Variationen in ein Rauschunterdrückungs-UNet kann unser Modell beliebige Identitäten mit verschiedenen AU-Kombinationen animieren und liefert im Vergleich zu anderen Arbeiten zur Bearbeitung von Gesichtsausdrücken überlegene Ergebnisse in der hochwertigen Ausdrucksbearbeitung. Der Code ist öffentlich verfügbar unter https://github.com/weimengting/MagicFace.
Textgesteuerte Bild-zu-Bild-Diffusionsmodelle zeichnen sich durch ihre Fähigkeit aus, Bilder basierend auf textuellen Anweisungen zu übersetzen, was präzise und kreative visuelle Modifikationen ermöglicht. Allerdings kann eine solch leistungsstarke Technik für die Verbreitung von Fehlinformationen, Urheberrechtsverletzungen und die Umgehung der Inhaltsverfolgung missbraucht werden. Dies motiviert uns, die Aufgabe der Ursprungserkennung für textgesteuerte Bild-zu-Bild-Diffusionsmodelle (ID^2) einzuführen, mit dem Ziel, das ursprüngliche Bild einer gegebenen übersetzten Abfrage abzurufen. Eine einfache Lösung für ID^2 besteht darin, ein spezialisiertes tiefes Einbettungsmodell zu trainieren, um Merkmale sowohl von der Abfrage als auch von Referenzbildern zu extrahieren und zu vergleichen. Aufgrund visueller Diskrepanzen zwischen den Generationen, die von verschiedenen Diffusionsmodellen erzeugt werden, versagt dieser ähnlichkeitsbasierte Ansatz jedoch, wenn er auf Bilder eines Modells trainiert und auf solche eines anderen getestet wird, was seine Wirksamkeit in realen Anwendungen einschränkt. Um diese Herausforderung der vorgeschlagenen ID^2-Aufgabe zu lösen, tragen wir das erste Datenset und eine theoretisch garantierte Methode bei, die beide die Verallgemeinerbarkeit betonen. Das kuratierte Datenset, OriPID, enthält reichlich Ursprünge und geleitete Anweisungen, die verwendet werden können, um potenzielle Identifikationsmodelle über verschiedene Diffusionsmodelle hinweg zu trainieren und zu testen. Im Methodenteil beweisen wir zunächst die Existenz einer linearen Transformation, die den Abstand zwischen den vortrainierten Einbettungen des Variationalen Autoencoders (VAE) von generierten Proben und ihren Ursprüngen minimiert. Anschließend wird gezeigt, dass eine solch einfache lineare Transformation über verschiedene Diffusionsmodelle hinweg verallgemeinert werden kann. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode eine zufriedenstellende Verallgemeinerungsleistung erreicht und signifikant die ähnlichkeitsbasierten Methoden überschreitet (+31,6% mAP), selbst solche mit Verallgemeinerungskonzepten.