Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Generative Künstliche Intelligenz (GenKI) Systeme werden zunehmend in allen Bereichen der Industrie und Forschung eingesetzt. Entwickler und Endnutzer interagieren mit diesen Systemen durch die Verwendung von Anregungen oder Prompt-Engineering. Während Anregungen ein weit verbreitetes und intensiv erforschtes Konzept sind, existieren widersprüchliche Terminologien und ein mangelndes ontologisches Verständnis dessen, was eine Anregung ausmacht, aufgrund der Neuheit des Gebiets. Dieser Artikel etabliert ein strukturiertes Verständnis von Anregungen, indem er eine Taxonomie von Anregungstechniken zusammenstellt und ihre Verwendung analysiert. Wir präsentieren einen umfassenden Wortschatz von 33 Begriffen, eine Taxonomie von 58 rein textbasierten Anregungstechniken und 40 Techniken für andere Modalitäten. Des Weiteren präsentieren wir eine Meta-Analyse der gesamten Literatur zu natürlichsprachlichem Präfix-Prompting.
Die jüngsten Fortschritte in generativen Modellen haben die entscheidende Rolle der Bildtokenisierung bei der effizienten Synthese von hochauflösenden Bildern hervorgehoben. Die Tokenisierung, die Bilder in latente Repräsentationen umwandelt, verringert den Rechenaufwand im Vergleich zur direkten Verarbeitung von Pixeln und verbessert die Effektivität und Effizienz des Generierungsprozesses. Frühere Methoden wie VQGAN nutzen in der Regel 2D-latente Raster mit festen Downsampling-Faktoren. Diese 2D-Tokenisierungen stehen jedoch vor Herausforderungen bei der Verwaltung der inhärenten Redundanzen in Bildern, bei denen benachbarte Regionen häufig Ähnlichkeiten aufweisen. Um dieses Problem zu überwinden, stellen wir den Transformer-basierten 1-Dimensional Tokenizer (TiTok) vor, einen innovativen Ansatz, der Bilder in 1D-latente Sequenzen tokenisiert. TiTok bietet eine kompaktere latente Repräsentation, die wesentlich effizientere und effektivere Repräsentationen als herkömmliche Techniken liefert. Beispielsweise kann ein Bild mit der Größe 256 x 256 x 3 auf nur 32 diskrete Tokens reduziert werden, was im Vergleich zu den 256 oder 1024 Tokens, die mit früheren Methoden erhalten wurden, eine signifikante Reduzierung darstellt. Trotz seiner kompakten Natur erreicht TiTok eine wettbewerbsfähige Leistung im Vergleich zu State-of-the-Art-Ansätzen. Speziell unter Verwendung des gleichen Generator-Frameworks erreicht TiTok einen gFID-Wert von 1,97 und übertrifft damit den MaskGIT-Basislinienwert signifikant um 4,21 beim ImageNet 256 x 256 Benchmark. Die Vorteile von TiTok werden noch signifikanter, wenn es um höhere Auflösungen geht. Beim ImageNet 512 x 512 Benchmark übertrifft TiTok nicht nur das State-of-the-Art-Diffusionsmodell DiT-XL/2 (gFID 2,74 vs. 3,04), sondern reduziert auch die Bildtokens um das 64-fache, was zu einem 410-fach schnelleren Generierungsprozess führt. Unsere leistungsstärkste Variante kann DiT-XL/2 signifikant übertreffen (gFID 2,13 vs. 3,04), während sie immer noch 74-fach schneller hochwertige Proben generiert.
Große Sprachmodelle für Code (LLMs) haben bemerkenswerte Fortschritte bei der Code-Verständnis-, -Vervollständigungs- und -Generierungsaufgaben gezeigt. Programmier-Benchmarks, bestehend aus einer Auswahl von Code-Herausforderungen und entsprechenden Testfällen, dienen als Standard zur Bewertung der Leistungsfähigkeit verschiedener LLMs bei solchen Aufgaben. Die meisten bestehenden Benchmarks konzentrieren sich jedoch hauptsächlich auf Python und sind immer noch auf eine begrenzte Anzahl von Sprachen beschränkt, wobei andere Sprachen aus den Python-Beispielen übersetzt werden (z. B. MultiPL-E), was die Datenvielfalt verringert. Um die Forschung zu Code-LLMs weiter zu erleichtern, schlagen wir einen massiv mehrsprachigen Code-Benchmark vor, der 40 Programmiersprachen abdeckt (McEval) mit 16K Testbeispielen, was die Grenzen von Code-LLMs in mehrsprachigen Szenarien erheblich erweitert. Der Benchmark enthält anspruchsvolle Code-Vervollständigungs-, -Verständnis- und -Generierungsbewertungsaufgaben mit sorgfältig kuratierten massiv mehrsprachigen Anweisungskorpora McEval-Instruct. Darüber hinaus stellen wir einen effektiven mehrsprachigen Codierer mCoder vor, der auf McEval-Instruct trainiert wurde, um die Generierung von mehrsprachigen Programmiersprachen zu unterstützen. Umfangreiche experimentelle Ergebnisse zu McEval zeigen, dass es immer noch eine schwierige Reise zwischen Open-Source-Modellen und Closed-Source-LLMs (z. B. GPT-Serienmodelle) in zahlreichen Sprachen gibt. Die Anweisungskorpora, der Bewertungsbenchmark und die Rangliste sind unter https://mceval.github.io/ verfügbar.
Die Bearbeitung von Bildern stellt eine praktische, aber anspruchsvolle Aufgabe dar, wenn man die vielfältigen Anforderungen der Benutzer berücksichtigt, wobei eine der schwierigsten Aufgaben darin besteht, präzise zu beschreiben, wie das bearbeitete Bild aussehen soll. In dieser Arbeit stellen wir eine neue Form der Bearbeitung vor, die als imitative Bearbeitung bezeichnet wird, um den Benutzern zu helfen, ihre Kreativität bequemer auszuüben. Konkret können Benutzer zur Bearbeitung eines Bildbereichs ihrer Wahl direkt Inspiration aus einigen Referenzen aus der realen Welt ziehen (z. B. einige verwandte Bilder, die online gefunden wurden), ohne sich mit der Anpassung zwischen der Referenz und der Quelle auseinandersetzen zu müssen. Ein solches Design erfordert, dass das System automatisch herausfindet, was von der Referenz erwartet wird, um die Bearbeitung durchzuführen. Zu diesem Zweck schlagen wir ein generatives Schulungsframework namens MimicBrush vor, das zufällig zwei Frames aus einem Videoclip auswählt, einige Regionen eines Frames maskiert und lernt, die maskierten Regionen mithilfe der Informationen aus dem anderen Frame wiederherzustellen. Auf diese Weise kann unser Modell, das auf einem Diffusionsprior basiert, die semantische Entsprechung zwischen separaten Bildern selbstüberwacht erfassen. Wir zeigen experimentell die Wirksamkeit unserer Methode unter verschiedenen Testfällen sowie deren Überlegenheit gegenüber bestehenden Alternativen. Wir erstellen auch einen Benchmark, um weitere Forschung zu erleichtern.
KI durchläuft einen Paradigmenwechsel, wobei Durchbrüche durch Systeme erzielt werden, die mehrere große Sprachmodelle (LLMs) und andere komplexe Komponenten orchestrieren. Daher ist die Entwicklung von methodischen und automatisierten Optimierungsmethoden für komplexe KI-Systeme eine der wichtigsten neuen Herausforderungen. Neuronale Netzwerke standen in ihren Anfängen vor einer ähnlichen Herausforderung, bis Rückpropagierung und automatische Differentiation das Feld durch die Bereitstellung von optimierten Lösungen revolutionierten. Inspiriert davon stellen wir TextGrad vor, ein leistungsstarkes Framework, das eine automatische "Differentiation" über Text durchführt. TextGrad propagiert textuelles Feedback, das von LLMs bereitgestellt wird, um einzelne Komponenten eines komplexen KI-Systems zu verbessern. In unserem Framework bieten LLMs reiche, allgemeine, natürlichsprachliche Vorschläge zur Optimierung von Variablen in Berechnungsgraphen, die von Code-Schnipseln bis hin zu Molekülstrukturen reichen. TextGrad folgt der Syntax und Abstraktion von PyTorch und ist flexibel und benutzerfreundlich. Es funktioniert "out-of-the-box" für eine Vielzahl von Aufgaben, bei denen die Benutzer nur die Ziel-Funktion bereitstellen, ohne Komponenten oder Eingaben des Frameworks abstimmen zu müssen. Wir präsentieren die Wirksamkeit und Allgemeingültigkeit von TextGrad in einer Vielzahl von Anwendungen, von der Beantwortung von Fragen und der Optimierung von Molekülen bis hin zur Strahlentherapieplanung. Ohne das Framework zu ändern, verbessert TextGrad die Null-Schuss-Genauigkeit von GPT-4o in der Google-Proof-Fragenbeantwortung von 51% auf 55%, erzielt einen relativen Leistungsanstieg von 20% bei der Optimierung von LeetCode-Hard-Codierungsproblem-Lösungen, verbessert Eingaben für das Argumentieren, entwirft neue medikamentenähnliche kleine Moleküle mit wünschenswerter in silico-Bindung und entwirft Strahlentherapiebehandlungspläne mit hoher Spezifität. TextGrad legt den Grundstein für die Beschleunigung der Entwicklung der nächsten Generation von KI-Systemen.
Komplexe mehrstufige Schlussfolgerungsaufgaben, wie das Lösen mathematischer Probleme oder das Generieren von Code, bleiben selbst für die fortschrittlichsten großen Sprachmodelle (LLMs) eine bedeutende Hürde. Die Verifizierung von LLM-Ausgaben mit einem Outcome Reward Model (ORM) ist eine gängige Inferenzzeit-Technik, die darauf abzielt, die Schlussfolgerungsleistung von LLMs zu verbessern. Dies erweist sich jedoch immer noch als unzureichend für Schlussfolgerungsaufgaben mit einer langen oder mehrstufigen Schlussfolgerungskette, bei der die Zwischenergebnisse weder angemessen belohnt noch bestraft werden. Die Prozessaufsicht behebt diese Einschränkung, indem sie während des Schlussfolgerungsprozesses Zwischenbelohnungen vergibt. Bisher haben die zur Erfassung von Prozessaufsichtsdaten verwendeten Methoden entweder auf menschlicher Annotation oder auf einer pro Schritt durchgeführten Monte-Carlo-Schätzung beruht, die beide aufgrund hoher Kosten nicht skalierbar sind und somit die breite Anwendung dieser Technik behindern. Als Antwort auf diese Herausforderung schlagen wir einen neuartigen Divide-and-Conquer-Stil Monte-Carlo-Tree-Search-Algorithmus namens OmegaPRM zur effizienten Erfassung hochwertiger Prozessaufsichtsdaten vor. Dieser Algorithmus identifiziert schnell den ersten Fehler in der Chain of Thought (CoT) mit binärer Suche und gleicht die positiven und negativen Beispiele aus, wodurch sowohl Effizienz als auch Qualität gewährleistet werden. Dadurch sind wir in der Lage, über 1,5 Millionen Prozessaufsichtsannotationen zu sammeln, um ein Process Reward Model (PRM) zu trainieren. Durch die Nutzung dieser vollständig automatisierten Prozessaufsicht zusammen mit dem gewichteten Selbstkonsistenzalgorithmus haben wir die mathematische Schlussfolgerungsleistung des instruktionsangepassten Gemini Pro-Modells verbessert und erreichen eine Erfolgsquote von 69,4\% im MATH-Benchmark, was eine relative Verbesserung von 36\% gegenüber der 51\%igen Leistung des Basismodells darstellt. Darüber hinaus funktioniert der gesamte Prozess ohne jegliche menschliche Intervention, was unsere Methode im Vergleich zu bestehenden Methoden sowohl finanziell als auch rechnerisch kosteneffizient macht.
Dieses Papier stellt den MCT Self-Refine (MCTSr) Algorithmus vor, eine innovative Integration von Large Language Models (LLMs) mit Monte Carlo Tree Search (MCTS), der darauf abzielt, die Leistung bei komplexen mathematischen Schlussfolgerungsaufgaben zu verbessern. Um den Herausforderungen der Genauigkeit und Zuverlässigkeit bei LLMs, insbesondere in strategischen und mathematischen Schlussfolgerungen, zu begegnen, nutzt MCTSr systematische Exploration und heuristische Selbstverfeinerungsmechanismen, um Entscheidungsrahmen innerhalb von LLMs zu verbessern. Der Algorithmus konstruiert einen Monte Carlo Suchbaum durch iterative Prozesse der Auswahl, Selbstverfeinerung, Selbstevaluierung und Rückpropagierung, wobei eine verbesserte obere Vertrauensgrenze (Upper Confidence Bound, UCB) Formel verwendet wird, um das Gleichgewicht zwischen Exploration und Ausbeutung zu optimieren. Umfangreiche Experimente zeigen die Wirksamkeit von MCTSr bei der Lösung von mathematischen Problemen auf Olympiade-Niveau, wobei die Erfolgsraten signifikant verbessert werden, und zwar über mehrere Datensätze hinweg, einschließlich GSM8K, GSM Hard, MATH sowie Olympiade-Benchmarks wie Math Odyssey, AIME und OlympiadBench. Die Studie fördert die Anwendung von LLMs in komplexen Schlussfolgerungsaufgaben und legt den Grundstein für zukünftige Integrationen von KI, um die Genauigkeit und Zuverlässigkeit bei LLM-gesteuerten Anwendungen zu verbessern.
In diesem technischen Bericht stellen wir die Schulungsmethoden vor, die bei der Entwicklung von Skywork-MoE, einem leistungsstarken Mixture-of-Experts (MoE) Large Language Model (LLM) mit 146 Milliarden Parametern und 16 Experten, implementiert wurden. Es wird aus den vorhandenen dichten Checkpoints unseres Skywork-13B-Modells initialisiert. Wir untersuchen die vergleichende Wirksamkeit von Upcycling gegenüber dem Training von Grund auf. Unsere Ergebnisse legen nahe, dass die Wahl zwischen diesen beiden Ansätzen sowohl die Leistung der vorhandenen dichten Checkpoints als auch das MoE-Trainingsbudget berücksichtigen sollte. Wir heben zwei innovative Techniken hervor: Gating-Logit-Normalisierung, die die Expertenvielfalt verbessert, und adaptive Hilfsverlustkoeffizienten, die eine anpassbare Einstellung der Hilfsverlustkoeffizienten auf Schichtebene ermöglichen. Unsere experimentellen Ergebnisse bestätigen die Wirksamkeit dieser Methoden. Unter Nutzung dieser Techniken und Erkenntnisse haben wir unser upgecyceltes Skywork-MoE auf einem kondensierten Subset unseres SkyPile-Korpus trainiert. Die Evaluierungsergebnisse zeigen, dass unser Modell eine starke Leistung über eine Vielzahl von Benchmarks hinweg bietet.
Die Erzeugung kombinierter visueller und auditiver Sinneserfahrungen ist entscheidend für die Wahrnehmung immersiver Inhalte. Durch jüngste Fortschritte in neuronalen generativen Modellen ist es möglich geworden, hochauflösende Inhalte über mehrere Modalitäten wie Bilder, Text, Sprache und Videos zu erstellen. Trotz dieser Erfolge besteht nach wie vor eine signifikante Lücke bei der Erzeugung hochwertiger räumlicher Audioinhalte, die das generierte visuelle Material ergänzen. Darüber hinaus zeichnen sich aktuelle Audio-Generierungsmodelle entweder durch die Erzeugung natürlicher Audioinhalte oder Sprache oder Musik aus, scheitern jedoch darin, räumliche Audiohinweise zu integrieren, die für immersive Erfahrungen erforderlich sind. In dieser Arbeit stellen wir SEE-2-SOUND vor, einen Zero-Shot-Ansatz, der die Aufgabe in (1) Identifizierung visueller Interessensregionen; (2) Lokalisierung dieser Elemente im 3D-Raum; (3) Generierung von Mono-Audio für jedes Element; und (4) Integration in räumliches Audio zerlegt. Mithilfe unseres Frameworks zeigen wir überzeugende Ergebnisse bei der Erzeugung von räumlichem Audio für hochwertige Videos, Bilder und dynamische Bilder aus dem Internet sowie Medien, die durch erlernte Ansätze generiert wurden.
Bestehende Methoden zur dynamischen Szenengenerierung stützen sich hauptsächlich auf die Extraktion von Wissen aus vorab trainierten 3D-generativen Modellen, die in der Regel auf synthetischen Objektdatensätzen feinabgestimmt sind. Als Ergebnis sind die generierten Szenen oft objektorientiert und weisen einen Mangel an fotorealistischer Darstellung auf. Um diese Einschränkungen zu überwinden, stellen wir eine neuartige Pipeline vor, die für die fotorealistische Text-zu-4D-Szenengenerierung konzipiert ist, wobei die Abhängigkeit von Multi-View-generativen Modellen verworfen wird und stattdessen vollständig auf Video-generative Modelle zurückgegriffen wird, die auf vielfältigen realen Datensätzen trainiert sind. Unser Ansatz beginnt mit der Generierung eines Referenzvideos mithilfe des Video-Generierungsmodells. Anschließend erlernen wir die kanonische 3D-Repräsentation des Videos unter Verwendung eines Freeze-Time-Videos, das sorgfältig aus dem Referenzvideo generiert wird. Um Inkonsistenzen im Freeze-Time-Video zu bewältigen, erlernen wir gemeinsam eine pro Frame-Verformung, um diese Unvollkommenheiten zu modellieren. Danach erlernen wir die zeitliche Verformung basierend auf der kanonischen Repräsentation, um dynamische Interaktionen im Referenzvideo einzufangen. Die Pipeline erleichtert die Generierung dynamischer Szenen mit verbesserter Fotorealismus und struktureller Integrität, die aus verschiedenen Perspektiven betrachtet werden können und somit einen neuen Standard in der 4D-Szenengenerierung setzen.
Diffusionsmodelle haben in der Community erhebliches Interesse geweckt aufgrund ihrer starken generativen Fähigkeiten in verschiedenen Anwendungen. Allerdings führt ihre typische mehrstufige sequenzielle Rauschunterdrückung zu einer hohen kumulativen Latenz, was die Möglichkeit paralleler Berechnungen ausschließt. Um diesem Problem zu begegnen, stellen wir AsyncDiff vor, ein universelles und einfach integrierbares Beschleunigungsschema, das eine Modellparallelität über mehrere Geräte ermöglicht. Unser Ansatz unterteilt das umfangreiche Rauschvorhersagemodell in mehrere Komponenten und weist jeder Komponente ein anderes Gerät zu. Um die Abhängigkeitskette zwischen diesen Komponenten zu durchbrechen, wird die konventionelle sequenzielle Rauschunterdrückung in einen asynchronen Prozess umgewandelt, indem die hohe Ähnlichkeit zwischen den versteckten Zuständen in aufeinanderfolgenden Diffusionsschritten ausgenutzt wird. Folglich ist es jeder Komponente möglich, parallel auf separaten Geräten zu rechnen. Die vorgeschlagene Strategie reduziert die Inferenzlatenz signifikant, während die generative Qualität minimal beeinträchtigt wird. Speziell für die Stable Diffusion v2.1 erreicht AsyncDiff eine Beschleunigung um den Faktor 2,7 bei vernachlässigbarer Verschlechterung und eine Beschleunigung um den Faktor 4,0 bei lediglich einer geringfügigen Reduzierung von 0,38 im CLIP-Score auf vier NVIDIA A5000 GPUs. Unsere Experimente zeigen zudem, dass AsyncDiff problemlos auf Videodiffusionsmodelle mit vielversprechenden Leistungen angewendet werden kann. Der Code ist verfügbar unter https://github.com/czg1225/AsyncDiff.
Obwohl Diffusionsmodelle sich hervorragend zur Erzeugung hochwertiger Bilder eignen, berichten frühere Arbeiten über eine signifikante Leistungslücke zwischen Diffusion und autoregressiven (AR) Methoden im Sprachmodellieren. In dieser Arbeit zeigen wir, dass einfache maskierte diskrete Diffusion leistungsstärker ist als bisher angenommen. Wir wenden ein effektives Schulungsrezept an, das die Leistung von maskierten Diffusionsmodellen verbessert, und leiten ein vereinfachtes, Rao-Blackwellisiertes Ziel ab, das zu zusätzlichen Verbesserungen führt. Unser Ziel hat eine einfache Form - es handelt sich um eine Mischung aus klassischen maskierten Sprachmodellierungsverlusten - und kann verwendet werden, um ausschließlich Encoder-Sprachmodelle zu trainieren, die effiziente Sampler zulassen, einschließlich solcher, die halb-autoregressiv beliebige Textlängen generieren können, ähnlich einem traditionellen Sprachmodell. Bei Sprachmodellierungs-Benchmarks erreicht eine Reihe von maskierten Diffusionsmodellen, die mit modernen Ingenieurpraktiken trainiert wurden, einen neuen Stand der Technik unter den Diffusionsmodellen und nähert sich der AR-Perplexität an. Wir veröffentlichen unseren Code unter: https://github.com/kuleshov-group/mdlm
Große Sprachmodelle (LLM) haben beeindruckende Leistungen bei medizinischen Frage-Antwort-Benchmarks erzielt. Allerdings bedeutet eine hohe Genauigkeit bei Benchmarks nicht zwangsläufig, dass die Leistung auf reale klinische Umgebungen übertragbar ist. Medizinische Frage-Antwort-Benchmarks beruhen auf Annahmen, die mit der Quantifizierung der LLM-Leistung übereinstimmen, aber die möglicherweise in der realen klinischen Welt nicht zutreffen. Dennoch erwerben LLMs umfassendes Wissen, das ihnen helfen kann, auch bei unrealistischen Annahmen in bekannten Benchmarks auf praktische Bedingungen zu verallgemeinern. Wir möchten quantifizieren, wie gut sich die Leistung von LLMs bei medizinischen Frage-Antwort-Benchmarks verallgemeinert, wenn die Benchmark-Annahmen verletzt werden. Speziell präsentieren wir eine adversarielle Methode, die wir MedFuzz (für medizinisches Fuzzing) nennen. MedFuzz versucht, Benchmark-Fragen so zu modifizieren, dass sie das LLM verwirren. Wir demonstrieren diesen Ansatz, indem wir starke Annahmen über Patientenmerkmale angreifen, die im MedQA-Benchmark präsentiert werden. Erfolgreiche "Angriffe" modifizieren ein Benchmark-Element auf eine Weise, die unwahrscheinlich wäre, um einen medizinischen Experten zu täuschen, aber dennoch das LLM dazu bringt, von einer korrekten zu einer inkorrekten Antwort zu wechseln. Zudem präsentieren wir eine Permutations-Test-Technik, die sicherstellen kann, dass ein erfolgreicher Angriff statistisch signifikant ist. Wir zeigen, wie die Leistung bei einem "MedFuzzed" Benchmark sowie einzelne erfolgreiche Angriffe genutzt werden können. Diese Methoden zeigen vielversprechende Ansätze, um Einblicke in die Fähigkeit eines LLM zu bieten, robust in realistischeren Umgebungen zu agieren.
Wir präsentieren DenseAV, eine neuartige duale Encoder-Grundlagenarchitektur, die hochauflösende, semantisch sinnvolle und audiovisuell ausgerichtete Merkmale ausschließlich durch das Ansehen von Videos lernt. Wir zeigen, dass DenseAV die "Bedeutung" von Wörtern und die "Position" von Geräuschen ohne explizite Lokalisierungsüberwachung entdecken kann. Darüber hinaus entdeckt und unterscheidet es automatisch zwischen diesen beiden Arten von Assoziationen ohne Überwachung. Wir zeigen, dass die Lokalisierungsfähigkeiten von DenseAV aus einem neuen Multi-Head-Merkmalsaggregationsoperator resultieren, der dichte Bild- und Audio-Repräsentationen direkt für kontrastives Lernen vergleicht. Im Gegensatz dazu können viele andere Systeme, die "globale" Audio- und Video-Repräsentationen lernen, Wörter und Geräusche nicht lokalisieren. Schließlich tragen wir mit zwei neuen Datensätzen zur Verbesserung der Bewertung von AV-Repräsentationen durch sprach- und geräuschgesteuerte semantische Segmentierung bei. Anhand dieser und anderer Datensätze zeigen wir, dass DenseAV die bisherige Kunst bei der sprach- und geräuschgesteuerten semantischen Segmentierung dramatisch übertrifft. DenseAV übertrifft den bisherigen Stand der Technik, ImageBind, bei der Cross-Modal-Retrieval unter Verwendung von weniger als der Hälfte der Parameter. Projektseite: https://aka.ms/denseav {https://aka.ms/denseav}
Die Neubeleuchtung eines Einzelbildes ist eine anspruchsvolle Aufgabe, die das Nachdenken über das komplexe Zusammenspiel von Geometrie, Materialien und Beleuchtung erfordert. Viele frühere Methoden unterstützen entweder nur bestimmte Kategorien von Bildern, wie Porträts, oder erfordern spezielle Aufnahmebedingungen, wie die Verwendung eines Blitzlichts. Alternativ zerlegen einige Methoden eine Szene explizit in intrinsische Komponenten wie Normalen und BRDFs, die ungenau oder nicht ausdrucksstark sein können. In dieser Arbeit schlagen wir ein neuartiges end-to-end 2D-Neubeleuchtungs-Diffusionsmodell namens Neural Gaffer vor, das ein einzelnes Bild eines beliebigen Objekts verwendet und ein genaues, qualitativ hochwertiges neubeleuchtetes Bild unter beliebigen neuen Umgebungsbeleuchtungsbedingungen synthetisieren kann, indem ein Bildgenerator an einer Zielumgebungskarte konditioniert wird, ohne eine explizite Szenenzerlegung. Unsere Methode baut auf einem vorab trainierten Diffusionsmodell auf und feinabgestimmt es an einem synthetischen Neubeleuchtungsdatensatz, um das inhärente Verständnis der Beleuchtung im Diffusionsmodell aufzudecken und zu nutzen. Wir bewerten unser Modell sowohl an synthetischen als auch an Internetbildern in freier Wildbahn und zeigen seine Vorteile in Bezug auf Verallgemeinerung und Genauigkeit. Darüber hinaus ermöglicht unser Modell in Kombination mit anderen generativen Methoden viele nachgelagerte 2D-Aufgaben wie textbasierte Neubeleuchtung und Objekteinfügung. Unser Modell kann auch als starke Neubeleuchtungsvoraussetzung für 3D-Aufgaben fungieren, wie die Neubeleuchtung eines Strahlungsfeldes.
Die Robustheit großer Sprachmodelle (LLMs) gegen adversäre Manipulationen, wie z.B. Jailbreak-Angriffe, bleibt eine bedeutende Herausforderung. In dieser Arbeit schlagen wir einen Ansatz vor, der die Selbstkritikfähigkeit des LLM verbessert und ihn weiter über bereinigte synthetische Daten feinabstimmt. Dies wird durch die Hinzufügung eines externen Kritikermodells erreicht, das mit dem Original fusioniert werden kann, um so die Selbstkritikfähigkeiten zu stärken und die Robustheit der Reaktion des LLM auf adversäre Eingaben zu verbessern. Unsere Ergebnisse zeigen, dass die Kombination aus Fusion und Selbstkritik die Erfolgsrate von Angriffen durch Gegner signifikant reduzieren kann und somit einen vielversprechenden Verteidigungsmechanismus gegen Jailbreak-Angriffe bietet. Code, Daten und Modelle sind unter https://github.com/vicgalle/merging-self-critique-jailbreaks veröffentlicht.