Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Radiance-Field-Methoden haben kürzlich die Neuansichtssynthese von Szenen, die mit mehreren Fotos oder Videos aufgenommen wurden, revolutioniert. Allerdings erfordert das Erreichen hoher visueller Qualität immer noch neuronale Netze, die teuer in Training und Rendering sind, während neuere schnellere Methoden unweigerlich Geschwindigkeit gegen Qualität eintauschen. Für unbegrenzte und vollständige Szenen (anstelle isolierter Objekte) und 1080p-Auflösung kann keine aktuelle Methode Echtzeit-Darstellungsraten erreichen. Wir führen drei Schlüsselelemente ein, die es uns ermöglichen, state-of-the-art visuelle Qualität bei wettbewerbsfähigen Trainingszeiten zu erreichen und insbesondere eine hochwertige Echtzeit-Neuansichtssynthese (>= 30 fps) bei 1080p-Auflösung zu ermöglichen. Erstens repräsentieren wir die Szene, ausgehend von spärlichen Punkten, die während der Kamerakalibrierung erzeugt werden, mit 3D-Gaußschen, die wünschenswerte Eigenschaften kontinuierlicher volumetrischer Radiance Fields für die Szenenoptimierung bewahren, während unnötige Berechnungen im leeren Raum vermieden werden; Zweitens führen wir eine verschachtelte Optimierung/Dichtekontrolle der 3D-Gaußschen durch, wobei insbesondere anisotrope Kovarianzen optimiert werden, um eine präzise Darstellung der Szene zu erreichen; Drittens entwickeln wir einen schnellen sichtbarkeitsbewussten Rendering-Algorithmus, der anisotropes Splatting unterstützt und sowohl das Training beschleunigt als auch Echtzeit-Rendering ermöglicht. Wir demonstrieren state-of-the-art visuelle Qualität und Echtzeit-Rendering auf mehreren etablierten Datensätzen.
Sykophantie ist ein unerwünschtes Verhalten, bei dem Modelle ihre Antworten an die Ansicht eines menschlichen Benutzers anpassen, selbst wenn diese Ansicht objektiv nicht korrekt ist (z. B. die Übernahme liberaler Ansichten, sobald ein Benutzer offenbart, dass er liberal ist). In dieser Arbeit untersuchen wir die Verbreitung von Sykophantie in Sprachmodellen und schlagen eine einfache Intervention mit synthetischen Daten vor, um dieses Verhalten zu reduzieren. Zunächst beobachten wir bei einer Reihe von drei Sykophantie-Aufgaben (Perez et al., 2022), bei denen Modelle nach einer Meinung zu Aussagen ohne richtige Antworten (z. B. Politik) gefragt werden, dass sowohl die Skalierung der Modelle als auch das Instruction Tuning die Sykophantie bei PaLM-Modellen mit bis zu 540B Parametern signifikant erhöhen. Zweitens erweitern wir die Sykophantie-Bewertungen auf einfache Additionsaussagen, die objektiv falsch sind, und stellen fest, dass Sprachmodelle, obwohl sie wissen, dass diese Aussagen falsch sind, dennoch zustimmen, wenn der Benutzer dies ebenfalls tut. Um Sykophantie zu reduzieren, präsentieren wir eine einfache Intervention mit synthetischen Daten, die öffentliche NLP-Aufgaben nutzt und Modelle dazu anregt, robust gegenüber Benutzeransichten in diesen Aufgaben zu sein. Die Hinzufügung dieser Daten in einem leichtgewichtigen Fine-Tuning-Schritt kann das sykophantische Verhalten bei zurückgehaltenen Prompts signifikant verringern. Der Code zur Generierung synthetischer Daten für die Intervention ist unter https://github.com/google/sycophancy-intervention verfügbar.
Warnung: Diese Arbeit enthält Inhalte, die möglicherweise unangemessen oder anstößig sind. Da generative Modelle für die öffentliche Nutzung in verschiedenen Anwendungen verfügbar werden, ist die Prüfung und Analyse der Schwachstellen dieser Modelle zu einer Priorität geworden. Hier schlagen wir ein automatisiertes Red-Teaming-Framework vor, das ein gegebenes Modell evaluiert und dessen Anfälligkeiten gegenüber der Erzeugung unsicherer und unangemessener Inhalte aufdeckt. Unser Framework nutzt In-Context-Learning in einer Feedback-Schleife, um Modelle zu testen und sie zur Erzeugung unsicherer Inhalte zu veranlassen. Wir schlagen verschiedene In-Context-Angriffsstrategien vor, um effektive und vielfältige adversariale Prompts für Text-zu-Bild-Modelle automatisch zu erlernen. Unsere Experimente zeigen, dass die vorgeschlagene Strategie im Vergleich zu Baseline-Ansätzen deutlich effektiver darin ist, Schwachstellen im Stable Diffusion (SD)-Modell aufzudecken, selbst wenn dieses mit Sicherheitsfunktionen erweitert wurde. Darüber hinaus demonstrieren wir, dass das vorgeschlagene Framework effektiv für das Red-Teaming von Text-zu-Text-Modellen ist, was zu einer signifikant höheren Rate an toxischen Antworten führt im Vergleich zu bisher berichteten Zahlen.
Große vortrainierte Vision-Sprach-Modelle wie CLIP haben herausragende Leistungen in der Zero-Shot-Klassifikation gezeigt, beispielsweise eine Top-1-Genauigkeit von 76,3 % auf ImageNet, ohne zuvor Beispiele gesehen zu haben. Dies birgt potenzielle Vorteile für viele Aufgaben, für die keine annotierten Daten vorhanden sind. Allerdings kann die Anwendung von CLIP auf eine nachgelagerte Zieldomäne durch visuelle und textuelle Domänenlücken sowie durch Fehlausrichtungen zwischen den Modalitäten die Modellleistung erheblich beeinträchtigen. Um diese Herausforderungen zu bewältigen, schlagen wir ReCLIP vor, die erste quellfreie Domänenanpassungsmethode für Vision-Sprach-Modelle, die weder Quelldaten noch annotierte Zieldaten benötigt. ReCLIP lernt zunächst einen Projektionsraum, um die fehlausgerichteten visuell-textuellen Einbettungen zu mildern und Pseudolabels zu erzeugen. Anschließend wird ein Cross-Modality-Selbsttraining mit diesen Pseudolabels eingesetzt, um die visuellen und textuellen Encoder zu aktualisieren, die Labels zu verfeinern und Domänenlücken sowie Fehlausrichtungen iterativ zu reduzieren. Umfangreiche Experimente zeigen, dass ReCLIP die durchschnittliche Fehlerrate von CLIP von 30,17 % auf 25,06 % bei 22 Bildklassifizierungs-Benchmarks reduziert.
Die Rechtmäßigkeit des Trainings von Sprachmodellen (LMs) auf urheberrechtlich geschützten oder anderweitig eingeschränkten Daten wird intensiv diskutiert. Wie wir jedoch zeigen, verschlechtert sich die Modellleistung erheblich, wenn das Training nur auf risikoarmen Texten (z. B. gemeinfreien Büchern oder Regierungsdokumenten) basiert, da diese in Umfang und Themenabdeckung begrenzt sind. Wir stellen SILO vor, ein neues Sprachmodell, das diesen Zielkonflikt zwischen Risiko und Leistung während der Inferenz handhabt. SILO wird entwickelt, indem (1) ein parametrisches LM auf dem Open License Corpus (OLC) trainiert wird, einem neuen Korpus, den wir mit 228 Milliarden Tokens aus gemeinfreien und permissiv lizenzierten Texten kuratiert haben, und (2) es durch einen allgemeineren und leicht modifizierbaren nichtparametrischen Datenspeicher ergänzt wird (z. B. mit urheberrechtlich geschützten Büchern oder Nachrichten), der nur während der Inferenz abgefragt wird. Der Datenspeicher ermöglicht die Nutzung von Hochrisikodaten ohne deren Training, unterstützt die Zuweisung von Daten auf Satzebene und erlaubt es Datenproduzenten, sich vom Modell abzumelden, indem sie Inhalte aus dem Speicher entfernen. Diese Fähigkeiten können die Einhaltung von Datennutzungsvorschriften wie der Fair-Use-Doktrin in den USA und der DSGVO in der Europäischen Union fördern. Unsere Experimente zeigen, dass das parametrische LM in Bereichen, die vom OLC nicht abgedeckt werden, Schwächen aufweist. Der Zugriff auf den Datenspeicher verbessert jedoch die Leistung außerhalb dieser Bereiche erheblich und schließt 90 % der Leistungslücke zu einem LM, das auf dem Pile trainiert wurde, einem vielfältigeren Korpus mit überwiegend Hochrisikotexten. Wir analysieren auch, welcher nichtparametrische Ansatz am besten funktioniert, wo die verbleibenden Fehler liegen und wie die Leistung mit der Größe des Datenspeichers skaliert. Unsere Ergebnisse deuten darauf hin, dass es möglich ist, hochwertige Sprachmodelle zu entwickeln und gleichzeitig deren rechtliches Risiko zu mindern.