Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Ein besseres Verständnis der Fähigkeiten von Large Language Models (LLMs) in der juristischen Analyse kann dazu beitragen, die Effizienz von Rechtsdienstleistungen zu verbessern, die Regulierung künstlicher Intelligenz zu gestalten und LLMs zu nutzen, um Inkonsistenzen im Recht zu identifizieren. Diese Arbeit untersucht die Fähigkeiten von LLMs bei der Anwendung des Steuerrechts. Wir haben diesen Rechtsbereich gewählt, da er eine Struktur aufweist, die es uns ermöglicht, automatisierte Validierungspipelines über Tausende von Beispielen hinweg einzurichten, logisches Denken und mathematische Fähigkeiten erfordert und es uns ermöglicht, die Fähigkeiten von LLMs in einer Weise zu testen, die für das reale wirtschaftliche Leben von Bürgern und Unternehmen relevant ist. Unsere Experimente zeigen aufkommende Fähigkeiten im juristischen Verständnis, mit verbesserter Leistung bei jeder nachfolgenden Veröffentlichung von OpenAI-Modellen. Wir experimentieren mit dem Abrufen und Nutzen der relevanten Rechtsgrundlage, um die Auswirkungen der Bereitstellung zusätzlichen juristischen Kontexts für LLMs zu bewerten. Few-Shot-Prompting, bei dem Beispiele für Frage-Antwort-Paare präsentiert werden, verbessert ebenfalls die Leistung des fortschrittlichsten Modells, GPT-4, erheblich. Die Ergebnisse zeigen, dass LLMs, insbesondere in Kombination mit Prompting-Verbesserungen und den richtigen Rechtstexten, auf einem hohen Genauigkeitsniveau arbeiten können, jedoch noch nicht auf dem Niveau eines Experten für Steuerrecht. Da sich LLMs weiterentwickeln, könnte ihre Fähigkeit, autonom über Recht zu schlussfolgern, erhebliche Auswirkungen auf den juristischen Berufsstand und die KI-Regulierung haben.
Diffusionsmodelle haben ein hervorragendes Potenzial für die Erzeugung vielfältiger Bilder gezeigt. Ihre Leistung leidet jedoch oft unter einer langsamen Generierung aufgrund von iterativer Rauschunterdrückung. Kürzlich wurde Wissensdistillation als Abhilfe vorgeschlagen, die die Anzahl der Inferenzschritte auf einen oder wenige reduzieren kann, ohne dass es zu einer signifikanten Qualitätseinbuße kommt. Bisherige Distillationsmethoden erfordern jedoch entweder erhebliche Offline-Berechnungen zur Erzeugung synthetischer Trainingsdaten aus dem Lehrer-Modell oder müssen teures Online-Lernen mit Hilfe von realen Daten durchführen. In dieser Arbeit stellen wir eine neuartige Technik namens BOOT vor, die diese Einschränkungen mit einem effizienten datenfreien Distillationsalgorithmus überwindet. Die Kernidee besteht darin, ein zeitabhängiges Modell zu lernen, das die Ausgabe eines vortrainierten Diffusionsmodell-Lehrers für jeden beliebigen Zeitschritt vorhersagt. Ein solches Modell kann effizient auf der Grundlage von Bootstrapping aus zwei aufeinanderfolgenden abgetasteten Schritten trainiert werden. Darüber hinaus kann unsere Methode leicht auf groß angelegte Text-zu-Bild-Diffusionsmodelle angepasst werden, die für konventionelle Methoden aufgrund der oft großen und schwer zugänglichen Trainingsdatensätze eine Herausforderung darstellen. Wir demonstrieren die Wirksamkeit unseres Ansatzes an mehreren Benchmark-Datensätzen im DDIM-Setting, wobei wir eine vergleichbare Generierungsqualität erreichen und gleichzeitig um Größenordnungen schneller als das Diffusions-Lehrer-Modell sind. Die Text-zu-Bild-Ergebnisse zeigen, dass der vorgeschlagene Ansatz in der Lage ist, hochkomplexe Verteilungen zu bewältigen, und damit den Weg für effizientere generative Modellierung ebnet.
Was macht die „Atmosphäre“ einer bestimmten Szene aus? Was sollte man in einer „belebten, schmutzigen Stadtstraße“, einer „idyllischen Landschaft“ oder einem „Tatort in einem verlassenen Wohnzimmer“ finden? Die Übersetzung von abstrakten Szenenbeschreibungen in stilisierte Szenelemente kann von bestehenden Systemen, die auf starren und begrenzten Indoor-Datensätzen trainiert wurden, nicht allgemeingültig durchgeführt werden. In diesem Artikel schlagen wir vor, das Wissen, das von Foundation-Modellen erfasst wurde, zu nutzen, um diese Übersetzung zu erreichen. Wir präsentieren ein System, das als Werkzeug dienen kann, um stilisierte Assets für 3D-Szenen zu generieren, die durch eine kurze Phrase beschrieben werden, ohne die Objekte, die in der Szene zu finden sind, aufzählen oder Anweisungen zu ihrem Aussehen geben zu müssen. Darüber hinaus ist es robust gegenüber Open-World-Konzepten, auf eine Weise, wie es traditionelle Methoden, die auf begrenzten Daten trainiert wurden, nicht sind, und bietet dem 3D-Künstler mehr kreative Freiheit. Unser System demonstriert dies mit einem Foundation-Modell-„Team“, das aus einem großen Sprachmodell, einem Vision-Language-Modell und mehreren Bilddiffusionsmodellen besteht, die über eine interpretierbare und benutzerbearbeitbare Zwischendarstellung kommunizieren, wodurch eine vielseitigere und kontrollierbarere Erzeugung stilisierter Assets für 3D-Künstler ermöglicht wird. Wir führen neue Metriken für diese Aufgabe ein und zeigen durch menschliche Bewertungen, dass in 91 % der Fälle die Ausgaben unseres Systems als treuer zur Semantik der Eingabeszenenbeschreibung eingestuft werden als die der Baseline, was das Potenzial dieses Ansatzes zur radikalen Beschleunigung des 3D-Content-Erstellungsprozesses für 3D-Künstler unterstreicht.
Generative KI-Systeme über verschiedene Modalitäten hinweg, darunter Text, Bild, Audio und Video, haben weitreichende gesellschaftliche Auswirkungen, doch existiert bisher kein offizieller Standard für die Bewertung dieser Auswirkungen und welche Auswirkungen überhaupt bewertet werden sollten. Wir entwickeln einen Standardansatz zur Bewertung eines generativen KI-Systems für jede Modalität in zwei übergeordneten Kategorien: was in einem Basissystem ohne vordefinierte Anwendung bewertet werden kann und was in der Gesellschaft bewertet werden kann. Wir beschreiben spezifische Kategorien gesellschaftlicher Auswirkungen und wie Bewertungen im Basissystem sowie in Bezug auf Menschen und die Gesellschaft durchgeführt werden können. Unser Rahmenwerk für ein Basissystem definiert sieben Kategorien gesellschaftlicher Auswirkungen: Vorurteile, Stereotype und darstellungsbezogene Schäden; kulturelle Werte und sensible Inhalte; ungleiche Leistungsfähigkeit; Datenschutz und Datensicherheit; finanzielle Kosten; Umweltkosten; sowie Kosten für die Moderation von Daten und Inhalten. Die vorgeschlagenen Bewertungsmethoden gelten für alle Modalitäten, und die Analyse der Grenzen bestehender Bewertungen dient als Ausgangspunkt für notwendige Investitionen in zukünftige Bewertungen. Wir bieten fünf übergeordnete Kategorien für das, was in der Gesellschaft bewertet werden kann, jeweils mit eigenen Unterkategorien: Vertrauenswürdigkeit und Autonomie; Ungleichheit, Marginalisierung und Gewalt; Konzentration von Autorität; Arbeit und Kreativität; sowie Ökosystem und Umwelt. Jede Unterkategorie enthält Empfehlungen zur Schadensminderung. Gleichzeitig erstellen wir ein Bewertungsrepository für die KI-Forschungsgemeinschaft, um bestehende Bewertungen entlang der genannten Kategorien beizutragen. Diese Version wird nach einer CRAFT-Sitzung auf der ACM FAccT 2023 aktualisiert.
Das Ziel dieser Arbeit ist die offene Vokabular-Objekterkennung (OVOD) – der Aufbau eines Modells, das Objekte jenseits der während des Trainings gesehenen Kategorien erkennen kann, wodurch der Benutzer in der Lage ist, Kategorien von Interesse während der Inferenz zu spezifizieren, ohne dass eine Modellneuanpassung erforderlich ist. Wir verwenden eine standardmäßige zweistufige Objekterkennungsarchitektur und untersuchen drei Möglichkeiten zur Spezifizierung neuer Kategorien: über Sprachbeschreibungen, über Bildbeispiele oder über eine Kombination aus beidem. Wir leisten drei Beiträge: Erstens fordern wir ein großes Sprachmodell (LLM) auf, informative Sprachbeschreibungen für Objektklassen zu generieren, und konstruieren leistungsstarke textbasierte Klassifikatoren; zweitens setzen wir einen visuellen Aggregator für Bildbeispiele ein, der eine beliebige Anzahl von Bildern als Eingabe verarbeiten kann und somit visuell basierte Klassifikatoren bildet; und drittens bieten wir eine einfache Methode zur Fusion von Informationen aus Sprachbeschreibungen und Bildbeispielen, was zu einem multimodalen Klassifikator führt. Bei der Evaluierung auf dem anspruchsvollen LVIS-Benchmark für offene Vokabular zeigen wir, dass: (i) unsere textbasierten Klassifikatoren alle bisherigen OVOD-Arbeiten übertreffen; (ii) unsere visuell basierten Klassifikatoren genauso gut abschneiden wie textbasierte Klassifikatoren in früheren Arbeiten; (iii) die Verwendung multimodaler Klassifikatoren besser abschneidet als jede Modalität allein; und schließlich (iv) unsere textbasierten und multimodalen Klassifikatoren eine bessere Leistung erzielen als ein vollständig überwachter Detektor.
Gängige Bearbeitungsvorgänge, die von professionellen Fotografen durchgeführt werden, umfassen Bereinigungsoperationen: das Abschwächen ablenkender Elemente und das Hervorheben von Motiven. Diese Bearbeitungen sind anspruchsvoll, da sie ein feines Gleichgewicht zwischen der Lenkung der Aufmerksamkeit des Betrachters und der Wahrung der Foto-Realistik erfordern. Während aktuelle Ansätze erfolgreiche Beispiele für die Abschwächung oder Verstärkung der Aufmerksamkeit vorweisen können, leiden die meisten von ihnen auch unter häufigen unrealistischen Bearbeitungen. Wir schlagen einen Realismusverlust für die salienzgesteuerte Bildverbesserung vor, um eine hohe Realistik über verschiedene Bildtypen hinweg zu bewahren, während ablenkende Elemente abgeschwächt und interessante Objekte verstärkt werden. Bewertungen durch professionelle Fotografen bestätigen, dass wir das doppelte Ziel von Realismus und Wirksamkeit erreichen und die aktuellen Ansätze auf ihren eigenen Datensätzen übertreffen, während wir einen geringeren Speicherbedarf und eine kürzere Laufzeit benötigen. Wir bieten somit eine praktikable Lösung für die Automatisierung von Bildverbesserungs- und Fotobereinigungsoperationen.
Neural Radiance Fields (NeRF) haben beeindruckende Ergebnisse bei der Synthese neuer Ansichten gezeigt; dennoch weisen selbst sorgfältige Aufnahmen Unvollkommenheiten in den Rekonstruktionen auf, beispielsweise aufgrund von schlecht erfassten Bereichen oder geringfügigen Lichtveränderungen. Unser Ziel ist es, diese Unvollkommenheiten aus verschiedenen Quellen mit einer gemeinsamen Lösung zu mildern: Wir nutzen die Fähigkeit von generativen adversariellen Netzwerken (GANs), realistische Bilder zu erzeugen, und verwenden sie, um den Realismus bei der 3D-Szenenrekonstruktion mit NeRFs zu steigern. Zu diesem Zweck lernen wir die Patch-Verteilung einer Szene mithilfe eines adversariellen Diskriminators, der Feedback zur Radiance-Field-Rekonstruktion liefert und so den Realismus auf eine 3D-konsistente Weise verbessert. Dadurch werden Rendering-Artefakte direkt in der zugrunde liegenden 3D-Darstellung repariert, indem Multi-View-Path-Rendering-Einschränkungen auferlegt werden. Zusätzlich konditionieren wir einen Generator mit Multi-Resolution-NeRF-Renderings, der adversariell trainiert wird, um die Rendering-Qualität weiter zu verbessern. Wir zeigen, dass unser Ansatz die Rendering-Qualität erheblich verbessert, z. B. die LPIPS-Werte im Vergleich zu Nerfacto nahezu halbiert und gleichzeitig den PSNR auf den anspruchsvollen Innenraumszenen von Tanks and Temples um 1,4 dB steigert.