Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs), wie beispielsweise ChatGPT, haben aufgrund ihrer hervorragenden Fähigkeiten in der natürlichen Sprachverarbeitung erhebliche Aufmerksamkeit erlangt. Dennoch stellen diese LLMs viele Herausforderungen dar, insbesondere im Bereich der Vertrauenswürdigkeit. Daher ist die Sicherstellung der Vertrauenswürdigkeit von LLMs ein wichtiges Thema. Dieses Papier stellt TrustLLM vor, eine umfassende Studie zur Vertrauenswürdigkeit von LLMs, die Prinzipien für verschiedene Dimensionen der Vertrauenswürdigkeit, etablierte Benchmarks, Bewertungen und Analysen der Vertrauenswürdigkeit von Mainstream-LLMs sowie eine Diskussion offener Herausforderungen und zukünftiger Richtungen umfasst. Konkret schlagen wir zunächst eine Reihe von Prinzipien für vertrauenswürdige LLMs vor, die acht verschiedene Dimensionen abdecken. Basierend auf diesen Prinzipien etablieren wir weiterhin einen Benchmark über sechs Dimensionen, darunter Wahrhaftigkeit, Sicherheit, Fairness, Robustheit, Privatsphäre und Maschinenethik. Anschließend präsentieren wir eine Studie, in der 16 Mainstream-LLMs in TrustLLM bewertet werden, bestehend aus über 30 Datensätzen. Unsere Ergebnisse zeigen erstens, dass Vertrauenswürdigkeit und Nutzen (d.h. funktionale Effektivität) im Allgemeinen positiv korreliert sind. Zweitens zeigen unsere Beobachtungen, dass proprietäre LLMs in Bezug auf die Vertrauenswürdigkeit im Allgemeinen die meisten Open-Source-Pendants übertreffen, was Bedenken hinsichtlich der potenziellen Risiken weit verbreiteter Open-Source-LLMs aufwirft. Einige Open-Source-LLMs kommen jedoch proprietären Modellen sehr nahe. Drittens ist es wichtig zu beachten, dass einige LLMs möglicherweise übermäßig darauf kalibriert sind, Vertrauenswürdigkeit zu zeigen, bis zu dem Punkt, dass sie ihren Nutzen beeinträchtigen, indem sie harmlose Eingaben fälschlicherweise als schädlich behandeln und folglich nicht antworten. Schließlich betonen wir die Bedeutung der Sicherstellung von Transparenz nicht nur in den Modellen selbst, sondern auch in den Technologien, die die Vertrauenswürdigkeit untermauern. Die Kenntnis der spezifischen vertrauenswürdigen Technologien, die eingesetzt wurden, ist entscheidend für die Analyse ihrer Wirksamkeit.
Dieser technische Bericht stellt PIXART-{\delta} vor, ein Text-zu-Bild-Synthese-Framework, das das Latent Consistency Model (LCM) und ControlNet in das fortschrittliche PIXART-{\alpha}-Modell integriert. PIXART-{\alpha} ist bekannt für seine Fähigkeit, hochwertige Bilder mit einer Auflösung von 1024px durch einen äußerst effizienten Trainingsprozess zu erzeugen. Die Integration von LCM in PIXART-{\delta} beschleunigt die Inferenzgeschwindigkeit erheblich und ermöglicht die Erzeugung hochwertiger Bilder in nur 2-4 Schritten. Bemerkenswerterweise erreicht PIXART-{\delta} einen Durchbruch von 0,5 Sekunden für die Generierung von 1024x1024 Pixel-Bildern, was eine 7-fache Verbesserung gegenüber PIXART-{\alpha} darstellt. Darüber hinaus ist PIXART-{\delta} so konzipiert, dass es effizient auf 32GB V100 GPUs innerhalb eines Tages trainierbar ist. Mit seiner 8-Bit-Inferenzfähigkeit (von Platen et al., 2023) kann PIXART-{\delta} 1024px-Bilder innerhalb von 8GB GPU-Speicherbeschränkungen synthetisieren, was seine Nutzbarkeit und Zugänglichkeit erheblich verbessert. Die Einbindung eines ControlNet-ähnlichen Moduls ermöglicht eine fein abgestimmte Kontrolle über Text-zu-Bild-Diffusionsmodelle. Wir stellen eine neuartige ControlNet-Transformer-Architektur vor, die speziell für Transformer entwickelt wurde und explizite Steuerbarkeit zusammen mit hochwertiger Bildgenerierung erreicht. Als ein modernstes, quelloffenes Bildgenerierungsmodell bietet PIXART-{\delta} eine vielversprechende Alternative zur Stable-Diffusion-Modellfamilie und leistet einen bedeutenden Beitrag zur Text-zu-Bild-Synthese.
Transformer werden als konzeptionell anders betrachtet im Vergleich zur vorherigen Generation von State-of-the-Art-NLP-Modellen – rekurrenten neuronalen Netzen (RNNs). In dieser Arbeit zeigen wir, dass Decoder-only-Transformer tatsächlich als unendliche Multi-State-RNNs – eine RNN-Variante mit unbegrenzter Größe des verborgenen Zustands – konzeptualisiert werden können. Wir zeigen weiter, dass vortrainierte Transformer in endliche Multi-State-RNNs umgewandelt werden können, indem die Größe ihres verborgenen Zustands festgelegt wird. Wir beobachten, dass mehrere bestehende Techniken zur Komprimierung des Transformer-Caches als solche Umwandlungsstrategien formuliert werden können, und führen eine neue Strategie, TOVA, ein, die im Vergleich zu diesen Strategien einfacher ist. Unsere Experimente mit mehreren Aufgaben im Langbereich zeigen, dass TOVA alle anderen Baseline-Strategien übertrifft, während es nahezu auf dem Niveau des vollständigen (unendlichen) Modells liegt und in einigen Fällen nur 1/8 der ursprünglichen Cache-Größe verwendet. Unsere Ergebnisse deuten darauf hin, dass Transformer-Decoder-LLMs in der Praxis oft wie RNNs agieren. Sie eröffnen auch die Möglichkeit, einen ihrer schmerzhaftesten Rechenengpässe – die Größe ihres Cache-Speichers – zu mildern. Wir veröffentlichen unseren Code unter https://github.com/schwartz-lab-NLP/TOVA.
Menschen sind in der Lage, strategisch täuschendes Verhalten an den Tag zu legen: Sie verhalten sich in den meisten Situationen hilfsbereit, zeigen jedoch ein völlig anderes Verhalten, um alternative Ziele zu verfolgen, wenn sich die Gelegenheit bietet. Wenn ein KI-System eine solche Täuschungsstrategie erlernt, könnten wir sie dann mit den aktuellen, modernsten Sicherheitstrainingsmethoden erkennen und entfernen? Um diese Frage zu untersuchen, konstruieren wir Proof-of-Concept-Beispiele für täuschendes Verhalten in großen Sprachmodellen (LLMs). Zum Beispiel trainieren wir Modelle, die sicheren Code schreiben, wenn das Prompt das Jahr 2023 angibt, aber ausnutzbaren Code einfügen, wenn das angegebene Jahr 2024 ist. Wir stellen fest, dass solches Backdoor-Verhalten persistent gemacht werden kann, sodass es durch Standard-Sicherheitstrainingsmethoden nicht entfernt wird, einschließlich überwachtem Fein-Tuning, Reinforcement Learning und adversariellem Training (unsicheres Verhalten hervorrufen und dann trainieren, um es zu entfernen). Das Backdoor-Verhalten ist in den größten Modellen und in Modellen, die trainiert wurden, um Ketten von Gedanken (Chain-of-Thought) über die Täuschung des Trainingsprozesses zu erzeugen, am persistentesten, wobei die Persistenz auch dann bestehen bleibt, wenn die Gedankenkette entfernt wird. Darüber hinaus stellen wir fest, dass adversarielles Training anstelle der Entfernung von Backdoors den Modellen beibringen kann, ihre Backdoor-Trigger besser zu erkennen und das unsichere Verhalten effektiv zu verbergen. Unsere Ergebnisse deuten darauf hin, dass, sobald ein Modell täuschendes Verhalten zeigt, Standardtechniken möglicherweise versagen, diese Täuschung zu entfernen, und einen falschen Eindruck von Sicherheit erzeugen könnten.
Wir stellen InseRF vor, eine neuartige Methode zur generativen Objekteinfügung in NeRF-Rekonstruktionen von 3D-Szenen. Basierend auf einer vom Benutzer bereitgestellten Textbeschreibung und einem 2D-Begrenzungsrahmen in einer Referenzansicht generiert InseRF neue Objekte in 3D-Szenen. In jüngster Zeit wurden Methoden zur Bearbeitung von 3D-Szenen durch die Verwendung starker Prioritäten von Text-zu-Bild-Diffusionsmodellen in der 3D-generativen Modellierung erheblich verändert. Bestehende Methoden sind größtenteils effektiv bei der Bearbeitung von 3D-Szenen durch Stil- und Erscheinungsänderungen oder beim Entfernen vorhandener Objekte. Die Generierung neuer Objekte bleibt jedoch eine Herausforderung für solche Methoden, die wir in dieser Studie angehen. Konkret schlagen wir vor, die 3D-Objekteinfügung auf eine 2D-Objekteinfigung in einer Referenzansicht der Szene zu stützen. Die 2D-Bearbeitung wird dann mithilfe einer Einzelansichts-Objektrekonstruktionsmethode in 3D überführt. Das rekonstruierte Objekt wird dann in die Szene eingefügt, geleitet durch die Prioritäten von monokularen Tiefenschätzungsmethoden. Wir evaluieren unsere Methode anhand verschiedener 3D-Szenen und bieten eine detaillierte Analyse der vorgeschlagenen Komponenten. Unsere Experimente zur generativen Einfügung von Objekten in mehreren 3D-Szenen zeigen die Effektivität unserer Methode im Vergleich zu bestehenden Methoden. InseRF ist in der Lage, kontrollierbare und 3D-konsistente Objekteinfügungen durchzuführen, ohne explizite 3D-Informationen als Eingabe zu benötigen. Bitte besuchen Sie unsere Projektseite unter https://mohamad-shahbazi.github.io/inserf.
Bestehende fotorealistische, neu beleuchtbare Handmodelle erfordern umfangreiche identitätsspezifische Beobachtungen in verschiedenen Ansichten, Posen und Beleuchtungen und stehen vor Herausforderungen bei der Generalisierung auf natürliche Beleuchtungen und neue Identitäten. Um diese Lücke zu schließen, präsentieren wir URHand, das erste universelle neu beleuchtbare Handmodell, das sich über Ansichten, Posen, Beleuchtungen und Identitäten hinweg verallgemeinern lässt. Unser Modell ermöglicht eine Personalisierung mit wenigen Aufnahmen unter Verwendung von Bildern, die mit einem Mobiltelefon aufgenommen wurden, und ist bereit, fotorealistisch unter neuen Beleuchtungen gerendert zu werden. Um den Personalisierungsprozess zu vereinfachen und gleichzeitig den Fotorealismus zu bewahren, bauen wir ein leistungsstarkes universelles neu beleuchtbares Prior auf der Grundlage von neuronaler Neuausleuchtung aus Multi-View-Bildern von Händen, die in einer Lichtbühne mit Hunderten von Identitäten aufgenommen wurden. Die zentrale Herausforderung besteht darin, das identitätsübergreifende Training zu skalieren, während die personalisierte Treue und scharfe Details ohne Kompromisse bei der Generalisierung unter natürlichen Beleuchtungen erhalten bleiben. Zu diesem Zweck schlagen wir ein räumlich variierendes lineares Beleuchtungsmodell als neuronalen Renderer vor, das physikinspirierte Schattierung als Eingabemerkmal verwendet. Durch das Entfernen nicht-linearer Aktivierungen und Verzerrungen bewahrt unser speziell entworfenes Beleuchtungsmodell explizit die Linearität des Lichttransports. Dies ermöglicht ein einstufiges Training mit Lichtbühnen-Daten, während es sich auf Echtzeit-Rendering unter beliebigen kontinuierlichen Beleuchtungen über diverse Identitäten hinweg verallgemeinert. Darüber hinaus führen wir das gemeinsame Lernen eines physikalisch basierten Modells und unseres neuronalen Neuausleuchtungsmodells ein, was die Treue und Generalisierung weiter verbessert. Umfangreiche Experimente zeigen, dass unser Ansatz bestehende Methoden sowohl in Bezug auf die Qualität als auch auf die Generalisierbarkeit übertrifft. Wir demonstrieren auch die schnelle Personalisierung von URHand aus einem kurzen Telefon-Scan einer unbekannten Identität.
Große Sprachmodelle (LLMs) sind leistungsstarke Dialogagenten, doch ihre Spezialisierung auf eine bestimmte Funktion kann herausfordernd sein. Instruction Tuning, d.h. das Feinabstimmen von Modellen anhand von Anweisungen und von Menschen generierten Beispielantworten (Ouyang et al., 2022), hat sich als effektive Methode erwiesen, erfordert jedoch eine Vielzahl von Datenproben, die a) möglicherweise nicht verfügbar sind oder b) kostspielig zu generieren sind. Darüber hinaus steigen diese Kosten, wenn das Ziel darin besteht, das LLM dazu zu bringen, einen spezifischen Workflow innerhalb eines Dialogs zu befolgen, anstatt einzelne Anweisungen. Inspiriert von der Self-Play-Technik im Reinforcement Learning und der Verwendung von LLMs zur Simulation menschlicher Agenten, schlagen wir eine effektivere Methode zur Datensammlung vor, bei der LLMs in verschiedenen Rollen in einen Dialog treten. Dieser Ansatz generiert Trainingsdaten durch „Selbstgespräche“ von LLMs, die verfeinert und für das überwachte Feinabstimmen genutzt werden können. Wir führen eine automatisierte Methode ein, um den (teilweisen) Erfolg eines Dialogs zu messen. Diese Metrik wird verwendet, um die generierten Dialogdaten zu filtern, die zurück in das LLM für das Training eingespeist werden. Basierend auf unseren automatisierten und menschlichen Bewertungen der Dialogqualität zeigen wir, dass solche Selbstgesprächsdaten die Ergebnisse verbessern. Zusätzlich untersuchen wir verschiedene Merkmale, die die Qualität der generierten Dialoge aufzeigen und wie sie mit ihrem potenziellen Nutzen als Trainingsdaten verbunden werden können.
Chain of Thought (CoT) spielt eine entscheidende Rolle bei der Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) zum logischen Schlussfolgern. Dennoch ist der Zusammenhang zwischen der Wirksamkeit von CoT und der Länge der Argumentationsschritte in Prompts weitgehend unerforscht. Um dies zu beleuchten, haben wir mehrere empirische Experimente durchgeführt, um diese Beziehungen zu untersuchen. Konkret haben wir Experimente entworfen, bei denen die Argumentationsschritte in CoT-Demonstrationen erweitert und komprimiert wurden, während alle anderen Faktoren konstant gehalten wurden. Dabei haben wir die folgenden zentralen Erkenntnisse gewonnen. Erstens zeigen die Ergebnisse, dass die Verlängerung der Argumentationsschritte in Prompts, selbst ohne die Hinzufügung neuer Informationen, die Fähigkeiten von LLMs zum logischen Schlussfolgern über mehrere Datensätze hinweg erheblich verbessert. Umgekehrt führt die Verkürzung der Argumentationsschritte, selbst bei Beibehaltung der Schlüsselinformationen, zu einer signifikanten Verschlechterung der Fähigkeiten der Modelle. Diese Erkenntnis unterstreicht die Bedeutung der Anzahl der Schritte in CoT-Prompts und bietet praktische Anleitungen, um das Potenzial von LLMs in komplexen Problemlösungsszenarien besser auszuschöpfen. Zweitens haben wir auch die Beziehung zwischen der Leistung von CoT und den in Demonstrationen verwendeten Argumentationen untersucht. Überraschenderweise zeigt das Ergebnis, dass selbst falsche Argumentationen positive Ergebnisse liefern können, wenn sie die erforderliche Länge der Schlussfolgerung beibehalten. Drittens haben wir beobachtet, dass die Vorteile einer Erhöhung der Argumentationsschritte aufgabenabhängig sind: Einfache Aufgaben erfordern weniger Schritte, während komplexe Aufgaben erheblich von längeren Schlussfolgerungssequenzen profitieren.
Der jüngste Fortschritt bei Vision-Sprache-Modellen ist weitgehend auf die Fülle von Bild-Text-Daten zurückzuführen. Unser Ziel ist es, diesen Erfolg auf Video-Sprache-Modelle zu übertragen, doch es gibt einfach nicht genügend von Menschen kuratierte Video-Text-Daten. Daher greifen wir auf die Feinabstimmung eines Video-Sprache-Modells von einer starken Bild-Sprache-Basislinie mit synthetisierten Instruktionsdaten zurück. Das resultierende Video-Sprache-Modell wird dann verwendet, um Millionen von Videos automatisch zu beschriften und hochwertige Untertitel zu generieren. Wir zeigen, dass das angepasste Video-Sprache-Modell bei einer Vielzahl von Video-Sprache-Benchmarks gut abschneidet. Beispielsweise übertrifft es das bisher beste Ergebnis bei NExT-QA mit offenem Ende um 2,8 %. Darüber hinaus generiert unser Modell detaillierte Beschreibungen für zuvor unbekannte Videos, die eine bessere textuelle Supervision bieten als bestehende Methoden. Experimente zeigen, dass ein Video-Sprache-Dual-Encoder-Modell, das kontrastiv auf diesen automatisch generierten Untertiteln trainiert wird, 3,8 % besser abschneidet als die stärkste Baseline, die ebenfalls Vision-Sprache-Modelle nutzt. Unser bestes Modell übertrifft die state-of-the-art Methoden bei der Null-Shot-Text-zu-Video-Retrieval auf MSR-VTT um 6 %.
Der Reichtum an Inhalten im Internet, von denen bis zu 60 % auf Englisch veröffentlicht sind, steht in starkem Kontrast zur globalen Bevölkerung, in der nur 18,8 % Englisch sprechen und lediglich 5,1 % es als ihre Muttersprache betrachten. Dies führt zu Ungleichheiten beim Zugang zu Online-Informationen. Leider bleibt die Automatisierung des Synchronisierens von Videos – das Ersetzen der Audiospur eines Videos durch eine übersetzte Alternative – aufgrund der erforderlichen Prozessschritte eine komplexe und herausfordernde Aufgabe. Dies erfordert präzises Timing, die Synchronisation von Gesichtsbewegungen und die Anpassung der Prosodie. Während End-to-End-Synchronisation eine Lösung bietet, behindert der Mangel an Daten weiterhin den Fortschritt sowohl bei End-to-End- als auch bei prozessbasierten Methoden. In dieser Arbeit stellen wir Anim-400K vor, einen umfassenden Datensatz mit über 425.000 ausgerichteten animierten Videosegmenten in Japanisch und Englisch, der verschiedene videobezogene Aufgaben unterstützt, darunter automatisiertes Synchronisieren, Simultandolmetschen, geführte Videozusammenfassung und Genre/Thema/Stil-Klassifizierung. Unser Datensatz ist zu Forschungszwecken öffentlich verfügbar unter https://github.com/davidmchan/Anim400K.
Score Distillation Sampling (SDS) ist eine neuartige, aber bereits weit verbreitete Methode, die auf einem Bilddiffusionsmodell basiert, um Optimierungsprobleme mithilfe von Textprompts zu steuern. In diesem Artikel führen wir eine detaillierte Analyse der SDS-Verlustfunktion durch, identifizieren ein inhärentes Problem in ihrer Formulierung und schlagen eine überraschend einfache, aber effektive Lösung vor. Konkret zerlegen wir den Verlust in verschiedene Faktoren und isolieren die Komponente, die für verrauschte Gradienten verantwortlich ist. In der ursprünglichen Formulierung wird eine hohe Textführung verwendet, um das Rauschen zu kompensieren, was zu unerwünschten Nebeneffekten führt. Stattdessen trainieren wir ein flaches Netzwerk, das die zeitstufenabhängige Entrauschungsschwäche des Bilddiffusionsmodells nachahmt, um diese effektiv herauszufiltern. Wir demonstrieren die Vielseitigkeit und Effektivität unserer neuartigen Verlustformulierung durch mehrere qualitative und quantitative Experimente, darunter optimierungsbasierte Bildsynthese und -bearbeitung, Zero-Shot-Bildübersetzungsnetzwerktraining und Text-zu-3D-Synthese.
Transformer-basierte Large Language Models (LLMs) werden in vielen Bereichen weit verbreitet eingesetzt, und die Effizienz der LLM-Inferenz wird in realen Anwendungen zu einem zentralen Thema. Allerdings sind LLMs in der Modellstruktur meist komplex gestaltet, mit einer Vielzahl von Operationen, und führen die Inferenz im autoregressiven Modus durch, was die Entwicklung eines hocheffizienten Systems zu einer anspruchsvollen Aufgabe macht. In diesem Artikel präsentieren wir eine effiziente LLM-Inferenzlösung mit niedriger Latenz und hohem Durchsatz. Zunächst vereinfachen wir die LLM-Decoder-Schicht, indem wir Datenbewegungen und elementweise Operationen fusionieren, um die Speicherzugriffshäufigkeit zu reduzieren und die Systemlatenz zu verringern. Wir schlagen außerdem eine segmentierte KV-Cache-Strategie vor, bei der die Schlüssel/Werte der Anfrage- und Antwort-Tokens in separatem physischem Speicher gehalten werden, um das Gerätespeichermanagement effektiv zu gestalten. Dies ermöglicht eine Vergrößerung der Batch-Größe zur Laufzeit und verbessert den Systemdurchsatz. Ein speziell angepasster Scaled-Dot-Product-Attention-Kernel wurde entwickelt, um unserer Fusionsstrategie basierend auf der segmentierten KV-Cache-Lösung zu entsprechen. Wir implementieren unsere LLM-Inferenzlösung auf Intel-GPUs und veröffentlichen sie öffentlich. Im Vergleich zur Standardimplementierung von HuggingFace erreicht die vorgeschlagene Lösung bei einigen populären LLMs auf Intel-GPUs bis zu 7x niedrigere Token-Latenz und 27x höheren Durchsatz.