Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das Instruction Tuning von großen Sprachmodellen (LLMs) bleibt eine anspruchsvolle Aufgabe, bedingt durch die Komplexität der Hyperparameterauswahl und die Schwierigkeiten bei der Bewertung der optimierten Modelle. Um die optimalen Hyperparameter zu bestimmen, ist ein automatischer, robuster und zuverlässiger Evaluierungsbenchmark unerlässlich. Die Einrichtung eines solchen Benchmarks ist jedoch keine triviale Aufgabe, da Herausforderungen in Bezug auf die Bewertungsgenauigkeit und den Datenschutz bestehen. Als Antwort auf diese Herausforderungen stellen wir ein großes Sprachmodell namens PandaLM vor, das darauf trainiert wurde, das überlegene Modell aus mehreren LLMs zu identifizieren. PandaLM konzentriert sich nicht nur auf die objektive Korrektheit der Antworten, was der Hauptfokus traditioneller Evaluierungsdatensätze ist, sondern berücksichtigt auch wichtige subjektive Faktoren wie relative Prägnanz, Klarheit, Befolgung von Anweisungen, Vollständigkeit und Formalität. Um die Zuverlässigkeit von PandaLM zu gewährleisten, haben wir einen vielfältigen, von Menschen annotierten Testdatensatz gesammelt, bei dem alle Kontexte von Menschen generiert und die Labels an menschlichen Präferenzen ausgerichtet sind. Unsere Ergebnisse zeigen, dass PandaLM-7B 93,75 % der Bewertungsfähigkeit von GPT-3.5 und 88,28 % von GPT-4 in Bezug auf den F1-Score in unserem Testdatensatz erreicht. PandaLM ermöglicht eine fairere Bewertung von LLMs bei geringeren Kosten, was durch signifikante Verbesserungen bei Modellen, die durch PandaLM optimiert wurden, im Vergleich zu ihren Gegenstücken, die mit den Standard-Hyperparametern von Alpaca trainiert wurden, belegt wird. Darüber hinaus ist PandaLM nicht auf API-basierte Bewertungen angewiesen und vermeidet somit potenzielle Datenlecks. Alle Ressourcen von PandaLM sind unter https://github.com/WeOpenML/PandaLM veröffentlicht.
Instruktionsoptimierte große Sprachmodelle haben die natürliche Sprachverarbeitung revolutioniert und großes Potenzial in Anwendungen wie Konversationsagenten gezeigt. Diese Modelle, wie GPT-4, beherrschen nicht nur Sprache, sondern können auch komplexe Aufgaben in Bereichen wie Mathematik, Programmierung, Medizin und Recht lösen. Trotz ihrer beeindruckenden Fähigkeiten besteht weiterhin ein Mangel an umfassendem Verständnis ihres vollen Potenzials, hauptsächlich aufgrund der Black-Box-Natur vieler Modelle und des Fehlens ganzheitlicher Evaluierungsstudien. Um diese Herausforderungen zu bewältigen, präsentieren wir INSTRUCTEVAL, eine umfassendere Evaluierungssuite, die speziell für instruktionsoptimierte große Sprachmodelle entwickelt wurde. Im Gegensatz zu früheren Arbeiten umfasst unsere Evaluierung eine rigorose Bewertung der Modelle basierend auf Problemlösungsfähigkeit, Schreibfähigkeit und Ausrichtung an menschlichen Werten. Wir verfolgen einen ganzheitlichen Ansatz, um verschiedene Faktoren zu analysieren, die die Modellleistung beeinflussen, einschließlich der Vorausbildungsgrundlage, der Instruktionsoptimierungsdaten und der Trainingsmethoden. Unsere Ergebnisse zeigen, dass die Qualität der Instruktionsdaten der entscheidendste Faktor für die Skalierung der Modellleistung ist. Während Open-Source-Modelle beeindruckende Schreibfähigkeiten demonstrieren, gibt es erheblichen Verbesserungsbedarf in den Bereichen Problemlösung und Ausrichtung. Wir sind ermutigt durch die rasche Entwicklung von Modellen durch die Open-Source-Community, betonen aber auch die Notwendigkeit einer rigorosen Evaluierung, um die Behauptungen über diese Modelle zu untermauern. Mit INSTRUCTEVAL streben wir ein tieferes Verständnis instruktionsoptimierter Modelle und Fortschritte in ihren Fähigkeiten an. INSTRUCTEVAL ist öffentlich verfügbar unter https://github.com/declare-lab/instruct-eval.
Große Sprachmodelle (LLMs) werden mittlerweile im Alltag eingesetzt und sind in der Lage, in den kommenden Jahrzehnten große Mengen an Text zu produzieren. Maschinell generierter Text könnte menschlich verfassten Text im Internet verdrängen und hat das Potenzial, für bösartige Zwecke genutzt zu werden, wie beispielsweise Spear-Phishing-Angriffe und Social-Media-Bots. Wasserzeichen bieten eine einfache und effektive Strategie, um solche Schäden zu mindern, indem sie die Erkennung und Dokumentation von LLM-generiertem Text ermöglichen. Dennoch bleibt eine entscheidende Frage: Wie zuverlässig ist die Wasserzeichen-Technologie in realistischen Anwendungen in der Praxis? Dort könnte mit Wasserzeichen versehener Text mit anderen Textquellen vermischt, von menschlichen Autoren oder anderen Sprachmodellen umformuliert und in einer Vielzahl von sozialen und technischen Anwendungsbereichen genutzt werden. In diesem Artikel untersuchen wir verschiedene Erkennungsmethoden, quantifizieren deren Fähigkeit, Wasserzeichen zu detektieren, und bestimmen, wie viel maschinell generierter Text in jedem Szenario beobachtet werden muss, um das Wasserzeichen zuverlässig zu erkennen. Besonders hervorheben möchten wir unsere Studie mit menschlichen Probanden, in der wir die Zuverlässigkeit von Wasserzeichen bei menschlicher Paraphrasierung untersuchen. Wir vergleichen die wasserzeichenbasierte Erkennung mit anderen Erkennungsstrategien und kommen zu dem Schluss, dass Wasserzeichen insgesamt eine zuverlässige Lösung darstellen, insbesondere aufgrund ihrer Stichprobenkomplexität – bei allen von uns betrachteten Angriffen verstärkt sich der Nachweis des Wasserzeichens, je mehr Beispiele vorliegen, und das Wasserzeichen wird schließlich erkannt.
In dieser Arbeit untersuchen wir aktuelle Fortschritte im Instruction-Tuning von Sprachmodellen anhand einer Reihe offener Instruction-Following-Datensätze. Trotz jüngster Behauptungen, dass offene Modelle mit proprietären State-of-the-Art-Modellen gleichziehen können, werden diese Behauptungen oft nur durch begrenzte Evaluationen untermauert, was es schwierig macht, Modelle umfassend zu vergleichen und den Nutzen verschiedener Ressourcen zu bestimmen. Wir stellen eine umfangreiche Sammlung von Instruction-getunten Modellen mit einer Größe von 6,7B bis 65B Parametern bereit, die auf 12 Instruction-Datensätzen trainiert wurden, die von manuell kuratierten (z.B. OpenAssistant) bis hin zu synthetischen und destillierten (z.B. Alpaca) reichen. Diese Modelle werden systematisch hinsichtlich ihres Faktenwissens, ihrer Fähigkeit zum logischen Schlussfolgern, ihrer Mehrsprachigkeit, ihrer Programmierfähigkeiten und ihrer Fähigkeit zur offenen Instruktionsbefolgung anhand einer Sammlung automatischer, modellbasierter und menschlicher Metriken evaluiert. Darüber hinaus stellen wir T\"ulu vor, unsere leistungsstärkste Suite von Instruction-getunten Modellen, die auf einer Kombination hochwertiger offener Ressourcen feinabgestimmt wurde. Unsere Experimente zeigen, dass verschiedene Instruction-Tuning-Datensätze spezifische Fähigkeiten aufdecken oder verbessern können, während kein einzelner Datensatz (oder eine Kombination) die beste Leistung über alle Evaluationen hinweg liefert. Interessanterweise stellen wir fest, dass modell- und präferenzbasierte Evaluationen durch Menschen die Unterschiede in den Modellfähigkeiten, die durch benchmarkbasierte Evaluationen aufgedeckt werden, nicht widerspiegeln. Dies unterstreicht die Notwendigkeit der Art von systematischer Evaluation, die in dieser Arbeit durchgeführt wird. Unsere Evaluationen zeigen, dass das beste Modell in einer gegebenen Evaluation im Durchschnitt 83 % der Leistung von ChatGPT und 68 % der Leistung von GPT-4 erreicht, was darauf hindeutet, dass weitere Investitionen in den Aufbau besserer Basismodelle und Instruction-Tuning-Daten erforderlich sind, um die Lücke zu schließen. Wir veröffentlichen unsere Instruction-getunten Modelle, einschließlich eines vollständig feinabgestimmten 65B T\"ulu, zusammen mit unserem Code, unseren Daten und unserem Evaluationsframework unter https://github.com/allenai/open-instruct, um zukünftige Forschung zu erleichtern.
Wir liefern neue Schätzungen einer asymptotischen oberen Schranke für die Entropie der englischen Sprache unter Verwendung des großen Sprachmodells LLaMA-7B als Prädiktor für das nächste Token basierend auf einem Fenster vergangener Tokens. Diese Schätzung ist signifikant kleiner als die derzeit verfügbaren Schätzungen in cover1978convergent und lutati2023focus. Ein natürliches Nebenprodukt ist ein Algorithmus für die verlustfreie Kompression englischer Texte, der die Vorhersage des großen Sprachmodells mit einem verlustfreien Kompressionsschema kombiniert. Vorläufige Ergebnisse aus begrenzten Experimenten deuten darauf hin, dass unser Schema state-of-the-art Textkompressionsverfahren wie BSC, ZPAQ und paq8h übertrifft.
Die Schätzung von 3D-artikulierten Formen wie Tierkörpern aus monokularen Bildern ist aufgrund der Mehrdeutigkeiten von Kameraperspektive, Pose, Textur, Beleuchtung usw. inhärent schwierig. Wir schlagen ARTIC3D vor, ein selbstüberwachtes Framework zur Rekonstruktion von 3D-Formen pro Instanz aus einer spärlichen Bildsammlung in natürlicher Umgebung. Konkret basiert ARTIC3D auf einer skelettbasierten Oberflächendarstellung und wird weiterhin durch 2D-Diffusionspriors von Stable Diffusion geleitet. Zunächst verbessern wir die Eingabebilder durch Okklusionen/Abbrüche mittels 2D-Diffusion, um sauberere Maskenschätzungen und semantische Merkmale zu erhalten. Zweitens führen wir eine diffusionsgesteuerte 3D-Optimierung durch, um Form und Textur zu schätzen, die hochauflösend und den Eingabebildern treu sind. Wir schlagen auch eine neuartige Technik vor, um stabilere bildbezogene Gradienten über Diffusionsmodelle im Vergleich zu bestehenden Alternativen zu berechnen. Schließlich erzeugen wir realistische Animationen durch Feinabstimmung der gerenderten Form und Textur unter starren Teiltransformationen. Umfangreiche Auswertungen auf mehreren bestehenden Datensätzen sowie neu eingeführten verrauschten Web-Bildsammlungen mit Okklusionen und Abbrüchen zeigen, dass die ARTIC3D-Ergebnisse robuster gegenüber verrauschten Bildern sind, eine höhere Qualität in Bezug auf Form- und Texturdetails aufweisen und realistischer wirken, wenn sie animiert werden. Projektseite: https://chhankyao.github.io/artic3d/
StableDiffusion ist ein revolutionärer Text-zu-Bild-Generator, der in der Welt der Bildgenerierung und -bearbeitung für Aufsehen sorgt. Im Gegensatz zu traditionellen Methoden, die ein Diffusionsmodell im Pixelraum erlernen, lernt StableDiffusion ein Diffusionsmodell im latenten Raum über ein VQGAN, was sowohl Effizienz als auch Qualität sicherstellt. Es unterstützt nicht nur Bildgenerierungsaufgaben, sondern ermöglicht auch die Bearbeitung realer Bilder, wie z. B. Bildinpainting und lokale Bearbeitung. Wir haben jedoch beobachtet, dass das in StableDiffusion verwendete Standard-VQGAN zu erheblichen Informationsverlusten führt, was selbst in nicht bearbeiteten Bildbereichen Verzerrungsartefakte verursacht. Daher schlagen wir ein neues asymmetrisches VQGAN mit zwei einfachen Designs vor. Erstens enthält der Decoder zusätzlich zum Eingang des Encoders einen bedingten Zweig, der Informationen aus aufgabenspezifischen Prioritäten, wie z. B. den nicht maskierten Bildbereich beim Inpainting, einbezieht. Zweitens ist der Decoder deutlich umfangreicher als der Encoder, was eine detailliertere Wiederherstellung ermöglicht, während die Gesamtinferenzkosten nur geringfügig steigen. Die Trainingskosten unseres asymmetrischen VQGAN sind gering, und wir müssen lediglich einen neuen asymmetrischen Decoder neu trainieren, während der Standard-VQGAN-Encoder und StableDiffusion unverändert bleiben. Unser asymmetrisches VQGAN kann weit verbreitet in StableDiffusion-basierten Inpainting- und lokalen Bearbeitungsmethoden eingesetzt werden. Umfangreiche Experimente zeigen, dass es die Inpainting- und Bearbeitungsleistung erheblich verbessern kann, während die ursprüngliche Text-zu-Bild-Fähigkeit erhalten bleibt. Der Code ist unter https://github.com/buxiangzhiren/Asymmetric_VQGAN verfügbar.
Die zunehmende Abhängigkeit von Large Language Models (LLMs) in Wissenschaft und Industrie erfordert ein umfassendes Verständnis ihrer Robustheit gegenüber Prompts. Als Antwort auf diesen dringenden Bedarf stellen wir PromptBench vor, einen Robustheits-Benchmark, der entwickelt wurde, um die Widerstandsfähigkeit von LLMs gegenüber adversarischen Prompts zu messen. Diese Studie verwendet eine Vielzahl von adversarischen Textangriffen, die Prompts auf mehreren Ebenen ins Visier nehmen: Zeichen, Wort, Satz und Semantik. Diese Prompts werden dann in verschiedenen Aufgaben eingesetzt, wie beispielsweise Sentiment-Analyse, natürliche Sprachinferenz, Leseverständnis, maschinelle Übersetzung und mathematische Problemlösung. Unsere Studie generiert 4.032 adversarische Prompts, die sorgfältig über 8 Aufgaben und 13 Datensätze hinweg evaluiert werden, mit insgesamt 567.084 Testbeispielen. Unsere Ergebnisse zeigen, dass zeitgenössische LLMs anfällig für adversarische Prompts sind. Darüber hinaus präsentieren wir eine umfassende Analyse, um das Rätsel hinter der Prompt-Robustheit und ihrer Übertragbarkeit zu verstehen. Anschließend bieten wir aufschlussreiche Robustheitsanalysen und pragmatische Empfehlungen für die Prompt-Zusammensetzung, die sowohl Forschern als auch alltäglichen Nutzern zugutekommen. Wir stellen unseren Code, die Prompts und die Methoden zur Generierung adversarischer Prompts öffentlich zugänglich, um die kollaborative Erforschung in diesem zentralen Bereich zu ermöglichen und zu fördern: https://github.com/microsoft/promptbench.
Die Bereitstellung von NMT-Modellen auf mobilen Geräten ist entscheidend für Datenschutz, niedrige Latenz und Offline-Szenarien. Aufgrund ihrer hohen Modellkapazität sind NMT-Modelle jedoch recht groß. Die Ausführung dieser Modelle auf Geräten ist aufgrund begrenzter Speicherkapazität, Arbeitsspeicher, Rechenleistung und Stromverbrauch eine Herausforderung. Bisherige Arbeiten konzentrieren sich entweder nur auf eine einzelne Metrik wie FLOPs oder auf allgemeine Engines, die für autoregressives Decodieren nicht optimal geeignet sind. In diesem Artikel stellen wir MobileNMT vor, ein System, das Übersetzungen in 15 MB und 30 ms auf Geräten durchführen kann. Wir schlagen eine Reihe von Prinzipien für die Modellkompression in Kombination mit Quantisierung vor. Darüber hinaus implementieren wir eine Engine, die INT8 und Decodierung unterstützt. Durch das Co-Design von Modell und Engine erreichen wir im Vergleich zu bestehenden Systemen eine Beschleunigung um das 47,0-fache und sparen 99,5 % des Speichers bei nur 11,6 % Verlust der BLEU-Punktzahl. Der Code ist öffentlich unter https://github.com/zjersey/Lightseq-ARM verfügbar.
Um die Entwicklung von Vision-Language Pre-training (VLP) und multimodalen Large Language Models (LLM) in der chinesischen Gemeinschaft zu fördern, veröffentlichen wir zunächst das größte öffentliche chinesische hochwertige Video-Sprache-Datensatz namens Youku-mPLUG. Dieser Datensatz wurde von Youku, einer bekannten chinesischen Video-Sharing-Website, unter strengen Kriterien hinsichtlich Sicherheit, Vielfalt und Qualität gesammelt. Youku-mPLUG enthält 10 Millionen chinesische Video-Text-Paare, die aus 400 Millionen Rohvideos über 45 verschiedene Kategorien hinweg für das groß angelegte Pre-training gefiltert wurden. Darüber hinaus haben wir sorgfältig die größten menschlich annotierten chinesischen Benchmarks erstellt, die drei beliebte Video-Sprache-Aufgaben abdecken: Cross-Modal Retrieval, Video Captioning und Video-Kategorie-Klassifikation. Youku-mPLUG ermöglicht es Forschern, tiefergehende multimodale Forschung zu betreiben und in Zukunft bessere Anwendungen zu entwickeln. Zusätzlich veröffentlichen wir die beliebten Video-Sprache Pre-training-Modelle ALPRO und mPLUG-2 sowie unser vorgeschlagenes modularisiertes Decoder-only-Modell mPLUG-video, das auf Youku-mPLUG vortrainiert wurde. Experimente zeigen, dass Modelle, die auf Youku-mPLUG vortrainiert wurden, eine Verbesserung von bis zu 23,1 % in der Video-Kategorie-Klassifikation erzielen. Außerdem erreicht mPLUG-video neue state-of-the-art Ergebnisse auf diesen Benchmarks mit einer Top-1-Genauigkeit von 80,5 % in der Video-Kategorie-Klassifikation und einem CIDEr-Score von 68,9 im Video Captioning. Schließlich skalieren wir mPLUG-video basierend auf dem eingefrorenen Bloomz mit nur 1,7 % trainierbaren Parametern als chinesisches multimodales LLM und demonstrieren beeindruckende Fähigkeiten in der Instruktions- und Videoverständnis. Das Zero-Shot-Instruktionsverständnis-Experiment zeigt, dass das Vortraining mit Youku-mPLUG die Fähigkeit verbessern kann, Gesamt- und Detail-Semantik zu verstehen, Szenentext zu erkennen und Open-Domain-Wissen zu nutzen.