Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Diese Arbeit stellt Weaver vor, unsere erste Familie von großen Sprachmodellen (LLMs), die speziell für die Inhaltserstellung entwickelt wurde. Weaver wird auf einem sorgfältig ausgewählten Korpus vortrainiert, der darauf abzielt, die Schreibfähigkeiten großer Sprachmodelle zu verbessern. Anschließend wird Weaver für kreative und professionelle Schreibzwecke feinabgestimmt und an die Präferenzen professioneller Schreiber angepasst, indem eine Reihe neuartiger Methoden zur Synthese von Instruktionsdaten und zur Ausrichtung von LLMs verwendet werden. Dadurch ist Weaver in der Lage, menschenähnlichere Texte zu erzeugen und vielfältigere Anweisungen zur Inhaltserstellung zu befolgen. Die Weaver-Familie umfasst Modelle der Größen Weaver Mini (1,8B), Weaver Base (6B), Weaver Pro (14B) und Weaver Ultra (34B), die für verschiedene Anwendungen geeignet sind und durch einen Routing-Agenten dynamisch entsprechend der Abfragekomplexität eingesetzt werden können, um die Antwortqualität und die Rechenkosten auszugleichen. Die Bewertung auf einem sorgfältig kuratierten Benchmark zur Beurteilung der Schreibfähigkeiten von LLMs zeigt, dass Weaver-Modelle aller Größen generalistische LLMs, die um ein Vielfaches größer sind, übertreffen. Besonders hervorzuheben ist, dass unser leistungsfähigstes Modell, Weaver Ultra, GPT-4, ein state-of-the-art generalistisches LLM, in verschiedenen Schreibszenarien übertrifft, was den Vorteil des Trainings spezialisierter LLMs für Schreibzwecke demonstriert. Darüber hinaus unterstützt Weaver nativ die retrievergestützte Generierung (RAG) und Funktionsaufrufe (Tool-Nutzung). Wir präsentieren verschiedene Anwendungsfälle dieser Fähigkeiten zur Verbesserung von KI-gestützten Schreibsystemen, einschließlich der Integration externer Wissensdatenbanken, Tools oder APIs sowie der Bereitstellung personalisierter Schreibunterstützung. Außerdem diskutieren und fassen wir eine Richtlinie und Best Practices für das Vortraining und die Feinabstimmung domänenspezifischer LLMs zusammen.
Die You Only Look Once (YOLO)-Reihe von Detektoren hat sich als effiziente und praktische Werkzeuge etabliert. Ihre Abhängigkeit von vordefinierten und trainierten Objektkategorien schränkt jedoch ihre Anwendbarkeit in offenen Szenarien ein. Um diese Einschränkung zu überwinden, stellen wir YOLO-World vor, einen innovativen Ansatz, der YOLO durch Vision-Language-Modellierung und Vorabtraining auf groß angelegten Datensätzen mit Fähigkeiten zur offenen Vokabelerkennung erweitert. Konkret schlagen wir ein neues Re-parameterisierbares Vision-Language Path Aggregation Network (RepVL-PAN) und einen Region-Text-Kontrastverlust vor, um die Interaktion zwischen visuellen und linguistischen Informationen zu erleichtern. Unsere Methode zeichnet sich durch die Erkennung einer Vielzahl von Objekten in einem Zero-Shot-Verfahren mit hoher Effizienz aus. Auf dem anspruchsvollen LVIS-Datensatz erreicht YOLO-World 35,4 AP mit 52,0 FPS auf einer V100, was viele state-of-the-art-Methoden sowohl in Bezug auf Genauigkeit als auch Geschwindigkeit übertrifft. Darüber hinaus erzielt der feinabgestimmte YOLO-World bemerkenswerte Leistungen bei mehreren nachgelagerten Aufgaben, einschließlich Objekterkennung und offener Vokabelinstanzsegmentierung.
Wir präsentieren BlockFusion, ein diffusionsbasiertes Modell, das 3D-Szenen als Einheitsblöcke generiert und neue Blöcke nahtlos einfügt, um die Szene zu erweitern. BlockFusion wird mit Datensätzen von 3D-Blöcken trainiert, die zufällig aus vollständigen 3D-Szenenmeshes ausgeschnitten werden. Durch eine Block-für-Block-Anpassung werden alle Trainingsblöcke in hybride neuronale Felder umgewandelt: mit einer Tri-Ebene, die die Geometrie-Features enthält, gefolgt von einem Multi-Layer Perceptron (MLP) zur Dekodierung der signierten Distanzwerte. Ein Variational Auto-Encoder wird verwendet, um die Tri-Ebenen in den latenten Tri-Ebenen-Raum zu komprimieren, auf dem der Denoising-Diffusionsprozess durchgeführt wird. Die Anwendung der Diffusion auf die latenten Repräsentationen ermöglicht die Erzeugung hochwertiger und vielfältiger 3D-Szenen. Um eine Szene während der Generierung zu erweitern, müssen lediglich leere Blöcke hinzugefügt werden, die sich mit der aktuellen Szene überlappen, und bestehende latente Tri-Ebenen extrapoliert werden, um neue Blöcke zu füllen. Die Extrapolation erfolgt, indem der Generierungsprozess mit den Feature-Samples aus den überlappenden Tri-Ebenen während der Denoising-Iterationen bedingt wird. Die Extrapolation latenter Tri-Ebenen erzeugt semantisch und geometrisch sinnvolle Übergänge, die sich harmonisch in die bestehende Szene einfügen. Ein 2D-Layout-Bedingungsmechanismus wird verwendet, um die Platzierung und Anordnung der Szenenelemente zu steuern. Experimentelle Ergebnisse zeigen, dass BlockFusion in der Lage ist, vielfältige, geometrisch konsistente und unbegrenzt große 3D-Szenen mit bisher unerreichter Qualität in Innen- und Außenbereichen zu generieren.
Um LLMs für die visuelle Synthese zu nutzen, wandeln traditionelle Methoden Rasterbildinformationen durch spezialisierte visuelle Module in diskrete Gittertokens um, wodurch jedoch die Fähigkeit des Modells beeinträchtigt wird, die wahre semantische Darstellung visueller Szenen zu erfassen. Dieses Papier stellt die These auf, dass eine alternative Darstellung von Bildern, nämlich Vektorgrafiken, diese Einschränkung effektiv überwinden kann, indem sie eine natürlichere und semantisch kohärentere Segmentierung der Bildinformationen ermöglicht. Daher stellen wir StrokeNUWA vor, eine wegweisende Arbeit, die eine bessere visuelle Darstellung in Form von „Stroke-Tokens“ auf Vektorgrafiken untersucht, die von Natur aus reich an visueller Semantik ist, natürlich mit LLMs kompatibel und stark komprimiert. Ausgestattet mit Stroke-Tokens kann StrokeNUWA traditionelle LLM-basierte und optimierungsbasierte Methoden bei verschiedenen Metriken in der Aufgabe der Vektorgrafikgenerierung deutlich übertreffen. Darüber hinaus erreicht StrokeNUWA eine bis zu 94-fache Beschleunigung der Inferenz im Vergleich zu früheren Methoden bei einem außergewöhnlichen SVG-Code-Kompressionsverhältnis von 6,9 %.
Im sich rasant entwickelnden Bereich der Sprachgenerierungsmodelle besteht ein dringender Bedarf, die Authentizität von Audioinhalten gegen die Risiken des Voice Clonings zu gewährleisten. Wir präsentieren AudioSeal, die erste Audio-Wasserzeichen-Technik, die speziell für die lokalisierte Erkennung von KI-generierter Sprache entwickelt wurde. AudioSeal verwendet eine Generator/Detektor-Architektur, die gemeinsam mit einem Lokalisierungsverlust trainiert wird, um eine lokalisierte Wasserzeichenerkennung bis auf die Probeebene zu ermöglichen, sowie einen neuartigen Wahrnehmungsverlust, inspiriert von der auditiven Maskierung, der AudioSeal eine bessere Unauffälligkeit verleiht. AudioSeal erreicht Spitzenleistungen in Bezug auf Robustheit gegenüber realen Audiomanipulationen und Unauffälligkeit, basierend auf automatischen und menschlichen Bewertungsmetriken. Darüber hinaus ist AudioSeal mit einem schnellen, einstufigen Detektor ausgestattet, der bestehende Modelle in der Geschwindigkeit deutlich übertrifft – die Erkennung erfolgt bis zu zwei Größenordnungen schneller, was es ideal für groß angelegte und Echtzeitanwendungen macht.
Wir präsentieren H2O-Danube-1.8B, ein Sprachmodell mit 1,8 Milliarden Parametern, das auf 1 Billion Tokens trainiert wurde und den Kernprinzipien von LLama 2 und Mistral folgt. Wir nutzen und verfeinern verschiedene Techniken für das Pre-Training großer Sprachmodelle. Obwohl unser Modell mit deutlich weniger Tokens insgesamt trainiert wurde als Referenzmodelle ähnlicher Größe, zeigt es äußerst wettbewerbsfähige Metriken über eine Vielzahl von Benchmarks hinweg. Zusätzlich veröffentlichen wir ein Chat-Modell, das durch supervidiertes Fine-Tuning gefolgt von Direct Preference Optimization trainiert wurde. Wir stellen H2O-Danube-1.8B unter der Apache-2.0-Lizenz offen zur Verfügung, um LLMs wirtschaftlich einem breiteren Publikum zugänglich zu machen.
In diesem Bericht untersuchen wir das Potenzial von Text-Diffusion, um autoregressives (AR) Decoding für das Training und den Einsatz von großen Sprachmodellen (LLMs) zu ersetzen. Wir sind besonders daran interessiert, ob vortrainierte AR-Modelle durch ein leichtgewichtiges Anpassungsverfahren, das wir „AR2Diff“ nennen, in Text-Diffusion-Modelle umgewandelt werden können. Wir beginnen mit der Einrichtung eines soliden Baseline-Setups für das Training von Text-Diffusion-Modellen. Beim Vergleich verschiedener Architekturen und Vortrainingsziele stellen wir fest, dass das Training eines Decoder-only-Modells mit einem Prefix-LM-Ziel bei mehreren Aufgaben am besten oder nahezu am besten abschneidet. Aufbauend auf dieser Erkenntnis testen wir verschiedene Transfer-Learning-Setups für Text-Diffusion-Modelle. Bei der maschinellen Übersetzung stellen wir fest, dass Text-Diffusion dem standardmäßigen AR-Ansatz unterlegen ist. Bei der Code-Synthese und extraktiven Frage-Antwort-Aufgaben (extractive QA) hingegen übertreffen von Grund auf trainierte Diffusion-Modelle in vielen Fällen AR-Modelle. Wir beobachten auch Qualitätsverbesserungen durch AR2Diff – die Anpassung von AR-Modellen zur Verwendung von Diffusion-Decoding. Diese Ergebnisse sind vielversprechend, da Text-Diffusion relativ wenig erforscht ist und für die Erzeugung langer Texte deutlich schneller als AR-Decoding sein kann.
Obwohl erhebliche Anstrengungen unternommen wurden, um große Sprachmodelle (LLMs) auszurichten, deuten Red-Teaming-Berichte darauf hin, dass diese sorgfältig ausgerichteten LLMs dennoch durch adversariale Eingabeaufforderungen, Feinabstimmung oder Decodierung umgangen werden können. Bei der Untersuchung der Anfälligkeit von ausgerichteten LLMs für solche Umgehungen beobachten wir, dass die Decodierungsverteilungen von umgangenen und ausgerichteten Modellen nur in den anfänglichen Generationen unterschiedlich sind. Diese Beobachtung motiviert uns, den Weak-to-Strong-Jailbreaking-Angriff vorzuschlagen, bei dem Angreifer kleinere unsichere/ausgerichtete LLMs (z. B. 7B) nutzen können, um eine Umgehung gegen deutlich größere ausgerichtete LLMs (z. B. 70B) zu leiten. Für die Umgehung muss man lediglich zwei kleinere LLMs einmal zusätzlich decodieren, was im Vergleich zur Decodierung der größeren LLMs minimalen Rechenaufwand und Latenz verursacht. Die Wirksamkeit dieses Angriffs wird durch Experimente an fünf Modellen von drei verschiedenen Organisationen demonstriert. Unsere Studie deckt eine bisher unbemerkte, aber effiziente Methode der Umgehung auf und zeigt ein dringendes Sicherheitsproblem auf, das bei der Ausrichtung von LLMs berücksichtigt werden muss. Als ersten Ansatz schlagen wir eine Verteidigungsstrategie zum Schutz vor solchen Angriffen vor, aber die Entwicklung fortschrittlicherer Abwehrmechanismen bleibt eine Herausforderung. Der Code zur Reproduktion der Methode ist unter https://github.com/XuandongZhao/weak-to-strong verfügbar.
Die aktuelle Bildmanipulation konzentriert sich hauptsächlich auf statische Manipulationen, wie das Ersetzen bestimmter Bereiche innerhalb eines Bildes oder die Veränderung seines Gesamtstils. In diesem Artikel stellen wir eine innovative dynamische Manipulationsaufgabe vor: die Neupositionierung von Objekten. Diese Aufgabe beinhaltet die Verschiebung eines benutzerdefinierten Objekts an eine gewünschte Position unter Beibehaltung der Bildtreue. Unsere Forschung zeigt, dass die grundlegenden Teilaufgaben der Neupositionierung von Objekten, zu denen das Füllen der Lücke, die durch das verschobene Objekt entsteht, die Rekonstruktion verdeckter Teile des Objekts und die harmonische Einpassung des Objekts in die umgebenden Bereiche gehören, effektiv als eine einheitliche, promptgesteuerte Inpainting-Aufgabe reformuliert werden können. Folglich können wir ein einziges diffusionsbasiertes generatives Modell verwenden, um diese Teilaufgaben mithilfe verschiedener Aufgabenprompts zu lösen, die durch unsere vorgeschlagene Task-Inversion-Technik erlernt werden. Zusätzlich integrieren wir Vor- und Nachbearbeitungstechniken, um die Qualität der Neupositionierung weiter zu verbessern. Diese Elemente bilden zusammen unser SEgment-gEnerate-and-bLEnd (SEELE)-Framework. Um die Wirksamkeit von SEELE bei der Neupositionierung von Objekten zu bewerten, haben wir einen realen Datensatz zur Neupositionierung von Objekten namens ReS zusammengestellt. Unsere Ergebnisse auf ReS demonstrieren die Qualität der generierten Bilder nach der Neupositionierung.
Aktuelle Studien haben sich für vollständig offene Basismodelle ausgesprochen, um Transparenz und offene Wissenschaft zu fördern. Als erster Schritt hat das Open Whisper-style Speech Model (OWSM) OpenAIs Whisper unter Verwendung öffentlich verfügbarer Daten und Open-Source-Toolkits reproduziert. Mit dem Ziel, Whisper nachzubilden, basierten die bisherigen OWSM-Modelle v1 bis v3 weiterhin auf dem Transformer, was zu einer möglicherweise geringeren Leistung im Vergleich zu anderen modernen Sprachkodierern führen könnte. In dieser Arbeit streben wir an, die Leistung und Effizienz von OWSM ohne zusätzliche Trainingsdaten zu verbessern. Wir präsentieren E-Branchformer-basierte OWSM v3.1-Modelle in zwei Größenordnungen, nämlich 100M und 1B. Das 1B-Modell ist das größte E-Branchformer-basierte Sprachmodell, das öffentlich verfügbar gemacht wurde. Es übertrifft das vorherige OWSM v3 in der überwiegenden Mehrheit der Evaluierungsbenchmarks und zeigt dabei eine bis zu 25 % schnellere Inferenzgeschwindigkeit. Wir veröffentlichen die Datenvorbereitungsskripte, vortrainierten Modelle und Trainingsprotokolle öffentlich.
Bildrestaurierung ist ein grundlegendes Problem, bei dem es darum geht, ein hochwertiges, sauberes Bild aus seiner beeinträchtigten Beobachtung wiederherzustellen. All-In-One-Bildrestaurierungsmodelle können Bilder effektiv aus verschiedenen Arten und Graden von Beeinträchtigungen wiederherstellen, indem sie spezifische Informationen zur Beeinträchtigung als Prompts verwenden, um das Restaurierungsmodell zu steuern. In dieser Arbeit präsentieren wir den ersten Ansatz, der menschengeschriebene Anweisungen verwendet, um das Bildrestaurierungsmodell zu leiten. Bei gegebenen natürlichen Sprachprompts kann unser Modell hochwertige Bilder aus ihren beeinträchtigten Gegenstücken wiederherstellen, wobei mehrere Arten von Beeinträchtigungen berücksichtigt werden. Unsere Methode, InstructIR, erzielt state-of-the-art Ergebnisse bei mehreren Restaurierungsaufgaben, einschließlich Bildentrauschen, Entfernen von Regen, Entschärfen, Entnebeln und (schwache Beleuchtung betreffende) Bildverbesserung. InstructIR verbessert sich um +1 dB gegenüber früheren All-In-One-Restaurierungsmethoden. Darüber hinaus stellen unser Datensatz und unsere Ergebnisse einen neuartigen Benchmark für neue Forschungen zur textgesteuerten Bildrestaurierung und -verbesserung dar. Unser Code, Datensätze und Modelle sind verfügbar unter: https://github.com/mv-lab/InstructIR.
Während große Sprachmodelle (LLMs) zunehmend für die Programmsynthese eingesetzt werden, fehlt ihnen die globale Sicht, die notwendig ist, um nützliche Abstraktionen zu entwickeln; sie generieren Programme in der Regel einzeln und wiederholen oft dieselbe Funktionalität. Die Erzeugung von redundantem Code von Grund auf ist sowohl ineffizient als auch fehleranfällig. Um dies zu beheben, schlagen wir Refactoring for Generalizable Abstraction Learning (ReGAL) vor, eine gradientenfreie Methode zum Erlernen einer Bibliothek wiederverwendbarer Funktionen durch Code-Refaktorisierung, d.h. die Umstrukturierung von Code ohne Änderung des Ausführungsoutputs. ReGAL lernt aus einer kleinen Menge bestehender Programme und verifiziert und verfeinert seine Abstraktionen iterativ durch Ausführung. Wir stellen fest, dass die von ReGAL entdeckten gemeinsamen Funktionsbibliotheken die Vorhersage von Programmen über verschiedene Domänen hinweg erleichtern. Auf drei Datensätzen (LOGO-Grafikgenerierung, Datumslogik und TextCraft, ein Minecraft-basiertes Textspiel) verbessern sowohl Open-Source- als auch proprietäre LLMs ihre Genauigkeit bei der Vorhersage von Programmen mit ReGAL-Funktionen. Für CodeLlama-13B führt ReGAL zu absoluten Genauigkeitssteigerungen von 11,5 % bei Grafiken, 26,1 % beim Verständnis von Datumsangaben und 8,1 % bei TextCraft und übertrifft GPT-3.5 in zwei von drei Domänen. Unsere Analyse zeigt, dass die Abstraktionen von ReGAL häufig verwendete Unterprogramme sowie Umgebungsdynamiken kapseln.
Aktuelle große Vision-Language-Modelle (VLMs) stoßen oft auf Herausforderungen wie unzureichende Fähigkeiten einer einzelnen visuellen Komponente und übermäßig lange visuelle Tokens. Diese Probleme können die Effektivität des Modells bei der genauen Interpretation komplexer visueller Informationen und überlanger kontextueller Informationen einschränken. Die Bewältigung dieser Herausforderungen ist entscheidend, um die Leistung und Anwendbarkeit von VLMs zu verbessern. Dieses Papier schlägt die Verwendung der Ensemble-Experten-Technik vor, um die Fähigkeiten einzelner visueller Encoder zu kombinieren, einschließlich solcher, die in Bild-Text-Matching, OCR, Bildsegmentierung usw. geschickt sind. Diese Technik führt ein Fusionsnetzwerk ein, um die Verarbeitung der Ausgaben verschiedener visueller Experten zu vereinheitlichen und gleichzeitig die Lücke zwischen Bildencodern und vortrainierten LLMs zu überbrücken. Darüber hinaus untersuchen wir verschiedene Positional-Encoding-Schemata, um die Verschwendung von Positional Encoding durch lange Bildmerkmalsequenzen zu verringern und so das Problem des Positionsüberlaufs und der Längenbeschränkungen effektiv zu lösen. Beispielsweise reduziert diese Technik in unserer Implementierung die Positionsbelegung in Modellen wie SAM erheblich, von beträchtlichen 4096 auf effizientere und handhabbare 64 oder sogar auf 1. Experimentelle Ergebnisse zeigen, dass VLMs mit mehreren Experten durchweg bessere Leistungen erzielen als isolierte visuelle Encoder und eine signifikante Leistungssteigerung markieren, wenn mehr Experten integriert werden. Wir haben den in diesem Bericht verwendeten Trainingscode quelloffen gemacht. Alle diese Ressourcen finden Sie auf unserer Projektwebsite.
Große Sprachmodelle setzen zunehmend auf verteilte Techniken für ihr Training und ihre Inferenz. Diese Techniken erfordern Kommunikation zwischen Geräten, was die Skalierungseffizienz verringern kann, wenn die Anzahl der Geräte steigt. Während einige verteilte Techniken diese Kommunikation überlappen und somit durch unabhängige Berechnungen verbergen können, führen Techniken wie Tensor Parallelismus (TP) die Kommunikation inhärent seriell mit der Modellausführung durch. Ein Ansatz, um diese serielle Kommunikation zu verbergen, besteht darin, sie fein granular mit der Produzentenoperation (der kommunizierten Daten) zu verschachteln. Diese feingranulare Verschachtelung von Kommunikation und Berechnung in Software kann jedoch schwierig sein. Darüber hinaus erfordert sie, wie bei jeder gleichzeitigen Ausführung, dass Rechen- und Speicherressourcen zwischen Berechnung und Kommunikation geteilt werden, was zu Ressourcenkonflikten führt, die die Überlappungseffizienz verringern. Um diese Herausforderungen zu bewältigen, schlagen wir T3 vor, das Hardware-Software-Co-Design anwendet, um serielle Kommunikation transparent zu überlappen und dabei Ressourcenkonflikte mit der Berechnung zu minimieren. T3 verschmilzt transparent Produzentenoperationen mit der nachfolgenden Kommunikation durch eine einfache Konfiguration des Ausgabeadressraums des Produzenten und erfordert nur geringfügige Softwareänderungen. Auf Hardwareebene fügt T3 einen leichtgewichtigen Track-and-Trigger-Mechanismus hinzu, um die Berechnung und Kommunikation des Produzenten zu orchestrieren. Es verwendet weiterhin berechnungsverstärkte Speicher für die begleitende Berechnung der Kommunikation. Dadurch reduziert T3 Ressourcenkonflikte und überlappt serielle Kommunikation effizient mit der Berechnung. Für wichtige Transformermodelle wie T-NLG beschleunigt T3 kommunikationsintensive Unterschichten um 30 % geometrisches Mittel (maximal 47 %) und reduziert die Datenbewegung um 22 % geometrisches Mittel (maximal 36 %). Darüber hinaus bleiben die Vorteile von T3 erhalten, wenn Modelle skaliert werden: geometrisches Mittel von 29 % für Unterschichten in sim500-Milliarden-Parameter-Modellen, PALM und MT-NLG.