Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das Feinabstimmen großer Sprachmodelle (LLMs) auf Anweisungen führt zu erheblichen Leistungsverbesserungen bei natürlichen Sprachaufgaben. Wir wenden das Anweisungs-Finetuning unter Verwendung von Code an und nutzen dabei die natürliche Struktur von Git-Commit-Nachrichten, die Codeänderungen mit menschlichen Anweisungen verknüpfen. Wir haben CommitPack zusammengestellt: 4 Terabyte an Git-Commit-Nachrichten aus 350 Programmiersprachen. Wir vergleichen CommitPack mit anderen natürlichen und synthetischen Codeanweisungen (xP3x, Self-Instruct, OASST) am StarCoder-Modell mit 16 Milliarden Parametern und erreichen Spitzenleistungen unter den Modellen, die nicht auf OpenAI-Ausgaben trainiert wurden, im HumanEval-Python-Benchmark (46,2 % pass@1). Darüber hinaus führen wir HumanEvalPack ein, das den HumanEval-Benchmark auf insgesamt 3 Codierungsaufgaben (Code-Reparatur, Code-Erklärung, Code-Synthese) in 6 Sprachen (Python, JavaScript, Java, Go, C++, Rust) erweitert. Unsere Modelle, OctoCoder und OctoGeeX, erzielen die beste Leistung in HumanEvalPack unter allen permissiven Modellen, was die Vorteile von CommitPack bei der Generalisierung auf eine breitere Palette von Sprachen und natürlichen Codierungsaufgaben demonstriert. Code, Modelle und Daten sind frei verfügbar unter https://github.com/bigcode-project/octopack.
In den letzten Jahren haben große Text-zu-Bild-Diffusionsmodelle ihre beeindruckende generative Fähigkeit unter Beweis gestellt, hochwertige Bilder zu erzeugen. Es ist jedoch sehr schwierig, gewünschte Bilder allein mit Textprompts zu generieren, da dies oft komplexes Prompt-Engineering erfordert. Eine Alternative zum Textprompt ist das Bildprompt, nach dem Motto: „Ein Bild sagt mehr als tausend Worte“. Obwohl bestehende Methoden des direkten Fine-Tunings vortrainierter Modelle effektiv sind, erfordern sie große Rechenressourcen und sind nicht kompatibel mit anderen Basismodellen, Textprompts und strukturellen Steuerungen. In diesem Artikel stellen wir IP-Adapter vor, einen effektiven und leichtgewichtigen Adapter, der die Bildprompt-Fähigkeit für vortrainierte Text-zu-Bild-Diffusionsmodelle ermöglicht. Das Schlüsseldesign unseres IP-Adapters ist ein entkoppelter Cross-Attention-Mechanismus, der die Cross-Attention-Schichten für Text- und Bildmerkmale trennt. Trotz der Einfachheit unserer Methode kann ein IP-Adapter mit nur 22M Parametern eine vergleichbare oder sogar bessere Leistung als ein vollständig feinabgestimmtes Bildprompt-Modell erzielen. Da wir das vortrainierte Diffusionsmodell einfrieren, kann der vorgeschlagene IP-Adapter nicht nur auf andere benutzerdefinierte Modelle, die aus demselben Basismodell feinabgestimmt wurden, sondern auch auf kontrollierbare Generierung mit bestehenden Steuerungswerkzeugen verallgemeinert werden. Dank der entkoppelten Cross-Attention-Strategie kann das Bildprompt auch gut mit dem Textprompt zusammenarbeiten, um multimodale Bildgenerierung zu erreichen. Die Projektseite ist unter https://ip-adapter.github.io verfügbar.
Jüngste Fortschritte bei generativen Sprachmodellen auf Basis von Audio-Text-Prompts haben bemerkenswerte Innovationen wie hochwertiges Zero-Shot Text-to-Speech ermöglicht. Allerdings stoßen bestehende Modelle nach wie vor an Grenzen bei der Bewältigung vielfältiger Audio-Text-Sprachgenerierungsaufgaben, die die Transformation von Eingabesprache und die Verarbeitung von unter schwierigen akustischen Bedingungen aufgenommenen Audiosignalen umfassen. Dieses Paper stellt SpeechX vor, ein vielseitiges Sprachgenerierungsmodell, das sowohl Zero-Shot TTS als auch verschiedene Sprachtransformationsaufgaben bewältigen kann und dabei sowohl saubere als auch verrauschte Signale verarbeitet. SpeechX kombiniert neuronale Codec-Sprachmodellierung mit Multi-Task-Learning unter Verwendung von aufgabenabhängigen Prompts, wodurch eine einheitliche und erweiterbare Modellierung ermöglicht wird und eine konsistente Methode zur Nutzung von Texteingaben bei Sprachverbesserungs- und Transformationsaufgaben bereitgestellt wird. Experimentelle Ergebnisse zeigen die Wirksamkeit von SpeechX in verschiedenen Aufgaben, darunter Zero-Shot TTS, Rauschunterdrückung, Zielsprecherextraktion, Sprachbeseitigung und Sprachbearbeitung mit oder ohne Hintergrundgeräusche, wobei es vergleichbare oder überlegene Leistungen gegenüber spezialisierten Modellen über alle Aufgaben hinweg erzielt. Demo-Beispiele finden Sie unter https://aka.ms/speechx.
Wir präsentieren Platypus, eine Familie von feinabgestimmten und fusionierten Large Language Models (LLMs), die die stärkste Leistung erzielt und derzeit an erster Stelle auf HuggingFaces Open LLM Leaderboard steht, gemessen am Veröffentlichungsdatum dieser Arbeit. In dieser Arbeit beschreiben wir (1) unser kuratiertes Dataset Open-Platypus, das eine Teilmenge anderer offener Datensätze ist und das wir der Öffentlichkeit zur Verfügung stellen, (2) unseren Prozess der Feinabstimmung und Fusion von LoRA-Modulen, um das starke Vorwissen vortrainierter LLMs zu bewahren, während spezifisches Domänenwissen an die Oberfläche gebracht wird, (3) unsere Bemühungen, Testdatenlecks und Kontaminationen in den Trainingsdaten zu überprüfen, was zukünftige Forschung informieren kann. Insbesondere erzielt die Platypus-Familie starke Leistungen in quantitativen LLM-Metriken über verschiedene Modellgrößen hinweg und führt die globale Open LLM-Rangliste an, während nur ein Bruchteil der Feinabstimmungsdaten und des gesamten Rechenaufwands benötigt wird, die für andere state-of-the-art feinabgestimmte LLMs erforderlich sind. Insbesondere kann ein 13B-Platypus-Modell auf einer einzelnen A100-GPU mit 25.000 Fragen in 5 Stunden trainiert werden. Dies ist ein Beleg für die Qualität unseres Open-Platypus-Datensatzes und eröffnet Möglichkeiten für weitere Verbesserungen in diesem Bereich. Projektseite: https://platypus-llm.github.io
Aktuelle empirische Erkenntnisse zeigen, dass In-Context-Learning auf Basis von Transformer-Modellen besser abschneidet, wenn ein Prefix-Sprachmodell (prefixLM) verwendet wird, bei dem alle In-Context-Beispiele aufeinander zugreifen können, im Vergleich zu kausalen Sprachmodellen (causalLM), die autoregressive Aufmerksamkeit verwenden, die es In-Context-Beispielen verbietet, auf zukünftige Beispiele zuzugreifen. Obwohl dieses Ergebnis intuitiv ist, wird es aus theoretischer Sicht noch nicht vollständig verstanden. In diesem Artikel nehmen wir einen theoretischen Ansatz und analysieren das Konvergenzverhalten von prefixLM und causalLM unter einer bestimmten Parameterkonstruktion. Unsere Analyse zeigt, dass beide Modelltypen mit einer linearen Rate zu ihren stationären Punkten konvergieren, dass jedoch prefixLM zur optimalen Lösung der linearen Regression konvergiert, während die Konvergenzdynamik von causalLM der eines Online-Gradientenabstiegsalgorithmus folgt, der selbst bei unendlich wachsender Anzahl von Beispielen nicht garantiert optimal ist. Wir ergänzen unsere theoretischen Aussagen durch empirische Experimente mit synthetischen und realen Aufgaben sowie verschiedenen Arten von Transformer-Modellen. Unsere Experimente bestätigen, dass causalLM in allen Szenarien durchweg schlechter abschneidet als prefixLM.
Blind Face Restoration zielt darauf ab, hochwertige Gesichtsbilder aus solchen mit unbekannten Verschlechterungen wiederherzustellen. Aktuelle Algorithmen führen hauptsächlich Prioritäten ein, um hochwertige Details zu ergänzen und beeindruckende Fortschritte zu erzielen. Die meisten dieser Algorithmen ignorieren jedoch die reichhaltigen kontextuellen Informationen im Gesicht und deren Wechselwirkung mit den Prioritäten, was zu suboptimalen Ergebnissen führt. Darüber hinaus schenken sie der Lücke zwischen synthetischen und realen Szenarien weniger Aufmerksamkeit, was die Robustheit und Generalisierung für reale Anwendungen einschränkt. In dieser Arbeit schlagen wir RestoreFormer++ vor, das einerseits vollständig räumliche Aufmerksamkeitsmechanismen einführt, um die kontextuellen Informationen und deren Wechselwirkung mit den Prioritäten zu modellieren, und andererseits ein erweitertes Verschlechterungsmodell erforscht, um realistischere verschlechterte Gesichtsbilder zu generieren und so die Lücke zwischen synthetischen und realen Szenarien zu verringern. Im Vergleich zu aktuellen Algorithmen bietet RestoreFormer++ mehrere entscheidende Vorteile. Erstens führen wir anstelle eines Multi-Head-Selbstaufmerksamkeitsmechanismus wie beim traditionellen visuellen Transformer eine Multi-Head-Kreuzaufmerksamkeit über mehrstufige Merkmale ein, um die räumlichen Interaktionen zwischen beschädigten Informationen und hochwertigen Prioritäten vollständig zu erforschen. Auf diese Weise kann RestoreFormer++ Gesichtsbilder mit höherer Realitätsnähe und Treue wiederherstellen. Zweitens lernen wir im Gegensatz zu einem erkennungsorientierten Wörterbuch ein rekonstruktionsorientiertes Wörterbuch als Prioritäten, das vielfältigere hochwertige Gesichtsdetails enthält und besser mit dem Wiederherstellungsziel übereinstimmt. Drittens führen wir ein erweitertes Verschlechterungsmodell ein, das realistischere verschlechterte Szenarien für die Synthese von Trainingsdaten enthält und somit dazu beiträgt, die Robustheit und Generalisierung unseres RestoreFormer++-Modells zu verbessern. Umfangreiche Experimente zeigen, dass RestoreFormer++ sowohl auf synthetischen als auch auf realen Datensätzen state-of-the-art Algorithmen übertrifft.
Mit einem fundierten Verständnis der Zieldomäne aus natürlicher Sprache erzielen wir vielversprechende Ergebnisse bei der Übersetzung über große Domänenlücken hinweg und bringen Skelette wieder zum Leben. In dieser Arbeit verwenden wir textgesteuerte latente Diffusionsmodelle für Zero-Shot Bild-zu-Bild-Übersetzung (I2I) über große Domänenlücken (longI2I), bei denen große Mengen neuer visueller Merkmale und neuer Geometrie generiert werden müssen, um die Zieldomäne zu erreichen. Die Fähigkeit, Übersetzungen über große Domänenlücken hinweg durchzuführen, hat eine Vielzahl von Anwendungen in der Kriminologie, Astrologie, Umweltforschung und Paläontologie. In dieser Arbeit führen wir eine neue Aufgabe, Skull2Animal, ein, bei der zwischen Schädeln und lebenden Tieren übersetzt wird. Bei dieser Aufgabe stellen wir fest, dass ungesteuerte Generative Adversarial Networks (GANs) nicht in der Lage sind, über große Domänenlücken hinweg zu übersetzen. Anstelle dieser traditionellen I2I-Methoden untersuchen wir den Einsatz von gesteuerten Diffusions- und Bildbearbeitungsmodellen und stellen ein neues Benchmark-Modell, Revive-2I, vor, das in der Lage ist, Zero-Shot I2I über Text-Prompting latenter Diffusionsmodelle durchzuführen. Wir stellen fest, dass Steuerung für longI2I notwendig ist, da zur Überbrückung der großen Domänenlücke Vorwissen über die Zieldomäne benötigt wird. Darüber hinaus stellen wir fest, dass Prompting die beste und skalierbarste Information über die Zieldomäne liefert, da klassifikatorgesteuerte Diffusionsmodelle für spezifische Anwendungsfälle neu trainiert werden müssen und aufgrund der Vielzahl der Bilder, auf denen sie trainiert werden, weniger starke Einschränkungen für die Zieldomäne aufweisen.
Die automatische Bewertung von maschineller Übersetzung (MT) ist ein entscheidendes Werkzeug, das die rasche iterative Entwicklung von MT-Systemen vorantreibt. Während erhebliche Fortschritte bei der Schätzung eines einzelnen skalaren Qualitätswerts erzielt wurden, mangelt es aktuellen Metriken an der Informativität detaillierterer Schemata, die individuelle Fehler annotieren, wie beispielsweise Multidimensional Quality Metrics (MQM). In diesem Beitrag schließen wir diese Lücke, indem wir AutoMQM vorschlagen, eine Prompting-Technik, die die Fähigkeiten großer Sprachmodelle (LLMs) zum logischen Schlussfolgern und In-Context-Lernen nutzt und sie auffordert, Fehler in Übersetzungen zu identifizieren und zu kategorisieren. Wir beginnen mit der Bewertung aktueller LLMs wie PaLM und PaLM-2 durch einfache Prompting-Techniken zur Vorhersage von Bewertungen und untersuchen den Einfluss von annotierten Daten durch In-Context-Lernen und Feinabstimmung. Anschließend evaluieren wir AutoMQM mit PaLM-2-Modellen und stellen fest, dass es die Leistung im Vergleich zur reinen Bewertungsvorhersage verbessert (mit besonders großen Gewinnen bei größeren Modellen), während es gleichzeitig Interpretierbarkeit durch Fehler-Spans bietet, die mit menschlichen Annotationen übereinstimmen.
Wir stellen VisIT-Bench (Visual InsTruction Benchmark) vor, einen Benchmark zur Bewertung von instruktionsfolgenden Vision-Sprach-Modellen für den Einsatz in der realen Welt. Unser Ausgangspunkt ist die Zusammenstellung von 70 „Instruktionsfamilien“, die wir als Aufgaben betrachten, die instruktionsoptimierte Vision-Sprach-Modelle bewältigen können sollten. Über Bewertungen wie VQAv2 und COCO hinaus reichen die Aufgaben von grundlegender Erkennung bis hin zu Spielen und kreativer Generierung. Nach der Zusammenstellung umfasst unser Datensatz 592 Testanfragen, jede mit einer von Menschen verfassten, instruktionsbedingten Beschreibung. Diese Beschreibungen heben instruktionsspezifische Faktoren hervor; zum Beispiel beschreibt die instruktionsbedingte Beschreibung bei einer Anfrage zur Barrierefreiheit eines Geschäfts für Rollstuhlfahrer Rampen oder potenzielle Hindernisse. Diese Beschreibungen ermöglichen 1) die Sammlung von von Menschen verifizierten Referenzausgaben für jede Instanz und 2) die automatische Bewertung von Kandidaten für multimodale Generierungen mithilfe eines textbasierten LLM, die mit der menschlichen Beurteilung übereinstimmt. Wir quantifizieren Qualitätslücken zwischen Modellen und Referenzen sowohl durch menschliche als auch automatische Bewertungen; zum Beispiel schneidet das leistungsstärkste instruktionsfolgende Modell in nur 27 % der Vergleiche besser ab als die GPT-4-Referenz. VisIT-Bench ist dynamisch gestaltet, um die Teilnahme zu erleichtern: Praktiker reichen einfach die Antwort ihres Modells auf der Projektwebsite ein; Daten, Code und die Bestenliste sind unter visit-bench.github.io verfügbar.