Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) haben die Landschaft der künstlichen Intelligenz revolutioniert, während ihre enorme Größe erhebliche Herausforderungen in Bezug auf die Rechenkosten mit sich bringt. Wir stellen LoRAShear vor, einen neuartigen effizienten Ansatz zur strukturellen Reduzierung von LLMs und zur Wiederherstellung von Wissen. Bei gegebenen allgemeinen LLMs erstellt LoRAShear zunächst Abhängigkeitsgraphen, um minimal entfernte Strukturen zu identifizieren und die Wissensverteilung zu analysieren. Anschließend führt es eine progressive strukturierte Reduzierung der LoRA-Adapter durch und ermöglicht einen inhärenten Wissenstransfer, um die Informationen in den redundanten Strukturen besser zu bewahren. Um das während der Reduzierung verlorene Wissen wiederherzustellen, untersucht LoRAShear sorgfältig und schlägt dynamische Feinabstimmungsschemata mit dynamischen Datenadaptern vor, um die Leistungslücke zu den vollständigen Modellen effektiv zu verringern. Numerische Ergebnisse zeigen, dass LoRAShear durch die Nutzung nur einer GPU innerhalb weniger GPU-Tage den Speicherbedarf von LLMs um 20 % reduziert, bei nur 1,0 % Leistungsverlust, und dabei die aktuellen Spitzentechnologien deutlich übertrifft. Der Quellcode wird unter https://github.com/microsoft/lorashear verfügbar sein.
Wir präsentieren MM-VID, ein integriertes System, das die Fähigkeiten von GPT-4V in Kombination mit spezialisierten Tools für Vision, Audio und Sprache nutzt, um fortgeschrittenes Video-Verständnis zu ermöglichen. MM-VID wurde entwickelt, um die Herausforderungen von langen Videos und komplexen Aufgaben wie der Analyse von stundenlangen Inhalten und dem Verständnis von Handlungssträngen über mehrere Episoden hinweg zu bewältigen. MM-VID verwendet eine Video-zu-Skript-Generierung mit GPT-4V, um multimodale Elemente in ein langes textuelles Skript zu transkribieren. Das generierte Skript detailliert Charakterbewegungen, Handlungen, Ausdrücke und Dialoge und ebnet so den Weg für große Sprachmodelle (LLMs), um Video-Verständnis zu erreichen. Dies ermöglicht fortgeschrittene Fähigkeiten, einschließlich Audiobeschreibung, Charakteridentifikation und multimodales High-Level-Verständnis. Experimentelle Ergebnisse demonstrieren die Effektivität von MM-VID bei der Verarbeitung verschiedener Video-Genres mit unterschiedlichen Videolängen. Zudem zeigen wir sein Potenzial in interaktiven Umgebungen wie Videospielen und grafischen Benutzeroberflächen.
Die Videogenerierung hat zunehmend Interesse sowohl in der Wissenschaft als auch in der Industrie geweckt. Obwohl kommerzielle Tools plausible Videos erzeugen können, gibt es nur eine begrenzte Anzahl von Open-Source-Modellen, die Forschern und Ingenieuren zur Verfügung stehen. In dieser Arbeit stellen wir zwei Diffusionsmodelle für die hochwertige Videogenerierung vor, nämlich Text-zu-Video (T2V) und Bild-zu-Video (I2V) Modelle. T2V-Modelle synthetisieren ein Video basierend auf einem gegebenen Texteingabe, während I2V-Modelle ein zusätzliches Bildeingabe integrieren. Unser vorgeschlagenes T2V-Modell kann realistische und kinematografisch hochwertige Videos mit einer Auflösung von 1024 mal 576 erzeugen und übertrifft damit andere Open-Source-T2V-Modelle in Bezug auf die Qualität. Das I2V-Modell ist darauf ausgelegt, Videos zu produzieren, die streng den Inhalt des bereitgestellten Referenzbilds einhalten und dessen Inhalt, Struktur und Stil bewahren. Dieses Modell ist das erste Open-Source-I2V-Basismodell, das ein gegebenes Bild in einen Videoclip umwandeln kann, während es die Inhaltserhaltungsbedingungen einhält. Wir glauben, dass diese Open-Source-Videogenerierungsmodelle einen bedeutenden Beitrag zu den technologischen Fortschritten innerhalb der Gemeinschaft leisten werden.
Die steigende Nachfrage nach Large Language Models (LLMs) in Anwendungen wie Inhaltsgenerierung, intelligenten Chatbots und Sentiment-Analyse stellt erhebliche Herausforderungen für LLM-Dienstanbieter dar. Um GPU-Ressourcen effizient zu nutzen und den Durchsatz zu steigern, hat sich das Bündeln mehrerer Anfragen als ein beliebtes Paradigma etabliert; um das Bündeln weiter zu beschleunigen, reduzieren LLM-Quantisierungstechniken den Speicherverbrauch und erhöhen die Rechenkapazität. Allerdings können gängige Quantisierungsschemata (z. B. 8-Bit-Gewichts-Aktivierungs-Quantisierung) die Fähigkeiten moderner GPUs, wie 4-Bit-Ganzzahl-Operatoren, nicht vollständig ausschöpfen, was zu suboptimaler Leistung führt. Um den Durchsatz von LLMs bei der Bereitstellung zu maximieren, stellen wir Atom vor, eine Methode zur niedrigbitigen Quantisierung, die hohe Durchsatzsteigerungen mit vernachlässigbarem Genauigkeitsverlust erreicht. Atom steigert den Bereitstellungsdurchsatz erheblich durch die Verwendung von niedrigbitigen Operatoren und reduziert den Speicherverbrauch deutlich durch niedrigbitige Quantisierung. Es erreicht eine hohe Genauigkeit durch einen neuartigen gemischten Präzisions- und feinkörnigen Quantisierungsprozess. Wir evaluieren Atom in 4-Bit-Gewichts-Aktivierungs-Quantisierungs-Setups im Kontext der Bereitstellung. Atom verbessert den End-to-End-Durchsatz um bis zu 7,73-mal im Vergleich zu FP16 und um 2,53-mal im Vergleich zu INT8-Quantisierung, während das gleiche Latenzziel beibehalten wird.
Die Integration eines benutzerdefinierten Objekts in die Bildgenerierung stellt eine attraktive Funktion in der Text-zu-Bild-Generierung dar. Allerdings werden bestehende optimierungsbasierte und encoderbasierte Methoden durch Nachteile wie zeitaufwändige Optimierung, unzureichende Identitätserhaltung und einen weit verbreiteten Copy-Paste-Effekt behindert. Um diese Einschränkungen zu überwinden, führen wir CustomNet ein, einen neuartigen Ansatz zur Objektanpassung, der explizit 3D-Neuansichtssynthese-Fähigkeiten in den Anpassungsprozess integriert. Diese Integration erleichtert die Anpassung räumlicher Positionsbeziehungen und Blickwinkel, was zu vielfältigen Ergebnissen führt und gleichzeitig die Objektidentität effektiv bewahrt. Darüber hinaus führen wir fein abgestimmte Designs ein, die eine Positionskontrolle und flexible Hintergrundkontrolle durch textuelle Beschreibungen oder spezifische benutzerdefinierte Bilder ermöglichen, wodurch die Einschränkungen bestehender 3D-Neuansichtssynthese-Methoden überwunden werden. Wir nutzen weiterhin eine Datensatzerstellungspipeline, die besser mit realen Objekten und komplexen Hintergründen umgehen kann. Ausgestattet mit diesen Designs ermöglicht unsere Methode eine Zero-Shot-Objektanpassung ohne Optimierung zur Testzeit und bietet gleichzeitige Kontrolle über die Blickwinkel, Position und den Hintergrund. Dadurch gewährleistet unser CustomNet eine verbesserte Identitätserhaltung und erzeugt vielfältige, harmonische Ergebnisse.
Große Sprachmodelle (LLMs) zeigen beeindruckende Fähigkeiten im Bereich des logischen Denkens und der Datenanreicherung bei verschiedenen NLP-Aufgaben. Doch wie sieht es mit kleinen Modellen aus? In dieser Arbeit stellen wir TeacherLM-7.1B vor, das in der Lage ist, relevante Grundlagen, Gedankenketten und häufige Fehler für die meisten NLP-Beispiele zu annotieren. Dadurch wird die Annotation mehr als nur eine Antwort, sodass andere Modelle lernen können, „warum“ etwas so ist, und nicht nur „was“ der Fall ist. Das TeacherLM-7.1B-Modell erreichte einen Zero-Shot-Score von 52,3 auf MMLU und übertraf damit die meisten Modelle mit über 100 Milliarden Parametern. Noch bemerkenswerter ist seine Fähigkeit zur Datenanreicherung. Basierend auf TeacherLM-7.1B haben wir 58 NLP-Datensätze angereichert und verschiedene Schülermodelle mit unterschiedlichen Parametern aus der OPT- und BLOOM-Serie in einem Multi-Task-Setting trainiert. Die experimentellen Ergebnisse zeigen, dass die von TeacherLM bereitgestellte Datenanreicherung erhebliche Vorteile gebracht hat. Wir werden die TeacherLM-Modellserie und die angereicherten Datensätze als Open-Source veröffentlichen.
In diesem Papier evaluieren wir kritisch die Fähigkeiten des modernsten multimodalen Large Language Models, nämlich GPT-4 mit Vision (GPT-4V), in Bezug auf die Aufgabe des Visual Question Answering (VQA). Unsere Experimente untersuchen umfassend die Kompetenz von GPT-4V bei der Beantwortung von Fragen, die mit Bildern aus Pathologie- und Radiologie-Datensätzen von 11 Modalitäten (z.B. Mikroskopie, Dermatoskopie, Röntgen, CT, etc.) und fünfzehn Objekten von Interesse (Gehirn, Leber, Lunge, etc.) gepaart sind. Unsere Datensätze umfassen ein breites Spektrum medizinischer Fragestellungen, einschließlich sechzehn verschiedener Fragetypen. Während unserer Evaluierungen entwickelten wir textuelle Prompts für GPT-4V, um es anzuleiten, visuelle und textuelle Informationen zu kombinieren. Die Experimente mit Genauigkeitswerten kommen zu dem Schluss, dass die aktuelle Version von GPT-4V aufgrund ihrer unzuverlässigen und suboptimalen Genauigkeit bei der Beantwortung diagnostischer medizinischer Fragen nicht für die reale Diagnostik empfohlen wird. Darüber hinaus skizzieren wir sieben einzigartige Aspekte des Verhaltens von GPT-4V im medizinischen VQA und heben seine Grenzen in diesem komplexen Bereich hervor. Die vollständigen Details unserer Evaluierungsfälle sind unter https://github.com/ZhilingYan/GPT4V-Medical-Report zugänglich.
Mit dem Aufstieg leistungsstarker, proprietärer LLMs (ChatGPT, GPT-4) wächst das Interesse daran, die Fähigkeiten dieser geschlossenen LLMs auf kleinere, quelloffene LLMs zu übertragen. Bisherige Distillationsmethoden forderten ChatGPT in der Regel auf, eine Reihe von Anweisungen und Antworten zu generieren, die das Schülermodell dann lernen sollte. Ein solcher standardisierter Distillationsansatz vernachlässigt jedoch die Stärken und Voraussetzungen des Schülermodells. Inspiriert von modernen Lehrprinzipien haben wir einen personalisierten Distillationsprozess entwickelt, bei dem der Schüler zunächst versucht, eine Aufgabe zu lösen, und der Lehrer anschließend eine adaptive Verbesserung bereitstellt, um den Schüler zu fördern. Anstatt dem Schüler das Vorwissen des Lehrers zu vermitteln, ermöglicht die personalisierte Distillation ein individuelles Lernen für das Schülermodell, da es nur an Beispielen lernt, bei denen es Fehler macht, und lernt, seine eigene Lösung zu verbessern. Bei der Code-Generierung übertrifft die personalisierte Distillation die Standarddistillation durchweg mit nur einem Drittel der Daten. Mit nur 2,5-3K personalisierten Beispielen, die Datenerfassungskosten von 4-6$ verursachen, steigern wir CodeGen-mono-16B um 7% auf 36,4% pass@1 und StarCoder um 12,2% auf 45,8% pass@1 bei HumanEval.
In diesem technischen Bericht stellen wir Skywork-13B vor, eine Familie von großen Sprachmodellen (LLMs), die auf einem Korpus von über 3,2 Billionen Tokens trainiert wurden, die sowohl aus englischen als auch chinesischen Texten stammen. Dieses bilinguale Basismodell ist das bisher am umfangreichsten trainierte und öffentlich veröffentlichte LLM vergleichbarer Größe. Wir führen eine zweistufige Trainingsmethodik ein, die einen segmentierten Korpus nutzt und zunächst allgemeines Training und anschließend domänenspezifisches Vertiefungstraining vorsieht. Wir zeigen, dass unser Modell nicht nur bei gängigen Benchmarks hervorragend abschneidet, sondern auch Spitzenleistungen im chinesischen Sprachmodellieren über verschiedene Domänen hinweg erzielt. Darüber hinaus schlagen wir eine neuartige Methode zur Leckage-Erkennung vor und demonstrieren, dass die Kontamination von Testdaten ein dringendes Problem darstellt, das weitere Untersuchungen durch die LLM-Community erfordert. Um zukünftige Forschung zu fördern, veröffentlichen wir Skywork-13B zusammen mit Checkpoints, die während der Zwischenstufen des Trainingsprozesses erstellt wurden. Wir stellen auch einen Teil unseres SkyPile-Korpus zur Verfügung, einer Sammlung von über 150 Milliarden Tokens an Webtext, der bisher größte hochwertige offene chinesische Vor-Trainings-Korpus. Wir hoffen, dass Skywork-13B und unser offener Korpus als wertvolle Open-Source-Ressource dienen werden, um den Zugang zu hochwertigen LLMs zu demokratisieren.
Die Text-zu-3D-Generierung hat in letzter Zeit bemerkenswerte Fortschritte gemacht, insbesondere durch Methoden, die auf Score Distillation Sampling (SDS) basieren und vortrainierte 2D-Diffusionsmodelle nutzen. Während die Verwendung von Classifier-Free Guidance allgemein als entscheidend für eine erfolgreiche Optimierung anerkannt ist, wird sie eher als Hilfstrick denn als wesentlicher Bestandteil betrachtet. In diesem Papier bewerten wir die Rolle von Classifier-Free Guidance in der Score Distillation neu und entdecken eine überraschende Erkenntnis: Die Guidance allein reicht aus, um effektive Text-zu-3D-Generierungsaufgaben zu bewältigen. Wir nennen diese Methode Classifier Score Distillation (CSD), die als die Verwendung eines impliziten Klassifikationsmodells für die Generierung interpretiert werden kann. Diese neue Perspektive offenbart neue Einblicke für das Verständnis bestehender Techniken. Wir validieren die Wirksamkeit von CSD in einer Vielzahl von Text-zu-3D-Aufgaben, einschließlich Formgenerierung, Textursynthese und Formbearbeitung, und erzielen dabei Ergebnisse, die denen der modernsten Methoden überlegen sind. Unsere Projektseite ist https://xinyu-andy.github.io/Classifier-Score-Distillation.