Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die rasante Entwicklung von Open-Source-Großsprachmodellen (LLMs) ist wahrlich bemerkenswert. Allerdings zeigen die in der bisherigen Literatur beschriebenen Skalierungsgesetze unterschiedliche Schlussfolgerungen, was eine gewisse Unsicherheit in Bezug auf die Skalierung von LLMs mit sich bringt. Wir vertiefen uns in die Erforschung von Skalierungsgesetzen und präsentieren unsere einzigartigen Erkenntnisse, die die Skalierung von groß angelegten Modellen in zwei häufig verwendeten Open-Source-Konfigurationen, 7B und 67B, erleichtern. Angeleitet durch die Skalierungsgesetze stellen wir DeepSeek LLM vor, ein Projekt, das sich der Weiterentwicklung von Open-Source-Sprachmodellen mit einer langfristigen Perspektive widmet. Um die Pre-Training-Phase zu unterstützen, haben wir einen Datensatz entwickelt, der derzeit aus 2 Billionen Tokens besteht und kontinuierlich erweitert wird. Wir führen zudem Supervised Fine-Tuning (SFT) und Direct Preference Optimization (DPO) an den DeepSeek LLM Basismodellen durch, was zur Erstellung der DeepSeek Chat-Modelle führt. Unsere Evaluierungsergebnisse zeigen, dass DeepSeek LLM 67B LLaMA-2 70B in verschiedenen Benchmarks übertrifft, insbesondere in den Bereichen Code, Mathematik und logisches Denken. Darüber hinaus zeigen offene Evaluierungen, dass DeepSeek LLM 67B Chat eine überlegene Leistung im Vergleich zu GPT-3.5 aufweist.
Fortschritte im Bereich des Verständnisses visuell komplexer Dokumente (Visually Rich Document Understanding, VrDU) haben die Extraktion von Informationen und das Beantworten von Fragen über Dokumente mit komplexen Layouts ermöglicht. Dabei haben sich zwei Architekturansätze herausgebildet – transformerbasierte Modelle, die von großen Sprachmodellen (LLMs) inspiriert sind, und Graph Neural Networks. In diesem Artikel stellen wir DocGraphLM vor, ein neuartiges Framework, das vortrainierte Sprachmodelle mit Graphensemantik kombiniert. Um dies zu erreichen, schlagen wir 1) eine gemeinsame Encoder-Architektur zur Repräsentation von Dokumenten und 2) einen neuartigen Ansatz zur Link-Vorhersage zur Rekonstruktion von Dokumentgraphen vor. DocGraphLM sagt sowohl Richtungen als auch Abstände zwischen Knoten mithilfe einer konvergenten gemeinsamen Verlustfunktion voraus, die die Wiederherstellung der Nachbarschaft priorisiert und die Erkennung entfernter Knoten gewichtet. Unsere Experimente auf drei State-of-the-Art-Datensätzen zeigen durchgängige Verbesserungen bei Aufgaben zur Informationsextraktion (IE) und Fragebeantwortung (QA) durch die Einbindung von Graph-Features. Darüber hinaus berichten wir, dass die Verwendung der Graph-Features die Konvergenz im Lernprozess während des Trainings beschleunigt, obwohl sie ausschließlich durch Link-Vorhersage konstruiert werden.
Wir befassen uns mit einer subtilen, aber bedeutenden Herausforderung, die Vision Transformern (ViTs) innewohnt: Die Merkmalskarten dieser Modelle weisen gitterartige Artefakte auf, die die Leistung von ViTs in nachgelagerten Aufgaben erheblich beeinträchtigen. Unsere Untersuchungen führen dieses grundlegende Problem auf die Positions-Einbettungen im Eingangsstadium zurück. Um dies zu beheben, schlagen wir ein neuartiges Rauschmodell vor, das universell auf alle ViTs anwendbar ist. Konkret zerlegt das Rauschmodell die Ausgaben von ViTs in drei Komponenten: einen semantischen Term, der frei von Rauschartefakten ist, und zwei artefaktbezogene Terme, die von Pixelpositionen abhängen. Eine solche Zerlegung wird durch die Durchsetzung von konsistenten Merkmalen über verschiedene Ansichten mittels neuronaler Felder auf Basis einzelner Bilder erreicht. Dieser pro-Bild-Optimierungsprozess extrahiert artefaktfreie Merkmale aus den rohen ViT-Ausgaben und liefert saubere Merkmale für Offline-Anwendungen. Um unsere Lösung auch für Online-Funktionalität zu erweitern, führen wir einen lernbaren Entrauscher ein, der artefaktfreie Merkmale direkt aus unverarbeiteten ViT-Ausgaben vorhersagt. Dieser zeigt bemerkenswerte Generalisierungsfähigkeiten für neue Daten, ohne dass eine pro-Bild-Optimierung erforderlich ist. Unser zweistufiger Ansatz, den wir als Denoising Vision Transformers (DVT) bezeichnen, erfordert kein erneutes Training bereits vortrainierter ViTs und ist sofort auf jede Transformer-basierte Architektur anwendbar. Wir evaluieren unsere Methode anhand einer Vielzahl repräsentativer ViTs (DINO, MAE, DeiT-III, EVA02, CLIP, DINOv2, DINOv2-reg). Umfangreiche Auswertungen zeigen, dass unser DVT bestehende state-of-the-art Allzweckmodelle in semantischen und geometrischen Aufgaben über mehrere Datensätze hinweg konsistent und signifikant verbessert (z.B. +3,84 mIoU). Wir hoffen, dass unsere Studie eine Neubewertung des ViT-Designs anregen wird, insbesondere in Bezug auf die naive Verwendung von Positions-Einbettungen.
Stable Diffusion XL (SDXL) hat sich aufgrund seiner Vielseitigkeit und erstklassigen Bildqualität als das beste Open-Source-Text-zu-Bild-Modell (T2I) etabliert. Die effiziente Bewältigung der rechenintensiven Anforderungen von SDXL-Modellen ist entscheidend für eine breitere Reichweite und Anwendbarkeit. In dieser Arbeit stellen wir zwei skalierte Varianten vor, Segmind Stable Diffusion (SSD-1B) und Segmind-Vega, mit 1,3 Milliarden bzw. 0,74 Milliarden Parametern in den UNets, die durch schrittweise Entfernung mithilfe von Layer-Level-Verlusten erreicht wurden, um die Modellgröße zu reduzieren und gleichzeitig die generative Qualität zu bewahren. Wir veröffentlichen die Gewichte dieser Modelle unter https://hf.co/Segmind. Unsere Methodik umfasst die Entfernung von Residualnetzwerken und Transformer-Blöcken aus der U-Net-Struktur von SDXL, was zu einer signifikanten Reduzierung der Parameter und der Latenz führt. Unsere kompakten Modelle imitieren das ursprüngliche SDXL effektiv, indem sie auf übertragenes Wissen zurückgreifen, und erzielen wettbewerbsfähige Ergebnisse im Vergleich zu größeren SDXL-Modellen mit mehreren Milliarden Parametern. Unsere Arbeit unterstreicht die Wirksamkeit von Wissensdestillation in Kombination mit Layer-Level-Verlusten bei der Reduzierung der Modellgröße, während die hochwertigen generativen Fähigkeiten von SDXL erhalten bleiben, wodurch eine zugänglichere Bereitstellung in ressourcenbeschränkten Umgebungen ermöglicht wird.
CLIP und das Segment Anything Model (SAM) sind bemerkenswerte Vision Foundation Models (VFMs). SAM zeichnet sich durch seine Fähigkeiten in Segmentierungsaufgaben über verschiedene Domänen hinweg aus, während CLIP für seine Zero-Shot-Erkennungsfähigkeiten bekannt ist. Dieses Papier bietet eine detaillierte Untersuchung der Integration dieser beiden Modelle in ein einheitliches Framework. Insbesondere stellen wir das Open-Vocabulary SAM vor, ein von SAM inspiriertes Modell, das für gleichzeitige interaktive Segmentierung und Erkennung entwickelt wurde und zwei einzigartige Wissenstransfermodule nutzt: SAM2CLIP und CLIP2SAM. Ersteres passt das Wissen von SAM an CLIP durch Destillation und lernbare Transformer-Adapter an, während Letzteres das Wissen von CLIP in SAM überträgt und dessen Erkennungsfähigkeiten verbessert. Umfangreiche Experimente auf verschiedenen Datensätzen und mit verschiedenen Detektoren zeigen die Wirksamkeit von Open-Vocabulary SAM sowohl in Segmentierungs- als auch in Erkennungsaufgaben, wobei es die naiven Baselines der einfachen Kombination von SAM und CLIP deutlich übertrifft. Darüber hinaus kann unsere Methode, unterstützt durch das Training mit Bildklassifizierungsdaten, etwa 22.000 Klassen segmentieren und erkennen.
In den letzten Jahren hat die Sprachgenerierung bemerkenswerte Fortschritte erzielt und erreicht nun eine One-Shot-Generierungsfähigkeit, die oft kaum von echter menschlicher Stimme zu unterscheiden ist. Die Integration solcher Fortschritte in der Sprachgenerierung mit großen Sprachmodellen könnte eine Vielzahl von Anwendungen revolutionieren. Bestimmte Anwendungen, wie assistive Konversationssysteme, erfordern jedoch natürliche und konversationelle Sprachgenerierungswerkzeuge, die auch in Echtzeit effizient arbeiten. Aktuelle State-of-the-Art-Modelle wie VALL-E und SoundStorm, die durch hierarchische neuronale Audiocodecs angetrieben werden, benötigen große neuronale Komponenten und umfangreiche Trainingsdaten, um gut zu funktionieren. Im Gegensatz dazu zielt MQTTS darauf ab, kompaktere konversationelle TTS-Modelle zu entwickeln, während es kleinere reale Konversationssprachdaten nutzt. Allerdings führt seine autoregressive Natur zu hoher Inferenzlatenz und schränkt somit seine Echtzeitnutzung ein. Um die aktuellen Einschränkungen der State-of-the-Art-TTS-Modelle zu mildern und gleichzeitig ihre Stärken zu nutzen, führen wir in dieser Arbeit die Pheme-Modellserie ein, die 1) kompakte, aber leistungsstarke Modelle bietet, 2) parallele Sprachgenerierung ermöglicht, 3) natürliche Konversationssprache erzeugt und 4) effizient mit kleineren Konversationsdatensätzen trainiert werden kann, wodurch der Datenbedarf um mehr als das 10-fache reduziert wird, aber dennoch die Qualität der autoregressiven TTS-Modelle erreicht. Wir zeigen auch, dass wir durch einfache Teacher-Student-Distillation signifikante Verbesserungen in der Sprachqualität für Einzelsprecher-Setups auf Basis vortrainierter Pheme-Checkpoints erzielen können, wobei wir uns ausschließlich auf synthetische Sprache stützen, die von viel größeren Teacher-Modellen generiert wurde. Audio-Beispiele und vortrainierte Modelle sind online verfügbar.