Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) haben die Verarbeitung natürlicher Sprache (NLP) revolutioniert, indem sie den Stand der Technik bei vielen bestehenden Aufgaben verbessert und emergente Fähigkeiten gezeigt haben. Allerdings wurden LLMs noch nicht erfolgreich auf die Extraktion von Informationen aus halbstrukturierten Dokumenten angewendet, die im Kern vieler Dokumentverarbeitungsprozesse steht und darin besteht, Schlüsselentitäten aus visuell reichhaltigen Dokumenten (VRDs) gemäß einem vordefinierten Zielschema zu extrahieren. Die Haupthemmnisse für die Anwendung von LLMs bei dieser Aufgabe waren das Fehlen einer Layoutkodierung innerhalb der LLMs, die für eine hochwertige Extraktion entscheidend ist, sowie das Fehlen eines Verankerungsmechanismus, der sicherstellt, dass die Antwort nicht halluziniert wird. In diesem Artikel stellen wir Language Model-based Document Information Extraction and Localization (LMDX) vor, eine Methode zur Anpassung beliebiger LLMs für die Extraktion von Dokumentinformationen. LMDX kann die Extraktion von einzelnen, wiederholten und hierarchischen Entitäten durchführen, sowohl mit als auch ohne Trainingsdaten, und bietet dabei Verankerungsgarantien und lokalisiert die Entitäten innerhalb des Dokuments. Insbesondere wenden wir LMDX auf das PaLM 2-S LLM an und evaluieren es anhand der VRDU- und CORD-Benchmarks, wodurch ein neuer Stand der Technik gesetzt wird und gezeigt wird, wie LMDX die Erstellung von hochwertigen, dateneffizienten Parsern ermöglicht.
In diesem Artikel erschließen wir das ungenutzte Potenzial des Diffusion U-Nets, das als „kostenlose Verbesserung“ dient und die Generierungsqualität erheblich steigert. Wir untersuchen zunächst die wesentlichen Beiträge der U-Net-Architektur zum Entrauschungsprozess und stellen fest, dass ihr Hauptgerüst primär zur Entrauschung beiträgt, während ihre Skip-Verbindungen hauptsächlich hochfrequente Merkmale in das Decoder-Modul einbringen, was dazu führt, dass das Netzwerk die Semantik des Gerüsts vernachlässigt. Basierend auf dieser Erkenntnis schlagen wir eine einfache, aber effektive Methode vor – genannt „FreeU“ –, die die Generierungsqualität ohne zusätzliches Training oder Feinabstimmung verbessert. Unser zentraler Ansatz besteht darin, die Beiträge der Skip-Verbindungen und der Feature-Maps des U-Net-Gerüsts strategisch neu zu gewichten, um die Stärken beider Komponenten der U-Net-Architektur zu nutzen. Vielversprechende Ergebnisse bei Bild- und Videogenerierungsaufgaben zeigen, dass unser FreeU problemlos in bestehende Diffusionsmodelle wie Stable Diffusion, DreamBooth, ModelScope, Rerender und ReVersion integriert werden kann, um die Generierungsqualität mit nur wenigen Codezeilen zu verbessern. Alles, was benötigt wird, ist die Anpassung zweier Skalierungsfaktoren während der Inferenz. Projektseite: https://chenyangsi.top/FreeU/.
Dieses Paper stellt DreamLLM vor, ein Lernframework, das erstmals vielseitige Multimodale Große Sprachmodelle (MLLMs) ermöglicht, die durch die häufig übersehene Synergie zwischen multimodalem Verständnis und Erstellung gestärkt werden. DreamLLM basiert auf zwei grundlegenden Prinzipien. Das erste konzentriert sich auf die generative Modellierung sowohl der Sprach- als auch der Bildposteriors durch direktes Sampling im rohen multimodalen Raum. Dieser Ansatz umgeht die Einschränkungen und den Informationsverlust, die mit externen Feature-Extraktoren wie CLIP einhergehen, und ermöglicht ein umfassenderes multimodales Verständnis. Zweitens fördert DreamLLM die Erstellung von rohen, verschachtelten Dokumenten, die sowohl Text- als auch Bildinhalte sowie unstrukturierte Layouts modellieren. Dadurch kann DreamLLM alle bedingten, marginalen und gemeinsamen multimodalen Verteilungen effektiv lernen. Als Ergebnis ist DreamLLM das erste MLLM, das in der Lage ist, frei formulierten, verschachtelten Inhalt zu generieren. Umfassende Experimente unterstreichen die überlegene Leistung von DreamLLM als Zero-Shot-Multimodal-Generalist, der von der verbesserten Lernsynergie profitiert.
Wir präsentieren Kosmos-2.5, ein multimodales literarisches Modell für das maschinelle Lesen von textintensiven Bildern. Das Modell, das auf groß angelegten textintensiven Bildern vortrainiert wurde, zeichnet sich durch zwei unterschiedliche, aber kooperative Transkriptionsaufgaben aus: (1) die Erzeugung von räumlich bewussten Textblöcken, bei denen jeder Textblock seine räumlichen Koordinaten innerhalb des Bildes zugewiesen bekommt, und (2) die Erzeugung von strukturiertem Text, der Stile und Strukturen im Markdown-Format erfasst. Diese einheitliche multimodale literarische Fähigkeit wird durch eine gemeinsame Transformer-Architektur, aufgabenspezifische Prompts und flexible Textdarstellungen erreicht. Wir evaluieren Kosmos-2.5 in Bezug auf die end-to-end Texterkennung auf Dokumentenebene und die Bild-zu-Markdown-Textgenerierung. Darüber hinaus kann das Modell durch überwachtes Fein-Tuning mit verschiedenen Prompts leicht für jede textintensive Bildverständnisaufgabe angepasst werden, was es zu einem universellen Werkzeug für reale Anwendungen mit textreichen Bildern macht. Diese Arbeit ebnet auch den Weg für die zukünftige Skalierung multimodaler großer Sprachmodelle.
Die Erzeugung von plausiblen, aber falschen Fakteninformationen, bezeichnet als Halluzination, ist ein ungelöstes Problem bei großen Sprachmodellen. Wir untersuchen die Fähigkeit von Sprachmodellen, über ihre gegebenen Antworten nachzudenken, um ihre Fehler zu korrigieren. Wir entwickeln die Chain-of-Verification (CoVe)-Methode, bei der das Modell zunächst (i) eine erste Antwort entwirft; dann (ii) Verifizierungsfragen plant, um seinen Entwurf zu überprüfen; (iii) diese Fragen unabhängig beantwortet, sodass die Antworten nicht durch andere Antworten beeinflusst werden; und (iv) seine endgültige verifizierte Antwort generiert. In Experimenten zeigen wir, dass CoVe Halluzinationen bei einer Vielzahl von Aufgaben reduziert, von listenbasierten Fragen aus Wikidata, geschlossenen MultiSpanQA-Aufgaben bis hin zur Erzeugung langer Texte.
Die KI-Gemeinschaft hat bedeutende Fortschritte bei der Entwicklung leistungsstarker Foundation-Modelle gemacht, die durch groß angelegte multimodale Datensätze vorangetrieben werden. Im Bereich des Audio-Repräsentationslernens leiden die derzeitigen Audio-Sprach-Datensätze jedoch unter Einschränkungen wie unzureichendem Umfang, simplistischem Inhalt und aufwendigen Erfassungsverfahren. Um diese Herausforderungen zu bewältigen, präsentieren wir eine innovative und automatische Pipeline zur Generierung von Audio-Beschreibungen, die auf einer Reihe öffentlicher Tools oder APIs basiert, und erstellen einen groß angelegten, hochwertigen Audio-Sprach-Datensatz namens Auto-ACD, der über 1,9 Millionen Audio-Text-Paare umfasst. Um die Wirksamkeit des vorgeschlagenen Datensatzes zu demonstrieren, trainieren wir beliebte Modelle auf unserem Datensatz und zeigen Leistungsverbesserungen bei verschiedenen Downstream-Aufgaben, nämlich Audio-Sprach-Retrieval, Audio-Beschreibung und Umgebungsklassifizierung. Darüber hinaus erstellen wir einen neuartigen Testdatensatz und bieten einen Benchmark für Audio-Text-Aufgaben. Der vorgeschlagene Datensatz wird unter https://auto-acd.github.io/ veröffentlicht.
In den letzten Jahren haben Large Language Models (LLMs) aufgrund ihrer außergewöhnlichen Leistungsfähigkeit und Generalisierungsfähigkeiten erhebliche Aufmerksamkeit in der Forschungsgemeinschaft erregt. In diesem Artikel stellen wir eine neuartige Methode zur Kontextualisierung von Spracherkennungsmodellen vor, die LLMs einbezieht. Unser Ansatz formuliert Spracherkennung als eine gemischt-modale Sprachmodellierungsaufgabe basierend auf einem vortrainierten LLM. Wir stellen Audio-Features zusammen mit optionalen Text-Tokens für den Kontext bereit, um das System zu trainieren, Transkriptionen in einem reinen Decoder-Modus zu vervollständigen. Dadurch wird das System implizit dazu angeregt, zu lernen, wie es unstrukturierte Kontextinformationen während des Trainings nutzen kann. Unsere empirischen Ergebnisse zeigen eine signifikante Verbesserung der Leistung, mit einer Reduzierung der Wortfehlerrate (WER) um 6 %, wenn zusätzlicher Textkontext bereitgestellt wird. Darüber hinaus stellen wir fest, dass unsere Methode wettbewerbsfähig abschneidet und die WER insgesamt um 7,5 % sowie die WER bei seltenen Wörtern um 17 % gegenüber einem baseline-kontextualisierten RNN-T-System verbessert, das auf einem mehr als 25-mal größeren Sprachdatensatz trainiert wurde. Insgesamt zeigen wir, dass wir durch das Hinzufügen einer geringen Anzahl trainierbarer Parameter über Adapter die kontextualisierte Spracherkennungsfähigkeit für das vortrainierte LLM freischalten können, während die gleiche Text-only-Eingabefunktionalität beibehalten wird.
Die Languini Kitchen fungiert sowohl als Forschungsgemeinschaft als auch als Codebasis, die darauf abzielt, Forscher mit begrenzten Rechenressourcen zu befähigen, einen bedeutungsvollen Beitrag im Bereich der Sprachmodellierung zu leisten. Wir stellen ein experimentelles Protokoll vor, das Modellvergleiche auf Basis äquivalenter Rechenleistung, gemessen in Beschleunigerstunden, ermöglicht. Die Anzahl der Token, auf denen ein Modell trainiert wird, wird durch den Durchsatz des Modells und die gewählte Rechenklasse definiert. Bemerkenswerterweise vermeidet dieser Ansatz Einschränkungen bei kritischen Hyperparametern, die die Gesamtanzahl der Parameter oder die Anzahl der Gleitkommaoperationen beeinflussen. Für die Evaluation verarbeiten wir einen bestehenden großen, vielfältigen und qualitativ hochwertigen Datensatz von Büchern vor, der bestehende akademische Benchmarks in Bezug auf Qualität, Vielfalt und Dokumentlänge übertrifft. Darauf vergleichen wir Methoden basierend auf ihren empirischen Skalierungstrends, die durch Experimente auf verschiedenen Rechenleistungsniveaus geschätzt werden. Diese Arbeit bietet auch zwei Basismodelle: ein Feed-Forward-Modell, das auf der GPT-2-Architektur basiert, und ein rekurrentes Modell in Form eines neuartigen LSTM mit zehnfachem Durchsatz. Während das GPT-Basismodell in allen unseren Rechenleistungsniveaus eine bessere Perplexität erreicht, zeigt unser LSTM-Basismodell ein vorhersehbares und günstigeres Skalierungsgesetz. Dies ist auf den verbesserten Durchsatz und den geringeren Bedarf an Trainings-Token zurückzuführen, um die gleiche Verringerung der Test-Perplexität zu erreichen. Die Extrapolation der Skalierungsgesetze beider Modelle führt zu einer Überschneidung bei etwa 50.000 Beschleunigerstunden. Wir hoffen, dass diese Arbeit als Grundlage für bedeutungsvolle und reproduzierbare Forschung im Bereich der Sprachmodellierung dienen kann.
Jüngste Fortschritte bei Neural Radiance Fields (NeRFs) haben es ermöglicht, dynamische Porträtszenen zu rekonstruieren und neu zu animieren, mit Kontrolle über Kopfhaltung, Gesichtsausdrücke und Blickrichtung. Das Training solcher Modelle setzt jedoch eine photometrische Konsistenz über den deformierten Bereich voraus, d.h. das Gesicht muss gleichmäßig beleuchtet sein, während es sich mit verändernder Kopfhaltung und Gesichtsausdruck verformt. Eine solche photometrische Konsistenz über die Frames eines Videos hinweg ist schwer aufrechtzuerhalten, selbst in Studio-Umgebungen, was die erstellten neu animierbaren neuronalen Porträts anfällig für Artefakte während der Neuanimation macht. In dieser Arbeit schlagen wir CoDyNeRF vor, ein System, das die Erstellung vollständig kontrollierbarer 3D-Porträts unter realen Aufnahmebedingungen ermöglicht. CoDyNeRF lernt, beleuchtungsabhängige Effekte über ein dynamisches Erscheinungsmodell im kanonischen Raum zu approximieren, das auf vorhergesagten Oberflächennormalen sowie den Gesichtsausdrücken und Kopfhaltungsdeformationen basiert. Die Vorhersage der Oberflächennormalen wird durch 3DMM-Normalen geleitet, die als grobe Vorlage für die Normalen des menschlichen Kopfes dienen, da die direkte Vorhersage von Normalen aufgrund von starren und nicht-starren Verformungen, die durch Änderungen der Kopfhaltung und des Gesichtsausdrucks verursacht werden, schwierig ist. Mit nur einem mit einem Smartphone aufgenommenen kurzen Video eines Subjekts für das Training demonstrieren wir die Effektivität unserer Methode bei der freien Ansichtssynthese einer Porträtszene mit expliziter Kontrolle über Kopfhaltung und Gesichtsausdrücke sowie realistischen Beleuchtungseffekten. Die Projektseite finden Sie hier: http://shahrukhathar.github.io/2023/08/22/CoDyNeRF.html