HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

17 papers found

Stufen der AGI: Operationalisierung des Fortschritts auf dem Weg zur AGI
Levels of AGI: Operationalizing Progress on the Path to AGI

Nov 4

ByMeredith Ringel Morris, Jascha Sohl-dickstein, Noah Fiedel, Tris Warkentin, Allan Dafoe, Aleksandra Faust, Clement Farabet, Shane Legg

Wir schlagen ein Rahmenwerk zur Klassifizierung der Fähigkeiten und des Verhaltens von Modellen der Künstlichen Allgemeinen Intelligenz (AGI) und ihrer Vorläufer vor. Dieses Rahmenwerk führt Ebenen der AGI-Leistung, Allgemeinheit und Autonomie ein. Wir hoffen, dass dieses Rahmenwerk in ähnlicher Weise wie die Stufen des autonomen Fahrens nützlich sein wird, indem es eine gemeinsame Sprache bietet, um Modelle zu vergleichen, Risiken zu bewerten und den Fortschritt auf dem Weg zur AGI zu messen. Um unser Rahmenwerk zu entwickeln, analysieren wir bestehende Definitionen von AGI und destillieren sechs Prinzipien, die eine nützliche Ontologie für AGI erfüllen sollte. Diese Prinzipien umfassen die Konzentration auf Fähigkeiten statt auf Mechanismen; die separate Bewertung von Allgemeinheit und Leistung; sowie die Definition von Stufen auf dem Weg zur AGI, anstatt sich auf den Endpunkt zu konzentrieren. Mit diesen Prinzipien im Hinterkopf schlagen wir „Stufen der AGI“ basierend auf der Tiefe (Leistung) und Breite (Allgemeinheit) der Fähigkeiten vor und reflektieren, wie aktuelle Systeme in diese Ontologie passen. Wir diskutieren die anspruchsvollen Anforderungen für zukünftige Benchmarks, die das Verhalten und die Fähigkeiten von AGI-Modellen in Bezug auf diese Stufen quantifizieren. Schließlich erörtern wir, wie diese AGI-Stufen mit Überlegungen zur Bereitstellung wie Autonomie und Risiko interagieren, und betonen die Bedeutung einer sorgfältigen Auswahl von Mensch-KI-Interaktionsparadigmen für die verantwortungsvolle und sichere Bereitstellung hochleistungsfähiger KI-Systeme.

GLaMM: Pixel-basiertes großes multimodales Modell
GLaMM: Pixel Grounding Large Multimodal Model

Nov 6

ByHanoona Rasheed, Muhammad Maaz, Sahal Shaji, Abdelrahman Shaker, Salman Khan, Hisham Cholakkal, Rao M. Anwer, Erix Xing, Ming-Hsuan Yang, Fahad S. Khan

Große Multimodale Modelle (LMMs) erweitern Große Sprachmodelle auf den visuellen Bereich. Erste Ansätze für LMMs nutzten ganzheitliche Bilder und Textprompts, um unverankerte textuelle Antworten zu generieren. Sehr kürzlich wurden regionenbasierte LMMs verwendet, um visuell verankerte Antworten zu erzeugen. Allerdings sind sie darauf beschränkt, jeweils nur auf eine einzelne Objektkategorie zu verweisen, erfordern, dass Benutzer die Regionen in den Eingaben spezifizieren, oder können keine dichte pixelweise Objektverankerung bieten. In dieser Arbeit präsentieren wir Grounding LMM (GLaMM), das erste Modell, das natürliche Sprachantworten nahtlos mit entsprechenden Objektsegmentierungsmasken verknüpfen kann. GLaMM verankert nicht nur Objekte, die in den Konversationen auftauchen, sondern ist flexibel genug, um sowohl textuelle als auch optionale visuelle Prompts (Region of Interest) als Eingabe zu akzeptieren. Dies befähigt Benutzer, mit dem Modell auf verschiedenen Granularitätsebenen sowohl im textuellen als auch im visuellen Bereich zu interagieren. Aufgrund des Mangels an Standard-Benchmarks für die neuartige Aufgabe der Generierung visuell verankerter detaillierter Konversationen führen wir ein umfassendes Evaluationsprotokoll mit unseren kuratierten verankerten Konversationen ein. Unsere vorgeschlagene Aufgabe der Grounded Conversation Generation (GCG) erfordert dicht verankerte Konzepte in natürlichen Szenen in großem Maßstab. Zu diesem Zweck schlagen wir einen dicht annotierten Grounding-anything-Datensatz (GranD) vor, der mit unserem vorgeschlagenen automatisierten Annotationspipeline erstellt wurde und 7,5M einzigartige Konzepte umfasst, die in insgesamt 810M Regionen mit Segmentierungsmasken verankert sind. Neben GCG performt GLaMM auch effektiv in mehreren Downstream-Aufgaben, z.B. Referenzausdruckssegmentierung, Bild- und Regionen-beschriftung sowie Vision-Sprache-Konversationen. Projektseite: https://mbzuai-oryx.github.io/groundingLMM.

I2VGen-XL: Hochwertige Bild-zu-Video-Synthese mittels kaskadierter Diffusionsmodelle
I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models

Nov 7

ByShiwei Zhang, Jiayu Wang, Yingya Zhang, Kang Zhao, Hangjie Yuan, Zhiwu Qin, Xiang Wang, Deli Zhao, Jingren Zhou

Die Videosynthese hat in letzter Zeit bemerkenswerte Fortschritte gemacht, die von der rasanten Entwicklung von Diffusionsmodellen profitieren. Dennoch steht sie weiterhin vor Herausforderungen in Bezug auf semantische Genauigkeit, Klarheit und räumlich-zeitliche Kontinuität. Diese ergeben sich hauptsächlich aus der Knappheit gut ausgerichteter Text-Video-Daten und der komplexen inhärenten Struktur von Videos, was es dem Modell erschwert, gleichzeitig semantische und qualitative Exzellenz zu gewährleisten. In diesem Bericht schlagen wir einen kaskadierten I2VGen-XL-Ansatz vor, der die Modellleistung verbessert, indem diese beiden Faktoren entkoppelt werden, und die Ausrichtung der Eingabedaten durch die Nutzung statischer Bilder als eine Form entscheidender Anleitung sicherstellt. I2VGen-XL besteht aus zwei Stufen: i) die Basisstufe gewährleistet kohärente Semantik und bewahrt den Inhalt der Eingabebilder durch die Verwendung von zwei hierarchischen Encodern, und ii) die Verfeinerungsstufe verbessert die Details des Videos durch die Einbindung eines zusätzlichen kurzen Textes und erhöht die Auflösung auf 1280x720. Um die Vielfalt zu verbessern, sammeln wir etwa 35 Millionen Einzelaufnahme-Text-Video-Paare und 6 Milliarden Text-Bild-Paare, um das Modell zu optimieren. Auf diese Weise kann I2VGen-XL gleichzeitig die semantische Genauigkeit, die Kontinuität der Details und die Klarheit der generierten Videos verbessern. Durch umfangreiche Experimente haben wir die zugrunde liegenden Prinzipien von I2VGen-XL untersucht und es mit aktuellen Top-Methoden verglichen, was seine Wirksamkeit auf diversen Daten demonstrieren kann. Der Quellcode und die Modelle werden öffentlich unter https://i2vgen-xl.github.io verfügbar sein.

S-LoRA: Bereitstellung Tausender gleichzeitiger LoRA-Adapter
S-LoRA: Serving Thousands of Concurrent LoRA Adapters

Nov 6

ByYing Sheng, Shiyi Cao, Dacheng Li, Coleman Hooper, Nicholas Lee, Shuo Yang, Christopher Chou, Banghua Zhu, Lianmin Zheng, Kurt Keutzer, Joseph E. Gonzalez, Ion Stoica

Das "Pretrain-then-Finetune"-Paradigma wird häufig bei der Bereitstellung großer Sprachmodelle eingesetzt. Low-Rank Adaptation (LoRA), eine parameter-effiziente Feinabstimmungsmethode, wird oft verwendet, um ein Basismodell an eine Vielzahl von Aufgaben anzupassen, was zu einer umfangreichen Sammlung von LoRA-Adaptern führt, die von einem Basismodell abgeleitet sind. Wir beobachten, dass dieses Paradigma erhebliche Möglichkeiten für gebündelte Inferenz während der Bereitstellung bietet. Um diese Möglichkeiten zu nutzen, stellen wir S-LoRA vor, ein System, das für die skalierbare Bereitstellung vieler LoRA-Adapter entwickelt wurde. S-LoRA speichert alle Adapter im Hauptspeicher und lädt die Adapter, die von den aktuell laufenden Anfragen verwendet werden, in den GPU-Speicher. Um den GPU-Speicher effizient zu nutzen und Fragmentierung zu reduzieren, schlägt S-LoRA Unified Paging vor. Unified Paging verwendet einen einheitlichen Speicherpool, um dynamische Adaptergewichte mit unterschiedlichen Rängen und KV-Cache-Tensoren mit variierenden Sequenzlängen zu verwalten. Darüber hinaus setzt S-LoRA eine neuartige Tensor-Parallelitätsstrategie und hochoptimierte benutzerdefinierte CUDA-Kernel für die heterogene Bündelung von LoRA-Berechnungen ein. Zusammengenommen ermöglichen diese Funktionen S-LoRA, Tausende von LoRA-Adaptern auf einer einzelnen GPU oder über mehrere GPUs hinweg mit geringem Overhead bereitzustellen. Im Vergleich zu modernsten Bibliotheken wie HuggingFace PEFT und vLLM (mit einfacher Unterstützung für LoRA-Bereitstellung) kann S-LoRA den Durchsatz um bis zu das Vierfache steigern und die Anzahl der bereitgestellten Adapter um mehrere Größenordnungen erhöhen. Dadurch ermöglicht S-LoRA die skalierbare Bereitstellung vieler aufgaben-spezifisch feinabgestimmter Modelle und bietet das Potenzial für groß angelegte, maßgeschneiderte Feinabstimmungsdienste.

CogVLM: Visueller Experte für vortrainierte Sprachmodelle
CogVLM: Visual Expert for Pretrained Language Models

Nov 6

ByWeihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding, Jie Tang

Wir stellen CogVLM vor, ein leistungsstarkes Open-Source-Visual-Language-Foundation-Modell. Im Gegensatz zur weit verbreiteten Methode der flachen Ausrichtung, bei der Bildmerkmale in den Eingaberaum des Sprachmodells abgebildet werden, überbrückt CogVLM die Lücke zwischen dem eingefrorenen vortrainierten Sprachmodell und dem Bildencoder durch ein trainierbares visuelles Expertenmodul in den Attention- und FFN-Schichten. Dadurch ermöglicht CogVLM eine tiefe Fusion von visuellen und sprachlichen Merkmalen, ohne dabei die Leistung bei NLP-Aufgaben zu beeinträchtigen. CogVLM-17B erzielt state-of-the-art Ergebnisse auf 10 klassischen Cross-Modal-Benchmarks, darunter NoCaps, Flicker30k Captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA und TDIUC, und belegt den 2. Platz bei VQAv2, OKVQA, TextVQA, COCO Captioning usw., wobei es PaLI-X 55B übertrifft oder gleichauf liegt. Codes und Checkpoints sind unter https://github.com/THUDM/CogVLM verfügbar.

Relax: Komponierbare Abstraktionen für End-to-End dynamisches maschinelles Lernen
Relax: Composable Abstractions for End-to-End Dynamic Machine Learning

Nov 1

ByRuihang Lai, Junru Shao, Siyuan Feng, Steven S. Lyubomirsky, Bohan Hou, Wuwei Lin, Zihao Ye, Hongyi Jin, Yuchen Jin, Jiawei Liu, Lesheng Jin, Yaxing Cai, Ziheng Jiang, Yong Wu, Sunghyun Park, Prakalp Srivastava, Jared G. Roesch, Todd C. Mowry, Tianqi Chen

Dynamische Formberechnungen sind in modernen Machine-Learning-Workloads, insbesondere bei aufkommenden großen Sprachmodellen, von entscheidender Bedeutung. Der Erfolg dieser Modelle hat die Nachfrage nach ihrer Bereitstellung in einer Vielzahl von Backend-Umgebungen gesteigert. In diesem Artikel stellen wir Relax vor, eine Compiler-Abstraktion zur Optimierung von end-to-end dynamischen Machine-Learning-Workloads. Relax führt symbolische Formannotationen erster Klasse ein, um dynamische Formberechnungen global über das Programm hinweg zu verfolgen. Es führt außerdem eine übergreifende Abstraktion ein, die Berechnungsgraphen, Tensorprogramme auf Schleifenebene und Bibliotheksaufrufe in einer einzigen Repräsentation zusammenfasst, um übergreifende Optimierungen zu ermöglichen. Wir entwickeln ein end-to-end Compiler-Framework, das den vorgeschlagenen Ansatz nutzt, um Modelle mit dynamischen Formen zu optimieren. Experimentelle Ergebnisse an großen Sprachmodellen zeigen, dass Relax eine Leistung erzielt, die mit state-of-the-art handoptimierten Systemen über verschiedene Plattformen hinweg konkurrieren kann, und die Bereitstellung von aufkommenden dynamischen Modellen in einer breiteren Palette von Umgebungen, einschließlich Mobiltelefonen, eingebetteten Geräten und Webbrowsern, ermöglicht.

Ziya2: Datenzentriertes Lernen ist alles, was LLMs brauchen
Ziya2: Data-centric Learning is All LLMs Need

Nov 6

ByRuyi Gan, Ziwei Wu, Renliang Sun, Junyu Lu, Xiaojun Wu, Dixiang Zhang, Kunhao Pan, Ping Yang, Qi Yang, Jiaxing Zhang, Yan Song

In den letzten Jahren wurden verschiedene große Sprachmodelle (LLMs) vorgeschlagen, darunter sowohl proprietäre als auch Open-Source-Modelle, die kontinuierlich neue Rekorde auf mehreren Benchmarks aufstellen. Die Entwicklung von LLMs steht jedoch weiterhin vor mehreren Herausforderungen, wie den hohen Kosten für das Training von Modellen von Grund auf und dem kontinuierlichen Pre-Training, das zu katastrophalem Vergessen führen kann. Obwohl viele dieser Probleme im Rahmen der Forschung zu LLMs angegangen werden, bleibt eine wichtige und praktische Einschränkung bestehen: Viele Studien streben übermäßig die Vergrößerung der Modellgrößen an, ohne die Nutzung von Pre-Training-Daten in ihrem Lernprozess umfassend zu analysieren und zu optimieren, sowie die angemessene Organisation und Nutzung solcher Daten beim Training von LLMs unter kosteneffizienten Bedingungen. In dieser Arbeit stellen wir Ziya2 vor, ein Modell mit 13 Milliarden Parametern, das LLaMA2 als Basismodell verwendet und weiterhin auf 700 Milliarden Tokens vorab trainiert wurde. Dabei konzentrieren wir uns auf Pre-Training-Techniken und nutzen datenzentrierte Optimierung, um den Lernprozess von Ziya2 in verschiedenen Phasen zu verbessern. Experimente zeigen, dass Ziya2 auf mehreren Benchmarks deutlich besser abschneidet als andere Modelle, insbesondere im Vergleich zu repräsentativen Open-Source-Modellen. Ziya2 (Base) ist unter https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base und https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary verfügbar.

VR-NeRF: Hochauflösende virtualisierte begehbare Räume
VR-NeRF: High-Fidelity Virtualized Walkable Spaces

Nov 5

ByLinning Xu, Vasu Agrawal, William Laney, Tony Garcia, Aayush Bansal, Changil Kim, Samuel Rota Bulò, Lorenzo Porzi, Peter Kontschieder, Aljaž Božič, Dahua Lin, Michael Zollhöfer, Christian Richardt

Wir präsentieren ein End-to-End-System zur hochauflösenden Erfassung, Modellrekonstruktion und Echtzeitdarstellung von begehbaren Räumen in der virtuellen Realität unter Verwendung von Neural Radiance Fields. Zu diesem Zweck haben wir eine speziell angefertigte Multi-Kamera-Vorrichtung entwickelt und gebaut, um begehbare Räume in hoher Auflösung und mit Multi-View-High-Dynamic-Range-Bildern in bisher unerreichter Qualität und Dichte zu erfassen. Wir erweitern Instant Neural Graphics Primitives um einen neuartigen wahrnehmungsbasierten Farbraum zur präzisen Erfassung von HDR-Erscheinungsbildern sowie einen effizienten Mip-Mapping-Mechanismus für Level-of-Detail-Rendering mit Anti-Aliasing, wobei wir sorgfältig den Kompromiss zwischen Qualität und Geschwindigkeit optimieren. Unser Multi-GPU-Renderer ermöglicht die hochauflösende Volumenrendering unseres Neural Radiance Field-Modells in der vollen VR-Auflösung von dual 2K×2K bei 36 Hz auf unserer speziell angefertigten Demo-Maschine. Wir demonstrieren die Qualität unserer Ergebnisse anhand unserer anspruchsvollen hochauflösenden Datensätze und vergleichen unsere Methode und Datensätze mit bestehenden Baselines. Wir veröffentlichen unseren Datensatz auf unserer Projektwebsite.

Lenken Sie die Aufmerksamkeit Ihres Modells: Post-hoc-Aufmerksamkeitssteuerung für LLMs
Tell Your Model Where to Attend: Post-hoc Attention Steering for LLMs

Nov 3

ByQingru Zhang, Chandan Singh, Liyuan Liu, Xiaodong Liu, Bin Yu, Jianfeng Gao, Tuo Zhao

In von Menschen verfassten Artikeln nutzen wir oft die Feinheiten des Textstils, wie Fettdruck und Kursivschrift, um die Aufmerksamkeit der Leser zu lenken. Diese textuellen Hervorhebungen sind entscheidend dafür, dass die Leser die vermittelten Informationen erfassen können. Bei der Interaktion mit großen Sprachmodellen (LLMs) besteht ein ähnliches Bedürfnis – das Modell dazu zu bringen, näher auf benutzerdefinierte Informationen, z. B. eine Anweisung, zu achten. Bestehende Methoden sind jedoch darauf beschränkt, Klartext zu verarbeiten und unterstützen keinen solchen Mechanismus. Dies motiviert uns, PASTA – Post-hoc Attention STeering Approach – vorzustellen, eine Methode, die es LLMs ermöglicht, Text mit benutzerdefinierten Hervorhebungsmarkierungen zu lesen. Zu diesem Zweck identifiziert PASTA eine kleine Teilmenge von Aufmerksamkeitsköpfen und wendet eine präzise Neugewichtung der Aufmerksamkeit auf sie an, wodurch die Aufmerksamkeit des Modells auf benutzerdefinierte Teile gelenkt wird. Ähnlich wie beim Prompting wird PASTA zur Inferenzzeit angewendet und erfordert keine Änderung von Modellparametern. Experimente zeigen, dass PASTA die Fähigkeit eines LLMs, Benutzeranweisungen zu befolgen oder neues Wissen aus Benutzereingaben zu integrieren, erheblich verbessern kann, was zu einer signifikanten Leistungssteigerung bei einer Vielzahl von Aufgaben führt, z. B. einer durchschnittlichen Genauigkeitsverbesserung von 22 % für LLAMA-7B. Unser Code ist öffentlich unter https://github.com/QingruZhang/PASTA verfügbar.

MFTCoder: Verbesserung von Code-LLMs durch Multitask-Fine-Tuning
MFTCoder: Boosting Code LLMs with Multitask Fine-Tuning

Nov 4

ByBingchang Liu, Chaoyu Chen, Cong Liao, Zi Gong, Huan Wang, Zhichao Lei, Ming Liang, Dajun Chen, Min Shen, Hailian Zhou, Hang Yu, Jianguo Li

Code-LLMs haben sich als spezialisiertes Forschungsfeld etabliert, mit bemerkenswerten Studien, die darauf abzielen, die Programmierfähigkeiten von Modellen durch Feinabstimmung auf vortrainierten Modellen zu verbessern. Bisherige Feinabstimmungsansätze waren typischerweise auf spezifische Downstream-Aufgaben oder Szenarien zugeschnitten, was eine separate Feinabstimmung für jede Aufgabe erforderte. Dies führte zu einem hohen Bedarf an Trainingsressourcen und stellte Herausforderungen in Bezug auf Bereitstellung und Wartung dar. Darüber hinaus konnten diese Ansätze die inhärente Vernetzung zwischen verschiedenen codebezogenen Aufgaben nicht nutzen. Um diese Einschränkungen zu überwinden, präsentieren wir ein Multi-Task-Feinabstimmungsframework, MFTcoder, das eine gleichzeitige und parallele Feinabstimmung auf mehrere Aufgaben ermöglicht. Durch die Einbindung verschiedener Verlustfunktionen adressieren wir effektiv häufige Herausforderungen im Multi-Task-Lernen, wie Datenungleichgewichte, unterschiedliche Schwierigkeitsgrade und inkonsistente Konvergenzgeschwindigkeiten. Umfangreiche Experimente haben eindeutig gezeigt, dass unser Multi-Task-Feinabstimmungsansatz sowohl die individuelle Feinabstimmung auf einzelne Aufgaben als auch die Feinabstimmung auf eine gemischte Aufgabensammlung übertrifft. Darüber hinaus bietet MFTcoder effiziente Trainingsfähigkeiten, einschließlich effizienter Daten-Tokenisierungsmodi und PEFT-Feinabstimmung, was zu einer deutlich verbesserten Geschwindigkeit im Vergleich zu traditionellen Feinabstimmungsmethoden führt. MFTcoder integriert sich nahtlos in mehrere Mainstream-Open-Source-LLMs wie CodeLLama und Qwen. Auf der Grundlage von CodeLLama erreicht unser mit MFTcoder feinabgestimmtes Modell, CodeFuse-CodeLLama-34B, eine beeindruckende pass@1-Bewertung von 74,4\% auf dem HumaneEval-Benchmark und übertrifft damit die Leistung von GPT-4 (67\%, Zero-Shot). MFTCoder ist unter https://github.com/codefuse-ai/MFTCOder quelloffen verfügbar.

LDM3D-VR: Latentes Diffusionsmodell für 3D-VR
LDM3D-VR: Latent Diffusion Model for 3D VR

Nov 6

ByGabriela Ben Melech Stan, Diana Wofk, Estelle Aflalo, Shao-Yen Tseng, Zhipeng Cai, Michael Paulitsch, Vasudev Lal

Latent-Diffusionsmodelle haben sich als State-of-the-Art bei der Erzeugung und Manipulation visueller Ausgaben erwiesen. Allerdings ist, soweit uns bekannt ist, die gemeinsame Generierung von Tiefenkarten mit RGB-Daten nach wie vor begrenzt. Wir stellen LDM3D-VR vor, eine Suite von Diffusionsmodellen, die auf die Entwicklung virtueller Realität abzielt und LDM3D-pano sowie LDM3D-SR umfasst. Diese Modelle ermöglichen die Generierung von panoramischen RGBD-Daten basierend auf textuellen Eingaben und die Hochskalierung von niedrigauflösenden Eingaben zu hochauflösenden RGBD-Daten. Unsere Modelle wurden aus bestehenden vortrainierten Modellen auf Datensätzen feinabgestimmt, die panoramische/hochauflösende RGB-Bilder, Tiefenkarten und Bildbeschreibungen enthalten. Beide Modelle werden im Vergleich zu bestehenden verwandten Methoden evaluiert.

Aufmerksamkeit oder Faltung: Transformer-Encoder in Audio-Sprachmodellen für effiziente Inferenz
Attention or Convolution: Transformer Encoders in Audio Language Models for Inference Efficiency

Nov 5

BySungho Jeon, Ching-Feng Yeh, Hakan Inan, Wei-Ning Hsu, Rashi Rungta, Yashar Mehdad, Daniel Bikel

In diesem Artikel zeigen wir, dass ein einfaches, selbstüberwachtes vortrainiertes Audiomodell eine vergleichbare Inferenzeffizienz erreichen kann wie komplexere vortrainierte Modelle mit Sprach-Transformer-Encodern. Diese Sprach-Transformer kombinieren konvolutionale Module mit Selbstaufmerksamkeitsmodulen und erzielen dabei state-of-the-art Leistung in der automatischen Spracherkennung (ASR) bei hoher Effizienz. Zunächst zeigen wir, dass der Einsatz dieser Sprach-Transformer als Encoder auch die Effizienz vortrainierter Audiomodelle erheblich verbessert. Unsere Studie zeigt jedoch, dass wir eine vergleichbare Effizienz allein mit fortgeschrittener Selbstaufmerksamkeit erreichen können. Wir demonstrieren, dass dieser einfachere Ansatz insbesondere in Kombination mit einer Low-Bit-Gewichtsquantisierungstechnik für neuronale Netze vorteilhaft ist, um die Effizienz zu steigern. Wir stellen die Hypothese auf, dass dies im Vergleich zu aktuellen Sprach-Transformern, die quantisierte Konvolution und quantisierte Selbstaufmerksamkeitsmodule mischen, die Fehlerfortpflanzung zwischen den verschiedenen quantisierten Modulen verhindert.

CoVLM: Komposition visueller Entitäten und Beziehungen in großen Sprachmodellen durch kommunikative Dekodierung
CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding

Nov 6

ByJunyan Li, Delin Chen, Yining Hong, Zhenfang Chen, Peihao Chen, Yikang Shen, Chuang Gan

Eine bemerkenswerte Fähigkeit des Menschen liegt im kompositionellen Denken, d.h. der Fähigkeit, "unendlichen Gebrauch von endlichen Mitteln" zu machen. Allerdings erreichen aktuelle große Vision-Sprache-Grundlagenmodelle (VLMs) solche kompositionellen Fähigkeiten nicht, da sie ein "Bag-of-Words"-Verhalten zeigen und nicht in der Lage sind, Wörter zu konstruieren, die visuelle Entitäten und die Beziehungen zwischen diesen korrekt repräsentieren. Daher schlagen wir CoVLM vor, das das LLM dazu anleiten kann, visuelle Entitäten und Beziehungen explizit im Text zu komponieren und dynamisch mit dem Vision-Encoder und dem Detektionsnetzwerk zu kommunizieren, um eine Vision-Sprache-Kommunikationsdekodierung zu erreichen. Konkret entwickeln wir zunächst eine Reihe neuartiger Kommunikationstokens für das LLM, um eine dynamische Kommunikation zwischen dem visuellen Detektionssystem und dem Sprachsystem zu ermöglichen. Ein Kommunikationstoken wird vom LLM nach einer visuellen Entität oder einer Beziehung generiert, um das Detektionsnetzwerk zu informieren, Regionen vorzuschlagen, die für den bisher generierten Satz relevant sind. Die vorgeschlagenen Regionen von Interesse (ROIs) werden dann zurück in das LLM eingespeist, um eine bessere Sprachgenerierung basierend auf den relevanten Regionen zu ermöglichen. Das LLM kann somit die visuellen Entitäten und Beziehungen durch die Kommunikationstokens komponieren. Die Vision-zu-Sprache- und Sprache-zu-Vision-Kommunikation wird iterativ durchgeführt, bis der gesamte Satz generiert ist. Unser Framework überbrückt nahtlos die Lücke zwischen visueller Wahrnehmung und LLMs und übertrifft frühere VLMs bei kompositionellen Denkbenchmarks deutlich (z.B. ~20 % in HICO-DET mAP, ~14 % in Cola Top-1-Genauigkeit und ~3 % in ARO Top-1-Genauigkeit). Wir erzielen auch state-of-the-art-Leistungen bei traditionellen Vision-Sprache-Aufgaben wie dem Verständnis von Referenzausdrücken und visuellen Frage-Antwort-Aufgaben.

Co-Training und Co-Distillation zur Qualitätsverbesserung und Kompression von Sprachmodellen
Co-training and Co-distillation for Quality Improvement and Compression of Language Models

Nov 6

ByHayeon Lee, Rui Hou, Jongpil Kim, Davis Liang, Hongbo Zhang, Sung Ju Hwang, Alexander Min

Knowledge Distillation (KD) komprimiert rechenintensive vortrainierte Sprachmodelle (PLMs), indem deren Wissen auf kleinere Modelle übertragen wird, wodurch ihr Einsatz in ressourcenbeschränkten oder Echtzeitumgebungen ermöglicht wird. Die meisten kleineren Modelle übertreffen jedoch nicht die Leistung des ursprünglichen größeren Modells, was dazu führt, dass die Leistung zugunsten einer verbesserten Inferenzgeschwindigkeit geopfert wird. Um dieses Problem zu lösen, schlagen wir Co-Training und Co-Distillation (CTCD) vor, ein neuartiges Framework, das sowohl die Leistung als auch die Inferenzgeschwindigkeit verbessert, indem zwei Modelle gemeinsam trainiert und dabei gegenseitig Wissen destilliert wird. Das CTCD-Framework erreicht dies erfolgreich basierend auf zwei wesentlichen Erkenntnissen: 1) Die Destillation von Wissen vom kleineren Modell zum größeren Modell während des Co-Trainings verbessert die Leistung des größeren Modells. 2) Die gesteigerte Leistung des größeren Modells fördert weiterhin die Leistung des kleineren Modells. Das CTCD-Framework zeigt Potenzial, da es mit bestehenden Techniken wie Architekturdesign oder Datenanreicherung kombiniert werden kann, um einseitige KD-Methoden zu ersetzen und weitere Leistungsverbesserungen zu erzielen. Umfangreiche Ablationsstudien demonstrieren die Wirksamkeit von CTCD, und das durch CTCD destillierte kleine Modell übertrifft das ursprüngliche größere Modell auf dem GLUE-Benchmark um einen signifikanten Wert von 1,66.

Consistent4D: Konsistente 360°-Dynamische Objekterzeugung aus monokularen Videos
Consistent4D: Consistent 360° Dynamic Object Generation from Monocular Video

Nov 6

ByYanqin Jiang, Li Zhang, Jin Gao, Weimin Hu, Yao Yao

In diesem Artikel präsentieren wir Consistent4D, einen neuartigen Ansatz zur Erzeugung von 4D-dynamischen Objekten aus unkalibrierten monokularen Videos. Dabei formulieren wir die Rekonstruktion von 360-Grad-dynamischen Objekten als ein 4D-Generierungsproblem, wodurch die Notwendigkeit einer aufwendigen multiview-Datenerfassung und Kamerakalibrierung entfällt. Dies wird erreicht, indem wir das objektbasierte 3D-bewusste Bilddiffusionsmodell als primäres Überwachungssignal für das Training von Dynamischen Neuralen Radiance Fields (DyNeRF) nutzen. Konkret schlagen wir ein Cascade DyNeRF vor, um eine stabile Konvergenz und zeitliche Kontinuität unter dem Überwachungssignal zu ermöglichen, das entlang der Zeitachse diskret ist. Um räumliche und zeitliche Konsistenz zu erreichen, führen wir zusätzlich einen Interpolationsgestützten Konsistenzverlust ein. Dieser wird optimiert, indem die Diskrepanz zwischen den gerenderten Frames aus DyNeRF und den interpolierten Frames eines vortrainierten Videointerpolationsmodells minimiert wird. Umfangreiche Experimente zeigen, dass unser Consistent4D mit den bisherigen State-of-the-Art-Ansätzen konkurrieren kann und neue Möglichkeiten für die Generierung von 4D-dynamischen Objekten aus monokularen Videos eröffnet, während es gleichzeitig Vorteile für konventionelle Text-zu-3D-Generierungsaufgaben demonstriert. Unsere Projektseite ist https://consistent4d.github.io/.

Anpassung von Selbstrationalisierern durch Multi-Belohnungs-Distillation
Tailoring Self-Rationalizers with Multi-Reward Distillation

Nov 6

BySahana Ramnath, Brihi Joshi, Skyler Hallinan, Ximing Lu, Liunian Harold Li, Aaron Chan, Jack Hessel, Yejin Choi, Xiang Ren

Große Sprachmodelle (LMs) sind in der Lage, freitextliche Begründungen zu generieren, um die Beantwortung von Fragen zu unterstützen. Frühere Arbeiten deuten jedoch darauf hin, dass nützliche Selbstbegründungen erst bei erheblichen Skalen (z. B. GPT-3 mit 175B Parametern) entstehen und sich weitgehend auf die nachgelagerte Leistung konzentrieren, während die Semantik der Begründungen selbst ignoriert wird, z. B. ob sie treu, wahr und hilfreich für Menschen sind. In dieser Arbeit ermöglichen wir es kleineren LMs (etwa 200x kleiner als GPT-3), Begründungen zu generieren, die nicht nur die Leistung bei nachgelagerten Aufgaben verbessern, sondern auch plausibler, konsistenter und vielfältiger sind, bewertet sowohl durch automatische als auch durch menschliche Evaluierung. Unsere Methode, MaRio (Multi-rewArd RatIOnalization), ist ein Algorithmus zur Selbstbegründung mit multiplen Belohnungsbedingungen, der mehrere unterschiedliche Eigenschaften wie Plausibilität, Vielfalt und Konsistenz optimiert. Ergebnisse auf fünf schwierigen Frage-Antwort-Datensätzen – StrategyQA, QuaRel, OpenBookQA, NumerSense und QASC – zeigen, dass MaRio nicht nur die Aufgabengenauigkeit verbessert, sondern auch die Qualität der Selbstbegründung kleiner LMs in den genannten Dimensionen besser als ein überwachtes Feinabstimmungs-Baseline (SFT) verbessert. Umfangreiche menschliche Bewertungen bestätigen, dass MaRio-Begründungen gegenüber SFT-Begründungen bevorzugt werden, sowie qualitative Verbesserungen in Plausibilität und Konsistenz.

Ultra-Lange Sequenzverteilte Transformer
Ultra-Long Sequence Distributed Transformer

Nov 4

ByXiao Wang, Isaac Lyngaas, Aristeidis Tsaris, Peng Chen, Sajal Dash, Mayanka Chandra Shekar, Tao Luo, Hong-Jun Yoon, Mohamed Wahib, John Gouley

Transformer-Modelle, die mit langen Sequenzen trainiert werden, erreichen oft eine höhere Genauigkeit als solche mit kurzen Sequenzen. Leider haben konventionelle Transformer Schwierigkeiten beim Training mit langen Sequenzen aufgrund der überwältigenden Rechen- und Speicheranforderungen. Bestehende Methoden für das Training mit langen Sequenzen bieten nur begrenzte Beschleunigung und Speicherreduzierung und können die Genauigkeit beeinträchtigen. Dieses Papier stellt eine neuartige und effiziente Methode für das verteilte Training vor, den Long Short-Sequence Transformer (LSS Transformer), der das Training von Transformern mit langen Sequenzen ermöglicht. Dabei wird eine lange Sequenz in Segmente aufgeteilt, die auf GPUs verteilt werden, wobei jede GPU eine partielle Selbstaufmerksamkeit für ihr Segment berechnet. Anschließend wird eine kombinierte Kommunikation und eine neuartige Technik zur doppelten Gradientenmittelung verwendet, um die Notwendigkeit der Aggregation partieller Selbstaufmerksamkeit zu vermeiden und den Kommunikationsaufwand zu minimieren. Wir haben die Leistung des LSS Transformers im Vergleich zum state-of-the-art Nvidia Sequence Parallelism auf dem Wikipedia enwik8-Datensatz evaluiert. Die Ergebnisse zeigen, dass unsere vorgeschlagene Methode im Vergleich zum state-of-the-art Sequence Parallelism auf 144 Nvidia V100 GPUs eine 5,6-fache Beschleunigung und eine 10,2-fache Speichereffizienz erreicht. Darüber hinaus skaliert unser Algorithmus auf eine extreme Sequenzlänge von 50.112 bei 3.456 GPUs und erreicht dabei eine superlineare parallele Effizienz von 161 % und einen Durchsatz von 32 Petaflops.

CoVLM: Komposition visueller Entitäten und Beziehungen in großen Sprachmodellen durch kommunikative Dekodierung
CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding

Nov 6

ByJunyan Li, Delin Chen, Yining Hong, Zhenfang Chen, Peihao Chen, Yikang Shen, Chuang Gan