HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

19 papers found

StemGen: Ein Musikgenerierungsmodell, das zuhört
StemGen: A music generation model that listens

Dec 14

ByJulian D. Parker, Janne Spijkervet, Katerina Kosta, Furkan Yesiler, Boris Kuznetsov, Ju-Chiang Wang, Matt Avent, Jitong Chen, Duc Le

Die End-to-End-Generierung von Musik-Audio mithilfe von Deep-Learning-Techniken hat in letzter Zeit eine explosionsartige Zunahme an Aktivitäten erlebt. Die meisten Modelle konzentrieren sich jedoch darauf, vollständig gemischte Musik als Reaktion auf abstrakte Konditionierungsinformationen zu erzeugen. In dieser Arbeit präsentieren wir ein alternatives Paradigma für die Entwicklung von Musikgenerationsmodellen, die auf musikalischen Kontext hören und darauf reagieren können. Wir beschreiben, wie ein solches Modell mit einer nicht-autoregressiven, Transformer-basierten Modellarchitektur konstruiert werden kann, und stellen eine Reihe neuartiger architektonischer und Sampling-Verbesserungen vor. Wir trainieren die beschriebene Architektur sowohl auf einem Open-Source- als auch auf einem proprietären Datensatz. Die erzeugten Modelle werden anhand standardisierter Qualitätsmetriken sowie eines neuen Ansatzes basierend auf Music-Information-Retrieval-Deskriptoren evaluiert. Das resultierende Modell erreicht die Audioqualität von state-of-the-art, textkonditionierten Modellen und zeigt gleichzeitig eine starke musikalische Kohärenz mit seinem Kontext.

TinyGSM: Erreichen von über 80 % auf GSM8k mit kleinen Sprachmodellen
TinyGSM: achieving >80% on GSM8k with small language models

Dec 14

ByBingbin Liu, Sebastien Bubeck, Ronen Eldan, Janardhan Kulkarni, Yuanzhi Li, Anh Nguyen, Rachel Ward, Yi Zhang

Kleinere Modelle bieten verschiedene rechnerische Vorteile, doch inwieweit die Größe für die Problemlösungsfähigkeiten entscheidend ist, bleibt eine offene Frage. Insbesondere für das Lösen von Mathematikaufgaben der Grundschule liegt die bisher kleinste Modellgröße, die erforderlich ist, um die 80\%-Marke auf dem GSM8K-Benchmark zu überschreiten, bei 34B. Unsere Arbeit untersucht, wie hochwertige Datensätze der Schlüssel für kleine Sprachmodelle sein könnten, um mathematisches Denken zu erlernen. Wir stellen TinyGSM vor, einen synthetischen Datensatz von 12,3 Millionen Mathematikaufgaben der Grundschule, die mit Python-Lösungen gepaart sind und vollständig von GPT-3.5 generiert wurden. Nach dem Feinabstimmen auf TinyGSM stellen wir fest, dass ein Duo aus einem 1,3B-Generierungsmodell und einem 1,3B-Verifizierermodell eine Genauigkeit von 81,5\% erreichen kann, was bestehende Modelle, die um Größenordnungen größer sind, übertrifft. Dies steht auch im Wettbewerb mit der Leistung des GPT-3.5-„Lehrer“-Modells (77,4\%), aus dem die Trainingsdaten unseres Modells generiert wurden. Unser Ansatz ist einfach und besteht aus zwei Schlüsselkomponenten: 1) dem hochwertigen Datensatz TinyGSM, 2) der Verwendung eines Verifizierers, der die endgültigen Ausgaben aus mehreren Kandidatengenerierungen auswählt.

CogAgent: Ein visuelles Sprachmodell für GUI-Agenten
CogAgent: A Visual Language Model for GUI Agents

Dec 14

ByWenyi Hong, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu, Junhui Ji, Yan Wang, Zihan Wang, Yuxiao Dong, Ming Ding, Jie Tang

Menschen verbringen eine enorme Menge Zeit an digitalen Geräten über grafische Benutzeroberflächen (GUIs), wie beispielsweise Computer- oder Smartphone-Bildschirme. Große Sprachmodelle (LLMs) wie ChatGPT können Menschen bei Aufgaben wie dem Verfassen von E-Mails unterstützen, haben jedoch Schwierigkeiten, GUIs zu verstehen und mit ihnen zu interagieren, was ihr Potenzial zur Steigerung des Automatisierungsgrades einschränkt. In diesem Artikel stellen wir CogAgent vor, ein visuelles Sprachmodell (VLM) mit 18 Milliarden Parametern, das sich auf das Verständnis und die Navigation von GUIs spezialisiert hat. Durch die Verwendung sowohl von niedrigauflösenden als auch hochauflösenden Bildencodern unterstützt CogAgent Eingaben mit einer Auflösung von 1120*1120, wodurch es in der Lage ist, winzige Seitenelemente und Texte zu erkennen. Als allgemeines visuelles Sprachmodell erreicht CogAgent den Stand der Technik auf fünf textlastigen und vier allgemeinen VQA-Benchmarks, darunter VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet und POPE. CogAgent, das ausschließlich Screenshots als Eingabe verwendet, übertrifft LLM-basierte Methoden, die extrahierten HTML-Text verarbeiten, bei PC- und Android-GUI-Navigationsaufgaben – Mind2Web und AITW – und setzt damit neue Maßstäbe. Das Modell und die Codes sind unter https://github.com/THUDM/CogVLM verfügbar.

VideoLCM: Video-Latent-Konsistenzmodell
VideoLCM: Video Latent Consistency Model

Dec 14

ByXiang Wang, Shiwei Zhang, Han Zhang, Yu Liu, Yingya Zhang, Changxin Gao, Nong Sang

Konsistenzmodelle haben ihre leistungsstarke Fähigkeit bei der effizienten Bildgenerierung unter Beweis gestellt und ermöglichen die Synthese in nur wenigen Sampling-Schritten, wodurch die hohen Rechenkosten von Diffusionsmodellen reduziert werden. Allerdings ist das Konsistenzmodell in der anspruchsvolleren und ressourcenintensiveren Videogenerierung noch wenig erforscht. In diesem Bericht stellen wir das VideoLCM-Framework vor, um diese Lücke zu schließen. Es nutzt das Konzept der Konsistenzmodelle aus der Bildgenerierung, um Videos mit minimalen Schritten effizient zu synthetisieren und dabei eine hohe Qualität zu bewahren. VideoLCM baut auf bestehenden latenten Video-Diffusionsmodellen auf und integriert Konsistenz-Distillationstechniken für das Training des latenten Konsistenzmodells. Experimentelle Ergebnisse zeigen die Effektivität von VideoLCM in Bezug auf Recheneffizienz, Bildtreue und zeitliche Konsistenz. Bemerkenswerterweise erreicht VideoLCM eine hochwertige und flüssige Videosynthese mit nur vier Sampling-Schritten, was das Potenzial für Echtzeitsynthese verdeutlicht. Wir hoffen, dass VideoLCM als einfache, aber effektive Basis für nachfolgende Forschung dienen kann. Der Quellcode und die Modelle werden öffentlich zugänglich sein.

Ein Bild ist mehr wert als 77 Text-Tokens: Evaluierung von CLIP-artigen Modellen anhand von dichten Bildbeschreibungen
A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions

Dec 14

ByJack Urbanek, Florian Bordes, Pietro Astolfi, Mary Williamson, Vasu Sharma, Adriana Romero-Soriano

Kurationsmethoden für massive Vision-Sprache-Datensätze stehen vor einem Kompromiss zwischen der Größe des Datensatzes und seiner Qualität. Allerdings sind selbst die qualitativ hochwertigsten verfügbaren kuratierten Bildbeschreibungen bei weitem zu kurz, um die reichhaltigen visuellen Details eines Bildes zu erfassen. Um den Wert von dichten und hochgradig ausgerichteten Bild-Text-Paaren zu demonstrieren, haben wir den Densely Captioned Images (DCI)-Datensatz erstellt, der 8012 natürliche Bilder enthält, die von Menschen mit maskenausgerichteten Beschreibungen annotiert wurden, die im Durchschnitt über 1000 Wörter umfassen. Mit präzisen und zuverlässigen Beschreibungen, die spezifischen Bildbereichen zugeordnet sind, können wir das Verständnis von Vision-Sprache-Modellen (VLMs) für Bildinhalte mit einer neuartigen Aufgabe evaluieren, bei der jede Beschreibung mit ihrem entsprechenden Bildausschnitt abgeglichen wird. Da aktuelle Modelle oft auf 77 Text-Token beschränkt sind, führen wir auch eine zusammengefasste Version (sDCI) ein, bei der die Länge jeder Beschreibung begrenzt ist. Wir zeigen, dass moderne Techniken, die Fortschritte bei Standard-Benchmarks erzielen, nicht mit einer signifikanten Verbesserung bei unserem sDCI-basierten Benchmark korrespondieren. Schließlich finetunen wir CLIP mit sDCI und zeigen deutliche Verbesserungen gegenüber der Baseline trotz eines kleinen Trainingsdatensatzes. Mit der Veröffentlichung des ersten von Menschen annotierten dichten Bildbeschreibungsdatensatzes hoffen wir, die Entwicklung neuer Benchmarks oder Feinabstimmungsmethoden für die nächste Generation von VLMs zu ermöglichen.

Mosaic-SDF für 3D-Generative Modelle
Mosaic-SDF for 3D Generative Models

Dec 14

ByLior Yariv, Omri Puny, Natalia Neverova, Oran Gafni, Yaron Lipman

Aktuelle Diffusions- oder Flow-basierte generative Modelle für 3D-Formen lassen sich in zwei Kategorien einteilen: die Destillation vortrainierter 2D-Bilddiffusionsmodelle und das direkte Training auf 3D-Formen. Beim Training eines Diffusions- oder Flow-Modells auf 3D-Formen ist die Wahl der Formrepräsentation eine entscheidende Designentscheidung. Eine effektive Formrepräsentation muss drei Designprinzipien erfüllen: Sie sollte eine effiziente Konvertierung großer 3D-Datensätze in die Repräsentationsform ermöglichen; sie sollte eine gute Balance zwischen Approximationskraft und Parameteranzahl bieten; und sie sollte eine einfache tensorielle Form haben, die mit bestehenden leistungsstarken neuronalen Architekturen kompatibel ist. Während Standard-3D-Formrepräsentationen wie volumetrische Gitter und Punktwolken nicht alle diese Prinzipien gleichzeitig erfüllen, befürworten wir in diesem Artikel eine neue Repräsentation, die dies tut. Wir stellen Mosaic-SDF (M-SDF) vor: eine einfache 3D-Formrepräsentation, die die Signed Distance Function (SDF) einer gegebenen Form durch eine Reihe von lokalen Gittern in der Nähe der Formgrenze approximiert. Die M-SDF-Repräsentation ist schnell für jede einzelne Form zu berechnen, was sie leicht parallelisierbar macht; sie ist parameter-effizient, da sie nur den Raum um die Formgrenze abdeckt; und sie hat eine einfache Matrixform, die mit Transformer-basierten Architekturen kompatibel ist. Wir demonstrieren die Wirksamkeit der M-SDF-Repräsentation, indem wir sie verwenden, um ein 3D-generatives Flow-Modell zu trainieren, einschließlich klassenbedingter Generierung mit dem 3D Warehouse-Datensatz und Text-zu-3D-Generierung mit einem Datensatz von etwa 600.000 Beschriftungs-Form-Paaren.

Pixelausgerichtete Sprachmodelle
Pixel Aligned Language Models

Dec 14

ByJiarui Xu, Xingyi Zhou, Shen Yan, Xiuye Gu, Anurag Arnab, Chen Sun, Xiaolong Wang, Cordelia Schmid

Große Sprachmodelle haben in den letzten Jahren große Erfolge erzielt, ebenso wie ihre Varianten im Bereich der Bildverarbeitung. Bestehende Vision-Sprache-Modelle können Bilder in natürlicher Sprache beschreiben, visuell bezogene Fragen beantworten oder komplexe Schlussfolgerungen über das Bild ziehen. Es ist jedoch noch unklar, wie Lokalisierungsaufgaben, wie Wortverankerung oder referenzielle Lokalisierung, mit großen Sprachmodellen durchgeführt werden können. In dieser Arbeit zielen wir darauf ab, ein Vision-Sprache-Modell zu entwickeln, das Standorte, beispielsweise eine Menge von Punkten oder Boxen, entweder als Eingaben oder Ausgaben verarbeiten kann. Wenn Standorte als Eingaben verwendet werden, führt das Modell standortbedingte Bildbeschreibungen durch, die Beschreibungen für das angegebene Objekt oder die Region generieren. Wenn Standorte als Ausgaben generiert werden, regressiert unser Modell Pixelkoordinaten für jedes vom Sprachmodell erzeugte Ausgabewort und führt somit eine dichte Wortverankerung durch. Unser Modell wird auf dem Localized Narrative-Datensatz vortrainiert, der pixel-wort-ausgerichtete Bildbeschreibungen aus menschlicher Aufmerksamkeit enthält. Wir zeigen, dass unser Modell auf verschiedene standortbewusste Vision-Sprache-Aufgaben angewendet werden kann, darunter referenzielle Lokalisierung, standortbedingte Bildbeschreibung und dichte Objektbeschreibung, und dabei state-of-the-art Leistungen auf RefCOCO und Visual Genome erzielt. Projektseite: https://jerryxu.net/PixelLLM.

SEEAvatar: Photorealistische Text-zu-3D-Avatar-Generierung mit eingeschränkter Geometrie und Erscheinung
SEEAvatar: Photorealistic Text-to-3D Avatar Generation with Constrained Geometry and Appearance

Dec 13

ByYuanyou Xu, Zongxin Yang, Yi Yang

Angetrieben durch groß angelegte Text-zu-Bild-Generierungsmodelle hat die Text-zu-3D-Avatar-Generierung vielversprechende Fortschritte gemacht. Die meisten Methoden scheitern jedoch daran, fotorealistische Ergebnisse zu erzielen, da sie durch unpräzise Geometrie und qualitativ minderwertiges Erscheinungsbild eingeschränkt sind. Um eine praktischere Avatar-Generierung zu ermöglichen, präsentieren wir SEEAvatar, eine Methode zur Generierung fotorealistischer 3D-Avatare aus Text mit SElf-Evolving-Einschränkungen für entkoppelte Geometrie und Erscheinungsbild. Für die Geometrie schlagen wir vor, den optimierten Avatar in einer anständigen globalen Form mit einem Template-Avatar zu beschränken. Der Template-Avatar wird mit menschlichen Vorannahmen initialisiert und kann periodisch durch den optimierten Avatar als sich entwickelnde Vorlage aktualisiert werden, was eine flexiblere Formgenerierung ermöglicht. Darüber hinaus wird die Geometrie auch durch statische menschliche Vorannahmen in lokalen Bereichen wie Gesicht und Händen beschränkt, um die feinen Strukturen zu erhalten. Für die Erscheinungsbildgenerierung verwenden wir ein durch Prompt-Engineering verbessertes Diffusionsmodell, um einen physikalisch basierten Rendering-Pipeline zu leiten, um realistische Texturen zu erzeugen. Die Helligkeitsbeschränkung wird auf die Albedo-Textur angewendet, um falsche Lichteffekte zu unterdrücken. Experimente zeigen, dass unsere Methode frühere Methoden sowohl in der globalen als auch in der lokalen Geometrie und der Qualität des Erscheinungsbilds deutlich übertrifft. Da unsere Methode hochwertige Meshes und Texturen erzeugen kann, können solche Assets direkt in der klassischen Grafikpipeline für realistische Darstellungen unter beliebigen Lichtbedingungen verwendet werden. Projektseite: https://seeavatar3d.github.io.

Zebra: Erweiterung des Kontextfensters durch schichtenweise gruppierte lokale-globale Aufmerksamkeit
Zebra: Extending Context Window with Layerwise Grouped Local-Global Attention

Dec 14

ByKaiqiang Song, Xiaoyang Wang, Sangwoo Cho, Xiaoman Pan, Dong Yu

Dieses Papier stellt einen neuartigen Ansatz vor, um die Fähigkeiten von Large Language Models (LLMs) bei der Verarbeitung und dem Verständnis umfangreicher Textsequenzen zu verbessern, einem entscheidenden Aspekt in Anwendungen, die ein tiefes Verständnis und die Synthese großer Informationsmengen erfordern. In Anerkennung der inhärenten Herausforderungen bei der Erweiterung des Kontextfensters für LLMs, die hauptsächlich auf der Transformer-Architektur basieren, schlagen wir eine neue Modellarchitektur vor, die als Zebra bezeichnet wird. Diese Architektur bewältigt effizient die quadratischen Zeit- und Speicherkomplexitätsprobleme, die mit der vollständigen Aufmerksamkeit im Transformer verbunden sind, indem sie gruppierte lokale-globale Aufmerksamkeitsschichten einsetzt. Unser Modell, ähnlich den abwechselnden Streifen eines Zebras, balanciert lokale und globale Aufmerksamkeitsschichten und reduziert dadurch erheblich den Rechenaufwand und den Speicherverbrauch. Umfassende Experimente, einschließlich Pretraining von Grund auf, Fortsetzung des Trainings zur Anpassung an lange Kontexte und Feinabstimmung langer Instruktionen, werden durchgeführt, um die Leistung von Zebra zu bewerten. Die Ergebnisse zeigen, dass Zebra vergleichbare oder überlegene Leistung sowohl bei kurzen als auch bei langen Sequenzbenchmarks erzielt und gleichzeitig die Effizienz des Trainings und der Inferenz verbessert.

Vision-Sprach-Modelle als Quelle für Belohnungen
Vision-Language Models as a Source of Rewards

Dec 14

ByKate Baumli, Satinder Baveja, Feryal Behbahani, Harris Chan, Gheorghe Comanici, Sebastian Flennerhag, Maxime Gazeau, Kristian Holsheimer, Dan Horgan, Michael Laskin, Clare Lyle, Hussain Masoom, Kay McKinney, Volodymyr Mnih, Alexander Neitz, Fabio Pardo, Jack Parker-Holder, John Quan, Tim Rocktäschel, Himanshu Sahni, Tom Schaul, Yannick Schroecker, Stephen Spencer, Richie Steigerwald, Luyu Wang, Lei Zhang

Die Entwicklung von Generalisten-Agenten, die in komplexen, offenen Umgebungen viele Ziele erreichen können, ist eine der Forschungsgrenzen im Bereich des Reinforcement Learning. Ein wesentlicher begrenzender Faktor für den Aufbau solcher Generalisten-Agenten mit RL war bisher die Notwendigkeit einer großen Anzahl von Belohnungsfunktionen, um verschiedene Ziele zu erreichen. Wir untersuchen die Machbarkeit der Verwendung von Standard-Vision-Language-Modellen (VLMs) als Quellen für Belohnungen bei Reinforcement-Learning-Agenten. Wir zeigen, wie Belohnungen für die visuelle Erreichung einer Vielzahl von Sprachzielen aus der CLIP-Modellfamilie abgeleitet und verwendet werden können, um RL-Agenten zu trainieren, die verschiedene Sprachziele erreichen können. Wir demonstrieren diesen Ansatz in zwei unterschiedlichen visuellen Domänen und präsentieren einen Skalierungstrend, der zeigt, wie größere VLMs zu genaueren Belohnungen für die visuelle Zielerreichung führen, was wiederum leistungsfähigere RL-Agenten hervorbringt.

FineControlNet: Feinsteuerung der Textkontrolle für die Bildgenerierung mit räumlich ausgerichteter Textsteuerungsinjektion
FineControlNet: Fine-level Text Control for Image Generation with Spatially Aligned Text Control Injection

Dec 14

ByHongsuk Choi, Isaac Kasahara, Selim Engin, Moritz Graule, Nikhil Chavan-Dafle, Volkan Isler

Das kürzlich eingeführte ControlNet ermöglicht es, den textgesteuerten Bildgenerierungsprozess mit geometrischen Eingaben wie menschlichen 2D-Posen oder Kantenmerkmalen zu steuern. Während ControlNet die Kontrolle über die geometrische Form der Instanzen im generierten Bild bietet, fehlt ihm die Fähigkeit, das visuelle Erscheinungsbild jeder Instanz zu bestimmen. Wir stellen FineControlNet vor, um eine präzise Kontrolle über das Erscheinungsbild jeder Instanz zu ermöglichen, während die genaue Posenerkennung erhalten bleibt. Insbesondere entwickeln und demonstrieren wir FineControlNet mit geometrischer Steuerung über menschliche Posebilder und Erscheinungssteuerung über instanzspezifische Textprompts. Die räumliche Ausrichtung von instanzspezifischen Textprompts und 2D-Posen im latenten Raum ermöglicht die feinen Steuerungsfähigkeiten von FineControlNet. Wir bewerten die Leistung von FineControlNet durch einen rigorosen Vergleich mit state-of-the-art, posenbedingten Text-zu-Bild-Diffusionsmodellen. FineControlNet erzielt eine überlegene Leistung bei der Generierung von Bildern, die den benutzerdefinierten, instanzspezifischen Textprompts und Posen folgen, im Vergleich zu bestehenden Methoden. Projektwebseite: https://samsunglabs.github.io/FineControlNet-project-page

LIME: Lokalisierte Bildbearbeitung durch Aufmerksamkeitsregularisierung in Diffusionsmodellen
LIME: Localized Image Editing via Attention Regularization in Diffusion Models

Dec 14

ByEnis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari

Diffusionsmodelle (DMs) haben aufgrund ihrer Fähigkeit, hochwertige und vielfältige Bilder zu erzeugen, insbesondere durch jüngste Fortschritte in der Text-zu-Bild-Generierung, an Bedeutung gewonnen. Der Forschungsschwerpunkt verlagert sich nun auf die Steuerbarkeit von DMs. Eine wesentliche Herausforderung in diesem Bereich ist die lokalisierte Bearbeitung, bei der spezifische Bereiche eines Bildes verändert werden, ohne den restlichen Inhalt zu beeinflussen. Dieses Paper stellt LIME für die lokalisierte Bildbearbeitung in Diffusionsmodellen vor, das keine benutzerdefinierten Regionen von Interesse (RoI) oder zusätzliche Texteingaben erfordert. Unser Verfahren nutzt Merkmale aus vortrainierten Methoden und eine einfache Clustering-Technik, um präzise semantische Segmentierungskarten zu erstellen. Anschließend werden diese Segmente mithilfe von Cross-Attention-Karten für lokalisierte Bearbeitungen verfeinert. Schließlich schlagen wir eine neuartige Cross-Attention-Regularisierungstechnik vor, die während der Denoising-Schritte unzusammenhängende Cross-Attention-Werte in der RoI bestraft und so lokalisierte Bearbeitungen sicherstellt. Unser Ansatz verbessert ohne erneutes Training und Feinabstimmung die Leistung bestehender Methoden in verschiedenen Bearbeitungsbenchmarks konsistent.

Allgemeines Objekt-Grundlagenmodell für Bilder und Videos im großen Maßstab
General Object Foundation Model for Images and Videos at Scale

Dec 14

ByJunfeng Wu, Yi Jiang, Qihao Liu, Zehuan Yuan, Xiang Bai, Song Bai

In dieser Arbeit stellen wir GLEE vor, ein Foundation-Modell auf Objektebene zur Lokalisierung und Identifizierung von Objekten in Bildern und Videos. Durch ein einheitliches Framework bewältigt GLEE die Detektion, Segmentierung, Verfolgung, Verankerung und Identifizierung beliebiger Objekte im Open-World-Szenario für verschiedene Objekterkennungsaufgaben. Mit einer kohärenten Lernstrategie erwirbt GLEE Wissen aus diversen Datenquellen mit unterschiedlichen Überwachungsgraden, um allgemeine Objektrepräsentationen zu formulieren, die sich durch hervorragende Zero-Shot-Übertragung auf neue Daten und Aufgaben auszeichnen. Konkret verwenden wir einen Bild-Encoder, einen Text-Encoder und einen visuellen Prompter, um multimodale Eingaben zu verarbeiten, wodurch gleichzeitig verschiedene objektzentrierte Downstream-Aufgaben gelöst werden können, während state-of-the-art Leistungen beibehalten werden. Durch umfangreiches Training an über fünf Millionen Bildern aus diversen Benchmarks demonstriert GLEE bemerkenswerte Vielseitigkeit und verbesserte Generalisierungsleistung, wodurch Downstream-Aufgaben effizient bewältigt werden können, ohne dass eine aufgabenspezifische Anpassung erforderlich ist. Durch die Integration großer Mengen automatisch gelabelter Daten verbessern wir weiterhin seine Zero-Shot-Generalisierungsfähigkeiten. Zudem ist GLEE in der Lage, in Large Language Models integriert zu werden und als Foundation-Modell universelle Objektinformationen für multimodale Aufgaben bereitzustellen. Wir hoffen, dass die Vielseitigkeit und Universalität unserer Methode einen bedeutenden Schritt in der Entwicklung effizienter visueller Foundation-Modelle für AGI-Systeme darstellt. Das Modell und der Code werden unter https://glee-vision.github.io veröffentlicht.

UniDream: Vereinheitlichung von Diffusions-Priors für beleuchtungsfähige Text-zu-3D-Generierung
UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation

Dec 14

ByZexiang Liu, Yangguang Li, Youtian Lin, Xin Yu, Sida Peng, Yan-Pei Cao, Xiaojuan Qi, Xiaoshui Huang, Ding Liang, Wanli Ouyang

Jüngste Fortschritte in der Text-zu-3D-Generierungstechnologie haben die Umwandlung von textuellen Beschreibungen in imaginative, geometrisch präzise und fein texturierte 3D-Objekte erheblich vorangetrieben. Trotz dieser Entwicklungen besteht eine weit verbreitete Einschränkung in der Verwendung von RGB-Daten in Diffusions- oder Rekonstruktionsmodellen, die oft zu Modellen mit inhärenten Beleuchtungs- und Schatteneffekten führen, die den Realismus beeinträchtigen und somit ihre Verwendbarkeit in Anwendungen, die präzise Neubeleuchtungsfähigkeiten erfordern, einschränken. Um diese Lücke zu schließen, präsentieren wir UniDream, ein Text-zu-3D-Generierungsframework, das vereinheitlichte Diffusions-Priors integriert. Unser Ansatz besteht aus drei Hauptkomponenten: (1) einem zweiphasigen Trainingsprozess zur Erstellung von Albedo-Normal-ausgerichteten Multi-View-Diffusions- und Rekonstruktionsmodellen, (2) einem progressiven Generierungsverfahren für Geometrie und Albedo-Texturen basierend auf Score Distillation Sampling (SDS) unter Verwendung der trainierten Rekonstruktions- und Diffusionsmodelle und (3) einer innovativen Anwendung von SDS zur Finalisierung der PBR-Generierung bei Beibehaltung einer festen Albedo basierend auf dem Stable Diffusion-Modell. Umfangreiche Evaluierungen zeigen, dass UniDream bestehende Methoden in der Generierung von 3D-Objekten mit klareren Albedo-Texturen, glatteren Oberflächen, verbessertem Realismus und überlegenen Neubeleuchtungsfähigkeiten übertrifft.

ZeroQuant(4+2): Neudefinition der Quantisierung von LLMs mit einer neuen FP6-zentrierten Strategie für vielfältige generative Aufgaben
ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric Strategy for Diverse Generative Tasks

Dec 14

ByXiaoxia Wu, Haojun Xia, Stephen Youn, Zhen Zheng, Shiyang Chen, Arash Bakhtiari, Michael Wyatt, Yuxiong He, Olatunji Ruwase, Leon Song, Zhewei Yao

Diese Studie untersucht 4-Bit-Quantisierungsmethoden wie GPTQ in großen Sprachmodellen (LLMs) und hebt dabei die Überanpassung von GPTQ sowie die begrenzte Verbesserung in Zero-Shot-Aufgaben hervor. Während sich frühere Arbeiten lediglich auf die Messung von Zero-Shot-Leistungen konzentrierten, erweitern wir den Aufgabenbereich auf mehr generative Kategorien wie Code-Generierung und abstraktive Zusammenfassung, bei denen wir feststellten, dass INT4-Quantisierung erheblich schlechter abschneiden kann. Der einfache Wechsel zu höherpräzisen Formaten wie FP6 wurde jedoch aufgrund der mangelnden Integration und Systembeschleunigungsstrategien auf aktueller KI-Hardware, die zu schlechter Leistung führen, besonders herausfordernd und daher übersehen. Unsere Ergebnisse zeigen, dass FP6 selbst mit einem grobkörnigen Quantisierungsschema robust über verschiedene Algorithmen und Aufgaben hinweg abschneidet und seine Überlegenheit in Genauigkeit und Vielseitigkeit demonstriert. Bemerkenswerterweise erreicht das \codestar-15B-Modell mit FP6-Quantisierung eine vergleichbare Leistung wie sein FP16-Pendant in der Code-Generierung, und für kleinere Modelle wie das 406M-Modell wird die Baseline-Leistung in der Zusammenfassung nahezu erreicht. Beides kann mit INT4 nicht erreicht werden. Um verschiedene KI-Hardware besser zu unterstützen und die beste Systemleistung zu erzielen, schlagen wir ein neuartiges 4+2-Design für FP6 vor, das eine ähnliche Latenz wie die state-of-the-art INT4-Feingranularitätsquantisierung erreicht. Mit unserem Design kann FP6 eine vielversprechende Lösung für die derzeit in LLMs verwendeten 4-Bit-Quantisierungsmethoden werden.

VL-GPT: Ein generatives, vortrainiertes Transformer-Modell für das Verständnis und die Generierung von Vision und Sprache
VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation

Dec 14

ByJinguo Zhu, Xiaohan Ding, Yixiao Ge, Yuying Ge, Sijie Zhao, Hengshuang Zhao, Xiaohua Wang, Ying Shan

In dieser Arbeit stellen wir den Vision-Language Generative Pre-trained Transformer (VL-GPT) vor, ein Transformer-Modell, das in der Lage ist, visuelle und sprachliche Daten gleichzeitig wahrzunehmen und zu generieren. VL-GPT erreicht einen einheitlichen Pre-Training-Ansatz für sowohl Bild- als auch Textmodalitäten durch die Verwendung eines einfachen autoregressiven Ziels, wodurch das Modell Bilder und Texte so nahtlos verarbeiten kann, wie ein Sprachmodell Texte verarbeitet. Um dies zu erreichen, schlagen wir zunächst ein neuartiges Bild-Tokenizer-Detokenizer-Framework für visuelle Daten vor, das speziell dafür entwickelt wurde, Rohbilder in eine Sequenz kontinuierlicher Embeddings zu transformieren und sie entsprechend zu rekonstruieren. In Kombination mit dem bestehenden Text-Tokenizer und Detokenizer ermöglicht dieses Framework die Kodierung von verschachtelten Bild-Text-Daten in eine multimodale Sequenz, die anschließend in das Transformer-Modell eingespeist werden kann. Folglich kann VL-GPT ein groß angelegtes Pre-Training auf multimodalen Korpora unter Verwendung eines einheitlichen autoregressiven Ziels (d. h. der Vorhersage des nächsten Tokens) durchführen. Nach Abschluss des Pre-Trainings zeigt VL-GPT bemerkenswerte Zero-Shot- und Few-Shot-Leistungen über eine Vielzahl von Aufgaben im Bereich des Verstehens und der Generierung von Vision und Sprache, einschließlich Bildbeschriftung, visueller Fragebeantwortung, Text-zu-Bild-Generierung und mehr. Darüber hinaus behält das vortrainierte Modell Fähigkeiten zum In-Context-Learning bei, wenn es mit multimodalen Prompts versehen wird. Wir führen weiterhin Instruction Tuning an unserem VL-GPT durch, um sein außergewöhnliches Potenzial für multimodale Assistenz hervorzuheben. Der Quellcode und die Modellgewichte werden veröffentlicht.

Helfen oder Hüten? Reward-Modell-Ensembles mildern, aber beseitigen nicht das Problem des Reward Hackings.
Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking

Dec 14

ByJacob Eisenstein, Chirag Nagpal, Alekh Agarwal, Ahmad Beirami, Alex D'Amour, DJ Dvijotham, Adam Fisch, Katherine Heller, Stephen Pfohl, Deepak Ramachandran, Peter Shaw, Jonathan Berant

Belohnungsmodelle spielen eine entscheidende Rolle bei der Ausrichtung von Sprachmodellanwendungen an menschlichen Präferenzen. Diese Konfiguration schafft jedoch einen Anreiz für das Sprachmodell, Fehler im Belohnungsmodell auszunutzen, um eine hohe geschätzte Belohnung zu erzielen – ein Phänomen, das oft als „Reward Hacking“ bezeichnet wird. Eine natürliche Gegenmaßnahme besteht darin, ein Ensemble von Belohnungsmodellen zu trainieren, deren Ausgaben aggregiert werden, um eine robustere Schätzung der Belohnung zu erhalten. Wir untersuchen die Anwendung von Belohnungsensembles zur Ausrichtung sowohl während der Trainingszeit (durch Reinforcement Learning) als auch während der Inferenzzeit (durch Neubewertung). Erstens zeigen wir, dass Belohnungsmodelle unterbestimmt sind: Belohnungsmodelle, die innerhalb der Verteilung ähnlich gut abschneiden, können bei der Ausrichtung aufgrund von Verteilungsverschiebungen sehr unterschiedliche Belohnungen liefern. Zweitens führt diese Unterbestimmtheit zu Überoptimierung, bei der die Ausrichtung auf ein Belohnungsmodell die Belohnung gemäß einem anderen, auf denselben Daten trainierten Belohnungsmodell nicht verbessert. Drittens wird die Überoptimierung durch den Einsatz von Belohnungsensembles gemildert, wobei Ensembles, die sich durch ihre Vorabtrainingsinitialisierungen unterscheiden, zu einer besseren Generalisierung führen als Ensembles, die sich nur durch ihre Feinabstimmungsinitialisierungen unterscheiden, wobei beide individuellen Belohnungsmodellen überlegen sind. Allerdings beseitigen selbst Vorabtrainingsensembles das Reward Hacking nicht vollständig: Wir zeigen mehrere qualitative Phänomene des Reward Hackings, die durch Ensembling nicht gemildert werden, da alle Belohnungsmodelle im Ensemble ähnliche Fehlermuster aufweisen.

SHAP-EDITOR: Anweisungsgesteuerte latente 3D-Bearbeitung in Sekunden
SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds

Dec 14

ByMinghao Chen, Junyu Xie, Iro Laina, Andrea Vedaldi

Wir schlagen ein neuartiges Feedforward-3D-Bearbeitungsframework namens Shap-Editor vor. Bisherige Forschungen zur Bearbeitung von 3D-Objekten konzentrierten sich hauptsächlich auf die Bearbeitung einzelner Objekte durch die Nutzung von Standard-2D-Bildbearbeitungsnetzwerken. Dies wird durch einen Prozess namens Distillation erreicht, bei dem Wissen vom 2D-Netzwerk auf 3D-Assets übertragen wird. Die Distillation erfordert mindestens mehrere Minuten pro Asset, um zufriedenstellende Bearbeitungsergebnisse zu erzielen, und ist daher nicht sehr praktikabel. Im Gegensatz dazu stellen wir die Frage, ob 3D-Bearbeitung direkt durch ein Feedforward-Netzwerk durchgeführt werden kann, ohne eine Optimierung zur Laufzeit. Insbesondere nehmen wir an, dass die Bearbeitung stark vereinfacht werden kann, indem 3D-Objekte zunächst in einem geeigneten latenten Raum kodiert werden. Wir validieren diese Hypothese, indem wir auf dem latenten Raum von Shap-E aufbauen. Wir zeigen, dass eine direkte 3D-Bearbeitung in diesem Raum möglich und effizient ist, indem wir ein Feedforward-Editor-Netzwerk entwickeln, das nur etwa eine Sekunde pro Bearbeitung benötigt. Unsere Experimente zeigen, dass Shap-Editor sowohl für In-Distribution- als auch für Out-of-Distribution-3D-Assets mit verschiedenen Prompts gut generalisiert und eine vergleichbare Leistung mit Methoden erzielt, die für jede bearbeitete Instanz eine Optimierung zur Laufzeit durchführen.

TigerBot: Ein offenes, mehrsprachiges und multitaskfähiges LLM
TigerBot: An Open Multilingual Multitask LLM

Dec 14

ByYe Chen, Wei Cai, Liangmin Wu, Xiaowei Li, Zhanxuan Xin, Cong Fu

Wir stellen die TigerBot-Familie von Large Language Models (LLMs) vor und veröffentlichen sie, die aus Basis- und Chat-Modellen besteht und Größen von 7, 13, 70 und 180 Milliarden Parametern umfasst. Unsere Modelle entwickeln wir ausgehend von Llama-2 und BLOOM und treiben die Grenzen in den Bereichen Daten, Trainingsalgorithmen, Infrastruktur und Anwendungstools weiter voran. Unsere Modelle erzielen signifikante Leistungssteigerungen gegenüber den aktuell besten Open-Source-Modellen, wie z. B. Llama-2, mit spezifischen Verbesserungen von 6 % im Englischen und 20 % im Chinesischen. Die TigerBot-Modellfamilie erreicht auch führende Leistungen in wichtigen akademischen und industriellen Benchmarks und Leaderboards. Wir glauben, dass TigerBot nur eine Momentaufnahme des rasanten Fortschritts in der Open-Source-Community für LLMs darstellt. Daher freuen wir uns, etwas zurückzugeben, indem wir unsere Modelle öffentlich veröffentlichen und unseren Ansatz dahinter dokumentieren, mit besonderem Fokus auf den Aufbau von state-of-the-art LLMs auf demokratisierte Weise und die Nutzbarmachung von LLMs in realen Anwendungen.

Helfen oder Hüten? Reward-Modell-Ensembles mildern, aber beseitigen nicht das Problem des Reward Hackings.
Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking

Dec 14

ByJacob Eisenstein, Chirag Nagpal, Alekh Agarwal, Ahmad Beirami, Alex D'Amour, DJ Dvijotham, Adam Fisch, Katherine Heller, Stephen Pfohl, Deepak Ramachandran, Peter Shaw, Jonathan Berant