HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

15 papers found

Music ControlNet: Mehrfache zeitvariante Steuerungen für die Musikerzeugung
Music ControlNet: Multiple Time-varying Controls for Music Generation

Nov 13

ByShih-Lun Wu, Chris Donahue, Shinji Watanabe, Nicholas J. Bryan

Text-to-Music-Generationsmodelle sind inzwischen in der Lage, hochwertige Musik in einer Vielzahl von Stilen zu erzeugen. Die Textsteuerung eignet sich jedoch hauptsächlich zur Manipulation globaler musikalischer Attribute wie Genre, Stimmung und Tempo und ist weniger geeignet für die präzise Steuerung zeitlich variierender Attribute wie die Positionen von Beats im Zeitverlauf oder die sich ändernde Dynamik der Musik. Wir stellen Music ControlNet vor, ein diffusionsbasiertes Musikgenerationsmodell, das mehrere präzise, zeitlich variierende Steuerungen über das erzeugte Audio bietet. Um Text-to-Music-Modelle mit zeitlich variierender Steuerung auszustatten, schlagen wir einen Ansatz vor, der der pixelweisen Steuerung der bildbasierten ControlNet-Methode analog ist. Konkret extrahieren wir Steuerungen aus Trainings-Audio, um gepaarte Daten zu erhalten, und feintunen ein diffusionsbasiertes, bedingtes Generativmodell über Audiospektrogramme unter Berücksichtigung von Melodie-, Dynamik- und Rhythmussteuerungen. Während die bildbasierte Uni-ControlNet-Methode bereits die Generierung mit beliebigen Teilmengen von Steuerungen ermöglicht, entwickeln wir eine neue Strategie, die es Schaffenden ermöglicht, Steuerungen einzugeben, die nur teilweise im Zeitverlauf spezifiziert sind. Wir evaluieren sowohl Steuerungen, die aus Audio extrahiert wurden, als auch Steuerungen, die wir von Schaffenden erwarten, und zeigen, dass wir realistische Musik erzeugen können, die den Steuerungseingaben in beiden Szenarien entspricht. Obwohl nur wenige vergleichbare Musikgenerationsmodelle existieren, vergleichen wir uns mit MusicGen, einem kürzlich entwickelten Modell, das Text- und Melodieeingaben akzeptiert, und zeigen, dass unser Modell Musik erzeugt, die zu 49 % treuer zu den eingegebenen Melodien ist, obwohl es 35-mal weniger Parameter hat, mit 11-mal weniger Daten trainiert wurde und zwei zusätzliche Formen zeitlich variierender Steuerung ermöglicht. Klangbeispiele finden Sie unter https://MusicControlNet.github.io/web/.

ChatAnything: Facetime-Chat mit LLM-verstärkten Personas
ChatAnything: Facetime Chat with LLM-Enhanced Personas

Nov 12

ByYilin Zhao, Xinbin Yuan, Shanghua Gao, Zhijie Lin, Qibin Hou, Jiashi Feng, Daquan Zhou

In diesem technischen Bericht zielen wir darauf ab, anthropomorphisierte Persönlichkeiten für LLM-basierte Charaktere in Echtzeit zu generieren, einschließlich visueller Erscheinung, Persönlichkeit und Tonfall, basierend ausschließlich auf Textbeschreibungen. Um dies zu erreichen, nutzen wir zunächst die In-Context-Lernfähigkeit von LLMs für die Persönlichkeitsgenerierung, indem wir sorgfältig eine Reihe von System-Prompts entwerfen. Anschließend führen wir zwei neuartige Konzepte ein: die Mischung der Stimmen (MoV) und die Mischung der Diffuser (MoD) für die Erzeugung vielfältiger Stimmen und Erscheinungsbilder. Bei MoV verwenden wir Text-zu-Sprache (TTS)-Algorithmen mit einer Vielzahl von vordefinierten Tonfällen und wählen automatisch den am besten passenden basierend auf der vom Benutzer bereitgestellten Textbeschreibung aus. Bei MoD kombinieren wir die aktuell populären Text-zu-Bild-Generierungstechniken und Talking-Head-Algorithmen, um den Prozess der Erzeugung sprechender Objekte zu optimieren. Wir bezeichnen das gesamte Framework als ChatAnything. Mit diesem können Benutzer alles mit beliebigen anthropomorphen Persönlichkeiten animieren, indem sie nur wenige Texteingaben verwenden. Allerdings haben wir beobachtet, dass die von aktuellen generativen Modellen erzeugten anthropomorphen Objekte oft von vortrainierten Gesichtslandmarken-Detektoren nicht erkannt werden, was zu einem Fehlschlagen der Gesichtsbewegungsgenerierung führt, selbst wenn diese Gesichter menschenähnliche Erscheinungen besitzen, da solche Bilder während des Trainings kaum gesehen wurden (z.B. OOD-Stichproben). Um dieses Problem zu lösen, integrieren wir Pixel-Level-Anleitungen, um menschliche Gesichtslandmarken während der Bildgenerierungsphase einzubringen. Um diese Metriken zu bewerten, haben wir einen Evaluierungsdatensatz erstellt. Basierend darauf bestätigen wir, dass die Erkennungsrate der Gesichtslandmarken signifikant von 57,0 % auf 92,5 % gesteigert wird, was eine automatische Gesichtsanimation basierend auf generierten Sprachinhalten ermöglicht. Der Code und weitere Ergebnisse sind unter https://chatanything.github.io/ verfügbar.

Story-to-Motion: Synthese unendlicher und steuerbarer Charakteranimation aus langen Texten
Story-to-Motion: Synthesizing Infinite and Controllable Character Animation from Long Text

Nov 13

ByZhongfei Qing, Zhongang Cai, Zhitao Yang, Lei Yang

Die Erzeugung natürlicher menschlicher Bewegungen aus einer Geschichte hat das Potenzial, die Landschaft der Animations-, Gaming- und Filmindustrie zu revolutionieren. Eine neue und herausfordernde Aufgabe, Story-to-Motion, entsteht, wenn Charaktere sich an verschiedene Orte bewegen und spezifische Bewegungen basierend auf einer langen Textbeschreibung ausführen sollen. Diese Aufgabe erfordert eine Kombination aus Low-Level-Steuerung (Trajektorien) und High-Level-Steuerung (Bewegungssemantik). Frühere Arbeiten zur Charaktersteuerung und Text-zu-Bewegung haben verwandte Aspekte behandelt, doch eine umfassende Lösung bleibt schwer fassbar: Methoden zur Charaktersteuerung verarbeiten keine Textbeschreibungen, während Text-zu-Bewegung-Methoden Positionsbeschränkungen fehlen und oft instabile Bewegungen erzeugen. Angesichts dieser Einschränkungen schlagen wir ein neuartiges System vor, das kontrollierbare, unendlich lange Bewegungen und Trajektorien erzeugt, die mit dem Eingabetext übereinstimmen. (1) Wir nutzen zeitgenössische Large Language Models als textgesteuerten Bewegungsplaner, um eine Reihe von (Text, Position, Dauer)-Paaren aus langen Texten zu extrahieren. (2) Wir entwickeln ein textgesteuertes Bewegungsabrufschema, das Bewegungsabgleich mit Bewegungssemantik und Trajektorienbeschränkungen kombiniert. (3) Wir entwerfen einen progressiven Maskentransformer, der häufige Artefakte in Übergangsbewegungen wie unnatürliche Posen und Fußgleiten behandelt. Über seine Pionierrolle als erste umfassende Lösung für Story-to-Motion hinaus wird unser System in drei verschiedenen Teilaufgaben evaluiert: Trajektorienverfolgung, zeitliche Aktionskomposition und Bewegungsmischung, wo es bisherige state-of-the-art Bewegungsynthesemethoden durchweg übertrifft. Homepage: https://story2motion.github.io/.

Q-Instruct: Verbesserung der visuellen Fähigkeiten auf niedriger Ebene für Multi-Modalitäts-Foundation-Modelle
Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models

Nov 12

ByHaoning Wu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Annan Wang, Kaixin Xu, Chunyi Li, Jingwen Hou, Guangtao Zhai, Geng Xue, Wenxiu Sun, Qiong Yan, Weisi Lin

Multimodale Basismodelle, wie sie durch GPT-4V repräsentiert werden, haben ein neues Paradigma für Aufgaben der niedrigstufigen visuellen Wahrnehmung und des Verständnisses geschaffen, die auf eine breite Palette natürlicher menschlicher Anweisungen in einem Modell reagieren können. Obwohl bestehende Basismodelle bereits vielversprechende Potenziale bei niedrigstufigen visuellen Aufgaben gezeigt haben, sind ihre diesbezüglichen Fähigkeiten noch vorläufig und müssen verbessert werden. Um diese Modelle zu erweitern, führen wir ein groß angelegtes subjektives Experiment durch, bei dem eine Vielzahl echter menschlicher Rückmeldungen zur niedrigstufigen visuellen Wahrnehmung gesammelt wird. Jede Rückmeldung folgt einem Pfad, der mit einer detaillierten Beschreibung des niedrigstufigen visuellen Erscheinungsbildes (*z.B. Klarheit, Farbe, Helligkeit* eines Bildes) beginnt und mit einer Gesamtbewertung endet, wobei die durchschnittliche Länge 45 Wörter beträgt. Der konstruierte **Q-Pathway**-Datensatz umfasst 58.000 detaillierte menschliche Rückmeldungen zu 18.973 Bildern mit vielfältigem niedrigstufigem Erscheinungsbild. Darüber hinaus entwerfen wir eine GPT-beteiligte Konvertierung, um diese Rückmeldungen in 200.000 Anweisungs-Antwort-Paare in verschiedenen Formaten zu verarbeiten, damit Basismodelle robust auf unterschiedliche Fragestellungen reagieren können. Experimentelle Ergebnisse zeigen, dass **Q-Instruct** die Fähigkeiten zur niedrigstufigen Wahrnehmung und zum Verständnis bei mehreren Basismodellen konsequent verbessert. Wir gehen davon aus, dass unsere Datensätze den Weg für eine Zukunft ebnen können, in der allgemeine Intelligenz niedrigstufige visuelle Erscheinungen wahrnehmen, verstehen und die visuelle Qualität wie ein Mensch bewerten kann. Unser Datensatz, das Modellarchiv und die Demo sind unter https://q-future.github.io/Q-Instruct veröffentlicht.

GOAT: Gehe zu Allem
GOAT: GO to Any Thing

Nov 10

ByMatthew Chang, Theophile Gervet, Mukul Khanna, Sriram Yenamandra, Dhruv Shah, So Yeon Min, Kavit Shah, Chris Paxton, Saurabh Gupta, Dhruv Batra, Roozbeh Mottaghi, Jitendra Malik, Devendra Singh Chaplot

In Einsatzszenarien wie Haushalten und Lagern wird von mobilen Robotern erwartet, dass sie über längere Zeiträume autonom navigieren und Aufgaben nahtlos ausführen, die in Begriffen formuliert sind, die für menschliche Bediener intuitiv verständlich sind. Wir präsentieren GO To Any Thing (GOAT), ein universelles Navigationssystem, das diese Anforderungen mit drei Schlüsselmerkmalen bewältigen kann: a) Multimodal: Es kann Ziele verarbeiten, die über Kategorielabels, Zielbilder und Sprachbeschreibungen spezifiziert sind, b) Lebenslang: Es profitiert von seinen bisherigen Erfahrungen in der gleichen Umgebung, und c) Plattformunabhängig: Es kann schnell auf Robotern mit unterschiedlichen Ausführungen eingesetzt werden. GOAT wird durch ein modulares Systemdesign und einen kontinuierlich erweiterten, instanzbewussten semantischen Speicher ermöglicht, der das Erscheinungsbild von Objekten aus verschiedenen Blickwinkeln zusätzlich zu kategorieübergreifenden Semantiken verfolgt. Dies ermöglicht es GOAT, zwischen verschiedenen Instanzen derselben Kategorie zu unterscheiden, um die Navigation zu Zielen zu ermöglichen, die durch Bilder und Sprachbeschreibungen spezifiziert sind. In experimentellen Vergleichen über mehr als 90 Stunden in 9 verschiedenen Haushalten, bestehend aus 675 Zielen, die über 200+ verschiedene Objektinstanzen ausgewählt wurden, erreicht GOAT eine Gesamterfolgsrate von 83 % und übertrifft damit bisherige Methoden und Ablationen um 32 % (absoluter Verbesserungswert). GOAT verbessert sich mit zunehmender Erfahrung in der Umgebung, von einer Erfolgsrate von 60 % beim ersten Ziel auf 90 % nach der Exploration. Darüber hinaus zeigen wir, dass GOAT problemlos auf nachgelagerte Aufgaben wie Greifen und Platzieren sowie soziale Navigation angewendet werden kann.

Sehen heißt Glauben: Bessere visuelle Instruktionsanpassung durch Prompting von GPT-4V
To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning

Nov 13

ByJunke Wang, Lingchen Meng, Zejia Weng, Bo He, Zuxuan Wu, Yu-Gang Jiang

Bestehende Methoden zur visuellen Instruktionsabstimmung verwenden typischerweise große Sprachmodelle, die mit textuellen Beschreibungen angeregt werden, um daten zu generieren, die Anweisungen befolgen. Trotz der vielversprechenden Leistung, die damit erzielt wird, stammen diese Beschreibungen aus Bildanmerkungen, die oft grobkörnig sind. Darüber hinaus können die Anweisungen sogar im Widerspruch zum visuellen Inhalt stehen, ohne den gesamten visuellen Kontext zu berücksichtigen. Um diese Herausforderung zu bewältigen, stellen wir einen feinkörnigen visuellen Instruktionsdatensatz vor, LVIS-Instruct4V, der 220K visuell ausgerichtete und kontextbewusste Anweisungen enthält, die durch die Anregung des leistungsstarken GPT-4V mit Bildern aus LVIS erzeugt wurden. Durch experimentelle Validierung und Fallstudien zeigen wir, dass hochwertige visuelle Instruktionsdaten die Leistung von LLaVA-1.5, einem state-of-the-art großen multimodalen Modell, über eine breite Palette von Benchmarks deutlich verbessern können. Bemerkenswerterweise erreichen wir durch den einfachen Austausch von LLaVA-Instruct durch unser LVIS-Instruct4V bessere Ergebnisse als LLaVA auf den meisten anspruchsvollen LMM-Benchmarks, z.B. LLaVA^w (76,7 vs. 70,7) und MM-Vet (40,2 vs. 35,4). Wir veröffentlichen unsere Daten und unser Modell unter https://github.com/X2FD/LVIS-INSTRUCT4V.

GPT-4V im Wunderland: Große multimodale Modelle für die Null-Shot-Navigation auf Smartphone-GUIs
GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

Nov 13

ByAn Yan, Zhengyuan Yang, Wanrong Zhu, Kevin Lin, Linjie Li, Jianfeng Wang, Jianwei Yang, Yiwu Zhong, Julian McAuley, Jianfeng Gao, Zicheng Liu, Lijuan Wang

Wir stellen MM-Navigator vor, einen auf GPT-4V basierenden Agenten für die Aufgabe der Navigation durch grafische Benutzeroberflächen (GUIs) auf Smartphones. MM-Navigator kann mit einem Smartphone-Bildschirm interagieren, wie es menschliche Benutzer tun, und nachfolgende Aktionen bestimmen, um gegebene Anweisungen zu erfüllen. Unsere Ergebnisse zeigen, dass große multimodale Modelle (LMMs), insbesondere GPT-4V, in der Zero-Shot-GUI-Navigation durch ihre fortgeschrittenen Fähigkeiten zur Bildschirminterpretation, Handlungslogik und präzisen Handlungslokalisierung hervorragend abschneiden. Zunächst benchmarken wir MM-Navigator auf unserem gesammelten iOS-Bildschirmdatensatz. Laut menschlicher Bewertungen zeigte das System eine Genauigkeitsrate von 91 % bei der Erzeugung sinnvoller Aktionsbeschreibungen und eine Genauigkeitsrate von 75 % bei der Ausführung der korrekten Aktionen für Einzelschritt-Anweisungen auf iOS. Darüber hinaus evaluieren wir das Modell auf einem Teil eines Android-Bildschirmnavigationsdatensatzes, wo das Modell frühere GUI-Navigatoren in einer Zero-Shot-Weise übertrifft. Unser Benchmark und die detaillierten Analysen sollen eine solide Grundlage für zukünftige Forschungen zur GUI-Navigationsaufgabe schaffen. Die Projektseite befindet sich unter https://github.com/zzxslp/MM-Navigator.

SPHINX: Die gemeinsame Kombination von Gewichten, Aufgaben und visuellen Einbettungen für multimodale Large Language Models
SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

Nov 13

ByZiyi Lin, Chris Liu, Renrui Zhang, Peng Gao, Longtian Qiu, Han Xiao, Han Qiu, Chen Lin, Wenqi Shao, Keqin Chen, Jiaming Han, Siyuan Huang, Yichi Zhang, Xuming He, Hongsheng Li, Yu Qiao

Wir präsentieren SPHINX, ein vielseitiges multimodales großes Sprachmodell (MLLM) mit einer gemeinsamen Vermischung von Modellgewichten, Trainingsaufgaben und visuellen Einbettungen. Zunächst heben wir, um eine stärkere Vision-Sprache-Ausrichtung zu erreichen, das Einfrieren des großen Sprachmodells (LLM) während des Vortrainings auf und führen eine Gewichtsmischstrategie zwischen LLMs ein, die mit realen und synthetischen Daten trainiert wurden. Durch die direkte Integration der Gewichte aus beiden Domänen kann das gemischte LLM effizient diverse Semantiken mit vorteilhafter Robustheit einbinden. Um dann multifunktionale Fähigkeiten zu ermöglichen, mischen wir eine Vielzahl von Aufgaben für das gemeinsame visuelle Instruktions-Tuning und entwerfen aufgabenspezifische Anweisungen, um Konflikte zwischen den Aufgaben zu vermeiden. Neben der grundlegenden visuellen Fragebeantwortung schließen wir anspruchsvollere Aufgaben wie regionsbasiertes Verständnis, Beschriftungsverankerung, Dokumentlayout-Erkennung und menschliche Pose-Schätzung ein, was zur gegenseitigen Verbesserung in verschiedenen Szenarien beiträgt. Zusätzlich schlagen wir vor, umfassende visuelle Einbettungen aus verschiedenen Netzwerkarchitekturen, Vortrainingsparadigmen und Informationsgranularitäten zu extrahieren, wodurch Sprachmodelle mit robusteren Bildrepräsentationen versorgt werden. Basierend auf unserer vorgeschlagenen gemeinsamen Vermischung zeigt SPHINX überlegene multimodale Verständnisfähigkeiten in einer breiten Palette von Anwendungen. Darüber hinaus schlagen wir eine effiziente Strategie vor, die darauf abzielt, feinkörnige Erscheinungen von hochauflösenden Bildern besser zu erfassen. Durch die Mischung verschiedener Skalen und hochauflösender Teilbilder erreicht SPHINX eine außergewöhnliche visuelle Analyse- und Schlussfolgerungsleistung auf bestehenden Evaluierungs-Benchmarks. Wir hoffen, dass unsere Arbeit die Erforschung der gemeinsamen Vermischung in zukünftigen MLLM-Forschungen beleuchten kann. Der Code ist unter https://github.com/Alpha-VLLM/LLaMA2-Accessory veröffentlicht.

MEGAVERSE: Benchmarking von Large Language Models über Sprachen, Modalitäten, Modelle und Aufgaben hinweg
MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks

Nov 13

BySanchit Ahuja, Divyanshu Aggarwal, Varun Gumma, Ishaan Watts, Ashutosh Sathe, Millicent Ochieng, Rishav Hada, Prachi Jain, Maxamed Axmed, Kalika Bali, Sunayana Sitaram

In jüngster Zeit gab es rasante Fortschritte in der Forschung zu Large Language Models (LLMs), die zu bedeutenden Verbesserungen in mehreren Aufgaben der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) geführt haben. Infolgedessen hat die Forschung zur Bewertung von LLMs stark zugenommen, um die Fähigkeiten und Grenzen dieser Modelle besser zu verstehen. Ein Großteil dieser Forschung beschränkte sich jedoch auf die englische Sprache, wodurch die Entwicklung und Bewertung von LLMs für nicht-englische Sprachen relativ unerforscht blieb. Mit der Einführung mehrerer neuer LLMs besteht nun die Notwendigkeit, diese auch für nicht-englische Sprachen zu evaluieren. Diese Studie zielt darauf ab, unsere MEGA-Benchmarking-Suite durch die Aufnahme von sechs neuen Datensätzen zum MEGAVERSE-Benchmark zu erweitern. Der Benchmark umfasst 22 Datensätze, die 81 Sprachen abdecken, darunter auch ressourcenarme afrikanische Sprachen. Wir evaluieren mehrere state-of-the-art LLMs wie GPT-3.5-Turbo, GPT4, PaLM2 und Llama2 anhand der MEGAVERSE-Datensätze. Zusätzlich integrieren wir zwei multimodale Datensätze in den Benchmark und bewerten die Leistung des LLaVa-v1.5-Modells. Unsere Experimente deuten darauf hin, dass GPT4 und PaLM2 die Llama-Modelle in verschiedenen Aufgaben übertreffen, insbesondere bei ressourcenarmen Sprachen, wobei GPT4 auf mehr Datensätzen besser abschneidet als PaLM2. Dennoch müssen Probleme wie Datenkontamination angegangen werden, um eine genaue Bewertung der Leistung von LLMs für nicht-englische Sprachen zu gewährleisten.

Der Einfluss großer Sprachmodelle auf die wissenschaftliche Entdeckung: Eine Vorstudie mit GPT-4
The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4

Nov 13

ByMicrosoft Research AI4Science, Microsoft Azure Quantum

In den letzten Jahren haben bahnbrechende Fortschritte in der natürlichen Sprachverarbeitung zur Entstehung leistungsstarker großer Sprachmodelle (Large Language Models, LLMs) geführt, die bemerkenswerte Fähigkeiten in einer Vielzahl von Bereichen gezeigt haben, einschließlich des Verstehens, der Generierung und der Übersetzung natürlicher Sprache sowie sogar von Aufgaben, die über die Sprachverarbeitung hinausgehen. In diesem Bericht untersuchen wir die Leistung von LLMs im Kontext der wissenschaftlichen Entdeckung, mit einem Fokus auf GPT-4, dem modernsten Sprachmodell. Unsere Untersuchung umfasst eine breite Palette wissenschaftlicher Bereiche, darunter Wirkstoffentdeckung, Biologie, Computerchemie (Dichtefunktionaltheorie (DFT) und Molekulardynamik (MD)), Materialdesign und partielle Differentialgleichungen (PDE). Die Bewertung von GPT-4 in wissenschaftlichen Aufgaben ist entscheidend, um sein Potenzial in verschiedenen Forschungsdomänen aufzudecken, seine domänenspezifische Expertise zu validieren, den wissenschaftlichen Fortschritt zu beschleunigen, die Ressourcenallokation zu optimieren, die zukünftige Modellentwicklung zu leiten und interdisziplinäre Forschung zu fördern. Unsere Untersuchungsmethodik besteht hauptsächlich aus expertenbasierten Fallstudien, die qualitative Einblicke in das Verständnis des Modells für komplexe wissenschaftliche Konzepte und Zusammenhänge bieten, und gelegentlich aus Benchmark-Tests, die die Fähigkeit des Modells zur Lösung klar definierter domänenspezifischer Probleme quantitativ bewerten. Unsere vorläufige Untersuchung deutet darauf hin, dass GPT-4 vielversprechendes Potenzial für eine Vielzahl wissenschaftlicher Anwendungen zeigt und seine Eignung für die Bewältigung komplexer Problemlösungs- und Wissensintegrationsaufgaben unterstreicht. Im Großen und Ganzen bewerten wir die Wissensbasis von GPT-4, sein wissenschaftliches Verständnis, seine Fähigkeiten zur wissenschaftlichen numerischen Berechnung sowie verschiedene wissenschaftliche Vorhersagefähigkeiten.

Vertrauenswürdige Quellenausrichtung in großen Sprachmodellen
Trusted Source Alignment in Large Language Models

Nov 12

ByVasilisa Bashlovkina, Zhaobin Kuang, Riley Matthews, Edward Clifford, Yennie Jun, William W. Cohen, Simon Baumgartner

Große Sprachmodelle (LLMs) werden auf Web-großen Korpora trainiert, die zwangsläufig widersprüchliche Fakteninformationen aus Quellen unterschiedlicher Zuverlässigkeit enthalten. In diesem Artikel schlagen wir vor, eine Eigenschaft von LLMs namens Trusted Source Alignment (TSA) zu messen: die Neigung des Modells, sich bei Unsicherheit oder Kontroversen mit Inhalten vertrauenswürdiger Verlage abzustimmen. Wir präsentieren FactCheckQA, einen TSA-Evaluationsdatensatz, der auf einem Korpus von Faktenprüfungsartikeln basiert. Wir beschreiben ein einfaches Protokoll zur Bewertung von TSA und bieten eine detaillierte Analyse von Designüberlegungen, einschließlich der Extraktion von Antworten, der Kontextualisierung von Behauptungen und der Voreingenommenheit bei der Formulierung von Prompts. Bei der Anwendung des Protokolls auf PaLM-2 stellen wir fest, dass mit zunehmender Modellgröße die Leistung des Modells bei FactCheckQA von nahezu zufällig auf bis zu 80% ausgewogene Genauigkeit bei der Abstimmung mit vertrauenswürdigen Quellen ansteigt.

LayoutPrompter: Erwecken der Gestaltungsfähigkeit großer Sprachmodelle
LayoutPrompter: Awaken the Design Ability of Large Language Models

Nov 11

ByJiawei Lin, Jiaqi Guo, Shizhao Sun, Zijiang James Yang, Jian-Guang Lou, Dongmei Zhang

Die bedingte Erzeugung von grafischen Layouts, die automatisch Benutzereinschränkungen in hochwertige Layouts abbildet, hat heute breite Aufmerksamkeit erregt. Obwohl aktuelle Arbeiten vielversprechende Leistungen erzielt haben, behindern der Mangel an Vielseitigkeit und Dateneffizienz ihre praktische Anwendung. In dieser Arbeit schlagen wir LayoutPrompter vor, das große Sprachmodelle (LLMs) nutzt, um die oben genannten Probleme durch In-Context-Lernen zu lösen. LayoutPrompter besteht aus drei Schlüsselkomponenten: Input-Output-Serialisierung, dynamische Beispielauswahl und Layout-Ranking. Konkret entwirft die Input-Output-Serialisierungskomponente sorgfältig die Eingabe- und Ausgabeformate für jede Layoutgenerierungsaufgabe. Die dynamische Beispielauswahl ist dafür verantwortlich, die hilfreichsten Prompting-Beispiele für eine gegebene Eingabe auszuwählen. Und ein Layout-Ranker wird verwendet, um das qualitativ hochwertigste Layout aus mehreren Ausgaben der LLMs auszuwählen. Wir führen Experimente zu allen bestehenden Layoutgenerierungsaufgaben mit vier öffentlichen Datensätzen durch. Trotz der Einfachheit unseres Ansatzes zeigen die experimentellen Ergebnisse, dass LayoutPrompter mit den state-of-the-art Ansätzen auf diesen Aufgaben mithalten oder sie sogar übertreffen kann, ohne dass ein Modelltraining oder eine Feinabstimmung erforderlich ist. Dies demonstriert die Wirksamkeit dieses vielseitigen und trainingsfreien Ansatzes. Darüber hinaus zeigen die Ablationsstudien, dass LayoutPrompter in einem Low-Data-Regime dem trainingsbasierten Baseline-Modell deutlich überlegen ist, was weiter auf die Dateneffizienz von LayoutPrompter hinweist. Unser Projekt ist verfügbar unter https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter.

Cappy: Übertreffen und Verbessern großer Multi-Task-LMs mit einem kleinen Bewertungsmodul
Cappy: Outperforming and Boosting Large Multi-Task LMs with a Small Scorer

Nov 12

ByBowen Tan, Yun Zhu, Lijuan Liu, Eric Xing, Zhiting Hu, Jindong Chen

Große Sprachmodelle (LLMs) wie T0, FLAN und OPT-IML zeichnen sich durch ihre Fähigkeit aus, Multitasking unter einem einheitlichen Paradigma der Befolgung von Anweisungen zu bewältigen, wobei sie auch bemerkenswerte Generalisierungsfähigkeiten bei unbekannten Aufgaben zeigen. Trotz ihrer beeindruckenden Leistung erfordern diese LLMs, deren Größe von mehreren Milliarden bis zu Hunderten von Milliarden Parametern reicht, erhebliche Rechenressourcen, was ihr Training und ihre Inferenz teuer und ineffizient macht. Darüber hinaus ist die Anpassung dieser Modelle an nachgelagerte Anwendungen, insbesondere komplexe Aufgaben, oft nicht machbar, da die Hardwareanforderungen für das Feinabstimmen selbst bei der Verwendung parameter-effizienter Ansätze wie Prompt Tuning sehr hoch sind. Zusätzlich sind die leistungsstärksten Multitask-LLMs wie OPT-IML-175B und FLAN-PaLM-540B nicht öffentlich zugänglich, was ihr Anpassungspotenzial stark einschränkt. Um diese Herausforderungen zu bewältigen, stellen wir einen vortrainierten kleinen Scorer namens Cappy vor, der die Leistung und Effizienz von Multitask-LLMs verbessern soll. Mit lediglich 360 Millionen Parametern kann Cappy entweder unabhängig bei Klassifikationsaufgaben agieren oder als Hilfskomponente für LLMs dienen, um deren Leistung zu steigern. Darüber hinaus ermöglicht Cappy die effiziente Integration von nachgelagerter Überwachung, ohne dass ein Feinabstimmen des LLMs oder der Zugriff auf dessen Parameter erforderlich ist. Unsere Experimente zeigen, dass Cappy bei der unabhängigen Bearbeitung von 11 Sprachverständnisaufgaben aus PromptSource LLMs, die um mehrere Größenordnungen größer sind, übertrifft. Zudem verbessert Cappy auf 45 komplexen Aufgaben aus BIG-Bench die Leistung des fortschrittlichen Multitask-LLMs FLAN-T5 erheblich. Darüber hinaus ist Cappy flexibel genug, um mit anderen Anpassungen von LLMs zusammenzuarbeiten, einschließlich Feinabstimmen und In-Context-Lernen, und bietet dadurch zusätzliche Leistungssteigerungen.

Hin zu allgemeinen Sprachfähigkeiten für große Sprachmodelle unter Verwendung ungepaarter Daten
Towards General-Purpose Speech Abilities for Large Language Models Using Unpaired Data

Nov 12

ByYassir Fathullah, Chunyang Wu, Egor Lakomkin, Junteng Jia, Yuan Shangguan, Jay Mahadeokar, Ozlem Kalinli, Christian Fuegen, Mike Seltzer

In dieser Arbeit erweitern wir das instruction-tuned Llama-2-Modell um end-to-end allgemeine Sprachverarbeitungs- und Reasoning-Fähigkeiten, während wir die breite Palette der LLM-Fähigkeiten beibehalten, ohne dabei auf sorgfältig kuratierte gepaarte Daten zurückzugreifen. Das vorgeschlagene Modell kann Audio-Prompts als Ersatz für Text verwenden und eine Konversation aufrechterhalten. Ein solches Modell verfügt zudem über erweiterte cross-modale Fähigkeiten, wie beispielsweise die Durchführung von Sprachfragebeantwortung, Sprachübersetzung und Audio-Zusammenfassung sowie viele andere geschlossene und offene Aufgaben. Dies unterscheidet sich von früheren Ansätzen im Bereich der Sprachverarbeitung, bei denen LLMs erweitert wurden, um Audio für eine begrenzte Anzahl vordefinierter Aufgaben zu verarbeiten. Experimente zeigen, dass unser end-to-end-Ansatz in Bezug auf die Modellierung der Reaktion auf einen Prompt mit einem kaskadierten System (Spracherkenner + LLM) gleichzieht oder dieses sogar übertrifft. Darüber hinaus zeigt unser Ansatz im Gegensatz zu einer Kaskade die Fähigkeit, Text- und Audio-Modalitäten auszutauschen und den vorherigen Kontext in einer Konversation zu nutzen, um bessere Ergebnisse zu erzielen.

Frontier-Sprachmodelle sind nicht robust gegenüber adversarischer Arithmetik, oder „Was muss ich sagen, damit Sie zustimmen, dass 2+2=5 ist?“
Frontier Language Models are not Robust to Adversarial Arithmetic, or "What do I need to say so you agree 2+2=5?

Nov 8

ByC. Daniel Freeman, Laura Culp, Aaron Parisi, Maxwell L Bileschi, Gamaleldin F Elsayed, Alex Rizkowsky, Isabelle Simpson, Alex Alemi, Azade Nova, Ben Adlam, Bernd Bohnet, Gaurav Mishra, Hanie Sedghi, Igor Mordatch, Izzeddin Gur, Jaehoon Lee, JD Co-Reyes, Jeffrey Pennington, Kelvin Xu, Kevin Swersky, Kshiteej Mahajan, Lechao Xiao, Rosanne Liu, Simon Kornblith, Noah Constant, Peter J. Liu, Roman Novak, Sharad Vikram, Yundi Qian, Noah Fiedel, Jascha Sohl-Dickstein

Wir führen und untersuchen das Problem des adversarischen Rechnens ein, das eine einfache, aber herausfordernde Testumgebung für die Ausrichtung von Sprachmodellen bietet. Dieses Problem besteht aus arithmetischen Fragen, die in natürlicher Sprache gestellt werden, wobei eine beliebige adversarische Zeichenkette eingefügt wird, bevor die Frage vollständig ist. Selbst im einfachen Kontext von 1-stelligen Additionsaufgaben ist es leicht, adversarische Eingaben zu finden, die alle getesteten Modelle (einschließlich PaLM2, GPT4, Claude2) dazu bringen, sich falsch zu verhalten, und sogar, um Modelle zu einer bestimmten falschen Antwort zu lenken. Zusätzlich stellen wir einen einfachen Algorithmus vor, um erfolgreiche Angriffe durch Abfragen derselben Modelle zu finden, den wir „Prompt Inversion Rejection Sampling“ (PIRS) nennen. Schließlich zeigen wir, dass Modelle teilweise gegen diese Angriffe gehärtet werden können, sowohl durch Reinforcement Learning als auch durch agentische konstitutionelle Schleifen. Es gelang uns jedoch nicht, ein Sprachmodell vollständig gegen adversarische Rechenangriffe abzusichern.

SPHINX: Die gemeinsame Kombination von Gewichten, Aufgaben und visuellen Einbettungen für multimodale Large Language Models
SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

Nov 13

ByZiyi Lin, Chris Liu, Renrui Zhang, Peng Gao, Longtian Qiu, Han Xiao, Han Qiu, Chen Lin, Wenqi Shao, Keqin Chen, Jiaming Han, Siyuan Huang, Yichi Zhang, Xuming He, Hongsheng Li, Yu Qiao