HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

15 papers found

Exponentiell schnellere Sprachmodellierung
Exponentially Faster Language Modelling

Nov 15

ByPeter Belcak, Roger Wattenhofer

119

Sprachmodelle benötigen tatsächlich nur einen exponentiellen Bruchteil ihrer Neuronen für einzelne Inferenzen. Als Beweis präsentieren wir FastBERT, eine BERT- Variante, die während der Inferenz 0,3\% ihrer Neuronen verwendet und dabei ähnliche Leistungen wie vergleichbare BERT-Modelle erzielt. FastBERT aktiviert selektiv nur 12 von 4095 Neuronen für jede Schichtinferenz. Dies wird erreicht, indem Feedforward-Netze durch schnelle Feedforward-Netze (FFFs) ersetzt werden. Obwohl derzeit keine wirklich effiziente Implementierung existiert, um das volle Beschleunigungspotenzial der bedingten neuronalen Ausführung zu erschließen, stellen wir High-Level-CPU-Code bereit, der eine 78-fache Beschleunigung gegenüber der optimierten Baseline-Feedforward-Implementierung erreicht, sowie eine PyTorch- Implementierung, die eine 40-fache Beschleunigung gegenüber der äquivalenten Batch-Feedforward-Inferenz liefert. Wir veröffentlichen unseren Trainingscode, Benchmarking-Setup und Modellgewichte.

Orca 2: Kleinen Sprachmodellen das Denken beibringen
Orca 2: Teaching Small Language Models How to Reason

Nov 18

ByArindam Mitra, Luciano Del Corro, Shweti Mahajan, Andres Codas, Clarisse Simoes, Sahaj Agrawal, Xuxi Chen, Anastasia Razdaibiedina, Erik Jones, Kriti Aggarwal, Hamid Palangi, Guoqing Zheng, Corby Rosset, Hamed Khanpour, Ahmed Awadallah

Orca 1 lernt aus umfangreichen Signalen, wie Erklärungsspuren, was es ihm ermöglicht, konventionelle, instruktionsoptimierte Modelle in Benchmarks wie BigBench Hard und AGIEval zu übertreffen. In Orca 2 untersuchen wir weiterhin, wie verbesserte Trainingssignale die Fähigkeiten kleinerer Sprachmodelle (LMs) zur logischen Schlussfolgerung verbessern können. Die Forschung zum Training kleinerer LMs hat sich oft auf Imitationslernen verlassen, um die Ausgaben leistungsfähigerer Modelle nachzuahmen. Wir vertreten die Ansicht, dass ein übermäßiger Fokus auf Imitation das Potenzial kleinerer Modelle einschränken kann. Unser Ziel ist es, kleinen LMs beizubringen, unterschiedliche Lösungsstrategien für verschiedene Aufgaben einzusetzen, die möglicherweise von denen größerer Modelle abweichen. Beispielsweise könnten größere Modelle eine direkte Antwort auf eine komplexe Aufgabe geben, während kleinere Modelle diese Fähigkeit möglicherweise nicht besitzen. In Orca 2 bringen wir dem Modell verschiedene Denktechniken bei (Schritt-für-Schritt, Erinnern und dann Generieren, Erinnern-Schlussfolgern-Generieren, direkte Antwort usw.). Noch entscheidender ist, dass wir dem Modell helfen möchten, die effektivste Lösungsstrategie für jede Aufgabe zu bestimmen. Wir evaluieren Orca 2 anhand eines umfassenden Satzes von 15 diversen Benchmarks (entsprechend etwa 100 Aufgaben und über 36.000 einzigartigen Prompts). Orca 2 übertrifft Modelle ähnlicher Größe deutlich und erreicht Leistungsniveaus, die vergleichbar oder besser sind als die von Modellen, die 5-10 Mal größer sind, wie an komplexen Aufgaben gemessen, die fortgeschrittene Denkfähigkeiten in Zero-Shot-Szenarien testen. Wir stellen Orca 2 als Open Source zur Verfügung, um weitere Forschung zur Entwicklung, Bewertung und Ausrichtung kleinerer LMs zu fördern.

Lassen Sie Pixel tanzen: Hochdynamische Videogenerierung
Make Pixels Dance: High-Dynamic Video Generation

Nov 18

ByYan Zeng, Guoqiang Wei, Jiani Zheng, Jiaxin Zou, Yang Wei, Yuchen Zhang, Hang Li

Die Erstellung hochdynamischer Videos, wie bewegungsreiche Aktionen und anspruchsvolle visuelle Effekte, stellt eine erhebliche Herausforderung im Bereich der künstlichen Intelligenz dar. Leider neigen aktuelle state-of-the-art Methoden zur Videogenerierung, die sich hauptsächlich auf die Text-zu-Video-Generierung konzentrieren, dazu, Videoclips mit minimalen Bewegungen zu erzeugen, obwohl sie eine hohe Bildtreue beibehalten. Wir argumentieren, dass sich allein auf Textanweisungen zu verlassen, für die Videogenerierung unzureichend und suboptimal ist. In diesem Artikel stellen wir PixelDance vor, einen neuartigen Ansatz auf der Grundlage von Diffusionsmodellen, der Bildanweisungen für den ersten und letzten Frame in Kombination mit Textanweisungen für die Videogenerierung einbezieht. Umfassende experimentelle Ergebnisse zeigen, dass PixelDance, das mit öffentlichen Daten trainiert wurde, eine deutlich bessere Fähigkeit zur Synthese von Videos mit komplexen Szenen und detaillierten Bewegungen aufweist und damit einen neuen Standard für die Videogenerierung setzt.

System 2 Attention (ist etwas, das Sie vielleicht auch benötigen)
System 2 Attention (is something you might need too)

Nov 20

ByJason Weston, Sainbayar Sukhbaatar

Soft Attention in Transformer-basierten Large Language Models (LLMs) ist anfällig dafür, irrelevante Informationen aus dem Kontext in ihre latenten Repräsentationen einzubeziehen, was sich negativ auf die Generierung des nächsten Tokens auswirkt. Um diese Probleme zu beheben, führen wir System 2 Attention (S2A) ein, das die Fähigkeit von LLMs nutzt, in natürlicher Sprache zu schlussfolgern und Anweisungen zu befolgen, um zu entscheiden, worauf geachtet werden soll. S2A regeneriert den Eingabekontext, sodass nur die relevanten Teile enthalten sind, bevor es den regenerierten Kontext berücksichtigt, um die endgültige Antwort zu erzeugen. In Experimenten übertrifft S2A standardmäßige auf Attention basierende LLMs bei drei Aufgaben, die Meinungen oder irrelevante Informationen enthalten: Frage-Antwort-Systeme, mathematische Textaufgaben und langformige Textgenerierung. Dabei erhöht S2A die Faktentreue und Objektivität und verringert die Sykophantie.

MultiLoRA: Demokratisierung von LoRA für verbessertes Multi-Task-Lernen
MultiLoRA: Democratizing LoRA for Better Multi-Task Learning

Nov 20

ByYiming Wang, Yu Lin, Xiaodong Zeng, Guannan Zhang

LoRA erreicht eine bemerkenswerte Ressourceneffizienz und vergleichbare Leistung bei der Anpassung von LLMs für spezifische Aufgaben. Seit ChatGPT eine überlegene Leistung bei verschiedenen Aufgaben gezeigt hat, besteht ein zunehmendes Interesse daran, ein Modell für alle Aufgaben anzupassen. Allerdings begrenzt der explizite niedrige Rang von LoRA die Anpassungsleistung in komplexen Multi-Task-Szenarien. LoRA wird von einer kleinen Anzahl von Top-Singulärvektoren dominiert, während das Fine-Tuning in eine Reihe von weniger wichtigen unitären Transformationen zerfällt. In diesem Artikel schlagen wir MultiLoRA für eine bessere Multi-Task-Anpassung vor, indem wir die Dominanz der Top-Singulärvektoren, die bei LoRA beobachtet wird, reduzieren. MultiLoRA skaliert LoRA-Module horizontal und ändert die Parameterinitialisierung der Anpassungsmatrizen, um die Parameterabhängigkeit zu verringern, wodurch ausgewogenere unitäre Unterräume entstehen. Wir erstellen erstmals spezialisierte Trainingsdaten, indem wir Datensätze zur Befolgung von Anweisungen, zum natürlichen Sprachverständnis und zum Weltwissen mischen, um semantisch und syntaktisch unterschiedliche Proben abzudecken. Mit nur 2,5 % zusätzlicher Parameter übertrifft MultiLoRA einzelne LoRA-Varianten und das Fine-Tuning auf mehreren Benchmarks und Modellgrößen. Eine weitere Untersuchung der Gewichtsaktualisierungsmatrizen von MultiLoRA zeigt eine verringerte Abhängigkeit von Top-Singulärvektoren und eine demokratischere Beteiligung der unitären Transformationen.

GPQA: Ein Google-sicherer Frage-Antwort-Benchmark auf Graduierten-Niveau
GPQA: A Graduate-Level Google-Proof Q&A Benchmark

Nov 20

ByDavid Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, Samuel R. Bowman

Wir stellen GPQA vor, einen anspruchsvollen Datensatz mit 448 Multiple-Choice-Fragen, die von Fachexperten aus den Bereichen Biologie, Physik und Chemie erstellt wurden. Wir stellen sicher, dass die Fragen von hoher Qualität und äußerst schwierig sind: Experten, die einen PhD in den entsprechenden Fachgebieten haben oder anstreben, erreichen eine Genauigkeit von 65 % (74 %, wenn offensichtliche Fehler, die die Experten im Nachhinein identifiziert haben, nicht berücksichtigt werden), während hochqualifizierte Nicht-Experten nur eine Genauigkeit von 34 % erreichen, obwohl sie im Durchschnitt über 30 Minuten mit uneingeschränktem Zugang zum Internet (d. h. die Fragen sind „Google-sicher“) verbracht haben. Die Fragen sind auch für state-of-the-art KI-Systeme schwierig, wobei unser stärkster GPT-4-basierter Baseline-Wert eine Genauigkeit von 39 % erreicht. Wenn wir zukünftige KI-Systeme nutzen wollen, um uns bei der Beantwortung sehr schwieriger Fragen zu unterstützen, beispielsweise bei der Entwicklung neuen wissenschaftlichen Wissens, müssen wir skalierbare Überwachungsmethoden entwickeln, die es Menschen ermöglichen, ihre Ausgaben zu überwachen, was selbst dann schwierig sein kann, wenn die Überwacher selbst fachkundig und sachkundig sind. Die Schwierigkeit von GPQA sowohl für qualifizierte Nicht-Experten als auch für fortschrittliche KI-Systeme sollte realistische skalierbare Überwachungsexperimente ermöglichen, von denen wir hoffen, dass sie Wege finden können, wie menschliche Experten zuverlässig wahrheitsgemäße Informationen von KI-Systemen erhalten können, die menschliche Fähigkeiten übertreffen.

Adapter: Eine einheitliche Bibliothek für parameter-effizientes und modulares Transferlernen
Adapters: A Unified Library for Parameter-Efficient and Modular Transfer Learning

Nov 18

ByClifton Poth, Hannah Sterz, Indraneil Paul, Sukannya Purkayastha, Leon Engländer, Timo Imhof, Ivan Vulić, Sebastian Ruder, Iryna Gurevych, Jonas Pfeiffer

Wir stellen Adapters vor, eine Open-Source-Bibliothek, die parameter-effizientes und modulares Transferlernen in großen Sprachmodellen vereinheitlicht. Durch die Integration von 10 verschiedenen Adapter-Methoden in eine einheitliche Schnittstelle bietet Adapters einfache Handhabung und flexible Konfiguration. Unsere Bibliothek ermöglicht es Forschern und Praktikern, die Modularität von Adaptern durch Kompositionsblöcke zu nutzen, wodurch die Gestaltung komplexer Adapter-Setups ermöglicht wird. Wir demonstrieren die Wirksamkeit der Bibliothek, indem wir ihre Leistung im Vergleich zum vollständigen Fine-Tuning bei verschiedenen NLP-Aufgaben evaluieren. Adapters bietet ein leistungsstarkes Werkzeug, um die Herausforderungen herkömmlicher Fine-Tuning-Paradigmen zu bewältigen und effizienteres und modulareres Transferlernen zu fördern. Die Bibliothek ist unter https://adapterhub.ml/adapters verfügbar.

Text-to-Sticker: Stiloptimierung latenter Diffusionsmodelle für menschlichen Ausdruck
Text-to-Sticker: Style Tailoring Latent Diffusion Models for Human Expression

Nov 17

ByAnimesh Sinha, Bo Sun, Anmol Kalia, Arantxa Casanova, Elliot Blanchard, David Yan, Winnie Zhang, Tony Nelli, Jiahui Chen, Hardik Shah, Licheng Yu, Mitesh Kumar Singh, Ankit Ramchandani, Maziar Sanjabi, Sonal Gupta, Amy Bearman, Dhruv Mahajan

Wir stellen Style Tailoring vor, eine Methode zur Feinabstimmung von Latent Diffusion Models (LDMs) in einem spezifischen Bereich mit hoher visueller Qualität, Prompt-Ausrichtung und Szenenvielfalt. Wir wählen die Erzeugung von Sticker-Bildern als Zielbereich, da sich diese Bilder deutlich von fotorealistischen Beispielen unterscheiden, die typischerweise von großskaligen LDMs generiert werden. Wir beginnen mit einem leistungsfähigen Text-zu-Bild-Modell wie Emu und zeigen, dass die alleinige Verwendung von Prompt-Engineering mit einem fotorealistischen Modell zur Erzeugung von Stickern zu einer schlechten Prompt-Ausrichtung und Szenenvielfalt führt. Um diese Nachteile zu überwinden, passen wir zunächst Emu auf Millionen von stickerähnlichen Bildern an, die mit schwacher Supervision gesammelt wurden, um Vielfalt zu fördern. Anschließend kuratieren wir Human-in-the-Loop (HITL)-Alignment- und Style-Datensätze aus den Modellgenerierungen und führen Feinabstimmungen durch, um die Prompt-Ausrichtung bzw. die Stilausrichtung zu verbessern. Die sequenzielle Feinabstimmung auf diesen Datensätzen stellt einen Kompromiss zwischen besserer Stilausrichtung und Verbesserungen der Prompt-Ausrichtung dar. Um diesen Kompromiss zu adressieren, schlagen wir eine neuartige Feinabstimmungsmethode namens Style Tailoring vor, die die Inhalts- und Stilverteilung gemeinsam anpasst und den besten Kompromiss erreicht. Evaluierungsergebnisse zeigen, dass unsere Methode die visuelle Qualität um 14 %, die Prompt-Ausrichtung um 16,2 % und die Szenenvielfalt um 15,3 % verbessert, verglichen mit dem Prompt-Engineering des Basismodells Emu zur Sticker-Erzeugung.

LucidDreamer: Auf dem Weg zur hochauflösenden Text-zu-3D-Generierung durch Intervall-Score-Matching
LucidDreamer: Towards High-Fidelity Text-to-3D Generation via Interval Score Matching

Nov 19

ByYixun Liang, Xin Yang, Jiantao Lin, Haodong Li, Xiaogang Xu, Yingcong Chen

Die jüngsten Fortschritte in der Text-zu-3D-Generierung markieren einen bedeutenden Meilenstein in generativen Modellen und eröffnen neue Möglichkeiten zur Erstellung kreativer 3D-Assets in verschiedenen realen Szenarien. Obwohl die jüngsten Fortschritte in der Text-zu-3D-Generierung vielversprechend sind, bleiben sie oft hinter der Erzeugung detaillierter und hochwertiger 3D-Modelle zurück. Dieses Problem ist besonders ausgeprägt, da viele Methoden auf Score Distillation Sampling (SDS) basieren. In diesem Papier wird eine bemerkenswerte Schwäche von SDS identifiziert: Es liefert inkonsistente und qualitativ minderwertige Aktualisierungsrichtungen für das 3D-Modell, was zu einem übermäßigen Glättungseffekt führt. Um dies zu beheben, schlagen wir einen neuartigen Ansatz namens Interval Score Matching (ISM) vor. ISM verwendet deterministische Diffusionspfade und nutzt intervallbasiertes Score Matching, um der Überglättung entgegenzuwirken. Darüber hinaus integrieren wir 3D Gaussian Splatting in unsere Text-zu-3D-Generierungspipeline. Umfangreiche Experimente zeigen, dass unser Modell in Bezug auf Qualität und Trainings effizienz den Stand der Technik deutlich übertrifft.

Gedächtnisverstärkte Sprachmodelle durch Mischung von Wortexperten
Memory Augmented Language Models through Mixture of Word Experts

Nov 15

ByCicero Nogueira dos Santos, James Lee-Thorp, Isaac Noble, Chung-Ching Chang, David Uthus

Das Hochskalieren der Anzahl von Parametern in Sprachmodellen hat sich als effektiver Ansatz erwiesen, um die Leistung zu verbessern. Bei dichten Modellen führt eine Vergrößerung des Modells proportional zu einem Anstieg des Rechenaufwands. In dieser Arbeit streben wir an, die Lernkapazität und die FLOPs (Floating Point Operations) durch Mixture-of-Experts (MoE)-Modelle mit leistungsstarken, wissensbasierten Routing-Funktionen und Experten stark zu entkoppeln. Unser vorgeschlagener Ansatz, genannt Mixture of Word Experts (MoWE), kann als ein speichererweitertes Modell betrachtet werden, bei dem eine große Anzahl von wort-spezifischen Experten die Rolle eines spärlichen Speichers übernehmen. Wir zeigen, dass MoWE in einer Vielzahl von NLP-Aufgaben deutlich besser abschneidet als die T5-Modellfamilie mit einer ähnlichen Anzahl von FLOPs. Darüber hinaus übertrifft MoWE reguläre MoE-Modelle bei wissensintensiven Aufgaben und erreicht eine ähnliche Leistung wie komplexere speichererweiterte Ansätze, die oft spezielle Mechanismen zur Suche im spärlichen Speicher erfordern.

AutoStory: Erzeugung vielfältiger erzählerischer Bilder mit minimalem menschlichem Aufwand
AutoStory: Generating Diverse Storytelling Images with Minimal Human Effort

Nov 19

ByWen Wang, Canyu Zhao, Hao Chen, Zhekai Chen, Kecheng Zheng, Chunhua Shen

Story Visualization zielt darauf ab, eine Reihe von Bildern zu generieren, die der in Texten beschriebenen Geschichte entsprechen, wobei die generierten Bilder hohe Qualität, Übereinstimmung mit der Textbeschreibung und Konsistenz in den Charakteridentitäten aufweisen müssen. Angesichts der Komplexität der Story Visualization vereinfachen bestehende Methoden das Problem drastisch, indem sie nur wenige spezifische Charaktere und Szenarien berücksichtigen oder von den Benutzern pro-Bild-Kontrollbedingungen wie Skizzen verlangen. Diese Vereinfachungen machen diese Methoden jedoch für reale Anwendungen ungeeignet. Daher schlagen wir ein automatisiertes Story-Visualisierungssystem vor, das effektiv diverse, hochwertige und konsistente Sets von Story-Bildern mit minimaler menschlicher Interaktion generieren kann. Konkret nutzen wir die Verständnis- und Planungsfähigkeiten großer Sprachmodelle für die Layoutplanung und setzen dann großskalige Text-zu-Bild-Modelle ein, um anspruchsvolle Story-Bilder basierend auf dem Layout zu generieren. Empirisch stellen wir fest, dass spärliche Kontrollbedingungen wie Begrenzungsrahmen für die Layoutplanung geeignet sind, während dichte Kontrollbedingungen, z.B. Skizzen und Keypoints, für die Generierung hochwertiger Bildinhalte geeignet sind. Um das Beste aus beiden Welten zu erhalten, entwickeln wir ein Modul zur Generierung dichter Bedingungen, das einfache Begrenzungsrahmenlayouts in Skizzen- oder Keypoint-Kontrollbedingungen für die endgültige Bildgenerierung umwandelt, was nicht nur die Bildqualität verbessert, sondern auch einfache und intuitive Benutzerinteraktionen ermöglicht. Darüber hinaus schlagen wir eine einfache, aber effektive Methode zur Generierung von konsistenten Charakterbildern aus mehreren Blickwinkeln vor, die die Abhängigkeit von menschlicher Arbeit zur Sammlung oder Zeichnung von Charakterbildern beseitigt.

ProAgent: Von der Robotic Process Automation zur agentenbasierten Prozessautomatisierung
ProAgent: From Robotic Process Automation to Agentic Process Automation

Nov 2

ByYining Ye, Xin Cong, Shizuo Tian, Jiannan Cao, Hao Wang, Yujia Qin, Yaxi Lu, Heyang Yu, Huadong Wang, Yankai Lin, Zhiyuan Liu, Maosong Sun

Von antiken Wasserrädern bis hin zur Robotic Process Automation (RPA) hat sich die Automatisierungstechnologie im Laufe der Geschichte weiterentwickelt, um den Menschen von mühsamen Aufgaben zu befreien. Dennoch stößt RPA bei Aufgaben an ihre Grenzen, die menschenähnliche Intelligenz erfordern, insbesondere bei der komplexen Gestaltung von Workflow-Konstruktionen und der dynamischen Entscheidungsfindung während der Workflow-Ausführung. Da Large Language Models (LLMs) menschenähnliche Intelligenz entwickelt haben, stellt dieses Paper Agentic Process Automation (APA) vor, ein bahnbrechendes Automatisierungsparadigma, das LLM-basierte Agenten für fortschrittliche Automatisierung einsetzt, indem es menschliche Arbeit auf Agenten verlagert, die mit der Konstruktion und Ausführung betraut sind. Wir präsentieren ProAgent, einen LLM-basierten Agenten, der darauf ausgelegt ist, Workflows aus menschlichen Anweisungen zu erstellen und komplexe Entscheidungen durch die Koordination spezialisierter Agenten zu treffen. Empirische Experimente werden durchgeführt, um die Konstruktion und Ausführungsprozedur des Workflows detailliert darzustellen, die Machbarkeit von APA zu demonstrieren und die Möglichkeit eines neuen, von Agenten getriebenen Automatisierungsparadigmas aufzuzeigen. Unser Code ist öffentlich verfügbar unter https://github.com/OpenBMB/ProAgent.

TPTU-v2: Verbesserung der Aufgabenplanung und Werkzeugnutzung von auf großen Sprachmodellen basierenden Agenten in realen Systemen
TPTU-v2: Boosting Task Planning and Tool Usage of Large Language Model-based Agents in Real-world Systems

Nov 19

ByYilun Kong, Jingqing Ruan, Yihong Chen, Bin Zhang, Tianpeng Bao, Shiwei Shi, Guoqing Du, Xiaoru Hu, Hangyu Mao, Ziyue Li, Xingyu Zeng, Rui Zhao

Große Sprachmodelle (LLMs) haben ihre Fähigkeit bewiesen, Aufgaben zu bewältigen, die eine Kombination aus Aufgabenplanung und der Nutzung externer Werkzeuge erfordern, wie beispielsweise APIs. Allerdings stellen reale komplexe Systeme drei weit verbreitete Herausforderungen in Bezug auf Aufgabenplanung und Werkzeugnutzung dar: (1) Das reale System verfügt in der Regel über eine Vielzahl von APIs, sodass es unmöglich ist, die Beschreibungen aller APIs in den Prompt der LLMs einzugeben, da die Token-Länge begrenzt ist; (2) das reale System ist für die Bewältigung komplexer Aufgaben konzipiert, und die Basis-LLMs können kaum eine korrekte Reihenfolge von Teilaufgaben und API-Aufrufen für solche Aufgaben planen; (3) Ähnliche Semantiken und Funktionalitäten zwischen APIs in realen Systemen stellen sowohl für LLMs als auch für Menschen eine Herausforderung dar, sie voneinander zu unterscheiden. Als Antwort darauf stellt dieses Papier ein umfassendes Framework vor, das darauf abzielt, die Fähigkeiten zur Aufgabenplanung und Werkzeugnutzung (TPTU) von LLM-basierten Agenten in realen Systemen zu verbessern. Unser Framework besteht aus drei Schlüsselkomponenten, die diese Herausforderungen angehen: (1) der API-Retriever wählt die relevantesten APIs für die Benutzeraufgabe aus der umfangreichen verfügbaren Auswahl aus; (2) der LLM-Finetuner passt ein Basis-LLM an, sodass das feinabgestimmte LLM besser in der Lage ist, Aufgaben zu planen und API-Aufrufe durchzuführen; (3) der Demo-Selector ruft adaptiv verschiedene Demonstrationen zu schwer zu unterscheidenden APIs ab, die weiterhin für In-Context-Learning verwendet werden, um die endgültige Leistung zu steigern. Wir validieren unsere Methoden anhand eines realen kommerziellen Systems sowie eines Open-Source-Akademie-Datensatzes, und die Ergebnisse zeigen deutlich die Wirksamkeit jeder einzelnen Komponente sowie des integrierten Frameworks.

M^{2}UGen: Multi-modales Musikverständnis und -generierung mit der Leistungsfähigkeit großer Sprachmodelle
M^{2}UGen: Multi-modal Music Understanding and Generation with the Power of Large Language Models

Nov 19

ByAtin Sakkeer Hussain, Shansong Liu, Chenshuo Sun, Ying Shan

Die aktuelle Forschungslage, die große Sprachmodelle (LLMs) nutzt, erlebt einen deutlichen Aufschwung. Viele Arbeiten nutzen die leistungsstarken Fähigkeiten dieser Modelle, um verschiedene Modalitäten wie Text, Sprache, Bilder, Videos usw. zu verstehen. Sie verwenden LLMs auch, um menschliche Absichten zu erfassen und gewünschte Ausgaben wie Bilder, Videos und Musik zu generieren. Dennoch ist die Forschung, die sowohl das Verständnis als auch die Generierung mit LLMs kombiniert, noch begrenzt und befindet sich in einem frühen Stadium. Um diese Lücke zu schließen, stellen wir ein Multi-modales Musikverständnis- und Generierungsframework (M^{2}UGen) vor, das die Fähigkeiten von LLMs integriert, um Musik für verschiedene Modalitäten zu verstehen und zu generieren. Das M^{2}UGen-Framework wurde speziell entwickelt, um kreatives Potenzial aus verschiedenen Inspirationsquellen wie Musik, Bildern und Videos durch die Verwendung von vortrainierten MERT-, ViT- und ViViT-Modellen freizusetzen. Um die Musikgenerierung zu ermöglichen, untersuchen wir den Einsatz von AudioLDM 2 und MusicGen. Die Brücke zwischen multi-modalem Verständnis und Musikgenerierung wird durch die Integration des LLaMA 2-Modells geschlagen. Darüber hinaus nutzen wir das MU-LLaMA-Modell, um umfangreiche Datensätze zu generieren, die die Text-/Bild-/Video-zu-Musik-Generierung unterstützen und das Training unseres M^{2}UGen-Frameworks erleichtern. Wir führen eine umfassende Bewertung unseres vorgeschlagenen Frameworks durch. Die experimentellen Ergebnisse zeigen, dass unser Modell die Leistung der aktuellen State-of-the-Art-Modelle erreicht oder übertrifft.

GPT-4V(ision) für Robotik: Multimodale Aufgabenplanung aus menschlichen Demonstrationen
GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration

Nov 20

ByNaoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi

Wir stellen eine Pipeline vor, die ein allgemeines Vision-Language-Modell, GPT-4V(ision), durch die Integration von Beobachtungen menschlicher Handlungen erweitert, um robotische Manipulationen zu ermöglichen. Dieses System analysiert Videos von Menschen, die Aufgaben ausführen, und erstellt ausführbare Roboterprogramme, die Affordance-Erkenntnisse einbeziehen. Die Berechnung beginnt mit der Analyse der Videos durch GPT-4V, um Umgebungs- und Handlungsdetails in Text umzuwandeln, gefolgt von einem durch GPT-4 unterstützten Aufgabenplaner. In den folgenden Analysen untersuchen Vision-Systeme das Video erneut mit dem Aufgabenplan. Objektnamen werden mithilfe eines Open-Vocabulary-Objekterkenners verankert, während der Fokus auf der Hand-Objekt-Beziehung hilft, den Moment des Greifens und Loslassens zu erkennen. Diese räumlich-zeitliche Verankerung ermöglicht es den Vision-Systemen, weitere Affordance-Daten (z. B. Greiftyp, Wegpunkte und Körperhaltungen) zu sammeln. Experimente in verschiedenen Szenarien demonstrieren die Wirksamkeit dieser Methode, um Operationen realer Roboter aus menschlichen Demonstrationen in einem Zero-Shot-Verfahren zu erreichen. Die Prompts von GPT-4V/GPT-4 sind auf der Projektseite verfügbar: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/

TPTU-v2: Verbesserung der Aufgabenplanung und Werkzeugnutzung von auf großen Sprachmodellen basierenden Agenten in realen Systemen
TPTU-v2: Boosting Task Planning and Tool Usage of Large Language Model-based Agents in Real-world Systems

Nov 19

ByYilun Kong, Jingqing Ruan, Yihong Chen, Bin Zhang, Tianpeng Bao, Shiwei Shi, Guoqing Du, Xiaoru Hu, Hangyu Mao, Ziyue Li, Xingyu Zeng, Rui Zhao