HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

13 papers found

Aya-Datensatz: Eine offen zugängliche Sammlung für mehrsprachiges Instruction Tuning
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning

Feb 9

ByShivalika Singh, Freddie Vargus, Daniel Dsouza, Börje F. Karlsson, Abinaya Mahendiran, Wei-Yin Ko, Herumb Shandilya, Jay Patel, Deividas Mataciunas, Laura OMahony, Mike Zhang, Ramith Hettiarachchi, Joseph Wilson, Marina Machado, Luisa Souza Moura, Dominik Krzemiński, Hakimeh Fadaei, Irem Ergün, Ifeoma Okoh, Aisha Alaagib, Oshan Mudannayake, Zaid Alyafeai, Vu Minh Chien, Sebastian Ruder, Surya Guthikonda, Emad A. Alghamdi, Sebastian Gehrmann, Niklas Muennighoff, Max Bartolo, Julia Kreutzer, Ahmet Üstün, Marzieh Fadaee, Sara Hooker

Datasets sind grundlegend für viele Durchbrüche in der modernen künstlichen Intelligenz. Viele der jüngsten Erfolge im Bereich der natürlichen Sprachverarbeitung (NLP) lassen sich auf das Feinabstimmen vortrainierter Modelle auf eine Vielzahl von Aufgaben zurückführen, wodurch ein großes Sprachmodell (LLM) in der Lage ist, auf Anweisungen zu reagieren. Die Feinabstimmung auf Anweisungen (Instruction Fine-Tuning, IFT) erfordert speziell konstruierte und annotierte Datensätze. Allerdings sind bestehende Datensätze fast ausschließlich in englischer Sprache verfasst. In dieser Arbeit besteht unser primäres Ziel darin, die Sprachlücke zu schließen, indem wir einen von Menschen kuratierten Datensatz zur Befolgung von Anweisungen erstellen, der 65 Sprachen umfasst. Wir haben mit fließenden Sprechern von Sprachen aus der ganzen Welt zusammengearbeitet, um natürliche Beispiele von Anweisungen und deren Ausführungen zu sammeln. Darüber hinaus erstellen wir die bisher umfangreichste mehrsprachige Sammlung, die durch das Templating und Übersetzen bestehender Datensätze über 114 Sprachen hinweg 513 Millionen Instanzen umfasst. Insgesamt tragen wir vier Schlüsselressourcen bei: Wir entwickeln und veröffentlichen die Aya Annotation Platform, den Aya Dataset, die Aya Collection und das Aya Evaluation Suite. Die Aya-Initiative dient auch als wertvolle Fallstudie in der partizipativen Forschung, an der Mitarbeiter aus 119 Ländern beteiligt sind. Wir sehen dies als ein wertvolles Rahmenwerk für zukünftige Forschungskooperationen, die darauf abzielen, Lücken in Ressourcen zu schließen.

InternLM-Math: Offene mathematische Large Language Models in Richtung verifizierbarer Schlussfolgerungen
InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning

Feb 9

ByHuaiyuan Ying, Shuo Zhang, Linyang Li, Zhejian Zhou, Yunfan Shao, Zhaoye Fei, Yichuan Ma, Jiawei Hong, Kuikun Liu, Ziyi Wang, Yudong Wang, Zijian Wu, Shuaibin Li, Fengzhe Zhou, Hongwei Liu, Songyang Zhang, Wenwei Zhang, Hang Yan, Xipeng Qiu, Jiayu Wang, Kai Chen, Dahua Lin

Die mathematischen Fähigkeiten großer Sprachmodelle können ihre abstrakte Denkfähigkeit widerspiegeln. In diesem Artikel stellen wir unser mathematisches Reasoning-LLM InternLM-Math vor, das wir quelloffen veröffentlichen und das auf InternLM2 weiter vortrainiert wurde. Wir vereinen Chain-of-Thought-Reasoning, Reward-Modellierung, formales Reasoning, Datenanreicherung und Code-Interpreter in einem einheitlichen Seq2Seq-Format und überwachen unser Modell, um es zu einem vielseitigen mathematischen Denker, Verifizierer, Beweiser und Anreicherer zu machen. Diese Fähigkeiten können genutzt werden, um die nächste Generation mathematischer LLMs oder Selbstiterationen zu entwickeln. InternLM-Math erzielt quelloffene State-of-the-Art-Leistungen unter den Bedingungen von In-Context-Learning, überwachtem Fine-Tuning und codegestütztem Reasoning in verschiedenen informellen und formalen Benchmarks, darunter GSM8K, MATH, Ungarische Mathematikprüfung, MathBench-ZH und MiniF2F. Unser vortrainiertes Modell erreicht 30,3 auf dem MiniF2F-Testset ohne Fine-Tuning. Wir untersuchen weiterhin, wie LEAN zur Lösung mathematischer Probleme eingesetzt werden kann, und analysieren seine Leistung im Rahmen von Multi-Task-Learning, was die Möglichkeit aufzeigt, LEAN als einheitliche Plattform für das Lösen und Beweisen in der Mathematik zu nutzen. Unsere Modelle, Codes und Daten sind unter https://github.com/InternLM/InternLM-Math veröffentlicht.

HeadStudio: Text zu animierbaren Kopf-Avataren mit 3D-Gaußscher Splatting
HeadStudio: Text to Animatable Head Avatars with 3D Gaussian Splatting

Feb 9

ByZhenglin Zhou, Fan Ma, Hehe Fan, Yi Yang

Die Erstellung digitaler Avatare aus textuellen Eingabeaufforderungen war lange Zeit eine wünschenswerte, aber herausfordernde Aufgabe. Trotz der vielversprechenden Ergebnisse, die in jüngsten Arbeiten durch 2D-Diffusions-Priors erzielt wurden, stehen aktuelle Methoden vor Herausforderungen bei der effektiven Erzeugung hochwertiger und animierter Avatare. In diesem Artikel präsentieren wir HeadStudio, ein neuartiges Framework, das 3D-Gaussian-Splatting nutzt, um realistische und animierte Avatare aus Textaufforderungen zu generieren. Unsere Methode steuert 3D-Gaussians semantisch, um durch die intermediäre FLAME-Darstellung ein flexibles und erreichbares Erscheinungsbild zu schaffen. Konkret integrieren wir FLAME sowohl in die 3D-Darstellung als auch in die Score-Distillation: 1) FLAME-basiertes 3D-Gaussian-Splatting, bei dem 3D-Gaussian-Punkte durch die Verknüpfung jedes Punkts mit einem FLAME-Mesh gesteuert werden. 2) FLAME-basiertes Score-Distillation-Sampling, das FLAME-basierte fein abgestimmte Steuersignale nutzt, um die Score-Distillation aus der Textaufforderung zu leiten. Umfangreiche Experimente demonstrieren die Wirksamkeit von HeadStudio bei der Erzeugung animierbarer Avatare aus textuellen Eingabeaufforderungen, die visuell ansprechende Erscheinungsbilder aufweisen. Die Avatare sind in der Lage, hochwertige Echtzeitansichten (≥ 40 fps) in einer Auflösung von 1024 zu rendern. Sie können nahtlos durch reale Sprache und Videos gesteuert werden. Wir hoffen, dass HeadStudio die Erstellung digitaler Avatare vorantreiben kann und dass die vorgestellte Methode in verschiedenen Bereichen weitreichend Anwendung findet.

MusicMagus: Zero-Shot-Text-zu-Musik-Bearbeitung mittels Diffusionsmodellen
MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models

Feb 9

ByYixiao Zhang, Yukara Ikemiya, Gus Xia, Naoki Murata, Marco Martínez, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon

Jüngste Fortschritte in Text-zu-Musik-Generierungsmodellen haben neue Wege in der musikalischen Kreativität eröffnet. Allerdings erfordert die Musikgenerierung in der Regel iterative Verfeinerungen, und die Bearbeitung der generierten Musik bleibt eine große Herausforderung. Dieses Papier stellt einen neuartigen Ansatz zur Bearbeitung von Musik vor, die durch solche Modelle erzeugt wurde, und ermöglicht die Modifikation spezifischer Attribute wie Genre, Stimmung und Instrument, während andere Aspekte unverändert bleiben. Unsere Methode transformiert Textbearbeitung in eine Manipulation des latenten Raums, während eine zusätzliche Einschränkung hinzugefügt wird, um Konsistenz zu gewährleisten. Sie integriert sich nahtlos in bestehende vortrainierte Text-zu-Musik-Diffusionsmodelle, ohne zusätzliches Training zu erfordern. Experimentelle Ergebnisse zeigen eine überlegene Leistung gegenüber sowohl Zero-Shot- als auch bestimmten überwachten Baseline-Modellen in Bewertungen von Stil- und Klangfarbentransfer. Zudem demonstrieren wir die praktische Anwendbarkeit unseres Ansatzes in realen Musikbearbeitungsszenarien.

ViGoR: Verbesserung der visuellen Verankerung großer visuell-sprachlicher Modelle durch feinkörnige Belohnungsmodellierung
ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling

Feb 9

BySiming Yan, Min Bai, Weifeng Chen, Xiong Zhou, Qixing Huang, Li Erran Li

Durch die Kombination von natürlichem Sprachverständnis, den Generierungsfähigkeiten und der breiten Wissensbasis großer Sprachmodelle mit der Bildwahrnehmung haben aktuelle große visuell-sprachliche Modelle (LVLMs) beispiellose Fähigkeiten zur Schlussfolgerung in der realen Welt gezeigt. Allerdings leidet der generierte Text oft unter einer ungenauen Verankerung im visuellen Input, was zu Fehlern wie der Halluzination nicht vorhandener Szenelemente, dem Übersehen signifikanter Teile der Szene sowie der falschen Ableitung von Attributen und Beziehungen zwischen Objekten führt. Um diese Probleme zu adressieren, stellen wir ein neuartiges Framework vor, ViGoR (Visual Grounding Through Fine-Grained Reward Modeling), das feinkörnige Belohnungsmodellierung nutzt, um die visuelle Verankerung von LVLMs im Vergleich zu vortrainierten Baselines signifikant zu verbessern. Diese Verbesserung wird effizient durch wesentlich kostengünstigere menschliche Bewertungen anstelle vollständiger Supervision sowie automatisierte Methoden erreicht. Wir zeigen die Wirksamkeit unseres Ansatzes durch zahlreiche Metriken auf mehreren Benchmarks. Zusätzlich erstellen wir einen umfassenden und anspruchsvollen Datensatz, der speziell zur Validierung der visuellen Verankerungsfähigkeiten von LVLMs entwickelt wurde. Schließlich planen wir, unsere menschliche Annotation, bestehend aus etwa 16.000 Bildern und generierten Textpaaren mit feinkörnigen Bewertungen, zu veröffentlichen, um damit einen Beitrag zur verwandten Forschung in der Community zu leisten.

Keyframer: Unterstützung des Animationsdesigns durch große Sprachmodelle
Keyframer: Empowering Animation Design using Large Language Models

Feb 8

ByTiffany Tseng, Ruijia Cheng, Jeffrey Nichols

Große Sprachmodelle (LLMs) haben das Potenzial, eine Vielzahl von kreativen Bereichen zu beeinflussen, doch die Anwendung von LLMs in der Animation ist bisher wenig erforscht und stellt neue Herausforderungen dar, wie beispielsweise die effektive Beschreibung von Bewegung in natürlicher Sprache durch Benutzer. In diesem Artikel stellen wir Keyframer vor, ein Designtool zur Animation statischer Bilder (SVGs) mit natürlicher Sprache. Basierend auf Interviews mit professionellen Animationsdesignern und -ingenieuren unterstützt Keyframer die Exploration und Verfeinerung von Animationen durch die Kombination von Prompting und direkter Bearbeitung der generierten Ergebnisse. Das System ermöglicht es Benutzern auch, Designvarianten anzufordern, was den Vergleich und die Ideenfindung fördert. Durch eine Nutzerstudie mit 13 Teilnehmern tragen wir eine Charakterisierung der Prompting-Strategien der Benutzer bei, einschließlich einer Taxonomie semantischer Prompt-Typen zur Beschreibung von Bewegung und einem „zerlegten“ Prompting-Stil, bei dem Benutzer ihre Ziele kontinuierlich an die generierten Ergebnisse anpassen. Wir zeigen, wie die direkte Bearbeitung in Kombination mit Prompting eine Iteration über Einmal-Prompting-Schnittstellen hinaus ermöglicht, die in heutigen generativen Tools üblich sind. Durch diese Arbeit schlagen wir vor, wie LLMs ein breites Publikum dazu befähigen könnten, sich mit der Erstellung von Animationen zu beschäftigen.

Modellbearbeitung mit kanonischen Beispielen
Model Editing with Canonical Examples

Feb 9

ByJohn Hewitt, Sarah Chen, Lanruo Lora Xie, Edward Adams, Percy Liang, Christopher D. Manning

Wir stellen das Modell-Editing mit kanonischen Beispielen vor, ein Setting, in dem (1) ein einzelnes Lernbeispiel für jedes gewünschte Verhalten bereitgestellt wird, (2) die Evaluation ausschließlich außerhalb der Verteilung durchgeführt wird und (3) die Abweichung von einem initialen Modell streng begrenzt ist. Ein kanonisches Beispiel ist eine einfache Instanz eines guten Verhaltens (z. B. „Die Hauptstadt von Mauritius ist Port Louis“) oder eines schlechten Verhaltens (z. B. „Ein Aspekt von Forschern ist herzlos“). Der Evaluationssatz enthält komplexere Beispiele für jedes Verhalten (wie einen Absatz, in dem die Hauptstadt von Mauritius genannt wird). Wir erstellen drei Datensätze und modifizieren drei weitere für das Modell-Editing mit kanonischen Beispielen, die wissensintensive Verbesserungen, die Minderung sozialer Verzerrungen und syntaktische Grenzfälle abdecken. In unseren Experimenten mit Pythia-Sprachmodellen stellen wir fest, dass LoRA das vollständige Fine-Tuning und MEMIT übertrifft. Anschließend wenden wir uns der Backpack-Sprachmodellarchitektur zu, da sie gezielte Verbesserungen ermöglichen soll. Der Backpack definiert eine große Bank von Sinnvektoren – eine Zerlegung der verschiedenen Verwendungen jedes Wortes –, die gewichtet und summiert werden, um die Ausgabe-Logits des Modells zu bilden. Wir schlagen das Sinn-Fine-Tuning vor, das einige (ca. 10) Sinnvektoren für jedes kanonische Beispiel auswählt und feinabstimmt, und stellen fest, dass es andere Fine-Tuning-Methoden übertrifft (z. B. 4,8 % Verbesserung gegenüber 0,3 %). Schließlich verbessern wir GPT-J-6B durch ein Inferenzzeit-Ensemble mit nur den Änderungen aus dem Sinn-Fine-Tuning eines 35-mal kleineren Backpacks und übertreffen in einem Setting sogar das Editing von GPT-J selbst (4,1 % gegenüber 1,0 %).

SubGen: Token-Generierung in sublinearer Zeit und mit sublinearem Speicher
SubGen: Token Generation in Sublinear Time and Memory

Feb 8

ByAmir Zandieh, Insu Han, Vahab Mirrokni, Amin Karbasi

Trotz der beachtlichen Erfolge großer Sprachmodelle (LLMs) stellen deren umfangreiche Speicheranforderungen Herausforderungen bei der Bereitstellung für die Erzeugung von Tokens mit langem Kontext dar. Der erhebliche Speicherbedarf von LLM-Decodern ergibt sich aus der Notwendigkeit, alle vorherigen Tokens im Attention-Modul zu speichern, eine Anforderung, die durch das Key-Value (KV)-Caching auferlegt wird. In dieser Arbeit konzentrieren wir uns auf die Entwicklung einer effizienten Kompressionstechnik für den KV-Cache. Empirische Belege deuten auf eine signifikante Clusterbildung innerhalb der Key-Embeddings im Attention-Modul hin. Aufbauend auf dieser zentralen Erkenntnis haben wir eine neuartige Caching-Methode mit sublinearer Komplexität entwickelt, die Online-Clustering für Key-Tokens und Online-ell_2-Sampling für Werte einsetzt. Das Ergebnis ist ein nachweislich genauer und effizienter Attention-Decodierungsalgorithmus, genannt SubGen. Dieser Algorithmus gewährleistet nicht nur einen sublinearen Speicherbedarf und eine sublineare Zeitkomplexität, sondern wir stellen auch eine enge Fehlerschranke für unseren Ansatz auf. Empirische Auswertungen bei Aufgaben zur Beantwortung von Fragen mit langem Kontext zeigen, dass SubGen bestehende und state-of-the-art KV-Cache-Kompressionsmethoden in Bezug auf Leistung und Effizienz deutlich übertrifft.

Animierte Sticker: Sticker mit Video-Diffusion zum Leben erwecken
Animated Stickers: Bringing Stickers to Life with Video Diffusion

Feb 8

ByDavid Yan, Winnie Zhang, Luxin Zhang, Anmol Kalia, Dingkang Wang, Ankit Ramchandani, Miao Liu, Albert Pumarola, Edgar Schoenfeld, Elliot Blanchard, Krishna Narni, Yaqiao Luo, Lawrence Chen, Guan Pang, Ali Thabet, Peter Vajda, Amy Bearman, Licheng Yu

Wir stellen animierte Sticker vor, ein Video-Diffusionsmodell, das eine Animation basierend auf einem Textprompt und einem statischen Sticker-Bild erzeugt. Unser Modell baut auf dem state-of-the-art Emu Text-zu-Bild-Modell auf, ergänzt durch temporale Schichten zur Modellierung von Bewegung. Aufgrund der Domänenlücke, d.h. der Unterschiede im visuellen und Bewegungsstil, kann ein Modell, das bei der Erzeugung natürlicher Videos gut abschneidet, keine lebendigen Videos mehr erzeugen, wenn es auf Sticker angewendet wird. Um diese Lücke zu überbrücken, verwenden wir eine zweistufige Feinabstimmungs-Pipeline: zunächst mit schwach domänenspezifischen Daten, gefolgt von einer Human-in-the-Loop (HITL)-Strategie, die wir als Ensemble-of-Teachers bezeichnen. Diese destilliert die besten Eigenschaften mehrerer Lehrer in ein kleineres Schülermodell. Wir zeigen, dass diese Strategie es uns ermöglicht, gezielt Verbesserungen der Bewegungsqualität zu erreichen, während der Stil des statischen Bildes beibehalten wird. Durch Inferenzoptimierungen ist unser Modell in der Lage, ein acht Bilder umfassendes Video mit hochwertiger, interessanter und relevanter Bewegung in weniger als einer Sekunde zu erzeugen.

Premier-TACO: Vortraining von Multitask-Repräsentationen durch temporal gesteuerte Kontrastverlustfunktion
Premier-TACO: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss

Feb 9

ByRuijie Zheng, Yongyuan Liang, Xiyao Wang, Shuang Ma, Hal Daumé III, Huazhe Xu, John Langford, Praveen Palanisamy, Kalyan Shankar Basu, Furong Huang

Wir präsentieren Premier-TACO, einen Ansatz zum Lernen von Multitask-Featurerepräsentationen, der darauf abzielt, die Effizienz des Few-Shot-Policy-Lernens in sequenziellen Entscheidungsaufgaben zu verbessern. Premier-TACO nutzt eine Teilmenge von Multitask-Offline-Datensätzen, um eine allgemeine Featurerepräsentation vorzutrainieren, die kritische Umgebungsdynamiken erfasst und mit minimalen Experten-Demonstrationen feinabgestimmt wird. Es erweitert das Ziel des temporalen aktionskontrastiven Lernens (TACO), das für state-of-the-art Ergebnisse in visuellen Steuerungsaufgaben bekannt ist, durch die Einführung einer neuartigen Strategie zur Stichprobenziehung negativer Beispiele. Diese Strategie ist entscheidend, um die Recheneffizienz von TACO erheblich zu steigern und groß angelegtes Multitask-Offline-Pretraining praktikabel zu machen. Unsere umfangreiche empirische Auswertung in einer Vielzahl von Continuous-Control-Benchmarks, darunter Deepmind Control Suite, MetaWorld und LIBERO, demonstriert die Wirksamkeit von Premier-TACO beim Vortrainieren visueller Repräsentationen, wodurch das Few-Shot-Imitation-Lernen neuer Aufgaben signifikant verbessert wird. Unser Code, die Vortrainingsdaten sowie vortrainierte Modell-Checkpoints werden unter https://github.com/PremierTACO/premier-taco veröffentlicht.

Unterdrückung von rosa Elefanten durch direkte Prinzipienrückmeldung
Suppressing Pink Elephants with Direct Principle Feedback

Feb 12

ByLouis Castricato, Nathan Lile, Suraj Anand, Hailey Schoelkopf, Siddharth Verma, Stella Biderman

Bestehende Methoden zur Steuerung von Sprachmodellen, wie RLHF und Constitutional AI, beinhalten die Bestimmung, welche Verhaltensweisen von LLMs erwünscht sind, und deren Einbindung in ein Sprachmodell durch Training. In vielen Fällen ist es jedoch wünschenswert, dass LLMs zur Inferenzzeit steuerbar sind, damit sie in verschiedenen Kontexten mit unterschiedlichen Anforderungen eingesetzt werden können. Dies veranschaulichen wir mit dem Pink-Elefanten-Problem: Ein LLM wird angewiesen, eine bestimmte Entität (einen „Rosa Elefanten“) nicht zu erwähnen und stattdessen eine bevorzugte Entität („Grauer Elefant“) zu diskutieren. Wir wenden eine neuartige Vereinfachung von Constitutional AI an, Direct Principle Feedback, das das Ranking von Antworten überspringt und DPO direkt auf Kritiken und Überarbeitungen anwendet. Unsere Ergebnisse zeigen, dass nach der DPF-Feinabstimmung auf unserem synthetischen Pink-Elefanten-Datensatz unser feinabgestimmtes 13B-LLaMA-2-Modell Llama-2-13B-Chat und eine Baseline mit Prompting deutlich übertrifft und auf unserem kuratierten Testset zur Bewertung des Pink-Elefanten-Problems genauso gut abschneidet wie GPT-4.

DeAL: Decodierungszeit-Ausrichtung für große Sprachmodelle
DeAL: Decoding-time Alignment for Large Language Models

Feb 5

ByJames Y. Huang, Sailik Sengupta, Daniele Bonadiman, Yi-an Lai, Arshit Gupta, Nikolaos Pappas, Saab Mansour, Katrin Kirchoff, Dan Roth

Große Sprachmodelle (LLMs) werden heutzutage erwartet, Inhalte zu generieren, die mit menschlichen Präferenzen übereinstimmen. Aktuelle Arbeiten konzentrieren sich auf die Ausrichtung während des Modelltrainings durch Techniken wie Reinforcement Learning mit menschlichem Feedback (RLHF). Es ist jedoch unklar, ob solche Methoden eine effektive Wahl sind, um Ausrichtungsziele dem Modell beizubringen. Erstens sind die Unfähigkeit, mehrere, benutzerdefinierte Belohnungen zu integrieren, und die Abhängigkeit von der Sicht eines Modellentwicklers auf universelle und statische Prinzipien wesentliche Einschränkungen. Zweitens sind die verbleibenden Lücken im Modelltraining und die Zuverlässigkeit solcher Ansätze ebenfalls fraglich (z. B. Anfälligkeit für Jailbreaking auch nach Sicherheitstraining). Um diese Probleme zu adressieren, schlagen wir DeAL vor, ein Framework, das es dem Benutzer ermöglicht, Belohnungsfunktionen anzupassen und die Ausrichtung von LLMs zur Dekodierungszeit (DeAL) zu ermöglichen. Im Kern betrachten wir die Dekodierung als einen heuristisch geführten Suchprozess und erleichtern die Verwendung einer Vielzahl von Ausrichtungszielen. Unsere Experimente mit programmatischen Einschränkungen wie Schlüsselwort- und Längenbeschränkungen (die in der Vor-LLM-Ära weitgehend untersucht wurden) und abstrakten Zielen wie Schadlosigkeit und Hilfsbereitschaft (die in der Post-LLM-Ära vorgeschlagen wurden) zeigen, dass wir mit DeAL fein abgestimmte Kompromisse handhaben, die Einhaltung von Ausrichtungszielen verbessern und verbleibende Lücken in LLMs adressieren können. Schließlich, obwohl DeAL effektiv mit RLHF und Prompting-Techniken kombiniert werden kann, macht seine Allgemeingültigkeit die Dekodierung langsamer, eine Optimierung, die wir zukünftigen Arbeiten überlassen.

Echtzeit-Steuerung von starren Körpern in realen Flüssigkeiten durch Deep Reinforcement Learning
Real-World Fluid Directed Rigid Body Control via Deep Reinforcement Learning

Feb 8

ByMohak Bhardwaj, Thomas Lampe, Michael Neunert, Francesco Romano, Abbas Abdolmaleki, Arunkumar Byravan, Markus Wulfmeier, Martin Riedmiller, Jonas Buchli

Jüngste Fortschritte in realen Anwendungen des Reinforcement Learning (RL) basieren auf der Fähigkeit, Systeme in großem Maßstab präzise zu simulieren. Domänen wie fluiddynamische Systeme weisen jedoch komplexe dynamische Phänomene auf, die bei hohen Integrationsraten schwer zu simulieren sind, was die direkte Anwendung moderner Deep-RL-Algorithmen auf oft kostspielige oder sicherheitskritische Hardware einschränkt. In dieser Arbeit stellen wir "Box o Flows" vor, ein neuartiges experimentelles Steuerungssystem für die systematische Bewertung von RL-Algorithmen in dynamischen realen Szenarien. Wir beschreiben die Schlüsselkomponenten der Box o Flows und demonstrieren durch eine Reihe von Experimenten, wie state-of-the-art modellfreie RL-Algorithmen eine Vielzahl komplexer Verhaltensweisen über einfache Belohnungsspezifikationen synthetisieren können. Darüber hinaus untersuchen wir die Rolle des Offline-RL bei der dateneffizienten Hypothesentestung durch die Wiederverwendung vergangener Erfahrungen. Wir glauben, dass die Erkenntnisse aus dieser Vorstudie und die Verfügbarkeit von Systemen wie der Box o Flows den Weg für die Entwicklung systematischer RL-Algorithmen ebnen, die allgemein auf komplexe, dynamische Systeme angewendet werden können. Ergänzendes Material und Videos der Experimente sind verfügbar unter https://sites.google.com/view/box-o-flows/home.

Aya-Datensatz: Eine offen zugängliche Sammlung für mehrsprachiges Instruction Tuning
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning

Feb 9