HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

13 papers found

LLaVA-Med: Training eines großen Sprach- und Bildassistenten für die Biomedizin an einem Tag
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

Jun 1

ByChunyuan Li, Cliff Wong, Sheng Zhang, Naoto Usuyama, Haotian Liu, Jianwei Yang, Tristan Naumann, Hoifung Poon, Jianfeng Gao

Konversationelle generative KI hat bemerkenswertes Potenzial gezeigt, um biomedizinische Fachkräfte zu unterstützen, doch konzentrieren sich aktuelle Untersuchungen auf unimodalen Text. Multimodale konversationelle KI hat durch die Nutzung von Milliarden von Bild-Text-Paaren aus dem öffentlichen Web rasche Fortschritte gemacht, doch solchen allgemeinen Vision-Sprache-Modellen fehlt es noch an Raffinesse im Verständnis und in der Konversation über biomedizinische Bilder. In diesem Artikel schlagen wir einen kosteneffizienten Ansatz vor, um einen Vision-Sprache-Konversationsassistenten zu trainieren, der offene Forschungsfragen zu biomedizinischen Bildern beantworten kann. Die zentrale Idee besteht darin, einen groß angelegten, breit gefächerten biomedizinischen Bild-Beschreibungs-Datensatz aus PubMed Central zu nutzen, GPT-4 zur Selbstinstruktion offener befehlsfolgender Daten aus den Beschreibungen zu verwenden und dann ein großes allgemeines Vision-Sprache-Modell mit einer neuartigen Curriculum-Learning-Methode zu feintunen. Konkret lernt das Modell zunächst, biomedizinische Begriffe anhand der Bild-Beschreibungs-Paare auszurichten, und beherrscht dann offene konversationelle Semantik mithilfe der von GPT-4 generierten befehlsfolgenden Daten, was grob dem Prozess ähnelt, wie ein Laie schrittweise biomedizinisches Wissen erwirbt. Dies ermöglicht es uns, einen großen Sprach- und Vision-Assistenten für die Biomedizin (LLaVA-Med) in weniger als 15 Stunden (mit acht A100s) zu trainieren. LLaVA-Med zeigt hervorragende multimodale Konversationsfähigkeiten und kann offene Anweisungen befolgen, um Anfragen zu einem biomedizinischen Bild zu unterstützen. Auf drei standardisierten biomedizinischen visuellen Frage-Antwort-Datensätzen übertrifft LLaVA-Med in bestimmten Metriken den bisherigen überwachten State-of-the-Art. Um die biomedizinische multimodale Forschung zu fördern, werden wir unsere befehlsfolgenden Daten und das LLaVA-Med-Modell veröffentlichen.

StyleDrop: Text-zu-Bild-Generierung in jedem Stil
StyleDrop: Text-to-Image Generation in Any Style

Jun 1

ByKihyuk Sohn, Nataniel Ruiz, Kimin Lee, Daniel Castro Chin, Irina Blok, Huiwen Chang, Jarred Barber, Lu Jiang, Glenn Entis, Yuanzhen Li, Yuan Hao, Irfan Essa, Michael Rubinstein, Dilip Krishnan

Vortrainierte große Text-zu-Bild-Modelle erzeugen beeindruckende Bilder durch den geeigneten Einsatz von Textprompts. Allerdings machen die inhärenten Mehrdeutigkeiten der natürlichen Sprache und Effekte außerhalb der Trainingsverteilung es schwierig, Bildstile zu synthetisieren, die ein spezifisches Designmuster, eine Textur oder ein Material nutzen. In diesem Artikel stellen wir StyleDrop vor, eine Methode, die die Synthese von Bildern ermöglicht, die einem bestimmten Stil treu folgen, basierend auf einem Text-zu-Bild-Modell. Die vorgeschlagene Methode ist äußerst vielseitig und erfasst Nuancen und Details eines vom Benutzer bereitgestellten Stils, wie Farbschemata, Schattierungen, Designmuster sowie lokale und globale Effekte. Sie lernt effizient einen neuen Stil, indem sie sehr wenige trainierbare Parameter (weniger als 1 % der gesamten Modellparameter) feinabstimmt und die Qualität durch iteratives Training mit menschlichem oder automatisiertem Feedback verbessert. Noch besser: StyleDrop liefert beeindruckende Ergebnisse, selbst wenn der Benutzer nur ein einziges Bild angibt, das den gewünschten Stil definiert. Eine umfangreiche Studie zeigt, dass StyleDrop, implementiert auf Muse, bei der Aufgabe der Stilanpassung von Text-zu-Bild-Modellen andere Methoden, einschließlich DreamBooth und Textual Inversion auf Imagen oder Stable Diffusion, überzeugend übertrifft. Weitere Ergebnisse sind auf unserer Projektwebsite verfügbar: https://styledrop.github.io.

Größer, Besser, Schneller: Menschliches Niveau bei Atari mit menschlicher Effizienz
Bigger, Better, Faster: Human-level Atari with human-level efficiency

May 30

ByMax Schwarzer, Johan Obando-Ceron, Aaron Courville, Marc Bellemare, Rishabh Agarwal, Pablo Samuel Castro

Wir stellen einen wertbasierten RL-Agenten vor, den wir BBF nennen, der übermenschliche Leistungen im Atari 100K-Benchmark erzielt. BBF stützt sich auf die Skalierung der neuronalen Netze, die für die Werteabschätzung verwendet werden, sowie auf eine Reihe weiterer Designentscheidungen, die diese Skalierung auf eine probeneffiziente Weise ermöglichen. Wir führen umfangreiche Analysen dieser Designentscheidungen durch und liefern Erkenntnisse für zukünftige Arbeiten. Wir schließen mit einer Diskussion über die Aktualisierung der Zielvorgaben für probeneffiziente RL-Forschung auf der ALE. Unseren Code und unsere Daten stellen wir öffentlich unter https://github.com/google-research/google-research/tree/master/bigger_better_faster zur Verfügung.

Verständnis und Minderung von Kopiervorgängen in Diffusionsmodellen
Understanding and Mitigating Copying in Diffusion Models

May 31

ByGowthami Somepalli, Vasu Singla, Micah Goldblum, Jonas Geiping, Tom Goldstein

Bilder, die von Diffusionsmodellen wie Stable Diffusion erzeugt werden, sind zunehmend verbreitet. Jüngste Arbeiten und sogar Gerichtsverfahren haben gezeigt, dass diese Modelle dazu neigen, ihre Trainingsdaten zu replizieren, ohne dass der Benutzer dies bemerkt. In diesem Artikel analysieren wir zunächst dieses Memorierungsproblem in textgesteuerten Diffusionsmodellen. Während allgemein angenommen wird, dass doppelte Bilder im Trainingsdatensatz für die Inhaltsreplikation zur Inferenzzeit verantwortlich sind, beobachten wir, dass die Textkonditionierung des Modells eine ebenso wichtige Rolle spielt. Tatsächlich zeigen unsere Experimente, dass Datenreplikation bei unbedingten Modellen oft nicht auftritt, während sie im textkonditionierten Fall häufig vorkommt. Motiviert durch unsere Erkenntnisse schlagen wir anschließend mehrere Techniken vor, um die Datenreplikation sowohl während des Trainings als auch zur Inferenzzeit zu reduzieren, indem wir Bildbeschreibungen im Trainingsdatensatz randomisieren und erweitern.

Blockweise paralleler Transformer für große Modelle mit langem Kontext
Blockwise Parallel Transformer for Long Context Large Models

May 30

ByHao Liu, Pieter Abbeel

Transformer haben sich als Eckpfeiler modernster Modelle der natürlichen Sprachverarbeitung etabliert und zeigen außergewöhnliche Leistungen in einer Vielzahl von KI-Anwendungen. Die Speicheranforderungen, die durch den Selbstaufmerksamkeitsmechanismus und das große Feedforward-Netzwerk in Transformern entstehen, begrenzen jedoch ihre Fähigkeit, lange Sequenzen zu verarbeiten, was Herausforderungen bei Aufgaben mit mehreren langen Sequenzen oder langfristigen Abhängigkeiten schafft. Wir stellen einen innovativen Ansatz vor, den Blockweise Parallelen Transformer (BPT), der die blockweise Berechnung der Selbstaufmerksamkeit und die Fusion des Feedforward-Netzwerks nutzt, um die Speicherkosten zu minimieren. Durch die Verarbeitung längerer Eingabesequenzen bei gleichzeitiger Beibehaltung der Speichereffizienz ermöglicht BPT die Verarbeitung von Trainingssequenzen, die bis zu 32-mal länger sind als bei herkömmlichen Transformern und 2 bis 4-mal länger als bei bisherigen speichereffizienten Methoden. Umfangreiche Experimente zu Sprachmodellierungs- und Reinforcement-Learning-Aufgaben demonstrieren die Wirksamkeit von BPT bei der Reduzierung der Speicheranforderungen und der Verbesserung der Leistung.

Verbesserung des CLIP-Trainings durch Sprachumformulierungen
Improving CLIP Training with Language Rewrites

May 31

ByLijie Fan, Dilip Krishnan, Phillip Isola, Dina Katabi, Yonglong Tian

Contrastive Language-Image Pre-training (CLIP) gilt als eine der effektivsten und skalierbarsten Methoden zur Schulung übertragbarer Vision-Modelle mithilfe von gepaarten Bild- und Textdaten. CLIP-Modelle werden mit einem kontrastiven Verlust trainiert, der typischerweise auf Datenaugmentierungen angewiesen ist, um Überanpassung und Abkürzungen zu verhindern. Im CLIP-Trainingsparadigma werden Datenaugmentierungen jedoch ausschließlich auf Bildinputs angewendet, während Sprachinputs während des gesamten Trainingsprozesses unverändert bleiben, was die Exposition vielfältiger Texte für dasselbe Bild einschränkt. In diesem Artikel stellen wir Language augmented CLIP (LaCLIP) vor, einen einfachen, aber äußerst effektiven Ansatz zur Verbesserung des CLIP-Trainings durch Sprachumformulierungen. Unter Nutzung der In-Context-Learning-Fähigkeit großer Sprachmodelle formulieren wir die Textbeschreibungen, die mit jedem Bild verknüpft sind, um. Diese umformulierten Texte weisen Vielfalt in Satzstruktur und Vokabular auf, bewahren jedoch die ursprünglichen Schlüsselkonzepte und Bedeutungen. Während des Trainings wählt LaCLIP zufällig entweder die Originaltexte oder die umformulierten Versionen als Textaugmentierungen für jedes Bild aus. Umfangreiche Experimente auf den Datensätzen CC3M, CC12M, RedCaps und LAION-400M zeigen, dass das CLIP-Pretraining mit Sprachumformulierungen die Transferleistung signifikant verbessert, ohne zusätzlichen Rechen- oder Speicheraufwand während des Trainings zu verursachen. Insbesondere bei der ImageNet Zero-Shot-Genauigkeit übertrifft LaCLIP CLIP um 8,2 % auf CC12M und 2,4 % auf LAION-400M. Der Code ist verfügbar unter https://github.com/LijieFan/LaCLIP.

ReviewerGPT? Eine explorative Studie zur Nutzung großer Sprachmodelle für die Begutachtung wissenschaftlicher Artikel
ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing

Jun 1

ByRyan Liu, Nihar B. Shah

Angesichts des rasanten Aufstiegs großer Sprachmodelle (LLMs) untersuchen wir die Frage: (Wie) können große Sprachmodelle bei der Begutachtung wissenschaftlicher Artikel oder Anträge helfen? Zunächst führen wir einige Pilotstudien durch, in denen wir feststellen, dass (i) GPT-4 andere LLMs (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM) übertrifft und (ii) das Prompting mit einer spezifischen Frage (z. B. zur Identifizierung von Fehlern) dem Prompting, einfach eine Rezension zu schreiben, überlegen ist. Mit diesen Erkenntnissen untersuchen wir den Einsatz von LLMs (insbesondere GPT-4) für drei Aufgaben: 1. **Identifizierung von Fehlern**: Wir erstellen 13 kurze Informatikpapiere, in denen jeweils ein absichtlicher Fehler eingefügt wurde, und bitten das LLM, die Korrektheit dieser Papiere zu überprüfen. Wir beobachten, dass das LLM in 7 dieser Papiere Fehler findet, die sowohl mathematische als auch konzeptionelle Fehler umfassen. 2. **Überprüfung von Checklisten**: Wir beauftragen das LLM, 16 geschlossene Checklistenfragen in den jeweiligen Abschnitten von 15 NeurIPS 2022-Papieren zu überprüfen. Wir stellen fest, dass das LLM bei 119 {Checklistenfrage, Papier}-Paaren eine Genauigkeit von 86,6 % erreicht. 3. **Auswahl des „besseren“ Papiers**: Wir generieren 10 Paare von Abstracts, wobei jedes Paar absichtlich so gestaltet ist, dass ein Abstract deutlich überlegen ist. Das LLM hatte jedoch Schwierigkeiten, diese relativ einfachen Unterscheidungen genau zu erkennen und machte bei 6 der 10 Paare Fehler in seinen Bewertungen. Basierend auf diesen Experimenten denken wir, dass LLMs vielversprechende Anwendungsmöglichkeiten als Begutachtungsassistenten für spezifische Begutachtungsaufgaben haben, jedoch (noch) nicht für vollständige Bewertungen von Papieren oder Anträgen.

Control4D: Dynamische Porträtbearbeitung durch Erlernen eines 4D-GANs aus einem 2D-Diffusionsbasierten Editor
Control4D: Dynamic Portrait Editing by Learning 4D GAN from 2D Diffusion-based Editor

May 31

ByRuizhi Shao, Jingxiang Sun, Cheng Peng, Zerong Zheng, Boyao Zhou, Hongwen Zhang, Yebin Liu

In den letzten Jahren wurden erhebliche Fortschritte bei der Bearbeitung von Bildern mit Textanweisungen erzielt. Wenn diese Editoren jedoch auf die Bearbeitung dynamischer Szenen angewendet werden, neigt die neu gestaltete Szene aufgrund der Frame-für-Frame-Natur dieser 2D-Editoren zu zeitlicher Inkonsistenz. Um dieses Problem zu lösen, schlagen wir Control4D vor, einen neuartigen Ansatz für hochwertige und zeitlich konsistente 4D-Porträtbearbeitung. Control4D basiert auf einer effizienten 4D-Darstellung mit einem 2D-Diffusions-basierten Editor. Anstatt direkte Überwachungen des Editors zu verwenden, lernt unsere Methode ein 4D-GAN daraus und vermeidet inkonsistente Überwachungssignale. Insbesondere setzen wir einen Diskriminator ein, um die Generierungsverteilung basierend auf den bearbeiteten Bildern zu lernen, und aktualisieren dann den Generator mit den Diskriminierungssignalen. Für ein stabileres Training werden mehrstufige Informationen aus den bearbeiteten Bildern extrahiert und verwendet, um das Lernen des Generators zu erleichtern. Experimentelle Ergebnisse zeigen, dass Control4D frühere Ansätze übertrifft und fotorealistischere und konsistentere 4D-Bearbeitungsleistungen erzielt. Der Link zu unserer Projektwebsite ist https://control4darxiv.github.io.

Effiziente Diffusionsstrategien für Offline Reinforcement Learning
Efficient Diffusion Policies for Offline Reinforcement Learning

May 31

ByBingyi Kang, Xiao Ma, Chao Du, Tianyu Pang, Shuicheng Yan

Offline Reinforcement Learning (RL) zielt darauf ab, optimale Strategien aus Offline-Datensätzen zu lernen, wobei die Parametrisierung der Strategien entscheidend, aber oft vernachlässigt wird. Kürzlich hat Diffusion-QL die Leistung von Offline RL erheblich gesteigert, indem es eine Strategie mit einem Diffusionsmodell darstellt, dessen Erfolg auf einer parametrisierten Markov-Kette mit Hunderten von Schritten für das Sampling beruht. Allerdings leidet Diffusion-QL unter zwei kritischen Einschränkungen. 1) Es ist rechenineffizient, während des Trainings die gesamte Markov-Kette vorwärts und rückwärts zu durchlaufen. 2) Es ist nicht kompatibel mit Maximum-Likelihood-basierten RL-Algorithmen (z.B. Policy-Gradient-Methoden), da die Likelihood von Diffusionsmodellen nicht handhabbar ist. Daher schlagen wir Efficient Diffusion Policy (EDP) vor, um diese beiden Herausforderungen zu bewältigen. EDP konstruiert während des Trainings näherungsweise Aktionen aus korrumpierten Aktionen, um das Durchlaufen der Sampling-Kette zu vermeiden. Wir führen umfangreiche Experimente auf dem D4RL-Benchmark durch. Die Ergebnisse zeigen, dass EDP die Trainingszeit der Diffusionsstrategie von 5 Tagen auf 5 Stunden bei Gym-Locomotion-Aufgaben reduzieren kann. Darüber hinaus zeigen wir, dass EDP mit verschiedenen Offline-RL-Algorithmen (TD3, CRR und IQL) kompatibel ist und auf D4RL mit großem Abstand neue State-of-the-Art-Ergebnisse erzielt. Unser Code ist verfügbar unter https://github.com/sail-sg/edp.

Menschen in 4D: Rekonstruktion und Verfolgung von Menschen mit Transformern
Humans in 4D: Reconstructing and Tracking Humans with Transformers

May 31

ByShubham Goel, Georgios Pavlakos, Jathushan Rajasegaran, Angjoo Kanazawa, Jitendra Malik

Wir präsentieren einen Ansatz zur Rekonstruktion von Personen und ihrer Verfolgung über die Zeit. Im Kern unseres Ansatzes schlagen wir eine vollständig "transformatorisierte" Version eines Netzwerks für die Wiederherstellung von menschlichen Meshes vor. Dieses Netzwerk, HMR 2.0, setzt neue Maßstäbe und zeigt die Fähigkeit, ungewöhnliche Posen zu analysieren, die in der Vergangenheit schwer aus einzelnen Bildern zu rekonstruieren waren. Zur Analyse von Videos verwenden wir 3D-Rekonstruktionen von HMR 2.0 als Eingabe für ein Tracking-System, das in 3D arbeitet. Dies ermöglicht es uns, mit mehreren Personen umzugehen und Identitäten durch Okklusionsereignisse hindurch beizubehalten. Unser vollständiger Ansatz, 4DHumans, erzielt state-of-the-art Ergebnisse bei der Verfolgung von Personen aus monokularen Videos. Darüber hinaus demonstrieren wir die Effektivität von HMR 2.0 bei der nachgelagerten Aufgabe der Aktionserkennung und erzielen signifikante Verbesserungen gegenüber früheren pose-basierten Ansätzen zur Aktionserkennung. Unser Code und unsere Modelle sind auf der Projektwebsite verfügbar: https://shubham-goel.github.io/4dhumans/.

PlaSma: Verbesserung kleiner Sprachmodelle als Modelle für prozedurales Wissen für (kontrafaktische) Planung
PlaSma: Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning

May 31

ByFaeze Brahman, Chandra Bhagavatula, Valentina Pyatkin, Jena D. Hwang, Xiang Lorraine Li, Hirona J. Arai, Soumya Sanyal, Keisuke Sakaguchi, Xiang Ren, Yejin Choi

Prozedurale Planung, die die Zerlegung eines übergeordneten Ziels in eine Sequenz zeitlich geordneter Schritte umfasst, ist eine wichtige, aber komplexe Aufgabe für Maschinen. Sie erfordert die Integration von Alltagswissen, um über komplexe, kontextualisierte Situationen zu schlussfolgern, die oft kontrafaktisch sind, z.B. „einen Arzttermin ohne Telefon vereinbaren“. Obwohl aktuelle Ansätze mit großen Sprachmodellen (LLMs) vielversprechende Ergebnisse zeigen, werden sie durch Nachteile wie kostspielige API-Aufrufe und Reproduzierbarkeitsprobleme eingeschränkt. In diesem Papier plädieren wir für die Planung mit kleineren Sprachmodellen. Wir stellen PlaSma vor, einen neuartigen zweigleisigen Ansatz, um kleinen Sprachmodellen prozedurales Wissen und (kontrafaktische) Planungsfähigkeiten zu verleihen. Konkret entwickeln wir eine symbolische prozedurale Wissensdestillation, um das implizite Wissen in kleinen Sprachmodellen zu erweitern, sowie einen Inferenzzeit-Algorithmus, um strukturierteres und präziseres Schlussfolgern zu ermöglichen. Zusätzlich führen wir eine neue Aufgabe, die kontrafaktische Planung, ein, die eine Überarbeitung eines Plans erfordert, um mit einer kontrafaktischen Situation umzugehen. Sowohl im ursprünglichen als auch im kontrafaktischen Kontext zeigen wir, dass um Größenordnungen kleinere Modelle (770M-11B Parameter) mit den Fähigkeiten ihrer größeren Lehrermodelle konkurrieren und diese oft übertreffen können.

Planen und Generieren: Ein erweitertes Prompting-Framework für die Textgenerierung
Deliberate then Generate: Enhanced Prompting Framework for Text Generation

May 31

ByBei Li, Rui Wang, Junliang Guo, Kaitao Song, Xu Tan, Hany Hassan, Arul Menezes, Tong Xiao, Jiang Bian, JingBo Zhu

Große Sprachmodelle (LLMs) haben bemerkenswerte Erfolge in einer Vielzahl von Aufgaben zur natürlichen Sprachgenerierung gezeigt, bei denen die richtige Gestaltung von Prompts einen erheblichen Einfluss hat. Während bestehende Prompting-Methoden normalerweise darauf beschränkt sind, korrekte Informationen bereitzustellen, ermutigen wir in diesem Artikel das Modell zur Reflexion, indem wir ein neuartiges Deliberate then Generate (DTG)-Prompting-Framework vorschlagen, das aus Fehlererkennungsanweisungen und Kandidaten besteht, die Fehler enthalten können. DTG ist eine einfache, aber effektive Technik, die mit minimalen Anpassungen auf verschiedene Textgenerierungsaufgaben angewendet werden kann. Wir führen umfangreiche Experimente auf mehr als 20 Datensätzen über 7 Textgenerierungsaufgaben durch, darunter Zusammenfassung, Übersetzung, Dialog und mehr. Wir zeigen, dass DTG bestehende Prompting-Methoden konsequent übertrifft und Spitzenleistungen in mehreren Textgenerierungsaufgaben erzielt. Wir bieten auch detaillierte Analysen, um die zugrunde liegenden Mechanismen von DTG aufzudecken, die zukünftige Forschungen zum Prompting für LLMs inspirieren könnten.

Mensch oder nicht? Ein spielerischer Ansatz zum Turing-Test
Human or Not? A Gamified Approach to the Turing Test

May 31

ByDaniel Jannai, Amos Meron, Barak Lenz, Yoav Levine, Yoav Shoham

Wir präsentieren „Human or Not?“, ein Online-Spiel, das vom Turing-Test inspiriert ist und die Fähigkeit von KI-Chatbots misst, menschliche Dialoge nachzuahmen, sowie die Fähigkeit von Menschen, Bots von anderen Menschen zu unterscheiden. Im Laufe eines Monats wurde das Spiel von über 1,5 Millionen Nutzern gespielt, die anonyme Zwei-Minuten-Chatsitzungen entweder mit einem anderen Menschen oder mit einem KI-Sprachmodell führten, das darauf programmiert war, sich wie ein Mensch zu verhalten. Die Aufgabe der Spieler bestand darin, korrekt zu erraten, ob sie mit einer Person oder einer KI sprachen. Dieser bisher größte Turing-Test im Stil eines Experiments brachte einige interessante Erkenntnisse ans Licht. Beispielsweise errieten die Nutzer die Identität ihrer Gesprächspartner insgesamt nur in 68 % der Fälle richtig. In der Teilmenge der Spiele, in denen die Nutzer auf einen KI-Bot trafen, lag die Rate der korrekten Vermutungen sogar bei nur 60 % (also kaum höher als der Zufallswert). Dieses Whitepaper beschreibt detailliert die Entwicklung, Durchführung und Ergebnisse dieses einzigartigen Experiments. Während dieses Experiment viele Erweiterungen und Verfeinerungen erfordert, werfen diese Erkenntnisse bereits ein Licht auf die unvermeidliche nahe Zukunft, in der Menschen und KI miteinander verschmelzen werden.

LLaVA-Med: Training eines großen Sprach- und Bildassistenten für die Biomedizin an einem Tag
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

Jun 1

ByChunyuan Li, Cliff Wong, Sheng Zhang, Naoto Usuyama, Haotian Liu, Jianwei Yang, Tristan Naumann, Hoifung Poon, Jianfeng Gao