HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

21 papers found

XLand-100B: Ein umfangreiches Multi-Task-Datenset für kontextbezogenes Reinforcement Learning
XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning

Jun 13

ByAlexander Nikulin, Ilya Zisman, Alexey Zemtsov, Viacheslav Sinii, Vladislav Kurenkov, Sergey Kolesnikov

Nach dem Erfolg des In-Context-Lernparadigmas in groß angelegten Sprach- und Computer Vision-Modellen erlebt das kürzlich aufkommende Gebiet des In-Context-Reinforcement-Lernens ein rasches Wachstum. Allerdings wird seine Entwicklung durch den Mangel an anspruchsvollen Benchmarks gehemmt, da alle Experimente in einfachen Umgebungen und auf kleinen Datensätzen durchgeführt wurden. Wir präsentieren XLand-100B, einen groß angelegten Datensatz für In-Context-Reinforcement-Learning, basierend auf der XLand-MiniGrid-Umgebung, als ersten Schritt zur Behebung dieses Problems. Er enthält vollständige Lernverläufe für nahezu 30.000 verschiedene Aufgaben, die 100 Milliarden Übergänge und 2,5 Milliarden Episoden abdecken. Es dauerte 50.000 GPU-Stunden, um den Datensatz zu sammeln, was die meisten akademischen Labore übersteigt. Zusammen mit dem Datensatz stellen wir die Tools zur Verfügung, um ihn zu reproduzieren oder sogar weiter auszubauen. Mit diesem erheblichen Aufwand zielen wir darauf ab, die Forschung im schnell wachsenden Bereich des In-Context-Reinforcement-Lernens zu demokratisieren und eine solide Grundlage für weitere Skalierung zu schaffen. Der Code ist Open-Source und unter der Apache 2.0 Lizenz verfügbar unter https://github.com/dunno-lab/xland-minigrid-datasets.

Mach es zählbar: Text-zu-Bild Generierung mit einer genauen Anzahl von Objekten
Make It Count: Text-to-Image Generation with an Accurate Number of Objects

Jun 14

ByLital Binyamin, Yoad Tewel, Hilit Segev, Eran Hirsch, Royi Rassin, Gal Chechik

Trotz des beispiellosen Erfolgs von Text-zu-Bild-Diffusionsmodellen ist es überraschend schwierig, die Anzahl der dargestellten Objekte mithilfe von Text zu kontrollieren. Dies ist wichtig für verschiedene Anwendungen von technischen Dokumenten über Kinderbücher bis hin zur Illustration von Kochrezepten. Die Generierung von objektkorrekten Zählungen ist grundsätzlich anspruchsvoll, da das generative Modell für jede Instanz des Objekts ein separates Identitätsgefühl bewahren muss, selbst wenn mehrere Objekte identisch aussehen oder sich überschneiden, und dann implizit während der Generierung eine globale Berechnung durchführen muss. Es ist immer noch unbekannt, ob solche Repräsentationen existieren. Um die korrekte Generierung von Zählungen anzugehen, identifizieren wir zunächst Merkmale innerhalb des Diffusionsmodells, die die Objektidentitätsinformationen tragen können. Wir verwenden sie dann, um Instanzen von Objekten während des Rauschunterdrückungsprozesses zu trennen und zu zählen und Über- und Untererzeugung zu erkennen. Letzteres beheben wir, indem wir ein Modell trainieren, das sowohl die Form als auch den Standort eines fehlenden Objekts vorhersagt, basierend auf der Anordnung der vorhandenen Objekte, und zeigen, wie es zur Anleitung der Rauschunterdrückung mit korrekter Objektanzahl verwendet werden kann. Unser Ansatz, CountGen, ist nicht auf externe Quellen angewiesen, um die Objektanordnung zu bestimmen, sondern nutzt vielmehr das Priorwissen des Diffusionsmodells selbst, um promptabhängige und seedabhängige Layouts zu erstellen. Bei der Evaluierung anhand von zwei Benchmark-Datensätzen stellen wir fest, dass CountGen die Zählgenauigkeit bestehender Baselines deutlich übertrifft.

ChartMimic: Evaluierung der Cross-Modalen Schlussfolgerungsfähigkeit von LMM durch die Generierung von Diagrammen zu Code.
ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation

Jun 14

ByChufan Shi, Cheng Yang, Yaxin Liu, Bo Shui, Junjie Wang, Mohan Jing, Linran Xu, Xinyu Zhu, Siheng Li, Yuxiang Zhang, Gongye Liu, Xiaomei Nie, Deng Cai, Yujiu Yang

Wir stellen einen neuen Leistungsmaßstab namens ChartMimic vor, der darauf abzielt, die visuell fundierten Codegenerierungsfähigkeiten großer multimodaler Modelle (LMMs) zu bewerten. ChartMimic nutzt informationsintensive visuelle Diagramme und textuelle Anweisungen als Eingaben, wodurch LMMs aufgefordert werden, den entsprechenden Code zur Diagrammdarstellung zu generieren. ChartMimic umfasst 1.000 von Menschen kuratierte (Abbildung, Anweisung, Code)-Triplets, die die authentischen Diagrammnutzungsfälle in wissenschaftlichen Arbeiten verschiedener Bereiche (z. B. Physik, Informatik, Wirtschaftswissenschaften usw.) repräsentieren. Diese Diagramme erstrecken sich über 18 reguläre Typen und 4 fortgeschrittene Typen, die sich in 191 Unterkategorien aufgliedern. Darüber hinaus schlagen wir mehrstufige Bewertungsmetriken vor, um eine automatische und gründliche Bewertung des Ausgabecodes und der gerenderten Diagramme bereitzustellen. Im Gegensatz zu bestehenden Codegenerierungs-Leistungsmaßstäben legt ChartMimic den Schwerpunkt darauf, die Fähigkeit von LMMs zu bewerten, eine Mischung kognitiver Fähigkeiten in Einklang zu bringen, die visuelles Verständnis, Codegenerierung und kreuzmodale Schlussfolgerungen umfassen. Die Bewertung von 3 proprietären Modellen und 11 Open-Weight-Modellen verdeutlicht die erheblichen Herausforderungen, die ChartMimic darstellt. Selbst die fortgeschrittenen Modelle GPT-4V und Claude-3-opus erreichen nur durchschnittliche Punktzahlen von 73,2 bzw. 53,7, was auf erheblichen Verbesserungsbedarf hinweist. Wir erwarten, dass ChartMimic die Entwicklung von LMMs inspirieren wird und so die Verfolgung der künstlichen allgemeinen Intelligenz vorantreibt.

Nadel im multimodalen Heuhaufen
Needle In A Multimodal Haystack

Jun 11

ByWeiyun Wang, Shuibo Zhang, Yiming Ren, Yuchen Duan, Tiantong Li, Shuo Liu, Mengkang Hu, Zhe Chen, Kaipeng Zhang, Lewei Lu, Xizhou Zhu, Ping Luo, Yu Qiao, Jifeng Dai, Wenqi Shao, Wenhai Wang

Mit dem raschen Fortschritt von multimodalen großen Sprachmodellen (MLLMs) ist ihre Bewertung zunehmend umfassend geworden. Dennoch bleibt das Verständnis von langen multimodalen Inhalten als grundlegende Fähigkeit für Anwendungen in der realen Welt bisher unerforscht. In dieser Arbeit präsentieren wir Needle In A Multimodal Haystack (MM-NIAH), den ersten Benchmark, der speziell entwickelt wurde, um systematisch die Fähigkeit bestehender MLLMs zu bewerten, lange multimodale Dokumente zu erfassen. Unser Benchmark umfasst drei Arten von Evaluierungsaufgaben: multimodale Suche, Zählen und Schlussfolgern. In jeder Aufgabe muss das Modell Fragen gemäß unterschiedlicher Schlüsselinformationen beantworten, die über das gegebene multimodale Dokument verstreut sind. Bei der Evaluierung der führenden MLLMs auf MM-NIAH stellen wir fest, dass bestehende Modelle noch erhebliches Verbesserungspotenzial bei diesen Aufgaben haben, insbesondere bei der visionären Bewertung. Wir hoffen, dass diese Arbeit eine Plattform für weitere Forschung zur Erfassung von langen multimodalen Dokumenten bieten kann und zum Fortschritt von MLLMs beiträgt. Der Code und der Benchmark sind unter https://github.com/OpenGVLab/MM-NIAH verfügbar.

BABILong: Testen der Grenzen von LLMs mit langem Kontext Reasoning-in-a-Haystack
BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack

Jun 14

ByYuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev

In den letzten Jahren haben sich die Eingabekontextgrößen großer Sprachmodelle (LLMs) dramatisch erhöht. Allerdings sind die bestehenden Bewertungsmethoden nicht Schritt gehalten und konnten die Effizienz der Modelle im Umgang mit langen Kontexten nicht umfassend bewerten. Um diese Lücke zu schließen, führen wir den BABILong-Benchmark ein, der entwickelt wurde, um die Fähigkeit von Sprachmodellen zu testen, Schlussfolgerungen aus Fakten zu ziehen, die in extrem langen Dokumenten verteilt sind. BABILong umfasst eine vielfältige Sammlung von 20 Schlussfolgerungsaufgaben, darunter Faktenschluss, einfache Induktion, Deduktion, Zählen und den Umgang mit Listen/Mengen. Diese Aufgaben sind anspruchsvoll für sich allein und noch anspruchsvoller, wenn die erforderlichen Fakten über lange natürliche Texte verteilt sind. Unsere Bewertungen zeigen, dass beliebte LLMs effektiv nur 10-20\% des Kontexts nutzen und ihre Leistung mit zunehmender Schlussfolgerungskomplexität stark abnimmt. Unter den Alternativen zum In-Context-Schlussfolgern erreichen Methoden zur abgerufenen Generierung eine bescheidene Genauigkeit von 60\% bei der Beantwortung von Ein-Fakt-Fragen, unabhängig von der Kontextlänge. Unter den Methoden zur Kontexterweiterung wird die höchste Leistung von rekurrenten Speichertransformatoren demonstriert, die die Verarbeitung von Längen von bis zu 11 Millionen Tokens ermöglichen. Der BABILong-Benchmark ist auf jede Länge erweiterbar, um die Bewertung neuer bevorstehender Modelle mit erweiterten Fähigkeiten zu unterstützen, und wir stellen Aufteilungen bis zu einer Länge von 1 Million Tokens bereit.

SEACrowd: Ein multilingualer multimodaler Datendreh- und Benchmark-Satz für südostasiatische Sprachen
SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages

Jun 14

ByHoly Lovenia, Rahmad Mahendra, Salsabil Maulana Akbar, Lester James V. Miranda, Jennifer Santoso, Elyanah Aco, Akhdan Fadhilah, Jonibek Mansurov, Joseph Marvin Imperial, Onno P. Kampman, Joel Ruben Antony Moniz, Muhammad Ravi Shulthan Habibi, Frederikus Hudi, Railey Montalan, Ryan Ignatius, Joanito Agili Lopo, William Nixon, Börje F. Karlsson, James Jaya, Ryandito Diandaru, Yuze Gao, Patrick Amadeus, Bin Wang, Jan Christian Blaise Cruz, Chenxi Whitehouse, Ivan Halim Parmonangan, Maria Khelli, Wenyu Zhang, Lucky Susanto, Reynard Adha Ryanda, Sonny Lazuardi Hermawan, Dan John Velasco, Muhammad Dehan Al Kautsar, Willy Fitra Hendria, Yasmin Moslem, Noah Flynn, Muhammad Farid Adilazuarda, Haochen Li, Johanes Lee, R. Damanhuri, Shuo Sun, Muhammad Reza Qorib, Amirbek Djanibekov, Wei Qi Leong, Quyet V. Do, Niklas Muennighoff, Tanrada Pansuwan, Ilham Firdausi Putra, Yan Xu, Ngee Chia Tai, Ayu Purwarianti, Sebastian Ruder, William Tjhi, Peerat Limkonchotiwat, Alham Fikri Aji, Sedrick Keh, Genta Indra Winata, Ruochen Zhang, Fajri Koto, Zheng-Xin Yong, Samuel Cahyawijaya

Südostasien (SEA) ist eine Region, die reich an sprachlicher Vielfalt und kultureller Vielfalt ist, mit über 1.300 indigenen Sprachen und einer Bevölkerung von 671 Millionen Menschen. Allerdings leiden vorherrschende KI-Modelle unter einem erheblichen Mangel an Repräsentation von Texten, Bildern und Audio-Datensätzen aus SEA, was die Qualität von KI-Modellen für SEA-Sprachen beeinträchtigt. Die Evaluierung von Modellen für SEA-Sprachen ist aufgrund der Knappheit von hochwertigen Datensätzen eine Herausforderung, die durch die Dominanz von englischen Trainingsdaten verschärft wird und Bedenken hinsichtlich potenzieller kultureller Fehldarstellungen aufwirft. Um diesen Herausforderungen zu begegnen, stellen wir SEACrowd vor, eine kollaborative Initiative, die einen umfassenden Ressourcen-Hub konsolidiert, der die Ressourcenlücke durch Bereitstellung standardisierter Korpora in nahezu 1.000 SEA-Sprachen über drei Modalitäten schließt. Durch unsere SEACrowd-Benchmarks bewerten wir die Qualität von KI-Modellen in 36 indigenen Sprachen über 13 Aufgaben und bieten wertvolle Einblicke in die aktuelle KI-Landschaft in SEA. Darüber hinaus schlagen wir Strategien vor, um größere KI-Fortschritte zu erleichtern, wodurch das Potenzial für Nützlichkeit und Ressourcengerechtigkeit für die Zukunft der KI in SEA maximiert wird.

OmniCorpus: Ein vereinheitlichtes multimodales Korpus von Bildern auf 10-Milliarden-Ebene, durchsetzt mit Text.
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

Jun 12

ByQingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, Jiashuo Yu, Hao Tian, Jiasheng Zhou, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Zhenxiang Li, Pei Chu, Yi Wang, Min Dou, Changyao Tian, Xizhou Zhu, Lewei Lu, Yushi Chen, Junjun He, Zhongying Tu, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai

Bild-Text-interleavierte Daten, bestehend aus mehreren Bildern und Texten, die in einem natürlichen Dokumentenformat angeordnet sind, entsprechen dem Präsentationsparadigma von Internetdaten und ähneln eng den Lesegewohnheiten von Menschen. Aktuelle Studien haben gezeigt, dass solche Daten multimodales In-Context-Lernen unterstützen und die Fähigkeiten großer Sprachmodelle während des multimodalen Feintunings aufrechterhalten. Die begrenzte Skala und Vielfalt der aktuellen Bild-Text-interleavierten Daten beschränken jedoch die Entwicklung multimodaler großer Sprachmodelle. In diesem Papier stellen wir OmniCorpus vor, einen Bild-Text-interleavierten Datensatz im Maßstab von 10 Milliarden. Unter Verwendung eines effizienten Datenmotors filtern und extrahieren wir groß angelegte hochwertige Dokumente, die 8,6 Milliarden Bilder und 1,696 Billionen Text-Token enthalten. Im Vergleich zu Konkurrenten (z. B. MMC4, OBELICS) hat unser Datensatz 1) eine 15-mal größere Skala bei gleichbleibender Datenqualität; 2) umfasst mehr diverse Quellen, einschließlich sowohl englischer als auch nicht-englischer Websites sowie videozentrischer Websites; 3) ist flexibler, leicht von einem Bild-Text-interleavierten Format zu reinem Textkorpus und Bild-Text-Paaren umwandelbar. Durch umfassende Analysen und Experimente validieren wir die Qualität, Benutzerfreundlichkeit und Effektivität des vorgeschlagenen Datensatzes. Wir hoffen, dass dies eine solide Datenbasis für zukünftige multimodale Modellforschung bereitstellen könnte. Der Code und die Daten sind unter https://github.com/OpenGVLab/OmniCorpus verfügbar.

GUI Odyssey: Ein umfassender Datensatz für die plattformübergreifende GUI-Navigation auf mobilen Geräten
GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

Jun 12

ByQuanfeng Lu, Wenqi Shao, Zitao Liu, Fanqing Meng, Boxuan Li, Botong Chen, Siyuan Huang, Kaipeng Zhang, Yu Qiao, Ping Luo

Smartphone-Benutzer navigieren häufig über mehrere Anwendungen (Apps), um Aufgaben wie das Teilen von Inhalten zwischen sozialen Medien abzuschließen. Autonome grafische Benutzeroberflächen (GUI)-Navigationsagenten können die Benutzererfahrung in den Bereichen Kommunikation, Unterhaltung und Produktivität verbessern, indem sie Workflows optimieren und manuelle Eingriffe reduzieren. Bisher trainierten GUI-Agenten jedoch oft mit Datensätzen, die einfache Aufgaben umfassen, die innerhalb einer einzelnen App abgeschlossen werden können, was zu einer schlechten Leistung bei der Navigation zwischen Apps führt. Um dieses Problem zu lösen, stellen wir GUI Odyssey vor, einen umfassenden Datensatz zur Schulung und Bewertung von Navigationsagenten zwischen Apps. GUI Odyssey besteht aus 7.735 Episoden von 6 mobilen Geräten, die 6 Arten von Aufgaben zwischen Apps, 201 Apps und 1,4K App-Kombinationen umfassen. Unter Verwendung von GUI Odyssey haben wir OdysseyAgent entwickelt, einen multimodalen Navigationsagenten zwischen Apps durch Feinabstimmung des Qwen-VL-Modells mit einem History-Resampling-Modul. Umfangreiche Experimente zeigen die überlegene Genauigkeit von OdysseyAgent im Vergleich zu bestehenden Modellen. Beispielsweise übertrifft OdysseyAgent feinabgestimmtes Qwen-VL und zero-shot GPT-4V um 1,44\% bzw. 55,49\% in der Domänen-Genauigkeit und um 2,29\% bzw. 48,14\% außerhalb der Domäne im Durchschnitt. Der Datensatz und der Code werden auf https://github.com/OpenGVLab/GUI-Odyssey veröffentlicht.

Glyph-ByT5-v2: Eine starke ästhetische Grundlinie für präzise multilinguale visuelle Textdarstellung.
Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering

Jun 14

ByZeyu Liu, Weicong Liang, Yiming Zhao, Bohan Chen, Ji Li, Yuhui Yuan

In letzter Zeit hat Glyph-ByT5 eine sehr genaue visuelle Textdarstellungsleistung in Grafikdesignbildern erreicht. Es konzentriert sich jedoch immer noch ausschließlich auf Englisch und weist in Bezug auf die visuelle Attraktivität relativ schlechte Leistungen auf. In dieser Arbeit adressieren wir diese beiden grundlegenden Einschränkungen, indem wir Glyph-ByT5-v2 und Glyph-SDXL-v2 vorstellen, die nicht nur eine genaue visuelle Textdarstellung für 10 verschiedene Sprachen unterstützen, sondern auch eine deutlich bessere ästhetische Qualität erreichen. Um dies zu erreichen, leisten wir folgende Beiträge: (i) Erstellung eines hochwertigen mehrsprachigen Glyphen-Text- und Grafikdesign-Datensatzes, bestehend aus mehr als 1 Million Glyphen-Text-Paaren und 10 Millionen Grafikdesign-Bild-Text-Paaren in neun anderen Sprachen, (ii) Aufbau eines mehrsprachigen visuellen Absatz-Benchmark, bestehend aus 1.000 Anfragen, mit jeweils 100 für jede Sprache, um die mehrsprachige visuelle Rechtschreibgenauigkeit zu bewerten, und (iii) Nutzung des neuesten schrittbewussten Präferenzlernansatzes zur Verbesserung der visuellen ästhetischen Qualität. Durch die Kombination dieser Techniken liefern wir einen leistungsstarken maßgeschneiderten mehrsprachigen Textencoder, Glyph-ByT5-v2, und ein starkes ästhetisches Grafikerzeugungsmodell, Glyph-SDXL-v2, das eine genaue Rechtschreibung in 10 verschiedenen Sprachen unterstützen kann. Wir betrachten unsere Arbeit als einen bedeutenden Fortschritt, wenn man bedenkt, dass die neuesten DALL-E3 und Ideogram 1.0 nach wie vor mit der mehrsprachigen visuellen Textdarstellungsaufgabe zu kämpfen haben.

GEB-1.3B: Offenes Leichtgewichts-Großsprachmodell
GEB-1.3B: Open Lightweight Large Language Model

Jun 14

ByJie Wu, Yufeng Zhu, Lei Shen, Xuqing Lu

Kürzlich entwickelte große Sprachmodelle (LLMs) wie ChatGPT, Claude und Llama haben beeindruckende Fähigkeiten gezeigt und übertreffen sogar die Leistung auf menschlichem Niveau in mehreren Aufgaben. Trotz ihres Erfolgs begrenzen die ressourcenintensiven Anforderungen dieser Modelle, die sowohl beim Training als auch bei der Inferenz erhebliche Rechenleistung erfordern, ihre Bereitstellung auf Hochleistungsserver. Darüber hinaus führen die umfangreichen Berechnungsanforderungen der Modelle oft zu erhöhten Latenzzeiten bei den Antwortzeiten. Mit dem zunehmenden Bedarf an effizientem Betrieb von LLMs auf CPUs ist die Forschung zu leichten Modellen, die für die CPU-Inferenz optimiert sind, entstanden. In dieser Arbeit stellen wir GEB-1.3B vor, ein leichtgewichtiges LLM, das auf 550 Milliarden Tokens in den Sprachen Chinesisch und Englisch trainiert wurde. Wir verwenden neuartige Trainingsmethoden, einschließlich ROPE, Group-Query-Attention und FlashAttention-2, um das Training zu beschleunigen, während die Modellleistung beibehalten wird. Darüber hinaus feinabstimmen wir das Modell unter Verwendung von 10 Millionen Beispielen von Anweisungsdaten, um die Ausrichtung zu verbessern. GEB-1.3B zeigt herausragende Leistungen bei allgemeinen Benchmarks wie MMLU, C-Eval und CMMLU und übertrifft vergleichbare Modelle wie MindLLM-1.3B und TinyLLaMA-1.1B. Bemerkenswert ist, dass die FP32-Version von GEB-1.3B lobenswerte Inferenzzeiten auf CPUs erreicht, wobei laufende Bemühungen zur weiteren Verbesserung der Geschwindigkeit durch fortschrittliche Quantisierungstechniken unternommen werden. Die Veröffentlichung von GEB-1.3B als Open-Source-Modell markiert einen bedeutenden Beitrag zur Entwicklung von leichten LLMs und verspricht, weitere Forschung und Innovationen auf diesem Gebiet zu fördern.

Kamerasteuerung ohne Training für die Generierung von Videos
Training-free Camera Control for Video Generation

Jun 14

ByChen Hou, Guoqiang Wei, Yan Zeng, Zhibo Chen

Wir schlagen eine trainingsfreie und robuste Lösung vor, um die Steuerung von Kamerabewegungen für handelsübliche Videodiffusionsmodelle anzubieten. Im Gegensatz zu früheren Arbeiten erfordert unsere Methode kein überwachtes Feintuning auf kamera-annotierten Datensätzen oder selbstüberwachtes Training durch Datenvergrößerung. Stattdessen kann sie mit den meisten vorab trainierten Videodiffusionsmodellen verbunden und verwendet werden, um kamerasteuerbare Videos mit einem einzelnen Bild oder Texteingabe zu generieren. Die Inspiration für unsere Arbeit stammt aus dem Layout-Prior, den Zwischenlatenten in Bezug auf die generierten Ergebnisse innehaben. Durch Neuordnung von verrauschten Pixeln in ihnen wird auch der Ausgabeinhalt entsprechend umverteilt. Da Kamerabewegungen auch als eine Art Pixelneuanordnung aufgrund von Perspektivenänderungen angesehen werden können, können Videos entsprechend einer spezifischen Kamerabewegung neu organisiert werden, wenn sich ihre verrauschten Latenten entsprechend ändern. Basierend darauf schlagen wir unsere Methode CamTrol vor, die eine robuste Kamerasteuerung für Videodiffusionsmodelle ermöglicht. Dies wird durch einen zweistufigen Prozess erreicht. Erstens modellieren wir die Neuordnung des Bildlayouts durch explizite Kamerabewegung im 3D-Punktwolkenraum. Zweitens generieren wir Videos mit Kamerabewegungen unter Verwendung des Layout-Priors verrauschter Latenten, die durch eine Reihe von neu angeordneten Bildern gebildet werden. Umfangreiche Experimente haben die Robustheit unserer Methode bei der Steuerung der Kamerabewegung von generierten Videos gezeigt. Darüber hinaus zeigen wir, dass unsere Methode beeindruckende Ergebnisse bei der Erzeugung von 3D-Rotationsvideos mit dynamischem Inhalt liefern kann. Projektseite unter https://lifedecoder.github.io/CamTrol/.

Gestaltung eines Dashboards für Transparenz und Kontrolle von Konversations-KI.
Designing a Dashboard for Transparency and Control of Conversational AI

Jun 12

ByYida Chen, Aoyu Wu, Trevor DePodesta, Catherine Yeh, Kenneth Li, Nicholas Castillo Marin, Oam Patel, Jan Riecke, Shivam Raval, Olivia Seow, Martin Wattenberg, Fernanda Viégas

Konversationelle LLMs funktionieren als Black-Box-Systeme und lassen die Benutzer im Unklaren darüber, warum sie die Ausgabe sehen, die sie sehen. Diese mangelnde Transparenz ist potenziell problematisch, insbesondere vor dem Hintergrund von Bedenken hinsichtlich Voreingenommenheit und Wahrhaftigkeit. Um dieses Problem anzugehen, präsentieren wir einen End-to-End-Prototyp, der Interpretierbarkeitstechniken mit dem Design der Benutzererfahrung verbindet und darauf abzielt, Chatbots transparenter zu gestalten. Wir beginnen damit, Belege dafür vorzulegen, dass ein bekannter Open-Source-LLM ein "Benutzermodell" hat: Durch die Untersuchung des internen Zustands des Systems können wir Daten zu Alter, Geschlecht, Bildungsniveau und sozialem Status eines Benutzers extrahieren. Anschließend beschreiben wir das Design eines Dashboards, das die Chatbot-Benutzeroberfläche begleitet und dieses Benutzermodell in Echtzeit anzeigt. Das Dashboard kann auch verwendet werden, um das Benutzermodell und das Verhalten des Systems zu steuern. Abschließend diskutieren wir eine Studie, in der Benutzer mit dem instrumentierten System interagierten. Unsere Ergebnisse legen nahe, dass Benutzer es schätzen, interne Zustände zu sehen, was ihnen half, voreingenommenes Verhalten aufzudecken und ihr Kontrollgefühl zu steigern. Die Teilnehmer machten auch wertvolle Vorschläge, die auf zukünftige Richtungen sowohl für das Design als auch für die maschinelle Lernforschung hinweisen. Die Projektseite und das Video-Demo unseres TalkTuner-Systems sind verfügbar unter https://bit.ly/talktuner-project-page

VideoGUI: Ein Benchmark für die Automatisierung von grafischen Benutzeroberflächen aus Anleitungsvideos
VideoGUI: A Benchmark for GUI Automation from Instructional Videos

Jun 14

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Qinchen WU, Mingyi Yan, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou

Die Automatisierung der grafischen Benutzeroberfläche (Graphical User Interface, GUI) birgt ein großes Potenzial zur Steigerung der menschlichen Produktivität, indem sie bei Computerarbeiten unterstützt. Bestehende Aufgabenformulierungen konzentrieren sich hauptsächlich auf einfache Aufgaben, die durch eine einzige, ausschließlich sprachliche Anweisung spezifiziert werden können, wie z.B. "Fügen Sie eine neue Folie ein". In dieser Arbeit stellen wir VideoGUI vor, einen neuartigen multimodalen Benchmark, der darauf abzielt, GUI-Assistenten bei visuell-zentrierten GUI-Aufgaben zu bewerten. Basierend auf hochwertigen Web-Instruktionsvideos konzentriert sich unser Benchmark auf Aufgaben, die professionelle und neuartige Software (z.B. Adobe Photoshop oder Stable Diffusion WebUI) sowie komplexe Aktivitäten (z.B. Videobearbeitung) umfassen. VideoGUI bewertet GUI-Assistenten durch einen hierarchischen Prozess, der es ermöglicht, die spezifischen Ebenen zu identifizieren, auf denen sie versagen können: (i) Planung auf hoher Ebene: Rekonstruktion von prozeduralen Teilaufgaben aus visuellen Bedingungen ohne sprachliche Beschreibungen; (ii) Planung auf mittlerer Ebene: Generierung von Sequenzen präziser Handlungsbeschreibungen basierend auf visuellem Zustand (d.h. Bildschirmfoto) und Zielen; (iii) Ausführung atomarer Aktionen: Durchführung spezifischer Aktionen wie präzises Klicken auf bestimmte Elemente. Für jede Ebene entwerfen wir Bewertungsmetriken über einzelne Dimensionen, um klare Signale zu liefern, wie z.B. individuelle Leistung beim Klicken, Ziehen, Tippen und Scrollen für die Ausführung atomarer Aktionen. Unsere Evaluation von VideoGUI zeigt, dass selbst das modernste multimodale Modell GPT4o bei visuell-zentrierten GUI-Aufgaben, insbesondere bei der Planung auf hoher Ebene, schlecht abschneidet.

Neubewertung des menschlichen Bewertungsprotokolls für Text-zu-Video-Modelle: Verbesserung von Zuverlässigkeit, Reproduzierbarkeit und Praktikabilität.
Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality

Jun 13

ByTianle Zhang, Langtian Ma, Yuchen Yan, Yuchen Zhang, Kai Wang, Yue Yang, Ziyao Guo, Wenqi Shao, Yang You, Yu Qiao, Ping Luo, Kaipeng Zhang

Die jüngsten Fortschritte in der Text-zu-Video (T2V) Technologie, wie sie von Modellen wie Gen2, Pika und Sora demonstriert werden, haben ihre Anwendbarkeit und Beliebtheit signifikant erweitert. Trotz dieser Fortschritte stellen die Bewertung dieser Modelle erhebliche Herausforderungen dar. Hauptsächlich aufgrund der Einschränkungen automatischer Metriken wird die manuelle Bewertung oft als überlegene Methode zur Bewertung der T2V-Generierung angesehen. Allerdings sehen sich bestehende manuelle Bewertungsprotokolle mit Reproduzierbarkeits-, Zuverlässigkeits- und Praktikabilitätsproblemen konfrontiert. Um diesen Herausforderungen zu begegnen, führt dieser Artikel das Text-zu-Video Human Evaluation (T2VHE) Protokoll ein, ein umfassendes und standardisiertes Protokoll für T2V-Modelle. Das T2VHE Protokoll umfasst klar definierte Metriken, gründliches Training der Annotatoren und ein effektives dynamisches Bewertungsmodul. Experimentelle Ergebnisse zeigen, dass dieses Protokoll nicht nur hochwertige Annotationen gewährleistet, sondern auch die Bewertungskosten um fast 50% senken kann. Wir werden das gesamte Setup des T2VHE Protokolls als Open-Source veröffentlichen, einschließlich des vollständigen Protokoll-Workflows, der Details zum dynamischen Bewertungskomponenten und des Annotierungsschnittstellen-Codes. Dies wird dazu beitragen, dass Gemeinschaften anspruchsvollere menschliche Bewertungsprotokolle etablieren können.

Sei wie ein Goldfisch, Merke dir nichts! Die Minderung der Memorierung in generativen LLMs.
Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs

Jun 14

ByAbhimanyu Hans, Yuxin Wen, Neel Jain, John Kirchenbauer, Hamid Kazemi, Prajwal Singhania, Siddharth Singh, Gowthami Somepalli, Jonas Geiping, Abhinav Bhatele, Tom Goldstein

Große Sprachmodelle können ihre Trainingsdaten auswendig lernen und wiederholen, was Datenschutz- und Urheberrechtsrisiken verursacht. Um das Auswendiglernen zu reduzieren, führen wir eine subtile Modifikation des Trainingsziels für das nächste Token ein, das wir als Goldfischverlust bezeichnen. Während des Trainings werden zufällig ausgewählte Teilmengen von Tokens von der Verlustberechnung ausgeschlossen. Diese verworfenen Tokens werden vom Modell nicht auswendig gelernt, was die wortwörtliche Wiedergabe einer vollständigen Kette von Tokens aus dem Trainingsdatensatz verhindert. Wir führen umfangreiche Experimente mit dem Training von Milliarden-Sprachmodellen Llama-2 durch, sowohl vortrainiert als auch von Grund auf trainiert, und zeigen signifikante Reduzierungen der extrahierbaren Auswendiglernung bei nur geringfügigen Auswirkungen auf nachgelagerte Benchmarks.

Vivid-ZOO: Mehransichtenvideoerzeugung mit Diffusionsmodell
Vivid-ZOO: Multi-View Video Generation with Diffusion Model

Jun 12

ByBing Li, Cheng Zheng, Wenxuan Zhu, Jinjie Mai, Biao Zhang, Peter Wonka, Bernard Ghanem

Obwohl Diffusionsmodelle eine beeindruckende Leistung bei der Erzeugung von 2D-Bildern/Videos gezeigt haben, ist die auf Diffusion basierende Generierung von Text-zu-Multi-View-Video (T2MVid) noch wenig erforscht. Die neuen Herausforderungen, die sich bei der T2MVid-Generierung ergeben, liegen im Mangel an umfangreichen beschrifteten Multi-View-Videos und der Komplexität der Modellierung einer solchen mehrdimensionalen Verteilung. Zu diesem Zweck schlagen wir eine neuartige auf Diffusion basierende Pipeline vor, die hochwertige Multi-View-Videos von einem dynamischen 3D-Objekt aus generiert. Speziell zerlegen wir das T2MVid-Problem in Ansichtsraum- und Zeitkomponenten. Eine solche Zerlegung ermöglicht es uns, Schichten fortschrittlicher vorab trainierter Multi-View-Bild- und 2D-Video-Diffusionsmodelle zu kombinieren und wiederzuverwenden, um Multi-View-Konsistenz sowie zeitliche Kohärenz für die generierten Multi-View-Videos sicherzustellen und die Trainingskosten erheblich zu reduzieren. Wir führen zudem Ausrichtungsmodule ein, um die latenten Räume der Schichten der vorab trainierten Multi-View- und 2D-Video-Diffusionsmodelle anzugleichen und die Inkompatibilität der wiederverwendeten Schichten zu adressieren, die aus der Domänenlücke zwischen 2D- und Multi-View-Daten resultiert. Zur Unterstützung dieser und zukünftiger Forschung tragen wir weiterhin einen beschrifteten Multi-View-Video-Datensatz bei. Experimentelle Ergebnisse zeigen, dass unsere Methode hochwertige Multi-View-Videos generiert, die lebendige Bewegungen, zeitliche Kohärenz und Multi-View-Konsistenz aufweisen, basierend auf einer Vielzahl von Textvorgaben.

AV-GS: Lernen von material- und geometriebewussten Voraussetzungen für die Synthese neuartiger Ansichten in der Akustik
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis

Jun 13

BySwapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu

Die neuartige Ansicht der akustischen Synthese (NVAS) zielt darauf ab, binaurale Audioausgaben aus einer Mono-Audioquelle in einer 3D-Szene an einem beliebigen Zielpunkt zu erzeugen. Bestehende Methoden haben NeRF-basierte implizite Modelle vorgeschlagen, um visuelle Hinweise als Bedingung für die Synthese von binauralen Audiodaten zu nutzen. Allerdings haben diese Methoden alle eine begrenzte Fähigkeit, die gesamte Szenenumgebung, wie Raumgeometrie, Materialeigenschaften und die räumliche Beziehung zwischen Zuhörer und Schallquelle, zu charakterisieren, zusätzlich zur geringen Effizienz aufgrund der aufwendigen NeRF-Renderings. Um diese Probleme anzugehen, schlagen wir ein neuartiges Audio-Visuelles Gaußsches Splatting (AV-GS) Modell vor. Um eine material- und geometriebewusste Bedingung für die Audio-Synthese zu erhalten, lernen wir eine explizite punktbasierte Szenenrepräsentation mit einem audiogeführten Parameter auf lokal initialisierten gaußschen Punkten, unter Berücksichtigung der räumlichen Beziehung zwischen Zuhörer und Schallquelle. Um das visuelle Szenenmodell audioadaptiv zu gestalten, schlagen wir eine Punktdichtungs- und Beschneidungsstrategie vor, um die gaußschen Punkte optimal zu verteilen, wobei der Beitrag pro Punkt in der Schallausbreitung berücksichtigt wird (z. B. werden mehr Punkte für texturlose Wandflächen benötigt, da sie die Schallwegabweichung beeinflussen). Umfangreiche Experimente bestätigen die Überlegenheit unseres AV-GS gegenüber bestehenden Alternativen in den realen RWAS- und simulationsbasierten SoundSpaces-Datensätzen.

RVT-2: Präzises Manipulieren lernen aus wenigen Demonstrationen
RVT-2: Learning Precise Manipulation from Few Demonstrations

Jun 12

ByAnkit Goyal, Valts Blukis, Jie Xu, Yijie Guo, Yu-Wei Chao, Dieter Fox

In dieser Arbeit untersuchen wir, wie ein robotisches System entwickelt werden kann, das mehrere 3D-Manipulationsaufgaben anhand sprachlicher Anweisungen lösen kann. Um in industriellen und häuslichen Bereichen nützlich zu sein, sollte ein solches System in der Lage sein, neue Aufgaben mit wenigen Demonstrationen zu erlernen und präzise zu lösen. Frühere Arbeiten wie PerAct und RVT haben dieses Problem untersucht, jedoch haben sie oft Schwierigkeiten mit Aufgaben, die hohe Präzision erfordern. Wir untersuchen, wie wir sie effektiver, präziser und schneller machen können. Unter Verwendung einer Kombination von architektonischen und systematischen Verbesserungen schlagen wir RVT-2 vor, ein Multitask-3D-Manipulationsmodell, das im Training 6-mal schneller und in der Inferenz 2-mal schneller ist als sein Vorgänger RVT. RVT-2 erreicht einen neuen Stand der Technik auf RLBench und verbessert die Erfolgsquote von 65 % auf 82 %. RVT-2 ist auch in der realen Welt effektiv, wo es Aufgaben erlernen kann, die hohe Präzision erfordern, wie das Aufnehmen und Einsetzen von Steckern, mit nur 10 Demonstrationen. Visuelle Ergebnisse, Code und trainiertes Modell sind verfügbar unter: https://robotic-view-transformer-2.github.io/.

GaussianSR: 3D Gaußsche Super-Auflösung mit 2D Diffusionsprioritäten
GaussianSR: 3D Gaussian Super-Resolution with 2D Diffusion Priors

Jun 14

ByXiqian Yu, Hanxin Zhu, Tianyu He, Zhibo Chen

Die Erreichung einer hochauflösenden Neuansichtssynthese (HRNVS) aus niedrig auflösenden Eingangsansichten ist aufgrund des Mangels an hochauflösenden Daten eine anspruchsvolle Aufgabe. Frühere Methoden optimieren hochauflösende Neuronale Strahlungsfelder (NeRF) aus niedrig auflösenden Eingangsansichten, leiden jedoch unter langsamer Rendergeschwindigkeit. In dieser Arbeit basieren wir unsere Methode auf dem 3D-Gauß-Splatting (3DGS) aufgrund seiner Fähigkeit, qualitativ hochwertige Bilder mit schnellerer Rendergeschwindigkeit zu erzeugen. Um den Mangel an Daten für die Synthese höherer Auflösungen zu mildern, schlagen wir vor, handelsübliche 2D-Diffusionspriors zu nutzen, indem wir das 2D-Wissen in 3D mit Score-Distillation-Sampling (SDS) destillieren. Dennoch führt die direkte Anwendung von SDS auf gaußsche 3D-Superresolution zu unerwünschten und redundanten 3D-Gauß-Primitiven aufgrund der durch generative Priors verursachten Zufälligkeit. Um dieses Problem zu mildern, führen wir zwei einfache, aber effektive Techniken ein, um die durch SDS eingeführten stochastischen Störungen zu reduzieren. Speziell verkleinern wir 1) den Bereich des Diffusionszeitpunkts in SDS mit einer Überhitzungsstrategie und 2) verwerfen zufällig redundante gaußsche Primitiven während der Verdichtung. Umfangreiche Experimente haben gezeigt, dass unser vorgeschlagenes GaussainSR hochwertige Ergebnisse für HRNVS mit nur niedrig auflösenden Eingaben sowohl in synthetischen als auch in realen Datensätzen erzielen kann. Projektpage: https://chchnii.github.io/GaussianSR/

Entschlüsselung der Vielfalt: Eine Überprüfung der KI-Forschungslandschaft in Indien
Decoding the Diversity: A Review of the Indic AI Research Landscape

Jun 13

BySankalp KJ, Vinija Jain, Sreyoshi Bhaduri, Tamoghna Roy, Aman Chadha

Dieses Übersichtspapier bietet einen umfassenden Überblick über die Forschungsrichtungen großer Sprachmodelle (LLM) innerhalb der Indischen Sprachen. Indische Sprachen sind diejenigen, die im indischen Subkontinent gesprochen werden, einschließlich Indien, Pakistan, Bangladesch, Sri Lanka, Nepal und Bhutan, unter anderem. Diese Sprachen haben ein reiches kulturelles und sprachliches Erbe und werden weltweit von über 1,5 Milliarden Menschen gesprochen. Mit dem enormen Marktpotenzial und der wachsenden Nachfrage nach Anwendungen für die natürliche Sprachverarbeitung (NLP) in verschiedenen Sprachen stellen generative Anwendungen für Indische Sprachen einzigartige Herausforderungen und Chancen für die Forschung dar. Unser Papier taucht tief in die jüngsten Fortschritte im Bereich der generativen Modellierung von Indischen Sprachen ein, indem es mit einer Taxonomie von Forschungsrichtungen beiträgt und 84 aktuelle Veröffentlichungen tabellarisch darstellt. Die in diesem Papier untersuchten Forschungsrichtungen umfassen die Entwicklung von LLMs, das Feintuning bestehender LLMs, die Entwicklung von Korpora, Benchmarking und Evaluation sowie Veröffentlichungen zu spezifischen Techniken, Tools und Anwendungen. Wir stellten fest, dass Forscher in den Veröffentlichungen die Herausforderungen hervorheben, die mit der begrenzten Datenverfügbarkeit, dem Mangel an Standardisierung und den besonderen sprachlichen Komplexitäten der Indischen Sprachen verbunden sind. Diese Arbeit zielt darauf ab, als wertvolle Ressource für Forscher und Praktiker im Bereich der NLP zu dienen, insbesondere für diejenigen, die sich auf Indische Sprachen konzentrieren, und trägt zur Entwicklung genauerer und effizienterer LLM-Anwendungen für diese Sprachen bei.

MaskLID: Identifizierung von Codeswitching-Sprachen durch iterative Maskierung
MaskLID: Code-Switching Language Identification through Iterative Masking

Jun 10

ByAmir Hossein Kargaran, François Yvon, Hinrich Schütze

Wir präsentieren MaskLID, eine einfache, aber effektive Methode zur Erkennung von Codeswitching (CS) Sprachen (LID). MaskLID erfordert kein Training und ist darauf ausgelegt, aktuelle leistungsstarke LID-Methoden auf Satzebene zu ergänzen. LID-Methoden auf Satzebene sind Klassifizierer, die auf monolingualen Texten trainiert sind, um einzelne Labels bereitzustellen, typischerweise unter Verwendung einer Softmax-Schicht, um Punkte in Wahrscheinlichkeiten umzuwandeln. In Fällen, in denen ein Satz in beiden L1- und L2-Sprachen verfasst ist, gibt der LID-Klassifizierer oft nur das dominante Label L1 zurück. Um diese Einschränkung zu überwinden, verwendet MaskLID eine Strategie, um Textmerkmale, die mit L1 verbunden sind, zu maskieren, sodass der LID den Text in der nächsten Runde als L2 klassifizieren kann. Diese Methode nutzt den LID selbst, um die Merkmale zu identifizieren, die maskiert werden müssen, und ist nicht auf externe Ressourcen angewiesen. In dieser Arbeit untersuchen wir die Verwendung von MaskLID für zwei Open-Source LIDs (GlotLID und OpenLID), die beide auf der FastText-Architektur basieren. Der Code und eine Demo sind verfügbar unter https://github.com/cisnlp/MaskLID.

SEACrowd: Ein multilingualer multimodaler Datendreh- und Benchmark-Satz für südostasiatische Sprachen
SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages

Jun 14