ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

X-Prompt: Auf dem Weg zur universellen kontextbezogenen Bildgenerierung in auto-regressiven Vision-Sprach-Grundlagenmodellen
X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models

Dec 2, 2024
Zeyi Sun, Ziyang Chu, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
662

Die Generierung im Kontext ist eine Schlüsselkomponente der Fähigkeit großer Sprachmodelle (LLMs) zur offenen Aufgabenverallgemeinerung. Durch die Nutzung einiger Beispiele als Kontext können LLMs sowohl in-domain als auch out-of-domain Aufgaben ausführen. Die jüngsten Fortschritte bei auto-regressiven Bild-Sprach-Modellen (VLMs), die auf LLMs aufbauen, haben beeindruckende Leistungen bei der Text-zu-Bild-Generierung gezeigt. Das Potenzial des Lernens im Kontext für allgemeine Bildgenerierungsaufgaben bleibt jedoch weitgehend unerforscht. Um dies anzugehen, stellen wir X-Prompt vor, ein rein auto-regressives großes Bild-Sprach-Modell, das darauf ausgelegt ist, eine wettbewerbsfähige Leistung bei einer breiten Palette von sowohl bekannten als auch unbekannten Bildgenerierungsaufgaben innerhalb eines vereinheitlichten in-Kontext-Lernrahmens zu erbringen. X-Prompt integriert ein spezialisiertes Design, das wertvolle Merkmale aus Kontextbeispielen effizient komprimiert, unterstützt längere in-Kontext-Token-Sequenzen und verbessert seine Fähigkeit zur Verallgemeinerung auf unbekannte Aufgaben. Eine vereinheitlichte Trainingsaufgabe für sowohl Text- als auch Bildvorhersage ermöglicht es X-Prompt, die allgemeine Bildgenerierung mit verbesserter Aufgabenbewusstheit aus Kontextbeispielen zu handhaben. Umfangreiche Experimente validieren die Leistung des Modells bei verschiedenen bekannten Bildgenerierungsaufgaben und seine Fähigkeit, sich auf zuvor unbekannte Aufgaben zu verallgemeinern.

o1-Coder: Eine o1-Replikation für das Codieren.
o1-Coder: an o1 Replication for Coding

Nov 29, 2024
Yuxiang Zhang, Shangxi Wu, Yuqi Yang, Jiangming Shu, Jinlin Xiao, Chao Kong, Jitao Sang
452

Der technische Bericht stellt O1-CODER vor, einen Versuch, das Modell o1 von OpenAI mit Fokus auf Codieraufgaben zu replizieren. Es integriert Reinforcement Learning (RL) und Monte Carlo Tree Search (MCTS), um die System-2 Denkfähigkeiten des Modells zu verbessern. Das Framework umfasst das Training eines Test Case Generators (TCG) für standardisierte Code-Tests, die Verwendung von MCTS zur Generierung von Code-Daten mit Begründungsprozessen und die iterative Feinabstimmung des Richtlinienmodells, um zunächst Pseudocode zu erstellen, gefolgt von der Generierung des vollständigen Codes. Der Bericht behandelt auch die Chancen und Herausforderungen bei der Implementierung von o1-ähnlichen Modellen in realen Anwendungen, schlägt den Übergang zum System-2-Paradigma vor und hebt die Notwendigkeit von Umgebungszustandsaktualisierungen hervor. Aktualisierter Modellfortschritt und experimentelle Ergebnisse werden in nachfolgenden Versionen berichtet. Der gesamte Quellcode, kuratierte Datensätze sowie die abgeleiteten Modelle werden auf https://github.com/ADaM-BJTU/O1-CODER offengelegt.

SCHWIMMEN: Generatives Bewegungs-Latenzfluss-Matching für Audio-gesteuerte sprechende Porträts
FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait

Dec 2, 2024
Taekyung Ki, Dongchan Min, Gyoungsu Chae
428

Mit dem raschen Fortschritt von diffusionsbasierten generativen Modellen hat die Animation von Porträtbildern bemerkenswerte Ergebnisse erzielt. Dennoch steht sie immer noch vor Herausforderungen bei der zeitlich konsistenten Videogenerierung und schnellen Probenahme aufgrund ihrer iterativen Probenahme-Natur. Dieses Papier stellt FLOAT vor, eine audiogetriebene Methode zur Generierung von sprechenden Porträtvideos, die auf einem Flussabgleich-gesteuerten generativen Modell basiert. Wir verlagern das generative Modellieren vom pixelbasierten latenten Raum zu einem erlernten Bewegungs-Latenzraum, was eine effiziente Gestaltung von zeitlich konsistenter Bewegung ermöglicht. Um dies zu erreichen, führen wir einen auf Transformer basierenden Vektorfeld-Vorhersager mit einem einfachen, aber effektiven rahmenweisen Konditionierungsmechanismus ein. Darüber hinaus unterstützt unsere Methode die emotionale Verbesserung durch sprachgesteuerte Bewegung, was eine natürliche Integration von ausdrucksstarken Bewegungen ermöglicht. Umfangreiche Experimente zeigen, dass unsere Methode in Bezug auf visuelle Qualität, Bewegungstreue und Effizienz die audiogetriebenen sprechenden Porträtmethoden auf dem neuesten Stand der Technik übertrifft.

Switti: Entwurf von Skalen-Weisen Transformatoren für die Text-zu-Bild-Synthese
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

Dec 2, 2024
Anton Voronov, Denis Kuznedelev, Mikhail Khoroshikh, Valentin Khrulkov, Dmitry Baranchuk
363

Diese Arbeit stellt Switti vor, einen skalenweisen Transformer für die Generierung von Text-zu-Bild. Ausgehend von bestehenden AR-Modellen für die Vorhersage auf der nächsten Skalenebene untersuchen wir diese zunächst für die T2I-Generierung und schlagen architektonische Modifikationen vor, um ihre Konvergenz und Gesamtleistung zu verbessern. Wir beobachten dann, dass die Self-Attention-Maps unseres vortrainierten skalenweisen AR-Modells eine schwache Abhängigkeit von vorherigen Skalen aufweisen. Basierend auf dieser Erkenntnis schlagen wir ein nicht-AR-Gegenstück vor, das eine {sim}11% schnellere Abtastung und eine geringere Speicherauslastung ermöglicht, während gleichzeitig eine leicht bessere Generierungsqualität erzielt wird. Darüber hinaus zeigen wir, dass eine klassifiziererfreie Führung auf hochauflösenden Skalen oft unnötig ist und die Leistung sogar beeinträchtigen kann. Durch Deaktivierung der Führung auf diesen Skalen erreichen wir eine zusätzliche Beschleunigung der Abtastung um {sim}20% und verbessern die Generierung feingliedriger Details. Umfangreiche Präferenzstudien von Personen und automatisierte Bewertungen zeigen, dass Switti bestehende T2I-AR-Modelle übertrifft und mit modernsten T2I-Diffusionsmodellen konkurriert, während es bis zu 7-mal schneller ist.

Open-Sora-Plan: Open-Source-Modell zur Generierung großer Videos
Open-Sora Plan: Open-Source Large Video Generation Model

Nov 28, 2024
Bin Lin, Yunyang Ge, Xinhua Cheng, Zongjian Li, Bin Zhu, Shaodong Wang, Xianyi He, Yang Ye, Shenghai Yuan, Liuhan Chen, Tanghui Jia, Junwu Zhang, Zhenyu Tang, Yatian Pang, Bin She, Cen Yan, Zhiheng Hu, Xiaoyi Dong, Lin Chen, Zhang Pan, Xing Zhou, Shaoling Dong, Yonghong Tian, Li Yuan
342

Wir stellen das Open-Sora Plan vor, ein Open-Source-Projekt, das darauf abzielt, ein großes Generierungsmodell zur Erzeugung von gewünschten hochauflösenden Videos mit langer Dauer auf Basis verschiedener Benutzereingaben beizutragen. Unser Projekt umfasst mehrere Komponenten für den gesamten Videogenerierungsprozess, darunter ein Wavelet-Flow Variational Autoencoder, ein gemeinsamer Bild-Video-Skiparse-Denoiser und verschiedene Bedingungssteuerungen. Darüber hinaus sind viele Hilfsstrategien für effizientes Training und Inferenz konzipiert, und ein mehrdimensionaler Datenkuratierungspipeline wird vorgeschlagen, um die gewünschten hochwertigen Daten zu erhalten. Dank effizienter Überlegungen erzielt unser Open-Sora Plan beeindruckende Ergebnisse bei der Videogenerierung sowohl in qualitativen als auch quantitativen Bewertungen. Wir hoffen, dass unser sorgfältiges Design und praktische Erfahrung die Forschergemeinschaft für Videogenerierung inspirieren können. Alle unsere Codes und Modellgewichte sind öffentlich unter https://github.com/PKU-YuanGroup/Open-Sora-Plan verfügbar.

VISTA: Verbesserung des Verständnisses von Langzeit- und hochauflösenden Videos durch die räumlich-zeitliche Erweiterung von Videos.
VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation

Dec 1, 2024
Weiming Ren, Huan Yang, Jie Min, Cong Wei, Wenhu Chen
282

Aktuelle große multimodale Modelle (LMMs) stehen vor erheblichen Herausforderungen bei der Verarbeitung und dem Verständnis von langen oder hochauflösenden Videos, was hauptsächlich auf den Mangel an qualitativ hochwertigen Datensätzen zurückzuführen ist. Um dieses Problem aus einer datenzentrierten Perspektive anzugehen, schlagen wir VISTA vor, ein einfaches, aber effektives Video-Spatiotemporales Augmentierungs-Framework, das langanhaltende und hochauflösende Video-Anweisungs-Paare aus vorhandenen Video-Untertitel-Datensätzen synthetisiert. VISTA kombiniert räumlich und zeitlich Videos, um neue synthetische Videos mit erweiterten Dauern und verbesserten Auflösungen zu erstellen, und erzeugt anschließend Frage-Antwort-Paare zu diesen neu synthetisierten Videos. Basierend auf diesem Paradigma entwickeln wir sieben Video-Augmentierungsmethoden und kuratieren VISTA-400K, einen Video-Anweisungs-Datensatz, der darauf abzielt, das Verständnis von langanhaltenden und hochauflösenden Videos zu verbessern. Das Feintuning verschiedener Video-LMMs auf unseren Daten führte zu einer durchschnittlichen Verbesserung von 3,3% über vier anspruchsvolle Benchmarks für das Verständnis von langen Videos. Darüber hinaus führen wir den ersten umfassenden Benchmark für das Verständnis von hochauflösenden Videos, HRVideoBench, ein, auf dem unsere feingetunten Modelle eine Leistungssteigerung von 6,5% erzielen. Diese Ergebnisse unterstreichen die Wirksamkeit unseres Frameworks.

SOLAMI: Soziale Vision-Sprache-Aktionsmodellierung für immersive Interaktion mit 3D-autonomen Charakteren
SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters

Nov 29, 2024
Jianping Jiang, Weiye Xiao, Zhengyu Lin, Huaizhong Zhang, Tianxiang Ren, Yang Gao, Zhiqian Lin, Zhongang Cai, Lei Yang, Ziwei Liu
232

Menschen sind soziale Tiere. Wie man 3D-autonome Charaktere mit ähnlicher sozialer Intelligenz ausstattet, die in der Lage sind, Menschen wahrzunehmen, zu verstehen und mit ihnen zu interagieren, bleibt ein offenes, aber grundlegendes Problem. In diesem Papier stellen wir SOLAMI vor, das erste End-to-End-Modellierungsframework für soziale Vision-Sprache-Handlungen (VLA) für immersive Interaktion mit 3D-autonomen Charakteren. Konkret baut SOLAMI 3D-autonome Charaktere aus drei Aspekten auf: (1) Soziale VLA-Architektur: Wir schlagen ein vereinheitlichtes soziales VLA-Framework vor, um eine multimodale Antwort (Sprache und Bewegung) basierend auf den multimodalen Eingaben des Benutzers zu generieren, um den Charakter für soziale Interaktion zu steuern. (2) Interaktive multimodale Daten: Wir präsentieren SynMSI, einen synthetischen multimodalen sozialen Interaktionsdatensatz, der durch eine automatische Pipeline unter Verwendung nur vorhandener Bewegungsdatensätze generiert wird, um das Problem des Datenmangels zu lösen. (3) Immersive VR-Schnittstelle: Wir entwickeln eine VR-Schnittstelle, die es Benutzern ermöglicht, mit diesen Charakteren immersiv zu interagieren, die von verschiedenen Architekturen gesteuert werden. Umfangreiche quantitative Experimente und Benutzerstudien zeigen, dass unser Framework zu präziseren und natürlicheren Charakterantworten (sowohl in Sprache als auch in Bewegung) führt, die mit den Benutzererwartungen bei geringerer Latenz übereinstimmen.

TAPTRv3: Raum- und Zeitkontext fördern robustes Tracking eines beliebigen Punktes in langen Videos
TAPTRv3: Spatial and Temporal Context Foster Robust Tracking of Any Point in Long Video

Nov 27, 2024
Jinyuan Qu, Hongyang Li, Shilong Liu, Tianhe Ren, Zhaoyang Zeng, Lei Zhang
202

In diesem Paper präsentieren wir TAPTRv3, das auf TAPTRv2 aufbaut, um die Robustheit der Punktnachverfolgung in langen Videos zu verbessern. TAPTRv2 ist ein einfaches DETR-ähnliches Framework, das jeden Punkt in realen Videos präzise verfolgen kann, ohne auf Kosten-Volumen angewiesen zu sein. TAPTRv3 verbessert TAPTRv2, indem es auf dessen Mangel eingeht, hochwertige Merkmale aus langen Videos abzurufen, in denen die nachzuverfolgenden Punkte normalerweise im Laufe der Zeit zunehmende Variationen aufweisen. In TAPTRv3 schlagen wir vor, sowohl den räumlichen als auch den zeitlichen Kontext zu nutzen, um eine bessere Merkmalsabfrage entlang der räumlichen und zeitlichen Dimensionen für eine robustere Nachverfolgung in langen Videos zu ermöglichen. Für eine bessere räumliche Merkmalsabfrage präsentieren wir das Context-aware Cross-Attention (CCA), das die umgebenden räumlichen Kontexte nutzt, um die Qualität der Aufmerksamkeitswerte bei der Abfrage von Bildmerkmalen zu verbessern. Für eine bessere zeitliche Merkmalsabfrage führen wir das Visibility-aware Long-Temporal Attention (VLTA) ein, um eine zeitliche Aufmerksamkeit auf alle vergangenen Frames zu lenken, während deren entsprechende Sichtbarkeiten berücksichtigt werden, was das Merkmalsdriftproblem in TAPTRv2 effektiv angeht, das durch dessen RNN-ähnliches langzeitliches Modellieren verursacht wird. TAPTRv3 übertrifft TAPTRv2 bei den meisten anspruchsvollen Datensätzen deutlich und erzielt eine Spitzenleistung. Selbst im Vergleich zu Methoden, die mit groß angelegten zusätzlichen internen Daten trainiert wurden, bleibt TAPTRv3 wettbewerbsfähig.

GATE Öffnung: Ein umfassender Maßstab zur Beurteilung der offenen, ineinander verschlungenen Bild-Text-Generierung
GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

Nov 27, 2024
Pengfei Zhou, Xiaopeng Peng, Jiajun Song, Chuanhao Li, Zhaopan Xu, Yue Yang, Ziyao Guo, Hao Zhang, Yuqi Lin, Yefei He, Lirui Zhao, Shuo Liu, Tianhua Li, Yuxuan Xie, Xiaojun Chang, Yu Qiao, Wenqi Shao, Kaipeng Zhang
182

Multimodale Large Language Models (MLLMs) haben bedeutende Fortschritte bei visuellen Verständnis- und Generierungsaufgaben erzielt. Die Generierung von ineinandergreifenden Bild-Text-Inhalten bleibt jedoch eine Herausforderung, die integrierte multimodale Verständnis- und Generierungsfähigkeiten erfordert. Während die Fortschritte bei vereinheitlichten Modellen neue Lösungen bieten, sind bestehende Benchmarks aufgrund von Datenmenge- und Diversitätsbeschränkungen unzureichend für die Bewertung dieser Methoden. Um diese Lücke zu schließen, stellen wir GATE OpenING (OpenING) vor, einen umfassenden Benchmark, der 5.400 hochwertige, menschenannotierte Instanzen über 56 realen Aufgaben umfasst. OpenING deckt verschiedene tägliche Szenarien wie Reiseführer, Design und Brainstorming ab und bietet eine robuste Plattform für anspruchsvolle ineinandergreifende Generierungsmethoden. Darüber hinaus präsentieren wir IntJudge, ein Richtermodell zur Bewertung von offenen multimodalen Generierungsmethoden. Trainiert mit einer neuartigen Datenpipeline, erreicht unser IntJudge eine Übereinstimmungsrate von 82,42% mit menschlichen Beurteilungen und übertrifft GPT-basierte Evaluatoren um 11,34%. Umfangreiche Experimente auf OpenING zeigen, dass aktuelle ineinandergreifende Generierungsmethoden noch erhebliches Verbesserungspotenzial haben. Schlüsselerkenntnisse zur ineinandergreifenden Bild-Text-Generierung werden weiterhin präsentiert, um die Entwicklung von Modellen der nächsten Generation zu leiten. Das OpenING ist unter https://opening.github.io als Open Source verfügbar.

Die Quelle: Eine umfangreiche Sammlung verschiedener Physiksimulationen für maschinelles Lernen.
The Well: a Large-Scale Collection of Diverse Physics Simulations for Machine Learning

Nov 30, 2024
Ruben Ohana, Michael McCabe, Lucas Meyer, Rudy Morel, Fruzsina J. Agocs, Miguel Beneitez, Marsha Berger, Blakesley Burkhart, Stuart B. Dalziel, Drummond B. Fielding, Daniel Fortunato, Jared A. Goldberg, Keiya Hirashima, Yan-Fei Jiang, Rich R. Kerswell, Suryanarayana Maddu, Jonah Miller, Payel Mukhopadhyay, Stefan S. Nixon, Jeff Shen, Romain Watteaux, Bruno Régaldo-Saint Blancard, François Rozet, Liam H. Parker, Miles Cranmer, Shirley Ho
172

Surrogatmodelle auf Basis von maschinellem Lernen bieten Forschern leistungsstarke Werkzeuge zur Beschleunigung von simulationsbasierten Arbeitsabläufen. Allerdings kann es aufgrund der Tatsache, dass Standarddatensätze in diesem Bereich oft nur kleine Klassen physikalischen Verhaltens abdecken, schwierig sein, die Wirksamkeit neuer Ansätze zu bewerten. Um diese Lücke zu schließen, stellen wir den Well vor: eine umfangreiche Sammlung von Datensätzen, die numerische Simulationen einer Vielzahl von raumzeitlichen physikalischen Systemen enthalten. Der Well greift auf Fachleute aus verschiedenen Bereichen und Entwickler numerischer Software zurück, um 15 TB Daten über 16 Datensätze bereitzustellen, die verschiedene Bereiche wie biologische Systeme, Strömungsmechanik, akustische Streuung sowie magneto-hydrodynamische Simulationen extragalaktischer Fluide oder Supernova-Explosionen abdecken. Diese Datensätze können einzeln oder als Teil eines umfassenderen Benchmark-Sets verwendet werden. Um die Nutzung des Well zu erleichtern, bieten wir eine einheitliche PyTorch-Schnittstelle zum Trainieren und Evaluieren von Modellen an. Wir demonstrieren die Funktionalität dieser Bibliothek, indem wir Beispielausgangspunkte vorstellen, die die neuen Herausforderungen durch die komplexen Dynamiken des Well hervorheben. Der Code und die Daten sind verfügbar unter https://github.com/PolymathicAI/the_well.

Effizientes Verfolgen von Allem.
Efficient Track Anything

Nov 28, 2024
Yunyang Xiong, Chong Zhou, Xiaoyu Xiang, Lemeng Wu, Chenchen Zhu, Zechun Liu, Saksham Suri, Balakrishnan Varadarajan, Ramya Akula, Forrest Iandola, Raghuraman Krishnamoorthi, Bilge Soran, Vikas Chandra
173

Das Segment Anything Model 2 (SAM 2) hat sich als leistungsstarkes Werkzeug für die Segmentierung von Videoobjekten und das Tracking von beliebigen Elementen erwiesen. Zu den Schlüsselkomponenten von SAM 2, die die beeindruckende Leistung bei der Segmentierung von Videoobjekten ermöglichen, gehören ein großer mehrstufiger Bildcodierer zur Extraktion von Merkmalen aus Einzelbildern und ein Speichermechanismus, der Gedächtniskontexte aus vergangenen Frames speichert, um die Segmentierung des aktuellen Frames zu unterstützen. Die hohe Rechenkomplexität des mehrstufigen Bildcodierers und des Speichermoduls hat seine Anwendungen in realen Aufgaben, wie z.B. der Segmentierung von Videoobjekten auf mobilen Geräten, eingeschränkt. Um diese Einschränkung zu überwinden, schlagen wir EfficientTAMs vor, leichte Modelle zur Verfolgung beliebiger Elemente, die qualitativ hochwertige Ergebnisse mit geringer Latenz und Modellgröße liefern. Unsere Idee basiert darauf, den einfachen, nicht-hierarchischen Vision Transformer (ViT) als Bildcodierer für die Segmentierung von Videoobjekten neu zu bewerten und ein effizientes Speichermodul einzuführen, das die Komplexität sowohl für die Extraktion von Merkmalen aus Einzelbildern als auch für die Speicherberechnung für die Segmentierung des aktuellen Frames reduziert. Wir verwenden einfache, leichte ViTs und ein effizientes Speichermodul, um EfficientTAMs zu erstellen, und trainieren die Modelle auf den Datensätzen SA-1B und SA-V für die Segmentierung von Videoobjekten und die Verfolgung beliebiger Elemente. Wir evaluieren anhand mehrerer Video-Segmentierungs-Benchmarks, einschließlich halbüberwachter VOS und anweisbarer Video-Segmentierung, und stellen fest, dass unser vorgeschlagenes EfficientTAM mit einfachem ViT vergleichbare Leistungen wie das SAM 2-Modell (HieraB+SAM 2) mit etwa doppeltem Geschwindigkeitsvorteil auf A100 und etwa 2,4-facher Parameterreduktion erbringt. Bei Segment-Anything-Bildaufgaben schneiden unsere EfficientTAMs auch vorteilhaft gegenüber dem ursprünglichen SAM ab, mit etwa 20-fachem Geschwindigkeitsvorteil auf A100 und etwa 20-facher Parameterreduktion. Auf mobilen Geräten wie dem iPhone 15 Pro Max können unsere EfficientTAMs mit angemessener Qualität mit etwa 10 FPS für die Durchführung der Segmentierung von Videoobjekten ausgeführt werden, was die Fähigkeit kleiner Modelle für Anwendungen zur Segmentierung von Videoobjekten auf Geräten hervorhebt.

Steuerung korrigierter Flussmodelle im Vektorfeld für kontrollierte Bildgenerierung
Steering Rectified Flow Models in the Vector Field for Controlled Image Generation

Nov 27, 2024
Maitreya Patel, Song Wen, Dimitris N. Metaxas, Yezhou Yang
168

Diffusionsmodelle (DMs) zeichnen sich durch ihre fotorealistische Darstellung, Bildbearbeitung und Lösung inverser Probleme aus, unterstützt durch leitlinienfreie Führung und Bildumkehrtechniken. Allerdings sind rektifizierte Flussmodelle (RFMs) für diese Aufgaben noch wenig erforscht. Bestehende DM-basierte Methoden erfordern häufig zusätzliches Training, weisen eine mangelnde Verallgemeinerung auf vortrainierte latente Modelle auf, erbringen unterdurchschnittliche Leistungen und erfordern aufgrund umfangreicher Rückpropagierung durch ODE-Löser und Umkehrprozesse erhebliche Rechenressourcen. In dieser Arbeit entwickeln wir zunächst ein theoretisches und empirisches Verständnis der Vektorfelddynamik von RFMs, um die Denoising-Trajektorie effizient zu lenken. Unsere Ergebnisse zeigen, dass wir das Vektorfeld auf deterministische und gradientenfreie Weise navigieren können. Unter Nutzung dieser Eigenschaft schlagen wir FlowChef vor, das das Vektorfeld nutzt, um die Denoising-Trajektorie für kontrollierte Bildgenerierungsaufgaben zu lenken, unterstützt durch Gradientensprünge. FlowChef ist ein einheitlicher Rahmen für kontrollierte Bildgenerierung, der erstmals gleichzeitig Klassifiziererführung, lineare inverse Probleme und Bildbearbeitung ohne zusätzliches Training, Umkehrung oder intensive Rückpropagierung behandelt. Abschließend führen wir umfangreiche Evaluationen durch und zeigen, dass FlowChef in Bezug auf Leistung, Speicher und Zeitbedarf signifikant besser abschneidet als Baselines und neue Spitzenleistungen erzielt. Projektseite: https://flowchef.github.io.

VLsI: Verbalisierte Schichten-zu-Interaktionen von großen zu kleinen Vision-Sprachmodellen
VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models

Dec 2, 2024
Byung-Kwan Lee, Ryo Hachiuma, Yu-Chiang Frank Wang, Yong Man Ro, Yueh-Hua Wu
152

Der kürzliche Anstieg an hochwertigen visuellen Anleitungstuning-Proben von geschlossenen vision-sprachlichen Modellen (VLMs) wie GPT-4V hat die Veröffentlichung von Open-Source VLMs in verschiedenen Modellgrößen beschleunigt. Das Skalieren von VLMs zur Verbesserung der Leistung durch größere Modelle bringt jedoch erhebliche Rechenaufgaben mit sich, insbesondere für den Einsatz auf ressourcenbeschränkten Geräten wie mobilen Plattformen und Robotern. Um dies zu bewältigen, schlagen wir VLsI vor: Verbalisierte Schichten-zu-Interaktionen, eine neue VLM-Familie in den Modellgrößen 2B und 7B, die Effizienz priorisiert, ohne die Genauigkeit zu beeinträchtigen. VLsI nutzt einen einzigartigen, schichtweisen Destillationsprozess, der Zwischen-"Verbalisierer" einführt, die Merkmale von jeder Schicht in den natürlichen Sprachraum abbilden und es kleineren VLMs ermöglichen, sich flexibel mit den Denkprozessen größerer VLMs abzustimmen. Dieser Ansatz mildert die oft auftretende Trainingsinstabilität bei der Ausgabeimitation und geht über das typische Feinschleifen der letzten Schicht hinaus, indem er die schichtweise Progression der kleinen VLMs mit der der großen abgleicht. Wir validieren VLsI anhand von zehn anspruchsvollen vision-sprachlichen Benchmarks und erzielen beachtliche Leistungssteigerungen (11,0 % für 2B und 17,4 % für 7B) gegenüber GPT-4V, ohne dass eine Modellskalierung, Fusion oder architektonische Änderungen erforderlich sind.

Winzige Fusion: Flach gelernte Diffusions-Transformer
TinyFusion: Diffusion Transformers Learned Shallow

Dec 2, 2024
Gongfan Fang, Kunjun Li, Xinyin Ma, Xinchao Wang
142

Diffusions-Transformer haben bemerkenswerte Fähigkeiten in der Bildgenerierung gezeigt, kommen jedoch oft mit übermäßiger Parametrisierung, was zu erheblichem Inferenzaufwand in realen Anwendungen führt. In dieser Arbeit präsentieren wir TinyFusion, eine Tiefenpruningsmethode, die darauf abzielt, überflüssige Schichten aus Diffusions-Transformern durch End-to-End-Lernen zu entfernen. Das Kernprinzip unseres Ansatzes besteht darin, ein beschnittenes Modell mit hoher Wiederherstellbarkeit zu erstellen, das es ermöglicht, nach Feinabstimmung starke Leistungen wieder zu erlangen. Um dies zu erreichen, führen wir eine differenzierbare Abtasttechnik ein, um das Pruning erlernbar zu machen, gepaart mit einem ko-optimierten Parameter zur Simulation zukünftiger Feinabstimmung. Während frühere Arbeiten darauf abzielen, den Verlust oder Fehler nach dem Pruning zu minimieren, modelliert unsere Methode explizit und optimiert die Leistung von beschnittenen Modellen nach der Feinabstimmung. Experimentelle Ergebnisse deuten darauf hin, dass dieses erlernbare Paradigma erhebliche Vorteile für das Schichtenpruning von Diffusions-Transformern bietet und bestehende bedeutungsbasierte und fehlerbasierte Methoden übertrifft. Darüber hinaus zeigt TinyFusion eine starke Verallgemeinerung über verschiedene Architekturen wie DiTs, MARs und SiTs. Experimente mit DiT-XL zeigen, dass TinyFusion einen flachen Diffusions-Transformer zu weniger als 7% der Vor-Trainingskosten erstellen kann, was zu einer 2-fachen Beschleunigung mit einem FID-Score von 2.86 führt und Wettbewerber mit vergleichbarer Effizienz übertrifft. Der Code ist verfügbar unter https://github.com/VainF/TinyFusion.

Bewertung der mehrsprachigen Sprachverarbeitung mit regionalem Wissen
INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge

Nov 29, 2024
Angelika Romanou, Negar Foroutan, Anna Sotnikova, Zeming Chen, Sree Harsha Nelaturu, Shivalika Singh, Rishabh Maheshwary, Micol Altomare, Mohamed A. Haggag, Snegha A, Alfonso Amayuelas, Azril Hafizi Amirudin, Viraat Aryabumi, Danylo Boiko, Michael Chang, Jenny Chim, Gal Cohen, Aditya Kumar Dalmia, Abraham Diress, Sharad Duwal, Daniil Dzenhaliou, Daniel Fernando Erazo Florez, Fabian Farestam, Joseph Marvin Imperial, Shayekh Bin Islam, Perttu Isotalo, Maral Jabbarishiviari, Börje F. Karlsson, Eldar Khalilov, Christopher Klamm, Fajri Koto, Dominik Krzemiński, Gabriel Adriano de Melo, Syrielle Montariol, Yiyang Nan, Joel Niklaus, Jekaterina Novikova, Johan Samir Obando Ceron, Debjit Paul, Esther Ploeger, Jebish Purbey, Swati Rajwal, Selvan Sunitha Ravi, Sara Rydell, Roshan Santhosh, Drishti Sharma, Marjana Prifti Skenduli, Arshia Soltani Moakhar, Bardia Soltani Moakhar, Ran Tamir, Ayush Kumar Tarun, Azmine Toushik Wasi, Thenuka Ovin Weerasinghe, Serhan Yilmaz, Mike Zhang, Imanol Schlag, Marzieh Fadaee, Sara Hooker, Antoine Bosselut
142

Die Leistungsunterschiede großer Sprachmodelle (LLM) zwischen Sprachen behindern ihre effektive Bereitstellung in vielen Regionen und hemmen das potenzielle wirtschaftliche und gesellschaftliche Wert von generativen KI-Tools in vielen Gemeinschaften. Die Entwicklung funktionaler LLMs in vielen Sprachen (d.h. mehrsprachige LLMs) wird jedoch durch den Mangel an hochwertigen Evaluationsressourcen in Sprachen außerhalb des Englischen behindert. Darüber hinaus übersetzen aktuelle Praktiken bei der Konstruktion mehrsprachiger Benchmarks oft englische Ressourcen, wodurch das regionale und kulturelle Wissen der Umgebungen ignoriert wird, in denen mehrsprachige Systeme eingesetzt werden sollen. In dieser Arbeit konstruieren wir eine Evaluierungssuite von 197.243 Frage-Antwort-Paaren aus lokalen Prüfungsquellen, um die Fähigkeiten mehrsprachiger LLMs in verschiedenen regionalen Kontexten zu messen. Unsere neuartige Ressource, INCLUDE, ist ein umfassender Wissens- und Schlussfolgerungs-basierter Benchmark in 44 Schriftsprachen, der mehrsprachige LLMs auf ihre Leistungsfähigkeit in den tatsächlichen Sprachumgebungen, in denen sie eingesetzt werden sollen, evaluiert.

WF-VAE: Verbesserung des Video-VAE durch wellenlettengetriebenen Energiefluss für das latente Video-Diffusionsmodell
WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model

Nov 26, 2024
Zongjian Li, Bin Lin, Yang Ye, Liuhan Chen, Xinhua Cheng, Shenghai Yuan, Li Yuan
112

Der Video-Variational Autoencoder (VAE) kodiert Videos in einen niedrigdimensionalen latenten Raum und wird zu einem Schlüsselelement in den meisten Modellen zur Latenten Video-Diffusion (LVDM), um die Trainingskosten des Modells zu reduzieren. Allerdings wird die Kodierungskosten von Video-VAEs zu einem begrenzenden Engpass im Training von LVDMs, wenn die Auflösung und Dauer der generierten Videos zunehmen. Darüber hinaus kann die blockweise Inferenzmethode, die von den meisten LVDMs übernommen wird, zu Diskontinuitäten im latenten Raum führen, wenn lange Videos verarbeitet werden. Der Schlüssel zur Bewältigung des Rechenengpasses liegt darin, Videos in verschiedene Komponenten zu zerlegen und die wichtigen Informationen effizient zu kodieren. Die Wavelet-Transformation kann Videos in mehrere Frequenzdomänenkomponenten zerlegen und die Effizienz erheblich verbessern. Daher schlagen wir den Wavelet-Flow-VAE (WF-VAE) vor, einen Autoencoder, der die mehrstufige Wavelet-Transformation nutzt, um den Energiefluss mit niedriger Frequenz in die latente Darstellung zu erleichtern. Darüber hinaus führen wir eine Methode namens "Causal Cache" ein, die die Integrität des latenten Raums während der blockweisen Inferenz aufrechterhält. Im Vergleich zu modernsten Video-VAEs zeigt der WF-VAE eine überlegene Leistung sowohl in PSNR als auch in LPIPS Metriken, erreicht eine doppelte Durchsatzrate und eine vierfach niedrigere Speichernutzung bei gleichzeitiger Beibehaltung einer wettbewerbsfähigen Rekonstruktionsqualität. Unser Code und unsere Modelle sind unter https://github.com/PKU-YuanGroup/WF-VAE verfügbar.

VLSBench: Enthüllung visueller Lecks in multimodaler Sicherheit
VLSBench: Unveiling Visual Leakage in Multimodal Safety

Nov 29, 2024
Xuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang, Jing Shao
102

Sicherheitsbedenken von Multimodalen großen Sprachmodellen (MLLMs) sind allmählich zu einem wichtigen Problem in verschiedenen Anwendungen geworden. Überraschenderweise deuten frühere Arbeiten auf ein gegenintuitives Phänomen hin, dass die Verwendung des textuellen Vergessens zur Ausrichtung von MLLMs vergleichbare Sicherheitsleistungen mit MLLMs erreicht, die mit Bild-Text-Paaren trainiert wurden. Um ein solches gegenintuitives Phänomen zu erklären, entdecken wir ein Problem des visuellen Sicherheitsinformationslecks (VSIL) in bestehenden multimodalen Sicherheitsbenchmarks, d.h., der potenziell riskante und sensible Inhalt im Bild wurde in der textuellen Abfrage offengelegt. Auf diese Weise können MLLMs diese sensiblen Text-Bild-Abfragen leicht anhand textueller Abfragen ablehnen. Bild-Text-Paare ohne VSIL sind jedoch in realen Szenarien üblich und werden von bestehenden multimodalen Sicherheitsbenchmarks übersehen. Zu diesem Zweck konstruieren wir einen multimodalen visuellen undichtungsfreien Sicherheitsbenchmark (VLSBench), der das visuelle Sicherheitsleck vom Bild zur textuellen Abfrage mit 2,4k Bild-Text-Paaren verhindert. Experimentelle Ergebnisse zeigen, dass VLSBench eine bedeutende Herausforderung für sowohl Open-Source als auch Closed-Source MLLMs darstellt, einschließlich LLaVA, Qwen2-VL, Llama3.2-Vision und GPT-4o. Diese Studie zeigt, dass eine textuelle Ausrichtung für multimodale Sicherheitsszenarien mit VSIL ausreicht, während eine multimodale Ausrichtung eine vielversprechendere Lösung für multimodale Sicherheitsszenarien ohne VSIL darstellt. Bitte sehen Sie sich unseren Code und unsere Daten unter folgendem Link an: http://hxhcreate.github.io/VLSBench

Langzeit-Videoverteilungserzeugung mit segmentierter Kreuz-Aufmerksamkeit und inhaltsreicher Videodatenkuratierung.
Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation

Dec 2, 2024
Xin Yan, Yuxuan Cai, Qiuyue Wang, Yuan Zhou, Wenhao Huang, Huan Yang
92

Wir stellen Presto vor, ein neuartiges Video-Diffusionsmodell, das darauf ausgelegt ist, 15-sekündige Videos mit langanhaltender Kohärenz und reichhaltigem Inhalt zu generieren. Die Erweiterung von Methoden zur Videogenerierung, um die Szenarienvielfalt über längere Zeiträume aufrechtzuerhalten, birgt bedeutende Herausforderungen. Um dem entgegenzuwirken, schlagen wir eine Segmentierte Kreuz-Aufmerksamkeits- (SCA) Strategie vor, die die verborgenen Zustände entlang der zeitlichen Dimension in Segmente aufteilt, wodurch jedes Segment auf eine entsprechende Untertitelung kreuz-aufmerksam werden kann. SCA erfordert keine zusätzlichen Parameter und ermöglicht eine nahtlose Integration in aktuelle DiT-basierte Architekturen. Zur Unterstützung der hochwertigen Generierung langer Videos haben wir den LongTake-HD Datensatz erstellt, der aus 261k inhaltsreichen Videos mit Szenariokohärenz besteht, annotiert mit einer Gesamtvideountertitelung und fünf progressiven Untertitelungen. Experimente zeigen, dass unser Presto 78,5% auf der VBench Semantik-Bewertung und 100% auf dem Dynamikgrad erreicht und bestehende modernste Videogenerierungsmethoden übertrifft. Dies zeigt, dass unser vorgeschlagener Presto den Inhaltsreichtum signifikant verbessert, langanhaltende Kohärenz aufrechterhält und komplexe textliche Details erfasst. Weitere Details finden Sie auf unserer Projektseite: https://presto-video.github.io/.

Kunstfreie generative Modelle: Kunstschöpfung ohne grafisches Kunstwissen
Art-Free Generative Models: Art Creation Without Graphic Art Knowledge

Nov 29, 2024
Hui Ren, Joanna Materzynska, Rohit Gandikota, David Bau, Antonio Torralba
93

Wir untersuchen die Frage: "Wie viel Vorwissen über Kunst ist erforderlich, um Kunst zu schaffen?" Um dies zu untersuchen, schlagen wir ein Text-zu-Bild-Generierungsmodell vor, das ohne Zugriff auf kunstbezogene Inhalte trainiert wurde. Anschließend stellen wir eine einfache, aber effektive Methode vor, um einen Kunstadapter zu erlernen, der nur mit einigen Beispielen ausgewählter künstlerischer Stile trainiert wird. Unsere Experimente zeigen, dass von unserem Verfahren generierte Kunst von Benutzern als vergleichbar mit Kunst wahrgenommen wird, die von Modellen erzeugt wurde, die auf großen, kunstreichen Datensätzen trainiert wurden. Abschließend veranschaulichen wir durch Datenattributionsverfahren, wie Beispiele aus sowohl künstlerischen als auch nicht-künstlerischen Datensätzen zur Schaffung neuer künstlerischer Stile beigetragen haben.

VisOnlyQA: Große Vision-Sprach-Modelle haben immer noch Schwierigkeiten mit der visuellen Wahrnehmung geometrischer Informationen.
VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information

Dec 1, 2024
Ryo Kamoi, Yusen Zhang, Sarkar Snigdha Sarathi Das, Ranran Haoran Zhang, Rui Zhang
82

Fehler beim Verständnis visueller Informationen in Bildern (d.h. visuelle Wahrnehmungsfehler) bleiben eine Hauptursache für Fehler in großen Sprach- und Bildmodellen (LVLMs). Während eine weitere Analyse unerlässlich ist, besteht ein Mangel an Datensätzen zur Bewertung der visuellen Wahrnehmung von LVLMs. In dieser Arbeit stellen wir VisOnlyQA vor, einen neuen Datensatz, der entwickelt wurde, um die visuellen Wahrnehmungsfähigkeiten von LVLMs direkt anhand von Fragen zu geometrischen und numerischen Informationen in wissenschaftlichen Abbildungen zu bewerten. Unser Datensatz ermöglicht es uns, die visuelle Wahrnehmung von LVLMs für feinkörnige visuelle Informationen zu analysieren, unabhängig von anderen Fähigkeiten wie dem Schlussfolgern. Der Auswertungssatz von VisOnlyQA umfasst 1.200 Multiple-Choice-Fragen in 12 Aufgaben zu vier Kategorien von Abbildungen. Wir stellen auch synthetische Trainingsdaten zur Verfügung, die aus 70.000 Instanzen bestehen. Unsere Experimente mit VisOnlyQA heben folgende Ergebnisse hervor: (i) 20 von uns bewertete LVLMs, einschließlich GPT-4o und Gemini 1.5 Pro, arbeiten schlecht bei den visuellen Wahrnehmungsaufgaben in VisOnlyQA, während die menschliche Leistung nahezu perfekt ist. (ii) Das Feinabstimmen an synthetischen Trainingsdaten zeigt das Potenzial zur Verbesserung der visuellen Wahrnehmung von LVLMs auf, jedoch sind beobachtete Verbesserungen auf bestimmte Aufgaben und spezifische Modelle beschränkt. (iii) Stärkere Sprachmodelle verbessern die visuelle Wahrnehmung von LVLMs. Zusammenfassend legen unsere Experimente nahe, dass sowohl Trainingsdaten als auch Modellarchitekturen verbessert werden sollten, um die visuellen Wahrnehmungsfähigkeiten von LVLMs zu stärken. Die Datensätze, der Code und die Modellantworten sind unter https://github.com/psunlpgroup/VisOnlyQA verfügbar.

PhysGame: Aufdecken von Verletzungen des physikalischen Allgemeinwissens in Gameplay-Videos
PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos

Dec 2, 2024
Meng Cao, Haoran Tang, Haoze Zhao, Hangyu Guo, Jiaheng Liu, Ge Zhang, Ruyang Liu, Qiang Sun, Ian Reid, Xiaodan Liang
62

In jüngster Zeit haben Fortschritte bei Video-basierten großen Sprachmodellen (Video LLMs) das Aufkommen verschiedener Fähigkeiten zur Schlussfolgerung und Interpretation dynamischer visueller Inhalte erlebt. Unter ihnen stechen Gameplay-Videos als eine besondere Datenquelle hervor, die oft Fehler enthält, die dem physikalischen Allgemeinwissen widersprechen. Diese Eigenschaft macht sie zu einem effektiven Maßstab zur Bewertung der noch wenig erforschten Fähigkeit des physikalischen Allgemeinwissensverständnisses in Video LLMs. In diesem Artikel schlagen wir PhysGame als einen wegweisenden Maßstab zur Bewertung von Verstößen gegen das physikalische Allgemeinwissen in Gameplay-Videos vor. PhysGame umfasst 880 Videos mit Fehlern in vier grundlegenden Bereichen (d.h. Mechanik, Kinematik, Optik und Materialeigenschaften) und über 12 verschiedene physikalische Allgemeinwissensbereiche. Durch umfangreiche Evaluierung verschiedener modernster Video LLMs zeigen unsere Ergebnisse, dass die Leistung der aktuellen Open-Source Video LLMs deutlich hinter der proprietärer Gegenstücke zurückbleibt. Um diese Kluft zu überbrücken, erstellen wir einen Anweisungsabstimmungsdatensatz PhysInstruct mit 140.057 Frage-Antwort-Paaren, um das Lernen des physikalischen Allgemeinwissens zu erleichtern. Darüber hinaus schlagen wir auch einen Präferenzoptimierungsdatensatz PhysDPO mit 34.358 Trainingspaaren vor, bei dem die nicht bevorzugten Antworten unter Verwendung von irreführenden Titeln (d.h. Metainformations-Hacking), weniger Frames (d.h. zeitliches Hacking) und niedrigeren räumlichen Auflösungen (d.h. räumliches Hacking) generiert werden. Basierend auf der Reihe von Datensätzen schlagen wir PhysVLM als ein physikalisches Wissens-verbessertes Video LLM vor. Umfangreiche Experimente sowohl auf dem physikorientierten Maßstab PhysGame als auch auf allgemeinen Video-Verständnis-Maßstäben zeigen die modernste Leistung von PhysVLM.

Ein einfaches und nachweisbares Skalierungsgesetz für die Rechenleistung von großen Sprachmodellen zur Testzeit.
A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models

Nov 29, 2024
Yanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou
62

Wir schlagen einen allgemeinen Zwei-Stufen-Algorithmus vor, der ein nachweisbares Skalierungsgesetz für die Testzeitberechnung großer Sprachmodelle (LLMs) aufweist. Bei einem Eingabeproblem generiert der vorgeschlagene Algorithmus zunächst N Kandidatenlösungen und wählt dann die beste Lösung über ein Mehrfach-Ausscheidungsturnier aus, bei dem jedes Kandidatenpaar K-mal verglichen wird und nur die Gewinner in die nächste Runde gelangen. In einer minimalistischen Umsetzung können beide Stufen allein mit einem Black-Box-LLM und nichts anderem (z. B. kein externer Überprüfer oder Belohnungsmodell) ausgeführt werden, und insgesamt werden N-mal (K + 1) hochparallelisierbare LLM-Aufrufe benötigt, um ein Eingabeproblem zu lösen. Unter der Annahme, dass eine generierte Kandidatenlösung mit einer Wahrscheinlichkeit p_{gen} > 0 korrekt ist und ein Vergleich zwischen einem Paar korrekter und inkorrekter Lösungen den richtigen Gewinner mit einer Wahrscheinlichkeit p_{comp} > 0,5 identifiziert (d. h. besser als eine zufällige Vermutung), zeigen wir theoretisch, dass die Fehlerwahrscheinlichkeit des vorgeschlagenen Algorithmus exponentiell mit N und K abnimmt: $P(final output is incorrect) le (1 - p_{gen})^N + lceil log_2 N rceil e^{-2 K (p_{comp} - 0.5)^2}.$ Unsere empirischen Ergebnisse mit dem anspruchsvollen MMLU-Pro-Benchmark bestätigen die technischen Annahmen sowie die Wirksamkeit des vorgeschlagenen Algorithmus und die Vorteile der Skalierung seiner Testzeitberechnung.

Kollaborative Instanznavigation: Nutzung von Agenten-Selbstgesprächen zur Minimierung von Benutzereingaben
Collaborative Instance Navigation: Leveraging Agent Self-Dialogue to Minimize User Input

Dec 2, 2024
Francesco Taioli, Edoardo Zorzi, Gianni Franchi, Alberto Castellini, Alessandro Farinelli, Marco Cristani, Yiming Wang
52

Bestehende verkörperte Instanzziel-Navigationstasks, die von natürlicher Sprache gesteuert werden, setzen voraus, dass menschliche Benutzer vor der Navigation vollständige und nuancierte Instanzbeschreibungen liefern, was in der realen Welt unpraktisch sein kann, da menschliche Anweisungen knapp und mehrdeutig sein können. Um diese Lücke zu überbrücken, schlagen wir eine neue Aufgabe vor, die Kollaborative Instanznavigation (CoIN), mit dynamischer Agenten-Benutzer-Interaktion während der Navigation vor, um Unsicherheiten über die Zielinstanz in natürlichen, vorlagenfreien, offenen Dialogen aktiv zu lösen. Um CoIN anzugehen, schlagen wir eine neue Methode vor, die Agent-Benutzer-Interaktion mit Unsicherheitsbewusstsein (AIUTA), nutzt die Wahrnehmungsfähigkeit von Visionssprachmodellen (VLMs) und die Fähigkeit von großen Sprachmodellen (LLMs). Zunächst initiiert ein Selbst-Frager-Modell nach der Objekterkennung einen Selbst-Dialog, um eine vollständige und genaue Beobachtungsbeschreibung zu erhalten, während eine neuartige Unsicherheitsschätzungstechnik ungenaue VLM-Wahrnehmung mindert. Anschließend bestimmt ein Interaktionsauslösermodul, ob eine Frage an den Benutzer gestellt, die Navigation fortgesetzt oder gestoppt werden soll, um die Benutzereingabe zu minimieren. Zur Bewertung führen wir CoIN-Bench ein, einen Benchmark, der sowohl echte als auch simulierte Menschen unterstützt. AIUTA erzielt eine wettbewerbsfähige Leistung bei der Instanznavigation gegenüber modernsten Methoden und zeigt eine hohe Flexibilität im Umgang mit Benutzereingaben.

Weltkonsistente Videoverbreitung mit expliziter 3D-Modellierung
World-consistent Video Diffusion with Explicit 3D Modeling

Dec 2, 2024
Qihang Zhang, Shuangfei Zhai, Miguel Angel Bautista, Kevin Miao, Alexander Toshev, Joshua Susskind, Jiatao Gu
42

Die jüngsten Fortschritte in Diffusionsmodellen haben neue Maßstäbe in der Bild- und Videogenerierung gesetzt und ermöglichen eine realistische visuelle Synthese über Einzelbild- und Mehrbildkontexte hinweg. Allerdings haben diese Modelle immer noch Schwierigkeiten, 3D-konsistente Inhalte effizient und explizit zu generieren. Um dies zu lösen, schlagen wir World-consistent Video Diffusion (WVD) vor, ein neuartiges Framework, das eine explizite 3D-Überwachung unter Verwendung von XYZ-Bildern integriert, die globale 3D-Koordinaten für jeden Bildpixel codieren. Genauer gesagt trainieren wir einen Diffusionstransformator, um die gemeinsame Verteilung von RGB- und XYZ-Frames zu erlernen. Dieser Ansatz unterstützt eine multitaskfähige Anpassung über eine flexible Inpainting-Strategie. Zum Beispiel kann WVD XYZ-Frames aus Ground-Truth-RGB schätzen oder neuartige RGB-Frames mithilfe von XYZ-Projektionen entlang einer spezifizierten Kameratrajektorie generieren. Auf diese Weise vereint WVD Aufgaben wie Einzelbild-zu-3D-Generierung, Multi-View-Stereo und kameraüberwachte Videogenerierung. Unser Ansatz zeigt eine wettbewerbsfähige Leistung über mehrere Benchmarks hinweg und bietet eine skalierbare Lösung für die 3D-konsistente Video- und Bildgenerierung mit einem einzigen vorab trainierten Modell.

Erkundung der Fähigkeiten großer Sprachmodelle zur Lösung proportionaler Analogien mittels wissensgestützter Aufforderungen
Exploring the Abilities of Large Language Models to Solve Proportional Analogies via Knowledge-Enhanced Prompting

Dec 1, 2024
Thilini Wijesiriwardene, Ruwan Wickramarachchi, Sreeram Vennam, Vinija Jain, Aman Chadha, Amitava Das, Ponnurangam Kumaraguru, Amit Sheth
42

Das Herstellen von Analogien ist grundlegend für die Kognition. Proportionale Analogien, die aus vier Begriffen bestehen, werden häufig zur Bewertung sprachlicher und kognitiver Fähigkeiten verwendet. Zum Beispiel erfordert das Vervollständigen von Analogien wie "Sauerstoff ist zu Gas wie <leer> ist zu <leer>" die Identifizierung der semantischen Beziehung (z.B. "Art von") zwischen dem ersten Begriffspaar ("Sauerstoff" und "Gas") und das Finden eines zweiten Paares, das dieselbe Beziehung teilt (z.B. "Aluminium" und "Metall"). In dieser Arbeit stellen wir einen 15K Multiple-Choice Question Answering (MCQA) Datensatz für die Vervollständigung proportionaler Analogien vor und bewerten die Leistung zeitgenössischer Large Language Models (LLMs) in verschiedenen wissensgestützten Eingabeszenarien. Speziell erweitern wir Eingaben um drei Arten von Wissen: Exemplar, strukturiert und zielgerichtet. Unsere Ergebnisse zeigen, dass trotz umfangreicher Trainingsdaten das Lösen proportionaler Analogien für aktuelle LLMs nach wie vor eine Herausforderung darstellt, wobei das beste Modell eine Genauigkeit von 55% erreicht. Bemerkenswert ist, dass die Bereitstellung zielgerichteten Wissens den Modellen besser helfen kann, proportionale Analogien zu vervollständigen, im Vergleich zur Bereitstellung von Beispielen oder Sammlungen strukturierten Wissens.

AMO Sampler: Verbesserung der Textdarstellung durch Überschießen
AMO Sampler: Enhancing Text Rendering with Overshooting

Nov 28, 2024
Xixi Hu, Keyang Xu, Bo Liu, Qiang Liu, Hongliang Fei
42

Die präzise Ausrichtung zwischen textuellen Anweisungen und generierten Bildern in der Text-zu-Bild-Generierung ist eine bedeutende Herausforderung, insbesondere bei der Darstellung von schriftlichem Text innerhalb von Bildern. State-of-the-Art-Modelle wie Stable Diffusion 3 (SD3), Flux und AuraFlow haben nach wie vor Schwierigkeiten mit der genauen Textdarstellung, was zu falsch geschriebenen oder inkonsistenten Texten führt. Wir stellen eine trainingsfreie Methode mit minimalem Rechenaufwand vor, die die Qualität der Textdarstellung signifikant verbessert. Konkret führen wir einen Overshooting-Sampler für vortrainierte rektifizierte Fluss (RF)-Modelle ein, indem wir zwischen dem übermäßigen Simulieren der erlernten gewöhnlichen Differentialgleichung (ODE) und der Wiedereinführung von Rauschen abwechseln. Im Vergleich zum Euler-Sampler führt der Overshooting-Sampler effektiv einen zusätzlichen Langevin-Dynamik-Term ein, der dazu beitragen kann, den Fehler aus aufeinanderfolgenden Euler-Schritten zu korrigieren und somit die Textdarstellung zu verbessern. Allerdings beobachten wir bei hoher Overshooting-Stärke Überglättungsartefakte auf den generierten Bildern. Um dieses Problem zu lösen, schlagen wir einen Attention Modulated Overshooting-Sampler (AMO) vor, der die Stärke des Overshootings für jeden Bildausschnitt adaptiv steuert, basierend auf ihrem Aufmerksamkeitswert für den Textinhalt. AMO zeigt eine Verbesserung der Textdarstellungsgenauigkeit um 32,3% bzw. 35,9% bei SD3 und Flux, ohne die Gesamtqualität der Bilder zu beeinträchtigen oder die Inferenzkosten zu erhöhen.

HUGSIM: Ein Echtzeit-, fotorealistischer und Closed-Loop-Simulator für autonomes Fahren
HUGSIM: A Real-Time, Photo-Realistic and Closed-Loop Simulator for Autonomous Driving

Dec 2, 2024
Hongyu Zhou, Longzhong Lin, Jiabao Wang, Yichong Lu, Dongfeng Bai, Bingbing Liu, Yue Wang, Andreas Geiger, Yiyi Liao
32

In den letzten Jahrzehnten haben autonome Fahralgorithmusse erhebliche Fortschritte in der Wahrnehmung, Planung und Steuerung gemacht. Die Bewertung einzelner Komponenten spiegelt jedoch nicht vollständig die Leistung gesamter Systeme wider, was die Notwendigkeit für ganzheitlichere Bewertungsmethoden verdeutlicht. Dies motiviert die Entwicklung von HUGSIM, einem Closed-Loop-, fotorealistischen und Echtzeit-Simulator zur Bewertung autonomer Fahralgorithmusse. Dies wird erreicht, indem 2D RGB-Bilder mithilfe von 3D-Gaußsplatting in den 3D-Raum übertragen werden, um die Renderqualität für Closed-Loop-Szenarien zu verbessern und die Closed-Loop-Umgebung aufzubauen. In Bezug auf das Rendern bewältigen wir Herausforderungen der neuartigen Ansichtssynthese in Closed-Loop-Szenarien, einschließlich Ansichtsextrapolation und 360-Grad-Fahrzeugrendering. Über die neuartige Ansichtssynthese hinaus ermöglicht HUGSIM die vollständige geschlossene Simulationsschleife, die die Ego- und Akteurzustände und -beobachtungen basierend auf Steuerbefehlen dynamisch aktualisiert. Darüber hinaus bietet HUGSIM einen umfassenden Benchmark über mehr als 70 Sequenzen von KITTI-360, Waymo, nuScenes und PandaSet sowie über 400 verschiedene Szenarien, die eine faire und realistische Evaluierungsplattform für bestehende autonome Fahralgorithmusse bereitstellen. HUGSIM dient nicht nur als intuitive Evaluierungsbasis, sondern erschließt auch das Potenzial zur Feinabstimmung autonomer Fahralgorithmusse in einer fotorealistischen Closed-Loop-Umgebung.

Richtung der länderübergreifenden Erkennung von Audio-Missbrauch in ressourcenarmen Umgebungen mit Few-Shot-Lernen
Towards Cross-Lingual Audio Abuse Detection in Low-Resource Settings with Few-Shot Learning

Dec 2, 2024
Aditya Narayan Sankaran, Reza Farahbaksh, Noel Crespi
22

Die Erkennung von Online-Missbrauchsinhalten, insbesondere in ressourcenarmen Umgebungen und im Audio-Modus, ist nach wie vor wenig erforscht. Wir untersuchen das Potenzial von vortrainierten Audio-Repräsentationen zur Erkennung von missbräuchlicher Sprache in ressourcenarmen Sprachen, in diesem Fall in indischen Sprachen, unter Verwendung des Few-Shot-Learnings (FSL). Durch die Nutzung leistungsstarker Repräsentationen aus Modellen wie Wav2Vec und Whisper erforschen wir die länderübergreifende Missbrauchserkennung unter Verwendung des ADIMA-Datensatzes mit FSL. Unser Ansatz integriert diese Repräsentationen innerhalb des Model-Agnostic Meta-Learning (MAML)-Frameworks, um missbräuchliche Sprache in 10 Sprachen zu klassifizieren. Wir experimentieren mit verschiedenen Schussgrößen (50-200) und bewerten den Einfluss begrenzter Daten auf die Leistung. Darüber hinaus wurde eine Studie zur Merkmalsvisualisierung durchgeführt, um das Verhalten des Modells besser zu verstehen. Diese Studie hebt die Verallgemeinerungsfähigkeit vortrainierter Modelle in ressourcenarmen Szenarien hervor und bietet wertvolle Einblicke in die Erkennung von missbräuchlicher Sprache in multilingualen Kontexten.

Verbesserung der Robustheit der Sprecheridentifikation mit synthetischen emotionalen Äußerungen
Improving speaker verification robustness with synthetic emotional utterances

Nov 30, 2024
Nikhil Kumar Koditala, Chelsea Jui-Ting Ju, Ruirui Li, Minho Jin, Aman Chadha, Andreas Stolcke
22

Ein Sprecher-Verifikationssystem (SV) bietet einen Authentifizierungsdienst, der darauf ausgelegt ist zu bestätigen, ob eine bestimmte Sprachprobe von einem bestimmten Sprecher stammt. Diese Technologie hat den Weg für verschiedene personalisierte Anwendungen geebnet, die individuellen Vorlieben gerecht werden. Eine bemerkenswerte Herausforderung, der sich SV-Systeme gegenübersehen, ist ihre Fähigkeit, konsistent über eine Reihe von emotionalen Spektren hinweg zu agieren. Die meisten bestehenden Modelle weisen im Umgang mit emotionalen Äußerungen im Vergleich zu neutralen Äußerungen hohe Fehlerquoten auf. Folglich führt dieses Phänomen oft dazu, dass interessante Sprachanteile übersehen werden. Dieses Problem resultiert hauptsächlich aus der begrenzten Verfügbarkeit von markierten emotionalen Sprachdaten, die die Entwicklung robuster Sprecherrepräsentationen behindert, die verschiedene emotionale Zustände umfassen. Um diesem Anliegen zu begegnen, schlagen wir einen neuartigen Ansatz vor, der das CycleGAN-Framework als Methode zur Datenanreicherung nutzt. Diese Technik synthetisiert emotionale Sprachsegmente für jeden spezifischen Sprecher, während sie die einzigartige stimmliche Identität bewahrt. Unsere experimentellen Ergebnisse unterstreichen die Wirksamkeit der Integration synthetischer emotionaler Daten in den Schulungsprozess. Die mit diesem erweiterten Datensatz trainierten Modelle übertreffen konsistent die Basislinienmodelle bei der Aufgabe, Sprecher in emotionalen Sprachszenarien zu verifizieren, wobei die Fehlerquote um bis zu 3,64% relativ reduziert wird.

Dec 2
Dec 3
Dec 4