ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

Elster: Ausrichtungsdatensynthese von Grund auf durch Aufforderung von ausgerichteten LLMs ohne etwas
Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing

Jun 12
ByZhangchen Xu, Fengqing Jiang, Luyao Niu, Yuntian Deng, Radha Poovendran, Yejin Choi, Bill Yuchen Lin
71
5

Die Qualität der Anweisungsdaten ist entscheidend für die Ausrichtung großer Sprachmodelle (LLMs). Obwohl einige Modelle, wie z.B. Llama-3-Instruct, offene Gewichte haben, bleiben ihre Ausrichtungsdaten privat, was die Demokratisierung der KI behindert. Hohe menschliche Arbeitskosten und ein begrenzter, vordefinierter Umfang für Aufforderungen verhindern, dass bestehende Open-Source-Daten-Erstellungsmethoden effektiv skalieren, was die Vielfalt und Qualität öffentlicher Ausrichtungsdatensätze potenziell einschränkt. Ist es möglich, hochwertige Anweisungsdaten im großen Maßstab zu synthetisieren, indem sie direkt aus einem ausgerichteten LLM extrahiert werden? Wir stellen eine Selbstsynthesemethode zur Erzeugung von groß angelegten Ausrichtungsdaten namens Magpie vor. Unsere Schlüsselbeobachtung ist, dass ausgerichtete LLMs wie Llama-3-Instruct eine Benutzerabfrage generieren können, wenn wir nur die linksseitigen Vorlagen bis zur Position eingeben, die für Benutzermitteilungen reserviert ist, dank ihrer autoregressiven Natur. Wir verwenden diese Methode, um Llama-3-Instruct zu fördern und 4 Millionen Anweisungen zusammen mit ihren entsprechenden Antworten zu generieren. Wir führen eine umfassende Analyse der extrahierten Daten durch und wählen 300.000 hochwertige Instanzen aus. Um die Magpie-Daten mit anderen öffentlichen Anweisungsdatensätzen zu vergleichen, feinabstimmen wir Llama-3-8B-Base mit jedem Datensatz und bewerten die Leistung der feinabgestimmten Modelle. Unsere Ergebnisse deuten darauf hin, dass in einigen Aufgaben Modelle, die mit Magpie feinabgestimmt wurden, vergleichbar mit dem offiziellen Llama-3-8B-Instruct abschneiden, obwohl letzteres mit 10 Millionen Datenpunkten durch überwachtes Feintuning (SFT) und anschließendes Feedback-Lernen verbessert wurde. Wir zeigen auch, dass die ausschließliche Verwendung von Magpie für SFT die Leistung früherer öffentlicher Datensätze übertreffen kann, die sowohl für SFT als auch für Präferenzoptimierung genutzt wurden, wie z.B. direkte Präferenzoptimierung mit UltraFeedback. Dieser Vorteil zeigt sich bei Ausrichtungs-Benchmarks wie AlpacaEval, ArenaHard und WildBench.

2

NaRCan: Natürlich verfeinertes kanonisches Bild mit Integration von Diffusionsprior für die Videobearbeitung
NaRCan: Natural Refined Canonical Image with Integration of Diffusion Prior for Video Editing

Jun 10
ByTing-Hsuan Chen, Jiewen Chan, Hau-Shiang Shiu, Shih-Han Yen, Chang-Han Yeh, Yu-Lun Liu
53
2

Wir schlagen ein Video-Editing-Framework namens NaRCan vor, das ein hybrides Deformationsfeld und Diffusionsprior verwendet, um hochwertige natürliche kanonische Bilder zur Darstellung des Eingabevideos zu generieren. Unser Ansatz nutzt Homographie zur Modellierung globaler Bewegungen und verwendet Mehrschichtperzeptrons (MLPs), um lokale Restdeformationen zu erfassen und die Fähigkeit des Modells zur Bewältigung komplexer Videodynamiken zu verbessern. Durch die Einführung eines Diffusionspriors von den frühen Trainingsphasen an stellt unser Modell sicher, dass die generierten Bilder ein hochwertiges natürliches Erscheinungsbild bewahren, wodurch die produzierten kanonischen Bilder für verschiedene nachgelagerte Aufgaben im Video-Editing geeignet sind, was von aktuellen kanonischen Methoden nicht erreicht wird. Darüber hinaus integrieren wir Feinabstimmung durch Low-Rank-Anpassung (LoRA) und führen eine Rausch- und Diffusionsprior-Aktualisierungsplanungstechnik ein, die den Schulungsprozess um das 14-fache beschleunigt. Umfangreiche experimentelle Ergebnisse zeigen, dass unsere Methode bestehende Ansätze in verschiedenen Video-Editing-Aufgaben übertrifft und kohärente und hochwertige bearbeitete Videosequenzen produziert. Besuchen Sie unsere Projektseite für Videoergebnisse unter https://koi953215.github.io/NaRCan_page/.

3

Was passiert, wenn wir Milliarden von Webbildern mit LLaMA-3 neu beschriften?
What If We Recaption Billions of Web Images with LLaMA-3?

Jun 12
ByXianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie
41
1

Web-gecrawlte Bild-Text-Paare sind grundsätzlich rauschanfällig. Frühere Studien zeigen, dass eine semantische Ausrichtung und Anreicherung der textuellen Beschreibungen dieser Paare das Modelltraining bei verschiedenen Vision-Language-Aufgaben erheblich verbessern kann, insbesondere bei der Text-zu-Bild-Generierung. Allerdings sind groß angelegte Untersuchungen in diesem Bereich überwiegend Closed-Source. Unser Paper zielt darauf ab, diese Gemeinschaftsbemühung zu unterstützen, indem wir auf das leistungsstarke und Open-Source LLaMA-3 zurückgreifen, ein LLM auf GPT-4-Niveau. Unser Re-Captioning-Pipeline ist einfach: Zunächst feinjustieren wir ein LLaMA-3-8B-betriebenes LLaVA-1.5 und setzen es dann ein, um 1,3 Milliarden Bilder aus dem DataComp-1B-Datensatz neu zu beschriften. Unsere empirischen Ergebnisse bestätigen, dass dieser verbesserte Datensatz, Recap-DataComp-1B, erhebliche Vorteile beim Training fortschrittlicher Vision-Language-Modelle bietet. Für diskriminative Modelle wie CLIP beobachten wir eine verbesserte Zero-Shot-Performance bei Cross-Modal-Retrieval-Aufgaben. Für generative Modelle wie Text-zu-Bild-Diffusionstransformatoren zeigen die generierten Bilder eine signifikante Verbesserung in der Ausrichtung auf die Textanweisungen der Benutzer, insbesondere bei komplexen Abfragen. Unsere Projektseite ist https://www.haqtu.me/Recap-Datacomp-1B/

4

MotionClone: Training-freies Motion Cloning für kontrollierbare Videogenerierung
MotionClone: Training-Free Motion Cloning for Controllable Video Generation

Jun 8
ByPengyang Ling, Jiazi Bu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Tong Wu, Huaian Chen, Jiaqi Wang, Yi Jin
41
4

Die auf Bewegungen basierende steuerbare Text-zu-Video-Generierung beinhaltet Bewegungen zur Steuerung der Videoerzeugung. Frühere Methoden erfordern in der Regel das Training von Modellen zur Kodierung von Bewegungshinweisen oder das Feintuning von Videodiffusionsmodellen. Diese Ansätze führen jedoch häufig zu suboptimaler Bewegungserzeugung, wenn sie außerhalb des trainierten Bereichs angewendet werden. In dieser Arbeit schlagen wir MotionClone vor, ein trainingsfreies Framework, das die Bewegungsklonierung von einem Referenzvideo zur Steuerung der Text-zu-Video-Generierung ermöglicht. Wir verwenden zeitliche Aufmerksamkeit in der Videoinversion, um die Bewegungen im Referenzvideo darzustellen, und führen primäre zeitliche Aufmerksamkeitsführung ein, um den Einfluss von rauschhaften oder sehr subtilen Bewegungen innerhalb der Aufmerksamkeitsgewichte zu mildern. Darüber hinaus schlagen wir zur Unterstützung des Generierungsmodells bei der Synthese vernünftiger räumlicher Beziehungen und zur Verbesserung seiner prompten Folgefähigkeit einen ortsbezogenen semantischen Führungmechanismus vor, der den groben Standort des Vordergrunds aus dem Referenzvideo und originale klassifiziererfreie Führungseigenschaften nutzt, um die Videoerzeugung zu leiten. Umfangreiche Experimente zeigen, dass MotionClone sowohl bei globalen Kamerabewegungen als auch bei lokalen Objektbewegungen eine hohe Kompetenz aufweist, mit bemerkenswerter Überlegenheit in Bezug auf Bewegungstreue, textuelle Ausrichtung und zeitliche Konsistenz.

5

Physics3D: Erlernen physikalischer Eigenschaften von 3D-Gaußverteilungen durch Video-Diffusion
Physics3D: Learning Physical Properties of 3D Gaussians via Video Diffusion

Jun 6
ByFangfu Liu, Hanyang Wang, Shunyu Yao, Shengjun Zhang, Jie Zhou, Yueqi Duan
39
4

In den letzten Jahren hat es eine rasante Entwicklung bei 3D-Generierungsmodellen gegeben, die neue Möglichkeiten für Anwendungen wie die Simulation der dynamischen Bewegungen von 3D-Objekten und die Anpassung ihres Verhaltens eröffnen. Allerdings neigen aktuelle 3D-generative Modelle dazu, sich nur auf Oberflächenmerkmale wie Farbe und Form zu konzentrieren und vernachlässigen die inhärenten physikalischen Eigenschaften, die das Verhalten von Objekten in der realen Welt steuern. Um Physik-orientierte Dynamiken genau zu simulieren, ist es entscheidend, die physikalischen Eigenschaften von Materialien vorherzusagen und in den Verhaltensvorhersageprozess zu integrieren. Dennoch ist die Vorhersage der vielfältigen Materialien realer Objekte aufgrund der komplexen Natur ihrer physikalischen Attribute nach wie vor eine Herausforderung. In diesem Artikel schlagen wir Physics3D vor, eine neuartige Methode zum Erlernen verschiedener physikalischer Eigenschaften von 3D-Objekten durch ein Video-Diffusionsmodell. Unser Ansatz beinhaltet die Entwicklung eines hochgradig generalisierbaren physikalischen Simulationssystems auf Basis eines viskoelastischen Materialmodells, das es uns ermöglicht, eine Vielzahl von Materialien mit hoher Genauigkeit zu simulieren. Darüber hinaus destillieren wir die physikalischen Voraussetzungen aus einem Video-Diffusionsmodell, das ein tieferes Verständnis realistischer Objektmaterialeigenschaften bietet. Umfangreiche Experimente zeigen die Wirksamkeit unserer Methode sowohl bei elastischen als auch bei plastischen Materialien. Physics3D zeigt ein großes Potenzial, um die Kluft zwischen der physischen Welt und dem virtuellen neuronalen Raum zu überbrücken und eine bessere Integration und Anwendung realistischer physikalischer Prinzipien in virtuellen Umgebungen zu ermöglichen. Projektseite: https://liuff19.github.io/Physics3D.

6

PowerInfer-2: Schnelle Inferenz von großen Sprachmodellen auf einem Smartphone
PowerInfer-2: Fast Large Language Model Inference on a Smartphone

Jun 10
ByZhenliang Xue, Yixin Song, Zeyu Mi, Le Chen, Yubin Xia, Haibo Chen
38
5

Dieses Papier stellt PowerInfer-2 vor, ein Framework, das für die schnelle Inferenz von Large Language Models (LLMs) auf Smartphones entwickelt wurde und besonders effektiv für Modelle ist, deren Größe die Speicherkapazität des Geräts übersteigt. Der Schlüsselgedanke von PowerInfer-2 besteht darin, die heterogenen Rechen-, Speicher- und I/O-Ressourcen in Smartphones zu nutzen, indem traditionelle Matrixberechnungen in feinkörnige Neuronencluster-Berechnungen zerlegt werden. Speziell verfügt PowerInfer-2 über einen polymorphen Neuronen-Engine, der sich an verschiedene Phasen der LLM-Inferenz anpasst. Darüber hinaus führt es segmentiertes Neuronen-Caching und feinkörniges Neuronencluster-Level-Pipelining ein, um die durch I/O-Operationen verursachten Overheads effektiv zu minimieren und zu verbergen. Die Implementierung und Evaluation von PowerInfer-2 zeigen seine Fähigkeit, eine Vielzahl von LLM-Modellen auf zwei Smartphones zu unterstützen und dabei eine bis zu 29,2-fache Geschwindigkeitssteigerung im Vergleich zu State-of-the-Art-Frameworks zu erreichen. Beachtenswert ist, dass PowerInfer-2 das erste System ist, das das TurboSparse-Mixtral-47B-Modell mit einer Generierungsrate von 11,68 Tokens pro Sekunde auf einem Smartphone bedienen kann. Für Modelle, die vollständig in den Speicher passen, kann PowerInfer-2 eine Speichernutzung von etwa 40% reduzieren, während die Inferenzgeschwindigkeiten vergleichbar mit llama.cpp und MLC-LLM bleiben. Für weitere Details, einschließlich eines Demonstrationsvideos, besuchen Sie bitte die Projektseite unter www.powerinfer.ai/v2.

7

Sind wir mit MMLU fertig?
Are We Done with MMLU?

Jun 6
ByAryo Pradipta Gema, Joshua Ong Jun Leang, Giwon Hong, Alessio Devoto, Alberto Carlo Maria Mancino, Rohit Saxena, Xuanli He, Yu Zhao, Xiaotang Du, Mohammad Reza Ghasemi Madani, Claire Barale, Robert McHardy, Joshua Harris, Jean Kaddour, Emile van Krieken, Pasquale Minervini
38
1

Vielleicht nicht. Wir identifizieren und analysieren Fehler im beliebten Massive Multitask Language Understanding (MMLU) Benchmark. Obwohl MMLU weit verbreitet ist, zeigt unsere Analyse zahlreiche Fehler in den Ground-Truth-Daten auf, die die tatsächlichen Fähigkeiten von LLMs verschleiern. Zum Beispiel haben wir festgestellt, dass 57% der analysierten Fragen im Virologie-Teil Fehler enthalten. Um dieses Problem anzugehen, stellen wir ein umfassendes Framework zur Identifizierung von Datensatzfehlern unter Verwendung einer neuartigen Fehler-Taxonomie vor. Anschließend erstellen wir MMLU-Redux, das eine Teilmenge von 3.000 manuell neu annotierten Fragen über 30 MMLU-Themen umfasst. Unter Verwendung von MMLU-Redux zeigen wir signifikante Diskrepanzen bei den Modellleistungsmetriken auf, die ursprünglich berichtet wurden. Unsere Ergebnisse sprechen sich nachdrücklich dafür aus, fehlerhafte Fragen in MMLU zu überarbeiten, um deren zukünftige Nützlichkeit und Zuverlässigkeit als Benchmark zu verbessern. Daher stellen wir MMLU-Redux für zusätzliche Annotationen zur Verfügung unter https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux.

8

VideoLLaMA 2: Fortschritte in der räumlich-zeitlichen Modellierung und Audioverarbeitung in Video-LLMs
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs

Jun 11
ByZesen Cheng, Sicong Leng, Hang Zhang, Yifei Xin, Xin Li, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, Lidong Bing
37
2

In diesem Paper präsentieren wir VideoLLaMA 2, eine Reihe von Video Large Language Models (Video-LLMs), die entwickelt wurden, um die räumlich-zeitliche Modellierung und Audioverständnis bei Video- und Audio-orientierten Aufgaben zu verbessern. Aufbauend auf seinem Vorgänger integriert VideoLLaMA 2 einen maßgeschneiderten Spatial-Temporal Convolution (STC) Connector, der die komplexen räumlichen und zeitlichen Dynamiken von Videodaten effektiv erfasst. Darüber hinaus integrieren wir einen Audio Branch in das Modell durch gemeinsames Training, wodurch die multimodalen Verständnisfähigkeiten des Modells durch nahtlose Integration von Audiohinweisen bereichert werden. Umfassende Evaluationen in Multiple-Choice Video Question Answering (MC-VQA), Open-Ended Video Question Answering (OE-VQA) und Video Captioning (VC) Aufgaben zeigen, dass VideoLLaMA 2 durchweg wettbewerbsfähige Ergebnisse im Vergleich zu Open-Source-Modellen erzielt und sogar einigen proprietären Modellen auf mehreren Benchmarks nahe kommt. Darüber hinaus zeigt VideoLLaMA 2 vernünftige Verbesserungen in Audio-only und Audio-Video Question-Answering (AQA & OE-AVQA) Benchmarks im Vergleich zu bestehenden Modellen. Diese Fortschritte unterstreichen die überlegene Leistung von VideoLLaMA 2 in multimodalem Verständnis und setzen einen neuen Standard für intelligente Videosysteme. Alle Modelle sind öffentlich zugänglich, um weitere Forschung zu erleichtern.

9

3D-GRAND: Ein Datensatz im Millionenumfang für 3D-LLMs mit besserer Verankerung und weniger Halluzinationen
3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination

Jun 7
ByJianing Yang, Xuweiyi Chen, Nikhil Madaan, Madhavan Iyengar, Shengyi Qian, David F. Fouhey, Joyce Chai
30
2

Die Integration von Sprache und 3D-Wahrnehmung ist entscheidend für die Entwicklung von verkörperten Agenten und Robotern, die die physische Welt verstehen und mit ihr interagieren. Während große Sprachmodelle (LLMs) beeindruckende Fähigkeiten in der Sprachverarbeitung und -erzeugung gezeigt haben, befindet sich ihre Anpassung an 3D-Umgebungen (3D-LLMs) noch in den Anfängen. Eine Hauptherausforderung besteht in dem Fehlen von groß angelegten Datensätzen, die eine dichte Verknüpfung zwischen Sprache und 3D-Szenen bieten. In diesem Paper stellen wir 3D-GRAND vor, einen wegweisenden groß angelegten Datensatz, der 40.087 Haushaltsszenen mit 6,2 Millionen dicht verknüpften Szenen-Sprachanweisungen umfasst. Unsere Ergebnisse zeigen, dass die Feinabstimmung von Anweisungen mit 3D-GRAND die Verankerungsfähigkeiten signifikant verbessert und Halluzinationen in 3D-LLMs reduziert. Als Teil unserer Beiträge schlagen wir einen umfassenden Benchmark 3D-POPE vor, um Halluzinationen in 3D-LLMs systematisch zu bewerten und faire Vergleiche zwischen zukünftigen Modellen zu ermöglichen. Unsere Experimente verdeutlichen einen Skalierungseffekt zwischen Datensatzgröße und Leistung von 3D-LLMs und betonen die entscheidende Rolle von groß angelegten 3D-Textdatensätzen bei der Weiterentwicklung der verkörperten KI-Forschung. Bemerkenswerterweise zeigen unsere Ergebnisse erste Anzeichen für eine effektive Simulation-zu-Realität-Übertragung, was darauf hindeutet, dass Modelle, die auf großen synthetischen Daten trainiert wurden, auch in der Lage sind, gut auf realen 3D-Scans zu performen. Durch 3D-GRAND und 3D-POPE möchten wir die verkörperte KI-Community mit essentiellen Ressourcen und Erkenntnissen ausstatten und den Weg für zuverlässigere und besser verankerte 3D-LLMs ebnen. Projekthomepage: https://3d-grand.github.io

10

MMWorld: Auf dem Weg zur multidisziplinären und vielseitigen Bewertung von Weltmodellen in Videos
MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

Jun 12
ByXuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang
28
0

Multimodale Sprachsprachmodelle (MLLMs) zeigen die aufkommenden Fähigkeiten von "Weltmodellen" - der Interpretation und dem Denken über komplexe realweltliche Dynamiken. Zur Bewertung dieser Fähigkeiten postulieren wir, dass Videos das ideale Medium sind, da sie reichhaltige Darstellungen von realweltlichen Dynamiken und Kausalitäten verkörpern. Zu diesem Zweck stellen wir MMWorld vor, einen neuen Maßstab für multidisziplinäres, vielschichtiges multimodales Videoverständnis. MMWorld unterscheidet sich von früheren Videoverständnis-Maßstäben durch zwei einzigartige Vorteile: (1) multidisziplinär, umfasst verschiedene Disziplinen, die oft Fachkenntnisse für umfassendes Verständnis erfordern; (2) vielschichtiges Denken, einschließlich Erklärung, kontrafaktisches Denken, zukünftige Vorhersage usw. MMWorld besteht aus einem menschlich annotierten Datensatz zur Bewertung von MLLMs mit Fragen zu den gesamten Videos und einem synthetischen Datensatz zur Analyse von MLLMs innerhalb einer einzigen Modalität der Wahrnehmung. Insgesamt umfasst MMWorld 1.910 Videos aus sieben breiten Disziplinen und 69 Unterdisziplinen, komplett mit 6.627 Frage-Antwort-Paaren und zugehörigen Untertiteln. Die Bewertung umfasst 2 proprietäre und 10 Open-Source MLLMs, die auf MMWorld Schwierigkeiten haben (z. B. GPT-4V erzielt die beste Leistung mit nur 52,3\% Genauigkeit), was einen großen Verbesserungsspielraum zeigt. Weitere Ablationsstudien zeigen weitere interessante Ergebnisse wie unterschiedliche Fähigkeiten der Modelle im Vergleich zu Menschen. Wir hoffen, dass MMWorld als ein wesentlicher Schritt zur Bewertung von Weltmodellen in Videos dienen kann.

11

Turbo Sparse: Erzielen der besten Leistung mit minimal aktivierten Parametern in LLM
Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters

Jun 10
ByYixin Song, Haotong Xie, Zhengyan Zhang, Bo Wen, Li Ma, Zeyu Mi, Haibo Chen
27
2

Die Ausnutzung von Aktivitätssparsamkeit ist ein vielversprechender Ansatz, um den Inferenzprozess großer Sprachmodelle (LLMs) signifikant zu beschleunigen, ohne die Leistung zu beeinträchtigen. Die Aktivitätssparsamkeit wird jedoch durch Aktivierungsfunktionen bestimmt, und häufig verwendete wie SwiGLU und GeGLU zeigen nur begrenzte Sparsamkeit. Ein einfacher Austausch dieser Funktionen durch ReLU führt nicht zu ausreichender Sparsamkeit. Darüber hinaus kann unzureichende Trainingsdaten das Risiko einer Leistungsverschlechterung weiter erhöhen. Um diese Herausforderungen anzugehen, schlagen wir eine neuartige dReLU-Funktion vor, die entwickelt wurde, um die Aktivitätssparsamkeit von LLMs zu verbessern, zusammen mit einem hochwertigen Trainingsdatenmischungsverhältnis, um eine effektive Sparsamkeit zu erleichtern. Darüber hinaus nutzen wir die sparsamen Aktivierungsmuster innerhalb der Feed-Forward Network (FFN)-Experten von Mixture-of-Experts (MoE)-Modellen, um die Effizienz weiter zu steigern. Durch die Anwendung unserer Neuronensparsamkeitsmethode auf die Mistral- und Mixtral-Modelle werden nur 2,5 Milliarden bzw. 4,3 Milliarden Parameter pro Inferenziteration aktiviert, während eine noch leistungsstärkere Modellleistung erreicht wird. Evaluierungsergebnisse zeigen, dass diese Sparsamkeit eine 2-5-fache Dekodierungsgeschwindigkeitssteigerung erreicht. Bemerkenswert ist, dass unser TurboSparse-Mixtral-47B auf Mobiltelefonen eine Inferenzgeschwindigkeit von 11 Token pro Sekunde erreicht. Unsere Modelle sind unter https://huggingface.co/PowerInfer verfügbar.

12

FontStudio: Form-adaptives Diffusionsmodell für kohärente und konsistente Schrifteffekterzeugung
FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation

Jun 12
ByXinzhi Mu, Li Chen, Bohan Chen, Shuyang Gu, Jianmin Bao, Dong Chen, Ji Li, Yuhui Yuan
21
0

In letzter Zeit hat die Anwendung moderner auf Diffusion basierender Text-zu-Bild-Generierungsmodelle zur Erstellung künstlerischer Schriftarten, die traditionell das Fachgebiet professioneller Designer sind, erhebliches Interesse geweckt. Abweichend von der Mehrheit der bestehenden Studien, die sich auf die Generierung künstlerischer Typografie konzentrieren, zielt unsere Forschung darauf ab, eine neuartige und anspruchsvollere Herausforderung anzugehen: die Generierung von Texteffekten für mehrsprachige Schriftarten. Diese Aufgabe erfordert im Wesentlichen die Erzeugung kohärenter und konsistenter visueller Inhalte innerhalb der Grenzen einer schriftförmigen Leinwand, im Gegensatz zu einer traditionellen rechteckigen Leinwand. Um diese Aufgabe anzugehen, stellen wir ein neuartiges formadaptives Diffusionsmodell vor, das in der Lage ist, die gegebene Form zu interpretieren und strategisch Pixelverteilungen innerhalb der unregelmäßigen Leinwand zu planen. Um dies zu erreichen, kuratieren wir einen hochwertigen formadaptiven Bild-Text-Datensatz und integrieren die Segmentierungsmaske als visuelle Bedingung, um den Bildgenerierungsprozess innerhalb der unregelmäßigen Leinwand zu lenken. Dieser Ansatz ermöglicht es dem traditionell auf rechteckiger Leinwand basierenden Diffusionsmodell, die gewünschten Konzepte entsprechend den bereitgestellten geometrischen Formen zu erzeugen. Zweitens präsentieren wir auch eine trainingsfreie, formadaptive Effektübertragungsmethode, um die Konsistenz über mehrere Buchstaben hinweg aufrechtzuerhalten, indem Texturen von einem generierten Referenzbuchstaben auf andere übertragen werden. Die Schlüsselerkenntnisse bestehen darin, ein Schriftart-Effekt-Rauschen vorab zu erstellen und die Schriftart-Effektinformationen in einem konkatenierten latenten Raum zu propagieren. Die Wirksamkeit unseres FontStudio-Systems wird durch Benutzerpräferenzstudien bestätigt, die eine deutliche Präferenz (78% Gewinnrate in Ästhetik) für unser System zeigen, selbst im Vergleich zum neuesten unübertroffenen kommerziellen Produkt, Adobe Firefly.

13

AV-DiT: Effizienter Audio-Visueller Diffusions-Transformer für die gemeinsame Erzeugung von Audio und Video.
AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation

Jun 11
ByKai Wang, Shijian Deng, Jing Shi, Dimitrios Hatzinakos, Yapeng Tian
17
0

In jüngster Zeit haben Diffusionstransformatoren (DiTs) beeindruckende Fähigkeiten bei der Erzeugung hochwertiger Inhalte in einer Modalität gezeigt, einschließlich Bilder, Videos und Audio. Es ist jedoch noch unerforscht, ob der auf Transformatoren basierende Diffusor effizient Rauschen entfernen kann, um eine hervorragende multimodale Inhalterzeugung zu ermöglichen. Um diese Lücke zu schließen, stellen wir AV-DiT vor, einen neuartigen und effizienten audiovisuellen Diffusionstransformator, der darauf ausgelegt ist, hochwertige, realistische Videos mit sowohl visuellen als auch auditiven Spuren zu erzeugen. Um die Modellkomplexität und die Rechenkosten zu minimieren, nutzt AV-DiT eine gemeinsame DiT-Grundstruktur, die auf ausschließlich Bildern vortrainiert ist, wobei nur leichte, neu eingefügte Adapter trainierbar sind. Diese gemeinsame Grundstruktur ermöglicht sowohl die Audio- als auch die Videoerzeugung. Speziell integriert der Videozweig eine trainierbare zeitliche Aufmerksamkeitsschicht in einen eingefrorenen vortrainierten DiT-Block für zeitliche Konsistenz. Darüber hinaus passen eine kleine Anzahl trainierbarer Parameter den bildbasierten DiT-Block für die Audioerzeugung an. Ein zusätzlicher gemeinsamer DiT-Block, ausgestattet mit leichten Parametern, erleichtert die Merkmalsinteraktion zwischen Audio- und visuellen Modalitäten, um die Ausrichtung sicherzustellen. Umfangreiche Experimente mit den Datensätzen AIST++ und Landscape zeigen, dass AV-DiT eine Spitzenleistung bei der gemeinsamen Audio-Vis-Erzeugung mit signifikant weniger anpassbaren Parametern erreicht. Darüber hinaus verdeutlichen unsere Ergebnisse, dass eine einzige gemeinsame bildgenerierende Grundstruktur mit modalitätsspezifischen Anpassungen ausreicht, um einen gemeinsamen Audio-Video-Generator zu erstellen. Unser Quellcode und vortrainierte Modelle werden veröffentlicht.

14

Hierarchische Patch-Diffusionsmodelle für die Generierung von hochauflösenden Videos
Hierarchical Patch Diffusion Models for High-Resolution Video Generation

Jun 12
ByIvan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov
16
0

Diffusionsmodelle haben eine bemerkenswerte Leistung bei der Bild- und Videosynthese gezeigt. Das Skalieren auf hochauflösende Eingaben ist jedoch eine Herausforderung und erfordert die Umstrukturierung des Diffusions-Pipelines in mehrere unabhängige Komponenten, was die Skalierbarkeit einschränkt und die nachgelagerten Anwendungen kompliziert. Dies macht es sehr effizient während des Trainings und ermöglicht eine End-to-End-Optimierung von hochauflösenden Videos. Wir verbessern PDMs auf zwei prinzipielle Arten. Erstens entwickeln wir zur Durchsetzung der Konsistenz zwischen Patches die Deep Context Fusion - eine architektonische Technik, die die Kontextinformationen von niedrigskaligen zu hochskaligen Patches hierarchisch propagiert. Zweitens schlagen wir zur Beschleunigung des Trainings und der Inferenz die adaptive Berechnung vor, die mehr Netzwerkkapazität und Berechnung für grobe Bilddetails zuweist. Das resultierende Modell erreicht einen neuen State-of-the-Art FVD-Score von 66,32 und einen Inception-Score von 87,68 bei der klassenbedingten Videogenerierung auf UCF-101 256^2 und übertrifft damit aktuelle Methoden um mehr als 100%. Anschließend zeigen wir, dass es schnell von einem Basis-36-mal-64-Niedrigauflösungs-Generator für die Hochauflösungs-64-mal-288-mal-512-Text-zu-Video-Synthese feinabgestimmt werden kann. Unseres Wissens nach ist unser Modell die erste auf Diffusion basierende Architektur, die vollständig end-to-end auf solch hohen Auflösungen trainiert wird. Projektwebseite: https://snap-research.github.io/hpdm.

15

Entdeckung von Präferenzoptimierungsalgorithmen mit und für große Sprachmodelle
Discovering Preference Optimization Algorithms with and for Large Language Models

Jun 12
ByChris Lu, Samuel Holt, Claudio Fanconi, Alex J. Chan, Jakob Foerster, Mihaela van der Schaar, Robert Tjarko Lange
16
0

Die Offline-Präferenzoptimierung ist eine Schlüsselmethode zur Verbesserung und Steuerung der Qualität von Large Language Model (LLM)-Ausgaben. Typischerweise wird die Präferenzoptimierung als eine offline überwachte Lernaufgabe unter Verwendung manuell erstellter konvexer Verlustfunktionen angegangen. Obwohl diese Methoden auf theoretischen Erkenntnissen beruhen, sind sie inhärent durch menschliche Kreativität eingeschränkt, wodurch der große Suchraum möglicher Verlustfunktionen unterexploriert bleibt. Diesem Problem begegnen wir, indem wir eine LLM-gesteuerte Zielentdeckung durchführen, um automatisch neue erstklassige Präferenzoptimierungsalgorithmen ohne (ExpertInnen-)Menscheneingriff zu entdecken. Konkret fordern wir iterativ eine LLM auf, neue Präferenzoptimierungsverlustfunktionen vorzuschlagen und umzusetzen, basierend auf zuvor evaluierten Leistungsmetriken. Dieser Prozess führt zur Entdeckung zuvor unbekannter und leistungsstarker Präferenzoptimierungsalgorithmen. Der leistungsstärkste davon wird als Entdeckte Präferenzoptimierung (DiscoPOP) bezeichnet, ein neuartiger Algorithmus, der logistische und exponentielle Verluste adaptiv kombiniert. Experimente zeigen die erstklassige Leistung von DiscoPOP und dessen erfolgreiche Übertragung auf zurückgehaltene Aufgaben.

16

Jenseits von LLaVA-HD: Eintauchen in hochauflösende große multimodale Modelle
Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models

Jun 12
ByYi-Fan Zhang, Qingsong Wen, Chaoyou Fu, Xue Wang, Zhang Zhang, Liang Wang, Rong Jin
14
2

Eine klare Sicht mit hoher Auflösung ist ein Grundpfeiler großer multimodaler Modelle (LMMs), die sich als entscheidend für die visuelle Wahrnehmung und das Schlussfolgern erwiesen haben. In bestehenden Arbeiten wird in der Regel eine einfache Methode zur Auflösungsskalierung verwendet, bei der das Bild aus globalen und lokalen Zweigen besteht, wobei letztere aus den geschnittenen Bildausschnitten bestehen, die jedoch auf dieselbe Auflösung wie die ersteren skaliert werden. Dies bedeutet, dass eine höhere Auflösung mehr lokale Ausschnitte erfordert, was zu exorbitanten Rechenaufwänden führt, während gleichzeitig die Dominanz lokaler Bildtoken den globalen Kontext verringern kann. In diesem Papier gehen wir auf die Probleme ein und schlagen ein neues Framework sowie eine ausgearbeitete Optimierungsstrategie vor. Speziell extrahieren wir kontextbezogene Informationen aus der globalen Ansicht mithilfe einer Mischung von Adaptern, basierend auf der Beobachtung, dass verschiedene Adapter in verschiedenen Aufgaben herausragend sind. In Bezug auf lokale Ausschnitte werden erlernbare Abfrageeinbettungen eingeführt, um Bildtoken zu reduzieren, wobei die wichtigsten Token, die für die Benutzerfrage relevant sind, durch einen ähnlichkeitsbasierten Selektor weiter ausgewählt werden. Unsere empirischen Ergebnisse zeigen ein Muster von 'weniger ist mehr', bei dem die Verwendung weniger, aber informativerer lokaler Bildtoken zu einer verbesserten Leistung führt. Darüber hinaus liegt eine bedeutende Herausforderung in der Trainingsstrategie, da ein simultanes End-to-End-Training des globalen Mining-Blocks und des lokalen Kompressionsblocks keine optimalen Ergebnisse liefert. Daher befürworten wir einen alternierenden Schulungsweg, der ein ausgewogenes Lernen zwischen globalen und lokalen Aspekten gewährleistet. Schließlich stellen wir auch einen anspruchsvollen Datensatz mit hohen Anforderungen an das Bilddetail vor, um das Training der lokalen Kompressionsschicht zu verbessern. Die vorgeschlagene Methode, genannt LMM mit anspruchsvollen Aufgaben, lokaler Bildkompression und Mischung globaler Experten (SliME), erzielt führende Leistungen in verschiedenen Benchmarks mit nur 2 Millionen Trainingsdaten.

17

VCR: Visuelle Untertitelwiederherstellung
VCR: Visual Caption Restoration

Jun 10
ByTianyu Zhang, Suyuchen Wang, Lu Li, Ge Zhang, Perouz Taslakian, Sai Rajeswar, Jie Fu, Bang Liu, Yoshua Bengio
13
1

Wir stellen Visual Caption Restoration (VCR) vor, eine neuartige Vision-Sprache-Aufgabe, die Modelle herausfordert, teilweise verdeckte Texte genau mithilfe von Pixelhinweisen innerhalb von Bildern wiederherzustellen. Diese Aufgabe basiert auf der Beobachtung, dass in Bildern eingebetteter Text intrinsisch anders ist als übliche visuelle Elemente und natürliche Sprache aufgrund der Notwendigkeit, die Modalitäten von Vision, Text und in Bildern eingebettetem Text auszurichten. Während zahlreiche Arbeiten Texte in Bildern in visuelle Frage-Antwort-Aufgaben integriert haben, stützen sich Ansätze für diese Aufgaben im Allgemeinen auf optische Zeichenerkennung oder maskiertes Sprachmodellieren, wodurch die Aufgabe hauptsächlich auf textbasierte Verarbeitung reduziert wird. Textbasierte Verarbeitung wird jedoch in VCR ineffektiv, da eine genaue Textwiederherstellung von kombinierten Informationen aus bereitgestellten Bildern, Kontext und subtilen Hinweisen aus den winzigen freigelegten Bereichen maskierter Texte abhängt. Wir entwickeln eine Pipeline zur Erzeugung synthetischer Bilder für die VCR-Aufgabe unter Verwendung von Bildunterschriftspaaren, wobei die Sichtbarkeit der Untertitel angepasst werden kann, um die Schwierigkeit der Aufgabe zu steuern. Mit dieser Pipeline erstellen wir einen Datensatz für VCR namens VCR-Wiki, der Bilder mit Untertiteln aus Wikipedia umfasst und 2,11 Mio. englische und 346.000 chinesische Entitäten in beiden einfachen und schwierigen Varianten enthält. Unsere Ergebnisse zeigen, dass aktuelle Vision-Sprache-Modelle in der VCR-Aufgabe signifikant hinter der menschlichen Leistung zurückbleiben und das reine Feintuning der Modelle auf unserem Datensatz nicht zu bemerkenswerten Verbesserungen führt. Wir veröffentlichen VCR-Wiki und den Datenerstellungsscode, um zukünftige Forschung zu erleichtern.

18

Chimäre: Effektive Modellierung multivariater Zeitreihen mit 2-dimensionalen Zustandsraummodellen
Chimera: Effectively Modeling Multivariate Time Series with 2-Dimensional State Space Models

Jun 6
ByAli Behrouz, Michele Santacatterina, Ramin Zabih
10
1

Die Modellierung multivariater Zeitreihen ist ein etabliertes Problem mit einer breiten Anwendungspalette von der Gesundheitsversorgung bis zu Finanzmärkten. Traditionelle Zustandsraummodelle (SSMs) sind klassische Ansätze zur Modellierung univariater Zeitreihen aufgrund ihrer Einfachheit und Ausdruckskraft, um lineare Abhängigkeiten darzustellen. Sie haben jedoch grundsätzlich begrenzte Ausdruckskraft, um nichtlineare Abhängigkeiten zu erfassen, sind in der Praxis langsam und versagen dabei, die intervariablen Informationsflüsse zu modellieren. Trotz jüngster Versuche, die Ausdruckskraft von SSMs durch den Einsatz von tiefen strukturierten SSMs zu verbessern, sind die bestehenden Methoden entweder auf univariate Zeitreihen beschränkt, versagen darin, komplexe Muster (z. B. saisonale Muster) zu modellieren, versagen darin, die Abhängigkeiten von Variablen und Zeitdimensionen dynamisch zu modellieren und/oder sind eingabeunabhängig. Wir stellen Chimera vor, das zwei eingabeabhängige 2-D SSM-Köpfe mit unterschiedlichen Diskretisierungsprozessen verwendet, um langfristige Fortschritte und saisonale Muster zu erlernen. Zur Verbesserung der Effizienz komplexer 2D-Rückfälle präsentieren wir ein schnelles Training unter Verwendung eines neuen zweidimensionalen parallelen selektiven Scans. Darüber hinaus stellen wir 2-dimensionale Mamba und Mamba-2 als spezielle Fälle unseres 2D SSM vor und diskutieren sie. Unsere experimentelle Bewertung zeigt die überlegene Leistung von Chimera bei umfangreichen und vielfältigen Benchmarks, einschließlich EKG- und Sprachzeitreihenklassifikation, langfristiger und kurzfristiger Zeitreihenprognosen sowie der Erkennung von Anomalien in Zeitreihen.

19

Hibou: Eine Familie von grundlegenden Vision-Transformern für die Pathologie
Hibou: A Family of Foundational Vision Transformers for Pathology

Jun 7
ByDmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
9
1

Die Pathologie, die mikroskopische Untersuchung von erkranktem Gewebe, ist entscheidend für die Diagnose verschiedener medizinischer Zustände, insbesondere von Krebserkrankungen. Traditionelle Methoden sind arbeitsintensiv und anfällig für menschliche Fehler. Die digitale Pathologie, die Glaspräparate in hochauflösende digitale Bilder umwandelt, die von Computer-Algorithmen analysiert werden, revolutioniert das Feld, indem sie die diagnostische Genauigkeit, Konsistenz und Effizienz durch automatisierte Bildanalyse und die Verarbeitung großer Datenmengen verbessert. Die grundlegende Vorverarbeitung von Transformern ist entscheidend für die Entwicklung robuster, generalisierbarer Modelle, da sie das Lernen aus großen Mengen nicht annotierter Daten ermöglicht. Dieses Papier stellt die Hibou-Familie von grundlegenden Vision-Transformern für die Pathologie vor, die das DINOv2-Framework nutzen, um zwei Modellvarianten, Hibou-B und Hibou-L, auf einem proprietären Datensatz von über 1 Million ganzen Bildern von Gewebeschnitten zu trainieren, die verschiedene Gewebetypen und Färbetechniken repräsentieren. Unsere vortrainierten Modelle zeigen eine überlegene Leistung sowohl auf Patch-Ebene als auch auf Slide-Ebene und übertreffen bestehende State-of-the-Art-Methoden. Insbesondere erzielt Hibou-L die höchste durchschnittliche Genauigkeit über mehrere Benchmark-Datensätze. Um weitere Forschung und Anwendungen auf diesem Gebiet zu unterstützen, haben wir das Hibou-B-Modell als Open-Source veröffentlicht, das unter folgendem Link abgerufen werden kann: https://github.com/HistAI/hibou

20

Großes Sprachmodell Vergessen durch Verfälschte Einbettungsanfragen
Large Language Model Unlearning via Embedding-Corrupted Prompts

Jun 12
ByChris Yuhao Liu, Yaxuan Wang, Jeffrey Flanigan, Yang Liu
9
0

Große Sprachmodelle (LLMs) haben sich weiterentwickelt, um umfangreiches Wissen in verschiedenen Bereichen zu umfassen. Die Kontrolle darüber, was ein großes Sprachmodell nicht wissen sollte, ist jedoch wichtig, um Ausrichtung und somit sichere Nutzung zu gewährleisten. Die präzise und effiziente Entfernung von Wissen aus einem LLM bleibt jedoch aufgrund der potenziellen Kollateralschäden, die durch die unscharfe Grenze zwischen Beibehalten und Vergessen verursacht werden, sowie der hohen Rechenanforderungen für die Optimierung von Spitzenmodellen mit Hunderten von Milliarden Parametern eine Herausforderung. In dieser Arbeit stellen wir Embedding-Corrupted (ECO) Prompts vor, ein leichtgewichtiges Entfernungsframework für große Sprachmodelle, um sowohl den Herausforderungen der Wissensverflechtung als auch der Effizienz des Entfernens zu begegnen. Anstatt sich auf das LLM selbst zu verlassen, um zu vergessen, erzwingen wir einen vergessenen Zustand während der Inferenz, indem wir einen Prompt-Klassifizierer einsetzen, um Prompts zu identifizieren und zu schützen, die vergessen werden sollen. Wir lernen Korruptionen, die den Prompt-Embeddings hinzugefügt werden, offline über Nullter-Ordnung-Optimierung in Richtung des Entfernungsziels und korrupte Prompts, die während der Inferenz vom Klassifizierer markiert werden. Wir stellen fest, dass diese embedding-korrupten Prompts nicht nur zu wünschenswerten Ausgaben führen, die das Entfernungsziel erfüllen, sondern auch die Ausgabe eines Modells eng approximieren, das nie mit den Daten trainiert wurde, die vergessen werden sollen. Durch umfangreiche Experimente zum Entfernen zeigen wir die Überlegenheit unserer Methode bei der Erzielung vielversprechender Entfernungen mit nahezu keinen Nebenwirkungen in allgemeinen Bereichen und Bereichen, die eng mit den zu vergessenden Bereichen verbunden sind. Darüber hinaus heben wir die Skalierbarkeit unserer Methode auf 100 LLMs hervor, die von 0,5B bis 236B Parametern reichen, ohne zusätzliche Kosten zu verursachen, wenn die Anzahl der Parameter zunimmt.

21

Vereinfachte und verallgemeinerte maskierte Diffusion für diskrete Daten
Simplified and Generalized Masked Diffusion for Discrete Data

Jun 6
ByJiaxin Shi, Kehang Han, Zhe Wang, Arnaud Doucet, Michalis K. Titsias
8
0

Maskierte (oder absorbierende) Diffusion wird aktiv als Alternative zu autoregressiven Modellen für die generative Modellierung diskreter Daten erforscht. Bisher wurde die Arbeit in diesem Bereich jedoch durch unnötig komplexe Modellformulierungen und unklare Beziehungen zwischen verschiedenen Perspektiven behindert, was zu suboptimaler Parametrisierung, Trainingszielen und ad hoc-Anpassungen zur Gegenwirkung dieser Probleme führt. In dieser Arbeit zielen wir darauf ab, ein einfaches und allgemeines Rahmenwerk bereitzustellen, das das volle Potenzial von maskierten Diffusionsmodellen freisetzt. Wir zeigen, dass das kontinuierliche Variationsziel maskierter Diffusionsmodelle eine einfache gewichtete Integration von Cross-Entropy-Verlusten ist. Unser Rahmenwerk ermöglicht auch das Training von generalisierten maskierten Diffusionsmodellen mit zustandsabhängigen Maskierungsplänen. Bei der Bewertung nach Perplexität übertreffen unsere Modelle, die auf OpenWebText trainiert wurden, frühere Diffusions-Sprachmodelle im GPT-2-Maßstab und zeigen eine überlegene Leistung bei 4 von 5 Zero-Shot-Sprachmodellierungsaufgaben. Darüber hinaus übertreffen unsere Modelle deutlich frühere diskrete Diffusionsmodelle bei der Modellierung von Bilddaten auf Pixel-Ebene und erreichen 2,78 (CIFAR-10) bzw. 3,42 (ImageNet 64x64) Bits pro Dimension, die vergleichbar oder besser sind als autoregressive Modelle ähnlicher Größe.

Jun 12
Jun 13
Jun 14