ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

Sapiens: Grundlage für menschliche Sehmodelle
Sapiens: Foundation for Human Vision Models

Aug 22
ByRawal Khirodkar, Timur Bagautdinov, Julieta Martinez, Su Zhaoen, Austin James, Peter Selednik, Stuart Anderson, Shunsuke Saito
94
3

Wir präsentieren Sapiens, eine Modellfamilie für vier grundlegende, auf den Menschen zentrierte Sehaufgaben - 2D-Posenschätzung, Segmentierung von Körperteilen, Tiefenschätzung und Vorhersage der Oberflächennormalen. Unsere Modelle unterstützen nativ Inferenzen in 1K-Hochauflösung und sind äußerst einfach an individuelle Aufgaben anzupassen, indem sie einfach durch Feinabstimmung von Modellen, die auf über 300 Millionen natürlichen menschlichen Bildern vortrainiert sind, angepasst werden. Wir beobachten, dass bei gleichem Rechenaufwand die selbstüberwachte Vortrainierung auf einem kuratierten Datensatz von menschlichen Bildern die Leistung für eine vielfältige Reihe von auf den Menschen zentrierten Aufgaben signifikant steigert. Die resultierenden Modelle zeigen eine bemerkenswerte Verallgemeinerung auf natürliche Daten, selbst wenn markierte Daten knapp oder vollständig synthetisch sind. Unser einfaches Modell-Design ermöglicht auch Skalierbarkeit - die Leistung des Modells über verschiedene Aufgaben hinweg verbessert sich, wenn wir die Anzahl der Parameter von 0,3 auf 2 Milliarden erhöhen. Sapiens übertrifft konsistent bestehende Baselines in verschiedenen auf den Menschen zentrierten Benchmarks. Wir erzielen signifikante Verbesserungen gegenüber dem bisherigen Stand der Technik bei Humans-5K (Pose) um 7,6 mAP, Humans-2K (Teilsegmentierung) um 17,1 mIoU, Hi4D (Tiefe) um 22,4% relativen RMSE und THuman2 (Normalen) um 53,5% relativen Winkelfehler.

2

Steuerbare Textgenerierung für große Sprachmodelle: Eine Übersicht
Controllable Text Generation for Large Language Models: A Survey

Aug 22
ByXun Liang, Hanyu Wang, Yezhaohui Wang, Shichao Song, Jiawei Yang, Simin Niu, Jie Hu, Dan Liu, Shunyu Yao, Feiyu Xiong, Zhiyu Li
65
2

In der natürlichen Sprachverarbeitung (NLP) haben Große Sprachmodelle (LLMs) eine hohe Qualität bei der Textgenerierung gezeigt. In realen Anwendungen müssen LLMs jedoch zunehmend komplexen Anforderungen gerecht werden. Neben der Vermeidung irreführender oder unangemessener Inhalte sollen LLMs auch spezifischen Benutzeranforderungen gerecht werden, wie das Nachahmen bestimmter Schreibstile oder die Generierung von Texten mit poetischer Reichhaltigkeit. Diese vielfältigen Anforderungen haben zur Entwicklung von Techniken zur kontrollierten Textgenerierung (CTG) geführt, die sicherstellen, dass die Ausgaben vordefinierten Steuerungsbedingungen entsprechen - wie Sicherheit, Stimmung, thematische Konsistenz und sprachlicher Stil - und dabei hohe Standards in Bezug auf Hilfreichkeit, Flüssigkeit und Vielfalt beibehalten. Dieser Artikel überprüft systematisch die neuesten Fortschritte bei der CTG für LLMs, bietet eine umfassende Definition ihrer Kernkonzepte und klärt die Anforderungen an Steuerungsbedingungen und Textqualität. Wir kategorisieren CTG-Aufgaben in zwei Haupttypen: Inhaltssteuerung und Attributsteuerung. Die wichtigsten Methoden werden diskutiert, darunter Modellneuschulung, Feinabstimmung, Verstärkendes Lernen, Prompt-Engineering, Manipulation des latenten Raums und Eingriffe zur Dekodierungszeit. Wir analysieren die Merkmale, Vorteile und Einschränkungen jeder Methode und bieten differenzierte Einblicke zur Erreichung der Generationskontrolle. Darüber hinaus überprüfen wir CTG-Evaluierungsmethoden, fassen ihre Anwendungen in verschiedenen Bereichen zusammen und behandeln wichtige Herausforderungen in der aktuellen Forschung, einschließlich reduzierter Flüssigkeit und Praktikabilität. Wir schlagen auch mehrere Appelle vor, wie zukünftige Forschung einen stärkeren Schwerpunkt auf reale Anwendungen legen könnte. Dieser Artikel zielt darauf ab, wertvolle Anleitungen für Forscher und Entwickler auf diesem Gebiet zu bieten. Unsere Referenzliste und die chinesische Version sind unter https://github.com/IAAR-Shanghai/CTGSurvey öffentlich zugänglich.

3

Open-FinLLMs: Offene multimodale große Sprachmodelle für Finanzanwendungen
Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

Aug 20
ByQianqian Xie, Dong Li, Mengxi Xiao, Zihao Jiang, Ruoyu Xiang, Xiao Zhang, Zhengyu Chen, Yueru He, Weiguang Han, Yuzhe Yang, Shunian Chen, Yifei Zhang, Lihang Shen, Daniel Kim, Zhiwei Liu, Zheheng Luo, Yangyang Yu, Yupeng Cao, Zhiyang Deng, Zhiyuan Yao, Haohang Li, Duanyu Feng, Yongfu Dai, VijayaSai Somasundaram, Peng Lu, Yilun Zhao, Yitao Long, Guojun Xiong, Kaleb Smith, Honghai Yu, Yanzhao Lai, Min Peng, Jianyun Nie, Jordan W. Suchow, Xiao-Yang Liu, Benyou Wang, Alejandro Lopez-Lira, Jimin Huang, Sophia Ananiadou
63
3

Große Sprachmodelle (LLMs) haben die Entwicklung von Finanzanwendungen vorangetrieben, doch oft fehlt es ihnen an ausreichendem Finanzwissen und sie haben Schwierigkeiten bei Aufgaben, die multimodale Eingaben wie Tabellen und Zeitreihendaten erfordern. Um diese Einschränkungen zu beheben, stellen wir Open-FinLLMs vor, eine Reihe von Finanz-LLMs. Wir beginnen mit FinLLaMA, das auf einem 52 Milliarden Token umfassenden Finanzkorpus vorab trainiert wurde und Texte, Tabellen und Zeitreihendaten integriert, um umfassendes Finanzwissen einzubetten. Anschließend wird FinLLaMA durch die Anleitungsfine-Tuning mit 573.000 Finanzanweisungen verbessert, was zu FinLLaMA-instruct führt und die Leistung bei Aufgaben steigert. Abschließend präsentieren wir FinLLaVA, ein multimodales LLM, das mit 1,43 Millionen Bild-Text-Anweisungen trainiert wurde, um komplexe Finanzdatentypen zu verarbeiten. Umfangreiche Bewertungen zeigen die überlegene Leistung von FinLLaMA gegenüber LLaMA3-8B, LLaMA3.1-8B und BloombergGPT sowohl in Zero-Shot- als auch in Few-Shot-Einstellungen über 19 bzw. 4 Datensätze. FinLLaMA-instruct übertrifft GPT-4 und andere Finanz-LLMs auf 15 Datensätzen. FinLLaVA zeichnet sich durch das Verständnis von Tabellen und Diagrammen in 4 multimodalen Aufgaben aus. Darüber hinaus erzielt FinLLaMA beeindruckende Sharpe-Ratios in Handelssimulationen, was seine robusten Finanzanwendungsfähigkeiten unterstreicht. Wir werden unsere Modelle und Benchmarks kontinuierlich pflegen und verbessern, um die laufende Innovation in der akademischen Welt und der Industrie zu unterstützen.

4

Technischer Bericht zu Hermes 3
Hermes 3 Technical Report

Aug 15
ByRyan Teknium, Jeffrey Quesnelle, Chen Guang
56
8

Instruktionsgesteuerte (oder "Chat") feinabgestimmte Modelle sind zu der primären Methode geworden, mit der die meisten Menschen mit großen Sprachmodellen interagieren. Im Gegensatz zu "Basis" oder "Grundlagen" Modellen sind instruktionsgesteuerte Modelle darauf optimiert, auf imperativische Aussagen zu reagieren. Wir stellen Hermes 3 vor, ein neutral ausgerichtetes Generalisten-Instruktions- und Werkzeugnutzungsmodell mit starken Argumentations- und kreativen Fähigkeiten. Seine größte Version, Hermes 3 405B, erreicht eine Spitzenleistung unter offenen Gewichtsmodellen in mehreren öffentlichen Benchmarks.

5

Show-o: Ein einzelner Transformer zur Vereinheitlichung von multimodalem Verständnis und Generierung
Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

Aug 22
ByJinheng Xie, Weijia Mao, Zechen Bai, David Junhao Zhang, Weihao Wang, Kevin Qinghong Lin, Yuchao Gu, Zhijie Chen, Zhenheng Yang, Mike Zheng Shou
51
2

Wir präsentieren einen vereinheitlichten Transformer, d.h. Show-o, der multimodales Verstehen und Generierung vereint. Im Gegensatz zu vollständig autoregressiven Modellen vereint Show-o autoregressives und (diskretes) Diffusionsmodellieren, um Eingaben und Ausgaben verschiedener und gemischter Modalitäten adaptiv zu verarbeiten. Das vereinheitlichte Modell unterstützt flexibel eine Vielzahl von Vision-Sprach-Aufgaben, einschließlich visueller Frage-Antwort, Text-zu-Bild-Generierung, textgesteuertes Ausbessern/Extrapolieren und gemischte Modalitäten-Generierung. Über verschiedene Benchmarks hinweg zeigt es eine vergleichbare oder überlegene Leistung im Vergleich zu bestehenden individuellen Modellen mit einer äquivalenten oder größeren Anzahl von Parametern, die für Verstehen oder Generierung angepasst sind. Dies unterstreicht signifikant sein Potenzial als Grundlagenmodell der nächsten Generation. Code und Modelle sind unter https://github.com/showlab/Show-o veröffentlicht.

6

xGen-VideoSyn-1: Hochwertige Text-zu-Video-Synthese mit komprimierten Repräsentationen
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

Aug 22
ByCan Qin, Congying Xia, Krithika Ramakrishnan, Michael Ryoo, Lifu Tu, Yihao Feng, Manli Shu, Honglu Zhou, Anas Awadalla, Jun Wang, Senthil Purushwalkam, Le Xue, Yingbo Zhou, Huan Wang, Silvio Savarese, Juan Carlos Niebles, Zeyuan Chen, Ran Xu, Caiming Xiong
36
5

Wir präsentieren xGen-VideoSyn-1, ein Text-zu-Video (T2V) Generierungsmodell, das in der Lage ist, realistische Szenen aus textuellen Beschreibungen zu erzeugen. Aufbauend auf jüngsten Fortschritten wie OpenAI's Sora, erforschen wir die Latent Diffusion Model (LDM) Architektur und führen einen Video-Variationalen Autoencoder (VidVAE) ein. VidVAE komprimiert Videodaten sowohl räumlich als auch zeitlich und reduziert signifikant die Länge visueller Tokens und die Rechenanforderungen, die mit der Generierung von langen Sequenzvideos verbunden sind. Um die Rechenkosten weiter zu reduzieren, schlagen wir eine Teile-und-Zusammenführen-Strategie vor, die die zeitliche Konsistenz über Videosegmente hinweg aufrechterhält. Unser Diffusion Transformer (DiT) Modell integriert räumliche und zeitliche Self-Attention-Schichten, die eine robuste Verallgemeinerung über verschiedene Zeitrahmen und Seitenverhältnisse ermöglichen. Wir haben eine Datenverarbeitungspipeline von Anfang an entwickelt und über 13 Millionen hochwertige Video-Text-Paare gesammelt. Die Pipeline umfasst mehrere Schritte wie Clipping, Texterkennung, Bewegungsschätzung, ästhetische Bewertung und dichte Untertitelung basierend auf unserem hauseigenen Video-LLM-Modell. Das Training der VidVAE- und DiT-Modelle erforderte jeweils etwa 40 und 642 H100-Tage. Unser Modell unterstützt die Generierung von über 14-sekündigen 720p-Videos auf eine durchgängige Weise und zeigt eine wettbewerbsfähige Leistung gegenüber modernsten T2V-Modellen.

7

Jamba-1.5: Hybrid Transformer-Mamba Modelle im großen Maßstab
Jamba-1.5: Hybrid Transformer-Mamba Models at Scale

Aug 22
ByJamba Team, Barak Lenz, Alan Arazi, Amir Bergman, Avshalom Manevich, Barak Peleg, Ben Aviram, Chen Almagor, Clara Fridman, Dan Padnos, Daniel Gissin, Daniel Jannai, Dor Muhlgay, Dor Zimberg, Edden M Gerber, Elad Dolev, Eran Krakovsky, Erez Safahi, Erez Schwartz, Gal Cohen, Gal Shachaf, Haim Rozenblum, Hofit Bata, Ido Blass, Inbal Magar, Itay Dalmedigos, Jhonathan Osin, Julie Fadlon, Maria Rozman, Matan Danos, Michael Gokhman, Mor Zusman, Naama Gidron, Nir Ratner, Noam Gat, Noam Rozen, Oded Fried, Ohad Leshno, Omer Antverg, Omri Abend, Opher Lieber, Or Dagan, Orit Cohavi, Raz Alon, Ro'i Belson, Roi Cohen, Rom Gilad, Roman Glozman, Shahar Lev, Shaked Meirom, Tal Delbari, Tal Ness, Tomer Asida, Tom Ben Gal, Tom Braude, Uriya Pumerantz, Yehoshua Cohen, Yonatan Belinkov, Yuval Globerson, Yuval Peleg Levy, Yoav Shoham
33
3

Wir präsentieren Jamba-1.5, neue anweisungsoptimierte große Sprachmodelle, die auf unserer Jamba-Architektur basieren. Jamba ist eine hybride Transformer-Mamba-Mixture-of-Experts-Architektur, die eine hohe Durchsatzrate und einen geringen Speicherverbrauch über verschiedene Kontextlängen hinweg bietet, während sie die gleiche oder bessere Qualität wie Transformer-Modelle beibehält. Wir veröffentlichen zwei Modellgrößen: Jamba-1.5-Large mit 94 Milliarden aktiven Parametern und Jamba-1.5-Mini mit 12 Milliarden aktiven Parametern. Beide Modelle sind für eine Vielzahl von Konversations- und Anweisungsfolgefähigkeiten feinabgestimmt und haben eine effektive Kontextlänge von 256.000 Tokens, die größte unter den Open-Weight-Modellen. Um kostengünstige Inferenz zu unterstützen, führen wir ExpertsInt8 ein, eine neuartige Quantisierungstechnik, die es ermöglicht, Jamba-1.5-Large auf einer Maschine mit 8 80-GB-GPUs zu platzieren, wenn 256.000-Token-Kontexte verarbeitet werden, ohne Qualitätsverlust. Bei der Evaluierung anhand einer Reihe von akademischen und Chatbot-Benchmarks erzielen die Jamba-1.5-Modelle ausgezeichnete Ergebnisse, bieten hohe Durchsatzraten und übertreffen andere Open-Weight-Modelle in Benchmarks mit langen Kontexten. Die Modellgewichte für beide Größen sind öffentlich unter der Jamba Open Model License verfügbar, und wir veröffentlichen ExpertsInt8 als Open Source.

8

Traumkino: Kinematografischer Transfer mit freier Kamera und 3D-Charakter
DreamCinema: Cinematic Transfer with Free Camera and 3D Character

Aug 22
ByWeiliang Chen, Fangfu Liu, Diankun Wu, Haowen Sun, Haixu Song, Yueqi Duan
31
2

Wir leben in einer blühenden Ära digitaler Medien, in der jeder das Potenzial hat, ein persönlicher Filmemacher zu werden. Die aktuelle Forschung zum kinematischen Transfer ermöglicht es Filmemachern, die visuellen Elemente (z.B. Kameraführung und Charakterverhalten) aus klassischen Aufnahmen zu reproduzieren und zu manipulieren. Allerdings sind die Charaktere in den neu interpretierten Filmen immer noch auf manuelle Gestaltung angewiesen, was eine erhebliche technische Komplexität und hohe Kosten mit sich bringt, die für gewöhnliche Benutzer unerreichbar sind. Darüber hinaus fehlt es der geschätzten Kameraführung an Geschmeidigkeit aufgrund unzureichender Erfassung der Bewegung zwischen den Frames und Modellierung der physikalischen Trajektorien. Glücklicherweise hat der bemerkenswerte Erfolg von 2D- und 3D-KI-gesteuerten Generatoren die Möglichkeit eröffnet, Charaktere effizient zu erstellen, die auf die Bedürfnisse der Benutzer zugeschnitten sind und die Kameraführung diversifizieren. In diesem Artikel schlagen wir DreamCinema vor, ein neuartiges kinematisches Transfer-Framework, das generative KI in das Filmproduktionsparadigma einführt und darauf abzielt, die benutzerfreundliche Filmproduktion zu erleichtern. Konkret extrahieren wir zunächst kinematische Elemente (d.h. menschliche und Kameraposition) und optimieren die Kameratrajektorie. Anschließend wenden wir einen Charaktergenerator an, um effizient 3D-Hochqualitätscharaktere mit menschlicher Struktur vorab zu erstellen. Schließlich entwickeln wir eine strukturgeleitete Bewegungsübertragungsstrategie, um die generierten Charaktere in die Filmproduktion zu integrieren und sie reibungslos über 3D-Grafik-Engines zu übertragen. Umfangreiche Experimente zeigen die Wirksamkeit unserer Methode zur Erstellung hochwertiger Filme mit freier Kamera und 3D-Charakteren.

9

Die Untersuchung der auf Russisch ausgerichteten Embedder: ruMTEB-Benchmark und das Design des russischen Einbettungsmodells.
The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design

Aug 22
ByArtem Snegirev, Maria Tikhonova, Anna Maksimova, Alena Fenogenova, Alexander Abramov
27
1

Einbettungsmodelle spielen eine entscheidende Rolle in der natürlichen Sprachverarbeitung (NLP), indem sie Texteinbettungen erstellen, die bei verschiedenen Aufgaben wie der Informationssuche und der Bewertung semantischer Textähnlichkeit verwendet werden. Dieser Artikel konzentriert sich auf Forschung im Zusammenhang mit Einbettungsmodellen in der russischen Sprache. Er stellt ein neues auf Russisch ausgerichtetes Einbettungsmodell namens ru-en-RoSBERTa und den ruMTEB-Benchmark vor, die russische Version des Massive Text Embedding Benchmark (MTEB). Unser Benchmark umfasst sieben Kategorien von Aufgaben wie semantische Textähnlichkeit, Textklassifizierung, Umsortierung und Suche. Die Forschung bewertet auch eine repräsentative Auswahl von russischen und mehrsprachigen Modellen anhand des vorgeschlagenen Benchmarks. Die Ergebnisse zeigen, dass das neue Modell Ergebnisse erzielt, die mit Spitzenmodellen in Russisch vergleichbar sind. Wir veröffentlichen das Modell ru-en-RoSBERTa, und das ruMTEB-Framework wird mit Open-Source-Code, Integration in das ursprüngliche Framework und einer öffentlichen Bestenliste bereitgestellt.

10

Skalierbare autoregressive Bildgenerierung mit Mamba
Scalable Autoregressive Image Generation with Mamba

Aug 22
ByHaopeng Li, Jinyue Yang, Kexin Wang, Xuerui Qiu, Yuhong Chou, Xin Li, Guoqi Li
26
2

Wir stellen AiM vor, ein autoregressives (AR) Bildgenerierungsmodell, das auf der Mamba-Architektur basiert. AiM nutzt Mamba, ein neuartiges Zustandsraummodell, das sich durch seine außergewöhnliche Leistung bei der Modellierung langer Sequenzen mit linearer Zeitkomplexität auszeichnet, um die häufig verwendeten Transformer in AR-Bildgenerierungsmodellen zu ersetzen. Das Ziel ist eine überlegene Generierungsqualität und eine verbesserte Inferenzgeschwindigkeit zu erreichen. Im Gegensatz zu bestehenden Methoden, die Mamba anpassen, um zweidimensionale Signale über einen multidirektionalen Scan zu verarbeiten, nutzt AiM direkt das Paradigma der nächsten Token-Vorhersage für die autoregressive Bildgenerierung. Dieser Ansatz umgeht die Notwendigkeit umfangreicher Modifikationen, um Mamba in die Lage zu versetzen, 2D-Raumdarstellungen zu erlernen. Durch die Implementierung einfacher, aber gezielter Modifikationen für visuelle Generierungsaufgaben bewahren wir die Kernstruktur von Mamba und nutzen vollständig seine effizienten Fähigkeiten zur Modellierung langer Sequenzen und Skalierbarkeit aus. Wir bieten AiM-Modelle in verschiedenen Maßstäben an, mit Parameterzahlen von 148M bis 1.3B. Auf dem ImageNet1K 256*256 Benchmark erreicht unser bestes AiM-Modell einen FID von 2.21 und übertrifft alle bestehenden AR-Modelle mit vergleichbaren Parameterzahlen. Es zeigt eine signifikante Wettbewerbsfähigkeit gegenüber Diffusionsmodellen, mit einer 2- bis 10-mal schnelleren Inferenzgeschwindigkeit. Der Code ist verfügbar unter https://github.com/hp-l33/AiM.

11

Vintern-1B: Ein effizientes multimodales großes Sprachmodell für Vietnamesisch
Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese

Aug 22
ByKhang T. Doan, Bao G. Huynh, Dung T. Hoang, Thuc D. Pham, Nhat H. Pham, Quan T. M. Nguyen, Bang Q. Vo, Suong N. Hoang
25
5

In diesem Bericht stellen wir Vintern-1B vor, ein zuverlässiges multimodales großes Sprachmodell mit einer Milliarde Parametern (MLLM) für vietnamesische Sprachaufgaben. Durch die Integration des Qwen2-0.5B-Instruct-Sprachmodells mit dem InternViT-300M-448px-Visionsmodell ist Vintern-1B für eine Vielzahl von Anwendungen optimiert, darunter optische Zeichenerkennung (OCR), Dokumentextraktion und allgemeine Frage-Antwort-Aufgaben im vietnamesischen Kontext. Das Modell wird auf einem umfangreichen Datensatz von über 3 Millionen Bild-Frage-Antwort-Paaren feinabgestimmt, was zu einer robusten Leistung und zuverlässigen Ergebnissen in verschiedenen vietnamesischen Sprachbenchmarks wie OpenViVQA und ViTextVQA führt. Vintern-1B ist klein genug, um problemlos in verschiedene On-Device-Anwendungen integriert zu werden. Darüber hinaus haben wir mehrere vietnamesische Vision-Frage-Antwort (VQA)-Datensätze für Texte und Diagramme, erstellt mit Gemini 1.5 Flash, als Open Source veröffentlicht. Unsere Modelle sind verfügbar unter: https://huggingface.co/5CD-AI/Vintern-1B-v2.

12

Echtzeit-Videogenerierung mit Pyramiden-Aufmerksamkeitsübertragung
Real-Time Video Generation with Pyramid Attention Broadcast

Aug 22
ByXuanlei Zhao, Xiaolong Jin, Kai Wang, Yang You
17
2

Wir präsentieren Pyramid Attention Broadcast (PAB), einen echtzeitfähigen, hochwertigen und trainingsfreien Ansatz für die Generierung von Videos auf Basis von Diffusionstransformern (DiT). Unsere Methode basiert auf der Beobachtung, dass die Aufmerksamkeitsdifferenz im Diffusionsprozess ein U-förmiges Muster aufweist, was auf eine signifikante Redundanz hinweist. Dies wird durch das Aussenden von Aufmerksamkeitsausgaben in pyramidenförmigem Stil an nachfolgende Schritte gemildert. Es werden unterschiedliche Aussendestrategien für jede Aufmerksamkeit angewendet, basierend auf ihrer Varianz für eine optimale Effizienz. Des Weiteren führen wir eine parallele Aussendesequenz für effizientere verteilte Inferenz ein. PAB zeigt überlegene Ergebnisse bei drei Modellen im Vergleich zu Baselines und ermöglicht die Echtzeitgenerierung von Videos mit bis zu 720p. Wir gehen davon aus, dass unsere einfache, aber effektive Methode als robuste Grundlinie dienen wird und zukünftige Forschung und Anwendungen für die Videogenerierung erleichtern wird.

13

Stratege: Erlernen strategischer Fähigkeiten durch LLMs mittels Bi-Level-Baumsuche.
Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search

Aug 20
ByJonathan Light, Min Cai, Weiqin Chen, Guanzhi Wang, Xiusi Chen, Wei Cheng, Yisong Yue, Ziniu Hu
15
2

In diesem Paper schlagen wir eine neue Methode namens Strategist vor, die LLMs nutzt, um neue Fähigkeiten für das Spielen von Multi-Agenten-Spielen durch einen Selbstverbesserungsprozess zu erwerben. Unsere Methode sammelt qualitatives Feedback durch Selbstspiel-Simulationen mit Monte-Carlo-Baumsuche und LLM-basierter Reflexion, das dann verwendet werden kann, um hochrangige strategische Fähigkeiten wie die Bewertung von Zuständen zu erlernen, die die Ausführung auf niedriger Ebene leiten. Wir zeigen, wie unsere Methode sowohl bei der Aktionsplanung als auch bei der Dialoggenerierung im Kontext von Spielen eingesetzt werden kann und dabei gute Leistungen bei beiden Aufgaben erzielt. Insbesondere zeigen wir, dass unsere Methode dazu beitragen kann, Agenten mit besserer Leistung als sowohl traditionelle auf Verstärkungslernen basierende Ansätze als auch andere LLM-basierte Fähigkeitserlernungsansätze in Spielen wie dem Spiel reiner Strategie (GOPS) und The Resistance: Avalon zu trainieren.

14

SPARK: Benchmark für die Wahrnehmung und Schlussfolgerung von Multi-Vision-Sensoren für große Vision-Sprache-Modelle
SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models

Aug 22
ByYoungjoon Yu, Sangyun Chung, Byung-Kwan Lee, Yong Man Ro
14
3

Groß angelegte Vision-Sprach-Modelle (LVLMs) haben sich erheblich weiterentwickelt, indem sie textausgerichtete visuelle Eingaben verwendet haben. Sie haben bemerkenswerte Fortschritte bei Computer-Vision-Aufgaben erzielt, indem sie die Textmodalität mit visuellen Eingaben abgestimmt haben. Es gibt auch Bestrebungen, Multi-Vision-Sensoren jenseits von RGB einzubeziehen, einschließlich thermischer, Tiefen- und medizinischer Röntgenbilder. Allerdings stellen wir fest, dass aktuelle LVLMs Bilder von Multi-Vision-Sensoren betrachten, als ob sie sich im selben RGB-Bereich befänden, ohne die physikalischen Eigenschaften von Multi-Vision-Sensoren zu berücksichtigen. Sie versäumen es, die grundlegenden Informationen der Multi-Vision-Sensoren aus dem Datensatz und das entsprechende Kontextwissen angemessen zu vermitteln. Folglich wird keine korrekte Ausrichtung zwischen den Informationen aus der tatsächlichen physischen Umgebung und dem Text erreicht, was es schwierig macht, komplexe sensorbezogene Fragen zu beantworten, die die physische Umgebung berücksichtigen. In diesem Artikel zielen wir darauf ab, einen Multi-Vision-Sensor-Wahrnehmungs- und -Begründungs-Benchmark namens SPARK zu etablieren, der die grundlegende Informationslücke zwischen Bildern und Multi-Vision-Sensoren reduzieren kann. Wir haben automatisch 6.248 Vision-Sprach-Testproben generiert, um die Wahrnehmung und Begründung von Multi-Vision-Sensoren hinsichtlich des Wissens über physische Sensoren in verschiedenen Formaten zu untersuchen, die verschiedene Arten von sensorbezogenen Fragen abdecken. Wir haben diese Proben genutzt, um zehn führende LVLMs zu bewerten. Die Ergebnisse zeigten, dass die meisten Modelle in unterschiedlichem Maße Defizite bei der Begründung von Multi-Vision-Sensoren aufwiesen. Codes und Daten sind verfügbar unter https://github.com/top-yun/SPARK.

15

SEA: Überwachtes Einbettungsabgleich für die Integration von visuell-textuellen Token auf der Ebene von MLLMs
SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs

Aug 21
ByYuanyang Yin, Yaqi Zhao, Yajie Zhang, Ke Lin, Jiahao Wang, Xin Tao, Pengfei Wan, Di Zhang, Baoqun Yin, Wentao Zhang
12
2

Multimodale Large Language Models (MLLMs) haben kürzlich bemerkenswerte Wahrnehmungs- und Denkfähigkeiten gezeigt, die typischerweise aus einem Vision Encoder, einem Adapter und einem Large Language Model (LLM) bestehen. Der Adapter dient als entscheidende Brücke zwischen den visuellen und sprachlichen Komponenten. Das Training von Adaptern mit bildbasierter Überwachung führt jedoch häufig zu erheblichen Missanpassungen, die die Fähigkeiten der LLMs untergraben und das Potenzial von Multimodalen LLMs einschränken. Um dies zu lösen, führen wir Supervised Embedding Alignment (SEA) ein, eine auf Token-Ebene ausgerichtete Methode, die auf vorab trainierten Modellen für die Verbindung von Vision und Sprache, wie z.B. CLIP, basiert, um visuelle Tokens mit dem Einbettungsraum des LLMs durch kontrastives Lernen auszurichten. Dieser Ansatz gewährleistet eine kohärentere Integration von visuellen und sprachlichen Repräsentationen, verbessert die Leistung und Interpretierbarkeit von multimodalen LLMs und bewahrt gleichzeitig deren inhärente Fähigkeiten. Umfangreiche Experimente zeigen, dass SEA die MLLMs effektiv verbessert, insbesondere für kleinere Modelle, ohne zusätzliche Daten oder Inferenzberechnungen hinzuzufügen. SEA legt auch den Grundstein für die Entwicklung allgemeinerer und anpassungsfähiger Lösungen zur Verbesserung von multimodalen Systemen.

16

ConflictBank: Ein Benchmark zur Bewertung des Einflusses von Wissenskonflikten in LLM.
ConflictBank: A Benchmark for Evaluating the Influence of Knowledge Conflicts in LLM

Aug 22
ByZhaochen Su, Jun Zhang, Xiaoye Qu, Tong Zhu, Yanshu Li, Jiashuo Sun, Juntao Li, Min Zhang, Yu Cheng
12
1

Große Sprachmodelle (LLMs) haben beeindruckende Fortschritte in zahlreichen Disziplinen erzielt, doch das kritische Thema von Wissenskonflikten, einer Hauptursache für Halluzinationen, wurde selten untersucht. Nur wenige Studien haben die Konflikte zwischen dem inhärenten Wissen von LLMs und dem abgerufenen kontextuellen Wissen erforscht. Eine gründliche Bewertung von Wissenskonflikten in LLMs fehlt jedoch noch. Angespornt durch diese Forschungslücke präsentieren wir ConflictBank, den ersten umfassenden Benchmark, der entwickelt wurde, um Wissenskonflikte systematisch aus drei Aspekten zu bewerten: (i) Konflikte, die im abgerufenen Wissen auftreten, (ii) Konflikte innerhalb des kodierten Wissens der Modelle und (iii) das Zusammenspiel zwischen diesen Konfliktformen. Unsere Untersuchung geht auf vier Modellfamilien und zwölf LLM-Instanzen ein, indem sie Konflikte aufgrund von Fehlinformationen, zeitlichen Diskrepanzen und semantischen Unterschieden akribisch analysiert. Basierend auf unserem vorgeschlagenen neuartigen Konstruktionsrahmen erstellen wir 7.453.853 Behauptungs-Belege-Paare und 553.117 QA-Paare. Wir präsentieren zahlreiche Erkenntnisse zu Modellgröße, Konfliktursachen und Konflikttypen. Wir hoffen, dass unser ConflictBank-Benchmark der Gemeinschaft helfen wird, das Verhalten von Modellen bei Konflikten besser zu verstehen und zuverlässigere LLMs zu entwickeln.

17

Anim-Director: Ein großes multimodales Modell-basiertes System für kontrollierbare Generierung von Animationsvideos.
Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation

Aug 19
ByYunxin Li, Haoyuan Shi, Baotian Hu, Longyue Wang, Jiashun Zhu, Jinyi Xu, Zhen Zhao, Min Zhang
10
2

Traditionelle Methoden zur Erzeugung von Animationen hängen von der Schulung generativer Modelle mit menschlich gelabelten Daten ab, was eine anspruchsvolle mehrstufige Pipeline erfordert, die erheblichen menschlichen Aufwand erfordert und hohe Schulungskosten verursacht. Aufgrund begrenzter Anweisungspläne produzieren diese Methoden typischerweise kurze, informationsarme und kontextinkohärente Animationen. Um diese Einschränkungen zu überwinden und den Animationsprozess zu automatisieren, führen wir die Einführung großer multimodaler Modelle (LMMs) als Kernprozessor ein, um einen autonomen Animations-Agenten namens Anim-Director zu erstellen. Dieser Agent nutzt hauptsächlich das fortschrittliche Verständnis und die Schlussfolgerungsfähigkeiten von LMMs und generativen KI-Tools, um animierte Videos aus prägnanten Erzählungen oder einfachen Anweisungen zu erstellen. Konkret arbeitet er in drei Hauptphasen: Zunächst generiert der Anim-Director eine kohärente Handlung aus Benutzereingaben, gefolgt von einem detaillierten Regie-Skript, das Einstellungen von Charakterprofilen und Innen-/Außenbeschreibungen sowie kontextkohärente Szenenbeschreibungen umfasst, die erscheinende Charaktere, Innenräume oder Außenbereiche und Szenenereignisse beinhalten. Zweitens verwenden wir LMMs mit dem Bildgenerierungstool, um visuelle Bilder von Einstellungen und Szenen zu erstellen. Diese Bilder sind darauf ausgelegt, visuelle Konsistenz über verschiedene Szenen hinweg zu bewahren, indem eine visuell-sprachliche Anweisungsmethode verwendet wird, die Szenenbeschreibungen und Bilder des erscheinenden Charakters und der Umgebung kombiniert. Drittens dienen Szenenbilder als Grundlage für die Erstellung von animierten Videos, wobei LMMs Anweisungen zur Steuerung dieses Prozesses generieren. Der gesamte Prozess ist bemerkenswert autonom ohne manuelle Intervention, da die LMMs nahtlos mit generativen Tools interagieren, um Anweisungen zu generieren, die visuelle Qualität zu bewerten und die beste zur Optimierung des endgültigen Ergebnisses auszuwählen.

18

Video-Foley: Zweistufige Video-zu-Sound-Generierung über zeitliche Ereignisbedingung für Foley-Sound
Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound

Aug 21
ByJunwon Lee, Jaekwon Im, Dabin Kim, Juhan Nam
8
2

Die Foley-Klangsynthese ist entscheidend für die Multimedia-Produktion und verbessert die Benutzererfahrung, indem sie Audio und Video sowohl zeitlich als auch semantisch synchronisiert. Aktuelle Studien zur Automatisierung dieses arbeitsintensiven Prozesses durch die Video-zu-Klang-Erzeugung stehen vor erheblichen Herausforderungen. Systeme, die explizite zeitliche Merkmale vermissen lassen, leiden unter schlechter Steuerbarkeit und Ausrichtung, während timestamp-basierte Modelle teure und subjektive menschliche Annotationen erfordern. Wir schlagen Video-Foley vor, ein Video-zu-Klang-System, das den Root Mean Square (RMS) als zeitliches Ereignisbedingung mit semantischen Klangfarbenvorgaben (Audio oder Text) verwendet. RMS, ein Merkmal des Intensitätsverlaufs auf Frame-Ebene, das eng mit der Audiosemantik verbunden ist, gewährleistet eine hohe Steuerbarkeit und Synchronisation. Das annotationsfreie selbstüberwachte Lernframework besteht aus zwei Phasen, Video2RMS und RMS2Sound, und integriert neue Ideen, darunter RMS-Diskretisierung und RMS-ControlNet mit einem vortrainierten Text-zu-Audio-Modell. Unsere umfangreiche Evaluation zeigt, dass Video-Foley eine Spitzenleistung bei der audiovisuellen Ausrichtung und Steuerbarkeit für Klangtiming, Intensität, Klangfarbe und Feinheiten erreicht. Der Code, die Modellgewichte und Demonstrationen sind auf der begleitenden Website verfügbar. (https://jnwnlee.github.io/video-foley-demo)

19

Untergrundstreuung für 3D-Gaußsplatting
Subsurface Scattering for 3D Gaussian Splatting

Aug 22
ByJan-Niklas Dihlmann, Arjun Majumdar, Andreas Engelhardt, Raphael Braun, Hendrik P. A. Lensch
7
2

Die 3D-Rekonstruktion und Neubeleuchtung von Objekten aus streuenden Materialien stellen aufgrund des komplexen Lichttransports unter der Oberfläche eine bedeutende Herausforderung dar. 3D-Gauß-Splatting führte eine hochwertige neuartige Ansichtssynthese in Echtzeitgeschwindigkeit ein. Während 3D-Gaußs effizient die Oberfläche eines Objekts approximieren, erfassen sie nicht die volumetrischen Eigenschaften der Subsurfacedispersion. Wir schlagen ein Framework zur Optimierung der Form eines Objekts zusammen mit dem Strahlungstransferfeld vor, basierend auf Mehransichts-OLAT-Daten (eine Lichtquelle nach der anderen). Unsere Methode zerlegt die Szene in eine explizite Oberfläche, die durch 3D-Gaußs repräsentiert wird, mit einem räumlich variierenden BRDF, und eine implizite volumetrische Darstellung der Streukomponente. Ein erlerntes einfallendes Lichtfeld berücksichtigt Schattierungen. Wir optimieren alle Parameter gemeinsam über raytracingfähiges differentielles Rendern. Unser Ansatz ermöglicht Materialbearbeitung, Neubeleuchtung und neuartige Ansichtssynthese in interaktiven Geschwindigkeiten. Wir zeigen eine erfolgreiche Anwendung auf synthetischen Daten und stellen einen neu erworbenen Mehransichts-Mehrlicht-Datensatz von Objekten in einem Lichtbühnen-Setup vor. Im Vergleich zu früheren Arbeiten erzielen wir vergleichbare oder bessere Ergebnisse in einem Bruchteil der Optimierungs- und Rendierungszeit und ermöglichen gleichzeitig eine detaillierte Kontrolle über Materialeigenschaften. Projektpage: https://sss.jdihlmann.com/

20

Faktenüberprüfung mit Unterstützung von Beweisen unter Verwendung von RAG und Few-Shot In-Context Learning mit LLMs.
Evidence-backed Fact Checking using RAG and Few-Shot In-Context Learning with LLMs

Aug 22
ByRonit Singhal, Pransh Patwa, Parth Patwa, Aman Chadha, Amitava Das
6
3

Angesichts der weit verbreiteten Verbreitung von Fehlinformationen in sozialen Medien ist die Implementierung von Faktenprüfmechanismen für Online-Behauptungen unerlässlich. Jede Behauptung manuell zu überprüfen, ist äußerst herausfordernd und unterstreicht die Notwendigkeit eines automatisierten Faktenprüfungssystems. Dieses Papier stellt unser System vor, das entwickelt wurde, um dieses Problem anzugehen. Wir nutzen den Averitec-Datensatz, um die Wahrhaftigkeit von Behauptungen zu bewerten. Neben der Wahrheitsvorhersage liefert unser System unterstützende Beweise, die aus dem Datensatz extrahiert werden. Wir entwickeln eine Abruf- und Generierungspipeline (RAG), um relevante Beweissätze aus einer Wissensdatenbank zu extrahieren, die dann zusammen mit der Behauptung in ein großes Sprachmodell (LLM) zur Klassifizierung eingegeben werden. Wir evaluieren auch die Few-Shot In-Context Learning (ICL) Fähigkeiten mehrerer LLMs. Unser System erreicht einen „Averitec“-Score von 0,33, was eine absolute Verbesserung um 22% gegenüber dem Ausgangswert darstellt. Der gesamte Code wird auf https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-learning-with-llms verfügbar sein.

Aug 22
Aug 23
Aug 26