ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

Aurora-M: Das erste Open-Source mehrsprachige Sprachmodell, das gemäß der US-Exekutivanordnung red teamed wurde.
Aurora-M: The First Open Source Multilingual Language Model Red-teamed according to the U.S. Executive Order

Mar 30
ByTaishi Nakamura, Mayank Mishra, Simone Tedeschi, Yekun Chai, Jason T Stillerman, Felix Friedrich, Prateek Yadav, Tanmay Laud, Vu Minh Chien, Terry Yue Zhuo, Diganta Misra, Ben Bogin, Xuan-Son Vu, Marzena Karpinska, Arnav Varma Dantuluri, Wojciech Kusa, Tommaso Furlanello, Rio Yokota, Niklas Muennighoff, Suhas Pai, Tosin Adewumi, Veronika Laippala, Xiaozhe Yao, Adalberto Junior, Alpay Ariyak, Aleksandr Drozd, Jordan Clive, Kshitij Gupta, Liangyu Chen, Qi Sun, Ken Tsui, Noah Persaud, Nour Fahmy, Tianlong Chen, Mohit Bansal, Nicolo Monti, Tai Dang, Ziyang Luo, Tien-Tung Bui, Roberto Navigli, Virendra Mehta, Matthew Blumberg, Victor May, Huu Nguyen, Sampo Pyysalo
42
1

Vortrainierte Sprachmodelle bilden die Grundlage für mehrere KI-Anwendungen, aber ihre hohe Rechenleistungskosten für das Training begrenzen die Zugänglichkeit. Initiativen wie BLOOM und StarCoder zielen darauf ab, den Zugang zu vortrainierten Modellen für die gemeinschaftliche Entwicklung zu demokratisieren. Allerdings stehen solche bestehenden Modelle vor Herausforderungen: begrenzte mehrsprachige Fähigkeiten, kontinuierliches Vortraining, das zu katastrophalem Vergessen führt, während Vortraining von Grund auf rechnerisch aufwendig ist und die Einhaltung von KI-Sicherheits- und Entwicklungsrichtlinien. Dieses Papier stellt Aurora-M vor, ein 15B-Parameter mehrsprachiges Open-Source-Modell, das auf Englisch, Finnisch, Hindi, Japanisch, Vietnamesisch und Code trainiert wurde. Kontinuierlich vortrainiert von StarCoderPlus auf zusätzlichen 435 Milliarden Tokens, übertrifft Aurora-M insgesamt 2 Billionen Tokens in der Trainings-Tokenanzahl. Es ist das erste Open-Source mehrsprachige Modell, das feinabgestimmt wurde auf sicherheitsüberprüfte Anweisungen, wodurch seine Entwicklung nicht nur mit konventionellen Red-Teaming-Überlegungen, sondern auch mit den spezifischen Bedenken in Einklang gebracht wird, die in der Biden-Harris-Exekutivanordnung zur sicheren, geschützten und vertrauenswürdigen Entwicklung und Nutzung Künstlicher Intelligenz formuliert sind. Aurora-M wird rigoros auf verschiedene Aufgaben und Sprachen evaluiert, zeigt Robustheit gegen katastrophales Vergessen und übertrifft Alternativen in mehrsprachigen Umgebungen, insbesondere bei Sicherheitsevaluationen. Zur Förderung einer verantwortungsbewussten Open-Source-Entwicklung von LLM werden Aurora-M und seine Varianten unter https://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407 veröffentlicht.

2

Den richtigen Weg einschlagen: Verbesserung der räumlichen Konsistenz in Text-zu-Bild-Modellen
Getting it Right: Improving Spatial Consistency in Text-to-Image Models

Apr 1
ByAgneet Chatterjee, Gabriela Ben Melech Stan, Estelle Aflalo, Sayak Paul, Dhruba Ghosh, Tejas Gokhale, Ludwig Schmidt, Hannaneh Hajishirzi, Vasudev Lal, Chitta Baral, Yezhou Yang
31
3

Eine der Hauptmängel bei aktuellen Text-zu-Bild (T2I)-Modellen ist ihre Unfähigkeit, Bilder konsequent zu generieren, die den in der Textvorgabe angegebenen räumlichen Beziehungen treu folgen. In diesem Papier bieten wir eine umfassende Untersuchung dieser Einschränkung an und entwickeln gleichzeitig Datensätze und Methoden, die eine Spitzenleistung erzielen. Zunächst stellen wir fest, dass aktuelle Vision-Sprache-Datensätze räumliche Beziehungen nicht ausreichend gut darstellen; um diesen Engpass zu mildern, erstellen wir SPRIGHT, den ersten räumlich fokussierten, groß angelegten Datensatz, indem wir 6 Millionen Bilder aus 4 weit verbreiteten Vision-Datensätzen neu beschriften. Durch einen 3-fachen Evaluations- und Analyseprozess stellen wir fest, dass SPRIGHT die bestehenden Datensätze weitgehend verbessert, was die Erfassung räumlicher Beziehungen betrifft. Um seine Wirksamkeit zu demonstrieren, nutzen wir nur ~0,25% von SPRIGHT und erzielen eine 22%ige Verbesserung bei der Generierung räumlich genauer Bilder, wobei wir auch die FID- und CMMD-Werte verbessern. Zweitens stellen wir fest, dass das Training auf Bildern, die eine große Anzahl von Objekten enthalten, zu erheblichen Verbesserungen in der räumlichen Konsistenz führt. Bemerkenswerterweise erreichen wir auf T2I-CompBench mit einem räumlichen Score von 0,2133 eine Spitzenleistung, indem wir das Feintuning auf <500 Bildern durchführen. Schließlich dokumentieren wir durch eine Reihe von kontrollierten Experimenten und Ablationen mehrere Erkenntnisse, von denen wir glauben, dass sie das Verständnis der Faktoren, die die räumliche Konsistenz in Text-zu-Bild-Modellen beeinflussen, verbessern werden. Wir veröffentlichen unseren Datensatz und unser Modell öffentlich, um weitere Forschungen in diesem Bereich zu fördern.

3

FlexiDreamer: Generierung von 3D-Modellen aus Einzelbildern mit FlexiCubes
FlexiDreamer: Single Image-to-3D Generation with FlexiCubes

Apr 1
ByRuowen Zhao, Zhengyi Wang, Yikai Wang, Zihan Zhou, Jun Zhu
23
2

Die Generierung von 3D-Inhalten aus Textvorgaben oder einzelnen Bildern hat in jüngster Zeit bemerkenswerte Fortschritte in Bezug auf Qualität und Geschwindigkeit gemacht. Eines der dominierenden Paradigmen beinhaltet die Erzeugung konsistenter Multi-View-Bilder, gefolgt von einer Sparse-View-Rekonstruktion. Aufgrund der Herausforderung, die Gitterrepräsentation direkt zu verformen, um sich der Zieltopologie anzunähern, lernen die meisten Methoden eine implizite Repräsentation (wie NeRF) während der Sparse-View-Rekonstruktion und erhalten das Zielgitter durch eine nachgelagerte Extraktion. Obwohl die implizite Repräsentation 3D-Informationen effektiv modellieren kann, erfordert ihr Training in der Regel eine lange Konvergenzzeit. Darüber hinaus führt die nachträgliche Extraktion aus dem impliziten Feld auch zu unerwünschten visuellen Artefakten. In diesem Artikel schlagen wir FlexiDreamer vor, ein neuartiges Framework zur Generierung von 3D-Strukturen aus Einzelbildern, das das Zielgitter auf direktem Wege rekonstruiert. Durch die Nutzung einer flexiblen, gradientenbasierten Extraktion namens FlexiCubes umgeht unsere Methode die Mängel, die durch die Nachbearbeitung entstehen, und erleichtert eine direkte Erfassung des Zielgitters. Darüber hinaus integrieren wir ein Multi-Resolution-Hash-Gittercodierungsschema, das schrittweise die Codierungsebenen im impliziten Feld in FlexiCubes aktiviert, um geometrische Details für die schrittweise Optimierung zu erfassen. Bemerkenswert ist, dass FlexiDreamer eine dichte 3D-Struktur aus einem Einzelbild in etwa 1 Minute auf einer einzelnen NVIDIA A100 GPU wiederherstellt und dabei die bisherigen Methoden bei weitem übertrifft.

4

MaGRITTe: Manipulative und Generative 3D Realisierung aus Bild, Vogelperspektive und Text
MaGRITTe: Manipulative and Generative 3D Realization from Image, Topview and Text

Mar 30
ByTakayuki Hara, Tatsuya Harada
19
11

Die Generierung von 3D-Szenen aus benutzerspezifischen Bedingungen bietet einen vielversprechenden Ansatz zur Entlastung der Produktionslast in 3D-Anwendungen. Frühere Studien erforderten erheblichen Aufwand, um die gewünschte Szene zu realisieren, aufgrund begrenzter Steuerungsbedingungen. Wir schlagen eine Methode zur Steuerung und Generierung von 3D-Szenen unter multimodalen Bedingungen vor, die teilweise Bilder, Layout-Informationen im Top-View und Texteingaben verwendet. Die Kombination dieser Bedingungen zur Generierung einer 3D-Szene birgt folgende wesentliche Schwierigkeiten: (1) die Erstellung großer Datensätze, (2) die Berücksichtigung der Interaktion multimodaler Bedingungen und (3) die Domänenabhängigkeit der Layout-Bedingungen. Wir zerlegen den Prozess der 3D-Szenengenerierung in die Generierung von 2D-Bildern aus den gegebenen Bedingungen und die Generierung von 3D-Szenen aus 2D-Bildern. Die Generierung von 2D-Bildern erfolgt durch Feinabstimmung eines vorab trainierten Text-zu-Bild-Modells mit einem kleinen künstlichen Datensatz von teilweisen Bildern und Layouts, und die Generierung von 3D-Szenen erfolgt durch layout-konditionierte Tiefenschätzung und neurale Strahlungsfelder (NeRF), wodurch die Erstellung großer Datensätze vermieden wird. Die Verwendung einer gemeinsamen Darstellung von räumlichen Informationen mithilfe von 360-Grad-Bildern ermöglicht die Berücksichtigung der Interaktionen multimodaler Bedingungen und verringert die Domänenabhängigkeit der Layout-Steuerung. Die experimentellen Ergebnisse haben qualitativ und quantitativ gezeigt, dass die vorgeschlagene Methode 3D-Szenen in verschiedenen Bereichen, von Innenräumen bis zu Außenbereichen, gemäß multimodalen Bedingungen generieren kann.

5

Messung der Stilähnlichkeit in Diffusionsmodellen
Measuring Style Similarity in Diffusion Models

Apr 1
ByGowthami Somepalli, Anubhav Gupta, Kamal Gupta, Shramay Palta, Micah Goldblum, Jonas Geiping, Abhinav Shrivastava, Tom Goldstein
17
1

Generative Modelle werden heute von Grafikdesignern und Künstlern weit verbreitet eingesetzt. Frühere Arbeiten haben gezeigt, dass diese Modelle Inhalte aus ihren Trainingsdaten behalten und oft replizieren. Daher ist es mit ihrer zunehmenden Verbreitung wichtig geworden, vor der Verwendung eines generierten Bildes für professionelle Zwecke jedes Mal eine Datenbanksuche durchzuführen, um festzustellen, ob die Eigenschaften des Bildes auf spezifische Trainingsdaten zurückzuführen sind. Bestehende Tools für diesen Zweck konzentrieren sich darauf, Bilder mit ähnlichem semantischem Inhalt abzurufen. In der Zwischenzeit sind viele Künstler daran interessiert, Stilreplikationen in Text-zu-Bild-Modellen durchzuführen. Wir präsentieren einen Rahmen für das Verständnis und die Extraktion von Stilbeschreibern aus Bildern. Unser Rahmen umfasst einen neuen Datensatz, der unter der Erkenntnis kuratiert wurde, dass Stil eine subjektive Eigenschaft eines Bildes ist, die komplexe, aber bedeutungsvolle Interaktionen von Faktoren wie Farben, Texturen, Formen usw. erfasst. Wir schlagen auch eine Methode zur Extraktion von Stilbeschreibern vor, die verwendet werden können, um den Stil eines generierten Bildes den Bildern zuzuordnen, die im Trainingsdatensatz eines Text-zu-Bild-Modells verwendet wurden. Wir präsentieren vielversprechende Ergebnisse in verschiedenen Stilabrufaufgaben. Wir analysieren den Stilzuweisungs- und Abgleichprozess im Stable Diffusion-Modell quantitativ und qualitativ. Der Code und die Artefakte sind unter https://github.com/learn2phoenix/CSD verfügbar.

6

CosmicMan: Ein Text-zu-Bild-Grundlagenmodell für Menschen
CosmicMan: A Text-to-Image Foundation Model for Humans

Apr 1
ByShikai Li, Jianglin Fu, Kaiyuan Liu, Wentao Wang, Kwan-Yee Lin, Wayne Wu
17
1

Wir präsentieren CosmicMan, ein Text-zu-Bild-Grundlagenmodell, das auf die Erzeugung hochwertiger menschlicher Bilder spezialisiert ist. Im Gegensatz zu aktuellen allgemeinen Grundlagenmodellen, die im Dilemma zwischen minderer Qualität und Text-Bild-Verschiebung für Menschen stecken, ermöglicht CosmicMan die Erzeugung fotorealistischer menschlicher Bilder mit akribischem Erscheinungsbild, angemessener Struktur und präziser Text-Bild-Ausrichtung mit detaillierten dichten Beschreibungen. Im Herzen des Erfolgs von CosmicMan stehen neue Betrachtungen und Perspektiven zu Daten und Modellen: (1) Wir haben festgestellt, dass Datenqualität und ein skalierbarer Datenproduktionsfluss für die endgültigen Ergebnisse aus trainierten Modellen entscheidend sind. Daher schlagen wir ein neues Datenproduktionsparadigma vor, Annotate Anyone, das als fortlaufendes Datenrad dient, um im Laufe der Zeit hochwertige Daten mit präzisen und dennoch kostengünstigen Annotationen zu produzieren. Basierend darauf haben wir einen groß angelegten Datensatz, CosmicMan-HQ 1.0, mit 6 Millionen hochwertigen realen menschlichen Bildern in einer durchschnittlichen Auflösung von 1488x1255 erstellt und mit präzisen Textannotationen versehen, die aus 115 Millionen Attributen in verschiedenen Granularitäten abgeleitet sind. (2) Wir argumentieren, dass ein auf Menschen spezialisiertes Text-zu-Bild-Grundlagenmodell pragmatisch sein muss - einfach in Downstream-Aufgaben zu integrieren und gleichzeitig effektiv bei der Erzeugung hochwertiger menschlicher Bilder. Daher schlagen wir vor, die Beziehung zwischen dichten Textbeschreibungen und Bildpixeln auf eine dekomponierte Weise zu modellieren und das Schulungsrahmenwerk Decomposed-Attention-Refocusing (Daring) vorzustellen. Es zerlegt nahtlos die Kreuz-Aufmerksamkeitsmerkmale im bestehenden Text-zu-Bild-Diffusionsmodell und erzwingt eine Aufmerksamkeitsneuausrichtung, ohne zusätzliche Module hinzuzufügen. Durch Daring zeigen wir, dass die explizite Diskretisierung des kontinuierlichen Textraums in mehrere grundlegende Gruppen, die mit der menschlichen Körperstruktur übereinstimmen, der Schlüssel zur Bewältigung des Verschiebungsproblems ist.

7

Bedingungsabhängiges neuronales Netzwerk für kontrollierte Bildgenerierung
Condition-Aware Neural Network for Controlled Image Generation

Apr 1
ByHan Cai, Muyang Li, Zhuoyang Zhang, Qinsheng Zhang, Ming-Yu Liu, Song Han
13
1

Wir stellen Condition-Aware Neural Network (CAN) vor, eine neue Methode zur Hinzufügung von Steuerung zu bildgenerierenden Modellen. Parallel zu bisherigen bedingten Steuerungsmethoden steuert CAN den Bildgenerierungsprozess, indem es dynamisch das Gewicht des neuronalen Netzwerks manipuliert. Dies wird durch die Einführung eines bedingungsabhängigen Gewichtsgenerierungsmoduls erreicht, das bedingte Gewichte für Faltungs-/lineare Schichten basierend auf der Eingangsbedingung generiert. Wir testen CAN für klassenbedingte Bildgenerierung auf ImageNet und Text-zu-Bild-Generierung auf COCO. CAN liefert konsistent signifikante Verbesserungen für Diffusionstransformator-Modelle, einschließlich DiT und UViT. Insbesondere erreicht CAN in Kombination mit EfficientViT (CaT) einen FID von 2,78 auf ImageNet 512x512 und übertrifft DiT-XL/2, wobei 52-mal weniger MACs pro Abtastschritt benötigt werden.

8

Dichtes Videobeschreibung in Echtzeit
Streaming Dense Video Captioning

Apr 1
ByXingyi Zhou, Anurag Arnab, Shyamal Buch, Shen Yan, Austin Myers, Xuehan Xiong, Arsha Nagrani, Cordelia Schmid
13
2

Ein ideales Modell für dichte Videobeschreibungen - das Vorhersagen von lokalisierten Untertiteln in einem Video - sollte in der Lage sein, lange Eingangsvideos zu verarbeiten, reiche, detaillierte textuelle Beschreibungen vorherzusagen und Ausgaben erzeugen können, bevor das gesamte Video verarbeitet wurde. Aktuelle Spitzenmodelle verarbeiten jedoch eine feste Anzahl von abgetasteten Frames und geben eine einzige vollständige Vorhersage ab, nachdem das gesamte Video betrachtet wurde. Wir schlagen ein Modell für das kontinuierliche dichte Videobeschreiben vor, das aus zwei innovativen Komponenten besteht: Erstens schlagen wir ein neues Speichermodul vor, das auf dem Clustern eingehender Tokens basiert und beliebig lange Videos verarbeiten kann, da der Speicher eine feste Größe hat. Zweitens entwickeln wir einen kontinuierlichen Decodierungsalgorithmus, der unserem Modell ermöglicht, Vorhersagen zu treffen, bevor das gesamte Video verarbeitet wurde. Unser Modell erreicht diese kontinuierliche Fähigkeit und verbessert signifikant den Stand der Technik bei drei dichten Videobeschreibungs-Benchmarks: ActivityNet, YouCook2 und ViTT. Unser Code ist verfügbar unter https://github.com/google-research/scenic.

9

Direkte Präferenzoptimierung großer multimodaler Videomodelle aus der Belohnung von Sprachmodellen
Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward

Apr 1
ByRuohong Zhang, Liangke Gui, Zhiqing Sun, Yihao Feng, Keyang Xu, Yuanhan Zhang, Di Fu, Chunyuan Li, Alexander Hauptmann, Yonatan Bisk, Yiming Yang
12
1

Präferenzmodellierungstechniken, wie die direkte Präferenzoptimierung (DPO), haben sich als wirksam erwiesen, um die Verallgemeinerungsfähigkeiten großer Sprachmodelle (LLM) zu verbessern. Bei Aufgaben, die das Befolgen von Videoanleitungen erfordern und insbesondere bei der Bereitstellung von informativem Feedback, um Halluzinationen in generierten Antworten zu erkennen, bleibt eine bedeutende Herausforderung bestehen. Frühere Studien haben untersucht, die Verwendung großer multimodaler Modelle (LMMs) als Belohnungsmodelle zur Anleitung der Präferenzmodellierung zu nutzen, jedoch wurde ihre Fähigkeit, die Faktizität generierter Antworten im Vergleich zu entsprechenden Videos genau zu bewerten, noch nicht abschließend festgestellt. Dieser Artikel stellt ein neuartiges Framework vor, das detaillierte Videobeschreibungen als Proxy für den Videoinhalt verwendet, um es Sprachmodellen zu ermöglichen, diese Informationen als unterstützende Beweise zur Bewertung von Video-Frage-Antwort (QA)-Vorhersagen zu integrieren. Unser Ansatz zeigt eine robuste Ausrichtung mit dem Belohnungsmechanismus des OpenAI GPT-4V-Modells, das direkt Videoframes als Eingabe verwendet. Darüber hinaus zeigen wir, dass die Anwendung dieser maßgeschneiderten Belohnung durch DPO die Leistung von Video-LMMs bei Video-QA-Aufgaben signifikant verbessert.

10

WavLLM: Auf dem Weg zu einem robusten und anpassungsfähigen Sprach-LLM
WavLLM: Towards Robust and Adaptive Speech Large Language Model

Mar 31
ByShujie Hu, Long Zhou, Shujie Liu, Sanyuan Chen, Hongkun Hao, Jing Pan, Xunying Liu, Jinyu Li, Sunit Sivasankaran, Linquan Liu, Furu Wei
11
1

Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) haben das Gebiet der natürlichen Sprachverarbeitung revolutioniert, indem ihr Anwendungsbereich allmählich auf multimodale Wahrnehmung und Generierung erweitert wurde. Die effektive Integration von Hörfähigkeiten in LLMs stellt jedoch bedeutende Herausforderungen dar, insbesondere hinsichtlich der Verallgemeinerung über verschiedene Kontexte hinweg und der Ausführung komplexer auditiver Aufgaben. In dieser Arbeit stellen wir WavLLM vor, ein robustes und anpassungsfähiges Sprach-Sprachmodell mit doppelten Encodern und einem promptbewussten LoRA-Gewichtsadapter, der durch einen zweistufigen Curriculum-Learning-Ansatz optimiert wurde. Durch die Nutzung von doppelten Encodern entkoppeln wir verschiedene Arten von Sprachinformationen, indem wir einen Whisper-Encoder zur Verarbeitung des semantischen Inhalts der Sprache und einen WavLM-Encoder zur Erfassung der einzigartigen Merkmale der Sprecheridentität einsetzen. Im Rahmen des Curriculum-Learning baut WavLLM zunächst seine grundlegenden Fähigkeiten auf, indem es sich auf gemischte elementare Einzelaufgaben optimiert, gefolgt von einem fortgeschrittenen Multi-Task-Training für komplexere Aufgaben wie Kombinationen der elementaren Aufgaben. Zur Verbesserung der Flexibilität und Einhaltung verschiedener Aufgaben und Anweisungen wird in der zweiten fortgeschrittenen Multi-Task-Trainingsphase ein promptbewusster LoRA-Gewichtsadapter eingeführt. Wir validieren das vorgeschlagene Modell an universellen Sprachbenchmarks, einschließlich Aufgaben wie ASR, ST, SV, ER, und wenden es auch auf spezialisierte Datensätze wie das Gaokao-Englisch-Hörverständnis-Set für SQA sowie das Sprachketten-Denken (CoT)-Evaluierungsset an. Experimente zeigen, dass das vorgeschlagene Modell eine Spitzenleistung bei einer Reihe von Sprachaufgaben bei gleicher Modellgröße erreicht und robuste Verallgemeinerungsfähigkeiten bei der Ausführung komplexer Aufgaben mit dem CoT-Ansatz aufweist. Darüber hinaus erledigt unser Modell erfolgreich Gaokao-Aufgaben ohne spezielles Training. Die Codes, Modelle, Audio- und Gaokao-Evaluierungsset sind unter aka.ms/wavllm verfügbar.

11

Geräuschempfindliches Training von Layout-empfindlichen Sprachmodellen
Noise-Aware Training of Layout-Aware Language Models

Mar 30
ByRitesh Sarkhel, Xiaoqi Ren, Lauro Beltrao Costa, Guolong Su, Vincent Perot, Yanan Xie, Emmanouil Koukoumidis, Arnab Nandi
10
1

Ein visuell reiches Dokument (VRD) nutzt visuelle Merkmale zusammen mit sprachlichen Hinweisen, um Informationen zu verbreiten. Das Training eines benutzerdefinierten Extraktors, der benannte Entitäten aus einem Dokument identifiziert, erfordert eine große Anzahl von Instanzen des Ziel-Dokumententyps, die in textuellen und visuellen Modalitäten annotiert sind. Dies stellt einen kostspieligen Engpass in Unternehmensszenarien dar, in denen wir benutzerdefinierte Extraktoren für Tausende verschiedener Dokumententypen auf skalierbare Weise trainieren möchten. Das Vor-Training eines Extraktormodells anhand von unbeschrifteten Instanzen des Ziel-Dokumententyps, gefolgt von einem Feinabstimmungsschritt anhand von menschlich beschrifteten Instanzen, funktioniert in diesen Szenarien nicht, da es die maximal zulässige Trainingszeit überschreitet, die für den Extraktor zugewiesen ist. Wir adressieren dieses Szenario, indem wir in diesem Papier eine Methode des rauschbewussten Trainings oder NAT vorschlagen. Anstatt teure menschlich beschriftete Dokumente zu erwerben, nutzt NAT schwach beschriftete Dokumente, um einen Extraktor auf skalierbare Weise zu trainieren. Um eine Verschlechterung der Modellqualität aufgrund von rauschigen, schwach beschrifteten Proben zu vermeiden, schätzt NAT das Vertrauen jeder Trainingsprobe und integriert es als Unsicherheitsmaß während des Trainings. Wir trainieren mehrere hochmoderne Extraktormodelle unter Verwendung von NAT. Experimente an einer Reihe von öffentlich verfügbaren und firmeninternen Datensätzen zeigen, dass mit NAT trainierte Modelle nicht nur leistungsstark sind - sie übertreffen eine Transfer-Learning-Baseline um bis zu 6% in Bezug auf den Makro-F1-Score - sondern auch effizienter im Umgang mit Beschriftungen sind - sie reduzieren den menschlichen Aufwand zur Erzielung vergleichbarer Leistungen um bis zu 73%.

12

ST-LLM: Große Sprachmodelle sind effektive zeitliche Lernende.
ST-LLM: Large Language Models Are Effective Temporal Learners

Mar 30
ByRuyang Liu, Chen Li, Haoran Tang, Yixiao Ge, Ying Shan, Ge Li
8
1

Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten in Textverständnis und -erzeugung gezeigt, was Forschungsbemühungen in Richtung Video-LLMs zur Erleichterung der Mensch-KI-Interaktion auf Videoebene angeregt hat. Allerdings bleibt die Frage, wie Videos in video-basierten Dialogsystemen effektiv codiert und verstanden werden können, noch ungelöst. In diesem Paper untersuchen wir eine einfache, jedoch unerforschte Frage: Können wir alle räumlich-zeitlichen Token dem LLM zuführen und somit die Aufgabe der Videosequenzmodellierung den LLMs überlassen? Überraschenderweise führt dieser einfache Ansatz zu signifikanten Verbesserungen im Videoverständnis. Basierend darauf schlagen wir ST-LLM vor, eine effektive Video-LLM-Baseline mit räumlich-zeitlicher Sequenzmodellierung innerhalb des LLM. Darüber hinaus entwickeln wir eine dynamische Maskierungsstrategie mit maßgeschneiderten Trainingszielen, um die durch unkomprimierte Videotoken innerhalb der LLMs eingeführten Overhead- und Stabilitätsprobleme anzugehen. Für besonders lange Videos haben wir auch ein globales-lokales Eingangsmodul entworfen, um Effizienz und Effektivität auszubalancieren. Folglich nutzen wir LLM für eine effiziente räumlich-zeitliche Modellierung, wobei Effizienz und Stabilität gewahrt bleiben. Umfangreiche experimentelle Ergebnisse belegen die Wirksamkeit unserer Methode. Durch ein prägnanteres Modell und Trainingspipeline etabliert ST-LLM ein neues State-of-the-Art-Ergebnis auf VideoChatGPT-Bench und MVBench. Der Code ist verfügbar unter https://github.com/TencentARC/ST-LLM.

Apr 1
Apr 2
Apr 3