ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

TabellenkalkulationLLM: Codierung von Tabellenkalkulationen für große Sprachmodelle
SpreadsheetLLM: Encoding Spreadsheets for Large Language Models

Jul 12
ByYuzhang Tian, Jianbo Zhao, Haoyu Dong, Junyu Xiong, Shiyu Xia, Mengyu Zhou, Yun Lin, José Cambronero, Yeye He, Shi Han, Dongmei Zhang
139
24

Tabellenkalkulationen mit ihren umfangreichen zweidimensionalen Rastern, verschiedenen Layouts und vielfältigen Formatierungsoptionen stellen bedeutende Herausforderungen für große Sprachmodelle (LLMs) dar. Als Antwort führen wir SpreadsheetLLM ein, das eine effiziente Codierungsmethode entwickelt, um das leistungsstarke Verständnis- und Schlussfolgerungsvermögen von LLMs auf Tabellenkalkulationen zu entfesseln und zu optimieren. Zunächst schlagen wir einen einfachen Serialisierungsansatz vor, der Zelladressen, Werte und Formate integriert. Allerdings war dieser Ansatz aufgrund der Tokenbeschränkungen von LLMs begrenzt und daher für die meisten Anwendungen unpraktisch. Um diese Herausforderung anzugehen, entwickeln wir SheetCompressor, ein innovatives Codierungsframework, das Tabellenkalkulationen effektiv für LLMs komprimiert. Es besteht aus drei Modulen: strukturankerbasierte Kompression, inverse Indexübersetzung und datenformatbewusste Aggregation. Dies verbessert die Leistung signifikant in der Aufgabe der Tabellenerkennung in Tabellenkalkulationen und übertrifft den einfachen Ansatz um 25,6% im Kontextlernen von GPT4. Darüber hinaus hat ein feinabgestimmtes LLM mit SheetCompressor ein durchschnittliches Kompressionsverhältnis von 25, erreicht jedoch einen state-of-the-art F1-Score von 78,9%, womit die besten bestehenden Modelle um 12,3% übertroffen werden. Abschließend schlagen wir eine Kette von Tabellenkalkulationen für nachgelagerte Aufgaben der Tabellenkalkulationsverarbeitung vor und validieren sie in einer neuen und anspruchsvollen Tabellenkalkulations-F&A-Aufgabe. Wir nutzen systematisch das inhärente Layout und die Struktur von Tabellenkalkulationen und zeigen, dass SpreadsheetLLM bei einer Vielzahl von Tabellenkalkulationsaufgaben äußerst effektiv ist.

2

Menschengleiches episodisches Gedächtnis für LLMs mit unendlichem Kontext
Human-like Episodic Memory for Infinite Context LLMs

Jul 12
ByZafeirios Fountas, Martin A Benfeghoul, Adnan Oomerjee, Fenia Christopoulou, Gerasimos Lampouras, Haitham Bou-Ammar, Jun Wang
62
6

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten gezeigt, kämpfen jedoch immer noch mit der Verarbeitung umfangreicher Kontexte, was ihre Fähigkeit zur Aufrechterhaltung von Kohärenz und Genauigkeit über lange Sequenzen hinweg einschränkt. Im Gegensatz dazu zeichnet sich das menschliche Gehirn durch die Organisation und den Abruf episodischer Erfahrungen über enorme zeitliche Skalen aus, die ein ganzes Leben umspannen. In dieser Arbeit stellen wir EM-LLM vor, einen neuartigen Ansatz, der wesentliche Aspekte des menschlichen episodischen Gedächtnisses und der Ereigniskognition in LLMs integriert und ihnen ermöglicht, praktisch unendliche Kontextlängen effektiv zu verarbeiten, während die Rechenleistung erhalten bleibt. EM-LLM organisiert Tokensequenzen in kohärente episodische Ereignisse mithilfe einer Kombination aus bayesianischer Überraschung und graphentheoretischer Grenzverfeinerung in Echtzeit. Bei Bedarf werden diese Ereignisse durch einen zweistufigen Speicherprozess abgerufen, der Ähnlichkeits- und zeitlich zusammenhängende Abrufmethoden kombiniert, um einen effizienten und menschenähnlichen Zugriff auf relevante Informationen zu ermöglichen. Experimente mit dem LongBench-Datensatz zeigen die überragende Leistung von EM-LLM, die das modernste InfLLM-Modell mit einer Gesamtverbesserung von 4,3% in verschiedenen Aufgaben übertrifft, einschließlich einer 33%igen Verbesserung bei der Passage-Retrieval-Aufgabe. Darüber hinaus zeigen unsere Analysen starke Korrelationen zwischen der Ereignissegmentierung von EM-LLM und von Menschen wahrgenommenen Ereignissen, was auf eine Verbindung zwischen diesem künstlichen System und seinem biologischen Gegenstück hinweist. Diese Arbeit verbessert nicht nur die Fähigkeiten von LLMs bei der Verarbeitung erweiterter Kontexte, sondern bietet auch einen Rechenrahmen zur Erforschung menschlicher Gedächtnismechanismen und eröffnet neue Möglichkeiten für interdisziplinäre Forschung in KI und Kognitionswissenschaft.

3

Toto: Zeitreihen-optimierter Transformer für Beobachtbarkeit
Toto: Time Series Optimized Transformer for Observability

Jul 10
ByBen Cohen, Emaad Khwaja, Kan Wang, Charles Masson, Elise Ramé, Youssef Doubli, Othmane Abou-Amal
33
3

Dieser technische Bericht beschreibt den Time Series Optimized Transformer for Observability (Toto), ein neues Spitzenmodell für Zeitreihenprognosen, das von Datadog entwickelt wurde. Neben der Weiterentwicklung des aktuellen Standes der Technik bei allgemeinen Zeitreihen-Benchmarks in Bereichen wie Elektrizität und Wetter ist dieses Modell das erste allgemeine Zeitreihenprognose-Grundlagenmodell, das speziell auf Observabilitätsmetriken abgestimmt ist. Toto wurde auf einem Datensatz von einer Billion Zeitreihendatenpunkten trainiert, der größte unter allen derzeit veröffentlichten Zeitreihen-Grundlagenmodellen. Neben öffentlich verfügbaren Zeitreihendatensätzen besteht 75 % der für das Training von Toto verwendeten Daten aus vollständig anonymen numerischen Metrikdatenpunkten aus der Datadog-Plattform. In unseren Experimenten übertrifft Toto bestehende Zeitreihen-Grundlagenmodelle bei Observabilitätsdaten. Dies gelingt ihm, während er auch bei allgemeinen Prognoseaufgaben herausragt und Spitzenleistungen bei Null-Schuss-Performance auf mehreren offenen Benchmark-Datensätzen erzielt.

4

MUSCLE: Eine Modellaktualisierungsstrategie für die kompatible Evolution von LLM
MUSCLE: A Model Update Strategy for Compatible LLM Evolution

Jul 12
ByJessica Echterhoff, Fartash Faghri, Raviteja Vemulapalli, Ting-Yao Hu, Chun-Liang Li, Oncel Tuzel, Hadi Pouransari
23
2

Große Sprachmodelle (LLMs) werden häufig aufgrund von Daten- oder Architekturänderungen aktualisiert, um ihre Leistung zu verbessern. Bei der Aktualisierung von Modellen konzentrieren sich Entwickler oft darauf, die Gesamtleistungsmetriken zu verbessern, wobei weniger Wert auf die Kompatibilität mit früheren Modellversionen gelegt wird. Benutzer bilden jedoch oft ein mentales Modell der Funktionalität und Fähigkeiten eines bestimmten maschinellen Lernmodells, mit dem sie interagieren. Sie müssen ihr mentales Modell bei jeder Aktualisierung anpassen - eine anstrengende Aufgabe, die zu Benutzerunzufriedenheit führen kann. In der Praxis verlassen sich feinabgestimmte Adapter für nachgelagerte Aufgaben auf vorab trainierte LLM-Basismodelle. Wenn diese Basismodelle aktualisiert werden, erfahren diese benutzerorientierten nachgelagerten Aufgabenmodelle Instanzregressionen oder negative Umkehrungen - zuvor korrekte Instanzen werden nun falsch vorhergesagt. Dies geschieht selbst dann, wenn die Trainingsverfahren für nachgelagerte Aufgaben identisch bleiben. Unsere Arbeit zielt darauf ab, einem Benutzer auf zwei Arten nahtlose Modellaktualisierungen bereitzustellen. Erstens bieten wir Bewertungsmetriken für ein Konzept der Kompatibilität mit früheren Modellversionen an, speziell für generative Aufgaben, aber auch für diskriminative Aufgaben anwendbar. Wir beobachten Regressionen und Inkonsistenzen zwischen verschiedenen Modellversionen bei einer vielfältigen Aufgabensammlung und Modellaktualisierungen. Zweitens schlagen wir eine Schulungsstrategie vor, um die Anzahl von Inkonsistenzen bei Modellaktualisierungen zu minimieren, indem ein Kompatibilitätsmodell trainiert wird, das die Feinabstimmung von Sprachmodellen für Aufgaben verbessern kann. Wir reduzieren negative Umkehrungen - Instanzen, bei denen eine frühere Modellversion korrekt war, aber ein neues Modell inkorrekt ist - um bis zu 40% von Llama 1 zu Llama 2.

5

Modellchirurgie: Modulation des Verhaltens von LLM durch einfache Parameterbearbeitung
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing

Jul 11
ByHuanqian Wang, Yang Yue, Rui Lu, Jingxin Shi, Andrew Zhao, Shenzhi Wang, Shiji Song, Gao Huang
21
4

Große Sprachmodelle (LLMs) haben ein großes Potenzial als Generalisten-Assistenten gezeigt, die leistungsstarke Aufgabenverständnis- und Problemlösungsfähigkeiten präsentieren. Um LLMs als KI-Assistenten einzusetzen, ist es entscheidend, dass diese Modelle wünschenswerte Verhaltensmerkmale aufweisen, wie Nicht-Toxizität und Widerstandsfähigkeit gegen Jailbreak-Versuche. Aktuelle Methoden zur Entgiftung oder Verhinderung von Jailbreaking beinhalten in der Regel Überwachtes Feintuning (SFT) oder Verstärkendes Lernen aus menschlichem Feedback (RLHF), was das Feintuning von Milliarden von Parametern durch Gradientenabstieg mit erheblichen Rechenkosten erfordert. Darüber hinaus können Modelle, die durch SFT und RLHF modifiziert wurden, von den vorab trainierten Modellen abweichen und möglicherweise zu einer Degradierung der grundlegenden LLM-Fähigkeiten führen. In diesem Papier stellen wir fest, dass es überraschenderweise möglich ist, durch direktes Bearbeiten einer kleinen Teilmenge von Parametern spezifische Verhaltensweisen von LLMs effektiv zu modulieren, wie Entgiftung und Widerstand gegen Jailbreaking. Konkret verwenden wir für ein zu vermeidendes Verhalten einen linearen Klassifizierer, den wir als Verhaltenssonde bezeichnen, um binäre Verhaltensetiketten im verborgenen Zustandsraum des LLM zu klassifizieren. Unter Verwendung dieser Sonde führen wir einen Algorithmus ein, um eine kritische Teilmenge von LLM-Parametern zu identifizieren, die dieses gezielte Verhalten signifikant beeinflussen. Anschließend bearbeiten wir diese ausgewählten Parameter direkt, indem wir sie in Richtung der Verhaltenssonde verschieben. Ein solcher direkter Parameterbearbeitungsansatz erfordert nur Inferenz-Ebene Rechenressourcen. Experimente zeigen, dass unser Ansatz bei der repräsentativen Entgiftungsaufgabe Reduzierungen von bis zu 90,0\% in der Toxizität im RealToxicityPrompts-Datensatz und 49,2\% in ToxiGen erreicht, während die allgemeinen Fähigkeiten des LLM in Bereichen wie gesunder Menschenverstand, Fragebeantwortung und Mathematik erhalten bleiben. Unser Code ist verfügbar unter https://github.com/lucywang720/model-surgery.

6

Technischer Bericht von H2O-Danube3
H2O-Danube3 Technical Report

Jul 12
ByPascal Pfeiffer, Philipp Singer, Yauhen Babakhin, Gabor Fodor, Nischay Dhankhar, Sri Satish Ambati
20
2

Wir präsentieren H2O-Danube3, eine Serie kleiner Sprachmodelle, bestehend aus H2O-Danube3-4B, trainiert auf 6T Tokens, und H2O-Danube3-500M, trainiert auf 4T Tokens. Unsere Modelle sind in drei Stufen mit unterschiedlichen Datensätzen vor dem abschließenden überwachten Feintuning für die Chat-Version auf hochwertigen Webdaten, hauptsächlich bestehend aus englischen Tokens, vorab trainiert. Die Modelle zeigen äußerst wettbewerbsfähige Metriken über eine Vielzahl von akademischen, Chat- und Feintuning-Benchmarks. Dank seiner kompakten Architektur kann H2O-Danube3 effizient auf einem modernen Smartphone ausgeführt werden, was lokale Inferenz und schnelle Verarbeitungsfähigkeiten auch auf mobilen Geräten ermöglicht. Wir stellen alle Modelle unter der Apache 2.0 Lizenz offen zur Verfügung, um LLMs weiter zu demokratisieren und einem breiteren Publikum wirtschaftlich zugänglich zu machen.

7

GAVEL: Generierung von Spielen durch Evolution und Sprachmodelle
GAVEL: Generating Games Via Evolution and Language Models

Jul 12
ByGraham Todd, Alexander Padula, Matthew Stephenson, Éric Piette, Dennis J. N. J. Soemers, Julian Togelius
17
2

Die automatische Generierung von neuen und interessanten Spielen ist eine komplexe Aufgabe. Herausforderungen umfassen die Darstellung von Spielregeln in einer rechnerisch umsetzbaren Form, die Suche durch den großen Raum potenzieller Spiele unter den meisten dieser Darstellungen und die genaue Bewertung der Originalität und Qualität zuvor ungesehener Spiele. Frühere Arbeiten zur automatisierten Spielgenerierung konzentrierten sich weitgehend auf relativ eingeschränkte Regelrepräsentationen und verließen sich auf domänenspezifische Heuristiken. In dieser Arbeit untersuchen wir die Generierung neuer Spiele in der vergleichsweise umfangreichen Ludii-Spielbeschreibungssprache, die die Regeln von über 1000 Brettspielen in verschiedenen Stilen und Spielmodi codiert. Wir lassen uns von den jüngsten Fortschritten in großen Sprachmodellen und evolutionärer Berechnung inspirieren, um ein Modell zu trainieren, das Spiele und Mechaniken intelligent mutiert und rekombiniert, die als Code ausgedrückt sind. Wir zeigen sowohl quantitativ als auch qualitativ, dass unser Ansatz in der Lage ist, neue und interessante Spiele zu generieren, auch in Bereichen des potenziellen Regelraums, die von bestehenden Spielen im Ludii-Datensatz nicht abgedeckt werden. Eine Auswahl der generierten Spiele ist über das Ludii-Portal online spielbar.

8

Transformer-Schichten als Maler
Transformer Layers as Painters

Jul 12
ByQi Sun, Marc Pickett, Aakash Kumar Nain, Llion Jones
15
2

Trotz ihrer nahezu universellen Verwendung für große Sprachmodelle sind die internen Funktionsweisen von Transformatoren nicht gut verstanden. Unser Ziel ist es, die Auswirkungen des Entfernens oder Neuorganisierens von Informationen in den Schichten eines vorab trainierten Transformers besser zu verstehen. Ein solches Verständnis könnte sowohl zu einer besseren Nutzung bestehender Modelle führen als auch architektonische Verbesserungen ermöglichen, um neue Varianten zu entwickeln. Wir präsentieren eine Reihe empirischer Studien an eingefrorenen Modellen, die zeigen, dass sich die unteren und finalen Schichten vorab trainierter Transformer von den mittleren Schichten unterscheiden, aber dass die mittleren Schichten überraschend einheitlich sind. Darüber hinaus zeigen wir, dass einige Problemklassen eine Robustheit gegenüber dem Überspringen von Schichten aufweisen, indem die Schichten in einer anderen Reihenfolge als beim Training ausgeführt werden oder parallel laufen. Unsere Beobachtungen legen nahe, dass selbst eingefrorene vorab trainierte Modelle möglicherweise geschickt Genauigkeit gegen Latenz eintauschen können, indem Schichten übersprungen oder Schichten parallel ausgeführt werden.

9

StyleSplat: 3D-Objekt-Stiltransfer mit Gauss'schem Splatting
StyleSplat: 3D Object Style Transfer with Gaussian Splatting

Jul 12
BySahil Jain, Avik Kuthiala, Prabhdeep Singh Sethi, Prakanshul Saxena
13
3

Neueste Fortschritte bei Strahlungsfeldern haben neue Möglichkeiten zur Erstellung hochwertiger 3D-Assets und Szenen eröffnet. Stiltransfer kann diese 3D-Assets mit vielfältigen künstlerischen Stilen verbessern und so den kreativen Ausdruck transformieren. Allerdings sind bestehende Techniken oft langsam oder können den Stiltransfer nicht auf bestimmte Objekte lokal begrenzen. Wir stellen StyleSplat vor, eine leichte Methode zur Stilisierung von 3D-Objekten in Szenen, die durch 3D-Gaußsche Funktionen aus Referenzstilbildern dargestellt werden. Unser Ansatz lernt zunächst eine fotorealistische Darstellung der Szene unter Verwendung von 3D-Gaußschem Splatting und segmentiert gleichzeitig einzelne 3D-Objekte. Anschließend verwenden wir einen Verlust durch Feature-Matching mit dem nächstgelegenen Nachbarn, um die Gaußschen Funktionen der ausgewählten Objekte feinzustimmen, indem ihre sphärischen harmonischen Koeffizienten mit dem Stilbild abgeglichen werden, um Konsistenz und visuellen Reiz sicherzustellen. StyleSplat ermöglicht schnellen, anpassbaren Stiltransfer und lokalisierte Stilisierung mehrerer Objekte innerhalb einer Szene, jeweils mit einem anderen Stil. Wir zeigen seine Wirksamkeit in verschiedenen 3D-Szenen und Stilen und präsentieren eine verbesserte Steuerung und Anpassung bei der 3D-Erstellung.

10

SPIQA: Ein Datensatz für multimodales Frage-Antworten auf wissenschaftlichen Papieren
SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers

Jul 12
ByShraman Pramanick, Rama Chellappa, Subhashini Venugopalan
11
3

Die Suche nach Antworten auf Fragen innerhalb langer wissenschaftlicher Forschungsartikel ist ein entscheidender Bereich der Studie, der Lesern dabei hilft, ihre Anfragen schnell zu beantworten. Allerdings sind bestehende Frage-Antwort (QA) Datensätze, die auf wissenschaftlichen Artikeln basieren, in ihrem Umfang begrenzt und konzentrieren sich ausschließlich auf den Textinhalt. Um diese Einschränkung zu überwinden, stellen wir SPIQA (Scientific Paper Image Question Answering) vor, den ersten umfangreichen QA Datensatz, der speziell darauf ausgelegt ist, komplexe Abbildungen und Tabellen im Kontext wissenschaftlicher Forschungsartikel in verschiedenen Bereichen der Informatik zu interpretieren. Unter Nutzung der Expertise und Fähigkeiten multimodaler großer Sprachmodelle (MLLMs) zur Interpretation von Abbildungen setzen wir automatische und manuelle Kuratierung ein, um den Datensatz zu erstellen. Wir entwerfen eine informationsuchende Aufgabe, die mehrere Bilder umfasst, die eine Vielzahl von Diagrammen, Tabellen, schematischen Darstellungen und Ergebnisvisualisierungen abdecken. SPIQA besteht aus 270.000 Fragen, aufgeteilt in Trainings-, Validierungs- und drei verschiedene Auswertungsteile. Durch umfangreiche Experimente mit 12 prominenten Grundlagenmodellen bewerten wir die Fähigkeit aktueller multimodaler Systeme, die nuancierten Aspekte von Forschungsartikeln zu verstehen. Zusätzlich schlagen wir eine Chain-of-Thought (CoT) Evaluationsstrategie mit kontextbezogener Suche vor, die eine feingranulare, schrittweise Bewertung ermöglicht und die Leistung des Modells verbessert. Wir erforschen weiterhin die Grenzen der Leistungssteigerung durch zusätzliche textuelle Informationen und heben ihr vielversprechendes Potenzial für zukünftige Forschung sowie den Einfluss des Datensatzes auf die Revolutionierung unserer Interaktion mit wissenschaftlicher Literatur hervor.

11

Charakterisierung von Prompt-Kompressionsmethoden für Inferenz mit langem Kontext
Characterizing Prompt Compression Methods for Long Context Inference

Jul 11
BySiddharth Jha, Lutfi Eren Erdogan, Sehoon Kim, Kurt Keutzer, Amir Gholami
11
2

Die Inferenz über lange Kontexte stellt auf Systemebene Herausforderungen dar, die mit erhöhten Rechen- und Speicheranforderungen einhergehen, sowie aus einer Genauigkeitsperspektive in der Lage zu sein, über lange Kontexte zu argumentieren. In letzter Zeit wurden mehrere Methoden vorgeschlagen, um den Prompt zu komprimieren und die Kontextlänge zu reduzieren. Es wurde jedoch wenig Forschung betrieben, um die verschiedenen vorgeschlagenen Methoden über verschiedene Aufgaben hinweg durch eine standardisierte Analyse zu vergleichen. Dies hat zu widersprüchlichen Ergebnissen geführt. Um dies zu lösen, führen wir hier eine umfassende Charakterisierung und Bewertung verschiedener Methoden zur Prompt-Kompression durch. Insbesondere analysieren wir extraktive Kompression, auf Zusammenfassung basierende abstraktive Kompression und Token-Pruning-Methoden. Überraschenderweise stellen wir fest, dass extraktive Kompression oft alle anderen Ansätze übertrifft und eine Kompression um das bis zu 10-fache bei minimaler Genauigkeitsverschlechterung ermöglicht. Interessanterweise stellen wir auch fest, dass trotz mehrerer jüngster Behauptungen Token-Pruning-Methoden oft hinter extraktiver Kompression zurückbleiben. Wir fanden nur marginale Verbesserungen bei Zusammenfassungsaufgaben.

12

Neue Richtlinien für die direkte Präferenzoptimierung
New Desiderata for Direct Preference Optimization

Jul 12
ByXiangkun Hu, Tong He, David Wipf
11
4

Große Sprachmodelle haben in der Vergangenheit in der Regel auf irgendeine Form von Verstärkungslernen mit menschlichem Feedback (RLHF) gesetzt, um die Modellantworten besser an menschliche Präferenzen anzupassen. Aufgrund häufig beobachteter Instabilitäten bei der Implementierung dieser RLHF-Pipelines wurden kürzlich verschiedene Reparametrisierungstechniken eingeführt, um die Notwendigkeit des separaten Lernens eines RL-Belohnungsmodells zu umgehen. Stattdessen wird die direkte Feinabstimmung auf menschliche Präferenzen durch die Minimierung eines einzigen geschlossenen Trainingsziels erreicht, ein Prozess, der ursprünglich als direkte Präferenzoptimierung (DPO) bezeichnet wurde und von mehreren bemerkenswerten Nachkommen verfolgt wird. Obwohl in bestimmten realen Umgebungen wirksam, stellen wir neue Bewertungskriterien vor, die ungelöste Mängel in der Fähigkeit der bestehenden DPO-Methoden aufzeigen, zwischen einem vorab trainierten Referenzmodell und empirischen Maßnahmen menschlicher Präferenzen zu interpolieren, sowie unvermeidliche Kompromisse bei der Regulierung von Antworten niedriger und hoher Qualität und der Behandlung von Einschränkungen. Unsere Erkenntnisse motivieren dann einen alternativen DPO-ähnlichen Verlust, der diese Einschränkungen nachweislich mildert. Empirische Ergebnisse dienen dazu, bemerkenswerte Aspekte unserer Analysen zu bestätigen.

13

Sprach-Slytherin: Untersuchung der Leistung und Effizienz von Mamba für die Sprachtrennung, -erkennung und -synthese.
Speech Slytherin: Examining the Performance and Efficiency of Mamba for Speech Separation, Recognition, and Synthesis

Jul 13
ByXilin Jiang, Yinghao Aaron Li, Adrian Nicolas Florea, Cong Han, Nima Mesgarani
10
2

Es ist noch zu früh, um zu schlussfolgern, dass Mamba eine bessere Alternative zu Transformatoren für Sprache darstellt, bevor Mamba nicht sowohl in Bezug auf Leistung als auch Effizienz in mehreren sprachbezogenen Aufgaben mit Transformatoren verglichen wird. Um zu diesem Schluss zu gelangen, schlagen wir drei Modelle für drei Aufgaben vor und evaluieren sie: Mamba-TasNet für die Sprachtrennung, ConMamba für die Spracherkennung und VALL-M für die Sprachsynthese. Wir vergleichen sie in Bezug auf Leistung, Speichernutzung und Geschwindigkeit mit Transformatoren ähnlicher Größe. Unsere Mamba- oder Mamba-Transformer-Hybridmodelle zeigen vergleichbare oder höhere Leistung als ihre Transformer-Gegenstücke: Sepformer, Conformer und VALL-E. Sie sind effizienter als Transformatoren in Speichernutzung und Geschwindigkeit für Sprache, die länger als eine bestimmte Dauer ist, die umgekehrt mit der Auflösung eines Sprachtokens zusammenhängt. Mamba für die Trennung ist am effizientesten, und Mamba für die Erkennung am wenigsten. Darüber hinaus zeigen wir, dass Mamba für Sprache, die kürzer als die Schwellendauer ist, nicht effizienter ist als Transformatoren und in Modellen, die eine gemeinsame Modellierung von Text und Sprache erfordern, wie z.B. Kreuz- oder maskierte Aufmerksamkeit von zwei Eingaben, schlechter abschneidet. Daher argumentieren wir, dass die Überlegenheit von Mamba oder Transformer von bestimmten Problemen und Modellen abhängt. Der Code ist verfügbar unter https://github.com/xi-j/Mamba-TasNet und https://github.com/xi-j/Mamba-ASR.

14

TCAN: Animieren von menschlichen Bildern mit zeitlich konsistenter Pose-Anleitung unter Verwendung von Diffusionsmodellen
TCAN: Animating Human Images with Temporally Consistent Pose Guidance using Diffusion Models

Jul 12
ByJeongho Kim, Min-Jung Kim, Junsoo Lee, Jaegul Choo
10
2

Pose-getriebene Modelle zur Diffusion der Animation von menschlichen Bildern haben bemerkenswerte Fähigkeiten bei der realistischen Synthese von menschlichen Videos gezeigt. Trotz der vielversprechenden Ergebnisse früherer Ansätze bestehen weiterhin Herausforderungen darin, eine zeitlich konsistente Animation zu erreichen und die Robustheit mit handelsüblichen Pose-Detektoren sicherzustellen. In diesem Artikel präsentieren wir TCAN, eine pose-getriebene Methode zur Animation von menschlichen Bildern, die robust gegen fehlerhafte Posen ist und über die Zeit konsistent bleibt. Im Gegensatz zu früheren Methoden nutzen wir das vortrainierte ControlNet ohne Feinabstimmung, um von seinem umfangreichen vorausgesetzten Wissen aus zahlreichen Pose-Bild-Beschreibungs-Paaren zu profitieren. Um das ControlNet einzufrieren, passen wir LoRA an die UNet-Schichten an, was dem Netzwerk ermöglicht, den latenten Raum zwischen den Pose- und Erscheinungsmerkmalen auszurichten. Darüber hinaus verbessern wir durch die Einführung einer zusätzlichen zeitlichen Schicht in das ControlNet die Robustheit gegen Ausreißer des Pose-Detektors. Durch die Analyse von Aufmerksamkeitskarten über die zeitliche Achse hinweg haben wir auch eine neuartige Temperaturkarte entworfen, die auf Pose-Informationen basiert und einen statischeren Hintergrund ermöglicht. Umfangreiche Experimente zeigen, dass die vorgeschlagene Methode vielversprechende Ergebnisse bei der Videosynthese erzielen kann, die verschiedene Posen umfassen, wie z.B. Chibi. Projektseite: https://eccv2024tcan.github.io/

15

Verständnis der Robustheit der Rückgewinnung für die rückgewinnungsgestützte Bildunterschriftenerstellung
Understanding Retrieval Robustness for Retrieval-Augmented Image Captioning

Jun 4
ByWenyan Li, Jiaang Li, Rita Ramos, Raphael Tang, Desmond Elliott
7
2

Neueste Fortschritte bei Abruf-erweiterten Modellen für die Bildunterschriftung heben den Nutzen hervor, verwandte Untertitel abzurufen, um effiziente, leichtgewichtige Modelle mit starken Domänen-Transferfähigkeiten zu erhalten. Obwohl diese Modelle den Erfolg der Abruf-Erweiterung zeigen, sind Abrufmodelle in der Praxis noch weit von der Perfektion entfernt: Die abgerufenen Informationen können manchmal das Modell in die Irre führen, was zu inkorrekter Generierung und schlechterer Leistung führt. In diesem Papier analysieren wir die Robustheit eines Abruf-erweiterten Bildunterschriftungsmodells namens SmallCap. Unsere Analyse zeigt, dass das Modell empfindlich auf Tokens reagiert, die in der Mehrheit der abgerufenen Untertitel erscheinen, und die Eingabeattribuierung zeigt, dass diese Tokens wahrscheinlich in die generierte Ausgabe kopiert werden. Aufgrund dieser Erkenntnisse schlagen wir vor, das Modell zu trainieren, indem wir abgerufene Untertitel aus vielfältigeren Sets auswählen. Dies verringert die Wahrscheinlichkeit, dass das Modell lernt, Mehrheitstokens zu kopieren, und verbessert sowohl die Leistung in der Domäne als auch den Domänenübergang.

16

Lehnen Sie ab, wann immer Sie sich unsicher fühlen: Verbesserung der Sicherheit in LLMs durch entkoppeltes Ablehnungstraining.
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training

Jul 12
ByYouliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Jiahao Xu, Tian Liang, Pinjia He, Zhaopeng Tu
6
2

Diese Studie befasst sich mit einer kritischen Lücke in den Sicherheitseinstellungspraktiken für große Sprachmodelle (LLMs), indem sie eine Verweigerungspositionsvoreingenommenheit innerhalb der Sicherheitseinstellungsdaten identifiziert und angeht, die die Fähigkeit der Modelle beeinträchtigt, unsichere Inhalte angemessen abzulehnen zu generieren. Wir stellen einen neuartigen Ansatz vor, das Decoupled Refusal Training (DeRTa), das darauf abzielt, LLMs zu ermächtigen, die Einhaltung schädlicher Aufforderungen an jeder Antwortposition zu verweigern und damit ihre Sicherheitsfähigkeiten signifikant zu verbessern. DeRTa integriert zwei neuartige Komponenten: (1) Maximum-Likelihood-Schätzung (MLE) mit schädlichem Antwortpräfix, das Modelle darauf trainiert, unsichere Inhalte zu erkennen und zu vermeiden, indem ein Segment schädlicher Antwort am Anfang einer sicheren Antwort angehängt wird, und (2) Reinforced Transition Optimization (RTO), das Modelle mit der Fähigkeit ausstattet, konsistent von potenzieller Schädlichkeit zu Sicherheitsverweigerung über die gesamte schädliche Antwortsequenz zu wechseln. Unsere empirische Bewertung, durchgeführt mit den Modellfamilien LLaMA3 und Mistral über sechs Angriffsszenarien, zeigt, dass unsere Methode nicht nur die Modellsicherheit verbessert, ohne die Leistung zu beeinträchtigen, sondern auch bekannte Modelle wie GPT-4 in der Abwehr von Angriffen übertrifft. Wichtig ist, dass unser Ansatz erfolgreich vor kürzlich entwickelten fortgeschrittenen Angriffsmethoden (z. B. CodeAttack) verteidigt, die GPT-4 und LLaMA3-70B-Instruct geknackt haben. Unser Code und unsere Daten finden Sie unter https://github.com/RobustNLP/DeRTa.

17

RRM: Wiederaufleuchtende Assets unter Verwendung von Strahlungsgesteuerter Material Extraktion.
RRM: Relightable assets using Radiance guided Material extraction

Jul 8
ByDiego Gomez, Julien Philip, Adrien Kaiser, Élie Michel
5
2

Die Synthese von NeRFs unter beliebiger Beleuchtung ist in den letzten Jahren zu einem wegweisenden Problem geworden. Aktuelle Bemühungen zur Bewältigung des Problems erfolgen durch die Extraktion physikalisch basierter Parameter, die dann unter beliebiger Beleuchtung gerendert werden können, sind jedoch in Bezug auf die Bandbreite der Szenen, die sie verarbeiten können, begrenzt und behandeln in der Regel glänzende Szenen falsch. Wir schlagen RRM vor, eine Methode, die die Materialien, Geometrie und Umgebungsbeleuchtung einer Szene auch in Gegenwart stark reflektierender Objekte extrahieren kann. Unsere Methode besteht aus einer physikalisch bewussten Strahlungsfeld-Darstellung, die physikalisch basierte Parameter informiert, und einer ausdrucksstarken Umgebungslichtstruktur, die auf einer Laplace-Pyramide basiert. Wir zeigen, dass unsere Beiträge die aktuellsten auf Parameterabrufaufgaben übertreffen und zu hochwertiger Neubeleuchtung und neuartiger Ansichtssynthese auf oberflächlichen Szenen führen.

Jul 12
Jul 15
Jul 16