ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

OmniGen: Vereinigte Bildgenerierung
OmniGen: Unified Image Generation

Sep 17, 2024
Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan, Xingrun Xing, Ruiran Yan, Shuting Wang, Tiejun Huang, Zheng Liu
1167

In dieser Arbeit stellen wir OmniGen vor, ein neues Diffusionsmodell für die einheitliche Bildgenerierung. Im Gegensatz zu beliebten Diffusionsmodellen (z. B. Stabile Diffusion) benötigt OmniGen keine zusätzlichen Module wie ControlNet oder IP-Adapter mehr, um verschiedene Steuerungsbedingungen zu verarbeiten. OmniGen zeichnet sich durch folgende Merkmale aus: 1) Vereinheitlichung: OmniGen zeigt nicht nur Fähigkeiten zur Text-zu-Bild-Generierung, sondern unterstützt auch inhärent andere nachgelagerte Aufgaben wie Bildbearbeitung, subjektgesteuerte Generierung und visuell bedingte Generierung. Darüber hinaus kann OmniGen klassische Computer Vision-Aufgaben bewältigen, indem sie in Bildgenerierungsaufgaben umgewandelt werden, wie Kantenentdeckung und menschliche Poseerkennung. 2) Einfachheit: Die Architektur von OmniGen ist stark vereinfacht, was den Bedarf an zusätzlichen Textencodern eliminiert. Darüber hinaus ist sie im Vergleich zu bestehenden Diffusionsmodellen benutzerfreundlicher und ermöglicht komplexe Aufgaben durch Anweisungen ohne zusätzliche Vorverarbeitungsschritte (z. B. Schätzung menschlicher Posen) zu erledigen, wodurch der Arbeitsablauf der Bildgenerierung erheblich vereinfacht wird. 3) Wissenstransfer: Durch das Lernen in einem vereinheitlichten Format überträgt OmniGen Wissen effektiv über verschiedene Aufgaben hinweg, bewältigt unerkannte Aufgaben und Domänen und zeigt neue Fähigkeiten. Wir untersuchen auch die Begründungsfähigkeiten des Modells und potenzielle Anwendungen des Gedankengangsmechanismus. Diese Arbeit stellt den ersten Versuch eines allgemeinen Bildgenerierungsmodells dar, und es gibt noch mehrere ungelöste Probleme. Wir werden die entsprechenden Ressourcen unter https://github.com/VectorSpaceLab/OmniGen als Open Source zur Verfügung stellen, um Fortschritte in diesem Bereich zu fördern.

NVLM: Offene Frontier-Class Multimodal LLMs
NVLM: Open Frontier-Class Multimodal LLMs

Sep 17, 2024
Wenliang Dai, Nayeon Lee, Boxin Wang, Zhuoling Yang, Zihan Liu, Jon Barker, Tuomas Rintamaki, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
752

Wir stellen NVLM 1.0 vor, eine Familie von Frontier-Class Multimodal Large Language Models (LLMs), die Spitzenleistungen bei Vision-Language-Aufgaben erzielen und führende proprietäre Modelle (z. B. GPT-4o) sowie Open-Access-Modelle (z. B. Llama 3-V 405B und InternVL 2) herausfordern. Bemerkenswerterweise zeigt NVLM 1.0 nach dem multimodalen Training eine verbesserte Leistung bei reinem Text im Vergleich zu seinem LLM-Grundgerüst. In Bezug auf das Modell-Design führen wir einen umfassenden Vergleich zwischen Decoder-Only Multimodal LLMs (z. B. LLaVA) und kreuz-aufmerksamkeitsbasierten Modellen (z. B. Flamingo) durch. Basierend auf den Stärken und Schwächen beider Ansätze schlagen wir eine neuartige Architektur vor, die sowohl die Trainingseffizienz als auch die multimodalen Schlussfolgerungsfähigkeiten verbessert. Darüber hinaus führen wir ein 1-D Tile-Tagging-Design für kachelbasierte dynamische hochauflösende Bilder ein, das die Leistung bei multimodalen Schlussfolgerungen und OCR-bezogenen Aufgaben signifikant steigert. In Bezug auf Trainingsdaten kuratieren wir sorgfältig und stellen detaillierte Informationen zu unseren multimodalen Vortrainings- und überwachten Feinabstimmungsdatensätzen bereit. Unsere Ergebnisse deuten darauf hin, dass die Qualität der Datensätze und die Vielfalt der Aufgaben wichtiger sind als der Umfang, selbst während der Vortrainingsphase, über alle Architekturen hinweg. Bemerkenswert entwickeln wir produktionsreife Multimodalität für die NVLM-1.0-Modelle, die es ihnen ermöglicht, bei Vision-Language-Aufgaben herausragende Leistungen zu erbringen, während sie die Leistung bei reinem Text im Vergleich zu ihren LLM-Grundgerüsten beibehalten oder sogar verbessern. Um dies zu erreichen, erstellen und integrieren wir einen hochwertigen reinen Textdatensatz in das multimodale Training, zusammen mit einer beträchtlichen Menge an multimodalen Mathematik- und Schlussfolgerungsdaten, was zu verbesserten mathematischen und Kodierungsfähigkeiten über die Modalitäten hinweg führt. Um die Forschung auf diesem Gebiet voranzutreiben, veröffentlichen wir die Modellgewichte und werden den Code für die Community Open-Source zur Verfügung stellen: https://nvlm-project.github.io/.

Feinabstimmung von bildbedingten Diffusionsmodellen ist einfacher als gedacht.
Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think

Sep 17, 2024
Gonzalo Martin Garcia, Karim Abou Zeid, Christian Schmidt, Daan de Geus, Alexander Hermans, Bastian Leibe
312

Neuere Arbeiten haben gezeigt, dass große Diffusionsmodelle als äußerst präzise monokulare Tiefenschätzer wiederverwendet werden können, indem die Tiefenschätzung als eine bildbedingte Bildgenerierungsaufgabe formuliert wird. Obwohl das vorgeschlagene Modell Spitzenresultate erzielte, beschränkten hohe Rechenanforderungen aufgrund von mehrstufiger Inferenz seine Anwendung in vielen Szenarien. In diesem Papier zeigen wir, dass die wahrgenommene Ineffizienz durch einen Fehler im Inferenz-Pipeline verursacht wurde, der bisher unbemerkt geblieben ist. Das behobene Modell erreicht vergleichbare Leistungen wie die bisher besten gemeldeten Konfigurationen, ist jedoch mehr als 200-mal schneller. Um die Leistung für nachgelagerte Aufgaben zu optimieren, führen wir ein End-to-End Feintuning auf dem Ein-Schritt-Modell mit aufgabenbezogenen Verlusten durch und erhalten ein deterministisches Modell, das alle anderen auf Diffusion basierenden Tiefen- und Normalenschätzmodelle auf gängigen Zero-Shot-Benchmarks übertrifft. Überraschenderweise stellen wir fest, dass dieses Feintuning-Protokoll auch direkt auf der stabilen Diffusion funktioniert und vergleichbare Leistungen wie aktuelle Spitzenmodelle für auf Diffusion basierende Tiefen- und Normalenschätzungen erreicht, was einige Schlussfolgerungen aus früheren Arbeiten in Frage stellt.

Phidias: Ein generatives Modell zur Erstellung von 3D-Inhalten aus Text, Bild und 3D-Bedingungen mit referenzgestützter Diffusion
Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion

Sep 17, 2024
Zhenwei Wang, Tengfei Wang, Zexin He, Gerhard Hancke, Ziwei Liu, Rynson W. H. Lau
282

Bei der 3D-Modellierung verwenden Designer häufig ein vorhandenes 3D-Modell als Referenz, um neue Modelle zu erstellen. Diese Praxis hat die Entwicklung von Phidias inspiriert, einem neuartigen generativen Modell, das Diffusion für die referenzerweiterte 3D-Generierung verwendet. Anhand eines Bildes nutzt unsere Methode ein abgerufenes oder vom Benutzer bereitgestelltes 3D-Referenzmodell, um den Generierungsprozess zu lenken und somit die Generierungsqualität, Generalisierungsfähigkeit und Steuerbarkeit zu verbessern. Unser Modell integriert drei Schlüsselkomponenten: 1) Meta-ControlNet, das die Konditionierungsstärke dynamisch moduliert, 2) dynamische Referenzrouten, die Fehlausrichtungen zwischen dem Eingabebild und der 3D-Referenz mildern, und 3) selbstreferenzielle Erweiterungen, die ein selbstüberwachtes Training mit einem progressiven Lehrplan ermöglichen. Insgesamt führen diese Entwürfe zu einer klaren Verbesserung gegenüber bestehenden Methoden. Phidias etabliert einen einheitlichen Rahmen für die 3D-Generierung unter Verwendung von Text, Bild und 3D-Bedingungen mit vielseitigen Anwendungen.

Promptriever: Instruktionsgeschulte Retrievers können wie Sprachmodelle aufgefordert werden.
Promptriever: Instruction-Trained Retrievers Can Be Prompted Like Language Models

Sep 17, 2024
Orion Weller, Benjamin Van Durme, Dawn Lawrie, Ashwin Paranjape, Yuhao Zhang, Jack Hessel
242

Instruktionsabgestimmte Sprachmodelle (LM) sind in der Lage, auf imperativische Befehle zu reagieren und bieten im Vergleich zu ihren Basisversionen eine natürlichere Benutzeroberfläche. In dieser Arbeit präsentieren wir Promptriever, das erste Abrufmodell, das wie ein LM aufgefordert werden kann. Um Promptriever zu trainieren, kuratieren und veröffentlichen wir einen neuen instanzbasierten Anleitungsschulungssatz aus MS MARCO, der fast 500.000 Instanzen umfasst. Promptriever erzielt nicht nur starke Leistungen bei Standardabrufaufgaben, sondern befolgt auch Anweisungen. Wir beobachten: (1) große Gewinne (Erreichen des SoTA) bei der Befolgung detaillierter Relevanzanweisungen (+14,3 p-MRR / +3,1 nDCG bei FollowIR), (2) signifikant erhöhte Robustheit gegenüber lexikalischen Auswahlmöglichkeiten/Formulierungen in der Abfrage+Anleitung (+12,9 Robustheit@10 bei InstructIR) und (3) die Fähigkeit, eine Hyperparameter-Suche über Aufforderungen durchzuführen, um die Abrufleistung zuverlässig zu verbessern (+1,4 durchschnittliche Steigerung bei BEIR). Promptriever zeigt, dass Abrufmodelle auf einer pro-Abfrage-Basis mit Aufforderungen gesteuert werden können und bereitet den Weg für zukünftige Arbeiten, die LM-Aufforderungstechniken mit der Informationsabruftechnik in Einklang bringen.

EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer

Sep 17, 2024
Jiarui Hai, Yong Xu, Hao Zhang, Chenxing Li, Helin Wang, Mounya Elhilali, Dong Yu
203

Latent diffusion models have shown promising results in text-to-audio (T2A) generation tasks, yet previous models have encountered difficulties in generation quality, computational cost, diffusion sampling, and data preparation. In this paper, we introduce EzAudio, a transformer-based T2A diffusion model, to handle these challenges. Our approach includes several key innovations: (1) We build the T2A model on the latent space of a 1D waveform Variational Autoencoder (VAE), avoiding the complexities of handling 2D spectrogram representations and using an additional neural vocoder. (2) We design an optimized diffusion transformer architecture specifically tailored for audio latent representations and diffusion modeling, which enhances convergence speed, training stability, and memory usage, making the training process easier and more efficient. (3) To tackle data scarcity, we adopt a data-efficient training strategy that leverages unlabeled data for learning acoustic dependencies, audio caption data annotated by audio-language models for text-to-audio alignment learning, and human-labeled data for fine-tuning. (4) We introduce a classifier-free guidance (CFG) rescaling method that simplifies EzAudio by achieving strong prompt alignment while preserving great audio quality when using larger CFG scores, eliminating the need to struggle with finding the optimal CFG score to balance this trade-off. EzAudio surpasses existing open-source models in both objective metrics and subjective evaluations, delivering realistic listening experiences while maintaining a streamlined model structure, low training costs, and an easy-to-follow training pipeline. Code, data, and pre-trained models are released at: https://haidog-yaqub.github.io/EzAudio-Page/.

Eine umfassende Bewertung quantisierter instruktionsangepasster großer Sprachmodelle: Eine experimentelle Analyse bis zu 405 Milliarden.
A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B

Sep 17, 2024
Jemin Lee, Sihyeong Park, Jinse Kwon, Jihun Oh, Yongin Kwon
173

Frühere Forschungsarbeiten haben quantisierte LLMs anhand begrenzter Metriken wie Perplexität oder einigen grundlegenden Wissensaufgaben und alten Datensätzen bewertet. Darüber hinaus wurden jüngste groß angelegte Modelle wie Llama 3.1 mit bis zu 405 Milliarden Parametern nicht gründlich untersucht. Dieser Artikel bewertet die Leistung von anweisungsgesteuerten LLMs unter Verwendung verschiedener Quantisierungsmethoden (GPTQ, AWQ, SmoothQuant und FP8) für Modelle von 7 Milliarden bis 405 Milliarden Parametern. Anhand von 13 Benchmarks bewerten wir die Leistung in sechs Aufgabentypen: Alltagsverstand-Fragen und -Antworten, Wissens- und Sprachverständnis, Anweisungsfolge, Halluzinationserkennung, Mathematik und Dialog. Unsere wichtigsten Erkenntnisse zeigen, dass (1) die Quantisierung eines größeren LLM auf eine ähnliche Größe wie ein kleineres FP16 LLM in den meisten Benchmarks im Allgemeinen besser abschneidet, außer bei der Halluzinationserkennung und Anweisungsfolge; (2) die Leistung variiert erheblich je nach Quantisierungsmethode, Modellgröße und Bit-Breite, wobei Methoden, die nur Gewichte berücksichtigen, in größeren Modellen oft bessere Ergebnisse liefern; (3) die Schwierigkeit der Aufgabe wirkt sich nicht signifikant auf den Genauigkeitsverlust durch Quantisierung aus; und (4) die Evaluationsmethode MT-Bench hat eine begrenzte Unterscheidungskraft zwischen aktuellen leistungsstarken LLMs.

OSV: Ein Schritt genügt für die Erzeugung von hochwertigen Videos aus Bildern.
OSV: One Step is Enough for High-Quality Image to Video Generation

Sep 17, 2024
Xiaofeng Mao, Zhengkai Jiang, Fu-Yun Wang, Wenbing Zhu, Jiangning Zhang, Hao Chen, Mingmin Chi, Yabiao Wang
142

Video-Diffusionsmodelle haben ein großes Potenzial gezeigt, hochwertige Videos zu generieren, wodurch sie zu einem zunehmend beliebten Schwerpunkt werden. Ihre inhärente iterative Natur führt jedoch zu erheblichen Rechen- und Zeitkosten. Obwohl Anstrengungen unternommen wurden, die Video-Diffusion zu beschleunigen, indem Inferenzschritte reduziert werden (durch Techniken wie Konsistenzdestillation) und GAN-Training (diese Ansätze fallen oft entweder in der Leistung oder im Trainingsstabilität kurz). In dieser Arbeit stellen wir ein Zwei-Stufen-Trainingsrahmen vor, der Konsistenzdestillation effektiv mit GAN-Training kombiniert, um diese Herausforderungen anzugehen. Darüber hinaus schlagen wir ein neuartiges Video-Diskriminator-Design vor, das das Decodieren der Video-Latenzen überflüssig macht und die endgültige Leistung verbessert. Unser Modell ist in der Lage, hochwertige Videos in nur einem Schritt zu erzeugen, mit der Flexibilität, eine Mehrschrittverfeinerung zur weiteren Leistungssteigerung durchzuführen. Unsere quantitative Bewertung am OpenWebVid-1M-Benchmark zeigt, dass unser Modell signifikant besser abschneidet als bestehende Methoden. Bemerkenswert ist, dass unsere 1-Schritt-Leistung (FVD 171,15) die 8-Schritt-Leistung der Konsistenzdestillation basierten Methode, AnimateLCM (FVD 184,79), übertrifft und sich der 25-Schritt-Leistung der fortschrittlichen Stable Video Diffusion (FVD 156,94) annähert.

Über die Grenzen der Handlungsfähigkeit in agentenbasierten Modellen
On the limits of agency in agent-based models

Sep 14, 2024
Ayush Chopra, Shashank Kumar, Nurullah Giray-Kuru, Ramesh Raskar, Arnau Quera-Bofarull
142

Agentenbasierte Modellierung (ABM) zielt darauf ab, das Verhalten komplexer Systeme zu verstehen, indem eine Gruppe von Agenten simuliert wird, die in einer Umgebung handeln und miteinander interagieren. Ihre praktische Nützlichkeit erfordert die Erfassung realistischer Umweltdynamiken und adaptives Agentenverhalten, während gleichzeitig effizient Millionen von Agenten umfassende Populationen simuliert werden. Die jüngsten Fortschritte in großen Sprachmodellen (LLMs) bieten die Möglichkeit, ABMs zu verbessern, indem LLMs als Agenten verwendet werden, wobei das Potenzial besteht, adaptives Verhalten zu erfassen. Die rechnerische Unmöglichkeit der Verwendung von LLMs für große Populationen hat jedoch ihre weit verbreitete Übernahme behindert. In diesem Paper stellen wir AgentTorch vor - ein Framework, das ABMs auf Millionen von Agenten skaliert und dabei das Verhalten von Agenten in hoher Auflösung mithilfe von LLMs erfasst. Wir bewerten den Nutzen von LLMs als ABM-Agenten, indem wir den Kompromiss zwischen Simulationsumfang und individueller Handlungsfähigkeit untersuchen. Anhand der COVID-19-Pandemie als Fallstudie zeigen wir, wie AgentTorch 8,4 Millionen Agenten darstellen kann, die New York City repräsentieren, und dabei den Einfluss von Isolation und Beschäftigungsverhalten auf Gesundheits- und Wirtschaftsergebnisse erfasst. Wir vergleichen die Leistung verschiedener Agentenarchitekturen basierend auf heuristischen und LLM-Agenten bei der Vorhersage von Krankheitswellen und Arbeitslosenquoten. Darüber hinaus präsentieren wir die Fähigkeiten von AgentTorch für retrospektive, kontrafaktische und prospektive Analysen und zeigen auf, wie adaptives Agentenverhalten dazu beitragen kann, die Einschränkungen historischer Daten bei der Gestaltung von Politik zu überwinden. AgentTorch ist ein Open-Source-Projekt, das weltweit aktiv für die Politikgestaltung und wissenschaftliche Entdeckungen eingesetzt wird. Das Framework ist hier verfügbar: github.com/AgentTorch/AgentTorch.

Agiles kontinuierliches Springen in diskontinuierlichen Geländen
Agile Continuous Jumping in Discontinuous Terrains

Sep 17, 2024
Yuxiang Yang, Guanya Shi, Changyi Lin, Xiangyun Meng, Rosario Scalise, Mateo Guaman Castro, Wenhao Yu, Tingnan Zhang, Ding Zhao, Jie Tan, Byron Boots
122

Wir konzentrieren uns auf das agile, kontinuierliche und geländeadaptive Springen von vierbeinigen Robotern in diskontinuierlichen Geländearten wie Treppen und Trittsteinen. Im Gegensatz zum Einzelsprung erfordert das kontinuierliche Springen die präzise Ausführung hochdynamischer Bewegungen über lange Horizonte, was für bestehende Ansätze eine Herausforderung darstellt. Um diese Aufgabe zu bewältigen, entwerfen wir einen hierarchischen Lern- und Steuerungsrahmen, der aus einem erlernten Höhenkarten-Vorhersager für robuste Geländewahrnehmung, einer auf Verstärkungslernen basierenden Bewegungsrichtlinie auf Zentroidenebene für vielseitige und geländeadaptive Planung sowie einem auf Modellen basierenden Beinsteuergerät auf Niedrigstebene für präzises Bewegungstracking besteht. Darüber hinaus minimieren wir die Lücke zwischen Simulation und Realität durch genaue Modellierung der Hardwareeigenschaften. Unser Rahmen ermöglicht es einem Unitree Go1-Roboter, agil und kontinuierlich auf menschengroßen Treppen und vereinzelten Trittsteinen zu springen, soweit uns bekannt ist, zum ersten Mal. Insbesondere kann der Roboter bei jedem Sprung zwei Treppenstufen überqueren und eine 3,5 m lange, 2,8 m hohe, 14-stufige Treppe in 4,5 Sekunden bewältigen. Darüber hinaus übertrifft dieselbe Richtlinie Baselines in verschiedenen anderen Parkour-Aufgaben, wie dem Überspringen einzelner horizontaler oder vertikaler Diskontinuitäten. Experimentvideos finden Sie unter https://yxyang.github.io/jumping_cod/.

Splat-Felder: Neuronale Gauss'sche Splat-Operationen für die spärliche 3D- und 4D-Rekonstruktion.
SplatFields: Neural Gaussian Splats for Sparse 3D and 4D Reconstruction

Sep 17, 2024
Marko Mihajlovic, Sergey Prokudin, Siyu Tang, Robert Maier, Federica Bogo, Tony Tung, Edmond Boyer
92

Die Digitalisierung von 3D-Statikszenen und 4D-dynamischen Ereignissen aus Multi-View-Bildern war lange Zeit eine Herausforderung in den Bereichen Computer Vision und Grafik. In letzter Zeit hat sich das 3D-Gauß-Splatting (3DGS) als eine praktische und skalierbare Rekonstruktionsmethode etabliert, die aufgrund ihrer beeindruckenden Rekonstruktionsqualität, Echtzeit-Rendering-Fähigkeiten und Kompatibilität mit weit verbreiteten Visualisierungstools an Popularität gewonnen hat. Allerdings erfordert die Methode eine beträchtliche Anzahl von Eingabeblickwinkeln, um eine hochwertige Szenenrekonstruktion zu erreichen, was einen signifikanten praktischen Engpass darstellt. Diese Herausforderung ist besonders gravierend bei der Erfassung von dynamischen Szenen, bei denen der Einsatz eines umfangreichen Kamerarrays prohibitiv teuer sein kann. In dieser Arbeit identifizieren wir das Fehlen von räumlicher Autokorrelation von Splat-Merkmalen als einen der Faktoren, die zur suboptimalen Leistung der 3DGS-Technik in spärlichen Rekonstruktionsumgebungen beitragen. Um das Problem anzugehen, schlagen wir eine Optimierungsstrategie vor, die Splat-Merkmale effektiv regelt, indem sie als Ausgaben eines entsprechenden impliziten neuronalen Feldes modelliert werden. Dies führt zu einer konsistenten Verbesserung der Rekonstruktionsqualität in verschiedenen Szenarien. Unser Ansatz bewältigt statische und dynamische Fälle effektiv, wie durch umfangreiche Tests in verschiedenen Setups und Szenenkomplexitäten nachgewiesen wurde.

Messung und Verbesserung der Vertrauenswürdigkeit von LLMs in RAG durch fundierte Zuschreibungen und Lernen, um abzulehnen
Measuring and Enhancing Trustworthiness of LLMs in RAG through Grounded Attributions and Learning to Refuse

Sep 17, 2024
Maojia Song, Shang Hong Sim, Rishabh Bhardwaj, Hai Leong Chieu, Navonil Majumder, Soujanya Poria
72

LLMs sind ein integraler Bestandteil von Abruf-erweiterten Generierungssystemen (RAG). Während viele Studien darauf abzielen, die Qualität von End-to-End-RAG-Systemen zu bewerten, fehlt es an Forschung zur Einschätzung der Eignung eines LLM für die RAG-Aufgabe. Daher führen wir eine neue Metrik, Trust-Score, ein, die eine ganzheitliche Bewertung der Vertrauenswürdigkeit von LLMs in einem RAG-Rahmen bietet. Wir zeigen, dass verschiedene Aufforderungsmethoden, wie das Lernen im Kontext, es nicht effektiv schaffen, LLMs an die RAG-Aufgabe anzupassen. Daher schlagen wir Trust-Align vor, ein Rahmenwerk zur Ausrichtung von LLMs für einen höheren Trust-Score. LLaMA-3-8b, ausgerichtet mit unserer Methode, übertrifft signifikant Open-Source LLMs vergleichbarer Größe in ASQA (um 10,7), QAMPARI (um 29,2) und ELI5 (um 14,9). Wir veröffentlichen unseren Code unter: https://github.com/declare-lab/trust-align.

Menschliche affektive Kognition in Grundlagenmodellen
Human-like Affective Cognition in Foundation Models

Sep 18, 2024
Kanishk Gandhi, Zoe Lynch, Jan-Philipp Fränken, Kayla Patterson, Sharon Wambu, Tobias Gerstenberg, Desmond C. Ong, Noah D. Goodman
62

Das Verständnis von Emotionen ist grundlegend für die menschliche Interaktion und Erfahrung. Menschen können Emotionen leicht aus Situationen oder Gesichtsausdrücken ableiten, Situationen aus Emotionen erschließen und eine Vielzahl anderer affektiver Kognitionen durchführen. Inwieweit ist die moderne KI bei diesen Inferenzen versiert? Wir stellen ein Bewertungsrahmen für die Prüfung affektiver Kognitionen in Grundlagenmodellen vor. Ausgehend von psychologischer Theorie generieren wir 1.280 verschiedene Szenarien, die Beziehungen zwischen Bewertungen, Emotionen, Ausdrücken und Ergebnissen untersuchen. Wir bewerten die Fähigkeiten der Grundlagenmodelle (GPT-4, Claude-3, Gemini-1.5-Pro) und von Menschen (N = 567) unter sorgfältig ausgewählten Bedingungen. Unsere Ergebnisse zeigen, dass Grundlagenmodelle dazu neigen, mit menschlichen Intuitionen übereinzustimmen, indem sie die zwischenmenschliche Übereinstimmung erreichen oder übertreffen. Unter bestimmten Bedingungen sind die Modelle "übermenschlich" - sie sagen menschliche Urteile genauer voraus als der durchschnittliche Mensch. Alle Modelle profitieren von einem kettenartigen Denkprozess. Dies legt nahe, dass Grundlagenmodelle ein menschenähnliches Verständnis von Emotionen und deren Einfluss auf Überzeugungen und Verhalten erlangt haben.

Einzelne Schicht lernbarer Aktivierung für implizite neuronale Repräsentation (SL^{2}A-INR)
Single-Layer Learnable Activation for Implicit Neural Representation (SL^{2}A-INR)

Sep 17, 2024
Moein Heidari, Reza Rezaeian, Reza Azad, Dorit Merhof, Hamid Soltanian-Zadeh, Ilker Hacihaliloglu
52

Die Implizite Neuronale Repräsentation (INR), die ein neuronales Netzwerk nutzt, um Eingabekoordinaten in entsprechende Merkmale umzuwandeln, hat in letzter Zeit signifikante Fortschritte in mehreren auf die Vision bezogenen Bereichen vorangetrieben. Die Leistungsfähigkeit von INR wird jedoch stark von der Wahl der nichtlinearen Aktivierungsfunktion beeinflusst, die in seiner Mehrschichtperzeptron (MLP) Architektur verwendet wird. Mehrere Nichtlinearitäten wurden untersucht; dennoch stoßen aktuelle INRs auf Einschränkungen bei der Erfassung von Hochfrequenzkomponenten, verschiedenen Signaltypen und der Bewältigung inverser Probleme. Wir haben festgestellt, dass diese Probleme durch die Einführung eines Paradigmenwechsels in INRs erheblich gemildert werden können. Wir stellen fest, dass eine Architektur mit erlernbaren Aktivierungen in den anfänglichen Schichten feine Details in den zugrunde liegenden Signalen darstellen kann. Speziell schlagen wir SL^{2}A-INR vor, ein Hybridnetzwerk für INR mit einer erlernbaren Aktivierungsfunktion in einer Schicht, die die Effektivität traditioneller ReLU-basierter MLPs fördert. Unsere Methode übertrifft verschiedene Aufgaben, einschließlich Bildrepräsentation, 3D-Formrekonstruktionen, Inpainting, Superauflösung von Einzelbildern, CT-Rekonstruktion und neuartige Ansichtssynthese. Durch umfassende Experimente setzt SL^{2}A-INR neue Maßstäbe in Genauigkeit, Qualität und Konvergenzraten für INR.

PDMX: Ein umfangreiches öffentliches MusikXML-Datenset im Bereich der symbolischen Musikverarbeitung
PDMX: A Large-Scale Public Domain MusicXML Dataset for Symbolic Music Processing

Sep 17, 2024
Phillip Long, Zachary Novack, Taylor Berg-Kirkpatrick, Julian McAuley
52

Die kürzliche Explosion generativer KI-Musiksysteme hat zahlreiche Bedenken hinsichtlich des Urheberrechts von Daten, der Lizenzierung von Musik von Musikern und des Konflikts zwischen Open-Source-KI und großen Prestigeunternehmen aufgeworfen. Solche Probleme unterstreichen die Notwendigkeit von öffentlich verfügbaren, urheberrechtsfreien musikalischen Daten, von denen es insbesondere für symbolische Musikdaten einen großen Mangel gibt. Um dieses Problem zu lindern, präsentieren wir PDMX: einen umfangreichen Open-Source-Datensatz von über 250.000 MusicXML-Partituren aus dem Partitur-Sharing-Forum MuseScore, was ihn nach unserem Kenntnisstand zum größten verfügbaren urheberrechtsfreien symbolischen Musikdatensatz macht. PDMX enthält zusätzlich eine Fülle von Tag- und Benutzerinteraktionsmetadaten, die es uns ermöglichen, den Datensatz effizient zu analysieren und nach qualitativ hochwertigen nutzergenerierten Partituren zu filtern. Aufgrund der zusätzlichen Metadaten, die unser Datensammlungsprozess bietet, führen wir Experimente zur Mehrspur-Musikerzeugung durch, um zu bewerten, wie verschiedene repräsentative Teilmengen von PDMX zu unterschiedlichem Verhalten in nachgelagerten Modellen führen und wie Benutzerbewertungsstatistiken als wirksames Maß für Datenqualität verwendet werden können. Beispiele finden Sie unter https://pnlong.github.io/PDMX.demo/.

Implizite neuronale Darstellungen mit Fourier-Kolmogorov-Arnold-Netzwerken
Implicit Neural Representations with Fourier Kolmogorov-Arnold Networks

Sep 14, 2024
Ali Mehrabian, Parsa Mojarad Adi, Moein Heidari, Ilker Hacihaliloglu
52

Implizite neuronale Repräsentationen (INRs) verwenden neuronale Netzwerke, um kontinuierliche und auflösungsunabhängige Repräsentationen komplexer Signale mit einer geringen Anzahl von Parametern bereitzustellen. Allerdings gelingt es bestehenden INR-Modellen oft nicht, wichtige Frequenzkomponenten zu erfassen, die spezifisch für jede Aufgabe sind. Um dieses Problem zu lösen, schlagen wir in diesem Papier ein Fourier-Kolmogorov-Arnold-Netzwerk (FKAN) für INRs vor. Das vorgeschlagene FKAN verwendet erlernbare Aktivierungsfunktionen, die als Fourier-Reihen im ersten Layer modelliert sind, um effektiv die frequenzspezifischen Komponenten der Aufgabe zu steuern und zu erlernen. Darüber hinaus verbessern die Aktivierungsfunktionen mit erlernbaren Fourier-Koeffizienten die Fähigkeit des Netzwerks, komplexe Muster und Details zu erfassen, was für hochauflösende und hochdimensionale Daten vorteilhaft ist. Experimentelle Ergebnisse zeigen, dass unser vorgeschlagenes FKAN-Modell drei state-of-the-art Basisschemata übertrifft und den Spitzen-Signal-Rausch-Verhältnis (PSNR) und den strukturellen Ähnlichkeitsindex (SSIM) für die Bildrepräsentationsaufgabe sowie das Schnitt-über-Union (IoU) für die 3D-Belegungsvolumenrepräsentationsaufgabe verbessert.

Sep 17
Sep 18
Sep 19