Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen Seed-Music vor, eine Suite von Musikgenerierungssystemen, die in der Lage sind, hochwertige Musik mit fein abgesteuerter Stilsteuerung zu erzeugen. Unser vereinheitlichter Ansatz nutzt sowohl autoregressive Sprachmodellierung als auch Diffusionsansätze, um zwei wesentliche Musikschöpfungsworkflows zu unterstützen: kontrollierte Musikgenerierung und Postproduktionsbearbeitung. Für kontrollierte Musikgenerierung ermöglicht unser System die Generierung von Vokalmusik mit Leistungssteuerungen aus multimodalen Eingaben, einschließlich Stilbeschreibungen, Audio-Referenzen, Musiknoten und Sprachhinweisen. Für die Postproduktionsbearbeitung bietet es interaktive Tools zur Bearbeitung von Texten und Vokalmelodien direkt im erzeugten Audio. Wir ermutigen die Leser, sich Demo-Audio-Beispiele unter https://team.doubao.com/seed-music anzuhören.
Transformer stehen als Eckpfeiler des modernen Deep Learning. Traditionell verlassen sich diese Modelle auf Mehrschichtperzeptron (MLP)-Schichten, um die Informationen zwischen Kanälen zu mischen. In diesem Paper stellen wir den Kolmogorov-Arnold Transformer (KAT) vor, eine neuartige Architektur, die MLP-Schichten durch Kolmogorov-Arnold Netzwerk (KAN)-Schichten ersetzt, um die Ausdruckskraft und Leistung des Modells zu verbessern. Die Integration von KANs in Transformer ist jedoch keine leichte Aufgabe, insbesondere bei Skalierung. Insbesondere identifizieren wir drei Schlüsselherausforderungen: (C1) Basissfunktion. Die Standard-B-Spline-Funktion, die in KANs verwendet wird, ist nicht für die parallele Berechnung auf moderner Hardware optimiert, was zu langsameren Inferenzgeschwindigkeiten führt. (C2) Parameter- und Berechnungseffizienz. KAN erfordert eine einzigartige Funktion für jedes Ein-Ausgangs-Paar, was die Berechnung extrem groß macht. (C3) Gewichtsinitialisierung. Die Initialisierung der Gewichte in KANs ist besonders herausfordernd aufgrund ihrer erlernbaren Aktivierungsfunktionen, die für das Erreichen der Konvergenz in tiefen neuronalen Netzwerken entscheidend sind. Um die genannten Herausforderungen zu überwinden, schlagen wir drei Schlüssellösungen vor: (S1) Rationale Basis. Wir ersetzen B-Spline-Funktionen durch rationale Funktionen, um die Kompatibilität mit modernen GPUs zu verbessern. Durch die Implementierung in CUDA erreichen wir schnellere Berechnungen. (S2) Gruppen-KAN. Wir teilen die Aktivierungsgewichte durch eine Gruppe von Neuronen, um die Rechenlast zu reduzieren, ohne die Leistung zu beeinträchtigen. (S3) Varianzerhaltende Initialisierung. Wir initialisieren die Aktivierungsgewichte sorgfältig, um sicherzustellen, dass die Aktivierungsvarianz über die Schichten hinweg erhalten bleibt. Mit diesen Designs skaliert KAT effektiv und übertrifft traditionelle MLP-basierte Transformer problemlos.
Transformer-based large Language Models (LLMs) become increasingly important in various domains. However, the quadratic time complexity of attention operation poses a significant challenge for scaling to longer contexts due to the extremely high inference latency and GPU memory consumption for caching key-value (KV) vectors. This paper proposes RetrievalAttention, a training-free approach to accelerate attention computation. To leverage the dynamic sparse property of attention, RetrievalAttention builds approximate nearest neighbor search (ANNS) indexes upon KV vectors in CPU memory and retrieves the most relevant ones via vector search during generation. Due to the out-of-distribution (OOD) between query vectors and key vectors, off-the-shelf ANNS indexes still need to scan O(N) (usually 30% of all keys) data for accurate retrieval, which fails to exploit the high sparsity. RetrievalAttention first identifies the OOD challenge of ANNS-based attention, and addresses it via an attention-aware vector search algorithm that can adapt to queries and only access 1--3% of data, thus achieving a sub-linear time complexity. RetrievalAttention greatly reduces the inference cost of long-context LLM with much lower GPU memory requirements while maintaining the model accuracy. Especially, RetrievalAttention only needs 16GB GPU memory for serving 128K tokens in LLMs with 8B parameters, which is capable of generating one token in 0.188 seconds on a single NVIDIA RTX4090 (24GB).
Wir stellen jina-embeddings-v3 vor, ein neuartiges Texteinbettungsmodell mit 570 Millionen Parametern, das eine Spitzenleistung bei mehrsprachigen Daten und Langkontext-Abrufaufgaben erzielt und Kontextlängen von bis zu 8192 Tokens unterstützt. Das Modell umfasst eine Reihe von aufgabenspezifischen Low-Rank Adaptation (LoRA)-Adaptern zur Erzeugung hochwertiger Einbettungen für die Abfrage-Dokument-Abruf, Clustering, Klassifizierung und Textabstimmung. Darüber hinaus ist das Matrjoschka-Repräsentationslernen in den Schulungsprozess integriert, was eine flexible Trunkierung der Einbettungsdimensionen ermöglicht, ohne die Leistung zu beeinträchtigen. Die Bewertung am MTEB-Benchmark zeigt, dass jina-embeddings-v3 die neuesten proprietären Einbettungen von OpenAI und Cohere bei englischen Aufgaben übertrifft und im Vergleich zu multilingual-e5-large-instruct eine überlegene Leistung bei allen mehrsprachigen Aufgaben erzielt.
Vision-Sprache-Modelle haben sich kürzlich zu vielseitigen Systemen entwickelt, die in der Lage sind, eine hohe Leistung über eine Vielzahl von Aufgaben zu erbringen, wie z.B. Dokumentenverständnis, visuelle Fragebeantwortung und Verankerung, oft in Zero-Shot-Einstellungen. Comics-Verständnis, ein komplexes und vielschichtiges Feld, kann stark von diesen Fortschritten profitieren. Comics als Medium vereinen reiche visuelle und textliche Erzählungen und fordern KI-Modelle heraus, Aufgaben zu bewältigen, die von der Bildklassifizierung über die Objekterkennung und Instanzsegmentierung bis hin zum tieferen Verständnis der Erzählung durch sequenzielle Panels reichen. Die einzigartige Struktur von Comics - gekennzeichnet durch kreative Variationen im Stil, Lesereihenfolge und nicht-lineares Storytelling - stellt jedoch eine Reihe von Herausforderungen dar, die sich von denen in anderen visuell-sprachlichen Bereichen unterscheiden. In dieser Übersicht präsentieren wir eine umfassende Bewertung des Comics-Verständnisses aus Datensatz- und Aufgabenperspektiven. Unsere Beiträge sind fünffach: (1) Wir analysieren die Struktur des Comic-Mediums und erläutern seine charakteristischen kompositorischen Elemente; (2) Wir untersuchen die weit verbreiteten Datensätze und Aufgaben in der Comic-Forschung und betonen ihre Rolle bei der Weiterentwicklung des Feldes; (3) Wir stellen das Layer of Comics Understanding (LoCU)-Framework vor, eine neuartige Taxonomie, die vision-sprachliche Aufgaben innerhalb von Comics neu definiert und die Grundlage für zukünftige Arbeiten legt; (4) Wir bieten eine ausführliche Bewertung und Kategorisierung bestehender Methoden nach dem LoCU-Framework; (5) Schließlich heben wir aktuelle Forschungsherausforderungen hervor und schlagen Richtungen für zukünftige Erkundungen vor, insbesondere im Kontext von Vision-Sprache-Modellen, die auf Comics angewendet werden. Diese Übersicht ist die erste, die ein aufgabenorientiertes Framework für Comics-Intelligenz vorschlägt und zielt darauf ab, zukünftige Forschung zu leiten, indem sie kritische Lücken bei der Datenverfügbarkeit und der Aufgabendefinition anspricht. Ein mit dieser Übersicht verbundenes Projekt ist unter https://github.com/emanuelevivoli/awesome-comics-understanding verfügbar.
Große Sprachmodelle (LLMs) sind in zahlreichen realen Anwendungen unverzichtbar geworden. Leider stellen das Feintuning dieser Modelle im großen Maßstab, insbesondere in föderierten Umgebungen, in denen Datenschutz und Kommunikationseffizienz entscheidend sind, erhebliche Herausforderungen dar. Bestehende Methoden greifen häufig auf parameter-effizientes Feintuning (PEFT) zurück, um Kommunikationsüberlastungen zu mildern, was jedoch in der Regel auf Kosten der Modellgenauigkeit erfolgt. Um diese Einschränkungen zu überwinden, schlagen wir federiertes vollständiges Parameter-Tuning im großen Maßstab für LLMs (Ferret) vor, die erste Methode erster Ordnung mit gemeinsamer Zufälligkeit, um ein skalierbares vollständiges Parameter-Tuning von LLMs über dezentrale Datenquellen hinweg zu ermöglichen, während die Wettbewerbsfähigkeit der Modellgenauigkeit erhalten bleibt. Ferret erreicht dies durch drei Aspekte: (1) Es verwendet weit verbreitete Methoden erster Ordnung für effiziente lokale Aktualisierungen; (2) es projiziert diese Aktualisierungen in einen niedrigdimensionalen Raum, um die Kommunikationsüberlastung erheblich zu reduzieren; und (3) es rekonstruiert lokale Aktualisierungen aus diesem niedrigdimensionalen Raum mit gemeinsamer Zufälligkeit, um eine effektive globale Aggregation aller Parameter zu ermöglichen, was schnelle Konvergenz und wettbewerbsfähige Endleistung gewährleistet. Unsere rigorosen theoretischen Analysen und Erkenntnisse sowie umfangreiche Experimente zeigen, dass Ferret die Skalierbarkeit bestehender Ansätze für föderiertes vollständiges Parameter-Tuning erheblich verbessert, indem hohe Rechenleistungseffizienz, reduzierte Kommunikationsüberlastung und schnelle Konvergenz erreicht werden, während die Modellgenauigkeit wettbewerbsfähig bleibt. Unsere Implementierung ist unter https://github.com/allen4747/Ferret verfügbar.
Wir stellen das Diagramm des Denkens (DoT) vor, ein Framework, das das iterative Argumentieren in großen Sprachmodellen (LLMs) als die Konstruktion eines gerichteten azyklischen Graphen (DAG) innerhalb eines einzigen Modells modelliert. Im Gegensatz zu traditionellen Ansätzen, die Argumentieren als lineare Ketten oder Bäume darstellen, organisiert DoT Vorschläge, Kritiken, Verfeinerungen und Überprüfungen in einer kohärenten DAG-Struktur, die es dem Modell ermöglicht, komplexe Argumentationswege zu erkunden, während die logische Konsistenz aufrechterhalten wird. Jeder Knoten im Diagramm entspricht einer Proposition, die vorgeschlagen, kritisiert, verfeinert oder überprüft wurde, was es dem LLM ermöglicht, sein Argumentieren durch Feedback in natürlicher Sprache iterativ zu verbessern. Durch die Nutzung der autoregressiven Vorhersage des nächsten Tokens mit rollenspezifischen Tokens erleichtert DoT nahtlose Übergänge zwischen Ideenvorschlägen und kritischer Bewertung, wodurch ein reichhaltigeres Feedback als binäre Signale bereitgestellt wird. Darüber hinaus formalisieren wir das DoT-Framework unter Verwendung der Topos-Theorie, was eine mathematische Grundlage bietet, die logische Konsistenz und Stimmigkeit im Argumentationsprozess gewährleistet. Dieser Ansatz verbessert sowohl die Trainings- als auch die Inferenzprozesse innerhalb eines einzelnen LLM, wodurch die Notwendigkeit für mehrere Modelle oder externe Steuermechanismen entfällt. DoT bietet ein konzeptionelles Framework für das Design von Argumentationsspezialisierten Modellen der nächsten Generation, wobei die Effizienz des Trainings, robuste Argumentationsfähigkeiten und theoretische Fundierung im Vordergrund stehen. Der Code ist verfügbar unter https://github.com/diagram-of-thought/diagram-of-thought.
Open-Vokabular-Audio-Sprachmodelle wie CLAP bieten einen vielversprechenden Ansatz für die Zero-Shot-Audio-Klassifizierung (ZSAC), indem sie Klassifizierung mit beliebigen Satz von Kategorien ermöglichen, die mit natürlichsprachlichen Anweisungen spezifiziert sind. In diesem Paper schlagen wir eine einfache, aber effektive Methode vor, um ZSAC mit CLAP zu verbessern. Konkret wechseln wir von der herkömmlichen Methode, die Anweisungen mit abstrakten Kategorielabels verwendet (z.B. Klang einer Orgel), zu Anweisungen, die Klänge mithilfe ihrer inhärenten beschreibenden Merkmale in einem vielfältigen Kontext beschreiben (z.B. Die tiefen und resonanten Töne der Orgel erfüllten das Kathedraleninnere). Um dies zu erreichen, schlagen wir zunächst ReCLAP vor, ein CLAP-Modell, das mit umgeschriebenen Audio-Untertiteln trainiert wurde, um das Verständnis von Klängen in freier Wildbahn zu verbessern. Diese umgeschriebenen Untertitel beschreiben jedes Klangereignis im Originaluntertitel mithilfe seiner einzigartigen diskriminierenden Merkmale. ReCLAP übertrifft alle Basislinien sowohl bei der multimodalen Audio-Text-Retrieval als auch bei ZSAC. Als nächstes schlagen wir zur Verbesserung der Zero-Shot-Audio-Klassifizierung mit ReCLAP die Prompt-Aufstockung vor. Im Gegensatz zur traditionellen Methode, bei der vorgefertigte Vorlagenanweisungen verwendet werden, generieren wir benutzerdefinierte Anweisungen für jedes einzigartige Label im Datensatz. Diese benutzerdefinierten Anweisungen beschreiben zunächst das Klangereignis im Label und setzen sie dann in verschiedenen Szenen ein. Unsere vorgeschlagene Methode verbessert die Leistung von ReCLAP bei ZSAC um 1%-18% und übertrifft alle Basislinien um 1% - 55%.
Die visuelle Frage-Antwort (VQA) hat sich zu einem Schlüsselanwendungsfall in mehreren Anwendungen entwickelt, um die Benutzererfahrung zu verbessern, insbesondere nachdem Vision-Sprach-Modelle (VLMs) gute Ergebnisse bei der Nullschuss-Inferenz erzielt haben. Die Evaluierung verschiedener VLMs für eine Anwendungsanforderung mithilfe eines standardisierten Rahmens in praktischen Umgebungen bleibt jedoch herausfordernd. Dieses Papier stellt einen umfassenden Rahmen zur Evaluierung von VLMs vor, der auf VQA-Aufgaben in praktischen Umgebungen zugeschnitten ist. Wir präsentieren einen neuartigen Datensatz, abgeleitet von etablierten VQA-Benchmarks, der mit Aufgabentypen, Anwendungsbereichen und Wissensarten annotiert ist, drei wesentliche praktische Aspekte, in denen sich Aufgaben unterscheiden können. Wir stellen auch GoEval vor, eine multimodale Evaluierungsmetrik, die unter Verwendung von GPT-4o entwickelt wurde und einen Korrelationsfaktor von 56,71% mit menschlichen Urteilen erreicht. Unsere Experimente mit zehn modernsten VLMs zeigen, dass kein einzelnes Modell universell herausragt, was die angemessene Auswahl zu einer entscheidenden Designentscheidung macht. Eigentumsmodelle wie Gemini-1.5-Pro und GPT-4o-mini übertreffen im Allgemeinen andere, obwohl Open-Source-Modelle wie InternVL-2-8B und CogVLM-2-Llama-3-19B in bestimmten Kontexten wettbewerbsfähige Stärken aufweisen und zusätzliche Vorteile bieten. Diese Studie unterstützt die Auswahl von VLMs basierend auf spezifischen Aufgabenanforderungen und Ressourcenbeschränkungen und kann auch auf andere Vision-Sprach-Aufgaben erweitert werden.
Das Lernen durch Verstärkung von menschlichem Feedback (RLHF) ist eine der Schlüsseltechniken, die großen Sprachmodellen (LLMs) helfen, Anweisungen zu befolgen und hilfreiche und harmlose Antworten zu geben. Während direkte Methoden zur Optimierung von Richtlinien existieren, verwenden modernste LLMs RL-basierte Methoden (in der Regel PPO) in RLHF, um die Richtlinie zu trainieren, gute Antworten zu generieren, die von einem Belohnungsmodell geleitet werden, das aus Präferenzdaten gelernt wurde. Die Hauptherausforderung dieser Methoden besteht in der Ungenauigkeit des Zwischenbelohnungsmodells, insbesondere bei Codegenerierungsaufgaben, die eine lange und komplexe Argumentation erfordern, um eine Antwort zu bewerten. Wir stellen fest, dass die Zuverlässigkeit des Belohnungsmodells je nach den Antworten, die mit verschiedenen Belohnungen versehen sind, variiert. Dies motiviert uns, die Stichproben zu filtern, deren Belohnungen möglicherweise unzuverlässig sind, um das Signal-Rausch-Verhältnis während des Richtlinienlernens zu verbessern, was zu einer Richtlinienfiltration für die Proximal Policy Optimization (PF-PPO) führt. Um eine geeignete Richtlinienfiltrationsstrategie für ein gegebenes Belohnungsmodell auszuwählen, dient der Bestimmtheitskoeffizient (R^2) zwischen Belohnungen und tatsächlichen Punkten bei gefilterten Stichproben als gutes Maß und hilft uns, mehrere vielversprechende Strategien zu finden. Wir führen umfangreiche Experimente durch, um die Wirksamkeit von PF-PPO bei Codegenerierungsaufgaben zu validieren, und stellen fest, dass einige Varianten von PF-PPO sehr effektiv sind und eine neue Spitzenleistung bei 7-Milliarden-Parameter-Modellen auf HumanEval, MBPP und einem neuen und anspruchsvolleren LeetCode Contest-Benchmark erzielen.
Unsere Arbeit untersucht die Wirksamkeit des Einsatzes fortschrittlicher Methoden des maschinellen Lernens zur Lösung von Captchas aus Googles reCAPTCHAv2-System. Wir bewerten die Effektivität automatisierter Systeme bei der Lösung von Captchas, indem wir fortschrittliche YOLO-Modelle für die Bildsegmentierung und Klassifizierung nutzen. Unser Hauptergebnis ist, dass wir 100% der Captchas lösen können, während frühere Arbeiten nur 68-71% gelöst haben. Darüber hinaus legen unsere Ergebnisse nahe, dass es keinen signifikanten Unterschied in der Anzahl der Herausforderungen gibt, die Menschen und Bots lösen müssen, um die Captchas in reCAPTCHAv2 zu bestehen. Dies deutet darauf hin, dass aktuelle KI-Technologien fortschrittliche bildbasierte Captchas ausnutzen können. Wir werfen auch einen Blick unter die Haube von reCAPTCHAv2 und finden Hinweise darauf, dass reCAPTCHAv2 stark auf Cookie- und Browserverlaufsdaten basiert, um zu bewerten, ob ein Benutzer menschlich ist oder nicht. Der Code wird zusammen mit diesem Paper bereitgestellt.
Neueste Studien haben festgestellt, dass Sprachmodelle, die auf reinen Textdatensätzen vortrainiert sind, oft elementares visuelles Wissen, z. B. die Farben alltäglicher Objekte, vermissen lassen. Angespornt durch diese Beobachtung, stellen wir die Frage, ob ein ähnlicher Mangel in Bezug auf auditives Wissen besteht. Um diese Frage zu beantworten, haben wir einen neuen Datensatz namens AuditoryBench erstellt, der aus zwei neuen Aufgaben zur Bewertung auditiven Wissens besteht. Basierend auf unserer Analyse mit dem Benchmark stellen wir fest, dass Sprachmodelle auch unter einem schwerwiegenden Mangel an auditivem Wissen leiden. Um diese Einschränkung zu beheben, schlagen wir AudioBERT vor, eine neuartige Methode zur Erweiterung des auditiven Wissens von BERT durch einen auf Abruf basierenden Ansatz. Zunächst erkennen wir auditive Wissensbereiche in Anfragen, um unser Abrufmodell effizient abzufragen. Anschließend injizieren wir Audio-Wissen in BERT und aktivieren eine Anpassung mit niedrigem Rang für eine effektive Anpassung, wenn Audio-Wissen benötigt wird. Unsere Experimente zeigen, dass AudioBERT sehr effektiv ist und eine überlegene Leistung auf der AuditoryBench erzielt. Der Datensatz und der Code sind verfügbar unter https://github.com/HJ-Ok/AudioBERT.
Die Thorax-Röntgenbildgebung (CXR) ist ein wichtiges diagnostisches Instrument, das in Krankenhäusern zur Beurteilung von Patientenzuständen und zur Überwachung von Veränderungen im Laufe der Zeit eingesetzt wird. Generative Modelle, insbesondere auf Diffusion basierende Modelle, haben das Potenzial gezeigt, realistische synthetische Röntgenbilder zu erzeugen. Diese Modelle konzentrieren sich jedoch hauptsächlich auf die bedingte Generierung unter Verwendung von Einzelzeitpunkt-Daten, d.h. in der Regel CXRs, die zu einem bestimmten Zeitpunkt aufgenommen wurden, mit ihren entsprechenden Berichten, was ihre klinische Nützlichkeit einschränkt, insbesondere für die Erfassung zeitlicher Veränderungen. Um diese Einschränkung zu überwinden, schlagen wir ein neuartiges Framework namens EHRXDiff vor, das zukünftige CXR-Bilder vorhersagt, indem es frühere CXRs mit nachfolgenden medizinischen Ereignissen, z.B. Verschreibungen, Laborwerten usw., integriert. Unser Framework verfolgt und sagt die Krankheitsprogression dynamisch vorher, basierend auf einem latenten Diffusionsmodell, das auf dem vorherigen CXR-Bild und einer Historie von medizinischen Ereignissen beruht. Wir evaluieren umfassend die Leistungsfähigkeit unseres Frameworks in drei Schlüsselaspekten, einschließlich klinischer Konsistenz, demografischer Konsistenz und visueller Realität. Wir zeigen, dass unser Framework hochwertige, realistische zukünftige Bilder erzeugt, die potenzielle zeitliche Veränderungen erfassen, was auf sein Potenzial für die weitere Entwicklung als klinisches Simulationstool hinweist. Dies könnte wertvolle Einblicke für die Patientenüberwachung und Behandlungsplanung im medizinischen Bereich bieten.
Recommender-Systeme nutzen oft Textinformationen, um ihre Vorhersagen zu verbessern, insbesondere in Cold-Start- oder Zero-Shot-Empfehlungsszenarien, in denen traditionelle kollaborative Filteransätze nicht verwendet werden können. In den letzten Jahren wurden viele Ansätze zur Textanalyse von Seitendaten für Empfehlungssysteme vorgeschlagen, wobei Satz-Transformer der prominenteste ist. Diese Modelle sind jedoch darauf trainiert, semantische Ähnlichkeit vorherzusagen, ohne Interaktionsdaten mit verborgenen, für Empfehlungssysteme spezifischen Mustern zu nutzen. In diesem Paper schlagen wir beeFormer vor, ein Framework zur Schulung von Satz-Transformer-Modellen mit Interaktionsdaten. Wir zeigen, dass unsere mit beeFormer trainierten Modelle Wissen zwischen Datensätzen übertragen können und nicht nur semantische Ähnlichkeits-Satz-Transformer, sondern auch traditionelle kollaborative Filtermethoden übertreffen. Wir zeigen auch, dass das Training auf mehreren Datensätzen aus verschiedenen Bereichen Wissen in einem einzigen Modell ansammelt und somit die Möglichkeit bietet, universelle, domänenagnostische Satz-Transformer-Modelle zur Textanalyse für Empfehlungssysteme zu trainieren. Wir veröffentlichen den Quellcode, trainierte Modelle und zusätzliche Details, die die Reproduktion unserer Experimente unter https://github.com/recombee/beeformer ermöglichen.
Die Umwandlung von Graphemen in Phoneme (G2P) ist entscheidend in der Sprachverarbeitung, insbesondere für Anwendungen wie die Sprachsynthese. G2P-Systeme müssen über linguistisches Verständnis und kontextuelles Bewusstsein von Sprachen mit Polyphon-Wörtern und kontextabhängigen Phonemen verfügen. Große Sprachmodelle (LLMs) haben kürzlich ein signifikantes Potenzial in verschiedenen Sprachaufgaben gezeigt, was darauf hindeutet, dass ihr phonetisches Wissen für G2P genutzt werden könnte. In dieser Arbeit bewerten wir die Leistung von LLMs in der G2P-Umwandlung und stellen Prompting- und Post-Processing-Methoden vor, die die LLM-Ausgaben verbessern, ohne zusätzliches Training oder annotierte Daten. Wir präsentieren auch einen Benchmark-Datensatz, der entwickelt wurde, um die G2P-Leistung bei satzebene phonetischen Herausforderungen der persischen Sprache zu bewerten. Unsere Ergebnisse zeigen, dass LLMs durch die Anwendung der vorgeschlagenen Methoden sogar in einer unterrepräsentierten Sprache wie Persisch traditionelle G2P-Tools übertreffen können, was das Potenzial der Entwicklung von LLM-unterstützten G2P-Systemen verdeutlicht.