ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

RepText: Visuellen Text durch Replizierung darstellen
RepText: Rendering Visual Text via Replicating

Apr 28, 2025
Haofan Wang, Yujia Xu, Yimeng Li, Junchen Li, Chaowei Zhang, Jing Wang, Kejia Yang, Zhibo Chen
314

Obwohl zeitgenössische Text-zu-Bild-Generierungsmodelle bemerkenswerte Durchbrüche bei der Erzeugung visuell ansprechender Bilder erzielt haben, bleibt ihre Fähigkeit, präzise und flexible typografische Elemente, insbesondere nicht-lateinische Alphabete, zu generieren, eingeschränkt. Um diese Einschränkungen zu überwinden, gehen wir von einer naiven Annahme aus, dass Textverständnis lediglich eine hinreichende, aber keine notwendige Bedingung für die Textdarstellung ist. Basierend darauf präsentieren wir RepText, das darauf abzielt, vortrainierte monolinguale Text-zu-Bild-Generierungsmodelle mit der Fähigkeit auszustatten, mehrsprachige visuelle Texte in benutzerdefinierten Schriftarten präzise – oder genauer gesagt, zu replizieren – ohne die Notwendigkeit, sie tatsächlich zu verstehen. Konkret übernehmen wir die Einstellungen von ControlNet und integrieren zusätzlich sprachunabhängige Glyphen und Positionen des gerenderten Textes, um die Erzeugung harmonischer visueller Texte zu ermöglichen, wodurch Benutzer den Textinhalt, die Schriftart und die Position nach ihren Bedürfnissen anpassen können. Um die Genauigkeit zu verbessern, wird ein textueller Wahrnehmungsverlust zusammen mit dem Diffusionsverlust eingesetzt. Darüber hinaus initialisieren wir in der Inferenzphase direkt mit einem verrauschten Glyphen-Latent anstelle einer zufälligen Initialisierung und verwenden Regionsmasken, um die Feature-Injektion auf den Textbereich zu beschränken und somit Verzerrungen des Hintergrunds zu vermeiden. Wir führten umfangreiche Experimente durch, um die Wirksamkeit unseres RepText im Vergleich zu bestehenden Arbeiten zu überprüfen. Unser Ansatz übertrifft bestehende Open-Source-Methoden und erreicht vergleichbare Ergebnisse zu nativen mehrsprachigen Closed-Source-Modellen. Um fair zu sein, diskutieren wir am Ende auch ausführlich seine Grenzen.

Klinisches Wissen in LLMs lässt sich nicht auf menschliche Interaktionen übertragen.
Clinical knowledge in LLMs does not translate to human interactions

Apr 26, 2025
Andrew M. Bean, Rebecca Payne, Guy Parsons, Hannah Rose Kirk, Juan Ciro, Rafael Mosquera, Sara Hincapié Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko, Luc Rocher, Adam Mahdi
265

Globale Gesundheitsdienstleister erkunden den Einsatz von großen Sprachmodellen (LLMs), um der Öffentlichkeit medizinische Ratschläge zu bieten. LLMs erzielen mittlerweile nahezu perfekte Ergebnisse bei medizinischen Zulassungsprüfungen, doch dies bedeutet nicht zwangsläufig eine genaue Leistung in realen Anwendungsszenarien. Wir haben in einer kontrollierten Studie mit 1.298 Teilnehmern getestet, ob LLMs Mitglieder der Öffentlichkeit dabei unterstützen können, zugrunde liegende Erkrankungen zu identifizieren und einen Handlungsweg (Disposition) in zehn medizinischen Szenarien zu wählen. Die Teilnehmer wurden zufällig zugewiesen, entweder Unterstützung von einem LLM (GPT-4o, Llama 3, Command R+) oder einer Quelle ihrer Wahl (Kontrollgruppe) zu erhalten. Allein getestet, bewältigen die LLMs die Szenarien präzise, indem sie in 94,9 % der Fälle die Erkrankungen korrekt identifizierten und in durchschnittlich 56,3 % die richtige Disposition wählten. Allerdings identifizierten Teilnehmer, die dieselben LLMs nutzten, relevante Erkrankungen in weniger als 34,5 % der Fälle und die richtige Disposition in weniger als 44,2 %, was nicht besser war als in der Kontrollgruppe. Wir identifizieren die Benutzerinteraktionen als eine Herausforderung für den Einsatz von LLMs in der medizinischen Beratung. Standard-Benchmarks für medizinisches Wissen und simulierte Patientengespräche sagen die von uns bei menschlichen Teilnehmern festgestellten Fehler nicht voraus. Für die Zukunft empfehlen wir systematische Benutzertests, um die interaktiven Fähigkeiten vor einem öffentlichen Einsatz im Gesundheitswesen zu evaluieren.

LLM-gestützte GUI-Agenten in der Telefonautomatisierung: Fortschritte und Perspektiven im Überblick
LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects

Apr 28, 2025
Guangyi Liu, Pengxiang Zhao, Liang Liu, Yaxuan Guo, Han Xiao, Weifeng Lin, Yuxiang Chai, Yue Han, Shuai Ren, Hao Wang, Xiaoyu Liang, Wenhao Wang, Tianze Wu, Linghao Li, Hao Wang, Guanjing Xiong, Yong Liu, Hongsheng Li
224

Mit dem rasanten Aufstieg großer Sprachmodelle (LLMs) hat die Telefonautomatisierung transformative Veränderungen durchlaufen. Dieses Papier bietet eine systematische Übersicht über LLM-gesteuerte Telefon-GUI-Agenten und beleuchtet deren Entwicklung von skriptbasierter Automatisierung hin zu intelligenten, adaptiven Systemen. Zunächst werden die zentralen Herausforderungen kontextualisiert: (i) begrenzte Allgemeingültigkeit, (ii) hoher Wartungsaufwand und (iii) schwache Absichtserkennung, und es wird gezeigt, wie LLMs diese Probleme durch fortschrittliches Sprachverständnis, multimodale Wahrnehmung und robuste Entscheidungsfindung adressieren. Anschließend wird eine Taxonomie vorgestellt, die grundlegende Agenten-Frameworks (Einzelagent, Multiagent, Plan-then-Act), Modellierungsansätze (Prompt-Engineering, trainingsbasierte Methoden) sowie wesentliche Datensätze und Benchmarks abdeckt. Darüber hinaus werden aufgabenspezifische Architekturen, überwachte Feinabstimmung und Reinforcement-Learning-Strategien detailliert beschrieben, die Benutzerabsichten und GUI-Operationen verbinden. Abschließend werden offene Herausforderungen wie die Diversität von Datensätzen, die Effizienz der On-Device-Bereitstellung, benutzerzentrierte Anpassung und Sicherheitsbedenken diskutiert, wobei zukunftsweisende Einblicke in dieses sich schnell entwickelnde Feld gegeben werden. Durch die Bereitstellung einer strukturierten Übersicht und die Identifizierung dringender Forschungslücken dient dieses Papier als maßgebliche Referenz für Forscher und Praktiker, die LLMs bei der Entwicklung skalierbarer, benutzerfreundlicher Telefon-GUI-Agenten nutzen möchten.

Mem0: Entwicklung produktionsreifer KI-Agenten mit skalierbarem Langzeitgedächtnis
Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory

Apr 28, 2025
Prateek Chhikara, Dev Khant, Saket Aryan, Taranjeet Singh, Deshraj Yadav
182

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten bei der Erzeugung kontextuell kohärenter Antworten gezeigt, doch ihre festen Kontextfenster stellen grundlegende Herausforderungen für die Aufrechterhaltung der Konsistenz über längere, mehrteilige Dialoge dar. Wir stellen Mem0 vor, eine skalierbare, speicherzentrierte Architektur, die dieses Problem durch die dynamische Extraktion, Konsolidierung und Abfrage relevanter Informationen aus laufenden Gesprächen adressiert. Auf dieser Grundlage aufbauend, schlagen wir eine erweiterte Variante vor, die graphenbasierte Speicherdarstellungen nutzt, um komplexe Beziehungsstrukturen zwischen Konversationselementen zu erfassen. Durch umfassende Bewertungen auf dem LOCOMO-Benchmark vergleichen wir unsere Ansätze systematisch mit sechs Baseline-Kategorien: (i) etablierte speicheraugmentierte Systeme, (ii) abrufaugmentierte Generierung (RAG) mit variierenden Chunk-Größen und k-Werten, (iii) ein Vollkontext-Ansatz, der den gesamten Gesprächsverlauf verarbeitet, (iv) eine Open-Source-Speicherlösung, (v) ein proprietäres Modellsystem und (vi) eine dedizierte Speicherverwaltungsplattform. Empirische Ergebnisse zeigen, dass unsere Methoden durchweg alle bestehenden Speichersysteme in vier Fragentypen übertreffen: Single-Hop, zeitliche, Multi-Hop und offene Domänen. Insbesondere erzielt Mem0 eine relative Verbesserung von 26 % im LLM-as-a-Judge-Metrik gegenüber OpenAI, während Mem0 mit Graphenspeicher eine um etwa 2 % höhere Gesamtpunktzahl als die Basiskonfiguration erreicht. Neben Genauigkeitssteigerungen reduzieren wir auch deutlich den Rechenaufwand im Vergleich zur Vollkontext-Methode. Insbesondere erreicht Mem0 eine um 91 % niedrigere p95-Latenz und spart mehr als 90 % der Token-Kosten, was ein überzeugendes Gleichgewicht zwischen fortgeschrittenen Denkfähigkeiten und praktischen Einsatzbeschränkungen bietet. Unsere Ergebnisse unterstreichen die entscheidende Rolle strukturierter, persistenter Speichermechanismen für langfristige Gesprächskohärenz und ebnen den Weg für zuverlässigere und effizientere LLM-gesteuerte KI-Agenten.

SPC: Entwicklung eines Self-Play-Kritikers durch adversariale Spiele für das Reasoning von LLMs
SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning

Apr 27, 2025
Jiaqi Chen, Bang Zhang, Ruotian Ma, Peisong Wang, Xiaodan Liang, Zhaopeng Tu, Xiaolong Li, Kwan-Yee K. Wong
182

Die Bewertung der schrittweisen Zuverlässigkeit von Reasoning-Prozessen großer Sprachmodelle (LLMs), wie beispielsweise Chain-of-Thought, bleibt aufgrund der Schwierigkeit und der Kosten für die Beschaffung hochwertiger schrittweiser Supervision eine Herausforderung. In diesem Artikel stellen wir Self-Play Critic (SPC) vor, einen neuartigen Ansatz, bei dem ein Kritiker-Modell seine Fähigkeit zur Bewertung von Reasoning-Schritten durch adversarische Selbstspielspiele entwickelt, wodurch die Notwendigkeit manueller schrittweiser Annotation entfällt. SPC beinhaltet das Feinabstimmen zweier Kopien eines Basismodells, die zwei Rollen übernehmen: ein „hinterlistiger Generator“, der absichtlich fehlerhafte Schritte erzeugt, die schwer zu erkennen sein sollen, und ein „Kritiker“, der die Korrektheit der Reasoning-Schritte analysiert. Diese beiden Modelle treten in ein adversarisches Spiel ein, bei dem der Generator versucht, den Kritiker zu täuschen, während das Kritiker-Modell bestrebt ist, die Fehler des Generators zu identifizieren. Mithilfe von Verstärkungslernen basierend auf den Spielergebnissen verbessern sich die Modelle iterativ; der Gewinner jeder Konfrontation erhält eine positive Belohnung und der Verlierer eine negative, was eine kontinuierliche Selbstevolution vorantreibt. Experimente auf drei Reasoning-Prozess-Benchmarks (ProcessBench, PRM800K, DeltaBench) zeigen, dass unser SPC seine Fehlererkennungsfähigkeiten schrittweise verbessert (z. B. steigt die Genauigkeit auf ProcessBench von 70,8 % auf 77,7 %) und starke Baselines, einschließlich des destillierten R1-Modells, übertrifft. Darüber hinaus verbessert die Anwendung von SPC zur Steuerung der Testzeit-Suche verschiedener LLMs deren mathematische Reasoning-Leistung auf MATH500 und AIME2024 signifikant und übertrifft dabei state-of-the-art Prozess-Belohnungsmodelle.

CipherBank: Erforschung der Grenzen von LLM-Schlussfolgerungsfähigkeiten durch Kryptografie-Herausforderungen
CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges

Apr 27, 2025
Yu Li, Qizhi Pei, Mengyuan Sun, Honglin Lin, Chenlin Ming, Xin Gao, Jiang Wu, Conghui He, Lijun Wu
174

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten demonstriert, insbesondere die jüngsten Fortschritte im Bereich des logischen Denkens, wie o1 und o3, die die Grenzen der KI erweitern. Trotz dieser beeindruckenden Erfolge in Mathematik und Programmierung sind die Denkfähigkeiten von LLMs in Bereichen, die kryptografisches Fachwissen erfordern, noch weitgehend unerforscht. In diesem Artikel stellen wir CipherBank vor, einen umfassenden Benchmark, der entwickelt wurde, um die Denkfähigkeiten von LLMs bei kryptografischen Entschlüsselungsaufgaben zu bewerten. CipherBank umfasst 2.358 sorgfältig gestaltete Probleme, die 262 einzigartige Klartexte in 5 Domänen und 14 Subdomänen abdecken, mit einem Fokus auf privatsphäresensiblen und realweltlichen Szenarien, die Verschlüsselung erfordern. Aus kryptografischer Sicht integriert CipherBank 3 Hauptkategorien von Verschlüsselungsmethoden, die 9 verschiedene Algorithmen umfassen, von klassischen Chiffren bis hin zu benutzerdefinierten kryptografischen Techniken. Wir bewerten state-of-the-art LLMs auf CipherBank, z.B. GPT-4o, DeepSeek-V3 und fortschrittliche, auf logisches Denken spezialisierte Modelle wie o1 und DeepSeek-R1. Unsere Ergebnisse zeigen erhebliche Lücken in den Denkfähigkeiten nicht nur zwischen allgemeinen Chat-LLMs und auf logisches Denken spezialisierten LLMs, sondern auch in der Leistung aktueller, auf logisches Denken spezialisierter Modelle bei klassischen kryptografischen Entschlüsselungsaufgaben, was die Herausforderungen unterstreicht, die diese Modelle beim Verstehen und Manipulieren verschlüsselter Daten haben. Durch detaillierte Analysen und Fehleruntersuchungen liefern wir mehrere Schlüsselbeobachtungen, die die Grenzen und potenziellen Verbesserungsbereiche von LLMs im kryptografischen Denken beleuchten. Diese Erkenntnisse unterstreichen die Notwendigkeit kontinuierlicher Fortschritte in den Denkfähigkeiten von LLMs.

Benchmarking multimodales mathematisches Denken mit expliziter visueller Abhängigkeit
Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

Apr 24, 2025
Zhikai Wang, Jiashuo Sun, Wenqi Zhang, Zhiqiang Hu, Xin Li, Fan Wang, Deli Zhao
133

Jüngste Fortschritte bei großen visuell-sprachlichen Modellen (Large Vision-Language Models, LVLMs) haben deren Fähigkeit, visuelle und sprachliche Informationen zu integrieren, erheblich verbessert, was zu nahezu menschlicher Kompetenz in Aufgaben wie Objekterkennung, Bildbeschreibung und visueller Fragebeantwortung führt. Aktuelle Benchmarks konzentrieren sich jedoch typischerweise auf wissenszentrierte Bewertungen, die domänenspezifische Expertise bewerten, und vernachlässigen oft die Kernfähigkeit, grundlegende mathematische Elemente und visuelle Konzepte zu verstehen. Wir identifizieren eine Lücke bei der Bewertung von mathematischen Problemen auf elementarem Niveau, die explizite visuelle Abhängigkeiten erfordern – Modelle müssen dabei mehrere Bilder erkennen, integrieren und darüber schlussfolgern, während sie Alltagswissen einbeziehen, was alles entscheidend für die Weiterentwicklung hin zu breiteren Fähigkeiten der künstlichen allgemeinen Intelligenz (AGI) ist. Um diese Lücke zu schließen, führen wir VCBENCH ein, einen umfassenden Benchmark für multimodales mathematisches Denken mit expliziten visuellen Abhängigkeiten. VCBENCH umfasst 1.720 Probleme aus sechs kognitiven Domänen, die 6.697 Bilder (durchschnittlich 3,9 pro Frage) enthalten, um die Schlussfolgerung über mehrere Bilder sicherzustellen. Wir bewerten 26 state-of-the-art LVLMs auf VCBENCH und zeigen erhebliche Leistungsunterschiede auf, wobei selbst die besten Modelle eine Genauigkeit von 50 % nicht überschreiten können. Unsere Ergebnisse unterstreichen die anhaltenden Herausforderungen bei der visuell-mathematischen Integration und weisen auf zukünftige Entwicklungsmöglichkeiten für LVLMs hin.

Gruppenbasiertes Downsampling mit äquivarianter Anti-Aliasing-Filterung
Group Downsampling with Equivariant Anti-aliasing

Apr 24, 2025
Md Ashiqur Rahman, Raymond A. Yeh
92

Downsampling-Schichten sind entscheidende Bausteine in CNN-Architekturen, die dazu beitragen, das rezeptive Feld für das Lernen hochrangiger Merkmale zu vergrößern und den Speicher- und Rechenaufwand des Modells zu reduzieren. In dieser Arbeit untersuchen wir die Verallgemeinerung der gleichmäßigen Downsampling-Schicht für gruppenäquivariante Architekturen, z.B. G-CNNs. Das heißt, wir streben an, Signale (Feature-Maps) auf allgemeinen endlichen Gruppen mit Anti-Aliasing herunterzuskalieren. Dies umfasst Folgendes: (a) Bei einer gegebenen endlichen Gruppe und einer Downsampling-Rate präsentieren wir einen Algorithmus, um eine geeignete Untergruppe auszuwählen. (b) Bei einer gegebenen Gruppe und Untergruppe untersuchen wir das Konzept der Bandbegrenzung und schlagen vor, wie Anti-Aliasing durchgeführt werden kann. Bemerkenswerterweise verallgemeinert unsere Methode das Konzept des Downsamplings basierend auf der klassischen Abtasttheorie. Wenn das Signal auf einer zyklischen Gruppe liegt, d.h. periodisch ist, stellt unsere Methode das Standard-Downsampling eines idealen Tiefpassfilters gefolgt von einer Unterabtastoperation wieder her. Schließlich führten wir Experimente zu Bildklassifizierungsaufgaben durch, die zeigen, dass die vorgeschlagene Downsampling-Operation die Genauigkeit verbessert, die Äquivarianz besser erhält und die Modellgröße reduziert, wenn sie in G-äquivariante Netzwerke integriert wird.

MMInference: Beschleunigung der Vorabfüllung für langkontextuelle VLMs durch modalitätsbewusste Permutations-Sparse-Attention
MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention

Apr 22, 2025
Yucheng Li, Huiqiang Jiang, Chengruidong Zhang, Qianhui Wu, Xufang Luo, Surin Ahn, Amir H. Abdi, Dongsheng Li, Jianfeng Gao, Yuqing Yang, Lili Qiu
92

Die Integration von Langkontext-Fähigkeiten mit visuellem Verständnis erschließt ein bisher unerreichtes Potenzial für Vision-Language-Modelle (VLMs). Allerdings bleibt die quadratische Aufmerksamkeitskomplexität während der Pre-Filling-Phase ein erhebliches Hindernis für den praktischen Einsatz. Um diese Einschränkung zu überwinden, führen wir MMInference (Multimodality Million Tokens Inference) ein, eine dynamische Sparse-Attention-Methode, die die Pre-Filling-Phase für Langkontext-Multimodal-Eingaben beschleunigt. Unsere Analyse zeigt zunächst, dass die zeitliche und räumliche Lokalität von Videoeingaben zu einem einzigartigen Sparse-Muster, dem Grid-Muster, führt. Gleichzeitig weisen VLMs deutlich unterschiedliche Sparse-Verteilungen über verschiedene Modalitäten hinweg auf. Wir stellen eine permutationsbasierte Methode vor, um das einzigartige Grid-Muster zu nutzen und Modalitätsgrenzprobleme zu bewältigen. Durch die Offline-Suche nach den optimalen Sparse-Mustern für jeden Kopf konstruiert MMInference die Sparse-Verteilung dynamisch basierend auf der Eingabe. Wir bieten auch optimierte GPU-Kernel für effiziente Sparse-Berechnungen an. Bemerkenswerterweise integriert sich MMInference nahtlos in bestehende VLM-Pipelines, ohne dass Modifikationen oder Feinabstimmungen am Modell erforderlich sind. Experimente auf Multimodal-Benchmarks – einschließlich Video-QA, Captioning, VisionNIAH und Mixed-Modality NIAH – mit state-of-the-art Langkontext-VLMs (LongVila, LlavaVideo, VideoChat-Flash, Qwen2.5-VL) zeigen, dass MMInference die Pre-Filling-Phase bei 1M Tokens um bis zu 8,3x beschleunigt, während die Genauigkeit erhalten bleibt. Unser Code ist unter https://aka.ms/MMInference verfügbar.

NORA: Ein kleines, quelloffenes Generalisten-Modell für Vision, Sprache und Aktion für verkörperte Aufgaben
NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

Apr 28, 2025
Chia-Yu Hung, Qi Sun, Pengfei Hong, Amir Zadeh, Chuan Li, U-Xuan Tan, Navonil Majumder, Soujanya Poria
72

Bestehende Visual-Language-Action (VLA)-Modelle haben vielversprechende Leistungen in Zero-Shot-Szenarien gezeigt und beeindruckende Fähigkeiten bei der Aufgabenausführung und dem logischen Denken bewiesen. Eine wesentliche Herausforderung ergibt sich jedoch aus den Einschränkungen der visuellen Kodierung, die zu Fehlern bei Aufgaben wie dem Greifen von Objekten führen können. Darüber hinaus leiden diese Modelle typischerweise unter einem hohen Rechenaufwand aufgrund ihrer großen Größe, die oft 7B Parameter übersteigt. Während diese Modelle im logischen Denken und der Aufgabenplanung hervorragend abschneiden, macht der erhebliche Rechenaufwand sie für Echtzeit-Roboterumgebungen unpraktisch, in denen Geschwindigkeit und Effizienz von entscheidender Bedeutung sind. Um die Einschränkungen bestehender VLA-Modelle zu adressieren, schlagen wir NORA vor, ein 3B-Parameter-Modell, das darauf abzielt, den Rechenaufwand zu reduzieren und gleichzeitig eine starke Aufgabenleistung beizubehalten. NORA übernimmt das Qwen-2.5-VL-3B-Multimodell als Grundlage und nutzt dessen überlegenes visuell-semantisches Verständnis, um das visuelle Denken und die Handlungsverankerung zu verbessern. Zusätzlich wird unser Modell mit 970k realen Roboter-Demonstrationen trainiert und mit dem FAST+-Tokenizer für die effiziente Generierung von Aktionssequenzen ausgestattet. Experimentelle Ergebnisse zeigen, dass NORA bestehende großskalige VLA-Modelle übertrifft, eine bessere Aufgabenleistung bei deutlich reduziertem Rechenaufwand erzielt und es somit zu einer praktischeren Lösung für die Echtzeit-Roboterautonomie macht.

Vielseitiges Framework zur Songgenerierung mit promptbasierter Steuerung
Versatile Framework for Song Generation with Prompt-based Control

Apr 27, 2025
Yu Zhang, Wenxiang Guo, Changhao Pan, Zhiyuan Zhu, Ruiqi Li, Jingyu Lu, Rongjie Huang, Ruiyuan Zhang, Zhiqing Hong, Ziyue Jiang, Zhou Zhao
62

Die Songgenerierung konzentriert sich darauf, kontrollierbare, hochwertige Songs basierend auf verschiedenen Eingabeaufforderungen zu erzeugen. Allerdings haben bestehende Methoden Schwierigkeiten, Gesang und Begleitung mit prompt-basierter Kontrolle und korrekter Ausrichtung zu generieren. Zudem unterstützen sie verschiedene Aufgaben nur unzureichend. Um diese Herausforderungen zu bewältigen, stellen wir VersBand vor, ein Multi-Task-Songgenerierungsframework zur Synthese von hochwertigen, ausgerichteten Songs mit prompt-basierter Kontrolle. VersBand besteht aus folgenden Hauptmodellen: 1) VocalBand, ein entkoppeltes Modell, das die Flow-Matching-Methode zur Generierung von Gesangsstilen, Tonhöhen und Mel-Spektrogrammen nutzt und so eine schnelle, hochwertige Gesangsgenerierung mit Stilkontrolle ermöglicht. 2) AccompBand, ein Flow-basiertes Transformer-Modell, integriert das Band-MOE, das geeignete Experten für verbesserte Qualität, Ausrichtung und Kontrolle auswählt. Dieses Modell ermöglicht die Generierung von kontrollierbaren, hochwertigen Begleitungen, die mit dem Gesang abgestimmt sind. 3) Zwei Generierungsmodelle, LyricBand für Texte und MelodyBand für Melodien, tragen zum umfassenden Multi-Task-Songgenerierungssystem bei und ermöglichen eine umfangreiche Kontrolle basierend auf mehreren Eingabeaufforderungen. Experimentelle Ergebnisse zeigen, dass VersBand in mehreren Songgenerierungsaufgaben sowohl in objektiven als auch subjektiven Metriken besser abschneidet als Baseline-Modelle. Audio-Beispiele sind unter https://VersBand.github.io verfügbar.

TrustGeoGen: Skalierbare und formal verifizierte Daten-Engine für vertrauenswürdige multimodale geometrische Problemlösung
TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving

Apr 22, 2025
Daocheng Fu, Zijun Chen, Renqiu Xia, Qi Liu, Yuan Feng, Hongbin Zhou, Renrui Zhang, Shiyang Feng, Peng Gao, Junchi Yan, Botian Shi, Bo Zhang, Yu Qiao
62

Das Lösen mathematisch-geometrischer Probleme (GPS) erfordert oft die effektive Integration multimodaler Informationen und eine überprüfbare logische Kohärenz. Trotz der raschen Entwicklung großer Sprachmodelle im Bereich der allgemeinen Problemlösung bleiben sowohl methodische als auch Benchmark-Fragen ungelöst, insbesondere angesichts der Tatsache, dass bestehende synthetische GPS-Benchmarks oft nicht selbst überprüft sind und aufgrund der Illusion von LLMs Rauschen und widersprüchliche Informationen enthalten. In diesem Artikel schlagen wir eine skalierbare Datenengine namens TrustGeoGen zur Problemgenerierung vor, die durch formale Verifizierung einen prinzipiellen Benchmark bietet, was unserer Ansicht nach die Grundlage für die weitere Entwicklung von Methoden für GPS legt. Die Engine synthetisiert geometrische Daten durch vier Schlüsselinnovationen: 1) multimodal abgestimmte Generierung von Diagrammen, textuellen Beschreibungen und schrittweisen Lösungen; 2) formale Verifizierung, die regelkonforme Lösungswege sicherstellt; 3) ein Bootstrapping-Mechanismus, der eine Komplexitätssteigerung durch rekursive Zustandsgenerierung ermöglicht; und 4) unsere entwickelten GeoExplore-Serienalgorithmen, die gleichzeitig Mehrfachlösungsvarianten und selbstreflektive Backtracking-Spuren erzeugen. Durch formale logische Verifizierung produziert TrustGeoGen den GeoTrust-200K-Datensatz mit garantierter Modalitätsintegrität sowie den GeoTrust-test-Testdatensatz. Experimente zeigen, dass state-of-the-art Modelle auf GeoTrust-test nur eine Genauigkeit von 49,17\% erreichen, was die Strenge der Bewertung demonstriert. Entscheidend ist, dass Modelle, die auf GeoTrust trainiert wurden, eine OOD-Generalisierung auf GeoQA erreichen und logische Inkonsistenzen im Vergleich zu Pseudo-Labels, die von OpenAI-o1 annotiert wurden, signifikant reduzieren. Unser Code ist verfügbar unter https://github.com/Alpha-Innovator/TrustGeoGen.

ICL CIPHERS: Quantifizierung des „Lernens“ beim In-Context-Lernen durch Substitutionschiffren
ICL CIPHERS: Quantifying "Learning'' in In-Context Learning via Substitution Ciphers

Apr 28, 2025
Zhouxiang Fang, Aayush Mishra, Muhan Gao, Anqi Liu, Daniel Khashabi
52

Aktuelle Arbeiten deuten darauf hin, dass In-Context Learning (ICL) in zwei Modi operiert: Task Retrieval (das Abrufen gelerntem Muster aus dem Pre-Training) und Task Learning (das „Lernen“ zur Inferenzzeit anhand von Demonstrationen). Die Entflechtung dieser beiden Modi bleibt jedoch ein herausforderndes Ziel. Wir stellen ICL CIPHERS vor, eine Klasse von Aufgabenreformulierungen, die auf Substitutionschiffren aus der klassischen Kryptografie basieren. Bei diesem Ansatz wird eine Teilmenge der Tokens in den In-Context-Eingaben durch andere (irrelevante) Tokens ersetzt, wodurch englische Sätze für das menschliche Auge weniger verständlich werden. Durch das Design gibt es jedoch ein latentes, festes Muster für diese Substitution, das sie umkehrbar macht. Diese bijektive (umkehrbare) Chiffre stellt sicher, dass die Aufgabe in einem abstrakten Sinne weiterhin eine wohldefinierte Aufgabe bleibt, trotz der Transformationen. Es ist eine interessante Frage, ob LLMs ICL CIPHERS mit einer BIJEKTIVEN Abbildung lösen können, was das Entschlüsseln der latenten Chiffre erfordert. Wir zeigen, dass LLMs besser darin sind, ICL CIPHERS mit BIJEKTIVEN Abbildungen zu lösen als die NON-BIJEKTIVE (nicht umkehrbare) Baseline, was einen neuartigen Ansatz zur Quantifizierung des „Lernens“ in ICL bietet. Obwohl diese Lücke klein ist, ist sie konsistent über vier Datensätze und sechs Modelle hinweg. Schließlich untersuchen wir die internen Repräsentationen von LLMs und identifizieren Hinweise auf ihre Fähigkeit, die verschlüsselten Eingaben zu dekodieren.

ChiseLLM: Die Nutzung der Fähigkeiten von Reasoning-LLMs für agile Hardware-Entwicklung mit Chisel
ChiseLLM: Unleashing the Power of Reasoning LLMs for Chisel Agile Hardware Development

Apr 27, 2025
Bowei Wang, Jiaran Gao, Yelai Feng, Renzhi Chen, Shanshan Li, Lei Wang
42

Die wachsende Nachfrage nach domänenspezifischen Architekturen (Domain-Specific Architecture, DSA) hat die Entwicklung der agilen Hardware-Entwicklungsmethodik (Agile Hardware Development Methodology, AHDM) vorangetrieben. Hardware-Beschreibungssprachen (Hardware Construction Language, HCL) wie Chisel bieten Abstraktionen auf hohem Niveau und eignen sich daher ideal für HCL-basierte AHDM. Obwohl große Sprachmodelle (Large Language Models, LLMs) bei Code-Generierungsaufgaben hervorragende Leistungen erbringen, stehen sie bei der Chisel-Generierung weiterhin vor Herausforderungen, insbesondere in Bezug auf Syntaxkorrektheit und Designvariabilität. Neuere Reasoning-Modelle haben die Fähigkeiten zur Code-Generierung durch Test-Time-Scaling-Techniken erheblich verbessert. Wir haben jedoch festgestellt, dass Reasoning-Modelle ohne Domänenanpassung keine wesentlichen Vorteile für Chisel-Code-Generierungsaufgaben bieten. Dieses Paper stellt ChiseLLM vor, eine Lösung, die aus Datenverarbeitung und -transformation, promptgesteuerter Reasoning-Trace-Synthese und domänenangepasstem Modelltraining besteht. Wir haben hochwertige Datensätze aus öffentlichen RTL-Code-Ressourcen erstellt und das Modell durch Prompt-Verbesserungsmethoden dazu angeleitet, strukturierte Denkmuster zu übernehmen. Experimente zeigen, dass unsere ChiseLLM-7B- und ChiseLLM-32B-Modelle die Syntaxkorrektheit um 18,85 % bzw. 26,32 % gegenüber den Basismodellen verbesserten, während die Fähigkeit zur Designvariabilität im Vergleich zu Baseline-Reasoning-Modellen um 47,58 % gesteigert wurde. Unsere Datensätze und Modelle sind öffentlich verfügbar und bieten leistungsstarke, kosteneffiziente Modelle für HCL-basierte AHDM sowie eine effektive Baseline für zukünftige Forschungen. Github-Repository: https://github.com/observerw/ChiseLLM

Apr 28
Apr 29
Apr 30