ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

VideoGrain: Modulation von Raum-Zeit-Aufmerksamkeit für mehrkörnige Videobearbeitung
VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing

Feb 24, 2025
Xiangpeng Yang, Linchao Zhu, Hehe Fan, Yi Yang
795

In jüngster Zeit haben Fortschritte in Diffusionsmodellen die Videoerstellung und -bearbeitung erheblich verbessert. Allerdings bleibt die mehrschichtige Videobearbeitung, die Klassen-, Instanz- und Teilebene umfasst, eine große Herausforderung. Die Hauptprobleme bei der mehrschichtigen Bearbeitung umfassen semantische Missabstimmung der Text-zu-Region-Steuerung und Merkmalskopplung innerhalb des Diffusionsmodells. Um diese Schwierigkeiten anzugehen, präsentieren wir VideoGrain, einen Zero-Shot-Ansatz, der Raum-Zeit-(Kreuz- und Selbst-)Aufmerksamkeitsmechanismen moduliert, um eine fein abgestufte Steuerung über den Videoinhalt zu erreichen. Wir verbessern die Text-zu-Region-Steuerung, indem wir die Aufmerksamkeit jedes lokalen Hinweises auf seine entsprechende räumlich entwirrte Region verstärken und Interaktionen mit irrelevanten Bereichen in der Kreuz-Aufmerksamkeit minimieren. Darüber hinaus verbessern wir die Merkmalsseparation, indem wir das Bewusstsein innerhalb der Region erhöhen und die Störungen zwischen den Regionen in der Selbst-Aufmerksamkeit reduzieren. Umfangreiche Experimente zeigen, dass unsere Methode eine Spitzenleistung in realen Szenarien erreicht. Unser Code, Daten und Demos sind unter https://knightyxp.github.io/VideoGrain_project_page/ verfügbar.

So sprach das lange Kontext große Sprachmodell.
Thus Spake Long-Context Large Language Model

Feb 24, 2025
Xiaoran Liu, Ruixiao Li, Mianqiu Huang, Zhigeng Liu, Yuerong Song, Qipeng Guo, Siyang He, Qiqi Wang, Linlin Li, Qun Liu, Yaqian Zhou, Xuanjing Huang, Xipeng Qiu
736

Langer Kontext ist ein wichtiges Thema im Bereich der natürlichen Sprachverarbeitung (NLP), das sich durch die Entwicklung von NLP-Architekturen zieht und immense Möglichkeiten für große Sprachmodelle (LLMs) bietet, indem es den LLMs das lebenslange Lernpotenzial ähnlich dem von Menschen verleiht. Leider wird die Verfolgung eines langen Kontexts von zahlreichen Hindernissen begleitet. Dennoch bleibt ein langer Kontext ein wesentlicher Wettbewerbsvorteil für LLMs. In den letzten zwei Jahren hat die Kontextlänge von LLMs einen Durchbruch mit einer Erweiterung auf Millionen von Tokens erzielt. Darüber hinaus hat sich die Forschung zu LLMs mit langem Kontext von der Längenextrapolation zu einem umfassenden Fokus auf Architektur, Infrastruktur, Training und Evaluierungstechnologien ausgeweitet. Inspiriert vom sinfonischen Gedicht Also sprach Zarathustra ziehen wir eine Analogie zwischen der Reise zur Erweiterung des Kontexts von LLM und den Versuchen der Menschen, ihre Sterblichkeit zu überwinden. In dieser Übersicht werden wir veranschaulichen, wie LLMs zwischen dem enormen Bedarf an einem längeren Kontext und dem gleichwertigen Bedürfnis, die Tatsache zu akzeptieren, dass sie letztendlich endlich sind, kämpfen. Um dies zu erreichen, geben wir ein globales Bild des Lebenszyklus von LLMs mit langem Kontext aus vier Perspektiven: Architektur, Infrastruktur, Training und Evaluierung, wobei wir das gesamte Spektrum der Technologien mit langem Kontext präsentieren. Am Ende dieser Übersicht werden wir 10 unbeantwortete Fragen vorstellen, mit denen LLMs mit langem Kontext derzeit konfrontiert sind. Wir hoffen, dass diese Übersicht als systematische Einführung in die Forschung zu LLMs mit langem Kontext dienen kann.

Schlagartig: Training eines Sprachmodells an einem GPU innerhalb eines Tages
Slamming: Training a Speech Language Model on One GPU in a Day

Feb 19, 2025
Gallil Maimon, Avishai Elmakies, Yossi Adi
702

Wir stellen Slam vor, ein Rezept zur Schulung hochwertiger Sprachmodellmodelle (SLMs) auf einer einzelnen akademischen GPU in 24 Stunden. Dies geschieht durch empirische Analyse der Modellinitialisierung und -architektur, synthetische Trainingsdaten, Präferenzoptimierung mit synthetischen Daten und Feinabstimmung aller anderen Komponenten. Wir zeigen empirisch, dass dieses Schulungsrezept auch gut mit mehr Rechenleistung skaliert und Ergebnisse erzielt, die mit führenden SLMs bei einem Bruchteil der Rechenkosten vergleichbar sind. Wir hoffen, dass diese Erkenntnisse das Training und die Forschung zu SLMs zugänglicher machen. Im Kontext der Skalierungsgesetze für SLMs übertreffen unsere Ergebnisse bei weitem die vorhergesagte optimale Rechenleistung und bieten einen optimistischen Ausblick auf die Machbarkeit von SLMs. Siehe Code, Daten, Modelle, Beispiele unter - https://pages.cs.huji.ac.il/adiyoss-lab/slamming.

DICEPTION: Ein generalistisches Diffusionsmodell für visuelle Wahrnehmungsaufgaben
DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks

Feb 24, 2025
Canyu Zhao, Mingyu Liu, Huanyi Zheng, Muzhi Zhu, Zhiyue Zhao, Hao Chen, Tong He, Chunhua Shen
533

Unser Hauptziel hier ist es, ein gutes, generalistisches Wahrnehmungsmodell zu erstellen, das mehrere Aufgaben bewältigen kann, innerhalb von Grenzen bei Rechenressourcen und Trainingsdaten. Um dies zu erreichen, greifen wir auf Text-zu-Bild-Diffusionsmodelle zurück, die auf Milliarden von Bildern vorab trainiert sind. Unsere umfassenden Evaluierungsmetriken zeigen, dass DICEPTION erfolgreich mehrere Wahrnehmungsaufgaben bewältigt und Leistungen auf Augenhöhe mit modernsten Modellen erzielt. Wir erzielen Ergebnisse auf Augenhöhe mit SAM-vit-h, wobei wir nur 0,06% ihrer Daten verwenden (z. B. 600K vs. 1 Mrd. pixelgenaue annotierte Bilder). Inspiriert von Wang et al. formuliert DICEPTION die Ausgaben verschiedener Wahrnehmungsaufgaben unter Verwendung von Farbcodierung; und wir zeigen, dass die Strategie, verschiedenen Instanzen zufällige Farben zuzuweisen, sowohl bei der Entitätssegmentierung als auch bei der semantischen Segmentierung äußerst effektiv ist. Das Vereinheitlichen verschiedener Wahrnehmungsaufgaben als bedingte Bildgenerierung ermöglicht es uns, vollständig von vorab trainierten Text-zu-Bild-Modellen zu profitieren. Somit kann DICEPTION kosteneffizient trainiert werden, wobei die Kosten um Größenordnungen niedriger sind im Vergleich zu konventionellen Modellen, die von Grund auf trainiert wurden. Bei der Anpassung unseres Modells an andere Aufgaben erfordert es nur Feinabstimmung an so wenigen wie 50 Bildern und 1% seiner Parameter. DICEPTION liefert wertvolle Einblicke und eine vielversprechendere Lösung für visuelle Generalistenmodelle.

Audio-FLAN: Eine Vorabveröffentlichung
Audio-FLAN: A Preliminary Release

Feb 23, 2025
Liumeng Xue, Ziya Zhou, Jiahao Pan, Zixuan Li, Shuai Fan, Yinghao Ma, Sitong Cheng, Dongchao Yang, Haohan Guo, Yujia Xiao, Xinsheng Wang, Zixuan Shen, Chuanbo Zhu, Xinshen Zhang, Tianchi Liu, Ruibin Yuan, Zeyue Tian, Haohe Liu, Emmanouil Benetos, Ge Zhang, Yike Guo, Wei Xue
372

Die jüngsten Fortschritte bei der Audio-Tokenisierung haben die Integration von Audiofähigkeiten in große Sprachmodelle (LLMs) erheblich verbessert. Allerdings werden Audioverständnis und -generierung oft als separate Aufgaben behandelt, was die Entwicklung wirklich vereinheitlichter Audio-Sprachmodelle behindert. Während die Anleitungsoptimierung bemerkenswerte Erfolge bei der Verbesserung der Verallgemeinerung und des Null-Schuss-Lernens in Text und Vision gezeigt hat, ist ihre Anwendung auf Audio weitgehend unerforscht. Ein wesentliches Hindernis ist der Mangel an umfassenden Datensätzen, die Audioverständnis und -generierung vereinen. Um dies zu lösen, stellen wir Audio-FLAN vor, einen groß angelegten Anleitungsoptimierungs-Datensatz, der 80 verschiedene Aufgaben in den Bereichen Sprache, Musik und Klang abdeckt, mit über 100 Millionen Instanzen. Audio-FLAN legt den Grundstein für vereinheitlichte Audio-Sprachmodelle, die sowohl Verständnis (z. B. Transkription, Verständnis) als auch Generierung (z. B. Sprache, Musik, Klang) Aufgaben über ein breites Spektrum von Audio-Domänen nahtlos in einem Null-Schuss-Verfahren bewältigen können. Der Audio-FLAN-Datensatz ist auf HuggingFace und GitHub verfügbar und wird kontinuierlich aktualisiert.

Machen wir LoRA wieder großartig: Steigerung von LoRA mit adaptiven Singulärwerten und Optimierung der Mischung von Experten-Ausrichtung.
Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment

Feb 24, 2025
Chenghao Fan, Zhenyi Lu, Sichen Liu, Xiaoye Qu, Wei Wei, Chengfeng Gu, Yu Cheng
314

Während die Low-Rank-Anpassung (LoRA) eine parameter-effiziente Feinabstimmung für große Sprachmodelle (LLMs) ermöglicht, bleibt ihre Leistung oft hinter der vollständigen Feinabstimmung (Full Fine-Tuning) zurück. Aktuelle Methoden optimieren LoRA, indem sie mit statischen Untermengen der Singulärwertzerlegung (SVD) initialisieren, was zu einer suboptimalen Nutzung des vorab trainierten Wissens führt. Ein anderer Ansatz zur Verbesserung von LoRA besteht darin, eine Mischung-von-Experten (MoE)-Architektur zu integrieren. Gewichtsfehljustierungen und komplexe Gradientendynamiken machen es jedoch herausfordernd, die SVD vor der LoRA MoE-Architektur zu übernehmen. Um diese Probleme zu mildern, schlagen wir Great LoRA Mixture-of-Expert (GOAT) vor, ein Framework, das (1) relevante Priors adaptiv integriert, indem es eine SVD-strukturierte MoE verwendet, und (2) die Optimierung mit der vollständig feinabgestimmten MoE durch Ableitung eines theoretischen Skalierungsfaktors ausrichtet. Wir zeigen, dass eine angemessene Skalierung, ohne die Architektur oder Trainingsalgorithmen zu ändern, die Effizienz und Leistungsfähigkeit von LoRA MoE steigert. Experimente über 25 Datensätze, einschließlich des Verständnisses natürlicher Sprache, des gesunden Menschenverstands, der Bildklassifizierung und der Generierung natürlicher Sprache, zeigen die herausragende Leistungsfähigkeit von GOAT und schließen die Lücke zur vollständigen Feinabstimmung.

GCC: Generative Farbkonstanz durch Diffusion eines Farbprüfcharts
GCC: Generative Color Constancy via Diffusing a Color Checker

Feb 24, 2025
Chen-Wei Chang, Cheng-De Fan, Chia-Che Chang, Yi-Chen Lo, Yu-Chee Tseng, Jiun-Long Huang, Yu-Lun Liu
282

Methoden zur Farbkonstanz haben oft Schwierigkeiten, sich über verschiedene Kamerasensoren hinweg zu verallgemeinern, was auf unterschiedliche spektrale Empfindlichkeiten zurückzuführen ist. Wir präsentieren GCC, das Diffusionsmodelle nutzt, um Farbprüfkarten in Bilder einzufügen und so die Beleuchtung zu schätzen. Unsere wesentlichen Innovationen umfassen (1) einen einstufigen deterministischen Inferenzansatz, der Farbprüfkarten einfügt, die die Beleuchtung der Szene widerspiegeln, (2) eine Laplace-Zerlegungstechnik, die die Struktur der Prüfkarten bewahrt, während eine beleuchtungsabhängige Farbanpassung ermöglicht wird, und (3) eine maskenbasierte Datenaugmentationsstrategie zur Handhabung ungenauer Annotationen von Farbprüfkarten. GCC zeigt eine überlegene Robustheit in Szenarien mit verschiedenen Kameras und erreicht state-of-the-art Fehlerraten der schlechtesten 25 % von 5,15° und 4,32° in bidirektionalen Bewertungen. Diese Ergebnisse unterstreichen die Stabilität und Generalisierungsfähigkeit unserer Methode über verschiedene Kameracharakteristiken hinweg, ohne dass eine sensorspezifische Trainingsphase erforderlich ist, was sie zu einer vielseitigen Lösung für reale Anwendungen macht.

CodeCriticBench: Ein ganzheitlicher Code-Kritik-Benchmark für große Sprachmodelle
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models

Feb 23, 2025
Alexander Zhang, Marcus Dong, Jiaheng Liu, Wei Zhang, Yejie Wang, Jian Yang, Ge Zhang, Tianyu Liu, Zhongyuan Peng, Yingshui Tan, Yuanxing Zhang, Zhexu Wang, Weixun Wang, Yancheng He, Ken Deng, Wangchunshu Zhou, Wenhao Huang, Zhaoxiang Zhang
273

Die Kritikfähigkeit von Large Language Models (LLMs) ist entscheidend für die Fähigkeit zum Argumentieren, die notwendige Vorschläge liefern kann (z. B. detaillierte Analyse und konstruktives Feedback). Daher hat die Bewertung der Kritikfähigkeit von LLMs große Aufmerksamkeit erregt, und es wurden mehrere Kritik-Benchmarks vorgeschlagen. Allerdings weisen bestehende Kritik-Benchmarks in der Regel folgende Einschränkungen auf: (1) Sie konzentrieren sich im Allgemeinen auf vielfältige Argumentationsaufgaben in allgemeinen Bereichen und bieten unzureichende Bewertung von Code-Aufgaben (z. B. nur die Code-Generierungsaufgabe abdecken), bei denen die Schwierigkeit der Abfragen relativ einfach ist (z. B. stammen die Code-Abfragen von CriticBench von Humaneval und MBPP). (2) Es mangelt an umfassender Bewertung aus verschiedenen Dimensionen. Um diese Einschränkungen zu adressieren, stellen wir einen ganzheitlichen Code-Kritik-Benchmark für LLMs namens CodeCriticBench vor. Speziell umfasst unser CodeCriticBench zwei gängige Code-Aufgaben (d. h. Code-Generierung und Code-QA) mit unterschiedlichen Schwierigkeiten. Darüber hinaus umfassen die Bewertungsprotokolle eine grundlegende Kritikbewertung und eine fortgeschrittene Kritikbewertung für verschiedene Merkmale, wobei fein abgestufte Bewertungslisten für fortgeschrittene Einstellungen gut gestaltet sind. Schließlich führen wir umfangreiche experimentelle Ergebnisse bestehender LLMs durch, die die Wirksamkeit von CodeCriticBench zeigen.

Linguistische Verallgemeinerbarkeit der Skalierung zur Testzeit in mathematischem Denken
Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning

Feb 24, 2025
Guijin Son, Jiwoo Hong, Hyunwoo Ko, James Thorne
262

Die Skalierung der Rechenleistung während des Vortrainings hat sich als wirksam erwiesen, um Multilingualität zu erreichen, aber gilt dasselbe auch für die Skalierung zur Testzeit? In dieser Arbeit stellen wir MCLM vor, einen multilingualen Mathematik-Benchmark mit Wettbewerbsniveau-Problemen in 55 Sprachen. Wir testen drei Testzeit-Skalierungsmethoden - Outcome Reward Modeling (ORM), Process Reward Modeling (ORM) und Budget Forcing (BF) - sowohl auf Qwen2.5-1.5B Math als auch auf MR1-1.5B, einem multilingualen LLM, den wir für erweitertes Argumentieren trainiert haben. Unsere Experimente zeigen, dass die Verwendung von Qwen2.5-1.5B Math mit ORM einen Score von 35.8 auf MCLM erreicht, während BF auf MR1-1.5B 35.2 erreicht. Obwohl "denkende LLMs" in letzter Zeit erhebliche Aufmerksamkeit erregt haben, stellen wir fest, dass ihre Leistung vergleichbar ist mit traditionellen Skalierungsmethoden wie best-of-N, wenn sie einmal auf ähnliche Ebenen von Inferenz-FLOPs beschränkt sind. Darüber hinaus, während BF eine 20-Punkte-Verbesserung bei English AIME bringt, bietet es nur einen durchschnittlichen Gewinn von 1.94 Punkten über andere Sprachen hinweg - ein Muster, das sich bei den anderen von uns untersuchten Testzeit-Skalierungsmethoden zeigt - was darauf hinweist, dass die Testzeit-Skalierung möglicherweise nicht so effektiv auf multilinguale Aufgaben verallgemeinert werden kann. Um weitere Forschung zu fördern, veröffentlichen wir MCLM, MR1-1.5B und Evaluierungsergebnisse.

RIFLEx: Ein kostenloser Mittagstisch für Längenextrapolation in Video-Transformern
RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers

Feb 21, 2025
Min Zhao, Guande He, Yixiao Chen, Hongzhou Zhu, Chongxuan Li, Jun Zhu
203

In jüngster Zeit haben Fortschritte bei der Videogenerierung Modelle ermöglicht, hochwertige Videos von einer Minute Länge zu synthetisieren. Die Generierung noch längerer Videos mit zeitlicher Kohärenz bleibt jedoch eine große Herausforderung, und bestehende Methoden zur Längenextrapolation führen zu zeitlichen Wiederholungen oder Bewegungsverlangsamungen. In dieser Arbeit analysieren wir systematisch die Rolle der Frequenzkomponenten in Positionseinbettungen und identifizieren eine intrinsische Frequenz, die hauptsächlich das Extrapolationsverhalten steuert. Basierend auf dieser Erkenntnis schlagen wir RIFLEx vor, einen minimalen, aber effektiven Ansatz, der die intrinsische Frequenz reduziert, um Wiederholungen zu unterdrücken, während die Bewegungskonsistenz erhalten bleibt, ohne zusätzliche Modifikationen zu erfordern. RIFLEx bietet ein echtes "free lunch" - erreicht hochwertige 2-fache Extrapolation auf modernsten Video-Diffusionstransformatoren auf völlig trainingsfreie Weise. Darüber hinaus verbessert es die Qualität und ermöglicht 3-fache Extrapolation durch minimales Feintuning ohne lange Videos. Projektseite und Codes: https://riflex-video.github.io/.

Stable-SPAM: Wie man stabiler in 4-Bit trainiert als mit 16-Bit Adam
Stable-SPAM: How to Train in 4-Bit More Stably than 16-Bit Adam

Feb 24, 2025
Tianjin Huang, Haotian Hu, Zhenyu Zhang, Gaojie Jin, Xiang Li, Li Shen, Tianlong Chen, Lu Liu, Qingsong Wen, Zhangyang Wang, Shiwei Liu
182

Dieses Paper bewertet umfassend mehrere kürzlich vorgeschlagene Optimierer für das Training mit 4-Bit und zeigt auf, dass die geringe Bit-Präzision die Empfindlichkeit gegenüber Lernraten verstärkt und oft zu instabilen Gradientennormen führt, was zu Divergenz bei höheren Lernraten führt. Unter diesen erzielt SPAM, ein kürzlich vorgestellter Optimierer mit Momentenrücksetzung und Spike-berücksichtigendem Gradientenclipping, die beste Leistung über verschiedene Bit-Levels hinweg, hat jedoch Schwierigkeiten, die Gradientennormen zu stabilisieren und erfordert eine sorgfältige Abstimmung der Lernrate. Um diese Einschränkungen zu beheben, schlagen wir Stable-SPAM vor, der verbesserte Gradientennormalisierungs- und Clipping-Techniken integriert. Insbesondere passt Stable-SPAM (1) adaptiv den Clipping-Schwellenwert für gespikte Gradienten an, indem er ihre historischen Maxima verfolgt; (2) normalisiert die gesamte Gradientenmatrix basierend auf ihren historischen l_2-Norm-Statistiken; und (3) übernimmt die Momentenrücksetzung von SPAM, um periodisch die ersten und zweiten Momente von Adam zurückzusetzen und die Akkumulation von gespikten Gradienten zu mildern. Umfangreiche Experimente zeigen, dass Stable-SPAM die Gradientennormen effektiv stabilisiert beim Training von 4-Bit LLM und eine überlegene Leistung im Vergleich zu Adam und SPAM bietet. Bemerkenswert ist, dass unser 4-Bit LLaMA-1B-Modell, das mit Stable-SPAM trainiert wurde, das mit Adam trainierte BF16 LLaMA-1B um bis zu 2 Perplexitäten übertrifft. Darüber hinaus erreicht Stable-SPAM, wenn beide Modelle in 4-Bit trainiert werden, denselben Verlust wie Adam, wobei nur etwa die Hälfte der Trainingschritte erforderlich sind. Der Code ist verfügbar unter https://github.com/TianjinYellow/StableSPAM.git.

Multimodale Inkonsistenzbegründung (MMIR): Ein neuer Maßstab für multimodale Begründungsmodelle
Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models

Feb 22, 2025
Qianqi Yan, Yue Fan, Hongquan Li, Shan Jiang, Yang Zhao, Xinze Guan, Ching-Chen Kuo, Xin Eric Wang
182

Bestehende Multimodale Large Language Models (MLLMs) werden hauptsächlich auf konsistenten visuell-textuellen Eingaben trainiert und getestet, was die Frage offen lässt, ob sie Inkonsistenzen in layoutreichen Inhalten der realen Welt bewältigen können. Um diese Lücke zu schließen, schlagen wir das Multimodal Inconsistency Reasoning (MMIR) Benchmark vor, um die Fähigkeit von MLLMs zu bewerten, semantische Unstimmigkeiten in Artefakten wie Webseiten, Präsentationsfolien und Postern zu erkennen und darüber zu argumentieren. MMIR umfasst 534 anspruchsvolle Beispiele, die jeweils synthetisch eingefügte Fehler in fünf schwerwiegenden Kategorien enthalten: Faktische Widersprüche, Identitätsfehlzuweisung, Kontextuelle Unstimmigkeit, Quantitative Diskrepanz und Zeitliche/Räumliche Inkohärenz. Wir evaluieren sechs hochmoderne MLLMs und zeigen, dass Modelle mit dedizierten multimodalen Argumentationsfähigkeiten, wie o1, ihre Gegenstücke deutlich übertreffen, während Open-Source-Modelle besonders anfällig für Inkonsistenzfehler sind. Detaillierte Fehleranalysen zeigen weiterhin, dass Modelle darin gut sind, Inkonsistenzen zu erkennen, die auf eine einzelne Modalität beschränkt sind, insbesondere im Text, aber Schwierigkeiten mit kreuzmodalen Konflikten und komplexen Layouts haben. Untersuchungen zeigen, dass Ein-Modalitäts-Prompting, einschließlich Chain-of-Thought (CoT) und Set-of-Mark (SoM) Methoden, marginale Gewinne bringt und einen zentralen Engpass im kreuzmodalen Argumentieren aufzeigt. Unsere Ergebnisse unterstreichen die Notwendigkeit fortschrittlicher multimodaler Argumentation und weisen auf zukünftige Forschung im Bereich multimodaler Inkonsistenz hin.

Über die Veröffentlichung hinaus: Zugriffsüberlegungen für generative KI-Systeme
Beyond Release: Access Considerations for Generative AI Systems

Feb 23, 2025
Irene Solaiman, Rishi Bommasani, Dan Hendrycks, Ariel Herbert-Voss, Yacine Jernite, Aviya Skowron, Andrew Trask
164

Die Entscheidungen zur Freigabe von Generative KI bestimmen, ob Systemkomponenten verfügbar gemacht werden, aber die Freigabe betrifft viele andere Elemente nicht, die beeinflussen, wie Benutzer und Interessengruppen mit einem System interagieren können. Über die Freigabe hinaus informiert der Zugang zu Systemkomponenten über potenzielle Risiken und Vorteile. Zugang bezieht sich auf praktische Bedürfnisse, infrastrukturell, technisch und gesellschaftlich, um verfügbare Komponenten auf irgendeine Weise zu nutzen. Wir zerlegen den Zugang entlang von drei Achsen: Ressourcenbereitstellung, technische Benutzerfreundlichkeit und Nützlichkeit. Innerhalb jeder Kategorie klärt eine Reihe von Variablen pro Systemkomponente die Kompromisse. Zum Beispiel erfordert die Ressourcenbereitstellung Zugang zur Recheninfrastruktur, um Modellgewichte zu bedienen. Wir vergleichen auch die Zugänglichkeit von vier Hochleistungs-Sprachmodellen, zwei offene Gewichte und zwei geschlossene Gewichte, die basierend auf Zugriffsvariablen ähnliche Überlegungen zeigen. Zugriffsvariablen bilden die Grundlage dafür, den Zugang für Benutzer zu skalieren oder zu erhöhen; wir untersuchen den Umfang des Zugangs und wie der Umfang die Fähigkeit beeinflusst, Risiken zu managen und einzugreifen. Dieser Rahmen umfasst besser die Landschaft und die Risiko-Nutzen-Abwägungen von Systemfreigaben, um Entscheidungen zur Systemfreigabe, Forschung und Politik zu informieren.

Mobile-Agent-V: Lernen der Bedienung mobiler Geräte durch video-geführte Multi-Agenten-Zusammenarbeit
Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration

Feb 24, 2025
Junyang Wang, Haiyang Xu, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Jitao Sang
132

Der rasante Anstieg der Nutzung mobiler Geräte erfordert eine verbesserte Automatisierung für nahtloses Aufgabenmanagement. Viele KI-gesteuerte Frameworks haben jedoch Schwierigkeiten aufgrund unzureichenden operationellen Wissens. Manuell verfasstes Wissen hilft, ist jedoch arbeitsintensiv und ineffizient. Um diese Herausforderungen anzugehen, stellen wir Mobile-Agent-V vor, ein Framework, das Videoanleitungen nutzt, um umfassendes und kostengünstiges operationelles Wissen für die mobile Automatisierung bereitzustellen. Mobile-Agent-V verbessert die Fähigkeiten zur Aufgabenausführung, indem es Videoeingaben nutzt, ohne spezialisierte Abtastung oder Vorverarbeitung zu erfordern. Mobile-Agent-V integriert eine Schiebefensterstrategie und beinhaltet einen Video-Agent und einen Tiefreflexions-Agenten, um sicherzustellen, dass die Aktionen mit den Benutzeranweisungen übereinstimmen. Durch diesen innovativen Ansatz können Benutzer Aufgabenprozesse mit Anleitung aufzeichnen, was es dem System ermöglicht, eigenständig zu lernen und Aufgaben effizient auszuführen. Experimentelle Ergebnisse zeigen, dass Mobile-Agent-V im Vergleich zu bestehenden Frameworks eine Leistungssteigerung von 30% erzielt.

Reflexives Planen: Vision-Sprach-Modelle für mehrstufige Langzeit-Roboter-Manipulation
Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation

Feb 23, 2025
Yunhai Feng, Jiaming Han, Zhuoran Yang, Xiangyu Yue, Sergey Levine, Jianlan Luo
132

Die Lösung komplexer langfristiger robotischer Manipulationsprobleme erfordert ausgefeilte Planungsfähigkeiten auf hohem Niveau, die Fähigkeit, über die physische Welt nachzudenken und reaktiv geeignete motorische Fähigkeiten auszuwählen. Vision-Language-Modelle (VLMs), die auf Internetdaten vortrainiert sind, könnten grundsätzlich einen Rahmen für die Bewältigung solcher Probleme bieten. Allerdings fehlt den aktuellen VLMs sowohl das differenzierte Verständnis der komplexen Physik, die für die robotische Manipulation erforderlich ist, als auch die Fähigkeit, über lange Zeithorizonte zu denken, um Fehlerkumulierungsprobleme anzugehen. In diesem Paper stellen wir ein neuartiges Testzeit-Berechnungsframework vor, das die physikalischen Denkfähigkeiten von VLMs für mehrstufige Manipulationsaufgaben verbessert. Im Kern verbessert unser Ansatz iterativ ein vortrainiertes VLM mit einem "Reflexionsmechanismus" - er verwendet ein generatives Modell, um zukünftige Weltzustände zu imaginieren, nutzt diese Vorhersagen, um die Auswahl von Aktionen zu lenken, und reflektiert kritisch über potenzielle Suboptimalitäten, um sein Denken zu verfeinern. Experimentelle Ergebnisse zeigen, dass unsere Methode signifikant besser abschneidet als mehrere führende kommerzielle VLMs sowie andere Post-Training-Ansätze wie Monte-Carlo-Baumsuche (MCTS). Videos sind verfügbar unter https://reflect-vlm.github.io.

X-Tänzer: Generierung von ausdrucksstarker Musik zu menschlichen Tanzvideos
X-Dancer: Expressive Music to Human Dance Video Generation

Feb 24, 2025
Zeyuan Chen, Hongyi Xu, Guoxian Song, You Xie, Chenxu Zhang, Xin Chen, Chao Wang, Di Chang, Linjie Luo
123

Wir präsentieren X-Dancer, eine innovative Zero-Shot-Musik-getriebene Bildanimations-Pipeline, die vielfältige und weitreichende lebensechte menschliche Tanzvideos aus einem einzelnen statischen Bild erzeugt. Im Kern stellen wir ein vereinheitlichtes Transformer-Diffusion-Framework vor, das ein autoregressives Transformer-Modell umfasst, das erweiterte und musiksynchronisierte Token-Sequenzen für 2D-Körper-, Kopf- und Hand-Posen synthetisiert, die dann ein Diffusionsmodell anleiten, um kohärente und realistische Tanzvideo-Frames zu erzeugen. Im Gegensatz zu traditionellen Methoden, die hauptsächlich menschliche Bewegungen in 3D generieren, begegnet X-Dancer den Datenbeschränkungen und verbessert die Skalierbarkeit, indem es ein breites Spektrum von 2D-Tanzbewegungen modelliert, die ihre nuancierte Ausrichtung mit musikalischen Beats durch leicht verfügbare monokulare Videos erfassen. Um dies zu erreichen, bauen wir zunächst eine räumlich zusammengesetzte Token-Repräsentation aus 2D-Mensch-Posenmarkierungen in Verbindung mit Keypoint-Vertrauenswerten auf, die sowohl große, gegliederte Körperbewegungen (z. B. Ober- und Unterkörper) als auch feingliedrige Bewegungen (z. B. Kopf und Hände) codieren. Anschließend entwerfen wir ein Musik-zu-Bewegung-Transformer-Modell, das autoregressiv musikalignierte Tanz-Posen-Token-Sequenzen generiert, indem es globale Aufmerksamkeit sowohl auf musikalischen Stil als auch auf vorherigen Bewegungskontext lenkt. Schließlich nutzen wir ein Diffusions-Grundgerüst, um das Referenzbild mit diesen synthetisierten Posen-Tokens durch AdaIN zu animieren, und bilden so ein vollständig differenzierbares End-to-End-Framework. Experimentelle Ergebnisse zeigen, dass X-Dancer in der Lage ist, sowohl vielfältige als auch charakterisierte Tanzvideos zu produzieren, wobei es in Bezug auf Vielfalt, Ausdruckskraft und Realismus wesentlich besser abschneidet als State-of-the-Art-Methoden. Code und Modell werden für Forschungszwecke verfügbar sein.

Verankerte überzeugende Spracherzeugung für automatisiertes Marketing
Grounded Persuasive Language Generation for Automated Marketing

Feb 24, 2025
Jibang Wu, Chenghao Yang, Simon Mahns, Chaoqi Wang, Hao Zhu, Fei Fang, Haifeng Xu
123

Dieses Paper entwickelt ein agentisches Framework, das große Sprachmodelle (LLMs) einsetzt, um die automatisierte Generierung überzeugender und fundierter Marketinginhalte zu ermöglichen, wobei Immobilienbeschreibungen als unser Hauptanwendungsgebiet dienen. Unsere Methode zielt darauf ab, die generierten Inhalte mit den Nutzervorlieben in Einklang zu bringen und nützliche Fakten hervorzuheben. Dieser Agent besteht aus drei Schlüsselmodulen: (1) Grounding-Modul, das das Verhalten von Experten imitieren soll, um vermarktbare Merkmale vorherzusagen; (2) Personalisierungsmodul, das Inhalte an Nutzervorlieben anpasst; (3) Marketing-Modul, das die faktische Richtigkeit und die Einbeziehung lokaler Merkmale sicherstellt. Wir führen systematische Experimente mit menschlichen Probanden im Bereich des Immobilienmarketings durch, mit einer Fokusgruppe potenzieller Hauskäufer. Die Ergebnisse zeigen, dass Marketingbeschreibungen, die von unserem Ansatz generiert wurden, von einem klaren Vorsprung gegenüber denen, die von menschlichen Experten verfasst wurden, bevorzugt werden. Unsere Ergebnisse deuten auf ein vielversprechendes, auf LLM basierendes agentisches Framework hin, um groß angelegtes zielgerichtetes Marketing zu automatisieren, während eine verantwortungsbewusste Generierung nur auf Fakten basiert.

Prognose des Wachstums von Open-Weight KI-Modellen auf Hugging Face
Forecasting Open-Weight AI Model Growth on Hugging Face

Feb 21, 2025
Kushal Raj Bhandari, Pin-Yu Chen, Jianxi Gao
103

Da die offene KI-Landschaft weiter wächst - mit der Entwicklung von Modellen, erheblichen Investitionen und dem Interesse der Benutzer - wird es zunehmend wichtig, vorherzusagen, welche Modelle letztendlich Innovationen vorantreiben und KI-Ökosysteme formen werden. Aufbauend auf Parallelen zu Zitationsdynamiken in wissenschaftlicher Literatur schlagen wir ein Rahmenwerk vor, um zu quantifizieren, wie sich der Einfluss eines offenen Modells entwickelt. Speziell passen wir das von Wang et al. eingeführte Modell für wissenschaftliche Zitationen an, indem wir drei Schlüsselparameter - Unmittelbarkeit, Langlebigkeit und relative Fitness - verwenden, um die kumulative Anzahl feinabgestimmter Modelle eines offenen Modells zu verfolgen. Unsere Ergebnisse zeigen, dass dieser zitationsbasierte Ansatz die vielfältigen Verläufe der Übernahme von offenen Modellen effektiv erfassen kann, wobei die meisten Modelle gut passen und Ausreißer einzigartige Muster oder abrupte Sprünge in der Nutzung anzeigen.

TAG: Ein dezentralisiertes Framework für hierarchisches Multi-Agenten-Verstärkungslernen
TAG: A Decentralized Framework for Multi-Agent Hierarchical Reinforcement Learning

Feb 21, 2025
Giuseppe Paolo, Abdelhakim Benechehab, Hamza Cherkaoui, Albert Thomas, Balázs Kégl
92

Die hierarchische Organisation ist fundamental für biologische Systeme und menschliche Gesellschaften, doch künstliche Intelligenz-Systeme verlassen sich oft auf monolithische Architekturen, die Anpassungsfähigkeit und Skalierbarkeit einschränken. Aktuelle hierarchische Verstärkungslernansätze (HRL) beschränken Hierarchien in der Regel auf zwei Ebenen oder erfordern zentrales Training, was ihre praktische Anwendbarkeit einschränkt. Wir stellen das TAME Agent Framework (TAG) vor, ein Framework zur Konstruktion vollständig dezentraler hierarchischer Multi-Agenten-Systeme. TAG ermöglicht Hierarchien beliebiger Tiefe durch ein neuartiges Konzept der LevelEnv, das jede Hierarchieebene als Umgebung für die darüber liegenden Agenten abstrahiert. Dieser Ansatz standardisiert den Informationsfluss zwischen den Ebenen und bewahrt dabei lose Kopplung, was eine nahtlose Integration verschiedener Agententypen ermöglicht. Wir zeigen die Wirksamkeit von TAG, indem wir hierarchische Architekturen implementieren, die verschiedene RL-Agenten über mehrere Ebenen kombinieren und eine verbesserte Leistung gegenüber klassischen Multi-Agenten-RL-Benchmarks erzielen. Unsere Ergebnisse zeigen, dass die dezentrale hierarchische Organisation sowohl die Lerngeschwindigkeit als auch die endgültige Leistung verbessert und TAG als vielversprechende Richtung für skalierbare Multi-Agenten-Systeme positioniert.

Vergleich von zeitlichem Denken und Abstimmung über chinesische Dynastien
Benchmarking Temporal Reasoning and Alignment Across Chinese Dynasties

Feb 24, 2025
Zhenglin Wang, Jialong Wu, Pengfei LI, Yong Jiang, Deyu Zhou
84

Die zeitliche Argumentation ist fundamental für die menschliche Kognition und ist entscheidend für verschiedene Anwendungen im wirklichen Leben. Während jüngste Fortschritte in großen Sprachmodellen vielversprechende Fähigkeiten in der zeitlichen Argumentation gezeigt haben, basieren bestehende Benchmarks hauptsächlich auf regelbasierten Konstruktionen, fehlen an kontextueller Tiefe und beinhalten nur eine begrenzte Auswahl an zeitlichen Entitäten. Um diese Einschränkungen zu überwinden, führen wir Chinese Time Reasoning (CTM) ein, einen Benchmark, der darauf abzielt, große Sprachmodelle in der zeitlichen Argumentation im umfangreichen Bereich der chinesischen dynastischen Chronologie zu bewerten. CTM legt den Schwerpunkt auf Beziehungen zwischen Entitäten, paarweises zeitliches Alignment sowie kontextualisierte und kulturell verankerte Argumentation und bietet so eine umfassende Bewertung. Umfangreiche experimentelle Ergebnisse zeigen die Herausforderungen, die CTM darstellt, und heben potenzielle Verbesserungsmöglichkeiten hervor.

InductionBench: LLMs versagen in der einfachsten Komplexitätsklasse.
InductionBench: LLMs Fail in the Simplest Complexity Class

Feb 20, 2025
Wenyue Hua, Tyler Wong, Sun Fei, Liangming Pan, Adam Jardine, William Yang Wang
72

Große Sprachmodelle (LLMs) haben bemerkenswerte Verbesserungen im Bereich des logischen Denkens gezeigt, und viele bestehende Benchmarks wurden entweder vollständig oder teilweise von Modellen wie o1 und o3 bearbeitet. Allerdings betonen die meisten dieser Benchmarks deduktives Denken, einschließlich mathematischer und kodierender Aufgaben, bei denen Regeln wie mathematische Axiome oder Programmiersyntax klar definiert sind, auf deren Grundlage LLMs planen und diese Regeln anwenden können, um zu einer Lösung zu gelangen. Im Gegensatz dazu bleibt induktives Denken, bei dem man die zugrunde liegenden Regeln aus beobachteten Daten ableitet, weniger erforscht. Solche induktiven Prozesse sind das Herzstück wissenschaftlicher Entdeckungen, da sie es Forschern ermöglichen, allgemeine Prinzipien aus empirischen Beobachtungen abzuleiten. Um zu bewerten, ob LLMs über diese Fähigkeit verfügen, stellen wir InductionBench vor, einen neuen Benchmark, der entworfen wurde, um die induktive Denkfähigkeit von LLMs zu bewerten. Unsere experimentellen Ergebnisse zeigen, dass selbst die fortschrittlichsten verfügbaren Modelle Schwierigkeiten haben, die einfachsten Komplexitätsklassen innerhalb der Subregular-Hierarchie von Funktionen zu meistern, was auf eine bemerkenswerte Defizienz in den induktiven Denkfähigkeiten aktueller LLMs hinweist. Der Code und die Daten sind verfügbar unter https://github.com/Wenyueh/inductive_reasoning_benchmark.

Untersuchung des Einflusses von Quantisierungsmethoden auf die Sicherheit und Zuverlässigkeit großer Sprachmodelle
Investigating the Impact of Quantization Methods on the Safety and Reliability of Large Language Models

Feb 18, 2025
Artyom Kharinaev, Viktor Moskvoretskii, Egor Shvetsov, Kseniia Studenikina, Bykov Mikhail, Evgeny Burnaev
72

Große Sprachmodelle (Large Language Models, LLMs) haben sich als leistungsstarke Werkzeuge zur Bewältigung moderner Herausforderungen und zur Ermöglichung praktischer Anwendungen etabliert. Ihre hohe Rechenkomplexität stellt jedoch nach wie vor eine bedeutende Hürde für eine weitreichende Anwendung dar. Quantisierung hat sich als vielversprechende Technik herauskristallisiert, um den Zugang zu demokratisieren und die Bereitstellung auf Geräten mit begrenzten Ressourcen zu ermöglichen. Trotz dieser Fortschritte bleiben die Sicherheit und Vertrauenswürdigkeit quantisierter Modelle untererforscht, da frühere Studien häufig zeitgenössische Architekturen außer Acht lassen und sich auf zu vereinfachte Benchmarks und Bewertungen stützen. Um diese Lücke zu schließen, stellen wir OpenSafetyMini vor, ein neuartiges Sicherheitsdatenset, das entwickelt wurde, um Modelle besser voneinander unterscheiden zu können. Wir evaluieren 4 hochmoderne Quantisierungstechniken anhand der LLaMA- und Mistral-Modelle unter Verwendung von 4 Benchmarks, einschließlich menschlicher Bewertungen. Unsere Ergebnisse zeigen, dass die optimale Quantisierungsmethode für 4-Bit-Präzision variiert, während Vektorquantisierungstechniken die beste Sicherheits- und Vertrauenswürdigkeitsleistung bei 2-Bit-Präzision bieten, was eine Grundlage für zukünftige Forschung darstellt.

Pandora3D: Ein umfassendes Framework für die hochwertige Generierung von 3D-Formen und Texturen
Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation

Feb 20, 2025
Jiayu Yang, Taizhang Shang, Weixuan Sun, Xibin Song, Ziang Cheng, Senbo Wang, Shenzhou Chen, Weizhe Liu, Hongdong Li, Pan Ji
62

Dieser Bericht präsentiert einen umfassenden Rahmen für die Erzeugung hochwertiger 3D-Formen und Texturen aus verschiedenen Eingabeimpulsen, einschließlich einzelner Bilder, Mehransichtsbilder und Textbeschreibungen. Der Rahmen besteht aus der 3D-Formgenerierung und der Texturgenerierung. (1). Der 3D-Formgenerierungspfad verwendet einen Variationalen Autoencoder (VAE), um implizite 3D-Geometrien in einen latenten Raum zu kodieren, und ein Diffusionsnetzwerk, um Latente zu generieren, die von Eingabeimpulsen abhängig sind, mit Modifikationen zur Verbesserung der Modellkapazität. Es wird auch ein alternativer Ansatz zur Erzeugung von Künstler-erstellten Meshes (AM) untersucht, der vielversprechende Ergebnisse für einfachere Geometrien liefert. (2). Die Texturgenerierung umfasst einen mehrstufigen Prozess, der mit der Generierung von Frontalbildern beginnt, gefolgt von der Generierung von Mehransichtsbildern, der RGB-zu-PBR-Texturumwandlung und der hochauflösenden Mehransicht-Texturverfeinerung. Ein Konsistenzplaner wird in jeden Schritt eingebaut, um eine pixelweise Konsistenz zwischen Mehransichtstexturen während der Inferenz durchzusetzen und eine nahtlose Integration zu gewährleisten. Die Pipeline zeigt eine effektive Handhabung verschiedener Eingabeformate, indem fortschrittliche neuronale Architekturen und neuartige Methoden genutzt werden, um hochwertige 3D-Inhalte zu erzeugen. Dieser Bericht erläutert die Systemarchitektur, experimentelle Ergebnisse und potenzielle zukünftige Richtungen zur Verbesserung und Erweiterung des Rahmens. Der Quellcode und die vortrainierten Gewichte sind unter folgendem Link veröffentlicht: https://github.com/Tencent/Tencent-XR-3DGen.

Können Community-Notizen professionelle Faktenprüfer ersetzen?
Can Community Notes Replace Professional Fact-Checkers?

Feb 19, 2025
Nadav Borenstein, Greta Warren, Desmond Elliott, Isabelle Augenstein
62

Zwei häufig verwendete Strategien zur Bekämpfung des Anstiegs von Fehlinformationen in sozialen Medien sind (i) Faktenprüfung durch professionelle Organisationen und (ii) Community-Moderation durch Plattformnutzer. Politikänderungen von Twitter/X und, neuerdings, Meta signalisieren einen Wechsel weg von Partnerschaften mit Faktenprüfungsorganisationen hin zu einer verstärkten Abhängigkeit von von der Community bereitgestellten Notizen. Allerdings bleiben Umfang und Art der Abhängigkeiten zwischen Faktenprüfung und hilfreichen Community-Notizen unklar. Um diese Fragen zu klären, verwenden wir Sprachmodelle, um einen großen Korpus von Twitter/X-Community-Notizen mit Attributen wie Thema, zitierten Quellen und ob sie Behauptungen widerlegen, die mit umfassenderen Fehlinformationsnarrativen verbunden sind, zu annotieren. Unsere Analyse zeigt, dass Community-Notizen Faktenprüfungsquellen bis zu fünfmal häufiger zitieren als zuvor berichtet. Faktenprüfung ist besonders wichtig für Notizen zu Beiträgen, die mit umfassenderen Narrativen verbunden sind, da sie doppelt so häufig Faktenprüfungsquellen zitieren im Vergleich zu anderen Quellen. Zusammenfassend zeigen unsere Ergebnisse, dass erfolgreiche Community-Moderation stark auf professioneller Faktenprüfung beruht.

MutaGReP: Ausführungsfreie Repository-Verankerte Planungssuche für Code-Verwendung
MutaGReP: Execution-Free Repository-Grounded Plan Search for Code-Use

Feb 21, 2025
Zaid Khan, Ali Farhadi, Ranjay Krishna, Luca Weihs, Mohit Bansal, Tanmay Gupta
52

Wenn ein Mensch eine LLM darum bittet, eine Codieraufgabe unter Verwendung von Funktionen aus einem großen Code-Repository abzuschließen, wie liefern wir Kontext aus dem Repository an die LLM? Ein Ansatz besteht darin, das gesamte Repository dem Kontextfenster der LLM hinzuzufügen. Die meisten Aufgaben beinhalten jedoch nur einen Bruchteil der Symbole aus einem Repository, längere Kontexte sind nachteilig für die Denkfähigkeiten der LLM, und Kontextfenster sind nicht unbegrenzt. Alternativ könnten wir die menschliche Fähigkeit nachahmen, sich in einem großen Repository zu bewegen, die richtige Funktionalität auszuwählen und einen Plan zur Lösung der Aufgabe zu erstellen. Wir schlagen MutaGReP (Mutation-geführte Grounded Repository Plan Search) vor, einen Ansatz zur Suche nach Plänen, die eine Benutzeranfrage in natürliche Sprachschritte zerlegen, die im Codebase verankert sind. MutaGReP führt eine neuronale Baumsuche im Plänenraum durch, erkundet durch Mutation von Plänen und verwendet einen Symbol-Retriever zur Verankerung. Auf dem anspruchsvollen LongCodeArena-Benchmark verwenden unsere Pläne weniger als 5% des 128K-Kontextfensters für GPT-4o, konkurrieren jedoch mit der Codierleistung von GPT-4o mit einem Kontextfenster, das mit dem Repository gefüllt ist. Die von MutaGReP erstellten Pläne ermöglichen es Qwen 2.5 Coder 32B und 72B, die Leistung von GPT-4o mit vollem Repository-Kontext zu erreichen und Fortschritte bei den schwierigsten LongCodeArena-Aufgaben zu erzielen. Projektseite: zaidkhan.me/MutaGReP

Achte auf die Lücke! Statische und interaktive Bewertungen großer Audio-Modelle
Mind the Gap! Static and Interactive Evaluations of Large Audio Models

Feb 21, 2025
Minzhi Li, William Barr Held, Michael J Ryan, Kunat Pipatanakul, Potsawee Manakul, Hao Zhu, Diyi Yang
42

Mit der zunehmenden Verbreitung von KI-Chatbots bietet die Sprachinteraktion einen überzeugenden Weg, um schnelle, hochbandbreitige Kommunikation für semantische und soziale Signale zu ermöglichen. Dies hat die Forschung zu Großen Audio-Modellen (LAMs) vorangetrieben, um sprachbasierte Erlebnisse zu ermöglichen. Die Entwicklung von LAMs muss jedoch mit den Nutzerzielen in Einklang gebracht werden, was ein klares Verständnis der Nutzerbedürfnisse und -präferenzen erfordert, um zuverlässige Fortschrittsmetriken festzulegen. Diese Studie begegnet diesen Herausforderungen, indem sie einen interaktiven Ansatz zur Bewertung von LAMs einführt und 7.500 LAM-Interaktionen von 484 Teilnehmern sammelt. Durch die Themenmodellierung von Nutzeranfragen identifizieren wir primäre Anwendungsfälle für Audio-Schnittstellen. Anschließend analysieren wir die Präferenzrangfolgen der Nutzer und das qualitative Feedback, um festzustellen, welche Modelle am besten mit den Nutzerbedürfnissen übereinstimmen. Schließlich bewerten wir, wie statische Benchmarks die interaktive Leistung vorhersagen - unsere Analyse zeigt, dass kein einzelner Benchmark stark mit den interaktiven Ergebnissen korreliert (tau leq 0,33 für alle Benchmarks). Die Kombination mehrerer grobkörniger Merkmale liefert eine bescheidene Vorhersagekraft (R^2=0,30), wobei nur zwei von zwanzig Datensätzen zur gesprochenen Fragebeantwortung und Altersvorhersage signifikant positive Korrelationen aufweisen. Dies legt nahe, dass es einen klaren Bedarf gibt, LAM-Bewertungen zu entwickeln, die besser mit den Nutzerpräferenzen korrelieren.

Frühzeitiger Abbruch und Sofortige Vertrauensschätzung der Übersetzungsqualität
Early-Exit and Instant Confidence Translation Quality Estimation

Feb 20, 2025
Vilém Zouhar, Maike Züfle, Beni Egressy, Julius Cheng, Jan Niehues
42

Die Qualitätsabschätzung ist allgegenwärtig in der maschinellen Übersetzung, sowohl für die Bewertung als auch die Generierung. Leider sind Qualitätsabschätzungsmodelle oft undurchsichtig und rechenintensiv, was sie unpraktisch für den Einsatz in groß angelegten Pipelines macht. In dieser Arbeit behandeln wir zwei verbundene Herausforderungen: (1) die Reduzierung der Kosten für die Qualitätsabschätzung im großen Maßstab und (2) die Entwicklung einer kostengünstigen Methode zur Unsicherheitsabschätzung für die Qualitätsabschätzung. Um letzteres anzugehen, stellen wir Instant Confidence COMET vor, ein Unsicherheits-bewusstes Qualitätsabschätzungsmodell, das die Leistung früherer Ansätze zu einem Bruchteil ihrer Kosten erreicht. Wir erweitern dies zu Early-Exit COMET, einem Qualitätsabschätzungsmodell, das Qualitätsbewertungen und zugehörige Vertrauenswerte bereits in frühen Modellschichten berechnen kann, was es uns ermöglicht, Berechnungen frühzeitig zu beenden und die Evaluationskosten zu senken. Wir wenden unser Modell auch auf das Neuordnen der maschinellen Übersetzung an. Wir kombinieren Early-Exit COMET mit einem Upper Confidence Bound Bandit-Algorithmus, um den besten Kandidaten aus einem großen Pool zu finden, ohne das vollständige Evaluationsmodell für alle Kandidaten ausführen zu müssen. In beiden Fällen (Bewertung und Neuordnung) reduzieren unsere Methoden die erforderliche Rechenleistung um 50 % bei nur geringfügiger Leistungseinbuße.

MegaLoc: Eine Abfrage, sie alle zu finden
MegaLoc: One Retrieval to Place Them All

Feb 24, 2025
Gabriele Berton, Carlo Masone
32

Das Abrufen von Bildern aus demselben Ort wie eine gegebene Abfrage ist eine wichtige Komponente mehrerer Computer Vision Aufgaben, wie Visuelle Orterkennung, Landmarken-Abruf, Visuelle Lokalisierung, 3D-Rekonstruktion und SLAM. Allerdings sind bestehende Lösungen darauf ausgelegt, speziell für eine dieser Aufgaben zu funktionieren, und scheitern oft, wenn sich die Anforderungen leicht ändern oder wenn sie auf Daten außerhalb der Verteilung treffen. In diesem Paper kombinieren wir eine Vielzahl bestehender Methoden, Trainingsansätze und Datensätze, um ein Abrufmodell namens MegaLoc zu trainieren, das auf mehreren Aufgaben leistungsstark ist. Wir stellen fest, dass MegaLoc (1) den Stand der Technik auf einer Vielzahl von Visual Place Recognition Datensätzen erreicht, (2) beeindruckende Ergebnisse auf gängigen Landmark Retrieval Datensätzen erzielt und (3) einen neuen Stand der Technik für Visuelle Lokalisierung auf den LaMAR Datensätzen setzt, bei denen wir lediglich die Abrufmethode im bestehenden Lokalisierungspipeline geändert haben. Der Code für MegaLoc ist verfügbar unter https://github.com/gmberton/MegaLoc.

Selbstlernendes agentisches Verständnis langer Kontexte
Self-Taught Agentic Long Context Understanding

Feb 21, 2025
Yufan Zhuang, Xiaodong Yu, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Jingbo Shang, Zicheng Liu, Emad Barsoum
32

Die Beantwortung komplexer, langatmiger Fragen bleibt eine große Herausforderung für große Sprachmodelle (LLMs), da sie effektive Frageklärungen und Kontextabruf erfordert. Wir schlagen Agentic Long-Context Understanding (AgenticLU) vor, ein Framework, das entwickelt wurde, um das Verständnis solcher Anfragen eines LLMs durch die Integration gezielter Selbstklärung mit kontextueller Verankerung innerhalb eines agentischen Arbeitsablaufs zu verbessern. Im Kern von AgenticLU steht Chain-of-Clarifications (CoC), bei dem Modelle ihr Verständnis durch selbstgenerierte Klärungsfragen und entsprechende kontextuelle Verankerungen verfeinern. Durch Skalierung der Inferenz als Baumstruktur, bei der jeder Knoten einen CoC-Schritt darstellt, erreichen wir eine Antwortabrufquote von 97,8% auf NarrativeQA mit einer Suchtiefe von bis zu drei und einem Verzweigungsfaktor von acht. Um die hohe Kosten dieses Suchprozesses für das Training zu amortisieren, nutzen wir die Präferenzpaare für jeden Schritt, die durch den CoC-Arbeitsablauf erhalten wurden, und führen ein zweistufiges Modellfeintuning durch: (1) überwachtes Feintuning, um effektive Zerlegungsstrategien zu erlernen, und (2) direkte Präferenzoptimierung zur Verbesserung der Argumentationsqualität. Dies ermöglicht es AgenticLU-Modellen, Klärungen zu generieren und relevante Kontexte effektiv und effizient in einem einzigen Inferenzdurchlauf abzurufen. Umfangreiche Experimente über sieben langatmige Aufgaben zeigen, dass AgenticLU signifikant besser abschneidet als führende Aufforderungsmethoden und spezialisierte langatmige LLMs, robuste Mehrfachsprung-Argumentation erreicht und eine konsistente Leistung beibehält, während die Kontextlänge zunimmt.

MONSTER: Monash Skalierbares Zeitreihen-Evaluierungs-Repository
MONSTER: Monash Scalable Time Series Evaluation Repository

Feb 21, 2025
Angus Dempster, Navid Mohammadi Foumani, Chang Wei Tan, Lynn Miller, Amish Mishra, Mahsa Salehi, Charlotte Pelletier, Daniel F. Schmidt, Geoffrey I. Webb
32

Wir stellen MONSTER vor - das MONash Scalable Time Series Evaluation Repository - eine Sammlung großer Datensätze für die Klassifizierung von Zeitreihen. Das Gebiet der Zeitreihenklassifizierung hat von den gemeinsamen Benchmarks profitiert, die von den Zeitreihenklassifizierungs-Repositories UCR und UEA festgelegt wurden. Die Datensätze in diesen Benchmarks sind jedoch klein, mit Median-Größen von jeweils 217 und 255 Beispielen. Folglich bevorzugen sie einen engen Modellunterraum, der darauf optimiert ist, eine geringe Klassifizierungsfehlerquote auf einer Vielzahl kleinerer Datensätze zu erreichen, d.h. Modelle, die die Varianz minimieren, und wenig Gewicht auf Skalierbarkeitsprobleme legen. Unser Ziel ist es, das Gebiet durch die Einführung von Benchmarks mit größeren Datensätzen zu diversifizieren. Wir glauben, dass es ein enormes Potenzial für neue Fortschritte in diesem Bereich gibt, indem wir uns mit den theoretischen und praktischen Herausforderungen des effektiven Lernens aus größeren Datenmengen auseinandersetzen.

Diagnose der COVID-19-Schwere anhand von Brust-Röntgenbildern mit ViT- und CNN-Architekturen.
Diagnosing COVID-19 Severity from Chest X-Ray Images Using ViT and CNN Architectures

Feb 23, 2025
Luis Lara, Lucia Eve Berger, Rajesh Raju, Shawn Whitfield
22

Die COVID-19-Pandemie belastete Gesundheitsressourcen und löste Diskussionen darüber aus, wie maschinelles Lernen die Arbeitslast der Ärzte verringern und zur Diagnose beitragen kann. Brust-Röntgenaufnahmen (CXR) werden zur Diagnose von COVID-19 verwendet, aber nur wenige Studien sagen die Schwere des Zustands eines Patienten anhand von CXRs voraus. In dieser Studie erstellen wir einen umfangreichen Datensatz zur Schwere von COVID, indem wir drei Quellen zusammenführen, und untersuchen die Wirksamkeit des Transferlernens unter Verwendung von ImageNet- und CXR-vortrainierten Modellen sowie Vision-Transformern (ViTs) bei sowohl der Schweregrad-Regression als auch der Klassifizierungsaufgaben. Ein vortrainiertes DenseNet161-Modell schnitt am besten bei dem Problem der Vorhersage des Schweregrads in drei Klassen ab, mit einer Gesamtgenauigkeit von 80% und jeweils 77,3%, 83,9% und 70% für leichte, mittelschwere und schwere Fälle. Das ViT erzielte die besten Ergebnisse bei der Regression, mit einem mittleren absoluten Fehler von 0,5676 im Vergleich zu von Radiologen vorhergesagten Schweregradpunktzahlen. Der Quellcode des Projekts ist öffentlich verfügbar.

M3-AGIQA: Multimodale, mehrstufige, multifaktorielle KI-generierte Bildqualitätsbewertung
M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment

Feb 21, 2025
Chuan Cui, Kejiang Chen, Zhihua Wei, Wen Shen, Weiming Zhang, Nenghai Yu
22

Der rasante Fortschritt von KI-generierten Bildmodellen (AGI) hat bedeutende Herausforderungen bei der Bewertung ihrer Qualität eingeführt, die die Berücksichtigung mehrerer Dimensionen wie die Wahrnehmungsqualität, prompte Übereinstimmung und Authentizität erfordert. Um diesen Herausforderungen zu begegnen, schlagen wir M3-AGIQA vor, ein umfassendes Rahmenwerk zur Bewertung der Qualität von AGI, das multimodal, mehrstufig und mehrdimensional ist. Unser Ansatz nutzt die Fähigkeiten von Multimodalen Großen Sprachmodellen (MLLMs) als gemeinsame Text- und Bildcodierer und destilliert fortgeschrittene Bildbeschreibungsfähigkeiten von Online MLLMs in ein lokales Modell über Feinabstimmung mit niedrigem Rang (LoRA). Das Rahmenwerk umfasst einen strukturierten mehrstufigen Bewertungsmechanismus, bei dem Zwischenbildbeschreibungen generiert werden, um tiefere Einblicke in die Qualität, Übereinstimmung und Authentizität zu bieten. Um Vorhersagen mit menschlichen Wahrnehmungsurteilen in Einklang zu bringen, wird ein Vorhersager, der von einem xLSTM und einem Regressionskopf konstruiert wurde, integriert, um sequenzielle Logits zu verarbeiten und durchschnittliche Meinungspunktzahlen (MOSs) vorherzusagen. Umfangreiche Experimente, die an mehreren Benchmark-Datensätzen durchgeführt wurden, zeigen, dass M3-AGIQA eine Spitzenleistung erzielt und nuancierte Aspekte der AGI-Qualität effektiv erfasst. Darüber hinaus bestätigt eine Validierung über Datensätze hinweg seine starke Verallgemeinerbarkeit. Der Code ist verfügbar unter https://github.com/strawhatboy/M3-AGIQA.

Die Schlange in der Brownschen Kugel.
The snake in the Brownian sphere

Feb 18, 2025
Omer Angel, Emmanuel Jacob, Brett Kolesnik, Grégory Miermont
22

Die Brown'sche Kugel ist ein zufälliger metrischer Raum, homöomorph zur zweidimensionalen Kugel, der als universale Skalierungsgrenze vieler Arten von zufälligen planaren Karten entsteht. Die direkte Konstruktion der Brown'schen Kugel erfolgt über eine kontinuierliche Analogie der Cori-Vauquelin-Schaeffer (CVS) Bijektion. Die CVS-Bijektion bildet beschriftete Bäume auf planare Karten ab, und die kontinuierliche Version bildet Aldous' kontinuierlichen Zufallsbaum mit Brownschen Beschriftungen (die Brown'sche Schlange) auf die Brown'sche Kugel ab. In dieser Arbeit beschreiben wir die Umkehrung der kontinuierlichen CVS-Bijektion, indem wir die Brown'sche Schlange als messbare Funktion der Brown'schen Kugel konstruieren. Besondere Sorgfalt ist erforderlich, um mit der Orientierung der Brown'schen Kugel zu arbeiten.

Feb 24
Feb 25
Feb 26