ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

φ-Decoding: Adaptives Vorausschauendes Sampling für Ausgewogene Inferenz-Zeit-Exploration und -Exploitation
φ-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time Exploration and Exploitation

Mar 17
ByFangzhi Xu, Hang Yan, Chang Ma, Haiteng Zhao, Jun Liu, Qika Lin, Zhiyong Wu
51
2

Inference-Zeit-Optimierung skaliert die Berechnung, um gezielte Denkschritte für eine effektive Leistung abzuleiten. Während bisherige suchbasierte Strategien die Kurzsichtigkeit der autoregressiven Generierung angehen, führt der riesige Suchraum zu übermäßiger Exploration und unzureichender Ausnutzung. Um ein effizientes Gleichgewicht zu finden und den optimalen Schritt abzuleiten, formulieren wir die Dekodierungsstrategie als Vorausschau-Sampling, das simulierte zukünftige Schritte nutzt, um eine global optimale Schätzung des Schritts zu erhalten. Darauf aufbauend schlagen wir eine neuartige Dekodierungsstrategie namens phi-Decoding vor. Um eine präzise und ausdrucksstarke Schätzung des Schrittwerts zu liefern, approximiert phi-Decoding zwei Verteilungen durch Vorausschau und Clustering. Durch das Sampling aus der gemeinsamen Verteilung können die optimalen Schritte für die Ausnutzung ausgewählt werden. Um eine adaptive Berechnungszuweisung zu unterstützen, schlagen wir In-Breite- und In-Tiefe-Beschneidungsstrategien vor, die eine leichtgewichtige Lösung zur Erreichung von Inferenz-Effizienz bieten. Umfangreiche Experimente über sieben Benchmarks zeigen, dass phi-Decoding starke Baselines sowohl in der Leistung als auch in der Effizienz übertrifft. Zusätzliche Analysen demonstrieren seine Generalisierbarkeit über verschiedene LLMs und Skalierbarkeit über ein breites Spektrum von Rechenbudgets. Der Code wird unter https://github.com/xufangzhi/phi-Decoding veröffentlicht, und das Open-Source-PyPI-Paket wird in Kürze verfügbar sein.

2

TULIP: Auf dem Weg zu einem einheitlichen Sprach-Bild-Vorabtraining
TULIP: Towards Unified Language-Image Pretraining

Mar 19
ByZineng Tang, Long Lian, Seun Eisape, XuDong Wang, Roei Herzig, Adam Yala, Alane Suhr, Trevor Darrell, David M. Chan
49
2

Trotz des jüngsten Erfolgs von Bild-Text-Kontrastmodellen wie CLIP und SigLIP kämpfen diese Modelle oft mit visuell zentrierten Aufgaben, die ein hochpräzises Bildverständnis erfordern, wie Zählen, Tiefenschätzung und feinkörnige Objekterkennung. Diese Modelle, die eine Sprachausrichtung durchführen, neigen dazu, hochrangige Semantik gegenüber dem visuellen Verständnis zu priorisieren, was ihr Bildverständnis schwächt. Auf der anderen Seite sind visuell fokussierte Modelle hervorragend in der Verarbeitung visueller Informationen, haben jedoch Schwierigkeiten, Sprache zu verstehen, was ihre Flexibilität für sprachgesteuerte Aufgaben einschränkt. In dieser Arbeit stellen wir TULIP vor, eine Open-Source, direkte Alternative zu bestehenden CLIP-ähnlichen Modellen. Unsere Methode nutzt generative Datenaugmentierung, verbessertes Bild-Bild- und Text-Text-Kontrastlernen sowie Bild-/Text-Rekonstruktionsregularisierung, um feinkörnige visuelle Merkmale zu erlernen und gleichzeitig die globale semantische Ausrichtung beizubehalten. Unser Ansatz, der auf über 1 Milliarde Parameter skaliert, übertrifft bestehende State-of-the-Art (SOTA)-Modelle in mehreren Benchmarks, etabliert eine neue SOTA Zero-Shot-Leistung auf ImageNet-1K, liefert eine bis zu 2-fache Verbesserung gegenüber SigLIP auf RxRx1 in der linearen Sondierung für Few-Shot-Klassifikation und verbessert Vision-Language-Modelle, indem er über 3-mal höhere Werte als SigLIP auf MMVP erreicht. Unser Code/Checkpoints sind verfügbar unter https://tulip-berkeley.github.io.

3

DeepMesh: Auto-regressive Erstellung von Künstlermeshes mit Verstärkungslernen
DeepMesh: Auto-Regressive Artist-mesh Creation with Reinforcement Learning

Mar 19
ByRuowen Zhao, Junliang Ye, Zhengyi Wang, Guangce Liu, Yiwen Chen, Yikai Wang, Jun Zhu
46
3

Dreiecksnetze spielen eine entscheidende Rolle in 3D-Anwendungen für effiziente Manipulation und Darstellung. Während autoregressive Methoden strukturierte Netze durch die Vorhersage diskreter Scheitelpunkt-Tokens erzeugen, sind sie oft durch begrenzte Flächenanzahlen und Netzunvollständigkeit eingeschränkt. Um diese Herausforderungen zu bewältigen, schlagen wir DeepMesh vor, ein Framework, das die Netzgenerierung durch zwei zentrale Innovationen optimiert: (1) eine effiziente Vorabtrainingsstrategie, die einen neuartigen Tokenisierungsalgorithmus sowie Verbesserungen in der Datenkuratierung und -verarbeitung umfasst, und (2) die Einführung von Reinforcement Learning (RL) in die 3D-Netzgenerierung, um eine Ausrichtung an menschlichen Präferenzen durch Direct Preference Optimization (DPO) zu erreichen. Wir entwickeln einen Bewertungsstandard, der menschliche Bewertungen mit 3D-Metriken kombiniert, um Präferenzpaare für DPO zu sammeln und sowohl visuelle Anziehungskraft als auch geometrische Genauigkeit sicherzustellen. Basierend auf Punktwolken und Bildern erzeugt DeepMesh Netze mit komplexen Details und präziser Topologie und übertrifft dabei state-of-the-art Methoden sowohl in der Präzision als auch in der Qualität. Projektseite: https://zhaorw02.github.io/DeepMesh/

4

Cube: Eine Roblox-Perspektive auf 3D-Intelligenz
Cube: A Roblox View of 3D Intelligence

Mar 19
ByFoundation AI Team, Kiran Bhat, Nishchaie Khanna, Karun Channa, Tinghui Zhou, Yiheng Zhu, Xiaoxia Sun, Charles Shang, Anirudh Sudarshan, Maurice Chu, Daiqing Li, Kangle Deng, Jean-Philippe Fauconnier, Tijmen Verhulsdonck, Maneesh Agrawala, Kayvon Fatahalian, Alexander Weiss, Christian Reiser, Ravi Kiran Chirravuri, Ravali Kandur, Alejandro Pelaez, Akash Garg, Michael Palleschi, Jessica Wang, Skylar Litz, Leon Liu, Anying Li, David Harmon, Derek Liu, Liangjun Feng, Denis Goupil, Lukas Kuczynski, Jihyun Yoon, Naveen Marri, Peiye Zhuang, Yinan Zhang, Brian Yin, Haomiao Jiang, Marcel van Workum, Thomas Lane, Bryce Erickson, Salil Pathare, Kyle Price, Anupam Singh, David Baszucki
30
2

Foundation Models, die mit großen Datenmengen trainiert wurden, haben bemerkenswerte Fähigkeiten im Bereich des Denkens und der Generierung in den Domänen Text, Bilder, Audio und Video gezeigt. Unser Ziel bei Roblox ist es, ein solches Foundation Model für 3D-Intelligenz zu entwickeln – ein Modell, das Entwickler dabei unterstützen kann, alle Aspekte einer Roblox-Erfahrung zu erstellen, von der Generierung von 3D-Objekten und Szenen über das Rigging von Charakteren für Animationen bis hin zur Erstellung programmatischer Skripte, die Objektverhalten beschreiben. Wir diskutieren drei zentrale Designanforderungen für ein solches 3D-Foundation Model und präsentieren dann unseren ersten Schritt zum Aufbau eines solchen Modells. Wir gehen davon aus, dass 3D-geometrische Formen ein zentraler Datentyp sein werden und beschreiben unsere Lösung für einen 3D-Shape-Tokenizer. Wir zeigen, wie unser Tokenisierungsschema in Anwendungen für Text-zu-Form-Generierung, Form-zu-Text-Generierung und Text-zu-Szene-Generierung eingesetzt werden kann. Wir demonstrieren, wie diese Anwendungen mit bestehenden Large Language Models (LLMs) zusammenarbeiten können, um Szenenanalysen und -schlussfolgerungen durchzuführen. Wir schließen mit einer Diskussion, die unseren Weg zur Entwicklung eines vollständig vereinheitlichten Foundation Models für 3D-Intelligenz skizziert.

5

GKG-LLM: Ein einheitliches Framework für die Konstruktion verallgemeinerter Wissensgraphen
GKG-LLM: A Unified Framework for Generalized Knowledge Graph Construction

Mar 14
ByJian Zhang, Bifan Wei, Shihao Qi, haiping Zhu, Jun Liu, Qika Lin
24
2

Die Konstruktion eines Generalisierten Wissensgraphen (Generalized Knowledge Graph, GKG), einschließlich Wissensgraphen, Ereigniswissensgraphen und Commonsense-Wissensgraphen, ist grundlegend für verschiedene Aufgaben der natürlichen Sprachverarbeitung. Aktuelle Studien erstellen diese Arten von Graphen typischerweise separat, wobei ganzheitliche Erkenntnisse und potenzielle Vereinheitlichungen, die in Bezug auf Rechenressourcen und Nutzungsperspektiven vorteilhaft sein könnten, übersehen werden. Eine zentrale Herausforderung bei der Entwicklung eines einheitlichen Frameworks für GKG sind jedoch Hindernisse, die sich aus aufgabenspezifischen Unterschieden ergeben. In dieser Studie schlagen wir ein einheitliches Framework zur Konstruktion generalisierter Wissensgraphen vor, um diese Herausforderung zu bewältigen. Zunächst sammeln wir Daten aus 15 Unteraufgaben in 29 Datensätzen über die drei Arten von Graphen hinweg und kategorisieren sie in In-Sample-, Gegenaufgaben- und Out-of-Distribution (OOD)-Daten. Anschließend schlagen wir ein dreistufiges Curriculum-Learning-Fine-Tuning-Framework vor, indem wir iterativ Wissen aus den drei Arten von Graphen in Large Language Models einfügen. Umfangreiche Experimente zeigen, dass unser vorgeschlagenes Modell die Konstruktion aller drei Graphentypen über In-Domain-, OOD- und Gegenaufgaben-Daten hinweg verbessert.

6

Temporale Regularisierung macht Ihren Video-Generator leistungsfähiger.
Temporal Regularization Makes Your Video Generator Stronger

Mar 19
ByHarold Haodong Chen, Haojian Huang, Xianfeng Wu, Yexin Liu, Yajing Bai, Wen-Jie Shu, Harry Yang, Ser-Nam Lim
22
2

Die zeitliche Qualität ist ein entscheidender Aspekt der Videogenerierung, da sie konsistente Bewegungen und realistische Dynamik über die Frames hinweg gewährleistet. Dennoch bleibt die Erzielung hoher zeitlicher Kohärenz und Vielfalt eine Herausforderung. In dieser Arbeit untersuchen wir erstmals die zeitliche Augmentierung in der Videogenerierung und führen FluxFlow als initiale Untersuchungsstrategie ein, die darauf abzielt, die zeitliche Qualität zu verbessern. Auf der Datenebene operierend, wendet FluxFlow kontrollierte zeitliche Störungen an, ohne dass architektonische Modifikationen erforderlich sind. Umfangreiche Experimente auf den Benchmarks UCF-101 und VBench zeigen, dass FluxFlow die zeitliche Kohärenz und Vielfalt bei verschiedenen Videogenerierungsmodellen, einschließlich U-Net, DiT und AR-basierten Architekturen, signifikant verbessert, während die räumliche Treue erhalten bleibt. Diese Ergebnisse unterstreichen das Potenzial der zeitlichen Augmentierung als einfachen, aber effektiven Ansatz zur Steigerung der Qualität der Videogenerierung.

7

MetaLadder: Steigerung der mathematischen Lösungsqualität durch Analogie-Problem-Transfer
MetaLadder: Ascending Mathematical Solution Quality via Analogical-Problem Reasoning Transfer

Mar 19
ByHonglin Lin, Zhuoshi Pan, Yu Li, Qizhi Pei, Xin Gao, Mengzhang Cai, Conghui He, Lijun Wu
22
2

Große Sprachmodelle (LLMs) haben vielversprechende Fähigkeiten bei der Lösung mathematischer Denkaufgaben gezeigt, wobei Chain-of-Thought (CoT)-Daten als wesentliche Komponente zur Steuerung der Antwortgenerierung genutzt werden. Aktuelle Paradigmen generieren CoT und Antworten in der Regel direkt für eine gegebene Aufgabe, was sich in gewissem Maße von menschlichen Problemlösungsstrategien unterscheidet. Menschen lösen Probleme oft, indem sie sich an analoge Fälle erinnern und deren Lösungen nutzen, um über die aktuelle Aufgabe nachzudenken. Inspiriert von diesem kognitiven Prozess schlagen wir MetaLadder vor, ein neuartiges Framework, das LLMs explizit dazu anregt, Meta-Probleme – also strukturell oder semantisch analoge Probleme – sowie deren CoT-Lösungen zu rekapitulieren und zu reflektieren, bevor sie sich der Zielaufgabe widmen. Zusätzlich führen wir einen Mechanismus zur Problemumformulierung ein, um das Verständnis des Modells für die Zielaufgabe zu verbessern, indem die ursprüngliche Frage neu generiert wird, was die Genauigkeit der Schlussfolgerung weiter steigert. Dadurch kann das Modell einen Transfer des Denkens von analogen Problemen erreichen, was die menschliche Fähigkeit des „Lernens an Beispielen“ und der Generalisierung nachahmt. Umfangreiche Experimente auf mathematischen Benchmarks zeigen, dass unser MetaLadder die Problemlösungsgenauigkeit von LLMs erheblich steigert und dabei standardmäßige CoT-basierte Methoden (10,3 % Genauigkeitsgewinn) und andere Methoden deutlich übertrifft. Unser Code und unsere Daten wurden unter https://github.com/LHL3341/MetaLadder veröffentlicht.

8

VERIFY: Ein Benchmark für visuelle Erklärungen und Schlussfolgerungen zur Untersuchung der Multimodalen Schlussfolgerungstreue
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity

Mar 14
ByJing Bi, Junjia Guo, Susan Liang, Guangyu Sun, Luchuan Song, Yunlong Tang, Jinxi He, Jiarui Wu, Ali Vosoughi, Chen Chen, Chenliang Xu
22
2

Visuelles Denken ist zentral für die menschliche Kognition und ermöglicht es Individuen, ihre Umgebung zu interpretieren und abstrakt zu verstehen. Obwohl neuere Multimodale Große Sprachmodelle (MLLMs) beeindruckende Leistungen in sprachlichen und visuell-sprachlichen Aufgaben gezeigt haben, messen bestehende Benchmarks hauptsächlich erkennungsbasierte Fähigkeiten und bewerten echte visuelle Denkfähigkeiten unzureichend. Um diese kritische Lücke zu schließen, führen wir VERIFY ein, einen Benchmark, der explizit entwickelt wurde, um die visuellen Denkfähigkeiten modernster MLLMs zu isolieren und rigoros zu bewerten. VERIFY zwingt Modelle, sich hauptsächlich auf visuelle Informationen zu stützen, indem nur minimaler textueller Kontext bereitgestellt wird, um die Abhängigkeit von domänenspezifischem Wissen und sprachlichen Verzerrungen zu reduzieren. Jede Aufgabe wird von einem menschlich annotierten Denkpfad begleitet, was VERIFY zum ersten Benchmark macht, der eine detaillierte Bewertung der Entscheidungsprozesse von Modellen ermöglicht. Zusätzlich schlagen wir neue Metriken vor, die die Treue des visuellen Denkens über die bloße Genauigkeit hinaus bewerten und kritische Ungleichgewichte in den aktuellen Denkmustern der Modelle aufzeigen. Unsere umfassende Bewertung führender MLLMs deckt erhebliche Einschränkungen auf und unterstreicht die Notwendigkeit eines ausgewogenen und ganzheitlichen Ansatzes sowohl für die Wahrnehmung als auch für das Denken. Für weitere Vorschauen und Tests besuchen Sie unsere Projektseite (https://verify-eqh.pages.dev/).

9

LEGION: Lernen zur Verankerung und Erklärung für die Erkennung synthetischer Bilder
LEGION: Learning to Ground and Explain for Synthetic Image Detection

Mar 19
ByHengrui Kang, Siwei Wen, Zichen Wen, Junyan Ye, Weijia Li, Peilin Feng, Baichuan Zhou, Bin Wang, Dahua Lin, Linfeng Zhang, Conghui He
21
2

Die rasanten Fortschritte in der generativen Technologie haben sich als ein zweischneidiges Schwert erwiesen. Während sie leistungsstarke Werkzeuge bieten, die den Komfort erhöhen, bergen sie auch erhebliche gesellschaftliche Bedenken. Als Verteidigungsmaßnahmen mangelt es den derzeitigen Methoden zur Erkennung synthetischer Bilder oft an textueller Interpretierbarkeit auf Artefaktebene und sie konzentrieren sich übermäßig auf die Erkennung von Bildmanipulationen. Zudem leiden aktuelle Datensätze meist unter veralteten Generatoren und einem Mangel an feingranularen Annotationen. In diesem Artikel stellen wir SynthScars vor, einen hochwertigen und vielfältigen Datensatz, der aus 12.236 vollständig synthetischen Bildern mit Annotationen von menschlichen Experten besteht. Er umfasst 4 verschiedene Bildinhaltsarten, 3 Kategorien von Artefakten und feingranulare Annotationen, die pixelgenaue Segmentierung, detaillierte textuelle Erklärungen und Artefakt-Kategorielabels abdecken. Darüber hinaus schlagen wir LEGION (LEarning to Ground and explain for Synthetic Image detectiON) vor, ein multimodales großes Sprachmodell (MLLM)-basiertes Framework zur Analyse von Bildfälschungen, das Artefakterkennung, Segmentierung und Erklärung integriert. Aufbauend auf dieser Fähigkeit untersuchen wir LEGION weiterhin als Controller, indem wir es in Bildverfeinerungspipelines integrieren, um die Erzeugung von qualitativ hochwertigeren und realistischeren Bildern zu steuern. Umfangreiche Experimente zeigen, dass LEGION bestehende Methoden in mehreren Benchmarks übertrifft, insbesondere den zweitbesten traditionellen Experten auf SynthScars um 3,31 % in mIoU und 7,75 % im F1-Score übertrifft. Darüber hinaus zeigen die unter seiner Anleitung verfeinerten Bilder eine stärkere Übereinstimmung mit menschlichen Präferenzen. Der Code, das Modell und der Datensatz werden veröffentlicht.

10

Effiziente Personalisierung eines quantisierten Diffusionsmodells ohne Backpropagation
Efficient Personalization of Quantized Diffusion Model without Backpropagation

Mar 19
ByHoigi Seo, Wongi Jeong, Kyungryeol Lee, Se Young Chun
20
2

Diffusionsmodelle haben bemerkenswerte Leistungen in der Bildsynthese gezeigt, erfordern jedoch umfangreiche Rechen- und Speicherressourcen für das Training, die Feinabstimmung und die Inferenz. Obwohl fortschrittliche Quantisierungstechniken den Speicherbedarf für die Inferenz erfolgreich minimiert haben, benötigen das Training und die Feinabstimmung dieser quantisierten Modelle weiterhin viel Speicher, möglicherweise aufgrund von Dequantisierung für die genaue Berechnung von Gradienten und/oder Backpropagation für gradientenbasierte Algorithmen. Speichereffiziente Feinabstimmung ist jedoch besonders wünschenswert für Anwendungen wie Personalisierung, die oft auf Edge-Geräten wie Mobiltelefonen mit privaten Daten ausgeführt werden müssen. In dieser Arbeit gehen wir diese Herausforderung an, indem wir ein Diffusionsmodell mit Personalisierung via Textual Inversion quantisieren und eine Optimierung nullter Ordnung auf Personalisierungstokens ohne Dequantisierung nutzen, sodass keine Speicherung von Gradienten und Aktivierungen für die Backpropagation erforderlich ist, die erheblichen Speicher verbraucht. Da eine Gradientenschätzung mit Optimierung nullter Ordnung für ein einzelnes oder wenige Bilder in der Personalisierung recht verrauscht ist, schlagen wir vor, den geschätzten Gradienten durch Projektion auf einen Unterraum zu entrauschen, der mit der Vergangenheit der Tokens konstruiert wird, genannt Subspace Gradient. Zusätzlich haben wir den Einfluss von Text-Einbettungen auf die Bildgenerierung untersucht, was zu unserem vorgeschlagenen Sampling von Zeitschritten führte, genannt Partial Uniform Timestep Sampling für das Sampling mit effektiven Diffusion-Zeitschritten. Unsere Methode erreicht vergleichbare Leistungen zu früheren Methoden in Bild- und Textausrichtungswerten für die Personalisierung von Stable Diffusion mit nur Vorwärtspässen, während der Trainingsspeicherbedarf um bis zu das 8,2-fache reduziert wird.

11

Optimierung der Zerlegung für die optimale Überprüfung von Behauptungen
Optimizing Decomposition for Optimal Claim Verification

Mar 19
ByYining Lu, Noah Ziems, Hy Dang, Meng Jiang
18
2

Aktuelle Forschungen zum Decompose-Then-Verify-Paradigma zur Bewertung der Faktizität von Langtexten behandeln typischerweise die Zerlegung und Verifizierung isoliert, wobei ihre Interaktionen und potenzielle Fehlausrichtung übersehen werden. Wir stellen fest, dass bestehende Zerlegungsstrategien, die üblicherweise handgefertigte Demonstrationen sind, nicht gut mit nachgelagerten Verifizierern in Bezug auf die Atomarität – eine neuartige Metrik zur Quantifizierung der Informationsdichte – übereinstimmen, was zu suboptimalen Verifizierungsergebnissen führt. Wir formulieren die Suche nach der optimalen Zerlegungsstrategie für eine optimale Verifizierung als ein bilevel Optimierungsproblem. Um eine Lösung für dieses stark NP-schwere Problem anzunähern, schlagen wir die dynamische Zerlegung vor, ein Reinforcement-Learning-Framework, das Feedback des Verifizierers nutzt, um eine Strategie zur dynamischen Zerlegung von Behauptungen in die vom Verifizierer bevorzugte Atomarität zu erlernen. Experimentelle Ergebnisse zeigen, dass die dynamische Zerlegung bestehende Zerlegungsstrategien übertrifft und die Verifizierungszuversicht um 0,07 und die Genauigkeit um 0,12 (auf einer Skala von 0-1) im Durchschnitt über verschiedene Verifizierer, Datensätze und Atomaritäten der Eingabebehauptungen verbessert.

12

STEVE: Eine schrittweise Verifizierungspipeline für das Training von Computer-Nutzungsagenten
STEVE: AStep Verification Pipeline for Computer-use Agent Training

Mar 16
ByFanbin Lu, Zhisheng Zhong, Ziqin Wei, Shu Liu, Chi-Wing Fu, Jiaya Jia
17
2

Die Entwicklung von KI-Agenten zur autonomen Manipulation grafischer Benutzeroberflächen ist eine langwierige und herausfordernde Aufgabe. Jüngste Fortschritte in den Skalierungsgesetzen von Daten inspirieren uns dazu, Computer-Nutzungs-Agenten mit einem skalierten Befehlssatz zu trainieren. Dennoch erfordert das Training von Agenten durch Verhaltensklonung immense Mengen an hochwertigen Trajektorien. Um den Skalierungsbedarf zu decken, haben wir STEVE entworfen, eine Schritt-Verifikations-Pipeline für das Training von Computer-Nutzungs-Agenten. Zunächst erstellen wir einen umfangreichen Befehlssatz für Computer-Nutzungs-Agenten und sammeln Trajektorien-Daten mit einigen suboptimalen Agenten. GPT-4o wird verwendet, um die Korrektheit jedes Schritts in den Trajektorien basierend auf den Bildschirmen vor und nach der Ausführung der Aktion zu überprüfen und jedem Schritt ein binäres Label zuzuweisen. Schließlich wenden wir die Kahneman- und Tversky-Optimierung an, um den Agenten anhand der binären schrittweisen Labels zu optimieren. Umfangreiche Experimente zeigen, dass unser Agent durch die Nutzung sowohl positiver als auch negativer Aktionen innerhalb einer Trajektorie das überwachte Feinabstimmen übertrifft. Zudem ermöglicht uns STEVE, ein 7B-Vision-Sprach-Modell als Computer-Nutzungs-Agent zu trainieren, das führende Leistungen in der anspruchsvollen Live-Desktop-Umgebung WinAgentArena bei großer Effizienz und reduzierten Kosten erzielt. Code und Daten: https://github.com/FanbinLu/STEVE.

13

SWEET-RL: Training von Multi-Turn-LLM-Agenten für kollaborative Denkaufgaben
SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks

Mar 19
ByYifei Zhou, Song Jiang, Yuandong Tian, Jason Weston, Sergey Levine, Sainbayar Sukhbaatar, Xian Li
13
2

Große Sprachmodell-Agenten (LLM-Agenten) müssen in realen Aufgaben mehrstufige Interaktionen durchführen. Allerdings versagen bestehende mehrstufige RL-Algorithmen (Reinforcement Learning) zur Optimierung von LLM-Agenten darin, eine effektive Kreditvergabe über mehrere Schritte hinweg zu leisten, während sie gleichzeitig die Generalisierungsfähigkeiten von LLMs nutzen. Es bleibt unklar, wie solche Algorithmen entwickelt werden können. Um dies zu untersuchen, führen wir zunächst einen neuen Benchmark, ColBench, ein, bei dem ein LLM-Agent über mehrere Schritte hinweg mit einem menschlichen Mitarbeiter interagiert, um realistische Aufgaben in der Backend-Programmierung und Frontend-Gestaltung zu lösen. Aufbauend auf diesem Benchmark schlagen wir einen neuartigen RL-Algorithmus vor, SWEET-RL (RL mit schrittweiser Bewertung auf Basis von Trainingsinformationen), der ein sorgfältig gestaltetes Optimierungsziel verwendet, um ein Kritikmodell mit Zugriff auf zusätzliche Trainingsinformationen zu trainieren. Das Kritikmodell liefert schrittweise Belohnungen zur Verbesserung des Politikmodells. Unsere Experimente zeigen, dass SWEET-RL im Vergleich zu anderen state-of-the-art mehrstufigen RL-Algorithmen eine absolute Verbesserung von 6 % bei Erfolgs- und Gewinnraten auf ColBench erzielt und es Llama-3.1-8B ermöglicht, die Leistung von GPT4-o bei der realistischen kollaborativen Inhaltserstellung zu erreichen oder zu übertreffen.

14

SkyLadder: Besseres und schnelleres Pretraining durch Kontextfensterplanung
SkyLadder: Better and Faster Pretraining via Context Window Scheduling

Mar 19
ByTongyao Zhu, Qian Liu, Haonan Wang, Shiqi Chen, Xiangming Gu, Tianyu Pang, Min-Yen Kan
12
2

Jüngste Fortschritte im Pre-Training von LLMs (Large Language Models) waren durch immer größere Kontextfenster geprägt, um längere Sequenzen verarbeiten zu können. Unsere Pilotstudie zeigt jedoch, dass Modelle, die mit kürzeren Kontextfenstern vortrainiert wurden, bei einem festen Token-Budget durchweg besser abschneiden als ihre Pendants mit langen Kontextfenstern. Diese Erkenntnis motiviert uns, eine optimale Strategie für die Planung von Kontextfenstern zu erforschen, um die Fähigkeit zur Verarbeitung langer Kontexte besser mit der Effizienz des Pre-Trainings in Einklang zu bringen. Zu diesem Zweck schlagen wir SkyLadder vor, einen einfachen, aber effektiven Ansatz, der einen Übergang von kurzen zu langen Kontextfenstern implementiert. SkyLadder bewahrt eine starke Leistung auf Standard-Benchmarks, während es die Ergebnisse der Baselines bei Aufgaben mit langen Kontexten erreicht oder übertrifft. Durch umfangreiche Experimente haben wir 1B-Parameter-Modelle (bis zu 32K Kontext) und 3B-Parameter-Modelle (8K Kontext) auf 100B Tokens vortrainiert und gezeigt, dass SkyLadder auf gängigen Benchmarks konsistente Gewinne von bis zu 3,7 % erzielt, während es im Vergleich zu den Baselines eine bis zu 22 % schnellere Trainingsgeschwindigkeit erreicht. Der Code ist unter https://github.com/sail-sg/SkyLadder verfügbar.

15

MusicInfuser: Video-Diffusion zum Hören und Tanzen bringen
MusicInfuser: Making Video Diffusion Listen and Dance

Mar 18
BySusung Hong, Ira Kemelmacher-Shlizerman, Brian Curless, Steven M. Seitz
11
2

Wir stellen MusicInfuser vor, einen Ansatz zur Erzeugung hochwertiger Tanzvideos, die mit einem spezifizierten Musiktrack synchronisiert sind. Anstatt zu versuchen, ein neues multimodales Audio-Video-Modell zu entwerfen und zu trainieren, zeigen wir, wie bestehende Video-Diffusionsmodelle durch die Einführung einer leichtgewichtigen Musik-Video-Cross-Attention und eines Low-Rank-Adapters an musikalische Eingaben angepasst werden können. Im Gegensatz zu früheren Arbeiten, die Motion-Capture-Daten erfordern, feintunet unser Ansatz ausschließlich auf Tanzvideos. MusicInfuser erreicht eine hochwertige musikgesteuerte Videogenerierung, während die Flexibilität und generativen Fähigkeiten der zugrunde liegenden Modelle erhalten bleiben. Wir führen ein Bewertungsframework ein, das Video-LLMs verwendet, um mehrere Dimensionen der Tanzgenerierungsqualität zu bewerten. Die Projektseite und der Code sind unter https://susunghong.github.io/MusicInfuser verfügbar.

16

Decompositionale neuronale Szenenrekonstruktion mit generativem Diffusions-Prior
Decompositional Neural Scene Reconstruction with Generative Diffusion Prior

Mar 19
ByJunfeng Ni, Yu Liu, Ruijie Lu, Zirui Zhou, Song-Chun Zhu, Yixin Chen, Siyuan Huang
9
2

Die dekompositionelle Rekonstruktion von 3D-Szenen mit vollständigen Formen und detaillierten Texturen aller darin enthaltenen Objekte ist für nachgelagerte Anwendungen äußerst interessant, bleibt jedoch eine Herausforderung, insbesondere bei spärlichen Eingabeansichten. Aktuelle Ansätze integrieren semantische oder geometrische Regularisierung, um dieses Problem zu adressieren, leiden jedoch unter erheblichen Qualitätseinbußen in unterbestimmten Bereichen und scheitern bei der Wiederherstellung verdeckter Regionen. Wir argumentieren, dass der Schlüssel zur Lösung dieses Problems in der Ergänzung fehlender Informationen für diese Bereiche liegt. Zu diesem Zweck schlagen wir DP-Recon vor, das Diffusionsprioren in Form von Score Distillation Sampling (SDS) nutzt, um die neuronale Darstellung jedes einzelnen Objekts unter neuen Ansichten zu optimieren. Dies liefert zusätzliche Informationen für die unterbestimmten Bereiche, doch die direkte Einbindung von Diffusionsprioren birgt potenzielle Konflikte zwischen der Rekonstruktion und der generativen Führung. Daher führen wir zusätzlich einen sichtbarkeitsgesteuerten Ansatz ein, um die SDS-Verlustgewichte pro Pixel dynamisch anzupassen. Diese Komponenten verbessern gemeinsam die Wiederherstellung von Geometrie und Erscheinungsbild, während sie den Eingabebildern treu bleiben. Umfangreiche Experimente mit Replica und ScanNet++ zeigen, dass unsere Methode state-of-the-art-Verfahren deutlich übertrifft. Bemerkenswerterweise erreicht sie eine bessere Objektrekonstruktion unter 10 Ansichten als die Vergleichsmethoden unter 100 Ansichten. Unsere Methode ermöglicht nahtlose textbasierte Bearbeitung von Geometrie und Erscheinungsbild durch SDS-Optimierung und erzeugt dekomponierte Objektnetze mit detaillierten UV-Maps, die fotorealistische Visual Effects (VFX)-Bearbeitung unterstützen. Die Projektseite ist unter https://dp-recon.github.io/ verfügbar.

17

ViSpeak: Visuelles Instruktionsfeedback in Streaming-Videos
ViSpeak: Visual Instruction Feedback in Streaming Videos

Mar 17
ByShenghao Fu, Qize Yang, Yuan-Ming Li, Yi-Xing Peng, Kun-Yu Lin, Xihan Wei, Jian-Fang Hu, Xiaohua Xie, Wei-Shi Zheng
8
2

Jüngste Fortschritte bei Large Multi-modal Models (LMMs) konzentrieren sich hauptsächlich auf das Offline-Video-Verständnis. Im Gegensatz dazu stellt das Streaming-Video-Verständnis aufgrund seiner zeitkritischen, omni-modalen und interaktiven Eigenschaften große Herausforderungen für aktuelle Modelle dar. In dieser Arbeit zielen wir darauf ab, das Streaming-Video-Verständnis aus einer neuen Perspektive zu erweitern und schlagen eine neuartige Aufgabe namens Visual Instruction Feedback vor, bei der Modelle visuelle Inhalte wahrnehmen und lernen sollten, Anweisungen daraus zu extrahieren. Zum Beispiel sollten Agenten, wenn Benutzer ihre Hände schwenken, die Geste erkennen und Gespräche mit Begrüßungsinformationen beginnen. Somit verbessert das Befolgen von Anweisungen in der visuellen Modalität die Benutzer-Agenten-Interaktionen erheblich. Um die Forschung zu fördern, definieren wir sieben Schlüsselunteraufgaben, die stark mit der visuellen Modalität zusammenhängen, und sammeln den ViSpeak-Instruct-Datensatz für das Training und das ViSpeak-Bench für die Bewertung. Darüber hinaus schlagen wir das ViSpeak-Modell vor, ein state-of-the-art LMM für das Streaming-Video-Verständnis mit GPT-4o-Level-Leistung auf verschiedenen Streaming-Video-Verständnis-Benchmarks. Nach dem Feinabstimmen auf unserem ViSpeak-Instruct-Datensatz ist ViSpeak mit grundlegenden Fähigkeiten zur visuellen Anweisungsrückmeldung ausgestattet und dient als solide Basis für zukünftige Forschungen.

18

Entfesseln Sie die Pose-Vielfalt: Präzise und effiziente implizite Keypoint-basierte raumzeitliche Diffusion für audio-gesteuerte sprechende Porträts
Unlock Pose Diversity: Accurate and Efficient Implicit Keypoint-based Spatiotemporal Diffusion for Audio-driven Talking Portrait

Mar 17
ByChaolong Yang, Kai Yao, Yuyao Yan, Chenru Jiang, Weiguang Zhao, Jie Sun, Guangliang Cheng, Yifei Zhang, Bin Dong, Kaizhu Huang
7
2

Die audio-gesteuerte Erzeugung von sprechenden Porträts aus Einzelbildern spielt eine entscheidende Rolle in den Bereichen Virtual Reality, digitaler Mensch-Erstellung und Filmproduktion. Bestehende Ansätze werden allgemein in keypoint-basierte und bildbasierte Methoden kategorisiert. Keypoint-basierte Methoden bewahren effektiv die Charakteridentität, haben jedoch Schwierigkeiten, feine Gesichtsdetails zu erfassen, aufgrund der begrenzten Punkte des 3D-Morphable-Modells. Darüber hinaus stehen traditionelle generative Netzwerke vor der Herausforderung, Kausalität zwischen Audio und Keypoints auf begrenzten Datensätzen herzustellen, was zu geringer Posendiversität führt. Im Gegensatz dazu erzeugen bildbasierte Ansätze hochwertige Porträts mit vielfältigen Details mithilfe von Diffusionsnetzwerken, leiden jedoch unter Identitätsverzerrungen und hohen Rechenkosten. In dieser Arbeit präsentieren wir KDTalker, das erste Framework, das unüberwachte implizite 3D-Keypoints mit einem spatio-temporalen Diffusionsmodell kombiniert. Durch die Nutzung von unüberwachten impliziten 3D-Keypoints passt KDTalker die Dichte der Gesichtsinformationen an, wodurch der Diffusionsprozess in der Lage ist, diverse Kopfposen zu modellieren und feine Gesichtsdetails flexibel zu erfassen. Der speziell entwickelte spatio-temporale Aufmerksamkeitsmechanismus gewährleistet eine präzise Lippensynchronisation und erzeugt zeitlich konsistente, hochwertige Animationen bei gleichzeitiger Steigerung der Recheneffizienz. Experimentelle Ergebnisse zeigen, dass KDTalker in Bezug auf Lippensynchronisationsgenauigkeit, Kopfposendiversität und Ausführungseffizienz state-of-the-art Leistungen erzielt. Unsere Codes sind verfügbar unter https://github.com/chaolongy/KDTalker.

19

Verringerung von visuellem Vergessen durch Take-along-Visual-Conditioning für multimodale langfristige CoT-Argumentation
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning

Mar 17
ByHai-Long Sun, Zhun Sun, Houwen Peng, Han-Jia Ye
7
2

Jüngste Fortschritte bei Large Language Models (LLMs) haben verbesserte Fähigkeiten im logischen Denken gezeigt, die sich von Chain-of-Thought (CoT)-Prompting hin zu fortschrittlichen, produktorientierten Lösungen wie OpenAI o1 entwickelt haben. Während unserer Neuimplementierung dieses Modells stellten wir fest, dass Multimodale LLMs (MLLMs) bei Aufgaben, die visuelle Eingaben erfordern (z. B. Geometrieprobleme), Schwierigkeiten haben, den Fokus auf die visuellen Informationen aufrechtzuerhalten. Mit anderen Worten, MLLMs leiden unter einem allmählichen Nachlassen der Aufmerksamkeit für visuelle Informationen, während der Denkprozess fortschreitet, was zu textlastigen Ausgaben führt. Um dies zu untersuchen, entfernen wir Bild-Eingaben während langkettiger Denkprozesse. Konkret unterbrechen wir den Denkprozess in der Mitte und vollenden ihn dann erneut, wobei das Eingabebild entfernt wird. Wir beobachten nur einen Genauigkeitsverlust von ~2 % auf der Test-Hard-Teilmenge von MathVista, was zeigt, dass die textuellen Ausgaben des Modells den weiteren Denkprozess dominieren. Motiviert durch diese Erkenntnis schlagen wir Take-along Visual Conditioning (TVC) vor, eine Strategie, die die Bild-Eingabe auf kritische Denkphasen verschiebt und redundante visuelle Tokens durch dynamisches Pruning komprimiert. Diese Methodik hilft dem Modell, die Aufmerksamkeit auf die visuellen Komponenten während des gesamten Denkprozesses aufrechtzuerhalten. Unser Ansatz erreicht durchschnittlich state-of-the-art Leistung über fünf mathematische Denk-Benchmarks (+3,4 % im Vergleich zum vorherigen Sota) und demonstriert die Wirksamkeit von TVC bei der Verbesserung multimodaler Denksysteme.

20

LLM-FE: Automatisierte Merkmalskonstruktion für tabellarische Daten mit LLMs als evolutionäre Optimierer
LLM-FE: Automated Feature Engineering for Tabular Data with LLMs as Evolutionary Optimizers

Mar 18
ByNikhil Abhyankar, Parshin Shojaee, Chandan K. Reddy
7
2

Die automatisierte Merkmalserstellung spielt eine entscheidende Rolle bei der Verbesserung der Vorhersageleistung von Modellen für tabellarische Lernaufgaben. Traditionelle Methoden der automatisierten Merkmalserstellung sind durch ihre Abhängigkeit von vordefinierten Transformationen innerhalb festgelegter, manuell gestalteter Suchräume eingeschränkt und vernachlässigen oft domänenspezifisches Wissen. Jüngste Fortschritte durch den Einsatz von Large Language Models (LLMs) haben die Integration von domänenspezifischem Wissen in den Prozess der Merkmalserstellung ermöglicht. Allerdings nutzen bestehende LLM-basierte Ansätze entweder direkte Prompting-Techniken oder verlassen sich ausschließlich auf Validierungswerte für die Merkmalsauswahl, ohne Erkenntnisse aus früheren Merkmalserkennungsexperimenten zu nutzen oder eine sinnvolle Verbindung zwischen Merkmalsgenerierung und datengetriebener Leistung herzustellen. Um diese Herausforderungen zu bewältigen, schlagen wir LLM-FE vor, ein neuartiges Framework, das evolutionäre Suche mit dem domänenspezifischen Wissen und den Schlussfolgerungsfähigkeiten von LLMs kombiniert, um effektive Merkmale für tabellarische Lernaufgaben automatisch zu entdecken. LLM-FE formuliert die Merkmalserstellung als ein Programmsuchproblem, bei dem LLMs iterativ neue Merkmalstransformationsprogramme vorschlagen und datengetriebenes Feedback den Suchprozess leitet. Unsere Ergebnisse zeigen, dass LLM-FE durchweg state-of-the-art Baselines übertrifft und die Leistung von Vorhersagemodellen für tabellarische Daten über verschiedene Klassifikations- und Regressionsbenchmarks hinweg signifikant verbessert.

21

ELTEX: Ein Framework für domänengetriebene synthetische Datengenerierung
ELTEX: A Framework for Domain-Driven Synthetic Data Generation

Mar 19
ByArina Razmyslovich, Kseniia Murasheva, Sofia Sedlova, Julien Capitaine, Eugene Dmitriev
6
2

Wir stellen ELTEX (Efficient LLM Token Extraction) vor, ein domänengetriebenes Framework zur Generierung hochwertiger synthetischer Trainingsdaten in spezialisierten Domänen. Während Large Language Models (LLMs) beeindruckende allgemeine Fähigkeiten gezeigt haben, bleibt ihre Leistung in spezialisierten Domänen wie der Cybersicherheit durch den Mangel an domänenspezifischen Trainingsdaten begrenzt. ELTEX adressiert diese Herausforderung, indem es die explizite Extraktion von Domänenindikatoren systematisch mit dynamischem Prompting kombiniert, um kritisches Domänenwissen während des Generierungsprozesses zu bewahren. Wir demonstrieren die Wirksamkeit von ELTEX im Kontext der Erkennung von Blockchain-bezogenen Cyberangriffen, bei dem wir Gemma-2B mit verschiedenen Kombinationen aus realen und ELTEX-generierten Daten feinabstimmen. Unsere Ergebnisse zeigen, dass das ELTEX-verbesserte Modell eine mit GPT-4 vergleichbare Leistung sowohl bei standardmäßigen Klassifikationsmetriken als auch bei der Unsicherheitskalibrierung erzielt, während es deutlich weniger Rechenressourcen benötigt. Wir veröffentlichen einen kuratierten synthetischen Datensatz von Social-Media-Texten zur Erkennung von Cyberangriffen in der Blockchain. Unsere Arbeit zeigt, dass domänengetriebene synthetische Datengenerierung die Leistungslücke zwischen ressourceneffizienten Modellen und größeren Architekturen in spezialisierten Domänen effektiv schließen kann.

22

LLM-vermittelte Steuerung von MARL-Systemen
LLM-Mediated Guidance of MARL Systems

Mar 16
ByPhilipp D. Siedler, Ian Gemp
4
2

In komplexen Multi-Agenten-Umgebungen stellt das Erreichen effizienten Lernens und wünschenswerter Verhaltensweisen eine erhebliche Herausforderung für Multi-Agent Reinforcement Learning (MARL)-Systeme dar. Diese Arbeit untersucht das Potenzial der Kombination von MARL mit Interventionen, die durch Large Language Models (LLMs) vermittelt werden, um Agenten zu besseren Verhaltensweisen zu führen. Insbesondere erforschen wir, wie LLMs genutzt werden können, um Interventionen zu interpretieren und zu erleichtern, die die Lernpfade mehrerer Agenten beeinflussen. Wir experimentierten mit zwei Arten von Interventionen, die als Controller bezeichnet werden: einem Natural Language (NL)-Controller und einem Rule-Based (RB)-Controller. Der NL-Controller, der ein LLM zur Simulation menschlicher Interventionen verwendet, zeigte eine stärkere Wirkung als der RB-Controller. Unsere Ergebnisse deuten darauf hin, dass Agenten insbesondere von frühen Interventionen profitieren, was zu effizienterem Training und höherer Leistung führt. Beide Interventionstypen übertreffen die Baseline ohne Interventionen, was das Potenzial von LLM-vermittelter Anleitung zur Beschleunigung des Trainings und zur Steigerung der MARL-Leistung in anspruchsvollen Umgebungen unterstreicht.

23

CURIE: Bewertung von LLMs im Hinblick auf wissenschaftliches Multitasking und Langzeitkontextverständnis sowie -schlussfolgerung
CURIE: Evaluating LLMs On Multitask Scientific Long Context Understanding and Reasoning

Mar 14
ByHao Cui, Zahra Shamsi, Gowoon Cheon, Xuejian Ma, Shutong Li, Maria Tikhanovskaya, Peter Norgaard, Nayantara Mudur, Martyna Plomecka, Paul Raccuglia, Yasaman Bahri, Victor V. Albert, Pranesh Srinivasan, Haining Pan, Philippe Faist, Brian Rohr, Michael J. Statt, Dan Morris, Drew Purves, Elise Kleeman, Ruth Alcantara, Matthew Abraham, Muqthar Mohammad, Ean Phing VanLee, Chenfei Jiang, Elizabeth Dorfman, Eun-Ah Kim, Michael P Brenner, Viren Jain, Sameera Ponda, Subhashini Venugopalan
4
2

Wissenschaftliches Problemlösen beinhaltet die Synthese von Informationen unter Anwendung von Expertenwissen. Wir stellen CURIE vor, einen Benchmark für wissenschaftliches Langkontext-Verständnis, logisches Denken und Informationsextraktion, um das Potenzial von Large Language Models (LLMs) im wissenschaftlichen Problemlösen und bei der Unterstützung von Wissenschaftlern in realistischen Arbeitsabläufen zu messen. Dieser Benchmark umfasst zehn anspruchsvolle Aufgaben mit insgesamt 580 Problem- und Lösungspaaren, die von Experten aus sechs Disziplinen – Materialwissenschaft, Festkörperphysik, Quantencomputing, Geospatialanalyse, Biodiversität und Proteine – erstellt wurden und sowohl experimentelle als auch theoretische Arbeitsabläufe in der Wissenschaft abdecken. Wir bewerten eine Reihe von geschlossenen und offenen LLMs anhand von Aufgaben in CURIE, die Fachwissen, das Verständnis von langen Kontextinformationen und mehrstufiges logisches Denken erfordern. Während Gemini Flash 2.0 und Claude-3 durchgängig hohes Verständnis über verschiedene Domänen hinweg zeigen, scheitern die beliebten Modelle GPT-4o und Command-R+ dramatisch bei Aufgaben zur Proteinsequenzierung. Mit der besten Leistung bei 32 % gibt es für alle Modelle noch viel Raum für Verbesserungen. Wir hoffen, dass die Erkenntnisse aus CURIE die zukünftige Entwicklung von LLMs in den Wissenschaften leiten können. Evaluierungscode und Daten sind unter https://github.com/google/curie verfügbar.

Mar 19
Mar 20
Mar 21