ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

MLGym: Ein neues Framework und Benchmark zur Weiterentwicklung von KI-Forschungsagenten
MLGym: A New Framework and Benchmark for Advancing AI Research Agents

Feb 20, 2025
Deepak Nathani, Lovish Madaan, Nicholas Roberts, Nikolay Bashlykov, Ajay Menon, Vincent Moens, Amar Budhiraja, Despoina Magka, Vladislav Vorotilov, Gaurav Chaurasia, Dieuwke Hupkes, Ricardo Silveira Cabral, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach, William Yang Wang, Roberta Raileanu
1923

Wir stellen Meta MLGym und MLGym-Bench vor, ein neues Framework und Benchmark zur Bewertung und Entwicklung von LLM-Agenten für KI-Forschungsaufgaben. Dies ist die erste Gym-Umgebung für maschinelles Lernen (ML), die Forschung zu Reinforcement-Learning (RL)-Algorithmen für das Training solcher Agenten ermöglicht. MLGym-Bench besteht aus 13 vielfältigen und offenen KI-Forschungsaufgaben aus verschiedenen Domänen wie Computer Vision, Natural Language Processing, Reinforcement Learning und Spieltheorie. Die Lösung dieser Aufgaben erfordert reale KI-Forschungskompetenzen wie das Generieren neuer Ideen und Hypothesen, das Erstellen und Verarbeiten von Daten, das Implementieren von ML-Methoden, das Trainieren von Modellen, das Durchführen von Experimenten, das Analysieren der Ergebnisse und das iterative Verbessern eines gegebenen Aufgabenbereichs. Wir bewerten eine Reihe von führenden großen Sprachmodellen (LLMs) wie Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview und Gemini-1.5 Pro anhand unserer Benchmarks. Unser MLGym-Framework erleichtert das Hinzufügen neuer Aufgaben, die Integration und Bewertung von Modellen oder Agenten, die Generierung synthetischer Daten im großen Maßstab sowie die Entwicklung neuer Lernalgorithmen für das Training von Agenten in KI-Forschungsaufgaben. Wir stellen fest, dass aktuelle führende Modelle die gegebenen Baselines verbessern können, meist durch das Finden besserer Hyperparameter, jedoch keine neuen Hypothesen, Algorithmen, Architekturen oder substanziellen Verbesserungen generieren. Wir stellen unser Framework und Benchmark als Open Source zur Verfügung, um zukünftige Forschungen zur Weiterentwicklung der KI-Forschungsfähigkeiten von LLM-Agenten zu fördern.

SigLIP 2: Multilinguale Vision-Sprache-Encoder mit verbessertem semantischem Verständnis, Lokalisierung und dichten Merkmalen
SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

Feb 20, 2025
Michael Tschannen, Alexey Gritsenko, Xiao Wang, Muhammad Ferjad Naeem, Ibrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan Evans, Lucas Beyer, Ye Xia, Basil Mustafa, Olivier Hénaff, Jeremiah Harmsen, Andreas Steiner, Xiaohua Zhai
1467

Wir stellen SigLIP 2 vor, eine Familie neuer multilingualer Vision-Sprache-Encoder, die auf dem Erfolg des ursprünglichen SigLIP aufbauen. In dieser zweiten Iteration erweitern wir das ursprüngliche Bild-Text-Trainingsziel durch mehrere zuvor unabhängig entwickelte Techniken zu einem einheitlichen Rezept – dies umfasst Captioning-basiertes Pre-Training, selbstüberwachte Verluste (Selbst-Distillation, maskierte Vorhersage) und Online-Datenkuratierung. Mit diesen Änderungen übertreffen SigLIP 2-Modelle ihre SigLIP-Pendants in allen Modellgrößen in Kernfähigkeiten, einschließlich Zero-Shot-Klassifikation, Bild-Text-Retrieval und Transferleistung bei der Extraktion visueller Repräsentationen für Vision-Language-Modelle (VLMs). Darüber hinaus führt das neue Trainingsrezept zu erheblichen Verbesserungen bei Lokalisierungs- und Dense-Prediction-Aufgaben. Wir trainieren auch Varianten, die mehrere Auflösungen unterstützen und das native Seitenverhältnis der Eingabe beibehalten. Schließlich trainieren wir mit einer diverseren Datenmischung, die Debiasing-Techniken beinhaltet, was zu einem viel besseren multilingualen Verständnis und einer verbesserten Fairness führt. Um Nutzern die Möglichkeit zu geben, Inferenzkosten gegen Leistung abzuwägen, veröffentlichen wir Modell-Checkpoints in vier Größen: ViT-B (86M), L (303M), So400m (400M) und g (1B).

SuperGPQA: Skalierung der LLM-Evaluierung über 285 Graduierten-Disziplinen hinweg
SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

Feb 20, 2025
M-A-P Team, Xinrun Du, Yifan Yao, Kaijing Ma, Bingli Wang, Tianyu Zheng, Kang Zhu, Minghao Liu, Yiming Liang, Xiaolong Jin, Zhenlin Wei, Chujie Zheng, Kaixing Deng, Shuyue Guo, Shian Jia, Sichao Jiang, Yiyan Liao, Rui Li, Qinrui Li, Sirun Li, Yizhi Li, Yunwen Li, Dehua Ma, Yuansheng Ni, Haoran Que, Qiyao Wang, Zhoufutu Wen, Siwei Wu, Tianshun Xing, Ming Xu, Zhenzhu Yang, Zekun Moore Wang, Junting Zhou, Yuelin Bai, Xingyuan Bu, Chenglin Cai, Liang Chen, Yifan Chen, Chengtuo Cheng, Tianhao Cheng, Keyi Ding, Siming Huang, Yun Huang, Yaoru Li, Yizhe Li, Zhaoqun Li, Tianhao Liang, Chengdong Lin, Hongquan Lin, Yinghao Ma, Zhongyuan Peng, Zifan Peng, Qige Qi, Shi Qiu, Xingwei Qu, Yizhou Tan, Zili Wang, Chenqing Wang, Hao Wang, Yiya Wang, Yubo Wang, Jiajun Xu, Kexin Yang, Ruibin Yuan, Yuanhao Yue, Tianyang Zhan, Chun Zhang, Jingyang Zhang, Xiyue Zhang, Xingjian Zhang, Yue Zhang, Yongchi Zhao, Xiangyu Zheng, Chenghua Zhong, Yang Gao, Zhoujun Li, Dayiheng Liu, Qian Liu, Tianyu Liu, Shiwen Ni, Junran Peng, Yujia Qin, Wenbo Su, Guoyin Wang, Shi Wang, Jian Yang, Min Yang, Meng Cao, Xiang Yue, Zhaoxiang Zhang, Wangchunshu Zhou, Jiaheng Liu, Qunshu Lin, Wenhao Huang, Ge Zhang
10510

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten in etablierten akademischen Disziplinen wie Mathematik, Physik und Informatik gezeigt. Das menschliche Wissen umfasst jedoch über 200 spezialisierte Fachgebiete, die den Rahmen bestehender Benchmarks bei weitem überschreiten. Die Fähigkeiten von LLMs in vielen dieser spezialisierten Bereiche – insbesondere in der Leichtindustrie, Landwirtschaft und dienstleistungsorientierten Disziplinen – bleiben unzureichend bewertet. Um diese Lücke zu schließen, präsentieren wir SuperGPQA, einen umfassenden Benchmark, der Graduiertenwissen und Denkfähigkeiten in 285 Disziplinen evaluiert. Unser Benchmark verwendet einen neuartigen Human-LLM-Kollaborationsfiltermechanismus, um triviale oder mehrdeutige Fragen durch iterative Verfeinerung basierend auf LLM-Antworten und Expertenfeedback zu eliminieren. Unsere experimentellen Ergebnisse zeigen erheblichen Verbesserungsbedarf in der Leistung aktueller state-of-the-art LLMs über diverse Wissensdomänen hinweg (z. B. erreichte das auf logisches Denken fokussierte Modell DeepSeek-R1 die höchste Genauigkeit von 61,82 % auf SuperGPQA), was die beträchtliche Lücke zwischen den aktuellen Modellfähigkeiten und künstlicher allgemeiner Intelligenz verdeutlicht. Zusätzlich bieten wir umfassende Einblicke in unser Management eines groß angelegten Annotationsprozesses, der über 80 Expertenannotatoren und ein interaktives Human-LLM-Kollaborationssystem umfasst, und liefern wertvolle methodische Leitlinien für zukünftige Forschungsinitiativen vergleichbaren Umfangs.

Wie viel Wissen kann man in einen LoRA-Adapter packen, ohne die Leistung eines LLM zu beeinträchtigen?
How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM?

Feb 20, 2025
Sergey Pletenev, Maria Marina, Daniil Moskovskiy, Vasily Konovalov, Pavel Braslavski, Alexander Panchenko, Mikhail Salnikov
919

Die Leistung von Large Language Models (LLMs) bei vielen Aufgaben wird stark durch das während des Pre-Trainings erlernte und in den Modellparametern gespeicherte Wissen begrenzt. Low-Rank Adaptation (LoRA) ist eine beliebte und effiziente Trainingsmethode zur Aktualisierung oder domänenspezifischen Anpassung von LLMs. In dieser Studie untersuchen wir, wie neue Fakten mithilfe von LoRA in das LLM integriert werden können, ohne das zuvor erlernte Wissen zu beeinträchtigen. Wir haben Llama-3.1-8B-instruct mit LoRA unter Verwendung unterschiedlicher Mengen neuen Wissens feinabgestimmt. Unsere Experimente haben gezeigt, dass die besten Ergebnisse erzielt werden, wenn die Trainingsdaten eine Mischung aus bekannten und neuen Fakten enthalten. Dieser Ansatz ist jedoch potenziell problematisch, da die Leistung des Modells bei externen Frage-Antwort-Benchmarks nach einer solchen Feinabstimmung abnimmt. Wenn die Trainingsdaten in Richtung bestimmter Entitäten verzerrt sind, neigt das Modell dazu, auf einige überrepräsentierte Antworten zurückzufallen. Darüber hinaus haben wir festgestellt, dass das Modell in nur wenigen Fällen selbstbewusster wird und sich weigert, eine Antwort zu geben. Diese Erkenntnisse verdeutlichen die potenziellen Fallstricke von LoRA-basierten LLM-Aktualisierungen und unterstreichen die Bedeutung der Zusammensetzung der Trainingsdaten sowie der Abstimmung der Parameter, um die Integration neuen Wissens und die allgemeinen Modellfähigkeiten in Einklang zu bringen.

S*: Testzeit-Skalierung für Codegenerierung
S*: Test Time Scaling for Code Generation

Feb 20, 2025
Dacheng Li, Shiyi Cao, Chengkun Cao, Xiuyu Li, Shangyin Tan, Kurt Keutzer, Jiarong Xing, Joseph E. Gonzalez, Ion Stoica
633

Die Erhöhung der Rechenleistung zur Testzeit für LLMs zeigt vielversprechende Ergebnisse in verschiedenen Bereichen, bleibt jedoch in der Codegenerierung trotz umfangreicher Studien in der Mathematik weitgehend unerforscht. In diesem Artikel stellen wir S* vor, das erste hybride Framework zur Skalierung zur Testzeit, das die Abdeckung und Auswahlgenauigkeit von generiertem Code erheblich verbessert. S* erweitert das bestehende Paradigma der parallelen Skalierung durch sequenzielle Skalierung, um die Leistungsgrenzen zu erweitern. Es nutzt zudem einen neuartigen Auswahlmechanismus, der adaptiv unterscheidende Eingaben für paarweise Vergleiche generiert, kombiniert mit ausführungsbasierten Informationen, um korrekte Lösungen robust zu identifizieren. Wir evaluieren 12 Large Language Models und Large Reasoning Models und zeigen: (1) S* verbessert kontinuierlich die Leistung über Modellfamilien und -größen hinweg und ermöglicht es einem 3B-Modell, GPT-4o-mini zu übertreffen; (2) S* ermöglicht es Nicht-Reasoning-Modellen, Reasoning-Modelle zu übertreffen – GPT-4o-mini mit S* übertrifft o1-preview um 3,7 % auf LiveCodeBench; (3) S* steigert weiterhin die Leistung von state-of-the-art Reasoning-Modellen – DeepSeek-R1-Distill-Qwen-32B mit S* erreicht 85,7 % auf LiveCodeBench und nähert sich o1 (high) mit 88,5 % an. Der Code wird unter https://github.com/NovaSky-AI/SkyThought verfügbar sein.

Logic-RL: Freisetzung von LLM-Argumentation durch regelbasiertes Reinforcement Learning
Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning

Feb 20, 2025
Tian Xie, Zitian Gao, Qingnan Ren, Haoming Luo, Yuqian Hong, Bryan Dai, Joey Zhou, Kai Qiu, Zhirong Wu, Chong Luo
485

Inspiriert vom Erfolg von DeepSeek-R1 untersuchen wir das Potenzial von regelbasiertem Reinforcement Learning (RL) in großen Modellen für logisches Denken. Um die Dynamik des Denkprozesses zu analysieren, verwenden wir synthetische Logikrätsel als Trainingsdaten, da deren Komplexität kontrollierbar und die Antwortüberprüfung unkompliziert ist. Wir leisten einige wichtige technische Beiträge, die zu effektivem und stabilem RL-Training führen: einen System-Prompt, der den Denk- und Antwortprozess betont, eine strenge Format-Belohnungsfunktion, die Ausgaben für Abkürzungen bestraft, und ein einfaches Trainingsrezept, das eine stabile Konvergenz erreicht. Unser 7B-Modell entwickelt fortgeschrittene Denkfähigkeiten – wie Reflexion, Überprüfung und Zusammenfassung –, die im Logikkorpus nicht vorhanden sind. Bemerkenswerterweise zeigt es nach dem Training mit nur 5.000 Logikproblemen Generalisierungsfähigkeiten bei den anspruchsvollen Mathematik-Benchmarks AIME und AMC.

Entdeckung hoch effizienter, leichter Quantenfehlerkorrekturcodes durch bestärkendes Lernen
Discovering highly efficient low-weight quantum error-correcting codes with reinforcement learning

Feb 20, 2025
Austin Yubo He, Zi-Wen Liu
364

Die Realisierung skalierbarer, fehlertoleranter Quantencomputer wird voraussichtlich auf Quantenfehlerkorrekturcodes basieren. Im Streben nach effizienterer Quantenfehlertoleranz ist ein kritischer Codeparameter das Gewicht der Messungen, die Informationen über Fehler extrahieren, um eine Fehlerkorrektur zu ermöglichen: Da höhere Messgewichte höhere Implementierungskosten verursachen und mehr Fehler einführen, ist es im Code-Design wichtig, das Messgewicht zu optimieren. Dies erklärt das wachsende Interesse an Quanten-Low-Density-Parity-Check (qLDPC)-Codes, deren Untersuchung sich hauptsächlich auf die asymptotischen (groß-Code-Grenzwert-)Eigenschaften konzentriert hat. In dieser Arbeit stellen wir einen vielseitigen und recheneffizienten Ansatz zur Reduzierung des Stabilisatorcodegewichts vor, der auf Reinforcement Learning (RL) basiert und neue Codes mit niedrigem Gewicht erzeugt, die den Stand der Technik in praktisch relevanten Parameterbereichen erheblich übertreffen und deutlich über die bisher zugänglichen kleinen Distanzen hinausgehen. Beispielsweise zeigt unser Ansatz Einsparungen beim physischen Qubit-Overhead im Vergleich zu bestehenden Ergebnissen um 1 bis 2 Größenordnungen für Codes mit Gewicht 6 und bringt den Overhead in einen machbaren Bereich für Experimente in naher Zukunft. Wir untersuchen auch das Zusammenspiel zwischen Codeparametern mithilfe unseres RL-Rahmens und bieten neue Einblicke in die potenzielle Effizienz und Leistungsfähigkeit praktisch umsetzbarer Codierungsstrategien. Insgesamt zeigen unsere Ergebnisse, wie RL das entscheidende, aber herausfordernde Problem der Quantencode-Entdeckung effektiv vorantreiben und damit einen schnelleren Weg zur praktischen Implementierung fehlertoleranter Quantentechnologien ebnen kann.

S^2R: Vermittlung von Fähigkeiten zur Selbstüberprüfung und Selbstkorrektur bei LLMs durch Reinforcement Learning
S^2R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning

Feb 18, 2025
Ruotian Ma, Peisong Wang, Cheng Liu, Xingyan Liu, Jiaqi Chen, Bang Zhang, Xin Zhou, Nan Du, Jia Li
292

Aktuelle Studien haben die Wirksamkeit von Testzeit-Skalierung bei großen Sprachmodellen (LLMs) demonstriert. Allerdings erfordern bestehende Ansätze zur Förderung der tiefen Denkfähigkeiten von LLMs in der Regel umfangreiche Daten oder erhebliche Trainingsanstrengungen. Gleichzeitig bleibt unklar, wie die Denkfähigkeiten weniger leistungsstarker Basismodelle verbessert werden können. In dieser Arbeit stellen wir S^2R vor, ein effizientes Framework, das das logische Denken von LLMs verbessert, indem es den Modellen beibringt, sich während der Inferenz selbst zu überprüfen und zu korrigieren. Konkret initialisieren wir zunächst LLMs mit iterativem Selbstüberprüfungs- und Selbstkorrekturverhalten durch überwachtes Feinabstimmen auf sorgfältig kuratierten Daten. Die Fähigkeiten zur Selbstüberprüfung und Selbstkorrektur werden dann durch sowohl ergebnis- als auch prozessbasiertes Reinforcement Learning weiter gestärkt, wobei der Ressourcenbedarf minimiert wird, sodass das Modell in der Lage ist, seinen Denkprozess während der Inferenz adaptiv zu verfeinern. Unsere Ergebnisse zeigen, dass Qwen2.5-math-7B mit nur 3.1k Initialisierungsbeispielen für selbstüberprüfendes und selbstkorrigierendes Verhalten eine Genauigkeitssteigerung von 51,0\% auf 81,6\% erreicht und damit Modelle übertrifft, die mit einer äquivalenten Menge an langen Chain-of-Thought (CoT) destillierten Daten trainiert wurden. Umfangreiche Experimente und Analysen basierend auf drei Basismodellen sowohl in domänenspezifischen als auch domänenübergreifenden Benchmarks bestätigen die Wirksamkeit von S^2R. Unser Code und unsere Daten sind unter https://github.com/NineAbyss/S2R verfügbar.

Hat Zeit ihren Platz? Temporale Köpfe: Wo Sprachmodelle zeitbezogene Informationen abrufen
Does Time Have Its Place? Temporal Heads: Where Language Models Recall Time-specific Information

Feb 20, 2025
Yein Park, Chanwoong Yoon, Jungwoo Park, Minbyul Jeong, Jaewoo Kang
262

Während die Fähigkeit von Sprachmodellen, Fakten abzurufen, bereits umfassend untersucht wurde, ist die Handhabung zeitlich veränderlicher Fakten noch weitgehend unerforscht. Wir entdecken sogenannte Temporale Heads, spezifische Aufmerksamkeitsköpfe, die hauptsächlich für die Verarbeitung von zeitlichem Wissen durch Schaltkreisanalysen verantwortlich sind. Wir bestätigen, dass diese Köpfe in mehreren Modellen vorhanden sind, obwohl ihre spezifischen Positionen variieren können und ihre Reaktionen je nach Art des Wissens und den entsprechenden Jahren unterschiedlich ausfallen. Das Deaktivieren dieser Köpfe beeinträchtigt die Fähigkeit des Modells, zeitbezogenes Wissen abzurufen, während seine allgemeinen Fähigkeiten sowie die Leistung bei zeitinvarianten Fragestellungen und Frage-Antwort-Aufgaben unbeeinträchtigt bleiben. Darüber hinaus werden diese Köpfe nicht nur durch numerische Bedingungen („Im Jahr 2004“), sondern auch durch textuelle Synonyme („Im Jahre ...“) aktiviert, was darauf hindeutet, dass sie eine zeitliche Dimension über die einfache numerische Darstellung hinaus kodieren. Zudem erweitern wir das Potenzial unserer Erkenntnisse, indem wir zeigen, wie zeitliches Wissen durch die Anpassung der Werte dieser Köpfe bearbeitet werden kann.

LongWriter-V: Ermöglichung von ultra-langen und hochwertigen Generierungen in Vision-Sprache-Modellen
LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models

Feb 20, 2025
Shangqing Tu, Yucheng Wang, Daniel Zhang-Li, Yushi Bai, Jifan Yu, Yuhao Wu, Lei Hou, Huiqin Liu, Zhiyuan Liu, Bin Xu, Juanzi Li
242

Bestehende große Vision-Sprach-Modelle (LVLMs) können Eingaben mit Kontextlängen von bis zu 128k visuellen und Text-Tokens verarbeiten, haben jedoch Schwierigkeiten, kohärente Ausgaben von mehr als 1.000 Wörtern zu generieren. Wir stellen fest, dass die primäre Einschränkung das Fehlen von langen Ausgabebeispielen während des überwachten Feinabstimmens (SFT) ist. Um dieses Problem zu lösen, führen wir LongWriter-V-22k ein, ein SFT-Datensatz, der 22.158 Beispiele umfasst, jeweils mit mehreren Eingabebildern, einer Anweisung und entsprechenden Ausgaben im Bereich von 0 bis 10.000 Wörtern. Darüber hinaus verwenden wir Direct Preference Optimization (DPO) für das SFT-Modell, um lange Ausgaben zu erreichen, die eine hohe Treue zu den Eingabebildern bewahren. Angesichts der hohen Kosten für die Sammlung von menschlichem Feedback für lange Ausgaben (z. B. 3.000 Wörter) schlagen wir IterDPO vor, das lange Ausgaben in Segmente unterteilt und iterative Korrekturen verwendet, um Präferenzpaare mit den ursprünglichen Ausgaben zu bilden. Zusätzlich entwickeln wir MMLongBench-Write, ein Benchmark mit sechs Aufgaben zur Bewertung der Langzeitgenerationsfähigkeiten von VLMs. Unser 7B-Parameter-Modell, das mit LongWriter-V-22k und IterDPO trainiert wurde, erzielt beeindruckende Leistungen in diesem Benchmark und übertrifft größere proprietäre Modelle wie GPT-4o. Code und Daten: https://github.com/THU-KEG/LongWriter-V

PC-Agent: Ein hierarchisches Multi-Agenten-Kollaborationsframework zur Automatisierung komplexer Aufgaben auf dem PC
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC

Feb 20, 2025
Haowei Liu, Xi Zhang, Haiyang Xu, Yuyang Wanyan, Junyang Wang, Ming Yan, Ji Zhang, Chunfeng Yuan, Changsheng Xu, Weiming Hu, Fei Huang
203

Im Bereich der MLLM-basierten GUI-Agenten weist das PC-Szenario im Vergleich zu Smartphones nicht nur eine komplexere interaktive Umgebung auf, sondern beinhaltet auch anspruchsvollere intra- und inter-App-Workflows. Um diese Herausforderungen zu bewältigen, schlagen wir ein hierarchisches Agenten-Framework namens PC-Agent vor. Konkret entwickeln wir aus der Wahrnehmungsperspektive ein Active Perception Module (APM), um die unzureichenden Fähigkeiten aktueller MLLMs bei der Wahrnehmung von Screenshot-Inhalten zu überwinden. Aus der Entscheidungsfindungsperspektive schlagen wir eine hierarchische Multi-Agenten-Kollaborationsarchitektur vor, um komplexe Benutzeranweisungen und voneinander abhängige Teilaufgaben effektiver zu bewältigen. Diese Architektur zerlegt den Entscheidungsprozess in die Ebenen Anweisung-Teilaufgabe-Aktion. Innerhalb dieser Architektur werden drei Agenten (Manager, Progress und Decision) eingerichtet, die jeweils für die Anweisungszerlegung, die Fortschrittsverfolgung und die schrittweise Entscheidungsfindung zuständig sind. Zusätzlich wird ein Reflection-Agent eingesetzt, um eine zeitnahe Bottom-up-Fehlerrückmeldung und Anpassung zu ermöglichen. Wir führen außerdem einen neuen Benchmark PC-Eval mit 25 komplexen Anweisungen aus der realen Welt ein. Empirische Ergebnisse auf PC-Eval zeigen, dass unser PC-Agent eine absolute Verbesserung der Aufgaben-Erfolgsrate von 32 % gegenüber bisherigen State-of-the-Art-Methoden erzielt. Der Code wird öffentlich verfügbar sein.

Wie Sie Ihr LLM dazu bringen, anspruchsvolle Probleme zur Bewertung zu generieren
How to Get Your LLM to Generate Challenging Problems for Evaluation

Feb 20, 2025
Arkil Patel, Siva Reddy, Dzmitry Bahdanau
182

Das Tempo der Entwicklung von Large Language Models (LLMs) erfordert neue Ansätze für eine rigorose und umfassende Evaluierung. Traditionelle menschliche Annotation wird zunehmend unpraktikabel, da die Komplexität und die Kosten für die Erstellung hochwertiger, anspruchsvoller Probleme zu hoch sind. In dieser Arbeit stellen wir CHASE vor, ein einheitliches Framework zur synthetischen Generierung anspruchsvoller Probleme mithilfe von LLMs ohne menschliches Zutun. Für eine gegebene Aufgabe konstruiert unser Ansatz ein schwieriges Problem in einer Bottom-up-Methode aus einfacheren Komponenten. Darüber hinaus zerlegt unser Framework den Generierungsprozess in unabhängig überprüfbare Teilaufgaben, wodurch ein hohes Maß an Qualität und Korrektheit sichergestellt wird. Wir implementieren CHASE, um Evaluierungs-Benchmarks in drei verschiedenen Domänen zu erstellen: (1) dokumentbasierte Fragebeantwortung, (2) Repository-Level-Code-Vervollständigung und (3) mathematisches Denken. Die Leistung modernster LLMs auf diesen synthetischen Benchmarks liegt im Bereich von 40-60% Genauigkeit, was die Effektivität unseres Frameworks bei der Generierung anspruchsvoller Probleme demonstriert. Wir veröffentlichen unsere Benchmarks und den Code öffentlich.

Dynamische Konzeptpersonalisierung aus einzelnen Videos
Dynamic Concepts Personalization from Single Videos

Feb 20, 2025
Rameen Abdal, Or Patashnik, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov, Daniel Cohen-Or, Kfir Aberman
162

Die Personalisierung generativer Text-zu-Bild-Modelle hat bemerkenswerte Fortschritte erzielt, doch die Erweiterung dieser Personalisierung auf Text-zu-Video-Modelle stellt einzigartige Herausforderungen dar. Im Gegensatz zu statischen Konzepten bietet die Personalisierung von Text-zu-Video-Modellen das Potenzial, dynamische Konzepte zu erfassen, d. h. Entitäten, die nicht nur durch ihr Aussehen, sondern auch durch ihre Bewegung definiert sind. In diesem Artikel stellen wir Set-and-Sequence vor, ein neuartiges Framework zur Personalisierung von auf Diffusion Transformers (DiTs) basierenden generativen Video-Modellen mit dynamischen Konzepten. Unser Ansatz etabliert einen räumlich-zeitlichen Gewichtsraum innerhalb einer Architektur, die räumliche und zeitliche Merkmale nicht explizit trennt. Dies wird in zwei zentralen Schritten erreicht. Zunächst feintunen wir Low-Rank Adaptation (LoRA)-Schichten mithilfe einer ungeordneten Menge von Frames aus dem Video, um eine Identitäts-LoRA-Basis zu erlernen, die das Erscheinungsbild ohne zeitliche Störungen repräsentiert. Im zweiten Schritt, mit den eingefrorenen Identitäts-LoRAs, erweitern wir ihre Koeffizienten um Bewegungsresiduen und feintunen sie auf der vollständigen Videosequenz, um Bewegungsdynamiken zu erfassen. Unser Set-and-Sequence-Framework führt zu einem räumlich-zeitlichen Gewichtsraum, der dynamische Konzepte effektiv in den Ausgabebereich des Video-Modells einbettet, wodurch beispiellose Bearbeitbarkeit und Kompositionalität ermöglicht werden, während gleichzeitig ein neuer Maßstab für die Personalisierung dynamischer Konzepte gesetzt wird.

AlphaMaze: Verbesserung der räumlichen Intelligenz großer Sprachmodelle durch GRPO
AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO

Feb 20, 2025
Alan Dao, Dinh Bach Vu
142

Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten in der Sprachverarbeitung gezeigt, doch sie haben oft Schwierigkeiten mit Aufgaben, die echte visuell-räumliche Schlussfolgerungen erfordern. In diesem Artikel stellen wir ein neuartiges zweistufiges Trainingsframework vor, das darauf abzielt, Standard-LLMs mit visuellen Denkfähigkeiten für die Navigation in Labyrinthen auszustatten. Zunächst nutzen wir Supervised Fine Tuning (SFT) auf einem kuratierten Datensatz von tokenisierten Labyrinthdarstellungen, um dem Modell beizubringen, schrittweise Bewegungsbefehle vorherzusagen. Anschließend wenden wir Group Relative Policy Optimization (GRPO) – eine Technik, die in DeepSeekR1 verwendet wird – mit einer sorgfältig gestalteten Belohnungsfunktion an, um die sequenzielle Entscheidungsfindung des Modells zu verfeinern und emergente Ketten von Denkprozessen zu fördern. Experimentelle Ergebnisse auf synthetisch generierten Labyrinthen zeigen, dass ein Baseline-Modell das Labyrinth nicht navigieren kann, während das SFT-trainierte Modell eine Genauigkeit von 86 % erreicht und eine weitere GRPO-Feinabstimmung die Genauigkeit auf 93 % steigert. Qualitative Analysen zeigen, dass GRPO robustere und selbstkorrigierende Denkprozesse fördert, was das Potenzial unseres Ansatzes zur Überbrückung der Lücke zwischen Sprachmodellen und visuell-räumlichen Aufgaben unterstreicht. Diese Ergebnisse bieten vielversprechende Implikationen für Anwendungen in der Robotik, autonomen Navigation und anderen Bereichen, die integrierte visuelle und sequenzielle Denkfähigkeiten erfordern.

LServe: Effizientes Serving von LLMs mit langen Sequenzen durch vereinheitlichte spärliche Aufmerksamkeit
LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention

Feb 20, 2025
Shang Yang, Junxian Guo, Haotian Tang, Qinghao Hu, Guangxuan Xiao, Jiaming Tang, Yujun Lin, Zhijian Liu, Yao Lu, Song Han
132

Große Sprachmodelle (LLMs) haben ein bemerkenswertes Potenzial bei der Verarbeitung langer Sequenzen gezeigt, doch die effiziente Bereitstellung dieser langkontextfähigen Modelle bleibt aufgrund der quadratischen Rechenkomplexität der Aufmerksamkeit im Prefilling-Stadium und des großen Speicherbedarfs des KV-Caches im Decoding-Stadium eine Herausforderung. Um diese Probleme zu lösen, stellen wir LServe vor, ein effizientes System, das die Bereitstellung von LLMs mit langen Sequenzen durch hybride spärliche Aufmerksamkeit beschleunigt. Diese Methode vereint verschiedene hardwarefreundliche, strukturierte Sparsity-Muster für die Aufmerksamkeit sowohl im Prefilling- als auch im Decoding-Stadium in einem einzigen Framework, bei dem Berechnungen für weniger wichtige Token blockweise übersprungen werden. LServe demonstriert die Kompatibilität von statischer und dynamischer Sparsity in der Aufmerksamkeit von langkontextfähigen LLMs. Dieses Design ermöglicht multiplikative Beschleunigungen durch die Kombination dieser Optimierungen. Konkret wandeln wir die Hälfte der Aufmerksamkeitsköpfe in nahezu kostenlose Streaming-Köpfe sowohl im Prefilling- als auch im Decoding-Stadium um. Zudem stellen wir fest, dass unabhängig von der Kontextlänge nur eine konstante Anzahl von KV-Seiten erforderlich ist, um die langkontextfähigen Fähigkeiten zu erhalten. Wir entwerfen dann eine hierarchische KV-Seitenauswahlpolitik, die KV-Seiten dynamisch basierend auf einer abfragezentrierten Ähnlichkeit beschneidet. Im Durchschnitt beschleunigt LServe das Prefilling von LLMs um bis zu 2,9x und das Decoding um 1,3-2,1x im Vergleich zu vLLM, wobei die Genauigkeit im Langkontext erhalten bleibt. Der Code ist unter https://github.com/mit-han-lab/omniserve veröffentlicht.

Skalierung des Verständnisses textreicher Bilder durch codegesteuerte synthetische multimodale Datengenerierung
Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation

Feb 20, 2025
Yue Yang, Ajay Patel, Matt Deitke, Tanmay Gupta, Luca Weihs, Andrew Head, Mark Yatskar, Chris Callison-Burch, Ranjay Krishna, Aniruddha Kembhavi, Christopher Clark
132

Das Verarbeiten von Bildern mit umfangreichem Text, wie Diagrammen und Dokumenten, ist eine entscheidende Anwendung von Vision-Language-Modellen (VLMs). Allerdings haben VLMs in diesen Bereichen oft Schwierigkeiten, da es an vielfältigen textreichen Vision-Language-Daten mangelt. Um diese Herausforderung zu bewältigen, stellen wir CoSyn vor, ein Framework, das die Programmierfähigkeiten von textbasierten großen Sprachmodellen (LLMs) nutzt, um automatisch synthetische textreiche multimodale Daten zu erstellen. Bei Eingabetext, der einen Zielbereich beschreibt (z. B. „Nährwertkennzeichnungen“), fordert CoSyn ein LLM auf, Code (Python, HTML, LaTeX usw.) zur Erzeugung synthetischer Bilder zu generieren. Mit dem zugrunde liegenden Code als textuelle Repräsentation der synthetischen Bilder kann CoSyn hochwertige Instruction-Tuning-Daten erzeugen, wobei erneut ein textbasiertes LLM verwendet wird. Mit CoSyn haben wir einen Datensatz erstellt, der 400.000 Bilder und 2,7 Millionen Zeilen von Vision-Language-Instruction-Tuning-Daten umfasst. Umfassende Experimente auf sieben Benchmarks zeigen, dass Modelle, die mit unseren synthetischen Daten trainiert wurden, Spitzenleistungen unter den konkurrierenden Open-Source-Modellen, einschließlich Llama 3.2, erreichen und proprietäre Modelle wie GPT-4V und Gemini 1.5 Flash übertreffen. Darüber hinaus kann CoSyn synthetische Pointing-Daten erzeugen, die es VLMs ermöglichen, Informationen innerhalb von Eingabebildern zu verankern, was sein Potenzial für die Entwicklung multimodaler Agenten zeigt, die in realen Umgebungen agieren können.

Von RAG zu Gedächtnis: Nicht-parametrisches kontinuierliches Lernen für große Sprachmodelle
From RAG to Memory: Non-Parametric Continual Learning for Large Language Models

Feb 20, 2025
Bernal Jiménez Gutiérrez, Yiheng Shu, Weijian Qi, Sizhe Zhou, Yu Su
132

Unsere Fähigkeit, kontinuierlich Wissen zu erwerben, zu organisieren und zu nutzen, ist ein zentrales Merkmal der menschlichen Intelligenz, das KI-Systeme annähern müssen, um ihr volles Potenzial zu entfalten. Angesichts der Herausforderungen beim kontinuierlichen Lernen mit großen Sprachmodellen (LLMs) hat die retrievergestützte Generierung (RAG) sich als dominanter Ansatz etabliert, um neue Informationen einzuführen. Allerdings behindert ihre Abhängigkeit von der Vektorretrieval ihre Fähigkeit, die dynamische und vernetzte Natur des menschlichen Langzeitgedächtnisses nachzuahmen. Neuere RAG-Ansätze erweitern Vektoreinbettungen mit verschiedenen Strukturen wie Wissensgraphen, um einige dieser Lücken, insbesondere Sinnbildung und Assoziativität, zu schließen. Allerdings sinkt ihre Leistung bei grundlegenden Faktengedächtnisaufgaben deutlich unter die des Standard-RAG. Wir adressieren diese unbeabsichtigte Verschlechterung und schlagen HippoRAG 2 vor, ein Framework, das den Standard-RAG umfassend bei Fakten-, Sinnbildungs- und assoziativen Gedächtnisaufgaben übertrifft. HippoRAG 2 baut auf dem in HippoRAG verwendeten Personalized PageRank-Algorithmus auf und verbessert ihn durch eine tiefere Integration von Textpassagen und eine effektivere Online-Nutzung eines LLM. Diese Kombination bringt dieses RAG-System näher an die Effektivität des menschlichen Langzeitgedächtnisses heran und erzielt eine 7%ige Verbesserung bei assoziativen Gedächtnisaufgaben gegenüber dem modernsten Einbettungsmodell, während es gleichzeitig überlegene Fähigkeiten im Bereich des Faktenwissens und der Sinnbildung zeigt. Diese Arbeit ebnet den Weg für nicht-parametrisches kontinuierliches Lernen für LLMs. Unser Code und unsere Daten werden unter https://github.com/OSU-NLP-Group/HippoRAG veröffentlicht.

RelaCtrl: Relevanzgesteuerte effiziente Steuerung für Diffusionstransformatoren
RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers

Feb 20, 2025
Ke Cao, Jing Wang, Ao Ma, Jiasong Feng, Zhanjie Zhang, Xuanhua He, Shanyuan Liu, Bo Cheng, Dawei Leng, Yuhui Yin, Jie Zhang
122

Der Diffusion Transformer spielt eine zentrale Rolle bei der Weiterentwicklung der Text-zu-Bild- und Text-zu-Video-Generierung, hauptsächlich aufgrund seiner inhärenten Skalierbarkeit. Allerdings verursachen bestehende Methoden für kontrollierte Diffusion Transformer erheblichen Parameter- und Rechenaufwand und leiden unter ineffizienter Ressourcenallokation, da sie die unterschiedliche Relevanz von Kontrollinformationen über verschiedene Transformer-Schichten hinweg nicht berücksichtigen. Um dies zu beheben, schlagen wir das Relevance-Guided Efficient Controllable Generation Framework, RelaCtrl, vor, das eine effiziente und ressourcenoptimierte Integration von Kontrollsignalen in den Diffusion Transformer ermöglicht. Zunächst bewerten wir die Relevanz jeder Schicht im Diffusion Transformer für die Kontrollinformationen, indem wir den „ControlNet Relevance Score“ ermitteln – d.h. die Auswirkung des Überspringens jeder Kontrollschicht auf sowohl die Generierungsqualität als auch die Kontrolleffektivität während der Inferenz. Basierend auf der Stärke der Relevanz passen wir dann die Positionierung, die Parameterskala und die Modellierungskapazität der Kontrollschichten an, um unnötige Parameter und redundante Berechnungen zu reduzieren. Zusätzlich ersetzen wir, um die Effizienz weiter zu verbessern, die Selbstaufmerksamkeit und das FFN im häufig verwendeten Copy-Block durch den sorgfältig entworfenen Two-Dimensional Shuffle Mixer (TDSM), der eine effiziente Implementierung sowohl des Token-Mixers als auch des Channel-Mixers ermöglicht. Sowohl qualitative als auch quantitative experimentelle Ergebnisse zeigen, dass unser Ansatz mit nur 15 % der Parameter und Rechenkomplexität im Vergleich zu PixArt-delta eine überlegene Leistung erzielt. Weitere Beispiele sind unter https://relactrl.github.io/RelaCtrl/ verfügbar.

NAVIG: Natürlichsprachgesteuerte Analyse mit Vision-Language-Modellen zur Bild-Geolokalisierung
NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization

Feb 20, 2025
Zheyuan Zhang, Runze Li, Tasnim Kabir, Jordan Boyd-Graber
112

Bild-Geolokalisierung ist die Aufgabe, den spezifischen Standort eines Bildes vorherzusagen und erfordert komplexe Schlussfolgerungen über visuelle, geografische und kulturelle Kontexte hinweg. Während bisherige Vision-Language-Modelle (VLMs) die höchste Genauigkeit bei dieser Aufgabe aufweisen, mangelt es an hochwertigen Datensätzen und Modellen für analytisches Denken. Zunächst erstellen wir NaviClues, einen hochwertigen Datensatz, der aus GeoGuessr, einem beliebten Geografiespiel, abgeleitet wird, um Beispiele für Experten-Schlussfolgerungen aus der Sprache bereitzustellen. Mit diesem Datensatz präsentieren wir Navig, ein umfassendes Framework zur Bild-Geolokalisierung, das globale und fein abgestufte Bildinformationen integriert. Durch das Schlussfolgern mit Sprache reduziert Navig den durchschnittlichen Distanzfehler um 14 % im Vergleich zu bisherigen State-of-the-Art-Modellen, während weniger als 1000 Trainingsbeispiele benötigt werden. Unser Datensatz und Code sind unter https://github.com/SparrowZheyuan18/Navig/ verfügbar.

CLIPPER: Kompression ermöglicht die Erzeugung synthetischer Daten mit langem Kontext
CLIPPER: Compression enables long-context synthetic data generation

Feb 20, 2025
Chau Minh Pham, Yapei Chang, Mohit Iyyer
102

LLM-Entwickler sind zunehmend auf synthetische Daten angewiesen, doch die Generierung hochwertiger Daten für komplexe Langkontext-Aufgaben bleibt eine Herausforderung. Wir stellen CLIPPER vor, einen kompressionsbasierten Ansatz zur Erzeugung synthetischer Daten, die speziell auf die Verifikation narrativer Behauptungen zugeschnitten sind – eine Aufgabe, die das Schlussfolgern über ein Buch erfordert, um eine gegebene Behauptung zu überprüfen. Anstatt Behauptungen direkt aus dem Rohtext des Buches zu generieren, was zu fehlerhaften Behauptungen führt, komprimiert CLIPPER das Buch zunächst in Kapitelübersichten und Buchzusammenfassungen und verwendet dann diese Zwischendarstellungen, um komplexe Behauptungen und entsprechende Gedankenketten zu erzeugen. Im Vergleich zu naiven Ansätzen produziert CLIPPER Behauptungen, die valider, fundierter und komplexer sind. Mit CLIPPER erstellen wir einen Datensatz von 19.000 synthetischen Buchbehauptungen, die mit ihren Quelltexten und Gedankenketten gepaart sind, und verwenden ihn, um drei Open-Weight-Modelle zu feinabstimmen. Unser bestes Modell erzielt bahnbrechende Ergebnisse bei der Verifikation narrativer Behauptungen (von 28 % auf 76 % Genauigkeit auf unserem Testset) und setzt einen neuen State-of-the-Art für Sub-10B-Modelle auf dem NoCha-Leaderboard. Weitere Analysen zeigen, dass unsere Modelle detailliertere und fundiertere Gedankenketten generieren und gleichzeitig die Leistung bei anderen narrativen Verständnisaufgaben (z. B. NarrativeQA) verbessern.

Verbesserung der Kognition und Erklärbarkeit multimodaler Basismodelle durch selbstsynthetisierte Daten
Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data

Feb 19, 2025
Yucheng Shi, Quanzheng Li, Jin Sun, Xiang Li, Ninghao Liu
83

Große multimodale Modelle (LMMs) haben beeindruckende Fähigkeiten in einer Vielzahl von visuellen Aufgaben gezeigt. Allerdings haben sie oft Schwierigkeiten mit feinkörniger visueller Argumentation, da sie domänenspezifische Ziele nicht identifizieren und nachvollziehbare Erklärungen für ihre Vorhersagen liefern können. Um dies zu adressieren, schlagen wir ein neuartiges Framework für visuelles Rejection Sampling vor, um die Kognition und Erklärbarkeit von LMMs mithilfe selbstsynthetisierter Daten zu verbessern. Konkret erfordert die visuelle Feinabstimmung Bilder, Abfragen und Zielantworten. Unser Ansatz beginnt mit der Synthese interpretierbarer Antworten, die menschlich überprüfbare visuelle Merkmale enthalten. Diese Merkmale basieren auf von Experten definierten Konzepten, die sorgfältig anhand ihrer Übereinstimmung mit dem Bildinhalt ausgewählt werden. Nach jeder Runde der Feinabstimmung wenden wir einen belohnungsmodellfreien Filtermechanismus an, um die qualitativ hochwertigsten interpretierbaren Antworten für die nächste Abstimmungsrunde auszuwählen. Dieser iterative Prozess der Datensynthese und Feinabstimmung verbessert schrittweise die Fähigkeit des Modells, präzise und nachvollziehbare Erklärungen zu generieren. Experimentelle Ergebnisse demonstrieren die Wirksamkeit unserer Methode bei der Verbesserung sowohl der Genauigkeit als auch der Erklärbarkeit spezialisierter visueller Klassifikationsaufgaben.

Multimodal RewardBench: Ganzheitliche Bewertung von Belohnungsmodellen für Vision-Sprach-Modelle
Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models

Feb 20, 2025
Michihiro Yasunaga, Luke Zettlemoyer, Marjan Ghazvininejad
72

Belohnungsmodelle spielen eine entscheidende Rolle beim Training von Vision-Sprache-Modellen (VLMs), indem sie die Qualität der Ausgaben bewerten, um eine Ausrichtung an menschlichen Präferenzen zu ermöglichen. Trotz ihrer Bedeutung fehlt der Forschungsgemeinschaft umfassende, offene Benchmarks zur Bewertung multimodaler Belohnungsmodelle in VLMs. Um diese Lücke zu schließen, stellen wir Multimodal RewardBench vor, einen von Experten annotierten Benchmark, der sechs Domänen abdeckt: allgemeine Korrektheit, Präferenz, Wissen, logisches Denken, Sicherheit und visuelles Frage-Antworten. Unser Datensatz umfasst 5.211 annotierte (Prompt, ausgewählte Antwort, abgelehnte Antwort) Tripel, die aus verschiedenen VLMs gesammelt wurden. Bei der Bewertung einer Reihe von VLM-Judges stellen wir fest, dass selbst die leistungsstärksten Modelle, Gemini 1.5 Pro und Claude 3.5 Sonnet, nur eine Gesamtgenauigkeit von 72 % erreichen. Besonders auffällig ist, dass die meisten Modelle in den Bereichen logisches Denken und Sicherheit Schwierigkeiten haben. Diese Ergebnisse deuten darauf hin, dass Multimodal RewardBench eine anspruchsvolle Testumgebung für die Weiterentwicklung von Belohnungsmodellen in mehreren Domänen bietet. Wir veröffentlichen den Benchmark unter https://github.com/facebookresearch/multimodal_rewardbench.

Erstellung von Skyline-Datensätzen für Data-Science-Modelle
Generating Skyline Datasets for Data Science Models

Feb 16, 2025
Mengying Wang, Hanchao Ma, Yiyang Bian, Yangxin Fan, Yinghui Wu
72

Die Erstellung hochwertiger Datensätze, die von verschiedenen datengetriebenen KI- und Machine-Learning-Modellen benötigt werden, ist zu einer zentralen Aufgabe in der datengetriebenen Analyse geworden. Herkömmliche Methoden zur Datensatzentdeckung integrieren Datensätze typischerweise anhand eines einzigen vordefinierten Qualitätsmaßes, was zu Verzerrungen bei nachgelagerten Aufgaben führen kann. Dieses Papier stellt MODis vor, ein Framework, das Datensätze durch die Optimierung mehrerer benutzerdefinierter Modellleistungsmaße entdeckt. Gegeben eine Menge von Datenquellen und ein Modell, wählt MODis Datenquellen aus und integriert sie in einen Skyline-Datensatz, über dem das Modell die gewünschte Leistung in allen Leistungsmaßen erzielen soll. Wir formulieren MODis als einen Multi-Ziel-Finite-State-Transducer und leiten drei praktikable Algorithmen zur Erzeugung von Skyline-Datensätzen ab. Unser erster Algorithmus verfolgt eine „Reduzieren-von-universell“-Strategie, die mit einem universellen Schema beginnt und iterativ unvielversprechende Daten aussortiert. Unser zweiter Algorithmus reduziert die Kosten weiter durch eine bidirektionale Strategie, die Datenanreicherung und -reduktion miteinander verknüpft. Wir führen außerdem einen Diversifizierungsalgorithmus ein, um Verzerrungen in Skyline-Datensätzen zu mindern. Wir überprüfen experimentell die Effizienz und Wirksamkeit unserer Skyline-Datensatzentdeckungsalgorithmen und demonstrieren ihre Anwendungen bei der Optimierung von Data-Science-Pipelines.

LLM-basiertes Benutzerprofilmanagement für Empfehlungssysteme
LLM-based User Profile Management for Recommender System

Feb 20, 2025
Seunghwan Bang, Hwanjun Song
62

Die rasante Weiterentwicklung von Large Language Models (LLMs) hat neue Möglichkeiten in Empfehlungssystemen eröffnet, indem sie Zero-Shot-Empfehlungen ohne konventionelles Training ermöglichen. Trotz ihres Potenzials stützen sich die meisten bestehenden Arbeiten ausschließlich auf die Kaufhistorie der Nutzer, wodurch erheblicher Spielraum für Verbesserungen durch die Einbeziehung nutzergenerierter Textdaten wie Bewertungen und Produktbeschreibungen besteht. Um diese Lücke zu schließen, schlagen wir PURE vor, ein neuartiges LLM-basiertes Empfehlungsframework, das sich entwickelnde Nutzerprofile systematisch durch die Extraktion und Zusammenfassung von Schlüsselinformationen aus Nutzerbewertungen aufbaut und pflegt. PURE besteht aus drei Kernkomponenten: einem Review Extractor zur Identifizierung von Nutzerpräferenzen und wichtigen Produktmerkmalen, einem Profile Updater zur Verfeinerung und Aktualisierung der Nutzerprofile und einem Recommender zur Generierung personalisierter Empfehlungen unter Verwendung des aktuellsten Profils. Um PURE zu evaluieren, führen wir eine kontinuierliche sequenzielle Empfehlungsaufgabe ein, die reale Szenarien widerspiegelt, indem Bewertungen über die Zeit hinzugefügt und Vorhersagen schrittweise aktualisiert werden. Unsere experimentellen Ergebnisse auf Amazon-Datensätzen zeigen, dass PURE bestehende LLM-basierte Methoden übertrifft und langfristige Nutzerinformationen effektiv nutzt, während es Token-Beschränkungen handhabt.

Erzeugung von π-funktionalen Molekülen mit STGG+ und aktivem Lernen
Generating π-Functional Molecules Using STGG+ with Active Learning

Feb 20, 2025
Alexia Jolicoeur-Martineau, Yan Zhang, Boris Knyazev, Aristide Baratin, Cheng-Hao Liu
42

Die Erzeugung neuartiger Moleküle mit Eigenschaften außerhalb der Verteilung ist eine große Herausforderung in der Molekülentdeckung. Während überwachte Lernmethoden hochwertige Moleküle erzeugen, die denen in einem Datensatz ähneln, haben sie Schwierigkeiten, sich auf Eigenschaften außerhalb der Verteilung zu verallgemeinern. Reinforcement Learning kann neue chemische Räume erkunden, führt jedoch oft zu „Reward-Hacking“ und erzeugt nicht synthetisierbare Moleküle. In dieser Arbeit adressieren wir dieses Problem, indem wir eine state-of-the-art überwachte Lernmethode, STGG+, in eine aktive Lernschleife integrieren. Unser Ansatz generiert, bewertet und feinjustiert STGG+ iterativ, um dessen Wissen kontinuierlich zu erweitern. Wir bezeichnen diesen Ansatz als STGG+AL. Wir wenden STGG+AL auf das Design organischer π-funktionaler Materialien an, insbesondere auf zwei anspruchsvolle Aufgaben: 1) die Erzeugung hoch absorbierender Moleküle, die durch eine hohe Oszillatorstärke charakterisiert sind, und 2) das Design absorbierender Moleküle mit einer vernünftigen Oszillatorstärke im nahen Infrarotbereich (NIR). Die generierten Moleküle werden in silico mit zeitabhängiger Dichtefunktionaltheorie validiert und rationalisiert. Unsere Ergebnisse zeigen, dass unsere Methode äußerst effektiv darin ist, neuartige Moleküle mit hoher Oszillatorstärke zu erzeugen, im Gegensatz zu bestehenden Methoden wie Reinforcement Learning (RL). Wir stellen unseren Active-Learning-Code zusammen mit unserem Conjugated-xTB-Datensatz, der 2,9 Millionen π-konjugierte Moleküle enthält, sowie die Funktion zur Approximation der Oszillatorstärke und der Absorptionswellenlänge (basierend auf sTDA-xTB) als Open Source zur Verfügung.

Symmetrische visuelle Kontrastoptimierung: Ausrichtung von Vision-Language-Modellen mit minimalen Kontrastbildern
Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images

Feb 19, 2025
Shengguang Wu, Fan-Yun Sun, Kaiyue Wen, Nick Haber
42

Aktuelle Studien haben gezeigt, dass große visuell-sprachliche Modelle (VLMs) dazu neigen, Bildinhalte zu vernachlässigen und sich übermäßig auf sprachmodellbasierte Prioritäten zu verlassen, was zu Fehlern in visuell fundierten Aufgaben und Halluzinationen führt. Wir vermuten, dass dieses Problem auftritt, weil bestehende VLMs nicht explizit darauf trainiert werden, Texte zu generieren, die präzise in fein abgestimmte Bilddetails eingebettet sind. Um das visuelle Feedback während des VLM-Trainings zu verbessern, schlagen wir S-VCO (Symmetrische Visuelle Kontrastive Optimierung) vor, ein neuartiges Feinabstimmungsziel, das das Modell dazu anleitet, wichtige visuelle Details zu erfassen und sie mit entsprechenden Text-Tokens abzugleichen. Um diese detaillierte Ausrichtung weiter zu fördern, führen wir MVC ein, einen gepaarten Bild-Text-Datensatz, der durch automatisches Filtern und Erweitern visueller kontrafaktischer Daten erstellt wurde, um das Modell mit schwierigen kontrastiven Fällen zu konfrontieren, die minimale visuelle Kontraste beinhalten. Experimente zeigen, dass unsere Methode die VLM-Leistung über diverse Benchmarks hinweg, die verschiedene Fähigkeiten und Domänen abdecken, konsequent verbessert, wobei eine Reduzierung der Halluzinationen um bis zu 22 % sowie signifikante Fortschritte in visuell-zentrierten und allgemeinen Aufgaben erzielt werden. Bemerkenswerterweise werden diese Verbesserungen in Benchmarks mit höherer visueller Abhängigkeit zunehmend deutlicher. Kurz gesagt bietet S-VCO eine signifikante Steigerung der visuell abhängigen Aufgabenleistung von VLMs, während die allgemeinen Fähigkeiten des Modells erhalten bleiben oder sogar verbessert werden. Wir stellen unseren Code unter https://s-vco.github.io/ als Open Source zur Verfügung.

Geolokalisierung mit Echtzeit-Spieldaten von Menschen: Ein umfangreicher Datensatz und ein menschenähnliches Reasoning-Framework
Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework

Feb 19, 2025
Zirui Song, Jingpu Yang, Yuan Huang, Jonathan Tonglet, Zeyu Zhang, Tao Cheng, Meng Fang, Iryna Gurevych, Xiuying Chen
42

Geolokalisierung, die Aufgabe, den Standort eines Bildes zu bestimmen, erfordert komplexe Schlussfolgerungen und ist entscheidend für Navigation, Überwachung und den Erhalt von Kulturgütern. Allerdings liefern aktuelle Methoden oft grobe, ungenaue und schwer interpretierbare Lokalisierungen. Eine große Herausforderung liegt in der Qualität und dem Umfang bestehender Geodatensätze. Diese Datensätze sind typischerweise klein und automatisch erstellt, was zu verrauschten Daten und inkonsistenter Aufgabenkomplexität führt, wobei Bilder entweder zu leicht die Antwort verraten oder nicht genügend Hinweise für zuverlässige Schlussfolgerungen bieten. Um diese Herausforderungen zu bewältigen, stellen wir ein umfassendes Geolokalisierungs-Framework mit drei Schlüsselkomponenten vor: GeoComp, einen groß angelegten Datensatz; GeoCoT, eine neuartige Schlussfolgerungsmethode; und GeoEval, ein Bewertungsmaßstab, die gemeinsam entwickelt wurden, um kritische Herausforderungen zu adressieren und Fortschritte in der Geolokalisierungsforschung voranzutreiben. Im Kern dieses Frameworks steht GeoComp (Geolocation Competition Dataset), ein groß angelegter Datensatz, der von einer Geolokalisierungs-Spielplattform gesammelt wurde und 740.000 Nutzer über zwei Jahre hinweg umfasst. Er besteht aus 25 Millionen Metadateneinträgen und 3 Millionen geotaggten Standorten, die einen Großteil des Globus abdecken, wobei jeder Standort tausend- bis zehntausendfach von menschlichen Nutzern annotiert wurde. Der Datensatz bietet unterschiedliche Schwierigkeitsgrade für detaillierte Analysen und hebt wesentliche Lücken in aktuellen Modellen hervor. Aufbauend auf diesem Datensatz schlagen wir Geographical Chain-of-Thought (GeoCoT) vor, ein neuartiges mehrstufiges Schlussfolgerungsframework, das darauf abzielt, die Fähigkeiten von Large Vision Models (LVMs) bei Geolokalisierungsaufgaben zu verbessern. GeoCoT steigert die Leistung, indem es kontextuelle und räumliche Hinweise durch einen mehrstufigen Prozess integriert, der die menschliche Geolokalisierungslogik nachahmt. Schließlich zeigen wir mit dem GeoEval-Maßstab, dass GeoCoT die Genauigkeit der Geolokalisierung um bis zu 25 % signifikant erhöht und gleichzeitig die Interpretierbarkeit verbessert.

Unstrukturierte Evidenzzuordnung für fokussierte Zusammenfassungen mit langem Kontext
Unstructured Evidence Attribution for Long Context Query Focused Summarization

Feb 20, 2025
Dustin Wright, Zain Muhammad Mujahid, Lu Wang, Isabelle Augenstein, David Jurgens
32

Große Sprachmodelle (LLMs) sind in der Lage, kohärente Zusammenfassungen aus sehr langen Kontexten basierend auf einer Benutzeranfrage zu generieren. Das Extrahieren und korrekte Zitieren von Belegstellen könnte die Transparenz und Zuverlässigkeit dieser Zusammenfassungen verbessern. Gleichzeitig leiden LLMs unter Positionsverzerrungen in Bezug darauf, welche Informationen sie verstehen und beachten, was die Zitierung von Belegen beeinträchtigen könnte. Während sich frühere Arbeiten auf die Zitierung von Belegen mit vordefinierten Granularitätsstufen (z. B. Satz, Absatz, Dokument usw.) konzentriert haben, schlagen wir die Aufgabe der langkontextbezogenen, anfrageorientierten Zusammenfassung mit unstrukturierter Belegzitierung vor. Wir zeigen, dass bestehende Systeme Schwierigkeiten haben, unstrukturierte Belege aus ihrem Kontext zu generieren und korrekt zu zitieren, und dass Belege tendenziell „in der Mitte verloren gehen“. Um dies zu mildern, erstellen wir den Summaries with Unstructured Evidence Text-Datensatz (SUnsET), einen synthetischen Datensatz, der mit einer neuartigen domänenunabhängigen Pipeline generiert wurde und als Supervision zur Anpassung von LLMs an diese Aufgabe verwendet werden kann. Wir demonstrieren anhand von 5 LLMs unterschiedlicher Größe und 4 Datensätzen mit verschiedenen Dokumenttypen und -längen, dass LLMs, die mit SUnsET-Daten angepasst wurden, relevantere und faktenkonsistentere Belege generieren als ihre Basismodelle, Belege aus diverseren Positionen in ihrem Kontext extrahieren und relevantere und konsistentere Zusammenfassungen erstellen können.

Wie stark halluzinieren LLMs über verschiedene Sprachen hinweg? Zur multilingalen Schätzung von LLM-Halluzinationen in der Praxis
How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild

Feb 18, 2025
Saad Obaid ul Islam, Anne Lauscher, Goran Glavaš
32

Im Zeitalter der Fehlinformationen stellt die Halluzination – die Tendenz von Large Language Models (LLMs), nicht-faktische oder unzuverlässige Antworten zu generieren – das Hauptrisiko für ihren globalen Nutzen dar. Obwohl LLMs zunehmend mehrsprachig werden, konzentriert sich die überwiegende Mehrheit der Forschung zur Erkennung und Quantifizierung von LLM-Halluzinationen (a) auf Englisch und (b) auf maschinelle Übersetzung (MT) und Zusammenfassung, Aufgaben, die „in der Praxis“ seltener vorkommen als die offene Informationssuche. Im Gegensatz dazu zielen wir darauf ab, das Ausmaß der LLM-Halluzinationen in wissensintensiven, langen Frage-Antwort-Szenarien über verschiedene Sprachen hinweg zu quantifizieren. Zu diesem Zweck trainieren wir ein mehrsprachiges Modell zur Erkennung von Halluzinationen und führen eine groß angelegte Studie über 30 Sprachen und 6 Open-Source-LLM-Familien durch. Wir beginnen mit einem englischen Datensatz zur Erkennung von Halluzinationen und nutzen MT, um (verrauschte) Trainingsdaten in anderen Sprachen zu generieren. Zudem annotieren wir manuell Gold-Daten für fünf Hochressourcen-Sprachen; wir zeigen dann für diese Sprachen, dass die Schätzungen der Halluzinationsraten zwischen silbernen (LLM-generierten) und goldenen Testdatensätzen ähnlich sind, was die Verwendung von silbernen Daten zur Schätzung der Halluzinationsraten für andere Sprachen validiert. Für die endgültige Schätzung der Raten erstellen wir einen wissensintensiven Frage-Antwort-Datensatz für 30 Sprachen mit LLM-generierten Prompts und Wikipedia-Artikeln als Referenzen. Wir stellen fest, dass LLMs zwar längere Antworten mit mehr halluzinierten Tokens für Hochressourcen-Sprachen generieren, es jedoch keine Korrelation zwischen den längen-normalisierten Halluzinationsraten der Sprachen und ihrer digitalen Repräsentation gibt. Darüber hinaus zeigen wir, dass kleinere LLMs höhere Halluzinationsraten aufweisen als größere Modelle.

Feb 20
Feb 21
Feb 24