HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

31 papers found

Qwen2.5-VL Technischer Bericht
Qwen2.5-VL Technical Report

Feb 19

ByShuai Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang, Peng Wang, Shijie Wang, Jun Tang, Humen Zhong, Yuanzhi Zhu, Mingkun Yang, Zhaohai Li, Jianqiang Wan, Pengfei Wang, Wei Ding, Zheren Fu, Yiheng Xu, Jiabo Ye, Xi Zhang, Tianbao Xie, Zesen Cheng, Hang Zhang, Zhibo Yang, Haiyang Xu, Junyang Lin

206

Wir stellen Qwen2.5-VL vor, das neueste Flaggschiffmodell der Qwen Vision-Language-Serie, das bedeutende Fortschritte sowohl in den grundlegenden Fähigkeiten als auch in innovativen Funktionalitäten demonstriert. Qwen2.5-VL macht einen großen Sprung nach vorn im Verständnis und der Interaktion mit der Welt durch verbesserte visuelle Erkennung, präzise Objektlokalisierung, robuste Dokumentenanalyse und Langzeit-Videoverständnis. Ein herausragendes Merkmal von Qwen2.5-VL ist seine Fähigkeit, Objekte mithilfe von Begrenzungsrahmen oder Punkten genau zu lokalisieren. Es bietet eine robuste Extraktion strukturierter Daten aus Rechnungen, Formularen und Tabellen sowie eine detaillierte Analyse von Diagrammen, Grafiken und Layouts. Um komplexe Eingaben zu verarbeiten, führt Qwen2.5-VL dynamische Auflösungsverarbeitung und absolute Zeitcodierung ein, wodurch es Bilder unterschiedlicher Größen und Videos mit langer Laufzeit (bis zu Stunden) mit sekundengenauer Ereignislokalisierung verarbeiten kann. Dies ermöglicht es dem Modell, räumliche Skalen und zeitliche Dynamiken nativ wahrzunehmen, ohne auf traditionelle Normalisierungstechniken angewiesen zu sein. Durch das Training eines nativen dynamischen Auflösungs-Vision Transformers (ViT) von Grund auf und die Einbindung von Window Attention reduzieren wir den Rechenaufwand bei Beibehaltung der nativen Auflösung. Infolgedessen zeichnet sich Qwen2.5-VL nicht nur im Verständnis statischer Bilder und Dokumente aus, sondern auch als interaktiver visueller Agent, der in der Lage ist, in realen Szenarien wie dem Betrieb von Computern und Mobilgeräten zu schlussfolgern, Werkzeuge zu nutzen und Aufgaben auszuführen. Qwen2.5-VL ist in drei Größen verfügbar, die verschiedene Anwendungsfälle von Edge AI bis hin zu Hochleistungsrechnen abdecken. Das Flaggschiffmodell Qwen2.5-VL-72B erreicht das Niveau von State-of-the-Art-Modellen wie GPT-4o und Claude 3.5 Sonnet, insbesondere im Verständnis von Dokumenten und Diagrammen. Darüber hinaus behält Qwen2.5-VL eine robuste sprachliche Leistungsfähigkeit bei und bewahrt die Kernkompetenzen des Qwen2.5 LLM.

Zur Vertrauenswürdigkeit generativer Foundation-Modelle: Leitfaden, Bewertung und Perspektive
On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective

Feb 20

ByYue Huang, Chujie Gao, Siyuan Wu, Haoran Wang, Xiangqi Wang, Yujun Zhou, Yanbo Wang, Jiayi Ye, Jiawen Shi, Qihui Zhang, Yuan Li, Han Bao, Zhaoyi Liu, Tianrui Guan, Dongping Chen, Ruoxi Chen, Kehan Guo, Andy Zou, Bryan Hooi Kuen-Yew, Caiming Xiong, Elias Stengel-Eskin, Hongyang Zhang, Hongzhi Yin, Huan Zhang, Huaxiu Yao, Jaehong Yoon, Jieyu Zhang, Kai Shu, Kaijie Zhu, Ranjay Krishna, Swabha Swayamdipta, Taiwei Shi, Weijia Shi, Xiang Li, Yiwei Li, Yuexing Hao, Yuexing Hao, Zhihao Jia, Zhize Li, Xiuying Chen, Zhengzhong Tu, Xiyang Hu, Tianyi Zhou, Jieyu Zhao, Lichao Sun, Furong Huang, Or Cohen Sasson, Prasanna Sattigeri, Anka Reuel, Max Lamparth, Yue Zhao, Nouha Dziri, Yu Su, Huan Sun, Heng Ji, Chaowei Xiao, Mohit Bansal, Nitesh V. Chawla, Jian Pei, Jianfeng Gao, Michael Backes, Philip S. Yu, Neil Zhenqiang Gong, Pin-Yu Chen, Bo Li, Xiangliang Zhang

Generative Foundation Models (GenFMs) haben sich als transformative Werkzeuge etabliert. Ihre breite Anwendung wirft jedoch kritische Bedenken hinsichtlich der Vertrauenswürdigkeit in verschiedenen Dimensionen auf. Dieses Papier präsentiert einen umfassenden Rahmen, um diese Herausforderungen durch drei zentrale Beiträge zu adressieren. Zunächst führen wir eine systematische Überprüfung globaler KI-Governance-Gesetze und -Richtlinien von Regierungen und Regulierungsbehörden sowie von Branchenpraktiken und -standards durch. Basierend auf dieser Analyse schlagen wir eine Reihe von Leitprinzipien für GenFMs vor, die durch umfangreiche multidisziplinäre Zusammenarbeit entwickelt wurden und technische, ethische, rechtliche und gesellschaftliche Perspektiven integrieren. Zweitens stellen wir TrustGen vor, die erste dynamische Benchmarking-Plattform, die entwickelt wurde, um die Vertrauenswürdigkeit über mehrere Dimensionen und Modelltypen hinweg zu bewerten, einschließlich Text-zu-Bild-, Large-Language- und Vision-Language-Modelle. TrustGen nutzt modulare Komponenten – Metadatenkuratierung, Testfallgenerierung und kontextuelle Variation –, um adaptive und iterative Bewertungen zu ermöglichen und die Grenzen statischer Evaluierungsmethoden zu überwinden. Mit TrustGen zeigen wir signifikante Fortschritte in der Vertrauenswürdigkeit auf, identifizieren aber auch anhaltende Herausforderungen. Schließlich bieten wir eine detaillierte Diskussion der Herausforderungen und zukünftigen Richtungen für vertrauenswürdige GenFMs, die die komplexe, sich entwickelnde Natur der Vertrauenswürdigkeit offenlegt, die subtilen Abwägungen zwischen Nutzen und Vertrauenswürdigkeit hervorhebt und Überlegungen für verschiedene nachgelagerte Anwendungen berücksichtigt, wobei anhaltende Herausforderungen identifiziert und eine strategische Roadmap für zukünftige Forschung bereitgestellt wird. Diese Arbeit etabliert einen ganzheitlichen Rahmen zur Förderung der Vertrauenswürdigkeit in der generativen KI und ebnet den Weg für eine sicherere und verantwortungsvollere Integration von GenFMs in kritische Anwendungen. Um Fortschritte in der Gemeinschaft zu erleichtern, stellen wir das Toolkit für die dynamische Bewertung zur Verfügung.

SongGen: Ein einstufiger autoregressiver Transformer für die Text-zu-Song-Generierung
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation

Feb 18

ByZihan Liu, Shuangrui Ding, Zhixiong Zhang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang

Text-to-Song-Generierung, die Aufgabe, Gesang und Begleitung aus textuellen Eingaben zu erstellen, stellt aufgrund der Komplexität des Bereichs und der Datenknappheit erhebliche Herausforderungen dar. Bestehende Ansätze verwenden oft mehrstufige Generierungsverfahren, was zu umständlichen Trainings- und Inferenz-Pipelines führt. In diesem Artikel schlagen wir SongGen vor, ein vollständig quelloffenes, einstufiges autoregressives Transformer-Modell, das für kontrollierbare Song-Generierung entwickelt wurde. Das vorgeschlagene Modell ermöglicht eine fein abgestimmte Kontrolle über verschiedene musikalische Attribute, einschließlich Texten und textuellen Beschreibungen von Instrumentierung, Genre, Stimmung und Klangfarbe, während es auch einen optionalen dreisekündigen Referenzclip für das Klonen von Stimmen bietet. Innerhalb eines einheitlichen autoregressiven Frameworks unterstützt SongGen zwei Ausgabemodi: den Mixed-Modus, der eine Mischung aus Gesang und Begleitung direkt erzeugt, und den Dual-Track-Modus, der sie separat synthetisiert, um eine größere Flexibilität in nachgelagerten Anwendungen zu ermöglichen. Wir untersuchen verschiedene Token-Muster-Strategien für jeden Modus, was zu bemerkenswerten Verbesserungen und wertvollen Erkenntnissen führt. Darüber hinaus entwerfen wir eine automatisierte Datenvorverarbeitungs-Pipeline mit effektiver Qualitätskontrolle. Um die Gemeinschaftsarbeit und zukünftige Forschung zu fördern, werden wir unsere Modellgewichte, Trainingscode, annotierte Daten und Vorverarbeitungs-Pipeline veröffentlichen. Die generierten Beispiele werden auf unserer Projektseite unter https://liuzh-19.github.io/SongGen/ präsentiert, und der Code wird unter https://github.com/LiuZH-19/SongGen verfügbar sein.

MMTEB: Massiver Multilingualer Text-Einbettungs-Benchmark
MMTEB: Massive Multilingual Text Embedding Benchmark

Feb 19

ByKenneth Enevoldsen, Isaac Chung, Imene Kerboua, Márton Kardos, Ashwin Mathur, David Stap, Jay Gala, Wissam Siblini, Dominik Krzemiński, Genta Indra Winata, Saba Sturua, Saiteja Utpala, Mathieu Ciancone, Marion Schaeffer, Gabriel Sequeira, Diganta Misra, Shreeya Dhakal, Jonathan Rystrøm, Roman Solomatin, Ömer Çağatan, Akash Kundu, Martin Bernstorff, Shitao Xiao, Akshita Sukhlecha, Bhavish Pahwa, Rafał Poświata, Kranthi Kiran GV, Shawon Ashraf, Daniel Auras, Björn Plüster, Jan Philipp Harries, Loïc Magne, Isabelle Mohr, Mariya Hendriksen, Dawei Zhu, Hippolyte Gisserot-Boukhlef, Tom Aarsen, Jan Kostkan, Konrad Wojtasik, Taemin Lee, Marek Šuppa, Crystina Zhang, Roberta Rocca, Mohammed Hamdy, Andrianos Michail, John Yang, Manuel Faysse, Aleksei Vatolin, Nandan Thakur, Manan Dey, Dipam Vasani, Pranjal Chitale, Simone Tedeschi, Nguyen Tai, Artem Snegirev, Michael Günther, Mengzhou Xia, Weijia Shi, Xing Han Lù, Jordan Clive, Gayatri Krishnakumar, Anna Maksimova, Silvan Wehrli, Maria Tikhonova, Henil Panchal, Aleksandr Abramov, Malte Ostendorff, Zheng Liu, Simon Clematide, Lester James Miranda, Alena Fenogenova, Guangyu Song, Ruqiya Bin Safi, Wen-Ding Li, Alessia Borghini, Federico Cassano, Hongjin Su, Jimmy Lin, Howard Yen, Lasse Hansen, Sara Hooker, Chenghao Xiao, Vaibhav Adlakha, Orion Weller, Siva Reddy, Niklas Muennighoff

Text-Embeddings werden typischerweise anhand einer begrenzten Anzahl von Aufgaben bewertet, die durch Sprache, Domäne und Aufgabenvielfalt eingeschränkt sind. Um diese Einschränkungen zu überwinden und eine umfassendere Bewertung zu ermöglichen, führen wir den Massive Multilingual Text Embedding Benchmark (MMTEB) ein – eine groß angelegte, community-gesteuerte Erweiterung des MTEB, die über 500 qualitätskontrollierte Bewertungsaufgaben in mehr als 250 Sprachen abdeckt. MMTEB umfasst eine vielfältige Sammlung anspruchsvoller, neuartiger Aufgaben wie Befolgen von Anweisungen, Retrieval von langen Dokumenten und Code-Retrieval und stellt damit die bisher größte mehrsprachige Sammlung von Bewertungsaufgaben für Embedding-Modelle dar. Mithilfe dieser Sammlung entwickeln wir mehrere hochgradig mehrsprachige Benchmarks, die wir zur Bewertung einer repräsentativen Auswahl von Modellen verwenden. Wir stellen fest, dass große Sprachmodelle (LLMs) mit Milliarden von Parametern zwar Spitzenleistungen in bestimmten Sprachuntergruppen und Aufgabenkategorien erzielen können, das beste öffentlich verfügbare Modell jedoch multilingual-e5-large-instruct mit nur 560 Millionen Parametern ist. Um die Zugänglichkeit zu verbessern und die Rechenkosten zu reduzieren, führen wir eine neuartige Downsampling-Methode basierend auf der Inter-Task-Korrelation ein, die eine vielfältige Auswahl gewährleistet, während die relativen Modellrankings erhalten bleiben. Darüber hinaus optimieren wir Aufgaben wie Retrieval durch das Sampling von schwierigen Negativbeispielen, wodurch kleinere, aber effektive Datensplits entstehen. Diese Optimierungen ermöglichen es uns, Benchmarks einzuführen, die den Rechenaufwand drastisch reduzieren. Beispielsweise behält unser neu eingeführter Zero-Shot-Englisch-Benchmark eine ähnliche Rangfolge wie die Vollversion bei, jedoch bei einem Bruchteil der Rechenkosten.

Kleine Modelle haben Schwierigkeiten, von starken Schlussfolgerern zu lernen.
Small Models Struggle to Learn from Strong Reasoners

Feb 17

ByYuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian, Radha Poovendran

Große Sprachmodelle (LLMs) zeichnen sich bei komplexen Denkaufgaben aus, und die Destillation ihrer Denkfähigkeiten in kleinere Modelle hat vielversprechende Ergebnisse gezeigt. Wir entdecken jedoch ein interessantes Phänomen, das wir als Small Model Learnability Gap bezeichnen: Kleine Modelle (≤3B Parameter) profitieren nicht konsistent von langen Chain-of-Thought (CoT)-Denkprozessen oder der Destillation von größeren Modellen. Stattdessen schneiden sie besser ab, wenn sie auf kürzeren, einfacheren Denkketten feinabgestimmt werden, die besser mit ihrer intrinsischen Lernkapazität übereinstimmen. Um dies zu adressieren, schlagen wir Mix Distillation vor, eine einfache, aber effektive Strategie, die die Komplexität des Denkens ausgleicht, indem sie lange und kurze CoT-Beispiele oder Denkprozesse sowohl von größeren als auch kleineren Modellen kombiniert. Unsere Experimente zeigen, dass Mix Distillation die Denkleistung kleiner Modelle im Vergleich zum Training mit nur einem Datentyp signifikant verbessert. Diese Erkenntnisse verdeutlichen die Grenzen der direkten Destillation starker Modelle und betonen die Bedeutung der Anpassung der Denkkomplexität für einen effektiven Transfer von Denkfähigkeiten.

RAD: Training einer End-to-End-Fahrstrategie durch groß angelegtes 3DGS-basiertes Reinforcement Learning
RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

Feb 18

ByHao Gao, Shaoyu Chen, Bo Jiang, Bencheng Liao, Yiang Shi, Xiaoyang Guo, Yuechuan Pu, Haoran Yin, Xiangyu Li, Xinbang Zhang, Ying Zhang, Wenyu Liu, Qian Zhang, Xinggang Wang

Bestehende End-to-End-Algorithmen für autonomes Fahren (AD) folgen in der Regel dem Imitation Learning (IL)-Paradigma, das mit Herausforderungen wie kausaler Verwirrung und der Open-Loop-Lücke konfrontiert ist. In dieser Arbeit etablieren wir ein auf 3DGS basierendes Closed-Loop Reinforcement Learning (RL)-Trainingsparadigma. Durch die Nutzung von 3DGS-Techniken konstruieren wir eine fotorealistische digitale Nachbildung der realen physischen Welt, wodurch die AD-Politik den Zustandsraum umfassend erkunden und den Umgang mit Out-of-Distribution-Szenarien durch groß angelegtes Ausprobieren und Fehlermachen erlernen kann. Um die Sicherheit zu erhöhen, entwerfen wir spezialisierte Belohnungen, die die Politik dazu anleiten, effektiv auf sicherheitskritische Ereignisse zu reagieren und reale kausale Zusammenhänge zu verstehen. Für eine bessere Übereinstimmung mit menschlichem Fahrverhalten wird IL als Regularisierungsterm in das RL-Training integriert. Wir führen ein Closed-Loop-Evaluierungsbenchmark ein, das aus vielfältigen, zuvor unbekannten 3DGS-Umgebungen besteht. Im Vergleich zu IL-basierten Methoden erzielt RAD eine stärkere Leistung in den meisten Closed-Loop-Metriken, insbesondere eine dreimal niedrigere Kollisionsrate. Umfangreiche Closed-Loop-Ergebnisse werden unter https://hgao-cv.github.io/RAD präsentiert.

MoM: Lineare Sequenzmodellierung mit Mixture-of-Memories
MoM: Linear Sequence Modeling with Mixture-of-Memories

Feb 19

ByJusen Du, Weigao Sun, Disen Lan, Jiaxi Hu, Yu Cheng

Lineare Sequenzmodellierungsmethoden wie lineare Aufmerksamkeit, Zustandsraummodellierung und lineare RNNs bieten erhebliche Effizienzsteigerungen, indem sie die Komplexität von Training und Inferenz reduzieren. Diese Methoden komprimieren jedoch typischerweise die gesamte Eingabesequenz in einen einzigen festen Speicherzustand, was zu suboptimaler Leistung bei erinnerungsintensiven Downstream-Aufgaben führt. Inspiriert von der Neurowissenschaft, insbesondere der Fähigkeit des Gehirns, ein robustes Langzeitgedächtnis zu erhalten und gleichzeitig „Gedächtnisinterferenz“ zu minimieren, führen wir eine neuartige Architektur namens Mixture-of-Memories (MoM) ein. MoM nutzt mehrere unabhängige Speicherzustände, wobei ein Router-Netzwerk Eingabetoken zu bestimmten Speicherzuständen leitet. Dieser Ansatz erhöht die gesamte Speicherkapazität erheblich und minimiert gleichzeitig Gedächtnisinterferenzen. Dadurch schneidet MoM bei erinnerungsintensiven Aufgaben außergewöhnlich gut ab und übertrifft bestehende lineare Sequenzmodellierungstechniken. Obwohl mehrere Speicherzustände integriert sind, bleibt die Berechnung jedes Speicherzustands linear in der Komplexität, sodass MoM den Vorteil der linearen Komplexität während des Trainings beibehält, während die Inferenz konstant komplex bleibt. Unsere experimentellen Ergebnisse zeigen, dass MoM aktuelle lineare Sequenzmodelle bei Downstream-Sprachaufgaben, insbesondere erinnerungsintensiven Aufgaben, deutlich übertrifft und sogar eine Leistung erzielt, die mit Transformer-Modellen vergleichbar ist. Der Code ist unter https://github.com/OpenSparseLLMs/MoM und auch als Teil von https://github.com/OpenSparseLLMs/Linear-MoE veröffentlicht.

Craw4LLM: Effizientes Web-Crawling für das Pretraining von LLMs
Craw4LLM: Efficient Web Crawling for LLM Pretraining

Feb 19

ByShi Yu, Zhiyuan Liu, Chenyan Xiong

Web-Crawling ist eine Hauptquelle für die Vortrainingsdaten von großen Sprachmodellen (LLMs), aber die Mehrheit der gecrawlten Webseiten wird aufgrund geringer Datenqualität beim Vortraining verworfen. Dieses Papier stellt Crawl4LLM vor, eine effiziente Web-Crawling-Methode, die das Webgraphen basierend auf den Präferenzen des LLM-Vortrainings erkundet. Insbesondere nutzt sie den Einfluss einer Webseite im LLM-Vortraining als Prioritätswert für den Scheduler des Web-Crawlers und ersetzt damit die standardmäßige Priorität, die auf der Graphenkonnektivität basiert. Unsere Experimente auf einem Webgraphen mit 900 Millionen Webseiten aus dem Index einer kommerziellen Suchmaschine demonstrieren die Effizienz von Crawl4LLM bei der Beschaffung hochwertiger Vortrainingsdaten. Mit nur 21 % der gecrawlten URLs erreichen LLMs, die auf Crawl4LLM-Daten vortrainiert wurden, die gleiche Downstream-Leistung wie bei früheren Crawls, wodurch der Crawling-Abfall erheblich reduziert und die Belastung für Websites verringert wird. Unser Code ist öffentlich verfügbar unter https://github.com/cxcscmu/Crawl4LLM.

LongPO: Langzeitkontext-Selbstentwicklung großer Sprachmodelle durch Kurz-zu-Lang-Präferenzoptimierung
LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization

Feb 19

ByGuanzheng Chen, Xin Li, Michael Qizhe Shieh, Lidong Bing

Große Sprachmodelle (LLMs) haben durch Vortraining und Alignment bemerkenswerte Fähigkeiten demonstriert. Allerdings können überlegene LLMs mit kurzem Kontext in Szenarien mit langem Kontext aufgrund unzureichenden Alignments für lange Kontexte unterdurchschnittlich abschneiden. Dieser Alignment-Prozess bleibt aufgrund der Unpraktikabilität menschlicher Annotation für erweiterte Kontexte und der Schwierigkeit, die Leistung bei kurzen und langen Kontexten auszubalancieren, eine Herausforderung. Um diese Herausforderungen zu bewältigen, führen wir LongPO ein, das es LLMs mit kurzem Kontext ermöglicht, sich selbst weiterzuentwickeln, um bei Aufgaben mit langem Kontext zu glänzen, indem sie intern Fähigkeiten aus kurzen Kontexten übertragen. LongPO nutzt LLMs, um aus selbstgenerierten Präferenzdaten von kurz zu lang zu lernen, die gepaarte Antworten für identische Anweisungen mit langen Kontexteingaben und ihren komprimierten kurzen Kontext-Gegenstücken enthalten. Diese Präferenz offenbart Fähigkeiten und Potenziale von LLMs, die während des Alignments für kurze Kontexte entwickelt wurden, die jedoch in unteralignierten Szenarien mit langem Kontext geschmälert werden können. Zusätzlich integriert LongPO eine KL-Beschränkung von kurz zu lang, um den Leistungsabfall bei kurzem Kontext während des Alignments für lange Kontexte zu mildern. Bei der Anwendung auf Mistral-7B-Instruct-v0.2 von 128K bis 512K Kontextlängen behält LongPO die Leistung bei kurzem Kontext vollständig bei und übertrifft naives SFT und DPO sowohl bei Aufgaben mit langem als auch mit kurzem Kontext deutlich. Insbesondere können mit \ourMethod trainierte Modelle Ergebnisse auf Benchmarks für lange Kontexte erzielen, die vergleichbar sind mit oder sogar jene von überlegenen LLMs (z.B. GPT-4-128K) übertreffen, die umfangreiche Annotationen für lange Kontexte und größere Parameterskalen beinhalten.

Autellix: Eine effiziente Serving-Engine für LLM-Agenten als allgemeine Programme
Autellix: An Efficient Serving Engine for LLM Agents as General Programs

Feb 19

ByMichael Luo, Xiaoxiang Shi, Colin Cai, Tianjun Zhang, Justin Wong, Yichuan Wang, Chi Wang, Yanping Huang, Zhifeng Chen, Joseph E. Gonzalez, Ion Stoica

Große Sprachmodelle (LLMs) entwickeln sich über einfache Chatbots hinaus zu dynamischen, universellen agentenbasierten Programmen, die LLM-Aufrufe und Ausgabetokens skalieren, um KI-Agenten beim Denken, Erkunden und Lösen komplexer Aufgaben zu unterstützen. Allerdings ignorieren bestehende LLM-Bereitstellungssysteme die Abhängigkeiten zwischen Programmen und Aufrufen, wodurch erhebliche Optimierungsmöglichkeiten ungenutzt bleiben. Unsere Analyse zeigt, dass Programme, die an LLM-Bereitstellungs-Engines übermittelt werden, lange kumulative Wartezeiten erfahren, hauptsächlich aufgrund von Head-of-Line-Blocking sowohl auf der Ebene einzelner LLM-Anfragen als auch des gesamten Programms. Um dies zu beheben, stellen wir Autellix vor, ein LLM-Bereitstellungssystem, das Programme als erstklassige Entitäten behandelt, um ihre end-to-end Latenzen zu minimieren. Autellix fängt LLM-Aufrufe ab, die von Programmen übermittelt werden, und bereichert Scheduler mit programmbezogenem Kontext. Wir schlagen zwei Scheduling-Algorithmen vor – für Single-Thread- und verteilte Programme –, die LLM-Aufrufe basierend auf den zuvor abgeschlossenen Aufrufen ihrer Programme unterbrechen und priorisieren. Unsere Auswertung zeigt, dass Autellix bei verschiedenen LLMs und agentenbasierten Workloads den Durchsatz von Programmen bei gleicher Latenz im Vergleich zu state-of-the-art Systemen wie vLLM um das 4- bis 15-fache verbessert.

Denkpräferenzoptimierung
Thinking Preference Optimization

Feb 17

ByWang Yang, Hongye Jin, Jingfeng Yang, Vipin Chaudhary, Xiaotian Han

Supervised Fine-Tuning (SFT) hat sich als eine bewährte und effektive Methode erwiesen, um die langkettige Denkfähigkeit (Chain-of-Thought, CoT) in relativ kleinen Large Language Models (LLMs) zu verbessern, indem sie mit langen CoT-Antworten von größeren LLMs feinabgestimmt werden. Um die Denkfähigkeiten kontinuierlich zu steigern, können wir entweder neue hochwertige lange CoT-SFT-Daten sammeln oder wiederholt mit bestehenden SFT-Datensätzen trainieren. Allerdings ist die Beschaffung neuer langer CoT-SFT-Daten kostspielig und begrenzt, während wiederholtes Training oft zu einem Leistungsplateau oder -rückgang führt. Um die Leistung mit den SFT-Daten weiter zu steigern, schlagen wir Thinking Preference Optimization (ThinkPO) vor, eine einfache, aber effektive Methode nach dem SFT, die die lange CoT-Denkfähigkeit verbessert, ohne neue lange CoT-Antworten zu benötigen. Stattdessen nutzt ThinkPO leicht verfügbare oder einfach zu beschaffende kurze CoT-Antworten als abgelehnte Antworten und lange CoT-Antworten als ausgewählte Antworten für dieselbe Frage. Anschließend wird Direct Preference Optimization angewendet, um das Modell dazu zu ermutigen, längere Denkausgaben zu bevorzugen. Experimente zeigen, dass ThinkPO die Denkleistung von SFT-modellierten Modellen weiter verbessert, z.B. steigert es die mathematische Denkgenauigkeit von SFT-modellierten Modellen um 8,6 % und die Ausgabelänge um 25,9 %. Bemerkenswert ist, dass ThinkPO in der Lage ist, die Leistung des öffentlich destillierten SFT-Modells kontinuierlich zu steigern, z.B. erhöht es die offizielle Leistung von DeepSeek-R1-Distill-Qwen-7B auf MATH500 von 87,4 % auf 91,2 %.

SearchRAG: Können Suchmaschinen bei der medizinischen Fragebeantwortung auf Basis von LLMs hilfreich sein?
SearchRAG: Can Search Engines Be Helpful for LLM-based Medical Question Answering?

Feb 18

ByYucheng Shi, Tianze Yang, Canyu Chen, Quanzheng Li, Tianming Liu, Xiang Li, Ninghao Liu

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten in allgemeinen Bereichen gezeigt, stoßen jedoch oft bei Aufgaben an ihre Grenzen, die spezialisiertes Wissen erfordern. Herkömmliche Retrieval-Augmented Generation (RAG)-Techniken greifen typischerweise auf externe Informationen aus statischen Wissensdatenbanken zurück, die veraltet oder unvollständig sein können und fein abgestufte klinische Details vermissen, die für eine genaue Beantwortung medizinischer Fragen entscheidend sind. In dieser Arbeit schlagen wir SearchRAG vor, ein neuartiges Framework, das diese Einschränkungen durch die Nutzung von Echtzeit-Suchmaschinen überwindet. Unser Ansatz verwendet synthetische Abfragegenerierung, um komplexe medizinische Fragen in suchmaschinenfreundliche Abfragen umzuwandeln, und nutzt unsicherheitsbasierte Wissensselektion, um das relevanteste und informativste medizinische Wissen zu filtern und in die Eingabe des LLM zu integrieren. Experimentelle Ergebnisse zeigen, dass unsere Methode die Antwortgenauigkeit bei medizinischen Frage-Antwort-Aufgaben erheblich verbessert, insbesondere bei komplexen Fragen, die detailliertes und aktuelles Wissen erfordern.

Train Small, Infer Large: Speichereffizientes LoRA-Training für große Sprachmodelle
Train Small, Infer Large: Memory-Efficient LoRA Training for Large Language Models

Feb 19

ByJun Zhang, Jue Wang, Huan Li, Lidan Shou, Ke Chen, Yang You, Guiming Xie, Xuejian Gong, Kunlong Zhou

Große Sprachmodelle (LLMs) haben die natürliche Sprachverarbeitung durch außergewöhnliche Fähigkeiten zur Aufgabenverallgemeinerung erheblich vorangetrieben. Low-Rank Adaption (LoRA) bietet eine kosteneffiziente Lösung für das Feinabstimmen, indem die ursprünglichen Modellparameter eingefroren und nur leichte, niedrigrangige Adaptermatrizen trainiert werden. Allerdings wird der Speicherbedarf von LoRA weitgehend von den ursprünglichen Modellparametern dominiert. Um dies zu mildern, schlagen wir LoRAM vor, ein speichereffizientes LoRA-Trainingsschema, das auf der Intuition basiert, dass viele Neuronen in überparametrisierten LLMs einen geringen Trainingsnutzen haben, aber für die Inferenz unerlässlich sind. LoRAM bietet eine einzigartige Wendung: Es trainiert auf einem beschnittenen (kleinen) Modell, um beschnittene niedrigrangige Matrizen zu erhalten, die dann wiederhergestellt und mit dem ursprünglichen (großen) Modell für die Inferenz genutzt werden. Zusätzlich wird eine minimal kostspielige kontinuierliche Vorabschulung, die von den Modellherausgebern im Voraus durchgeführt wird, verwendet, um die Wissensdiskrepanz zwischen beschnittenen und ursprünglichen Modellen auszugleichen. Unsere umfangreichen Experimente demonstrieren die Wirksamkeit von LoRAM über verschiedene Beschnittstrategien und nachgelagerte Aufgaben hinweg. Für ein Modell mit 70 Milliarden Parametern ermöglicht LoRAM das Training auf einer GPU mit nur 20G HBM, wodurch eine A100-80G GPU für das LoRA-Training und 15 GPUs für das vollständige Feinabstimmen ersetzt werden. Insbesondere reduziert QLoRAM, das durch strukturiertes Beschneiden in Kombination mit 4-Bit-Quantisierung implementiert wird, für LLaMA-3.1-70B (LLaMA-2-70B) die Speicherkosten für die Parameter, die den Speicherverbrauch beim Training niedrigrangiger Matrizen dominieren, um das 15,81-fache (16,95-fache), während es dominante Leistungssteigerungen gegenüber dem ursprünglichen LLaMA-3.1-70B (LLaMA-2-70B) und dem LoRA-trainierten LLaMA-3.1-8B (LLaMA-2-13B) erzielt.

Vermutete kulturelle Identität: Wie Namen die Antworten von LLMs beeinflussen
Presumed Cultural Identity: How Names Shape LLM Responses

Feb 17

BySiddhesh Pawar, Arnav Arora, Lucie-Aimée Kaffee, Isabelle Augenstein

Namen sind eng mit der menschlichen Identität verbunden. Sie können als Marker für Individualität, kulturelles Erbe und persönliche Geschichte dienen. Die Verwendung von Namen als zentraler Indikator für Identität kann jedoch zu einer Übervereinfachung komplexer Identitäten führen. Bei der Interaktion mit großen Sprachmodellen (LLMs) sind Benutzernamen ein wichtiger Informationspunkt für die Personalisierung. Namen können in Chatbot-Gespräche durch direkte Benutzereingaben (die von Chatbots angefordert werden), als Teil von Aufgabenkontexten wie Lebenslaufprüfungen oder als integrierte Speicherfunktionen, die Benutzerinformationen für die Personalisierung speichern, einfließen. Wir untersuchen Vorurteile im Zusammenhang mit Namen, indem wir kulturelle Annahmen in den Antworten messen, die von LLMs generiert werden, wenn sie mit gängigen, ratsuchenden Anfragen konfrontiert werden, die möglicherweise Annahmen über den Benutzer beinhalten. Unsere Analysen zeigen starke Annahmen über die kulturelle Identität, die mit Namen in den Generationen von LLMs über verschiedene Kulturen hinweg verbunden sind. Unsere Arbeit hat Auswirkungen auf die Gestaltung differenzierterer Personalisierungssysteme, die Stereotype nicht verstärken, während sie gleichzeitig eine sinnvolle Anpassung beibehalten.

Warum geschützte Schiffe auf Grund laufen: Die Sicherheitsmechanismen ausgerichteter großer Sprachmodelle neigen dazu, in der Vorlagenregion verankert zu sein
Why Safeguarded Ships Run Aground? Aligned Large Language Models' Safety Mechanisms Tend to Be Anchored in The Template Region

Feb 19

ByChak Tou Leong, Qingyu Yin, Jian Wang, Wenjie Li

Die Sicherheitsausrichtung großer Sprachmodelle (LLMs) bleibt anfällig, da ihr anfängliches Verhalten selbst durch relativ einfache Angriffe leicht umgangen werden kann. Da das Einfügen einer festen Vorlage zwischen der Eingabeanweisung und der anfänglichen Modellausgabe eine gängige Praxis bei bestehenden LLMs ist, stellen wir die Hypothese auf, dass diese Vorlage ein Schlüsselfaktor für ihre Anfälligkeiten ist: Die sicherheitsbezogene Entscheidungsfindung von LLMs stützt sich übermäßig auf die aggregierten Informationen aus dem Vorlagenbereich, was das Sicherheitsverhalten dieser Modelle maßgeblich beeinflusst. Wir bezeichnen dieses Problem als vorlagenverankerte Sicherheitsausrichtung. In diesem Artikel führen wir umfangreiche Experimente durch und bestätigen, dass vorlagenverankerte Sicherheitsausrichtung bei verschiedenen ausgerichteten LLMs weit verbreitet ist. Unsere mechanistischen Analysen zeigen, wie dies die Anfälligkeit der Modelle bei Inferenzzeit-Angriffen zur Umgehung der Sicherheitsmechanismen verursacht. Darüber hinaus zeigen wir, dass die Trennung der Sicherheitsmechanismen vom Vorlagenbereich vielversprechend ist, um die Anfälligkeit für solche Angriffe zu verringern. Wir ermutigen zukünftige Forschungen, robustere Sicherheitsausrichtungstechniken zu entwickeln, die die Abhängigkeit vom Vorlagenbereich reduzieren.

InfiR: Entwicklung effektiver kleiner Sprachmodelle und multimodaler kleiner Sprachmodelle für das logische Denken
InfiR : Crafting Effective Small Language Models and Multimodal Small Language Models in Reasoning

Feb 17

ByCongkai Xie, Shuo Cai, Wenjun Wang, Pengxiang Li, Zhijie Sang, Kejing Yang, Yiming Zhang, Zhen Li, Guanghao Zhu, Zeyu Liu, Yang Yu, Yuhang Liu, Su Lu, Baoyi He, Qi Zhou, Xiaotian Han, Jianbo Yuan, Shengyu Zhang, Fei Wu, Hongxia Yang

Große Sprachmodelle (LLMs) und multimodale große Sprachmodelle (MLLMs) haben bedeutende Fortschritte in ihren Fähigkeiten zum logischen Schlussfolgern erzielt. Dennoch stehen sie weiterhin vor Herausforderungen wie hohem Rechenaufwand und Datenschutzbedenken. Dieses Papier konzentriert sich auf die Entwicklung effizienter kleiner Sprachmodelle (SLMs) und multimodaler kleiner Sprachmodelle (MSLMs), die wettbewerbsfähige Fähigkeiten zum logischen Schlussfolgern beibehalten. Wir stellen eine neuartige Trainingspipeline vor, die die Fähigkeiten zum logischen Schlussfolgern verbessert und die Bereitstellung auf Edge-Geräten erleichtert, wodurch state-of-the-art Leistung bei minimalen Entwicklungskosten erreicht wird. \InfR~ zielt darauf ab, KI-Systeme voranzubringen, indem die Fähigkeiten zum logischen Schlussfolgern verbessert, die Einführungshürden verringert und Datenschutzbedenken durch kleinere Modellgrößen adressiert werden. Ressourcen sind verfügbar unter https://github.com/Reallm-Labs/InfiR.

AdaptiveStep: Automatische Unterteilung von Denkschritten anhand der Modellzuversicht
AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

Feb 19

ByYuliang Liu, Junjie Lu, Zhaoling Chen, Chaofeng Qu, Jason Klein Liu, Chonghan Liu, Zefan Cai, Yunhui Xia, Li Zhao, Jiang Bian, Chuheng Zhang, Wei Shen, Zhouhan Lin

Aktuelle Ansätze für das Training von Process Reward Models (PRMs) beinhalten häufig das Aufteilen von Antworten in mehrere Denkschritte mithilfe regelbasierter Techniken, wie die Verwendung vordefinierter Platzhalter-Tokens oder das Festlegen der Länge der Denkschritte auf eine feste Größe. Diese Ansätze übersehen die Tatsache, dass spezifische Wörter typischerweise keine echten Entscheidungspunkte in einem Text markieren. Um dies zu adressieren, schlagen wir AdaptiveStep vor, eine Methode, die Denkschritte basierend auf dem Vertrauen des Modells in die Vorhersage des nächsten Wortes aufteilt. Diese Aufteilungsmethode liefert mehr Entscheidungsinformationen in jedem Schritt und verbessert nachgelagerte Aufgaben, wie das Lernen von Belohnungsmodellen. Darüber hinaus erfordert unsere Methode keine manuelle Annotation. Wir demonstrieren ihre Wirksamkeit durch Experimente mit AdaptiveStep-trainierten PRMs in mathematischen Denkaufgaben und Code-Generierungsaufgaben. Die experimentellen Ergebnisse zeigen, dass das resultierende PRM eine state-of-the-art Best-of-N-Leistung erzielt und die Greedy-Search-Strategie mit token-level-wertgesteuerter Dekodierung übertrifft, während gleichzeitig die Konstruktionskosten um über 30 % im Vergleich zu bestehenden Open-Source-PRMs reduziert werden. Zusätzlich bieten wir eine umfassende Analyse und Fallstudie zur Leistung, Übertragbarkeit und Generalisierungsfähigkeit des PRMs.

AIDE: KI-gesteuerte Exploration im Raum des Codes
AIDE: AI-Driven Exploration in the Space of Code

Feb 18

ByZhengyao Jiang, Dominik Schmidt, Dhruv Srikanth, Dixing Xu, Ian Kaplan, Deniss Jacenko, Yuxiang Wu

Maschinelles Lernen, die Grundlage der modernen künstlichen Intelligenz, hat Innovationen vorangetrieben, die die Welt grundlegend verändert haben. Doch hinter diesen Fortschritten verbirgt sich ein komplexer und oft mühsamer Prozess, der arbeits- und rechenintensive Iterationen und Experimente erfordert. Ingenieure und Wissenschaftler, die maschinelle Lernmodelle entwickeln, verbringen einen Großteil ihrer Zeit mit Trial-and-Error-Aufgaben, anstatt innovative Lösungen oder Forschungshypothesen zu konzipieren. Um diese Herausforderung zu bewältigen, stellen wir AI-Driven Exploration (AIDE) vor, einen maschinellen Lern-Engineering-Agenten, der von großen Sprachmodellen (LLMs) angetrieben wird. AIDE betrachtet maschinelles Lern-Engineering als ein Code-Optimierungsproblem und formuliert Trial-and-Error als eine Baumsuche im Raum der möglichen Lösungen. Durch strategisches Wiederverwenden und Verfeinern vielversprechender Lösungen tauscht AIDE effektiv Rechenressourcen gegen verbesserte Leistung ein und erzielt state-of-the-art Ergebnisse in mehreren maschinellen Lern-Engineering-Benchmarks, einschließlich unserer Kaggle-Bewertungen, OpenAI MLE-Bench und METRs RE-Bench.

NExT-Mol: 3D-Diffusion trifft auf 1D-Sprachmodellierung für die 3D-Molekülgenerierung
NExT-Mol: 3D Diffusion Meets 1D Language Modeling for 3D Molecule Generation

Feb 18

ByZhiyuan Liu, Yanchen Luo, Han Huang, Enzhi Zhang, Sihang Li, Junfeng Fang, Yaorui Shi, Xiang Wang, Kenji Kawaguchi, Tat-Seng Chua

Die Generierung von 3D-Molekülen ist entscheidend für die Arzneimittelentdeckung und das Materialdesign. Während sich frühere Bemühungen auf 3D-Diffusionsmodelle konzentrierten, um die Vorteile bei der Modellierung kontinuierlicher 3D-Konformere zu nutzen, wurden die Vorteile von 1D-SELFIES-basierten Sprachmodellen (LMs) übersehen, die 100 % gültige Moleküle generieren und auf milliardenschwere 1D-Moleküldatensätze zurückgreifen können. Um diese Vorteile für die 3D-Molekülgenerierung zu kombinieren, schlagen wir ein Grundlagenmodell vor – NExT-Mol: 3D-Diffusion trifft auf 1D-Sprachmodellierung für die 3D-Molekülgenerierung. NExT-Mol verwendet ein umfangreich vortrainiertes Molekül-LM für die 1D-Molekülgenerierung und sagt anschließend die 3D-Konformere des generierten Moleküls mit einem 3D-Diffusionsmodell vorher. Wir verbessern die Leistung von NExT-Mol, indem wir die Modellgröße des LMs skalieren, die neuronale Architektur der Diffusion verfeinern und 1D-zu-3D-Transferlernen anwenden. Bemerkenswerterweise übertrifft unser 1D-Molekül-LM die Baselines deutlich in der Verteilungsähnlichkeit, während es gleichzeitig die Gültigkeit sicherstellt, und unser 3D-Diffusionsmodell erzielt führende Leistungen bei der Konformer-Vorhersage. Angesichts dieser Verbesserungen in der 1D- und 3D-Modellierung erreicht NExT-Mol eine relative Verbesserung von 26 % im 3D-FCD für die de novo 3D-Generierung auf GEOM-DRUGS und einen durchschnittlichen relativen Gewinn von 13 % für die bedingte 3D-Generierung auf QM9-2014. Unsere Codes und vortrainierten Checkpoints sind unter https://github.com/acharkq/NExT-Mol verfügbar.

REALTALK: Ein 21-tägiger Echtzeit-Datensatz für langfristige Konversationen
REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation

Feb 18

ByDong-Ho Lee, Adyasha Maharana, Jay Pujara, Xiang Ren, Francesco Barbieri

Langfristige, domänenübergreifende Dialogfähigkeiten sind entscheidend für Chatbots, die vergangene Interaktionen abrufen und emotionale Intelligenz (EI) demonstrieren sollen. Dennoch stützt sich die meisten bestehenden Forschung auf synthetische, von LLM generierte Daten, was Fragen zu realen Gesprächsmustern offenlässt. Um diese Lücke zu schließen, stellen wir REALTALK vor, ein 21-tägiges Korpus authentischer Messaging-App-Dialoge, das einen direkten Benchmark für echte menschliche Interaktionen bietet. Zunächst führen wir eine Datenanalyse durch, die sich auf EI-Attribute und Personenkonsistenz konzentriert, um die einzigartigen Herausforderungen realer Dialoge zu verstehen. Durch den Vergleich mit LLM-generierten Gesprächen heben wir wesentliche Unterschiede hervor, darunter vielfältige emotionale Ausdrucksformen und Schwankungen in der Personenstabilität, die synthetische Dialoge oft nicht erfassen. Aufbauend auf diesen Erkenntnissen führen wir zwei Benchmark-Aufgaben ein: (1) Personensimulation, bei der ein Modell ein Gespräch im Namen eines bestimmten Nutzers basierend auf vorherigem Dialogkontext fortsetzt; und (2) Gedächtnisabfrage, bei der ein Modell gezielte Fragen beantwortet, die ein Langzeitgedächtnis vergangener Interaktionen erfordern. Unsere Ergebnisse zeigen, dass Modelle Schwierigkeiten haben, einen Nutzer allein aus dem Dialogverlauf zu simulieren, während das Fine-Tuning auf spezifische Nutzerchats die Personennachahmung verbessert. Darüber hinaus stehen bestehende Modelle vor erheblichen Herausforderungen, wenn es darum geht, langfristigen Kontext in realen Gesprächen abzurufen und zu nutzen.

TESS 2: Ein groß angelegtes generalistisches Diffusionssprachmodell
TESS 2: A Large-Scale Generalist Diffusion Language Model

Feb 19

ByJaesung Tae, Hamish Ivison, Sachin Kumar, Arman Cohan

Wir stellen TESS 2 vor, ein allgemeines, befehlsfolgendes Diffusions-Sprachmodell, das zeitgenössische, befehlsoptimierte Diffusionsmodelle übertrifft und mit starken autoregressiven (AR) Modellen gleichzieht oder diese manchmal sogar übertrifft. Wir trainieren TESS 2, indem wir zunächst ein leistungsstarkes AR-Modell durch fortgesetztes Vortraining mit der üblichen Kreuzentropie als Diffusionsverlust anpassen und anschließend eine weitere Befehloptimierung durchführen. Wir stellen fest, dass sowohl das Anpassungstraining als auch die Wahl des Basismodells entscheidend für das Training guter, befehlsfolgender Diffusionsmodelle sind. Darüber hinaus schlagen wir Reward Guidance vor, ein neuartiges und modulares Inferenzzeit-Leitverfahren, um Modellausgaben auszurichten, ohne das zugrunde liegende Modell trainieren zu müssen. Schließlich zeigen wir, dass TESS 2 mit erhöhter Inferenzzeit-Rechenleistung weiter verbessert wird, was den Nutzen von Diffusions-Sprachmodellen bei der fein abgestuften Steuerung der zur Inferenzzeit verwendeten Rechenleistung unterstreicht. Code und Modelle sind unter https://github.com/hamishivi/tess-2 verfügbar.

Bewertung der Bewerter: Eine Sammlung von LLM-generierten Relevanzurteilen
Judging the Judges: A Collection of LLM-Generated Relevance Judgements

Feb 19

ByHossein A. Rahmani, Clemencia Siro, Mohammad Aliannejadi, Nick Craswell, Charles L. A. Clarke, Guglielmo Faggioli, Bhaskar Mitra, Paul Thomas, Emine Yilmaz

Die Verwendung von Large Language Models (LLMs) für Relevanzbewertungen bietet vielversprechende Möglichkeiten, die Informationsbeschaffung (Information Retrieval, IR), die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) und verwandte Bereiche zu verbessern. Tatsächlich besteht die Aussicht, dass LLMs es IR-Experimentatoren ermöglichen, Evaluierungssammlungen mit einem Bruchteil der derzeit erforderlichen manuellen menschlichen Arbeit zu erstellen. Dies könnte bei neuen Themen, zu denen noch begrenztes Wissen vorliegt, hilfreich sein und die Herausforderungen bei der Bewertung von Ranking-Systemen in ressourcenarmen Szenarien mildern, in denen es schwierig ist, menschliche Annotatoren zu finden. Angesichts der rasanten Entwicklungen in diesem Bereich sind viele Fragen bezüglich LLMs als Bewerter noch unbeantwortet. Zu den Aspekten, die weiterer Untersuchung bedürfen, gehören die Auswirkungen verschiedener Komponenten in einer Pipeline zur Generierung von Relevanzurteilen, wie z. B. der verwendete Prompt oder das gewählte LLM. Dieses Paper präsentiert und bewertet die Ergebnisse einer groß angelegten automatischen Relevanzurteilsbewertung, der LLMJudge-Challenge bei SIGIR 2024, bei der verschiedene Ansätze zur Relevanzbewertung vorgeschlagen wurden. Im Detail veröffentlichen und bewerten wir 42 LLM-generierte Labels der Relevanzurteile des TREC 2023 Deep Learning Tracks, die von acht internationalen Teams erstellt wurden, die an der Challenge teilgenommen haben. Aufgrund ihrer vielfältigen Natur können diese automatisch generierten Relevanzurteile der Gemeinschaft nicht nur dabei helfen, systematische Verzerrungen durch LLMs zu untersuchen, sondern auch die Effektivität von Ensemble-Modellen zu erforschen, die Kompromisse zwischen verschiedenen Modellen und menschlichen Bewertern zu analysieren und Methoden zur Verbesserung automatisierter Evaluierungstechniken voranzutreiben. Die veröffentlichte Ressource ist unter folgendem Link verfügbar: https://llm4eval.github.io/LLMJudge-benchmark/

ActionPiece: Kontextuelle Tokenisierung von Aktionssequenzen für generative Empfehlungssysteme
ActionPiece: Contextually Tokenizing Action Sequences for Generative Recommendation

Feb 19

ByYupeng Hou, Jianmo Ni, Zhankui He, Noveen Sachdeva, Wang-Cheng Kang, Ed H. Chi, Julian McAuley, Derek Zhiyuan Cheng

Generative Recommendation (GR) ist ein aufstrebendes Paradigma, bei dem Benutzeraktionen in diskrete Token-Muster tokenisiert und autoregressiv als Vorhersagen generiert werden. Bisherige GR-Modelle tokenisieren jedoch jede Aktion unabhängig und weisen identischen Aktionen in allen Sequenzen dieselben festen Token zu, ohne kontextuelle Beziehungen zu berücksichtigen. Dieser Mangel an Kontextbewusstsein kann zu suboptimalen Ergebnissen führen, da dieselbe Aktion je nach umgebendem Kontext unterschiedliche Bedeutungen haben kann. Um dieses Problem zu lösen, schlagen wir ActionPiece vor, das den Kontext explizit bei der Tokenisierung von Aktionssequenzen einbezieht. In ActionPiece wird jede Aktion als eine Menge von Item-Features dargestellt, die als initiale Token dienen. Basierend auf den Aktionssequenz-Korpora erstellen wir das Vokabular, indem wir Feature-Muster basierend auf ihrer gemeinsamen Auftrittshäufigkeit sowohl innerhalb einzelner Mengen als auch über benachbarte Mengen hinweg als neue Token zusammenführen. Aufgrund der ungeordneten Natur von Feature-Mengen führen wir zusätzlich eine Set-Permutationsregularisierung ein, die mehrere Segmentierungen von Aktionssequenzen mit derselben Semantik erzeugt. Experimente auf öffentlichen Datensätzen zeigen, dass ActionPiece bestehende Methoden zur Aktions-Tokenisierung durchweg übertrifft und NDCG@10 um 6,00 % bis 12,82 % verbessert.

Von Werkzeugen zu Teamkollegen: Bewertung von LLMs in mehrsitzigen Programmierinteraktionen
From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions

Feb 19

ByNathanaël Carraz Rakotonirina, Mohammed Hamdy, Jon Ander Campos, Lucas Weber, Alberto Testoni, Marzieh Fadaee, Sandro Pezzelle, Marco Del Tredici

Große Sprachmodelle (LLMs) werden zunehmend in Arbeitsumgebungen für eine Vielzahl von Aufgaben eingesetzt und zeichnen sich durch die Lösung individueller Probleme in Isolation aus. Doch sind sie auch in der Lage, effektiv über langfristige Interaktionen hinweg zusammenzuarbeiten? Um dies zu untersuchen, stellen wir MemoryCode vor, einen synthetischen Multi-Session-Datensatz, der entwickelt wurde, um die Fähigkeit von LLMs zu testen, einfache Programmieranweisungen inmitten irrelevanter Informationen zu verfolgen und auszuführen, wodurch eine realistische Umgebung simuliert wird. Während alle von uns getesteten Modelle isolierte Anweisungen gut bewältigen, verschlechtert sich die Leistung selbst bei state-of-the-art-Modellen wie GPT-4o, wenn Anweisungen über mehrere Sitzungen verteilt sind. Unsere Analyse deutet darauf hin, dass dies auf ihr Versagen zurückzuführen ist, Informationen über lange Anweisungsketten hinweg abzurufen und zu integrieren. Unsere Ergebnisse verdeutlichen eine grundlegende Einschränkung aktueller LLMs, die ihre Fähigkeit zur effektiven Zusammenarbeit in langen Interaktionen begrenzt.

REFIND: Retrieval-gestützte Erkennung faktischer Halluzinationen in großen Sprachmodellen
REFIND: Retrieval-Augmented Factuality Hallucination Detection in Large Language Models

Feb 19

ByDongGeon Lee, Hwanjo Yu

Halluzinationen in den Ausgaben großer Sprachmodelle (LLMs) schränken deren Zuverlässigkeit bei wissensintensiven Aufgaben wie der Beantwortung von Fragen erheblich ein. Um diese Herausforderung zu bewältigen, stellen wir REFIND (Retrieval-augmented Factuality HallucINation Detection) vor, ein neuartiges Framework, das halluzinierte Textabschnitte in LLM-Ausgaben durch die direkte Nutzung von abgerufenen Dokumenten erkennt. Als Teil von REFIND schlagen wir das Context Sensitivity Ratio (CSR) vor, eine neue Metrik, die die Empfindlichkeit von LLM-Ausgaben gegenüber abgerufenen Belegen quantifiziert. Dieser innovative Ansatz ermöglicht es REFIND, Halluzinationen effizient und präzise zu erkennen, wodurch es sich von bestehenden Methoden abhebt. In der Evaluierung zeigte REFIND Robustheit über neun Sprachen hinweg, einschließlich ressourcenarmer Umgebungen, und übertraf Baseline-Modelle deutlich, indem es überlegene IoU-Werte bei der Identifizierung von halluzinierten Textabschnitten erzielte. Diese Arbeit unterstreicht die Effektivität der Quantifizierung von Kontextempfindlichkeit für die Halluzinationserkennung und ebnet so den Weg für zuverlässigere und vertrauenswürdigere LLM-Anwendungen in verschiedenen Sprachen.

Welche dieser Aussagen beschreibt die Multiple-Choice-Evaluierung mit LLMs am besten? A) Erzwungen B) Fehlerhaft C) Behebbar D) Alles oben Genannte
Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above

Feb 19

ByNishant Balepur, Rachel Rudinger, Jordan Lee Boyd-Graber

Multiple-Choice-Fragebeantwortung (MCQA) ist aufgrund ihrer Einfachheit und der menschenähnlichen Testgestaltung beliebt für die Bewertung von großen Sprachmodellen (LLMs), doch wir plädieren für eine Reform. Zunächst decken wir Schwächen im MCQA-Format auf, da es Schwierigkeiten hat: 1) Generierung/Subjektivität zu testen; 2) Anwendungsfälle von LLMs abzubilden; und 3) Wissen umfassend zu prüfen. Stattdessen befürworten wir generative Formate, die auf menschlichen Testmethoden basieren – bei denen LLMs Antworten konstruieren und erklären – und so die Bedürfnisse der Nutzer sowie das Wissen besser erfassen, während sie dennoch einfach auswertbar bleiben. Anschließend zeigen wir, dass selbst wenn MCQA ein nützliches Format ist, ihre Datensätze unter folgenden Problemen leiden: Datenlecks; Unbeantwortbarkeit; Abkürzungen; und Sättigung. Für jedes Problem bieten wir Lösungen aus dem Bildungsbereich an, wie Bewertungsraster zur Anleitung der MCQ-Erstellung; Bewertungsmethoden, um Raten einzudämmen; und Item-Response-Theorie, um schwierigere MCQs zu erstellen. Schließlich diskutieren wir LLM-Fehler in MCQA – Robustheit, Verzerrungen und unzuverlässige Erklärungen – und zeigen, wie unsere zuvor genannten Lösungen diese Probleme besser messen oder angehen. Obwohl wir MCQA nicht vollständig aufgeben müssen, ermutigen wir zu mehr Bemühungen, die Aufgabe basierend auf Bildungstests zu verfeinern und so die Bewertungen voranzutreiben.

GIMMICK – Global inklusiver multimodaler Multitask-Benchmark für kulturelles Wissen
GIMMICK -- Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking

Feb 19

ByFlorian Schneider, Carolin Holtermann, Chris Biemann, Anne Lauscher

Große Vision-Sprach-Modelle (LVLMs) haben in letzter Zeit aufgrund ihrer bemerkenswerten Leistung und breiten Anwendbarkeit Aufmerksamkeit erregt. Obwohl bereits gezeigt wurde, dass ihre Wirksamkeit in Anwendungsszenarien mit nicht-westlichen Kontexten begrenzt ist, sind bestehende Studien in ihrem Umfang eingeschränkt, da sie nur eine begrenzte Anzahl von Kulturen abdecken, sich ausschließlich auf eine kleine Auswahl kultureller Aspekte konzentrieren oder nur eine begrenzte Auswahl von Modellen in einer einzigen Aufgabe bewerten. Im Hinblick auf eine global inklusive LVLM-Forschung stellen wir GIMMICK vor, einen umfangreichen multimodalen Benchmark, der entwickelt wurde, um ein breites Spektrum an kulturellem Wissen über 144 Länder, die sechs globale Makroregionen repräsentieren, zu bewerten. GIMMICK umfasst sechs Aufgaben, die auf drei neuen Datensätzen basieren, die 728 einzigartige kulturelle Ereignisse oder Facetten abdecken, auf denen wir 20 LVLMs und 11 LLMs, darunter fünf proprietäre und 26 Open-Weight-Modelle aller Größen, evaluiert haben. Wir untersuchen systematisch (1) regionale kulturelle Verzerrungen, (2) den Einfluss der Modellgröße, (3) Eingabemodalitäten und (4) externe Hinweise. Unsere Analysen zeigen starke Verzerrungen zugunsten westlicher Kulturen über Modelle und Aufgaben hinweg und heben starke Korrelationen zwischen Modellgröße und Leistung sowie die Wirksamkeit multimodaler Eingaben und externer geografischer Hinweise hervor. Weiterhin stellen wir fest, dass Modelle mehr Wissen über greifbare als über nicht greifbare Aspekte haben (z. B. Essen vs. Rituale) und dass sie bei der Erkennung breiter kultureller Ursprünge gut abschneiden, aber mit einem differenzierteren Verständnis Schwierigkeiten haben.

Hochqualitative Neuansichtssynthese durch Splatting-geführte Diffusion
High-Fidelity Novel View Synthesis via Splatting-Guided Diffusion

Feb 18

ByXiang Zhang, Yang Zhang, Lukas Mehl, Markus Gross, Christopher Schroers

Trotz jüngster Fortschritte in der Synthese neuer Ansichten (Novel View Synthesis, NVS) bleibt die Erzeugung hochwertiger Ansichten aus einzelnen oder spärlichen Beobachtungen eine erhebliche Herausforderung. Bestehende, auf Splatting basierende Ansätze erzeugen oft verzerrte Geometrien aufgrund von Splatting-Fehlern. Während diffusionsbasierte Methoden reichhaltige 3D-Priors nutzen, um eine verbesserte Geometrie zu erreichen, leiden sie häufig unter Texturhalluzinationen. In diesem Artikel stellen wir SplatDiff vor, ein pixel-splatting-gesteuertes Video-Diffusionsmodell, das darauf ausgelegt ist, hochwertige neue Ansichten aus einem einzelnen Bild zu synthetisieren. Insbesondere schlagen wir eine ausgerichtete Synthesestrategie vor, um eine präzise Steuerung der Zielansichten und eine geometriekonsistente Ansichtssynthese zu ermöglichen. Um Texturhalluzinationen zu minimieren, entwerfen wir ein Texturbrückenmodul, das eine hochwertige Texturgenerierung durch adaptive Feature-Fusion ermöglicht. Auf diese Weise nutzt SplatDiff die Stärken von Splatting und Diffusion, um neue Ansichten mit konsistenter Geometrie und hochwertigen Details zu erzeugen. Umfangreiche Experimente bestätigen die state-of-the-art Leistung von SplatDiff in der Einzelansicht-NVS. Darüber hinaus zeigt SplatDiff ohne zusätzliches Training bemerkenswerte Zero-Shot-Leistungen in verschiedenen Aufgaben, darunter spärliche Ansicht-NVS und Stereo-Videokonvertierung.

MVL-SIB: Ein massiv mehrsprachiger Vision-Language-Benchmark für cross-modale thematische Zuordnung
MVL-SIB: A Massively Multilingual Vision-Language Benchmark for Cross-Modal Topical Matching

Feb 18

ByFabian David Schmidt, Florian Schneider, Chris Biemann, Goran Glavaš

Bestehende multilinguale Vision-Language (VL)-Benchmarks decken oft nur eine Handvoll Sprachen ab. Folglich zielen Evaluierungen von großen Vision-Language-Modellen (LVLMs) überwiegend auf Hochressourcensprachen ab, was den Bedarf an Evaluierungsdaten für Niedrigressourcensprachen unterstreicht. Um diese Einschränkung zu beheben, stellen wir MVL-SIB vor, einen massiv multilingualen Vision-Language-Benchmark, der sowohl cross-modales als auch rein textbasiertes Themen-Matching über 205 Sprachen hinweg evaluiert – mehr als 100 Sprachen mehr als die bisher umfassendsten multilingualen VL-Benchmarks. Anschließend benchmarken wir eine Reihe von Open-Weight-LVLMs zusammen mit GPT-4o(-mini) auf MVL-SIB. Unsere Ergebnisse zeigen, dass LVLMs bei cross-modalem Themen-Matching in Niedrigressourcensprachen Schwierigkeiten haben und bei Sprachen wie N'Koo nicht besser als zufällig abschneiden. Unsere Analyse zeigt weiterhin, dass die VL-Unterstützung in LVLMs im Vergleich zur textuellen Unterstützung für Niedrigressourcensprachen unverhältnismäßig stark abnimmt, was durch den Vergleich der Leistung bei cross-modalem und rein textbasiertem Themen-Matching belegt wird. Wir beobachten außerdem, dass Open-Weight-LVLMs nicht davon profitieren, ein Thema mit mehr als einem Bild darzustellen, was darauf hindeutet, dass diese Modelle noch nicht vollständig effektiv im Umgang mit Multi-Image-Aufgaben sind. Indem wir die Leistung auf MVL-SIB mit anderen multilingualen VL-Benchmarks korrelieren, heben wir hervor, dass MVL-SIB als umfassende Sonde für das multilinguale VL-Verständnis in LVLMs dient.

Rauschen kann übertragbares Wissen enthalten: Ein empirischer Blick auf semi-supervisiertes heterogenes Domain-Adaptation
Noise May Contain Transferable Knowledge: Understanding Semi-supervised Heterogeneous Domain Adaptation from an Empirical Perspective

Feb 19

ByYuan Yao, Xiaopu Zhang, Yu Zhang, Jian Jin, Qiang Yang

Semi-supervised Heterogeneous Domain Adaptation (SHDA) befasst sich mit dem Lernen über Domänen hinweg, die unterschiedliche Merkmalsdarstellungen und Verteilungen aufweisen, wobei die Quellstichproben beschriftet sind, während die meisten Zielstichproben unbeschriftet sind, mit nur einem kleinen Anteil an beschrifteten Stichproben. Darüber hinaus besteht keine Eins-zu-eins-Entsprechung zwischen Quell- und Zielstichproben. Obwohl verschiedene SHDA-Methoden entwickelt wurden, um dieses Problem zu lösen, bleibt die Natur des über heterogene Domänen übertragenen Wissens unklar. Diese Arbeit geht dieser Frage aus einer empirischen Perspektive nach. Wir führen umfangreiche Experimente zu etwa 330 SHDA-Aufgaben durch, wobei wir zwei überwachte Lernmethoden und sieben repräsentative SHDA-Methoden verwenden. Überraschenderweise zeigen unsere Beobachtungen, dass weder die Kategorie- noch die Merkmalsinformation der Quellstichproben die Leistung der Zieldomäne signifikant beeinflussen. Zudem kann Rauschen, das aus einfachen Verteilungen gezogen wird, wenn es als Quellstichproben verwendet wird, übertragbares Wissen enthalten. Basierend auf dieser Erkenntnis führen wir eine Reihe von Experimenten durch, um die zugrunde liegenden Prinzipien des übertragbaren Wissens in SHDA aufzudecken. Insbesondere entwerfen wir ein einheitliches Knowledge Transfer Framework (KTF) für SHDA. Auf der Grundlage des KTF stellen wir fest, dass das übertragbare Wissen in SHDA hauptsächlich aus der Übertragbarkeit und Unterscheidbarkeit der Quelldomäne stammt. Folglich kann die Sicherstellung dieser Eigenschaften in Quellstichproben, unabhängig von ihrer Herkunft (z. B. Bild, Text, Rauschen), die Effektivität der Wissensübertragung in SHDA-Aufgaben verbessern. Die Codes und Datensätze sind unter https://github.com/yyyaoyuan/SHDA verfügbar.

Reduzierung von Halluzinationen bei der SPARQL-Abfragegenerierung auf Basis von Sprachmodellen durch post-generative Speicherrückgewinnung
Reducing Hallucinations in Language Model-based SPARQL Query Generation Using Post-Generation Memory Retrieval

Feb 19

ByAditya Sharma, Luis Lara, Amal Zouaq, Christopher J. Pal

Die Fähigkeit, SPARQL-Abfragen aus natürlichen Sprachfragen zu generieren, ist entscheidend für die effiziente und genaue Abfrage strukturierter Daten aus Wissensgraphen (KG). Obwohl große Sprachmodelle (LLMs) weit verbreitet für die Generierung von SPARQL-Abfragen eingesetzt werden, sind sie oft anfällig für Halluzinationen und Fehler außerhalb der Verteilung, wenn sie KG-Elemente wie Uniform Resource Identifiers (URIs) basierend auf internem parametrischem Wissen erzeugen. Dies führt häufig zu Inhalten, die plausibel erscheinen, aber faktisch falsch sind, was erhebliche Herausforderungen für ihren Einsatz in realen Anwendungen zur Informationsbeschaffung (IR) darstellt. Dies hat zu verstärkter Forschung geführt, die darauf abzielt, solche Fehler zu erkennen und zu mindern. In diesem Artikel stellen wir PGMR (Post-Generation Memory Retrieval) vor, ein modulares Framework, das ein nicht-parametrisches Speichermodul integriert, um KG-Elemente abzurufen und die LLM-basierte SPARQL-Abfragegenerierung zu verbessern. Unsere experimentellen Ergebnisse zeigen, dass PGMR durchweg starke Leistungen über verschiedene Datensätze, Datenverteilungen und LLMs hinweg liefert. Besonders hervorzuheben ist, dass PGMR URI-Halluzinationen signifikant reduziert und das Problem in mehreren Szenarien nahezu vollständig beseitigt.