HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

28 papers found

InternVL3: Erforschung fortgeschrittener Trainings- und Testzeitmethoden für Open-Source-Multimodale Modelle
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

Apr 14

ByJinguo Zhu, Weiyun Wang, Zhe Chen, Zhaoyang Liu, Shenglong Ye, Lixin Gu, Yuchen Duan, Hao Tian, Weijie Su, Jie Shao, Zhangwei Gao, Erfei Cui, Yue Cao, Yangzhou Liu, Weiye Xu, Hao Li, Jiahao Wang, Han Lv, Dengnian Chen, Songze Li, Yinan He, Tan Jiang, Jiapeng Luo, Yi Wang, Conghui He, Botian Shi, Xingcheng Zhang, Wenqi Shao, Junjun He, Yingtong Xiong, Wenwen Qu, Peng Sun, Penglong Jiao, Lijun Wu, Kaipeng Zhang, Huipeng Deng, Jiaye Ge, Kai Chen, Limin Wang, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang

298

Wir stellen InternVL3 vor, einen bedeutenden Fortschritt in der InternVL-Serie, der ein natives multimodales Vortrainingsparadigma bietet. Anstatt ein textbasiertes großes Sprachmodell (LLM) in ein multimodales großes Sprachmodell (MLLM) zu adaptieren, das visuelle Eingaben unterstützt, erwirbt InternVL3 multimodale und linguistische Fähigkeiten gemeinsam aus diversen multimodalen Daten und reinen Textkorpora während einer einzigen Vortrainingsphase. Dieses einheitliche Trainingsparadigma adressiert effektiv die Komplexitäten und Ausrichtungsprobleme, die häufig in konventionellen nachträglichen Trainingspipelines für MLLMs auftreten. Um die Leistung und Skalierbarkeit weiter zu verbessern, integriert InternVL3 eine variable visuelle Positionskodierung (V2PE) zur Unterstützung erweiterter multimodaler Kontexte, verwendet fortgeschrittene Nachtrainings-Techniken wie überwachte Feinabstimmung (SFT) und gemischte Präferenzoptimierung (MPO) und setzt Testzeit-Skalierungsstrategien sowie eine optimierte Trainingsinfrastruktur ein. Umfangreiche empirische Auswertungen zeigen, dass InternVL3 überlegene Leistung in einer Vielzahl von multimodalen Aufgaben erzielt. Insbesondere erreicht InternVL3-78B eine Punktzahl von 72,2 auf dem MMMU-Benchmark und setzt damit einen neuen Maßstab unter Open-Source-MLLMs. Seine Fähigkeiten bleiben hochgradig wettbewerbsfähig mit führenden proprietären Modellen, einschließlich ChatGPT-4o, Claude 3.5 Sonnet und Gemini 2.5 Pro, während es gleichzeitig eine starke rein sprachliche Kompetenz beibehält. Im Einklang mit den Prinzipien der offenen Wissenschaft werden wir sowohl die Trainingsdaten als auch die Modellgewichte öffentlich freigeben, um die weitere Forschung und Entwicklung in der nächsten Generation von MLLMs zu fördern.

PRIMA.CPP: Beschleunigung der Inferenz von 70B-skaligen LLMs auf ressourcenarmen Alltags-Home-Clustern
PRIMA.CPP: Speeding Up 70B-Scale LLM Inference on Low-Resource Everyday Home Clusters

Apr 7

ByZonghang Li, Tao Li, Wenjiao Feng, Mohsen Guizani, Hongfang Yu

136

Die Einführung von DeepSeek R1 und QwQ 32B hat die Leistungsgrenzen für den Betrieb von fortschrittlichen großen Sprachmodellen (LLMs) auf Heimgeräten durchbrochen. Während die Verbraucherhardware immer leistungsfähiger wird und die Modellquantisierung sich verbessert, erfordern bestehende Endgerätelösungen immer noch GPU-Cluster, großen RAM/VRAM und hohe Bandbreite, was weit über die Kapazitäten eines typischen Heimclusters hinausgeht. Dieses Papier stellt prima.cpp vor, ein verteiltes Inferenzsystem, das 70B-Modelle auf alltäglichen Heimgeräten unter Verwendung einer Mischung aus CPU/GPU, geringem RAM/VRAM, Wi-Fi und plattformübergreifender Unterstützung ausführt. Es verwendet mmap zur Verwaltung der Modellgewichte und führt piped-ring-Parallelität mit Prefetching ein, um das Laden von der Festplatte zu verbergen. Durch die Modellierung von Heterogenität in Berechnung, Kommunikation, Festplatte, Speicher (und dessen Verwaltungsverhalten) und Betriebssystem weist es die Modellschichten optimal der CPU und GPU jedes Geräts zu, wodurch die Token-Latenz weiter reduziert wird. Ein elegantes Algorithmus namens Halda wird vorgeschlagen, um dieses NP-schwere Zuordnungsproblem zu lösen. Wir evaluieren prima.cpp auf einem typischen Vier-Knoten-Heimcluster. Es übertrifft llama.cpp, exo und dllama bei 30B+-Modellen, während der Speicherdruck unter 6 % bleibt. Dies bringt fortschrittliche 30B-70B-Modelle wie Llama 3, DeepSeek R1, Qwen 2.5 und QwQ auf Heimassistenten und macht fortschrittliche KI für Einzelpersonen wirklich zugänglich. Der Code ist Open Source und verfügbar unter https://github.com/Lizonghang/prima.cpp.

Haben wir Bildgenerierung und -verständnis bereits vereinheitlicht? Eine empirische Studie zur Bildgenerierungsfähigkeit von GPT-4o
Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability

Apr 9

ByNing Li, Jingran Zhang, Justin Cui

OpenAIs multimodales GPT-4o hat bemerkenswerte Fähigkeiten in der Bildgenerierung und -bearbeitung gezeigt, doch seine Fähigkeit zur weltwissensbasierten semantischen Synthese – der nahtlosen Integration von Domänenwissen, kontextuellem Denken und der Befolgung von Anweisungen – bleibt unbestätigt. In dieser Studie bewerten wir diese Fähigkeiten systematisch in drei kritischen Dimensionen: (1) Globale Anweisungsbefolgung, (2) Präzision bei fein granulierter Bearbeitung und (3) Post-Generierungs-Denken. Während bestehende Benchmarks die starken Fähigkeiten von GPT-4o in der Bildgenerierung und -bearbeitung hervorheben, zeigt unsere Bewertung anhaltende Grenzen des Modells auf: Es greift häufig auf wörtliche Interpretationen von Anweisungen zurück, wendet Wissensbeschränkungen inkonsistent an und hat Schwierigkeiten mit bedingten Denkaufgaben. Diese Ergebnisse stellen vorherrschende Annahmen über das einheitliche Verständnis und die Generierungsfähigkeiten von GPT-4o in Frage und legen erhebliche Lücken in seiner dynamischen Wissensintegration offen. Unsere Studie fordert die Entwicklung robusterer Benchmarks und Trainingsstrategien, die über eine oberflächliche Ausrichtung hinausgehen und eine kontextbewusste und denkbasierte multimodale Generierung betonen.

VL-Rethinker: Förderung der Selbstreflexion von Vision-Sprache-Modellen durch Reinforcement Learning
VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning

Apr 10

ByHaozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen

Kürzlich haben langsam denkende Systeme wie GPT-o1 und DeepSeek-R1 großes Potenzial bei der Lösung anspruchsvoller Probleme durch explizite Reflexion gezeigt. Sie übertreffen die besten schnell denkenden Modelle, wie GPT-4o, deutlich in verschiedenen Mathematik- und Wissenschaftsbenchmarks. Ihre multimodalen Fähigkeiten zur logischen Schlussfolgerung bleiben jedoch auf dem Niveau von schnell denkenden Modellen. Beispielsweise ist die Leistung von GPT-o1 in Benchmarks wie MathVista, MathVerse und MathVision ähnlich wie bei schnell denkenden Modellen. In diesem Artikel streben wir an, die langsam denkenden Fähigkeiten von Vision-Sprache-Modellen durch Verstärkungslernen (ohne auf Destillation zurückzugreifen) zu verbessern, um den Stand der Technik voranzutreiben. Zunächst passen wir den GRPO-Algorithmus mit einer neuartigen Technik namens Selective Sample Replay (SSR) an, um das Problem der verschwindenden Vorteile zu lösen. Während dieser Ansatz eine starke Leistung erzielt, zeigen die daraus resultierenden RL-trainierten Modelle begrenzte Selbstreflexion oder Selbstüberprüfung. Um das langsame Denken weiter zu fördern, führen wir Forced Rethinking ein, das am Ende der anfänglichen Rollouts im RL-Training einen textuellen Nachdenk-Trigger hinzufügt und damit einen Schritt zur Selbstreflexion explizit erzwingt. Durch die Kombination dieser beiden Techniken erreicht unser Modell, VL-Rethinker, Spitzenwerte in MathVista, MathVerse und MathVision mit 80,3 %, 61,8 % bzw. 43,9 %. VL-Rethinker erzielt auch den Open-Source-Standard der Technik in multidisziplinären Benchmarks wie MMMU-Pro, EMMA und MEGA-Bench und verringert so die Lücke zu GPT-o1.

FUSION: Vollständige Integration von visuell-sprachlichen Repräsentationen für tiefgreifendes cross-modales Verständnis
FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding

Apr 14

ByZheng Liu, Mengjie Liu, Jingzhou Chen, Jingwei Xu, Bin Cui, Conghui He, Wentao Zhang

Wir stellen FUSION vor, eine Familie multimodaler großer Sprachmodelle (MLLMs) mit einem vollständigen Paradigma zur Vision-Sprach-Ausrichtung und -Integration. Im Gegensatz zu bestehenden Methoden, die sich hauptsächlich auf späte Modalitätsinteraktion während der LLM-Decodierung verlassen, erreicht unser Ansatz eine tiefe, dynamische Integration durch die gesamte Verarbeitungspipeline. Zu diesem Zweck schlagen wir die Text-Guided Unified Vision Encoding vor, das textuelle Informationen in die Vision-Kodierung einbezieht, um eine pixelgenaue Integration zu erreichen. Weiterhin entwerfen wir das Context-Aware Recursive Alignment Decoding, das visuelle Merkmale rekursiv unter Berücksichtigung des textuellen Kontexts während der Decodierung aggregiert und so eine feingranulare, fragenbezogene semantische Integration ermöglicht. Um die Merkmalszuordnung zu steuern und Modalitätsunterschiede zu minimieren, entwickeln wir den Dual-Supervised Semantic Mapping Loss. Zusätzlich erstellen wir einen Synthesized Language-Driven Question-Answer (QA)-Datensatz durch eine neue Datensynthesemethode, die hochwertige QA-Paare priorisiert, um die textgeführte Merkmalsintegration zu optimieren. Auf diesen Grundlagen aufbauend trainieren wir FUSION in zwei Größenordnungen – 3B und 8B – und zeigen, dass unser Ansatz zur Vollmodalitätsintegration bestehende Methoden mit nur 630 Vision-Tokens deutlich übertrifft. Bemerkenswerterweise übertrifft FUSION 3B Cambrian-1 8B und Florence-VL 8B in den meisten Benchmarks. FUSION 3B übertrifft Cambrian-1 8B sogar dann, wenn es auf 300 Vision-Tokens beschränkt ist. Unsere Ablationsstudien zeigen, dass FUSION LLaVA-NeXT in mehr als der Hälfte der Benchmarks unter gleicher Konfiguration ohne dynamische Auflösung übertrifft, was die Effektivität unseres Ansatzes unterstreicht. Wir veröffentlichen unseren Code, die Modellgewichte und den Datensatz. https://github.com/starriver030515/FUSION

Iteratives Selbsttraining für Code-Generierung durch verstärktes Neu-Ranking
Iterative Self-Training for Code Generation via Reinforced Re-Ranking

Apr 13

ByNikita Sorokin, Ivan Sedykh, Valentin Malykh

Die Generierung von hochwertigem Code, der komplexe Programmieraufgaben löst, ist eine Herausforderung, insbesondere bei aktuellen dekoderbasierten Modellen, die stark stochastische Ausgaben erzeugen. Bei der Code-Generierung können bereits kleinste Fehler die gesamte Lösung unbrauchbar machen. Die Nutzung mehrerer gesampelter Lösungen kann die Gesamtqualität der Ausgabe erheblich verbessern. Eine effektive Methode zur Verbesserung der Code-Generierung besteht darin, ein Code-Generierungsmodell mit einem Reranker-Modell zu kombinieren, das die beste Lösung aus den generierten Samples auswählt. Wir schlagen einen neuartigen iterativen Selbsttrainingsansatz für das Selbsttraining von Reranker-Modellen unter Verwendung von Proximal Policy Optimization (PPO) vor, der darauf abzielt, sowohl die Reranking-Genauigkeit als auch den gesamten Code-Generierungsprozess zu verbessern. Im Gegensatz zu traditionellen PPO-Ansätzen, bei denen der Fokus auf der Optimierung eines generativen Modells mit einem Belohnungsmodell liegt, betont unser Ansatz die Entwicklung eines robusten Belohnungs-/Reranking-Modells. Dieses Modell verbessert die Qualität des generierten Codes durch Reranking und behebt Probleme und Fehler, die das Belohnungsmodell während der PPO-Ausrichtung mit dem Reranker möglicherweise übersehen hat. Unsere Methode verfeinert den Trainingsdatensatz iterativ, indem sie Ausgaben neu bewertet, hoch bewertete negative Beispiele identifiziert und diese in den Trainingszyklus einbindet, wodurch die Modellleistung gesteigert wird. Unsere Auswertung auf dem MultiPL-E-Datensatz zeigt, dass unser Modell mit 13,4 Milliarden Parametern ein Modell mit 33 Milliarden Parametern in Bezug auf die Code-Generierungsqualität übertrifft und dabei dreimal schneller ist. Darüber hinaus erreicht es eine Leistung, die mit GPT-4 vergleichbar ist, und übertrifft es in einer Programmiersprache.

Mavors: Multigranulare Videorepräsentation für multimodale Large Language Models
Mavors: Multi-granularity Video Representation for Multimodal Large Language Model

Apr 14

ByYang Shi, Jiaheng Liu, Yushuo Guan, Zhenhua Wu, Yuanxing Zhang, Zihao Wang, Weihong Lin, Jingyun Hua, Zekun Wang, Xinlong Chen, Bohan Zeng, Wentao Zhang, Fuzheng Zhang, Wenjing Yang, Di Zhang

Das Verständnis von langen Videokontexten in multimodalen großen Sprachmodellen (MLLMs) steht vor einer entscheidenden Herausforderung: die Balance zwischen Recheneffizienz und der Bewahrung feinkörniger räumlich-zeitlicher Muster. Bestehende Ansätze (z. B. spärliche Abtastung, dichte Abtastung mit niedriger Auflösung und Token-Kompression) leiden unter erheblichem Informationsverlust in den zeitlichen Dynamiken, räumlichen Details oder subtilen Interaktionen, insbesondere bei Videos mit komplexen Bewegungen oder variierenden Auflösungen. Um dies zu adressieren, schlagen wir Mavors vor, ein neuartiges Framework, das eine Multi-Granularitäts-Videodarstellung für die ganzheitliche Modellierung langer Videos einführt. Konkret kodiert Mavors den Rohvideocontent direkt in latente Repräsentationen durch zwei Kernkomponenten: 1) einen Intra-Chunk-Vision-Encoder (IVE), der hochauflösende räumliche Merkmale mittels 3D-Faltungen und Vision-Transformern bewahrt, und 2) einen Inter-Chunk-Feature-Aggregator (IFA), der zeitliche Kohärenz zwischen Chunks durch transformer-basierte Abhängigkeitsmodellierung mit Chunk-Level-Rotationspositionskodierungen herstellt. Darüber hinaus vereinheitlicht das Framework das Verständnis von Bildern und Videos, indem es Bilder als Einzelbild-Videos durch Sub-Bild-Zerlegung behandelt. Experimente über diverse Benchmarks demonstrieren die Überlegenheit von Mavors in der Bewahrung sowohl räumlicher Treue als auch zeitlicher Kontinuität und übertreffen bestehende Methoden signifikant in Aufgaben, die feinkörnige räumlich-zeitliche Schlussfolgerungen erfordern.

AgentRewardBench: Bewertung automatischer Evaluierungen von Web-Agenten-Trajektorien
AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories

Apr 11

ByXing Han Lù, Amirhossein Kazemnejad, Nicholas Meade, Arkil Patel, Dongchan Shin, Alejandra Zambrano, Karolina Stańczak, Peter Shaw, Christopher J. Pal, Siva Reddy

Web-Agents ermöglichen es Nutzern, Aufgaben in Webbrowsern durch natürliche Sprachinteraktion auszuführen. Die Bewertung der Trajektorien von Web-Agents ist ein wichtiges Problem, da sie uns hilft zu bestimmen, ob der Agent die Aufgaben erfolgreich abgeschlossen hat. Regelbasierte Methoden werden hierfür häufig eingesetzt, sind jedoch schwierig auf neue Aufgaben zu erweitern und erkennen möglicherweise nicht immer erfolgreiche Trajektorien. Eine höhere Genauigkeit könnte durch menschliche Bewertung erreicht werden, aber dieser Prozess wäre deutlich langsamer und teurer. Automatische Bewertungen mit LLMs könnten die Herausforderungen bei der Entwicklung neuer Regeln und der manuellen Annotation von Trajektorien umgehen und so eine schnellere und kosteneffiziente Bewertung ermöglichen. Es ist jedoch unklar, wie effektiv sie bei der Bewertung von Web-Agents sind. Zu diesem Zweck schlagen wir AgentRewardBench vor, den ersten Benchmark zur Bewertung der Effektivität von LLM-Richtern für Web-Agents. AgentRewardBench enthält 1302 Trajektorien über 5 Benchmarks und 4 LLMs hinweg. Jede Trajektorie in AgentRewardBench wird von einem Experten überprüft, der Fragen zum Erfolg, zu Nebenwirkungen und zur Wiederholung des Agents beantwortet. Mit unserem Benchmark bewerten wir 12 LLM-Richter und stellen fest, dass kein einzelner LLM in allen Benchmarks hervorragt. Wir stellen außerdem fest, dass die regelbasierte Bewertung, die von gängigen Benchmarks verwendet wird, dazu neigt, die Erfolgsrate von Web-Agents zu unterschätzen, was eine zentrale Schwäche der regelbasierten Bewertung und die Notwendigkeit zur Entwicklung flexiblerer automatischer Bewertungen aufzeigt. Wir veröffentlichen den Benchmark unter: https://agent-reward-bench.github.io.

S1-Bench: Ein einfacher Benchmark zur Bewertung der System-1-Denkleistung großer Reasoning-Modelle
S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models

Apr 14

ByWenyuan Zhang, Shuaiyi Nie, Xinghua Zhang, Zefeng Zhang, Tingwen Liu

Wir stellen S1-Bench vor, einen neuartigen Benchmark, der entwickelt wurde, um die Leistung von Large Reasoning Models (LRMs) bei einfachen Aufgaben zu bewerten, die intuitives System-1-Denken begünstigen, anstatt deliberatives System-2-Schließen. Während LRMs bedeutende Durchbrüche bei komplexen Denkaufgaben durch explizite Gedankenketten erzielt haben, könnte ihre Abhängigkeit von tiefgreifendem analytischem Denken ihre Fähigkeiten im System-1-Denken einschränken. Zudem existiert derzeit kein Benchmark, um die Leistung von LRMs bei Aufgaben zu bewerten, die solche Fähigkeiten erfordern. Um diese Lücke zu schließen, präsentiert S1-Bench eine Reihe von einfachen, vielfältigen und natürlich klaren Fragen aus verschiedenen Domänen und Sprachen, die speziell dazu entwickelt wurden, die Leistung von LRMs in solchen Aufgaben zu bewerten. Unsere umfassende Auswertung von 22 LRMs zeigt signifikant niedrigere Effizienztendenzen, wobei die Ausgaben im Durchschnitt 15,5-mal länger sind als die traditioneller kleinerer LLMs. Darüber hinaus identifizieren LRMs oft korrekte Antworten frühzeitig, setzen jedoch unnötige Überlegungen fort, wobei einige Modelle sogar zahlreiche Fehler produzieren. Diese Ergebnisse verdeutlichen die starren Denkmuster aktueller LRMs und unterstreichen den erheblichen Entwicklungsbedarf, um ausgewogene Dual-System-Denkfähigkeiten zu erreichen, die sich angemessen an die Aufgabenkomplexität anpassen können.

DUMP: Automatisierte verteilungsbasierte Lehrplanerstellung für RL-basierte LLM-Nachschulung
DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training

Apr 13

ByZhenting Wang, Guofeng Cui, Kun Wan, Wentian Zhao

Jüngste Fortschritte in der nachträglichen Optimierung großer Sprachmodelle (LLMs) durch Reinforcement Learning (RL) haben zu bemerkenswerten Verbesserungen geführt, insbesondere bei der Steigerung ihrer Fähigkeiten zur Bewältigung komplexer Aufgaben. Die meisten bestehenden Methoden behandeln die Trainingsdaten jedoch als einheitliches Ganzes und übersehen dabei, dass das Training moderner LLMs oft eine Mischung von Daten aus verschiedenen Verteilungen umfasst, die sich sowohl in ihrer Herkunft als auch in ihrem Schwierigkeitsgrad unterscheiden. Diese Heterogenität stellt eine zentrale Herausforderung dar: Wie kann das Training über verschiedene Verteilungen hinweg adaptiv geplant werden, um die Lerneffizienz zu optimieren? In diesem Artikel präsentieren wir ein prinzipielles Curriculum-Learning-Framework, das auf dem Konzept der Lernbarkeit auf Verteilungsebene basiert. Unsere zentrale Erkenntnis ist, dass die Größe der Policy-Vorteile widerspiegelt, wie viel ein Modell noch von weiterem Training auf einer bestimmten Verteilung profitieren kann. Auf dieser Grundlage schlagen wir ein Curriculum-Learning-Framework auf Verteilungsebene für die RL-basierte nachträgliche Optimierung von LLMs vor, das das Upper Confidence Bound (UCB)-Prinzip nutzt, um die Sampling-Wahrscheinlichkeiten für verschiedene Verteilungen dynamisch anzupassen. Dieser Ansatz priorisiert Verteilungen mit entweder hohem durchschnittlichem Vorteil (Exploitation) oder geringer Stichprobenanzahl (Exploration), was zu einem adaptiven und theoretisch fundierten Trainingsplan führt. Wir implementieren unser Curriculum-Learning-Framework mit GRPO als zugrunde liegendem RL-Algorithmus und demonstrieren seine Wirksamkeit auf Logik-Datensätzen mit unterschiedlichen Schwierigkeitsgraden und Quellen. Unsere Experimente zeigen, dass unser Framework die Konvergenzgeschwindigkeit und die Endleistung signifikant verbessert, was den Wert von verteilungsbewussten Curriculum-Strategien in der nachträglichen Optimierung von LLMs unterstreicht. Code: https://github.com/ZhentingWang/DUMP.

MIEB: Benchmark für massive Bild-Einbettungen
MIEB: Massive Image Embedding Benchmark

Apr 14

ByChenghao Xiao, Isaac Chung, Imene Kerboua, Jamie Stirling, Xin Zhang, Márton Kardos, Roman Solomatin, Noura Al Moubayed, Kenneth Enevoldsen, Niklas Muennighoff

Bildrepräsentationen werden oft durch isolierte, aufgabenspezifische Protokolle bewertet, was zu einem fragmentierten Verständnis der Modellfähigkeiten führt. Beispielsweise ist unklar, ob ein Bild-Einbettungsmodell, das gut darin ist, Bilder zu clustern, ebenso gut darin ist, relevante Bilder basierend auf einem Textstück abzurufen. Wir stellen den Massive Image Embedding Benchmark (MIEB) vor, um die Leistung von Bild- und Bild-Text-Einbettungsmodellen über das bisher breiteste Spektrum hinweg zu bewerten. MIEB umfasst 38 Sprachen und 130 einzelne Aufgaben, die wir in 8 übergeordnete Kategorien gruppieren. Wir bewerten 50 Modelle in unserem Benchmark und stellen fest, dass keine einzelne Methode in allen Aufgabenkategorien dominiert. Wir decken verborgene Fähigkeiten in fortschrittlichen Vision-Modellen auf, wie ihre präzise visuelle Darstellung von Texten, sowie ihre noch begrenzten Fähigkeiten bei verschachtelten Kodierungen und der Zuordnung von Bildern und Texten in Gegenwart von Störfaktoren. Wir zeigen auch, dass die Leistung von Vision-Encodern auf MIEB stark mit ihrer Leistung korreliert, wenn sie in multimodalen großen Sprachmodellen verwendet werden. Unser Code, Datensatz und Leaderboard sind öffentlich verfügbar unter https://github.com/embeddings-benchmark/mteb.

Überwindung der Datenbarriere – Entwicklung von GUI-Agenten durch Aufgabenverallgemeinerung
Breaking the Data Barrier -- Building GUI Agents Through Task Generalization

Apr 14

ByJunlei Zhang, Zichen Ding, Chang Ma, Zijie Chen, Qiushi Sun, Zhenzhong Lan, Junxian He

Graphical User Interface (GUI)-Agenten bieten plattformübergreifende Lösungen zur Automatisierung komplexer digitaler Aufgaben und haben ein erhebliches Potenzial, Produktivitätsabläufe zu transformieren. Ihre Leistung wird jedoch oft durch den Mangel an hochwertigen Trajektoriedaten eingeschränkt. Um diese Einschränkung zu überwinden, schlagen wir vor, Vision Language Models (VLMs) in einer speziellen Zwischentrainingsphase auf datenintensive, reasoning-intensive Aufgaben zu trainieren und anschließend zu untersuchen, wie die Einbindung dieser Aufgaben die Generalisierung auf GUI-Planungsszenarien fördert. Konkret untersuchen wir eine Reihe von Aufgaben mit leicht verfügbaren Instruction-Tuning-Daten, darunter GUI-Wahrnehmung, multimodales Reasoning und textbasiertes Reasoning. Durch umfangreiche Experimente über 11 Zwischentrainingsaufgaben zeigen wir: (1) Die Aufgabenverallgemeinerung erweist sich als äußerst effektiv und führt in den meisten Fällen zu erheblichen Verbesserungen. Beispielsweise verbessert multimodales mathematisches Reasoning die Leistung auf AndroidWorld um absolute 6,3 %. Bemerkenswerterweise steigern rein textbasierte mathematische Daten die Leistung von GUI-Webagenten signifikant, mit einer Verbesserung von 5,6 % auf WebArena und 5,4 % auf AndroidWorld, was eine beachtliche cross-modale Generalisierung von textbasierten zu visuellen Domänen unterstreicht; (2) Entgegen früheren Annahmen haben GUI-Wahrnehmungsdaten – die bisher als eng mit GUI-Agentenaufgaben verbunden und weit verbreitet für das Training angesehen wurden – einen vergleichsweise begrenzten Einfluss auf die Endleistung; (3) Basierend auf diesen Erkenntnissen identifizieren wir die effektivsten Zwischentrainingsaufgaben und erstellen optimierte Mischdatensätze, was zu absoluten Leistungssteigerungen von 8,0 % auf WebArena und 12,2 % auf AndroidWorld führt. Unsere Arbeit liefert wertvolle Einblicke in den domänenübergreifenden Wissenstransfer für GUI-Agenten und bietet einen praktischen Ansatz zur Bewältigung von Datenknappheitsproblemen in diesem aufstrebenden Bereich. Der Code, die Daten und Modelle werden unter https://github.com/hkust-nlp/GUIMid verfügbar sein.

SocioVerse: Ein Weltmodell für soziale Simulation, angetrieben durch LLM-Agenten und einen Pool von 10 Millionen realen Nutzern
SocioVerse: A World Model for Social Simulation Powered by LLM Agents and A Pool of 10 Million Real-World Users

Apr 14

ByXinnong Zhang, Jiayu Lin, Xinyi Mou, Shiyue Yang, Xiawei Liu, Libo Sun, Hanjia Lyu, Yihang Yang, Weihong Qi, Yue Chen, Guanying Li, Ling Yan, Yao Hu, Siming Chen, Yu Wang, Jingxuan Huang, Jiebo Luo, Shiping Tang, Libo Wu, Baohua Zhou, Zhongyu Wei

Die soziale Simulation revolutioniert die traditionelle sozialwissenschaftliche Forschung, indem sie menschliches Verhalten durch Interaktionen zwischen virtuellen Individuen und ihrer Umgebung modelliert. Mit den jüngsten Fortschritten bei großen Sprachmodellen (LLMs) hat dieser Ansatz ein zunehmendes Potenzial gezeigt, individuelle Unterschiede zu erfassen und Gruppenverhalten vorherzusagen. Allerdings stehen bestehende Methoden vor Herausforderungen in Bezug auf die Ausrichtung an der Umgebung, den Zielnutzern, den Interaktionsmechanismen und den Verhaltensmustern. Zu diesem Zweck stellen wir SocioVerse vor, ein LLM-Agenten-gestütztes Weltmodell für die soziale Simulation. Unser Framework verfügt über vier leistungsstarke Ausrichtungskomponenten und einen Nutzerpool von 10 Millionen realen Individuen. Um seine Wirksamkeit zu validieren, führten wir groß angelegte Simulationsexperimente in drei verschiedenen Bereichen durch: Politik, Nachrichten und Wirtschaft. Die Ergebnisse zeigen, dass SocioVerse großskalige Bevölkerungsdynamiken widerspiegeln kann, während es durch standardisierte Verfahren und minimale manuelle Anpassungen Diversität, Glaubwürdigkeit und Repräsentativität gewährleistet.

TinyLLaVA-Video-R1: Auf dem Weg zu kleineren LMMs für die Videoverarbeitung
TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning

Apr 13

ByXingjian Zhang, Siwei Wen, Wenjun Wu, Lei Huang

In jüngster Zeit hat die Verbesserung der Denkfähigkeit großer multimodaler Modelle (LMMs) durch Reinforcement Learning erhebliche Fortschritte gemacht. Die meisten bestehenden Arbeiten basieren jedoch auf hochgradig denkintensiven Datensätzen wie Mathematik und Code, und Forscher wählen in der Regel großskalige Modelle als Grundlage. Wir argumentieren, dass die Erforschung der Denkfähigkeiten klein skalierten Modelle für Forscher mit begrenzten Rechenressourcen weiterhin wertvoll ist. Darüber hinaus ist es ebenso bedeutsam, Modelle in die Lage zu versetzen, ihre Denkprozesse auf allgemeinen Frage-Antwort-Datensätzen zu erklären. Daher stellen wir das klein skalierte Video-Denkmodell TinyLLaVA-Video-R1 vor. Basierend auf TinyLLaVA-Video, einem nachvollziehbar trainierten Video-Verständnismodell mit nicht mehr als 4B Parametern, zeigt es nicht nur deutlich verbesserte Denk- und Denkfähigkeiten nach der Verwendung von Reinforcement Learning auf allgemeinen Video-QA-Datensätzen, sondern weist auch die emergente Eigenschaft von „Aha-Momenten“ auf. Darüber hinaus teilen wir eine Reihe von experimentellen Erkenntnissen, die praktische Einblicke für die zukünftige Erforschung von Video-Denkfähigkeiten in klein skalierten Modellen bieten sollen. Es ist verfügbar unter https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.

M1: Skalierbare Testzeit-Berechnungen mit Mamba Reasoning Models
M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models

Apr 14

ByJunxiong Wang, Wen-Ding Li, Daniele Paliotta, Daniel Ritter, Alexander M. Rush, Tri Dao

Effektives Denken ist entscheidend für die Lösung komplexer mathematischer Probleme. Aktuelle große Sprachmodelle (LLMs) haben die Leistung durch die Skalierung der Berechnungen zur Testzeit mittels langer Ketten von Gedankengängen gesteigert. Allerdings sind transformerbasierte Modelle aufgrund ihrer quadratischen Rechenkomplexität und linearen Speicheranforderungen inhärent in der Erweiterung der Kontextlänge begrenzt. In diesem Artikel stellen wir ein neuartiges hybrides lineares RNN-Denkmodell, M1, vor, das auf der Mamba-Architektur basiert und speichereffiziente Inferenz ermöglicht. Unser Ansatz nutzt einen Destillationsprozess bestehender Denkmodelle und wird durch RL-Training weiter verbessert. Experimentelle Ergebnisse auf den AIME- und MATH-Benchmarks zeigen, dass M1 nicht nur frühere lineare RNN-Modelle übertrifft, sondern auch die Leistung der state-of-the-art Deepseek R1 destillierten Denkmodelle in ähnlichem Maßstab erreicht. Wir vergleichen auch unsere Generierungsgeschwindigkeit mit einer hochleistungsfähigen allgemeinen Inferenz-Engine, vLLM, und beobachten eine mehr als dreifache Beschleunigung im Vergleich zu einem Transformer gleicher Größe. Mit dem Durchsatzgewinn können wir unter einem festen Generierungszeitbudget mithilfe von Selbstkonsistenz-Abstimmungen eine höhere Genauigkeit im Vergleich zu den DeepSeek R1 destillierten Transformer-Denkmodellen erreichen. Insgesamt führen wir ein hybrides Mamba-Denkmodell ein und bieten einen effektiveren Ansatz zur Skalierung der Generierung zur Testzeit mithilfe von Selbstkonsistenz oder langen Ketten von Gedankengängen.

Der KI-Wissenschaftler-v2: Workshop-Level Automatisierte Wissenschaftliche Entdeckung durch Agentenbasiertes Baumsuchverfahren
The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search

Apr 10

ByYutaro Yamada, Robert Tjarko Lange, Cong Lu, Shengran Hu, Chris Lu, Jakob Foerster, Jeff Clune, David Ha

KI spielt eine zunehmend entscheidende Rolle bei der Transformation der Art und Weise, wie wissenschaftliche Entdeckungen gemacht werden. Wir stellen The AI Scientist-v2 vor, ein end-to-end agentenbasiertes System, das in der Lage ist, den ersten vollständig KI-generierten, peer-review-akzeptierten Workshop-Beitrag zu erstellen. Dieses System formuliert iterativ wissenschaftliche Hypothesen, entwirft und führt Experimente durch, analysiert und visualisiert Daten und verfasst eigenständig wissenschaftliche Manuskripte. Im Vergleich zu seinem Vorgänger (v1, Lu et al., 2024 arXiv:2408.06292) beseitigt The AI Scientist-v2 die Abhängigkeit von menschlich erstellten Code-Vorlagen, generalisiert effektiv über verschiedene maschinelle Lernbereiche hinweg und nutzt eine neuartige progressive agentenbasierte Baum-Suchmethodik, die von einem dedizierten Experimentmanager-Agenten gesteuert wird. Zusätzlich verbessern wir die KI-Reviewer-Komponente durch die Integration eines Vision-Language-Modell (VLM)-Feedback-Loops zur iterativen Verfeinerung von Inhalt und Ästhetik der Abbildungen. Wir haben The AI Scientist-v2 evaluiert, indem wir drei vollständig autonome Manuskripte bei einem peer-reviewed ICLR-Workshop eingereicht haben. Bemerkenswerterweise erreichte ein Manuskript hohe genug Bewertungen, um die durchschnittliche menschliche Akzeptanzschwelle zu übertreffen, was den ersten Fall eines vollständig KI-generierten Papiers markiert, das erfolgreich ein Peer-Review durchlaufen hat. Diese Leistung unterstreicht die wachsende Fähigkeit der KI, alle Aspekte der wissenschaftlichen Forschung durchzuführen. Wir erwarten, dass weitere Fortschritte in der autonomen wissenschaftlichen Entdeckungstechnologie die menschliche Wissensgenerierung tiefgreifend beeinflussen werden, indem sie eine beispiellose Skalierbarkeit der Forschungsproduktivität ermöglichen und wissenschaftliche Durchbrüche erheblich beschleunigen, was der Gesellschaft insgesamt zugutekommt. Wir haben den Code unter https://github.com/SakanaAI/AI-Scientist-v2 open-source veröffentlicht, um die zukünftige Entwicklung dieser transformativen Technologie zu fördern. Wir diskutieren auch die Rolle der KI in der Wissenschaft, einschließlich der KI-Sicherheit.

Ausführbare funktionale Abstraktionen: Inferenz generativer Programme für fortgeschrittene mathematische Probleme
Executable Functional Abstractions: Inferring Generative Programs for Advanced Math Problems

Apr 14

ByZaid Khan, Elias Stengel-Eskin, Archiki Prasad, Jaemin Cho, Mohit Bansal

Wissenschaftler leiten oft abstrakte Verfahren aus spezifischen Problemfällen ab und verwenden diese Abstraktionen, um neue, verwandte Fälle zu generieren. Beispielsweise haben Programme, die die formalen Regeln und Eigenschaften eines Systems kodieren, in Bereichen wie RL (prozedurale Umgebungen) bis hin zur Physik (Simulations-Engines) nützlich erwiesen. Diese Programme können als Funktionen betrachtet werden, die basierend auf ihren Parametrisierungen (z. B. Gridworld-Konfiguration oder anfängliche physikalische Bedingungen) zu unterschiedlichen Ausgaben führen. Wir führen den Begriff EFA (Executable Functional Abstraction) ein, um solche Programme für mathematische Probleme zu bezeichnen. Ähnliche Konstrukte wie EFA haben sich als nützlich für mathematisches Denken erwiesen, insbesondere als Problemgeneratoren, um Modelle zu testen. Bisherige Arbeiten beschränkten sich jedoch auf Abstraktionen für Grundschulmathematik (deren einfache Regeln sich leicht in Programmen kodieren lassen), während die Generierung von EFAs für fortgeschrittene Mathematik bisher menschliche Ingenieurskunst erforderte. Wir untersuchen die automatische Konstruktion von EFAs für fortgeschrittene mathematische Probleme. Wir operationalisieren die Aufgabe der automatischen Konstruktion von EFAs als eine Programmsynthese-Aufgabe und entwickeln EFAGen, das ein LLM auf ein Ausgangsproblem und dessen schrittweise Lösung konditioniert, um Kandidaten für EFA-Programme zu generieren, die der verallgemeinerten Problem- und Lösungsklasse des Ausgangsproblems treu bleiben. Darüber hinaus formalisieren wir Eigenschaften, die jedes gültige EFA besitzen muss, in Form von ausführbaren Unit-Tests und zeigen, wie diese Tests als verifizierbare Belohnungen verwendet werden können, um LLMs darin zu trainieren, bessere EFA-Autoren zu werden. Wir demonstrieren, dass von EFAGen konstruierte EFAs rational agieren, indem sie den Ausgangsproblemen treu bleiben, lernbare Problemvariationen erzeugen und dass EFAGen EFAs aus mehreren diversen Quellen von Wettbewerbsmathematikproblemen ableiten kann. Schließlich zeigen wir nachgelagerte Anwendungen von modellgeschriebenen EFAs, z. B. das Finden von Problemvariationen, die für einen Lernenden schwieriger oder einfacher zu lösen sind, sowie die Datengenerierung.

Vernunftmodelle können effektiv sein, ohne zu denken.
Reasoning Models Can Be Effective Without Thinking

Apr 14

ByWenjie Ma, Jingxuan He, Charlie Snell, Tyler Griggs, Sewon Min, Matei Zaharia

Aktuelle LLMs haben ihre Fähigkeiten zur logischen Schlussfolgerung erheblich verbessert, hauptsächlich durch die Einbeziehung eines expliziten, langwierigen Denkprozesses als Teil der Generierung. In diesem Artikel stellen wir die Frage, ob dieser explizite Denkprozess notwendig ist. Mit dem state-of-the-art-Modell DeepSeek-R1-Distill-Qwen stellen wir fest, dass das Umgehen des Denkprozesses durch einfache Prompting, bezeichnet als NoThinking, überraschend effektiv sein kann. Bei Kontrolle der Anzahl der Tokens übertrifft NoThinking Denken über eine vielfältige Auswahl von sieben anspruchsvollen Reasoning-Datensätzen – einschließlich mathematischer Problemlösung, formalem Theorembeweis und Programmierung – insbesondere in ressourcenbeschränkten Szenarien, z.B. 51,3 vs. 28,9 auf ACM 23 mit 700 Tokens. Bemerkenswerterweise wird die Leistung von NoThinking mit zunehmendem k bei pass@k wettbewerbsfähiger. Aufbauend auf dieser Beobachtung zeigen wir, dass ein paralleler Skalierungsansatz, der NoThinking verwendet, um N Ausgaben unabhängig zu generieren und sie zu aggregieren, sehr effektiv ist. Für die Aggregation verwenden wir taskspezifische Verifizierer, wenn verfügbar, oder wenden einfache Best-of-N-Strategien wie konfidenzbasierte Auswahl an. Unsere Methode übertrifft eine Reihe von Baselines mit ähnlicher Latenz bei Verwendung von Denken und ist vergleichbar mit Denken bei deutlich längerer Latenz (bis zu 9x). Zusammenfassend regt unsere Forschung eine Neubewertung der Notwendigkeit langwieriger Denkprozesse an und etabliert gleichzeitig einen wettbewerbsfähigen Referenzpunkt, um starke Reasoning-Leistungen in ressourcenbeschränkten Szenarien oder bei niedriger Latenz durch parallele Skalierung zu erreichen.

VisuoThink: Stärkung der LVLM-Argumentation durch multimodale Baumsuche
VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search

Apr 12

ByYikun Wang, Siyin Wang, Qinyuan Cheng, Zhaoye Fei, Liang Ding, Qipeng Guo, Dacheng Tao, Xipeng Qiu

Jüngste Fortschritte bei großen visuell-sprachlichen Modellen haben bemerkenswerte Fähigkeiten gezeigt. Allerdings scheitern sie oft, wenn sie mit komplexen Denkaufgaben konfrontiert werden, die Menschen typischerweise durch visuelle Hilfsmittel und bewusstes, schrittweises Denken lösen. Während bestehende Methoden textbasiertes langsames Denken oder rudimentäre visuelle Unterstützung untersucht haben, erfassen sie nicht die komplexe, verschränkte Natur menschlicher visuell-verbaler Denkprozesse. Um diese Grenzen zu überwinden und inspiriert von den Mechanismen des langsamen Denkens in der menschlichen Kognition, führen wir VisuoThink ein, ein neuartiges Framework, das visuell-räumliche und sprachliche Domänen nahtlos integriert. VisuoThink ermöglicht multimodales langsames Denken durch progressives visuell-textuelles Schließen und integriert Testzeit-Skalierung durch Look-Ahead-Baumsuche. Umfangreiche Experimente zeigen, dass VisuoThink die Denkfähigkeiten durch Inferenzzeit-Skalierung signifikant verbessert, selbst ohne Feinabstimmung, und Spitzenleistungen in Aufgaben der Geometrie und räumlichen Logik erzielt.

LLM-SRBench: Ein neuer Benchmark für die Entdeckung wissenschaftlicher Gleichungen mit großen Sprachmodellen
LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models

Apr 14

ByParshin Shojaee, Ngoc-Hieu Nguyen, Kazem Meidani, Amir Barati Farimani, Khoa D Doan, Chandan K Reddy

Die Entdeckung wissenschaftlicher Gleichungen ist eine grundlegende Aufgabe in der Geschichte des wissenschaftlichen Fortschritts, die es ermöglicht, Gesetze abzuleiten, die natürliche Phänomene regeln. In jüngster Zeit haben Large Language Models (LLMs) für diese Aufgabe Interesse geweckt, da sie das Potenzial haben, eingebettetes wissenschaftliches Wissen für die Hypothesengenerierung zu nutzen. Die Bewertung der tatsächlichen Entdeckungsfähigkeiten dieser Methoden bleibt jedoch eine Herausforderung, da bestehende Benchmarks oft auf gängigen Gleichungen basieren, die von LLMs auswendig gelernt werden können, was zu überhöhten Leistungsmetriken führt, die keine echte Entdeckung widerspiegeln. In diesem Artikel stellen wir LLM-SRBench vor, einen umfassenden Benchmark mit 239 anspruchsvollen Problemen aus vier wissenschaftlichen Domänen, der speziell entwickelt wurde, um LLM-basierte Methoden zur Entdeckung wissenschaftlicher Gleichungen zu bewerten und dabei triviales Auswendiglernen zu verhindern. Unser Benchmark besteht aus zwei Hauptkategorien: LSR-Transform, das gängige physikalische Modelle in weniger verbreitete mathematische Darstellungen umwandelt, um das Denken über auswendig gelernte Formen hinaus zu testen, und LSR-Synth, das synthetische, entdeckungsorientierte Probleme einführt, die datengesteuertes Denken erfordern. Durch umfangreiche Evaluierung mehrerer state-of-the-art Methoden, sowohl mit offenen als auch geschlossenen LLMs, stellen wir fest, dass das bisher beste System lediglich eine symbolische Genauigkeit von 31,5 % erreicht. Diese Ergebnisse unterstreichen die Herausforderungen der Entdeckung wissenschaftlicher Gleichungen und positionieren LLM-SRBench als wertvolle Ressource für zukünftige Forschung.

Wie neue Daten das Wissen von LLMs durchdringen und wie man es verdünnt
How new data permeates LLM knowledge and how to dilute it

Apr 13

ByChen Sun, Renat Aksitov, Andrey Zhmoginov, Nolan Andrew Miller, Max Vladymyrov, Ulrich Rueckert, Been Kim, Mark Sandler

Große Sprachmodelle lernen und lernen kontinuierlich durch die Akkumulation von gradientenbasierten Updates, aber wie einzelne neue Informationen das bestehende Wissen beeinflussen, was sowohl zu nützlicher Generalisierung als auch zu problematischen Halluzinationen führt, bleibt weitgehend unverstanden. Wir zeigen, dass beim Lernen neuer Informationen LLMs einen „Priming“-Effekt aufweisen: Das Lernen einer neuen Tatsache kann dazu führen, dass das Modell dieses Wissen unangemessen in unzusammenhängenden Kontexten anwendet. Um dieses Phänomen systematisch zu untersuchen, führen wir „Outlandish“ ein, einen sorgfältig kuratierten Datensatz von 1320 diversen Textproben, der darauf abzielt, zu untersuchen, wie neues Wissen durch die bestehende Wissensbasis eines LLMs diffundiert. Mit diesem Datensatz zeigen wir, dass das Ausmaß des Primings nach dem Lernen neuer Informationen vorhergesagt werden kann, indem die Token-Wahrscheinlichkeit von Schlüsselwörtern vor dem Lernen gemessen wird. Diese Beziehung bleibt robust über verschiedene Modellarchitekturen (PALM-2, Gemma, Llama), Größen und Trainingsstadien hinweg. Schließlich entwickeln wir zwei neuartige Techniken, um zu modulieren, wie neues Wissen das bestehende Modellverhalten beeinflusst: (1) eine „Stepping-Stone“-Textaugmentierungsstrategie und (2) eine „Ignore-k“-Update-Pruning-Methode. Diese Ansätze reduzieren unerwünschte Priming-Effekte um 50-95 %, während die Fähigkeit des Modells, neue Informationen zu lernen, erhalten bleibt. Unsere Erkenntnisse bieten sowohl empirische Einblicke in das Lernen von LLMs als auch praktische Werkzeuge zur Verbesserung der Spezifität der Wissenseinfügung in Sprachmodelle. Weitere Materialien: https://sunchipsster1.github.io/projects/outlandish/

EmoAgent: Bewertung und Sicherung der Mensch-KI-Interaktion für die psychische Gesundheitssicherheit
EmoAgent: Assessing and Safeguarding Human-AI Interaction for Mental Health Safety

Apr 13

ByJiahao Qiu, Yinghui He, Xinzhe Juan, Yiming Wang, Yuhan Liu, Zixin Yao, Yue Wu, Xun Jiang, Ling Yang, Mengdi Wang

Der Aufstieg von KI-Charakteren, die durch große Sprachmodelle (LLMs) angetrieben werden, wirft Sicherheitsbedenken auf, insbesondere für vulnerable menschliche Nutzer mit psychischen Störungen. Um diese Risiken zu adressieren, schlagen wir EmoAgent vor, ein Multi-Agenten-KI-Framework, das entwickelt wurde, um psychische Gesundheitsgefahren in Mensch-KI-Interaktionen zu bewerten und zu mindern. EmoAgent besteht aus zwei Komponenten: EmoEval simuliert virtuelle Nutzer, einschließlich solcher, die psychisch vulnerable Personen darstellen, um Veränderungen der psychischen Gesundheit vor und nach Interaktionen mit KI-Charakteren zu bewerten. Es verwendet klinisch bewährte psychologische und psychiatrische Bewertungswerkzeuge (PHQ-9, PDI, PANSS), um mentale Risiken zu evaluieren, die durch LLMs induziert werden. EmoGuard fungiert als Vermittler, überwacht den mentalen Status der Nutzer, sagt potenzielle Schäden voraus und bietet korrektives Feedback, um Risiken zu mindern. Experimente, die in beliebten charakterbasierten Chatbots durchgeführt wurden, zeigen, dass emotional ansprechende Dialoge bei vulnerablen Nutzern zu einer psychischen Verschlechterung führen können, wobei in mehr als 34,4 % der Simulationen eine Verschlechterung des mentalen Zustands festgestellt wurde. EmoGuard reduziert diese Verschlechterungsraten signifikant, was seine Rolle bei der Sicherstellung sicherer KI-Mensch-Interaktionen unterstreicht. Unser Code ist verfügbar unter: https://github.com/1akaman/EmoAgent.

3D CoCa: Kontrastive Lernmodelle als 3D-Beschreiber
3D CoCa: Contrastive Learners are 3D Captioners

Apr 13

ByTing Huang, Zeyu Zhang, Yemin Wang, Hao Tang

Die 3D-Beschriftung, die darauf abzielt, den Inhalt von 3D-Szenen in natürlicher Sprache zu beschreiben, bleibt aufgrund der inhärenten Sparsität von Punktwolken und der schwachen cross-modalen Ausrichtung in bestehenden Methoden äußerst herausfordernd. Um diese Herausforderungen zu bewältigen, schlagen wir 3D CoCa vor, ein neuartiges, einheitliches Framework, das kontrastives Vision-Sprache-Lernen nahtlos mit der Generierung von 3D-Beschriftungen in einer einzigen Architektur kombiniert. Unser Ansatz nutzt ein eingefrorenes CLIP Vision-Sprache-Backbone, um reichhaltige semantische Prioritäten bereitzustellen, einen räumlich bewussten 3D-Szenen-Encoder, um geometrische Kontexte zu erfassen, und einen multimodalen Decoder, um beschreibende Texte zu generieren. Im Gegensatz zu früheren zweistufigen Methoden, die auf expliziten Objektvorschlägen basieren, optimiert 3D CoCa kontrastive und beschriftungsbezogene Ziele gemeinsam in einem gemeinsamen Merkmalsraum, wodurch der Bedarf an externen Detektoren oder handgefertigten Vorschlägen entfällt. Dieses gemeinsame Trainingsparadigma führt zu einer stärkeren räumlichen Argumentation und einer reicheren semantischen Verankerung, indem 3D- und textuelle Repräsentationen ausgerichtet werden. Umfangreiche Experimente auf den Benchmarks ScanRefer und Nr3D zeigen, dass 3D CoCa die aktuellen State-of-the-Art-Methoden bei 0,5IoU signifikant um 10,2 % bzw. 5,76 % im CIDEr-Maß übertrifft. Der Code wird unter https://github.com/AIGeeksGroup/3DCoCa verfügbar sein.

LLM können gefährliche Überzeuger sein: Empirische Studie zur Überzeugungssicherheit in großen Sprachmodellen
LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models

Apr 14

ByMinqian Liu, Zhiyang Xu, Xinyi Zhang, Heajun An, Sarvech Qadir, Qi Zhang, Pamela J. Wisniewski, Jin-Hee Cho, Sang Won Lee, Ruoxi Jia, Lifu Huang

Jüngste Fortschritte bei Large Language Models (LLMs) haben es ihnen ermöglicht, menschenähnliche Überzeugungsfähigkeiten zu erreichen. Dieses Potenzial wirft jedoch auch Bedenken hinsichtlich der Sicherheitsrisiken von LLM-gesteuerter Überzeugung auf, insbesondere ihre Fähigkeit zu unethischem Einfluss durch Manipulation, Täuschung, Ausnutzung von Schwachstellen und vielen anderen schädlichen Taktiken. In dieser Arbeit präsentieren wir eine systematische Untersuchung der Sicherheit von LLM-Überzeugung anhand zweier kritischer Aspekte: (1) ob LLMs unethische Überzeugungsaufgaben angemessen ablehnen und unethische Strategien während der Ausführung vermeiden, einschließlich Fällen, in denen das ursprüngliche Überzeugungsziel ethisch neutral erscheint, und (2) wie Einflussfaktoren wie Persönlichkeitsmerkmale und externer Druck ihr Verhalten beeinflussen. Zu diesem Zweck führen wir PersuSafety ein, den ersten umfassenden Rahmen zur Bewertung der Überzeugungssicherheit, der aus drei Phasen besteht: Erstellung von Überzeugungsszenarien, Simulation überzeugender Gespräche und Bewertung der Überzeugungssicherheit. PersuSafety deckt 6 verschiedene unethische Überzeugungsthemen und 15 gängige unethische Strategien ab. Durch umfangreiche Experimente mit 8 weit verbreiteten LLMs beobachten wir erhebliche Sicherheitsbedenken bei den meisten LLMs, einschließlich des Versagens, schädliche Überzeugungsaufgaben zu erkennen, und der Nutzung verschiedener unethischer Überzeugungsstrategien. Unsere Studie fordert mehr Aufmerksamkeit für die Verbesserung der Sicherheitsausrichtung in fortschrittlichen und zielgerichteten Gesprächen wie Überzeugungsversuchen.

DeepSeek vs. o3-mini: Wie gut können Reasoning-LLMs maschinelle Übersetzung und Zusammenfassung bewerten?
DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?

Apr 10

ByDaniil Larionov, Sotaro Takeshita, Ran Zhang, Yanran Chen, Christoph Leiter, Zhipin Wang, Christian Greisinger, Steffen Eger

Vernunftfähige große Sprachmodelle (LLMs) haben kürzlich beeindruckende Leistungen bei komplexen logischen und mathematischen Aufgaben gezeigt, doch ihre Effektivität bei der Bewertung der natürlichen Sprachgenerierung bleibt unerforscht. Diese Studie vergleicht systematisch vernunftbasierte LLMs (DeepSeek-R1 und OpenAI o3) mit ihren nicht-vernunftfähigen Gegenstücken in den Aufgaben der maschinellen Übersetzung (MT) und Textzusammenfassung (TS). Wir bewerten acht Modelle aus drei architektonischen Kategorien, darunter state-of-the-art Vernunftmodelle, ihre destillierten Varianten (mit Parametern zwischen 8B und 70B) und äquivalente konventionelle, nicht-vernunftfähige LLMs. Unsere Experimente auf den Benchmarks WMT23 und SummEval zeigen, dass die Vorteile von Vernunftfähigkeiten stark modell- und aufgabenabhängig sind: Während OpenAI o3-mini-Modelle konsistente Leistungsverbesserungen mit zunehmender Vernunftintensität zeigen, schneidet DeepSeek-R1 im Vergleich zu seiner nicht-vernunftfähigen Variante schlechter ab, mit Ausnahme bestimmter Aspekte der TS-Bewertung. Korrelationsanalysen zeigen, dass eine erhöhte Nutzung von Vernunft-Tokens positiv mit der Bewertungsqualität in o3-mini-Modellen korreliert. Darüber hinaus zeigen unsere Ergebnisse, dass die Destillation von Vernunftfähigkeiten in mittelgroßen Modellen (32B) eine angemessene Leistung beibehält, in kleineren Varianten (8B) jedoch erheblich abnimmt. Diese Arbeit bietet die erste umfassende Bewertung von vernunftfähigen LLMs für die NLG-Bewertung und liefert Einblicke in ihre praktische Anwendung.

MDK12-Bench: Ein multidisziplinärer Benchmark zur Bewertung des Denkvermögens in multimodalen großen Sprachmodellen
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models

Apr 8

ByPengfei Zhou, Fanrui Zhang, Xiaopeng Peng, Zhaopan Xu, Jiaxin Ai, Yansheng Qiu, Chuanhao Li, Zhen Li, Ming Li, Yukang Feng, Jianwen Sun, Haoquan Zhang, Zizhen Li, Xiaofeng Mao, Wangbo Zhao, Kai Wang, Xiaojun Chang, Wenqi Shao, Yang You, Kaipeng Zhang

Multimodales Denken, das Sprache und visuelle Hinweise in Problemlösung und Entscheidungsfindung integriert, ist ein grundlegender Aspekt der menschlichen Intelligenz und ein entscheidender Schritt hin zu künstlicher allgemeiner Intelligenz. Die Bewertung der Fähigkeiten des multimodalen Denkens in Multimodalen Großen Sprachmodellen (MLLMs) bleibt jedoch unzureichend. Die meisten bestehenden Denkbenchmarks sind durch begrenzte Datenmengen, enge Domänenabdeckung und unstrukturierte Wissensverteilung eingeschränkt. Um diese Lücken zu schließen, führen wir MDK12-Bench ein, einen multidisziplinären Benchmark, der die Denkfähigkeiten von MLLMs anhand realer K-12-Prüfungen bewertet. Unser Benchmark umfasst sechs Disziplinen (Mathematik, Physik, Chemie, Biologie, Geographie und Informatik) und besteht aus 140.000 Denkinstanzen über verschiedene Schwierigkeitsgrade von der Grundschule bis zur 12. Klasse. Er bietet 6.827 Instanz-basierte Wissenspunkt-Annotationen basierend auf einer gut organisierten Wissensstruktur, detaillierte Antwortenklärungen, Schwierigkeitslabels und jahrgangsübergreifende Partitionen, was eine robuste Plattform für eine umfassende Bewertung bietet. Zusätzlich stellen wir ein neuartiges dynamisches Bewertungsframework vor, um Datenkontaminationsprobleme zu mindern, indem Frageformate, Fragetypen und Bildstile während der Bewertung gebootstrappt werden. Umfangreiche Experimente auf MDK12-Bench offenbaren die erheblichen Einschränkungen aktueller MLLMs im multimodalen Denken. Die Erkenntnisse aus unserem Benchmark liefern Einblicke in die Entwicklung der nächsten Modellgeneration. Unsere Daten und Codes sind verfügbar unter https://github.com/LanceZPF/MDK12.

MCP-Sicherheitsaudit: LLMs mit dem Model Context Protocol ermöglichen schwerwiegende Sicherheitslücken
MCP Safety Audit: LLMs with the Model Context Protocol Allow Major Security Exploits

Apr 2

ByBrandon Radosevich, John Halloran

Um den Entwicklungsaufwand zu reduzieren und eine nahtlose Integration zwischen potenziellen Komponenten, die eine generative KI-Anwendung ausmachen, zu ermöglichen, wurde kürzlich das Model Context Protocol (MCP) (Anthropic, 2024) veröffentlicht und anschließend weit verbreitet übernommen. Das MCP ist ein offenes Protokoll, das API-Aufrufe an große Sprachmodelle (LLMs), Datenquellen und agentenbasierte Werkzeuge standardisiert. Durch die Verbindung mehrerer MCP-Server, die jeweils mit einer Reihe von Werkzeugen, Ressourcen und Prompts definiert sind, können Benutzer automatisierte Workflows erstellen, die vollständig von LLMs gesteuert werden. Wir zeigen jedoch, dass das aktuelle MCP-Design eine Vielzahl von Sicherheitsrisiken für Endbenutzer birgt. Insbesondere demonstrieren wir, dass führende LLMs in der Branche dazu verleitet werden können, MCP-Werkzeuge zu nutzen, um das System eines KI-Entwicklers durch verschiedene Angriffe zu kompromittieren, wie z. B. die Ausführung von bösartigem Code, die Fernsteuerung des Zugriffs und den Diebstahl von Zugangsdaten. Um diese und verwandte Angriffe proaktiv zu mindern, stellen wir ein Sicherheitsprüfwerkzeug vor, den MCPSafetyScanner, das erste agentenbasierte Werkzeug zur Bewertung der Sicherheit eines beliebigen MCP-Servers. MCPScanner verwendet mehrere Agenten, um (a) automatisch adversarische Beispiele basierend auf den Werkzeugen und Ressourcen eines MCP-Servers zu bestimmen; (b) verwandte Schwachstellen und Abhilfemaßnahmen basierend auf diesen Beispielen zu suchen; und (c) einen Sicherheitsbericht zu erstellen, der alle Ergebnisse detailliert. Unsere Arbeit beleuchtet ernsthafte Sicherheitsprobleme bei allgemeinen agentenbasierten Workflows und bietet gleichzeitig ein proaktives Werkzeug, um die Sicherheit von MCP-Servern zu prüfen und erkannte Schwachstellen vor der Bereitstellung zu beheben. Der beschriebene MCP-Server-Prüfwerkzeug, MCPSafetyScanner, ist frei verfügbar unter: https://github.com/johnhalloran321/mcpSafetyScanner

DiffuMural: Restaurierung von Dunhuang-Wandmalereien mit Multi-Scale-Diffusion
DiffuMural: Restoring Dunhuang Murals with Multi-scale Diffusion

Apr 13

ByPuyu Han, Jiaju Kang, Yuhang Pan, Erting Pan, Zeyu Zhang, Qunchao Jin, Juntao Jiang, Zhichen Liu, Luqi Gong

Große, vortrainierte Diffusionsmodelle haben hervorragende Ergebnisse im Bereich der bedingten Bildgenerierung erzielt. Die Restaurierung antiker Wandmalereien stellt jedoch als wichtige nachgelagerte Aufgabe in diesem Bereich erhebliche Herausforderungen für diffusionsbasierte Restaurierungsmethoden dar, insbesondere aufgrund der großen beschädigten Flächen und der knappen Trainingsdaten. Bei bedingten Restaurierungsaufgaben liegt der Fokus stärker darauf, ob die restaurierten Teile die ästhetischen Standards der Wandmalereirestaurierung in Bezug auf den Gesamtstil und die Nahtdetails erfüllen. Solche Metriken zur Bewertung heuristischer Bildergänzungen fehlen in der aktuellen Forschung. Daher schlagen wir DiffuMural vor, eine Kombination aus Multi-Skalen-Konvergenz und kollaborativem Diffusionsmechanismus mit ControlNet und zyklischem Konsistenzverlust, um die Übereinstimmung zwischen den generierten Bildern und der bedingten Steuerung zu optimieren. DiffuMural zeigt herausragende Fähigkeiten bei der Restaurierung von Wandmalereien und nutzt Trainingsdaten von 23 großformatigen Dunhuang-Wandmalereien, die eine konsistente visuelle Ästhetik aufweisen. Das Modell überzeugt bei der Wiederherstellung komplexer Details, erreicht ein kohärentes Gesamtbild und bewältigt die besonderen Herausforderungen, die durch unvollständige Wandmalereien ohne faktische Grundlage entstehen. Unser Bewertungsrahmen umfasst vier Schlüsselmetriken zur quantitativen Bewertung unvollständiger Wandmalereien: faktische Genauigkeit, texturale Details, kontextuelle Semantik und ganzheitliche visuelle Kohärenz. Darüber hinaus integrieren wir humanistische Wertbewertungen, um sicherzustellen, dass die restaurierten Wandmalereien ihren kulturellen und künstlerischen Wert behalten. Umfangreiche Experimente bestätigen, dass unsere Methode sowohl in qualitativen als auch in quantitativen Metriken den State-of-the-Art (SOTA)-Ansätzen überlegen ist.