HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

17 papers found

VisuLogic: Ein Benchmark zur Bewertung visuellen Denkens in multimodalen großen Sprachmodellen
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

Apr 21

ByWeiye Xu, Jiahao Wang, Weiyun Wang, Zhe Chen, Wengang Zhou, Aijun Yang, Lewei Lu, Houqiang Li, Xiaohua Wang, Xizhou Zhu, Wenhai Wang, Jifeng Dai, Jinguo Zhu

Visuelles Denken ist eine Kernkomponente der menschlichen Intelligenz und eine entscheidende Fähigkeit für fortgeschrittene multimodale Modelle. Dennoch stützen sich aktuelle Bewertungen des Denkvermögens multimodaler großer Sprachmodelle (MLLMs) oft auf Textbeschreibungen und ermöglichen sprachbasierte Denkabkürzungen, wodurch sie echtes, visuell zentriertes Denken nicht erfassen. Um dies zu beheben, führen wir VisuLogic ein: einen Benchmark mit 1.000 von Menschen verifizierten Problemen aus sechs Kategorien (z. B. quantitative Verschiebungen, räumliche Beziehungen, Attributvergleiche). Diese verschiedenen Fragetypen ermöglichen es, die visuellen Denkfähigkeiten von MLLMs aus mehreren Perspektiven zu bewerten. Wir evaluieren führende MLLMs anhand dieses Benchmarks und analysieren ihre Ergebnisse, um häufige Fehlermuster zu identifizieren. Die meisten Modelle erreichen eine Genauigkeit von unter 30 % – nur knapp über der zufälligen Basisrate von 25 % und weit unter den 51,4 %, die Menschen erreichen – was erhebliche Lücken im visuellen Denken offenbart. Darüber hinaus stellen wir einen ergänzenden Trainingsdatensatz und eine Reinforcement-Learning-Baseline bereit, um weiteren Fortschritt zu unterstützen.

Tina: Kleine Reasoning-Modelle mittels LoRA
Tina: Tiny Reasoning Models via LoRA

Apr 22

ByShangshang Wang, Julian Asilis, Ömer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Willie Neiswanger

Wie kosteneffizient können starke Fähigkeiten zum logischen Denken in Sprachmodellen erreicht werden? Angetrieben von dieser grundlegenden Frage präsentieren wir Tina, eine Familie von kleinen Denkmodellen, die mit hoher Kosteneffizienz erreicht werden. Bemerkenswerterweise zeigt Tina, dass erhebliche Denkleistungen mit minimalen Ressourcen entwickelt werden können, indem parameter-effiziente Aktualisierungen während des Reinforcement Learning (RL) unter Verwendung von Low-Rank Adaptation (LoRA) auf ein bereits kleines Basismodell mit 1,5 Milliarden Parametern angewendet werden. Dieser minimalistische Ansatz erzeugt Modelle, deren Denkleistung mit den auf demselben Basismodell aufgebauten SOTA-RL-Denkmodellen konkurrieren und diese manchmal sogar übertreffen kann. Entscheidend ist, dass dies zu einem winzigen Bruchteil der rechnerischen Nachschulungskosten erreicht wird, die von bestehenden SOTA-Modellen verwendet werden. Tatsächlich erreicht das beste Tina-Modell eine Steigerung der Denkleistung um >20 % und eine Pass@1-Genauigkeit von 43,33 % auf AIME24 bei nur 9 USD Nachschulungs- und Evaluierungskosten (d. h. eine geschätzte Kostenreduktion um das 260-fache). Unsere Arbeit zeigt die überraschende Effektivität von effizientem RL-Denken durch LoRA. Wir validieren dies über mehrere Open-Source-Denkdatensätze und verschiedene Ablationsszenarien, ausgehend von einem einzigen, festen Satz von Hyperparametern. Darüber hinaus stellen wir die Hypothese auf, dass diese Effektivität und Effizienz darauf zurückzuführen sind, dass LoRA das Modell schnell an das strukturelle Format des durch RL belohnten Denkens anpasst, während das zugrunde liegende Wissen des Basismodells weitgehend erhalten bleibt. Im Dienst der Zugänglichkeit und offenen Forschung stellen wir den gesamten Code, Trainingsprotokolle und Modellgewichte & Checkpoints vollständig Open Source.

DreamID: Hochwertiger und schneller Gesichtstausch auf Diffusionsbasis durch Triplet-ID-Gruppenlernen
DreamID: High-Fidelity and Fast diffusion-based Face Swapping via Triplet ID Group Learning

Apr 20

ByFulong Ye, Miao Hua, Pengze Zhang, Xinghui Li, Qichao Sun, Songtao Zhao, Qian He, Xinglong Wu

In diesem Artikel stellen wir DreamID vor, ein diffusionsbasiertes Gesichtstauschmodell, das ein hohes Maß an ID-Ähnlichkeit, Attributerhaltung, Bildtreue und schneller Inferenzgeschwindigkeit erreicht. Im Gegensatz zum typischen Trainingsprozess für Gesichtstausch, der oft auf impliziter Überwachung beruht und Schwierigkeiten hat, zufriedenstellende Ergebnisse zu erzielen, etabliert DreamID eine explizite Überwachung für den Gesichtstausch durch die Konstruktion von Triplet-ID-Gruppen-Daten, was die Identitätsähnlichkeit und Attributerhaltung erheblich verbessert. Die iterative Natur von Diffusionsmodellen stellt Herausforderungen für die Nutzung effizienter Bildraum-Verlustfunktionen dar, da es unpraktisch ist, zeitaufwändige Mehrschritt-Sampling-Verfahren während des Trainings durchzuführen, um das generierte Bild zu erhalten. Um dieses Problem zu lösen, nutzen wir das beschleunigte Diffusionsmodell SD Turbo, das die Inferenzschritte auf eine einzige Iteration reduziert und so ein effizientes pixelbasiertes End-to-End-Training mit expliziter Triplet-ID-Gruppen-Überwachung ermöglicht. Zusätzlich schlagen wir eine verbesserte diffusionsbasierte Modellarchitektur vor, die aus SwapNet, FaceNet und ID Adapter besteht. Diese robuste Architektur entfaltet das volle Potenzial der expliziten Triplet-ID-Gruppen-Überwachung. Schließlich erweitern wir unsere Methode, indem wir die Triplet-ID-Gruppen-Daten während des Trainings explizit modifizieren, um spezifische Attribute wie Brillen und Gesichtsform zu feinabstimmen und zu erhalten. Umfangreiche Experimente zeigen, dass DreamID state-of-the-art-Methoden in Bezug auf Identitätsähnlichkeit, Pose- und Ausdruckserhaltung sowie Bildtreue übertrifft. Insgesamt erzielt DreamID hochwertige Gesichtstauschergebnisse bei einer Auflösung von 512*512 in nur 0,6 Sekunden und schneidet in anspruchsvollen Szenarien wie komplexer Beleuchtung, großen Winkeln und Verdeckungen besonders gut ab.

Technischer Bericht zu Trillion 7B
Trillion 7B Technical Report

Apr 21

BySungjun Han, Juyoung Suk, Suyeong An, Hyungguk Kim, Kyuseok Kim, Wonsuk Yang, Seungtaek Choi, Jamin Shin

Wir stellen Trillion-7B vor, das token-effizienteste Koreanisch-zentrierte mehrsprachige LLM, das derzeit verfügbar ist. Unser neuartiger Cross-lingual Document Attention (XLDA)-Mechanismus ermöglicht einen hocheffizienten und effektiven Wissenstransfer vom Englischen in Zielsprachen wie Koreanisch und Japanisch. In Kombination mit optimierten Datenmischungen, sprachspezifischer Filterung und maßgeschneiderter Tokenizer-Konstruktion erreicht Trillion-7B eine wettbewerbsfähige Leistung, wobei nur 10\% seiner 2T Trainings-Token für mehrsprachige Daten verwendet werden und lediglich 59,4K H100 GPU-Stunden (\$148K) für das vollständige Training erforderlich sind. Umfassende Bewertungen über 27 Benchmarks in vier Sprachen demonstrieren die robuste mehrsprachige Leistung und die außergewöhnliche cross-linguale Konsistenz von Trillion-7B.

PHYBench: Ganzheitliche Bewertung der physikalischen Wahrnehmung und des logischen Denkens in großen Sprachmodellen
PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models

Apr 22

ByShi Qiu, Shaoyang Guo, Zhuo-Yang Song, Yunbo Sun, Zeyu Cai, Jiashen Wei, Tianyu Luo, Yixuan Yin, Haoxu Zhang, Yi Hu, Chenyang Wang, Chencheng Tang, Haoling Chang, Qi Liu, Ziheng Zhou, Tianyu Zhang, Jingtian Zhang, Zhangyi Liu, Minghao Li, Yuku Zhang, Boxuan Jing, Xianqi Yin, Yutong Ren, Zizhuo Fu, Weike Wang, Xudong Tian, Anqi Lv, Laifu Man, Jianxiang Li, Feiyu Tao, Qihua Sun, Zhou Liang, Yushu Mu, Zhongxuan Li, Jing-Jun Zhang, Shutao Zhang, Xiaotian Li, Xingqi Xia, Jiawei Lin, Zheyu Shen, Jiahang Chen, Qiuhao Xiong, Binran Wang, Fengyuan Wang, Ziyang Ni, Bohan Zhang, Fan Cui, Changkun Shao, Qing-Hong Cao, Ming-xing Luo, Muhan Zhang, Hua Xing Zhu

Wir stellen PHYBench vor, einen neuartigen, hochwertigen Benchmark, der entwickelt wurde, um die Fähigkeiten großer Sprachmodelle (LLMs) in physikalischen Kontexten zu bewerten. PHYBench besteht aus 500 sorgfältig kuratierten Physikproblemen, die auf realen physikalischen Szenarien basieren und darauf abzielen, die Fähigkeit der Modelle zu bewerten, realistische physikalische Prozesse zu verstehen und darüber zu schlussfolgern. Der Benchmark deckt Mechanik, Elektromagnetismus, Thermodynamik, Optik, moderne Physik und fortgeschrittene Physik ab und umfasst Schwierigkeitsgrade von Schulübungen über universitäre Probleme bis hin zu Herausforderungen der Physik-Olympiade. Zusätzlich schlagen wir den Expression Edit Distance (EED) Score vor, eine neuartige Bewertungsmetrik, die auf der Editierdistanz zwischen mathematischen Ausdrücken basiert und effektiv Unterschiede in den Modellschlussfolgerungsprozessen und -ergebnissen erfasst, die über traditionelle binäre Bewertungsmethoden hinausgehen. Wir bewerten verschiedene LLMs auf PHYBench und vergleichen ihre Leistung mit der von menschlichen Experten. Unsere Ergebnisse zeigen, dass selbst die fortschrittlichsten Reasoning-Modelle deutlich hinter menschlichen Experten zurückbleiben, was ihre Grenzen und den Verbesserungsbedarf in komplexen physikalischen Reasoning-Szenarien verdeutlicht. Unsere Benchmark-Ergebnisse und Datensätze sind öffentlich unter https://phybench-official.github.io/phybench-demo/ verfügbar.

I-Con: Ein einheitliches Framework für Representation Learning
I-Con: A Unifying Framework for Representation Learning

Apr 23

ByShaden Alshammari, John Hershey, Axel Feldmann, William T. Freeman, Mark Hamilton

Mit dem Wachstum des Feldes der Repräsentationslernens hat es eine Vielzahl unterschiedlicher Verlustfunktionen gegeben, um verschiedene Problemklassen zu lösen. Wir stellen eine einzige informationstheoretische Gleichung vor, die eine große Sammlung moderner Verlustfunktionen im maschinellen Lernen verallgemeinert. Insbesondere führen wir ein Framework ein, das zeigt, dass mehrere breite Klassen von Methoden des maschinellen Lernens genau eine integrierte KL-Divergenz zwischen zwei bedingten Verteilungen minimieren: den überwachten und den gelernten Repräsentationen. Diese Sichtweise legt eine verborgene Informationsgeometrie zugrunde, die Clustering, spektrale Methoden, Dimensionsreduktion, kontrastives Lernen und überwachtes Lernen umfasst. Dieses Framework ermöglicht die Entwicklung neuer Verlustfunktionen durch die Kombination erfolgreicher Techniken aus der Literatur. Wir präsentieren nicht nur eine Vielzahl von Beweisen, die über 23 verschiedene Ansätze verbinden, sondern nutzen diese theoretischen Ergebnisse auch, um state-of-the-art unüberwachte Bildklassifikatoren zu erstellen, die eine Verbesserung von +8 % gegenüber dem bisherigen Stand der Technik bei der unüberwachten Klassifikation auf ImageNet-1K erreichen. Wir zeigen auch, dass I-Con verwendet werden kann, um prinzipielle Debias-Methoden abzuleiten, die kontrastive Repräsentationslerner verbessern.

AIMO-2-Gewinnerlösung: Entwicklung von State-of-the-Art-Modellen für mathematisches Denken mit dem OpenMathReasoning-Datensatz
AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset

Apr 23

ByIvan Moshkov, Darragh Hanley, Ivan Sorokin, Shubham Toshniwal, Christof Henkel, Benedikt Schifferer, Wei Du, Igor Gitman

Dieses Papier präsentiert unseren siegreichen Beitrag zum AI Mathematical Olympiad - Progress Prize 2 (AIMO-2) Wettbewerb. Unser Ansatz zur Entwicklung von State-of-the-Art-Modellen für mathematisches Denken basiert auf drei zentralen Säulen. Erstens erstellen wir einen umfangreichen Datensatz, der 540K einzigartige, hochwertige mathematische Probleme, einschließlich Olympiade-Problemen, und ihre 3,2M langen Lösungswege umfasst. Zweitens entwickeln wir eine neuartige Methode, um Code-Ausführung mit Modellen für lange Lösungswege durch iteratives Training, Generierung und Qualitätsfilterung zu integrieren, was zu 1,7M hochwertigen Tool-Integrated Reasoning-Lösungen führt. Drittens erstellen wir eine Pipeline, um Modelle so zu trainieren, dass sie die vielversprechendste Lösung aus vielen Kandidaten auswählen. Wir zeigen, dass eine solche generative Lösungsauswahl (GenSelect) den Baseline-Ansatz der Mehrheitsentscheidung signifikant verbessern kann. Durch die Kombination dieser Ideen trainieren wir eine Reihe von Modellen, die State-of-the-Art-Ergebnisse auf Benchmarks für mathematisches Denken erzielen. Um die weitere Forschung zu fördern, veröffentlichen wir unseren Code, die Modelle und den vollständigen OpenMathReasoning-Datensatz unter einer kommerziell freizügigen Lizenz.

DreamO: Ein einheitliches Framework für die Bildanpassung
DreamO: A Unified Framework for Image Customization

Apr 23

ByChong Mou, Yanze Wu, Wenxu Wu, Zinan Guo, Pengze Zhang, Yufeng Cheng, Yiming Luo, Fei Ding, Shiwen Zhang, Xinghui Li, Mengtian Li, Songtao Zhao, Jian Zhang, Qian He, Xinglong Wu

In jüngster Zeit zeigt umfangreiche Forschung zur Bildanpassung (z. B. Identität, Motiv, Stil, Hintergrund usw.) starke Anpassungsfähigkeiten in großskaligen generativen Modellen. Die meisten Ansätze sind jedoch für spezifische Aufgaben konzipiert, was ihre Generalisierbarkeit zur Kombination verschiedener Arten von Bedingungen einschränkt. Die Entwicklung eines einheitlichen Frameworks für die Bildanpassung bleibt eine offene Herausforderung. In diesem Artikel stellen wir DreamO vor, ein Framework zur Bildanpassung, das darauf ausgelegt ist, eine breite Palette von Aufgaben zu unterstützen und gleichzeitig die nahtlose Integration mehrerer Bedingungen zu ermöglichen. Insbesondere nutzt DreamO ein Diffusion-Transformer (DiT)-Framework, um Eingaben verschiedener Typen einheitlich zu verarbeiten. Während des Trainings erstellen wir einen großskaligen Trainingsdatensatz, der verschiedene Anpassungsaufgaben umfasst, und führen eine Feature-Routing-Einschränkung ein, um die präzise Abfrage relevanter Informationen aus Referenzbildern zu erleichtern. Zusätzlich entwerfen wir eine Platzhalterstrategie, die spezifische Platzhalter mit Bedingungen an bestimmten Positionen verknüpft, wodurch die Platzierung von Bedingungen in den generierten Ergebnissen gesteuert werden kann. Darüber hinaus verwenden wir eine progressive Trainingsstrategie, die aus drei Phasen besteht: einer Anfangsphase, die sich auf einfache Aufgaben mit begrenzten Daten konzentriert, um eine grundlegende Konsistenz zu schaffen, einer umfassenden Trainingsphase, um die Anpassungsfähigkeiten vollständig zu verbessern, und einer abschließenden Qualitätsausrichtungsphase, um Qualitätsverzerrungen zu korrigieren, die durch Daten von geringer Qualität eingeführt wurden. Umfangreiche Experimente zeigen, dass das vorgeschlagene DreamO effektiv verschiedene Bildanpassungsaufgaben in hoher Qualität ausführen und flexibel unterschiedliche Arten von Steuerungsbedingungen integrieren kann.

Pre-DPO: Verbesserung der Datennutzung in der direkten Präferenzoptimierung durch ein leitendes Referenzmodell
Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model

Apr 22

ByJunshu Pan, Wei Shen, Shulin Huang, Qiji Zhou, Yue Zhang

Direct Preference Optimization (DPO) vereinfacht das Reinforcement Learning aus menschlichem Feedback (RLHF) für große Sprachmodelle (LLMs), indem es menschliche Präferenzen direkt optimiert, ohne ein explizites Belohnungsmodell zu verwenden. Wir stellen fest, dass das Referenzmodell während des DPO-Trainings die Rolle eines Datengewichtsanpassers einnimmt. Die gängige Praxis, das Policy-Modell und das Referenzmodell in DPO identisch zu initialisieren, kann jedoch zu ineffizienter Datennutzung führen und eine Leistungsgrenze auferlegen. Gleichzeitig reduziert das Fehlen eines Referenzmodells in Simple Preference Optimization (SimPO) die Robustheit des Trainings und erfordert strengere Bedingungen, um katastrophales Vergessen zu verhindern. In dieser Arbeit schlagen wir Pre-DPO vor, ein einfaches, aber effektives, auf DPO basierendes Trainingsparadigma, das die Leistung der Präferenzoptimierung verbessert, indem es ein leitendes Referenzmodell nutzt. Dieses Referenzmodell bietet einen Einblick in den optimalen Policy-Zustand, der durch die Trainingspräferenzdaten erreicht werden kann, und dient als Leitmechanismus, der adaptiv höhere Gewichte für für das Modell geeignetere Proben und niedrigere Gewichte für weniger geeignete Proben zuweist. Umfangreiche Experimente auf den Benchmarks AlpacaEval 2.0 und Arena-Hard v0.1 zeigen, dass Pre-DPO die Leistung von sowohl DPO als auch SimPO konsequent verbessert, ohne auf externe Modelle oder zusätzliche Daten angewiesen zu sein.

Entkoppelte Global-Lokale Ausrichtung zur Verbesserung des kompositionellen Verständnisses
Decoupled Global-Local Alignment for Improving Compositional Understanding

Apr 23

ByXiaoxing Hu, Kaicheng Yang, Jun Wang, Haoran Xu, Ziyong Feng, Yupei Wang

Contrastive Language-Image Pre-training (CLIP) hat Erfolge bei mehreren Downstream-Aufgaben erzielt, indem es Bild- und Textmodalitäten ausgerichtet hat. Die Natur des globalen kontrastiven Lernens begrenzt jedoch CLIPs Fähigkeit, kompositionelle Konzepte wie Beziehungen und Attribute zu verstehen. Obwohl aktuelle Studien globale harte negative Beispiele verwenden, um das kompositionelle Verständnis zu verbessern, beeinträchtigen diese Methoden die inhärenten allgemeinen Fähigkeiten des Modells erheblich, indem sie textuelle negative Beispiele zwangsweise von Bildern im Einbettungsraum entfernen. Um diese Einschränkung zu überwinden, führen wir ein Decoupled Global-Local Alignment (DeGLA)-Framework ein, das das kompositionelle Verständnis verbessert und gleichzeitig Verluste bei den allgemeinen Fähigkeiten erheblich reduziert. Um die Beibehaltung der inhärenten Fähigkeiten des Modells zu optimieren, integrieren wir einen Selbst-Distillationsmechanismus in den globalen Ausrichtungsprozess, der den lernbaren Bild-Text-Encoder mit einem eingefrorenen Lehrermodell aus einem exponentiellen gleitenden Durchschnitt ausrichtet. Unter der Beschränkung der Selbst-Distillation mildert es effektiv das katastrophale Vergessen von vortrainiertem Wissen während des Feinabstimmens. Um das kompositionelle Verständnis zu verbessern, nutzen wir zunächst die In-Context-Lernfähigkeit von Large Language Models (LLMs), um etwa 2M hochwertige negative Bildunterschriften über fünf Typen hinweg zu konstruieren. Anschließend schlagen wir den Image-Grounded Contrast (IGC)-Verlust und den Text-Grounded Contrast (TGC)-Verlust vor, um die Vision-Sprache-Kompositionalität zu verbessern. Umfangreiche experimentelle Ergebnisse demonstrieren die Wirksamkeit des DeGLA-Frameworks. Im Vergleich zu früheren State-of-the-Art-Methoden erreicht DeGLA eine durchschnittliche Verbesserung von 3,5 % über die VALSE-, SugarCrepe- und ARO-Benchmarks hinweg. Gleichzeitig erzielt es eine durchschnittliche Leistungssteigerung von 13,0 % bei Zero-Shot-Klassifikationsaufgaben über elf Datensätze hinweg. Unser Code wird unter https://github.com/xiaoxing2001/DeGLA veröffentlicht.

Eine umfassende Untersuchung zur ganzheitlichen Sicherheit von LLM(-Agenten): Daten, Training und Einsatz
A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment

Apr 22

ByKun Wang, Guibin Zhang, Zhenhong Zhou, Jiahao Wu, Miao Yu, Shiqian Zhao, Chenlong Yin, Jinhu Fu, Yibo Yan, Hanjun Luo, Liang Lin, Zhihao Xu, Haolang Lu, Xinye Cao, Xinyun Zhou, Weifei Jin, Fanci Meng, Junyuan Mao, Hao Wu, Minghe Wang, Fan Zhang, Junfeng Fang, Chengwei Liu, Yifan Zhang, Qiankun Li, Chongye Guo, Yalan Qin, Yi Ding, Donghai Hong, Jiaming Ji, Xinfeng Li, Yifan Jiang, Dongxia Wang, Yihao Huang, Yufei Guo, Jen-tse Huang, Yanwei Yue, Wenke Huang, Guancheng Wan, Tianlin Li, Lei Bai, Jie Zhang, Qing Guo, Jingyi Wang, Tianlong Chen, Joey Tianyi Zhou, Xiaojun Jia, Weisong Sun, Cong Wu, Jing Chen, Xuming Hu, Yiming Li, Xiao Wang, Ningyu Zhang, Luu Anh Tuan, Guowen Xu, Tianwei Zhang, Xingjun Ma, Xiang Wang, Bo An, Jun Sun, Mohit Bansal, Shirui Pan, Yuval Elovici, Bhavya Kailkhura, Bo Li, Yaodong Yang, Hongwei Li, Wenyuan Xu, Yizhou Sun, Wei Wang, Qing Li, Ke Tang, Yu-Gang Jiang, Felix Juefei-Xu, Hui Xiong, Xiaofeng Wang, Shuicheng Yan, Dacheng Tao, Philip S. Yu, Qingsong Wen, Yang Liu

Der bemerkenswerte Erfolg von Large Language Models (LLMs) hat einen vielversprechenden Weg zur Erreichung von Künstlicher Allgemeiner Intelligenz sowohl für die akademische als auch die industrielle Gemeinschaft aufgezeigt, dank ihrer beispiellosen Leistung in verschiedenen Anwendungen. Da LLMs sowohl in der Forschung als auch in kommerziellen Bereichen weiter an Bedeutung gewinnen, sind ihre Sicherheits- und Sicherheitsimplikationen zu einer wachsenden Sorge geworden, nicht nur für Forscher und Unternehmen, sondern auch für jede Nation. Derzeit konzentrieren sich bestehende Übersichten zur Sicherheit von LLMs hauptsächlich auf bestimmte Phasen des LLM-Lebenszyklus, z.B. die Bereitstellungsphase oder die Feinabstimmungsphase, und es fehlt ein umfassendes Verständnis des gesamten "Lebenszyklus" von LLMs. Um diese Lücke zu schließen, führt dieses Papier erstmals das Konzept der "Full-Stack"-Sicherheit ein, um Sicherheitsfragen systematisch im gesamten Prozess des Trainings, der Bereitstellung und der letztendlichen Kommerzialisierung von LLMs zu betrachten. Im Vergleich zu den gängigen Übersichten zur LLM-Sicherheit zeigt unsere Arbeit mehrere deutliche Vorteile: (I) Umfassende Perspektive. Wir definieren den vollständigen LLM-Lebenszyklus als die Phasen der Datenvorbereitung, des Vor-Trainings, des Nach-Trainings, der Bereitstellung und der finalen Kommerzialisierung. Unseres Wissens ist dies die erste Sicherheitsübersicht, die den gesamten Lebenszyklus von LLMs abdeckt. (II) Umfangreiche Literaturunterstützung. Unsere Forschung basiert auf einer umfassenden Überprüfung von über 800+ Papieren, was eine umfassende Abdeckung und systematische Organisation von Sicherheitsfragen innerhalb eines ganzheitlicheren Verständnisses gewährleistet. (III) Einzigartige Einblicke. Durch systematische Literaturanalyse haben wir zuverlässige Roadmaps und Perspektiven für jedes Kapitel entwickelt. Unsere Arbeit identifiziert vielversprechende Forschungsrichtungen, darunter Sicherheit in der Datengenerierung, Alignment-Techniken, Modellbearbeitung und LLM-basierte Agentensysteme. Diese Einblicke bieten wertvolle Leitlinien für Forscher, die zukünftige Arbeiten in diesem Bereich verfolgen.

Neubetrachtung der Generierung hochwertiger CoT-Daten aus der Perspektive der LLM-adaptiven Schwierigkeitsgradierung von Fragen
Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading

Apr 16

ByQianjin Yu, Keyu Wu, Zihan Chen, Chushu Zhang, Manlin Mei, Lingjun Huang, Fang Tan, Yongsheng Du, Kunlin Liu, Yurui Zhu

Kürzlich hat DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025) seine hervorragenden Fähigkeiten im Bereich des komplexen Denkens unter Beweis gestellt und seine Methodik öffentlich geteilt. Dies bietet potenziell hochwertige Chain-of-Thought (CoT)-Daten, um die Denkfähigkeiten kleinerer großer Sprachmodelle (LLMs) zu stimulieren. Um hochwertige CoT-Daten für verschiedene LLMs zu generieren, suchen wir nach einer effizienten Methode zur Erstellung hochwertiger CoT-Daten mit LLM-adaptiven Schwierigkeitsgraden der Fragen. Zunächst bewerten wir den Schwierigkeitsgrad der Fragen entsprechend der Denkfähigkeit der LLMs selbst und erstellen eine LLM-adaptive Fragendatenbank. Anschließend entnehmen wir der Problemdatenbank basierend auf einer Verteilung der Schwierigkeitsgrade der Fragen und verwenden DeepSeek-R1 (671B) (DeepSeek-AI et al., 2025), um die entsprechenden hochwertigen CoT-Daten mit korrekten Antworten zu generieren. Dank der Erstellung von CoT-Daten mit LLM-adaptiven Schwierigkeitsgraden konnten wir die Kosten der Datengenerierung erheblich reduzieren und die Effizienz der überwachten Feinabstimmung (SFT) des Modells steigern. Schließlich haben wir die Wirksamkeit und Generalisierbarkeit der vorgeschlagenen Methode in den Bereichen komplexer mathematischer Wettbewerbe und Codegenerierungsaufgaben validiert. Bemerkenswerterweise übertrifft unser ZMath-32B mit nur 2k hochwertigen mathematischen CoT-Daten DeepSeek-Distill-32B in mathematischen Denkaufgaben. Ebenso übertrifft unser ZCode-32B mit nur 2k hochwertigen Code-CoT-Daten DeepSeek-Distill-32B in Code-Denkaufgaben.

RePOPE: Auswirkungen von Annotationsfehlern auf den POPE-Benchmark
RePOPE: Impact of Annotation Errors on the POPE Benchmark

Apr 22

ByYannic Neuhaus, Matthias Hein

Da die Datenannotation kostspielig ist, greifen Benchmark-Datensätze häufig auf Labels aus etablierten Bilddatensätzen zurück. In dieser Arbeit untersuchen wir die Auswirkungen von Label-Fehlern in MSCOCO auf den häufig verwendeten Benchmark für Objekthalluzinationen, POPE. Wir annotieren die Benchmark-Bilder neu und identifizieren ein Ungleichgewicht in den Annotationsfehlern über verschiedene Teilmengen hinweg. Bei der Bewertung mehrerer Modelle anhand der überarbeiteten Labels, die wir als RePOPE bezeichnen, beobachten wir deutliche Verschiebungen in den Modellrankings, was den Einfluss der Label-Qualität unterstreicht. Code und Daten sind unter https://github.com/YanNeu/RePOPE verfügbar.

Causal-Copilot: Ein autonomer Agent für kausale Analysen
Causal-Copilot: An Autonomous Causal Analysis Agent

Apr 17

ByXinyue Wang, Kun Zhou, Wenyi Wu, Har Simrat Singh, Fang Nan, Songyao Jin, Aryan Philip, Saloni Patnaik, Hou Zhu, Shivam Singh, Parjanya Prashant, Qian Shen, Biwei Huang

Die kausale Analyse spielt eine grundlegende Rolle in der wissenschaftlichen Entdeckung und zuverlässigen Entscheidungsfindung, bleibt jedoch aufgrund ihrer konzeptionellen und algorithmischen Komplexität für Fachexperten weitgehend unzugänglich. Diese Kluft zwischen kausaler Methodik und praktischer Anwendbarkeit stellt eine doppelte Herausforderung dar: Fachexperten können die jüngsten Fortschritte im kausalen Lernen nicht nutzen, während kausale Forscher breite, reale Anwendungen vermissen, um ihre Methoden zu testen und zu verfeinern. Um dies zu adressieren, stellen wir Causal-Copilot vor, einen autonomen Agenten, der Experten-Level-kausale Analyse innerhalb eines Large-Language-Model-Frameworks operationalisiert. Causal-Copilot automatisiert die gesamte Pipeline der kausalen Analyse für sowohl tabellarische als auch Zeitreihendaten – einschließlich kausaler Entdeckung, kausaler Inferenz, Algorithmusauswahl, Hyperparameteroptimierung, Ergebnisinterpretation und Generierung von umsetzbaren Erkenntnissen. Es unterstützt interaktive Verfeinerung durch natürliche Sprache, senkt die Barriere für Nicht-Spezialisten und bewahrt gleichzeitig methodische Strenge. Durch die Integration von über 20 modernsten kausalen Analysetechniken fördert unser System einen positiven Kreislauf – erweitert den Zugang zu fortgeschrittenen kausalen Methoden für Fachexperten und generiert gleichzeitig reichhaltige, reale Anwendungen, die die kausale Theorie informieren und vorantreiben. Empirische Auswertungen zeigen, dass Causal-Copilot eine überlegene Leistung im Vergleich zu bestehenden Baselines erzielt und eine zuverlässige, skalierbare und erweiterbare Lösung bietet, die die Lücke zwischen theoretischer Raffinesse und realer Anwendbarkeit in der kausalen Analyse überbrückt. Eine live interaktive Demo von Causal-Copilot ist verfügbar unter https://causalcopilot.com/.

CRUST-Bench: Ein umfassender Benchmark für die Transpilierung von C zu sicherem Rust
CRUST-Bench: A Comprehensive Benchmark for C-to-safe-Rust Transpilation

Apr 21

ByAnirudh Khatry, Robert Zhang, Jia Pan, Ziteng Wang, Qiaochu Chen, Greg Durrett, Isil Dillig

Die C-zu-Rust-Transpilation ist entscheidend, um Legacy-C-Code zu modernisieren und gleichzeitig die Sicherheit und Interoperabilität mit modernen Rust-Ökosystemen zu verbessern. Allerdings existiert derzeit kein Datensatz, um zu bewerten, ob ein System C in sicheres Rust transpilieren kann, das eine Reihe von Testfällen besteht. Wir stellen CRUST-Bench vor, einen Datensatz von 100 C-Repositories, die jeweils mit manuell geschriebenen Schnittstellen in sicherem Rust sowie Testfällen gepaart sind, die zur Validierung der Korrektheit der Transpilation verwendet werden können. Indem ganze Repositories anstelle isolierter Funktionen betrachtet werden, erfasst CRUST-Bench die Herausforderungen der Übersetzung komplexer Projekte mit Abhängigkeiten über mehrere Dateien hinweg. Die bereitgestellten Rust-Schnittstellen bieten explizite Spezifikationen, die die Einhaltung idiomatischer, speichersicherer Rust-Muster gewährleisten, während die begleitenden Testfälle die funktionale Korrektheit sicherstellen. Wir evaluieren state-of-the-art Large Language Models (LLMs) für diese Aufgabe und stellen fest, dass die Erzeugung von sicherem und idiomatischem Rust nach wie vor eine Herausforderung für verschiedene state-of-the-art Methoden und Techniken darstellt. Wir geben auch Einblicke in die Fehler, die LLMs typischerweise bei der Transpilation von Code von C zu sicherem Rust machen. Das beste Modell, OpenAI o1, ist in der Lage, nur 15 Aufgaben in einem Single-Shot-Setting zu lösen. Verbesserungen bei CRUST-Bench würden zu besseren Transpilationssystemen führen, die komplexe Szenarien berücksichtigen und bei der Migration von Legacy-Codebasen von C in Sprachen wie Rust, die Speichersicherheit gewährleisten, helfen können. Den Datensatz und den Code finden Sie unter https://github.com/anirudhkhatry/CRUST-bench.

Unkontrolliert und übersehen: Die Checkbox-Blindstelle in großen Sprachmodellen mit CheckboxQA angehen
Unchecked and Overlooked: Addressing the Checkbox Blind Spot in Large Language Models with CheckboxQA

Apr 14

ByMichał Turski, Mateusz Chiliński, Łukasz Borchmann

Checkboxen sind entscheidend in der realen Dokumentenverarbeitung, wo das Vorhandensein oder Fehlen von Häkchen direkt die Datenextraktion und Entscheidungsprozesse beeinflusst. Trotz der starken Leistung von großen Vision- und Sprachmodellen bei einer Vielzahl von Aufgaben, haben sie Schwierigkeiten bei der Interpretation von ankreuzbarem Inhalt. Diese Herausforderung wird besonders dringlich in Branchen, in denen ein einziger übersehener Haken zu kostspieligen regulatorischen oder vertraglichen Fehlern führen kann. Um diese Lücke zu schließen, stellen wir das CheckboxQA-Dataset vor, eine gezielte Ressource, die entwickelt wurde, um die Modellleistung bei checkboxbezogenen Aufgaben zu bewerten und zu verbessern. Es offenbart die Grenzen aktueller Modelle und dient als wertvolles Werkzeug zur Weiterentwicklung von Dokumentenverständnissystemen, mit bedeutenden Auswirkungen auf Anwendungen in Bereichen wie Legal Tech und Finanzen. Das Dataset ist öffentlich verfügbar unter: https://github.com/Snowflake-Labs/CheckboxQA

Fortschreitendes sprachgesteuertes visuelles Lernen für Multi-Task-Visual Grounding
Progressive Language-guided Visual Learning for Multi-Task Visual Grounding

Apr 22

ByJingchao Wang, Hong Wang, Wenlong Zhang, Kunhua Ji, Dingjiang Huang, Yefeng Zheng

Multi-Task Visual Grounding (MTVG) umfasst zwei Teilaufgaben: Referring Expression Comprehension (REC) und Referring Expression Segmentation (RES). Die bestehenden repräsentativen Ansätze folgen im Allgemeinen einem Forschungspipeline, die hauptsächlich aus drei Kernprozessen besteht: unabhängige Merkmalsextraktion für die visuellen und linguistischen Modalitäten, ein Cross-Modal-Interaktionsmodul und unabhängige Vorhersageköpfe für verschiedene Teilaufgaben. Obwohl bemerkenswerte Leistungen erzielt werden, weist diese Forschungsrichtung zwei Einschränkungen auf: 1) Der linguistische Inhalt wurde nicht vollständig in das gesamte visuelle Backbone integriert, um eine effektivere visuelle Merkmalsextraktion zu fördern, und es wird ein zusätzliches Cross-Modal-Interaktionsmodul benötigt; 2) Die Beziehung zwischen den REC- und RES-Aufgaben wird nicht effektiv genutzt, um die gemeinsame Vorhersage für genauere Ergebnisse zu unterstützen. Um diese Probleme zu lösen, schlagen wir in diesem Artikel ein Progressive Language-guided Visual Learning Framework für Multi-Task Visual Grounding vor, genannt PLVL, das nicht nur die inhärente Merkmalsdarstellung der visuellen Modalität selbst fein ausnutzt, sondern auch schrittweise Sprachinformationen einfügt, um linguistisch bezogene visuelle Merkmale zu erlernen. Auf diese Weise benötigt unser PLVL kein zusätzliches Cross-Modal-Fusionsmodul, während die Sprachführung vollständig eingeführt wird. Darüber hinaus analysieren wir, dass das Lokalisierungszentrum für REC in gewissem Maße dazu beitragen würde, die zu segmentierende Objektregion für RES zu identifizieren. Inspiriert von dieser Untersuchung entwerfen wir einen Multi-Task-Kopf, um gemeinsame Vorhersagen für diese beiden Teilaufgaben zu ermöglichen. Umfangreiche Experimente, die auf mehreren Benchmark-Datensätzen durchgeführt wurden, bestätigen umfassend, dass unser PLVL die repräsentativen Methoden sowohl in den REC- als auch in den RES-Aufgaben deutlich übertrifft. https://github.com/jcwang0602/PLVL

Eine umfassende Untersuchung zur ganzheitlichen Sicherheit von LLM(-Agenten): Daten, Training und Einsatz
A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment

Apr 22