HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

24 papers found

Seed1.5-VL Technischer Bericht
Seed1.5-VL Technical Report

May 11

ByDong Guo, Faming Wu, Feida Zhu, Fuxing Leng, Guang Shi, Haobin Chen, Haoqi Fan, Jian Wang, Jianyu Jiang, Jiawei Wang, Jingji Chen, Jingjia Huang, Kang Lei, Liping Yuan, Lishu Luo, Pengfei Liu, Qinghao Ye, Rui Qian, Shen Yan, Shixiong Zhao, Shuai Peng, Shuangye Li, Sihang Yuan, Sijin Wu, Tianheng Cheng, Weiwei Liu, Wenqian Wang, Xianhan Zeng, Xiao Liu, Xiaobo Qin, Xiaohan Ding, Xiaojun Xiao, Xiaoying Zhang, Xuanwei Zhang, Xuehan Xiong, Yanghua Peng, Yangrui Chen, Yanwei Li, Yanxu Hu, Yi Lin, Yiyuan Hu, Yiyuan Zhang, Youbin Wu, Yu Li, Yudong Liu, Yue Ling, Yujia Qin, Zanbo Wang, Zhiwu He, Aoxue Zhang, Bairen Yi, Bencheng Liao, Can Huang, Can Zhang, Chaorui Deng, Chaoyi Deng, Cheng Lin, Cheng Yuan, Chenggang Li, Chenhui Gou, Chenwei Lou, Chengzhi Wei, Chundian Liu, Chunyuan Li, Deyao Zhu, Donghong Zhong, Feng Li, Feng Zhang, Gang Wu, Guodong Li, Guohong Xiao, Haibin Lin, Haihua Yang, Haoming Wang, Heng Ji, Hongxiang Hao, Hui Shen, Huixia Li, Jiahao Li, Jialong Wu, Jianhua Zhu, Jianpeng Jiao, Jiashi Feng, Jiaze Chen, Jianhui Duan, Jihao Liu, Jin Zeng, Jingqun Tang, Jingyu Sun, Joya Chen, Jun Long, Junda Feng, Junfeng Zhan, Junjie Fang, Junting Lu, Kai Hua, Kai Liu, Kai Shen, Kaiyuan Zhang, Ke Shen, Ke Wang, Keyu Pan, Kun Zhang, Kunchang Li, Lanxin Li, Lei Li, Lei Shi, Li Han, Liang Xiang, Liangqiang Chen, Lin Chen, Lin Li, Lin Yan, Liying Chi, Longxiang Liu, Mengfei Du, Mingxuan Wang, Ningxin Pan, Peibin Chen, Pengfei Chen, Pengfei Wu, Qingqing Yuan, Qingyao Shuai, Qiuyan Tao, Renjie Zheng, Renrui Zhang, Ru Zhang, Rui Wang, Rui Yang, Rui Zhao, Shaoqiang Xu, Shihao Liang, Shipeng Yan, Shu Zhong, Shuaishuai Cao, Shuangzhi Wu, Shufan Liu, Shuhan Chang, Songhua Cai, Tenglong Ao, Tianhao Yang, Tingting Zhang, Wanjun Zhong, Wei Jia, Wei Weng, Weihao Yu, Wenhao Huang, Wenjia Zhu, Wenli Yang, Wenzhi Wang, Xiang Long, XiangRui Yin, Xiao Li, Xiaolei Zhu, Xiaoying Jia, Xijin Zhang, Xin Liu, Xinchen Zhang, Xinyu Yang, Xiongcai Luo, Xiuli Chen, Xuantong Zhong, Xuefeng Xiao, Xujing Li, Yan Wu, Yawei Wen, Yifan Du, Yihao Zhang, Yining Ye, Yonghui Wu, Yu Liu, Yu Yue, Yufeng Zhou, Yufeng Yuan, Yuhang Xu, Yuhong Yang, Yun Zhang, Yunhao Fang, Yuntao Li, Yurui Ren, Yuwen Xiong, Zehua Hong, Zehua Wang, Zewei Sun, Zeyu Wang, Zhao Cai, Zhaoyue Zha, Zhecheng An, Zhehui Zhao, Zhengzhuo Xu, Zhipeng Chen, Zhiyong Wu, Zhuofan Zheng, Zihao Wang, Zilong Huang, Ziyu Zhu, Zuquan Song

154

Wir präsentieren Seed1.5-VL, ein Vision-Language-Foundation-Modell, das entwickelt wurde, um das allgemeine multimodale Verständnis und die multimodale Argumentation voranzutreiben. Seed1.5-VL besteht aus einem Vision-Encoder mit 532 Millionen Parametern und einem Mixture-of-Experts (MoE)-LLM mit 20 Milliarden aktiven Parametern. Trotz seiner relativ kompakten Architektur liefert es eine starke Leistung über ein breites Spektrum öffentlicher VLM-Benchmarks und interner Evaluationssuiten und erreicht state-of-the-art-Leistungen in 38 von 60 öffentlichen Benchmarks. Darüber hinaus übertrifft Seed1.5-VL in agentenzentrierten Aufgaben wie GUI-Steuerung und Gameplay führende multimodale Systeme, einschließlich OpenAI CUA und Claude 3.7. Neben dem Verständnis von Bildern und Videos zeigt es auch starke Argumentationsfähigkeiten, was es besonders effektiv für multimodale Argumentationsherausforderungen wie visuelle Rätsel macht. Wir glauben, dass diese Fähigkeiten breitere Anwendungen über diverse Aufgaben hinweg ermöglichen werden. In diesem Bericht geben wir hauptsächlich einen umfassenden Überblick über unsere Erfahrungen beim Aufbau von Seed1.5-VL in den Bereichen Modelldesign, Datenkonstruktion und Training in verschiedenen Phasen, in der Hoffnung, dass dieser Bericht weitere Forschungen inspirieren kann. Seed1.5-VL ist jetzt unter https://www.volcengine.com/ (Volcano Engine Model ID: doubao-1-5-thinking-vision-pro-250428) zugänglich.

MiMo: Das Potenzial von Sprachmodellen für logisches Denken freisetzen – Von der Vortrainierung zur Nachtrainierung
MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining

May 12

ByXiaomi LLM-Core Team, Bingquan Xia, Bowen Shen, Cici, Dawei Zhu, Di Zhang, Gang Wang, Hailin Zhang, Huaqiu Liu, Jiebao Xiao, Jinhao Dong, Liang Zhao, Peidian Li, Peng Wang, Shihua Yu, Shimao Chen, Weikun Wang, Wenhan Ma, Xiangwei Deng, Yi Huang, Yifan Song, Zihan Jiang, Bowen Ye, Can Cai, Chenhong He, Dong Zhang, Duo Zhang, Guoan Wang, Hao Tian, Haochen Zhao, Heng Qu, Hongshen Xu, Jun Shi, Kainan Bao, QingKai Fang, Kang Zhou, Kangyang Zhou, Lei Li, Menghang Zhu, Nuo Chen, Qiantong Wang, Shaohui Liu, Shicheng Li, Shuhao Gu, Shuhuai Ren, Shuo Liu, Sirui Deng, Weiji Zhuang, Weiwei Lv, Wenyu Yang, Xin Zhang, Xing Yong, Xing Zhang, Xingchen Song, Xinzhe Xu, Xu Wang, Yihan Yan, Yu Tu, Yuanyuan Tian, Yudong Wang, Yue Yu, Zhenru Lin, Zhichao Song, Zihao Yue

Wir präsentieren MiMo-7B, ein großes Sprachmodell, das speziell für Reasoning-Aufgaben entwickelt wurde und sowohl in der Vor- als auch in der Nachtrainingsphase optimiert wurde. Während des Vortrainings verbessern wir die Datenvorverarbeitungspipeline und setzen eine dreistufige Datenmischungsstrategie ein, um das Reasoning-Potenzial des Basismodells zu stärken. MiMo-7B-Base wurde auf 25 Billionen Tokens vortrainiert, wobei zusätzlich ein Multi-Token-Prädiktionsziel verwendet wurde, um die Leistung zu steigern und die Inferenzgeschwindigkeit zu beschleunigen. Während des Nachtrainings haben wir einen Datensatz mit 130.000 verifizierbaren Mathematik- und Programmierproblemen für Reinforcement Learning kuratiert, ein testschwierigkeitsgesteuertes Code-Belohnungsschema integriert, um Probleme mit spärlichen Belohnungen zu mildern, und strategische Datenresampling-Methoden eingesetzt, um das Training zu stabilisieren. Umfangreiche Evaluierungen zeigen, dass MiMo-7B-Base ein außergewöhnliches Reasoning-Potenzial besitzt und sogar deutlich größere 32B-Modelle übertrifft. Das final mit Reinforcement Learning optimierte Modell, MiMo-7B-RL, erzielt überragende Leistungen in den Bereichen Mathematik, Code und allgemeinem Reasoning und übertrifft die Leistung von OpenAI o1-mini. Die Modell-Checkpoints sind unter https://github.com/xiaomimimo/MiMo verfügbar.

Step1X-3D: Auf dem Weg zur hochwertigen und kontrollierbaren Erzeugung texturierter 3D-Assets
Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

May 12

ByWeiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai, Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan, Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan

Während die generative künstliche Intelligenz in den Bereichen Text, Bild, Audio und Video erhebliche Fortschritte gemacht hat, bleibt die 3D-Generierung vergleichsweise unterentwickelt, was auf grundlegende Herausforderungen wie Datenknappheit, algorithmische Einschränkungen und die Fragmentierung des Ökosystems zurückzuführen ist. Vor diesem Hintergrund präsentieren wir Step1X-3D, ein offenes Framework, das diese Herausforderungen durch folgende Maßnahmen adressiert: (1) eine rigorose Datenkuratierungspipeline, die >5M Assets verarbeitet, um einen hochwertigen Datensatz mit 2M Einträgen und standardisierten geometrischen und texturalen Eigenschaften zu erstellen; (2) eine zweistufige, 3D-native Architektur, die einen hybriden VAE-DiT-Geometriegenerator mit einem diffusionsbasierten Textursynthesemodul kombiniert; und (3) die vollständige Open-Source-Freigabe von Modellen, Trainingscode und Anpassungsmodulen. Für die Geometriegenerierung erzeugt die hybride VAE-DiT-Komponente TSDF-Repräsentationen durch die Verwendung von Perceiver-basierter latenter Kodierung mit scharfer Kantenabtastung zur Detailerhaltung. Das diffusionsbasierte Textursynthesemodul gewährleistet dann die konsistente Darstellung über verschiedene Blickwinkel hinweg durch geometrische Konditionierung und Latentraum-Synchronisation. Benchmark-Ergebnisse zeigen eine state-of-the-art Leistung, die bestehende Open-Source-Methoden übertrifft und gleichzeitig eine wettbewerbsfähige Qualität zu proprietären Lösungen erreicht. Bemerkenswert ist, dass das Framework eine einzigartige Brücke zwischen den 2D- und 3D-Generierungsparadigmen schlägt, indem es den direkten Transfer von 2D-Kontrolltechniken (z.B. LoRA) auf die 3D-Synthese unterstützt. Durch die gleichzeitige Verbesserung der Datenqualität, algorithmischen Genauigkeit und Reproduzierbarkeit zielt Step1X-3D darauf ab, neue Standards für die offene Forschung in der kontrollierbaren 3D-Asset-Generierung zu setzen.

Lernen von Gleichgestellten in Reasoning-Modellen
Learning from Peers in Reasoning Models

May 12

ByTongxu Luo, Wenyu Du, Jiaxi Bi, Stephen Chung, Zhengyang Tang, Hao Yang, Min Zhang, Benyou Wang

Große Reasoning-Modelle (LRMs) besitzen die Fähigkeit, sich selbst zu korrigieren, selbst wenn sie Fehler in ihren Reasoning-Pfaden machen. Unsere Studie zeigt jedoch, dass es für das Modell schwierig wird, sich zu erholen, wenn der Reasoning-Prozess mit einem kurzen, aber schlechten Anfang beginnt. Wir bezeichnen dieses Phänomen als die „Prefix Dominance Trap“. Inspiriert von psychologischen Erkenntnissen, dass Interaktion mit Gleichgesinnten die Selbstkorrektur fördern kann, ohne bereits korrekte Individuen negativ zu beeinflussen, schlagen wir **Learning from Peers** (LeaP) vor, um dieses Phänomen zu adressieren. Konkret fasst jeder Reasoning-Pfad in regelmäßigen Abständen seine Zwischenergebnisse zusammen und teilt sie über einen Routing-Mechanismus mit anderen, wodurch Pfade während des Inferenzprozesses Einblicke von Gleichgesinnten einbeziehen können. Wir beobachten jedoch, dass kleinere Modelle manchmal Schwierigkeiten haben, Zusammenfassungs- und Reflexionsanweisungen effektiv zu befolgen. Um dies zu beheben, feintunen wir sie zu unserer **LeaP-T**-Modellreihe. Experimente auf AIME 2024, AIME 2025, AIMO 2025 und GPQA Diamond zeigen, dass LeaP erhebliche Verbesserungen bringt. Beispielsweise erreicht QwQ-32B mit LeaP im Durchschnitt fast 5 absolute Punkte mehr als die Baseline und übertrifft DeepSeek-R1-671B auf drei Mathematik-Benchmarks mit einem durchschnittlichen Gewinn von 3,3 Punkten. Bemerkenswerterweise erreicht unser feinabgestimmtes LeaP-T-7B die Leistung von DeepSeek-R1-Distill-Qwen-14B auf AIME 2024. Eine detaillierte Analyse zeigt, dass LeaP durch rechtzeitige Einblicke von Gleichgesinnten eine robuste Fehlerkorrektur ermöglicht, was eine starke Fehlertoleranz und die Bewältigung unterschiedlicher Aufgabenanforderungen demonstriert. LeaP markiert einen Meilenstein, indem es LRMs ermöglicht, während des Reasoning-Prozesses zusammenzuarbeiten. Unser Code, Datensätze und Modelle sind unter https://learning-from-peers.github.io/ verfügbar.

Einheitliche kontinuierliche generative Modelle
Unified Continuous Generative Models

May 12

ByPeng Sun, Yi Jiang, Tao Lin

Jüngste Fortschritte bei kontinuierlichen generativen Modellen, einschließlich mehrstufiger Ansätze wie Diffusion und Flow-Matching (typischerweise 8-1000 Abtastschritte erfordernd) sowie wenige-stufiger Methoden wie Konsistenzmodelle (typischerweise 1-8 Schritte), haben beeindruckende generative Leistungen gezeigt. Bisherige Arbeiten behandeln diese Ansätze jedoch oft als getrennte Paradigmen, was zu separaten Trainings- und Abtastmethoden führt. Wir stellen ein einheitliches Framework für das Training, die Abtastung und die Analyse dieser Modelle vor. Unsere Implementierung, der Unified Continuous Generative Models Trainer and Sampler (UCGM-{T,S}), erreicht state-of-the-art (SOTA) Leistung. Beispielsweise erreicht UCGM-T auf ImageNet 256x256 mit einem 675M Diffusion Transformer ein mehrstufiges Modell, das einen FID-Wert von 1,30 in 20 Schritten erzielt, und ein wenige-stufiges Modell, das einen FID-Wert von 1,42 in nur 2 Schritten erreicht. Darüber hinaus verbessert die Anwendung von UCGM-S auf ein vortrainiertes Modell (zuvor 1,26 FID bei 250 Schritten) die Leistung auf 1,06 FID in nur 40 Schritten. Der Code ist verfügbar unter: https://github.com/LINs-lab/UCGM.

DanceGRPO: Freisetzung von GRPO für die visuelle Generierung
DanceGRPO: Unleashing GRPO on Visual Generation

May 12

ByZeyue Xue, Jie Wu, Yu Gao, Fangyuan Kong, Lingting Zhu, Mengzhao Chen, Zhiheng Liu, Wei Liu, Qiushan Guo, Weilin Huang, Ping Luo

Jüngste Durchbrüche bei generativen Modellen – insbesondere Diffusionsmodelle und korrigierte Flüsse – haben die Erstellung visueller Inhalte revolutioniert, doch die Ausrichtung der Modellausgaben auf menschliche Präferenzen bleibt eine zentrale Herausforderung. Bestehende, auf Reinforcement Learning (RL) basierende Methoden für die visuelle Generierung stoßen auf kritische Grenzen: Inkompatibilität mit modernen, auf gewöhnlichen Differentialgleichungen (ODEs) basierenden Sampling-Paradigmen, Instabilität beim Training in großem Maßstab und fehlende Validierung für die Videogenerierung. Dieses Paper stellt DanceGRPO vor, den ersten vereinheitlichten Rahmen, der Group Relative Policy Optimization (GRPO) an visuelle Generierungsparadigmen anpasst und damit einen einheitlichen RL-Algorithmus über zwei generative Paradigmen (Diffusionsmodelle und korrigierte Flüsse), drei Aufgaben (Text-zu-Bild, Text-zu-Video, Bild-zu-Video), vier Basismodelle (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V) und fünf Belohnungsmodelle (Bild-/Videoästhetik, Text-Bild-Ausrichtung, Videobewegungsqualität und binäre Belohnung) ermöglicht. Nach unserem Wissen ist DanceGRPO der erste RL-basierte, vereinheitlichte Rahmen, der nahtlose Anpassungen über diverse generative Paradigmen, Aufgaben, Basismodelle und Belohnungsmodelle hinweg ermöglicht. DanceGRPO zeigt konsistente und erhebliche Verbesserungen, die die Baselines auf Benchmarks wie HPS-v2.1, CLIP Score, VideoAlign und GenEval um bis zu 181 % übertreffen. Bemerkenswerterweise kann DanceGRPO nicht nur die Policy-Optimierung für komplexe Videogenerierung stabilisieren, sondern ermöglicht es auch der generativen Policy, Denoising-Trajektorien besser zu erfassen, um Best-of-N-Inferenzskalierung zu ermöglichen, und aus spärlichem binärem Feedback zu lernen. Unsere Ergebnisse etablieren DanceGRPO als robuste und vielseitige Lösung für die Skalierung von Reinforcement Learning from Human Feedback (RLHF) Aufgaben in der visuellen Generierung und bieten neue Einblicke in die Harmonisierung von Reinforcement Learning und visueller Synthese. Der Code wird veröffentlicht.

REFINE-AF: Ein aufgabenunabhängiges Framework zur Ausrichtung von Sprachmodellen durch selbstgenerierte Anweisungen mittels Verstärkungslernen aus automatisiertem Feedback
REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback

May 10

ByAniruddha Roy, Pretam Ray, Abhilash Nandy, Somak Aditya, Pawan Goyal

Instruktionsbasierte Large Language Models (LLMs) haben sich bei zahlreichen Few-Shot- oder Zero-Shot-Natural Language Processing (NLP)-Aufgaben als effektiv erwiesen. Die Erstellung von menschlich annotierten Instruktionsdaten ist jedoch zeitaufwendig, kostspielig und oft in Menge und Aufgabenvielfalt begrenzt. Frühere Forschungsbemühungen haben versucht, diese Herausforderung zu bewältigen, indem sie Frameworks vorgeschlagen haben, die in der Lage sind, Instruktionen auf halbautomatisierte und aufgabenunabhängige Weise direkt aus dem Modell selbst zu generieren. Viele dieser Ansätze stützten sich auf große API-basierte Modelle mit vielen Parametern wie GPT-3.5 (175B), die teuer sind und Beschränkungen bei der Anzahl der Abfragen unterliegen. Diese Arbeit untersucht die Leistung von drei quelloffenen kleinen LLMs wie LLaMA 2-7B, LLaMA 2-13B und Mistral 7B unter Verwendung eines halbautomatisierten Frameworks, wodurch der menschliche Eingriff, der Aufwand und die Kosten, die zur Generierung eines Instruktionsdatensatzes für das Fine-Tuning von LLMs erforderlich sind, reduziert werden. Darüber hinaus zeigen wir, dass die Integration eines Reinforcement Learning (RL)-basierten Trainingsalgorithmus in dieses LLM-basierte Framework zu weiteren Verbesserungen führt. Unsere Auswertung des Datensatzes zeigt, dass diese RL-basierten Frameworks in 63–66 % der Aufgaben erhebliche Verbesserungen im Vergleich zu früheren Ansätzen erzielen.

Skywork-VL Reward: Ein effektives Belohnungsmodell für multimodales Verständnis und logisches Denken
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning

May 12

ByXiaokun Wang, Chris, Jiangbo Pei, Wei Shen, Yi Peng, Yunzhuo Hao, Weijie Qiu, Ai Jian, Tianyidan Xie, Xuchen Song, Yang Liu, Yahui Zhou

Wir stellen Skywork-VL Reward vor, ein multimodales Belohnungsmodell, das Belohnungssignale sowohl für multimodale Verständnis- als auch für Reasoning-Aufgaben liefert. Unser technischer Ansatz umfasst zwei Schlüsselkomponenten: Erstens erstellen wir einen groß angelegten multimodalen Präferenzdatensatz, der eine breite Palette von Aufgaben und Szenarien abdeckt, wobei Antworten sowohl von Standard-Vision-Language-Modellen (VLMs) als auch von fortschrittlichen VLM-Reasonern gesammelt werden. Zweitens entwerfen wir eine Belohnungsmodellarchitektur basierend auf Qwen2.5-VL-7B-Instruct, die einen Belohnungskopf integriert und mehrstufiges Fine-Tuning unter Verwendung von paarweisem Ranking-Verlust auf paarweisen Präferenzdaten anwendet. Experimentelle Auswertungen zeigen, dass Skywork-VL Reward state-of-the-art Ergebnisse auf dem multimodalen VL-RewardBench erzielt und wettbewerbsfähige Leistungen auf dem textbasierten RewardBench-Benchmark zeigt. Darüber hinaus erweisen sich Präferenzdaten, die auf Basis unseres Skywork-VL Reward erstellt wurden, als äußerst effektiv für das Training von Mixed Preference Optimization (MPO), was zu signifikanten Verbesserungen in den multimodalen Reasoning-Fähigkeiten führt. Unsere Ergebnisse unterstreichen Skywork-VL Reward als einen bedeutenden Fortschritt hin zu allgemeinen, zuverlässigen Belohnungsmodellen für multimodale Ausrichtung. Unser Modell wurde öffentlich freigegeben, um Transparenz und Reproduzierbarkeit zu fördern.

AttentionInfluence: Übernahme der Aufmerksamkeitskopfeinflüsse für die schwache bis starke Vorauswahl von Trainingsdaten
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection

May 12

ByKai Hua, Steven Wu, Ge Zhang, Ke Shen

In letzter Zeit hat das Interesse an der Sammlung von vortrainierten Daten, die eine hohe Anforderung an das logische Denken stellen, zugenommen, um die komplexen Denkfähigkeiten von LLMs (Large Language Models) zu verbessern. Bisherige Ansätze stützen sich typischerweise auf überwachte Klassifikatoren, um solche Daten zu identifizieren, was eine Kennzeichnung durch Menschen oder LLMs erfordert und oft domänenspezifische Verzerrungen einführt. Da die Aufmerksamkeitsköpfe (Attention Heads) für das kontextbezogene Denken entscheidend sind, schlagen wir AttentionInfluence vor, eine einfache, aber effektive, trainingsfreie Methode ohne Überwachungssignal. Unser Ansatz ermöglicht es einem kleinen vortrainierten Sprachmodell, durch eine einfache Maskierung der Aufmerksamkeitsköpfe als starker Datenauswähler zu fungieren. Konkret identifizieren wir Retrieval-Köpfe und berechnen den Verlustunterschied, wenn diese Köpfe maskiert werden. Wir wenden AttentionInfluence auf ein dichtes Modell mit 1,3 Milliarden Parametern an, um eine Datenauswahl im SmolLM-Korpus mit 241 Milliarden Tokens durchzuführen, und mischen das SmolLM-Korpus mit der ausgewählten Teilmenge von 73 Milliarden Tokens, um ein dichtes Modell mit 7 Milliarden Parametern unter Verwendung von 1 Billion Trainings-Tokens und WSD-Lernratenplanung vortrainieren. Unsere experimentellen Ergebnisse zeigen erhebliche Verbesserungen im Bereich von 1,4 bis 3,5 Prozentpunkten über mehrere wissensintensive und denkintensive Benchmarks hinweg (d. h. MMLU, MMLU-Pro, AGIEval-en, GSM8K und HumanEval). Dies demonstriert eine effektive schwache-zu-starke Skalierungseigenschaft, bei der kleine Modelle die Endleistung größerer Modelle verbessern – ein vielversprechender und skalierbarer Weg für die datenzentrierte Auswahl im Hinblick auf das logische Denken.

Lernprozesse beim kontinuierlichen Vortraining großer Sprachmodelle
Learning Dynamics in Continual Pre-Training for Large Language Models

May 12

ByXingjin Wang, Howe Tissue, Lu Wang, Linjing Li, Daniel Dajun Zeng

Continual Pre-Training (CPT) hat sich zu einer beliebten und effektiven Methode entwickelt, um leistungsstarke Basismodelle auf spezifische Downstream-Aufgaben anzuwenden. In dieser Arbeit untersuchen wir die Lern-Dynamik während des CPT-Prozesses für große Sprachmodelle. Wir konzentrieren uns insbesondere darauf, wie sich die allgemeine und die domänenspezifische Leistung in jedem Trainingsschritt entwickeln, wobei die Domänenleistung über Validierungsverluste gemessen wird. Wir haben beobachtet, dass die CPT-Verlustkurve grundsätzlich den Übergang von einer Kurve zu einer anderen verborgenen Kurve charakterisiert und durch die Entkopplung der Effekte von Verschiebungen in der Verteilung und der Lernraten-Anpassung beschrieben werden kann. Wir leiten ein CPT-Skalierungsgesetz ab, das diese beiden Faktoren kombiniert und es ermöglicht, den Verlust zu jedem (kontinuierlichen) Trainingsschritt und über verschiedene Lernratenpläne (LRS) in CPT vorherzusagen. Unsere Formulierung bietet ein umfassendes Verständnis mehrerer kritischer Faktoren in CPT, einschließlich Verlustpotenzial, Spitzenlernrate, Trainingsschritte, Replay-Verhältnis usw. Darüber hinaus kann unser Ansatz angepasst werden, um Trainings-Hyperparameter an verschiedene CPT-Ziele wie die Balance zwischen allgemeiner und domänenspezifischer Leistung anzupassen. Umfangreiche Experimente zeigen, dass unser Skalierungsgesetz über verschiedene CPT-Datensätze und Trainings-Hyperparameter hinweg gültig ist.

WebGen-Bench: Bewertung von LLMs bei der Generierung interaktiver und funktionaler Websites von Grund auf
WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch

May 6

ByZimu Lu, Yunqiao Yang, Houxing Ren, Haotian Hou, Han Xiao, Ke Wang, Weikang Shi, Aojun Zhou, Mingjie Zhan, Hongsheng Li

LLM-basierte Agenten haben großes Potenzial bei der Generierung und Verwaltung von Code in komplexen Codebasen gezeigt. In diesem Artikel stellen wir WebGen-Bench vor, einen neuartigen Benchmark, der entwickelt wurde, um die Fähigkeit eines LLM-basierten Agenten zu messen, mehrdateige Website-Codebasen von Grund auf zu erstellen. Er enthält diverse Anweisungen zur Website-Generierung, die durch die gemeinsamen Bemühungen von menschlichen Annotatoren und GPT-4o erstellt wurden. Diese Anweisungen umfassen drei Hauptkategorien und dreizehn Unterkategorien, die nahezu alle wichtigen Arten von Webanwendungen abdecken. Um die Qualität der generierten Websites zu bewerten, verwenden wir GPT-4o, um Testfälle zu generieren, die jede in den Anweisungen beschriebene Funktionalität abdecken, und filtern, passen und organisieren diese manuell, um Genauigkeit zu gewährleisten, was zu 647 Testfällen führt. Jeder Testfall spezifiziert eine Operation, die auf der Website durchgeführt werden soll, und das erwartete Ergebnis nach der Operation. Um das Testen zu automatisieren und die Reproduzierbarkeit zu verbessern, setzen wir einen leistungsstarken Web-Navigations-Agenten ein, um Tests auf den generierten Websites durchzuführen und festzustellen, ob die beobachteten Antworten mit den erwarteten Ergebnissen übereinstimmen. Wir evaluieren drei hochleistungsfähige Code-Agenten-Frameworks, Bolt.diy, OpenHands und Aider, unter Verwendung mehrerer proprietärer und Open-Source-LLMs als Engines. Die beste Kombination, Bolt.diy angetrieben von DeepSeek-R1, erreicht nur 27,8 % Genauigkeit bei den Testfällen, was die anspruchsvolle Natur unseres Benchmarks unterstreicht. Zusätzlich erstellen wir WebGen-Instruct, einen Trainingsdatensatz, der aus 6.667 Website-Generierungsanweisungen besteht. Das Training von Qwen2.5-Coder-32B-Instruct auf Bolt.diy-Trajektorien, die aus einer Teilmenge dieses Trainingsdatensatzes generiert wurden, erreicht eine Genauigkeit von 38,2 % und übertrifft damit die Leistung des besten proprietären Modells.

INTELLECT-2: Ein auf global dezentralisiertem Reinforcement Learning trainiertes Modell für logisches Denken
INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning

May 12

ByPrime Intellect Team, Sami Jaghouar, Justus Mattern, Jack Min Ong, Jannik Straube, Manveer Basra, Aaron Pazdera, Kushal Thaman, Matthew Di Ferrante, Felix Gabriel, Fares Obeid, Kemal Erdem, Michael Keiblinger, Johannes Hagemann

Wir stellen INTELLECT-2 vor, den ersten global verteilten Reinforcement-Learning (RL)-Trainingslauf eines Sprachmodells mit 32 Milliarden Parametern. Im Gegensatz zu traditionellen zentralisierten Trainingsansätzen trainiert INTELLECT-2 ein Modell für logisches Denken mithilfe von vollständig asynchronem RL über einen dynamischen, heterogenen Schwarm von berechtigungsfreien Rechenbeitragenden. Um einen Trainingslauf mit dieser einzigartigen Infrastruktur zu ermöglichen, haben wir verschiedene Komponenten von Grund auf neu entwickelt: Wir präsentieren PRIME-RL, unser speziell für verteiltes asynchrones Reinforcement Learning entwickeltes Trainingsframework, das auf neuartigen Komponenten wie TOPLOC basiert, das Rollouts von nicht vertrauenswürdigen Inferenzarbeitern verifiziert, und SHARDCAST, das effizient Policy-Gewichte von Trainingsknoten an Inferenzarbeiter überträgt. Neben Infrastrukturkomponenten schlagen wir Anpassungen an der standardmäßigen GRPO-Trainingsmethode und Datenfiltertechniken vor, die entscheidend waren, um Trainingsstabilität zu erreichen und sicherzustellen, dass unser Modell sein Trainingsziel erfolgreich erlernte, wodurch es QwQ-32B, das bisher führende Modell für logisches Denken im Bereich von 32 Milliarden Parametern, übertraf. Wir veröffentlichen INTELLECT-2 zusammen mit unserem gesamten Code und unseren Daten als Open Source, in der Hoffnung, offene Forschung im Bereich des dezentralen Trainings zu fördern und zu ermöglichen.

MonetGPT: Das Lösen von Rätseln verbessert die Bildbearbeitungsfähigkeiten von MLLMs
MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills

May 9

ByNiladri Shekhar Dutt, Duygu Ceylan, Niloy J. Mitra

Retusche ist eine wesentliche Aufgabe bei der Nachbearbeitung von Rohfotos. Generatives Editieren, das durch Text oder Striche gesteuert wird, bietet ein neues Werkzeug, das Benutzern zugänglich ist, kann jedoch die Identität der ursprünglichen Objekte auf unakzeptable und unvorhersehbare Weise verändern. Im Gegensatz dazu sind traditionelle prozedurale Bearbeitungen, wie sie häufig von Fotobearbeitungstools (z.B. Gimp, Lightroom) unterstützt werden, zwar konservativ, werden aber dennoch von Profis bevorzugt. Leider umfasst eine professionelle Retusche viele einzelne prozedurale Bearbeitungsschritte, die für die meisten Anfänger schwer zu planen sind. In diesem Artikel fragen wir, ob ein multimodales großes Sprachmodell (MLLM) dazu gebracht werden kann, Rohfotos zu bewerten, geeignete Korrekturen vorzuschlagen und diese schließlich mit einer gegebenen Menge vordefinierter prozeduraler Bildoperationen umzusetzen. Wir zeigen, dass MLLMs zunächst über die zugrunde liegenden Bildverarbeitungsoperationen informiert werden können, indem sie darauf trainiert werden, speziell gestaltete visuelle Rätsel zu lösen. Anschließend kann ein solches operationsbewusstes MLLM sowohl Bearbeitungssequenzen planen als auch vorschlagen. Um das Training zu erleichtern, synthetisieren wir aus einer Menge von von Experten bearbeiteten Fotos einen Reasoning-Datensatz, indem wir die Expertenbearbeitungen prozedural manipulieren und dann ein vortrainiertes LLM auf die visuellen Anpassungen abstimmen, um Reasoning für das Feintuning zu synthetisieren. Die vorgeschlagenen Retuscheoperationen sind konstruktionsbedingt für die Benutzer verständlich, bewahren Objektdetails und Auflösung und können optional überschrieben werden. Wir bewerten unser Setup anhand einer Vielzahl von Testbeispielen und zeigen Vorteile in Bezug auf Erklärbarkeit und Identitätserhaltung gegenüber bestehenden generativen und anderen prozeduralen Alternativen. Code, Daten, Modelle und ergänzende Ergebnisse finden Sie auf unserer Projektwebsite unter https://monetgpt.github.io.

Kontinuierliche visuelle autoregressive Erzeugung durch Score-Maximierung
Continuous Visual Autoregressive Generation via Score Maximization

May 12

ByChenze Shao, Fandong Meng, Jie Zhou

Die gängige Meinung besagt, dass autoregressive Modelle zur Verarbeitung diskreter Daten verwendet werden. Bei der Anwendung auf kontinuierliche Modalitäten wie visuelle Daten greift das Visual AutoRegressive Modeling (VAR) typischerweise auf quantisierungsbasierte Ansätze zurück, um die Daten in einen diskreten Raum zu überführen, was zu erheblichen Informationsverlusten führen kann. Um dieses Problem zu lösen, führen wir ein Continuous VAR-Framework ein, das eine direkte visuelle autoregressive Generierung ohne Vektorquantisierung ermöglicht. Die zugrunde liegende theoretische Grundlage bilden streng korrekte Bewertungsregeln (strictly proper scoring rules), die leistungsstarke statistische Werkzeuge bereitstellen, um zu bewerten, wie gut ein generatives Modell die wahre Verteilung annähert. Innerhalb dieses Frameworks müssen wir lediglich eine streng korrekte Bewertungsregel auswählen und sie als Trainingsziel festlegen, das optimiert werden soll. Wir untersuchen hauptsächlich eine Klasse von Trainingszielen, die auf dem Energie-Score basieren, der likelihood-frei ist und somit die Schwierigkeit überwindet, probabilistische Vorhersagen im kontinuierlichen Raum zu treffen. Frühere Ansätze zur kontinuierlichen autoregressiven Generierung, wie GIVT und Diffusionsverlust, können ebenfalls aus unserem Framework abgeleitet werden, indem andere streng korrekte Bewertungsregeln verwendet werden. Quellcode: https://github.com/shaochenze/EAR.

Verstärkte interne-externe Wissenssynergie für effiziente adaptive Suchagenten
Reinforced Internal-External Knowledge Synergistic Reasoning for Efficient Adaptive Search Agent

May 12

ByZiyang Huang, Xiaowei Yuan, Yiming Ju, Jun Zhao, Kang Liu

Retrieval-augmented Generation (RAG) ist eine gängige Strategie, um Halluzinationen in Large Language Models (LLMs) zu reduzieren. Während Reinforcement Learning (RL) LLMs dazu befähigen kann, als Suchagenten zu agieren, indem sie Abruffähigkeiten aktivieren, nutzen bestehende Modelle oft ihr internes Wissen unzureichend. Dies kann zu redundanten Abrufen, potenziell schädlichen Wissenskonflikten und erhöhter Inferenzlatenz führen. Um diese Einschränkungen zu überwinden, besteht ein dringender Bedarf an einem effizienten und adaptiven Suchagenten, der in der Lage ist, den optimalen Zeitpunkt für den Abruf zu bestimmen und parametrisches (internes) sowie abgerufenes (externes) Wissen synergetisch zu integrieren. In diesem Artikel wird der Reinforced Internal-External Knowledge Synergistic Reasoning Agent (IKEA) vorgestellt, der seine eigene Wissensgrenze identifizieren und die Nutzung von internem Wissen priorisieren kann, wobei er nur dann auf externe Suche zurückgreift, wenn internes Wissen als unzureichend erachtet wird. Dies wird durch eine neuartige wissensgrenzenbewusste Belohnungsfunktion und einen wissensgrenzenbewussten Trainingsdatensatz erreicht. Diese sind für RL mit Fokus auf die Synergie von internem und externem Wissen konzipiert und sollen das Modell dazu anregen, präzise Antworten zu liefern, unnötige Abrufe zu minimieren und angemessene externe Suchen zu fördern, wenn das eigene Wissen nicht ausreicht. Evaluierungen über mehrere Wissensschlussfolgerungsaufgaben zeigen, dass IKEA Baseline-Methoden deutlich übertrifft, die Abruffrequenz erheblich reduziert und robuste Generalisierungsfähigkeiten aufweist.

UMoE: Vereinheitlichung von Aufmerksamkeit und FFN durch gemeinsame Experten
UMoE: Unifying Attention and FFN with Shared Experts

May 12

ByYuanhang Yang, Chaozheng Wang, Jing Li

Sparse Mixture of Experts (MoE)-Architekturen haben sich als vielversprechender Ansatz zur Skalierung von Transformer-Modellen erwiesen. Während frühe Arbeiten MoE hauptsächlich in Feed-Forward-Netzwerk (FFN)-Schichten integrierten, haben neuere Studien die Erweiterung des MoE-Paradigmas auf Attention-Schichten untersucht, um die Modellleistung zu verbessern. Allerdings erfordern bestehende Attention-basierte MoE-Schichten spezialisierte Implementierungen und zeigen im Vergleich zu ihren FFN-basierten Gegenstücken eine suboptimale Leistung. In diesem Artikel streben wir an, die MoE-Designs in Attention- und FFN-Schichten zu vereinheitlichen, indem wir eine neuartige Neuformulierung des Attention-Mechanismus einführen, die eine zugrunde liegende FFN-ähnliche Struktur innerhalb von Attention-Modulen offenlegt. Unsere vorgeschlagene Architektur, UMoE, erreicht eine überlegene Leistung durch Attention-basierte MoE-Schichten und ermöglicht gleichzeitig eine effiziente Parameterfreigabe zwischen FFN- und Attention-Komponenten.

Position: KI-Wettbewerbe bieten den Goldstandard für empirische Strenge in der Evaluation von GenKI.
Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation

May 1

ByD. Sculley, Will Cukierski, Phil Culliton, Sohier Dane, Maggie Demkin, Ryan Holbrook, Addison Howard, Paul Mooney, Walter Reade, Megan Risdal, Nate Keating

In diesem Positionspapier stellen wir fest, dass die empirische Evaluierung im Bereich der Generativen KI an einem kritischen Punkt angelangt ist, da traditionelle Evaluierungs- und Benchmarking-Strategien des maschinellen Lernens nicht ausreichen, um den Anforderungen der Bewertung moderner GenAI-Modelle und -Systeme gerecht zu werden. Dafür gibt es viele Gründe, darunter die Tatsache, dass diese Modelle typischerweise nahezu unbegrenzte Eingabe- und Ausgaberäume haben, oft kein klar definiertes Ground-Truth-Ziel besitzen und starke Rückkopplungsschleifen sowie Vorhersageabhängigkeiten basierend auf dem Kontext früherer Modellausgaben aufweisen. Neben diesen kritischen Problemen argumentieren wir, dass die Herausforderungen von {\em Leakage} und {\em Kontamination} tatsächlich die wichtigsten und schwierigsten Probleme für GenAI-Evaluierungen darstellen. Interessanterweise hat das Feld der KI-Wettbewerbe wirksame Maßnahmen und Praktiken entwickelt, um Leakage zu bekämpfen, mit dem Ziel, Betrug durch schlechte Akteure in einem Wettbewerbsumfeld zu verhindern. Dies macht KI-Wettbewerbe zu einer besonders wertvollen (aber unterausgeschöpften) Ressource. Es ist an der Zeit, dass das Feld KI-Wettbewerbe als den Goldstandard für empirische Strenge in der GenAI-Evaluierung betrachtet und ihre Ergebnisse entsprechend wertschätzt und nutzt.

DynamicRAG: Nutzung der Ausgaben großer Sprachmodelle als Feedback für dynamisches Neurausrichten in der retrievergestützten Generierung
DynamicRAG: Leveraging Outputs of Large Language Model as Feedback for Dynamic Reranking in Retrieval-Augmented Generation

May 12

ByJiashuo Sun, Xianrui Zhong, Sizhe Zhou, Jiawei Han

Retrieval-augmented Generation (RAG)-Systeme kombinieren große Sprachmodelle (LLMs) mit externer Wissensabfrage, wodurch sie besonders effektiv für wissensintensive Aufgaben sind. Eine entscheidende, aber oft wenig erforschte Komponente dieser Systeme ist der Reranker, der abgerufene Dokumente verfeinert, um die Generierungsqualität und Erklärbarkeit zu verbessern. Die Herausforderung, die optimale Anzahl von Dokumenten (k) auszuwählen, bleibt ungelöst: Zu wenige könnten kritische Informationen auslassen, während zu viele Rauschen und Ineffizienzen einführen. Obwohl neuere Studien LLM-basierte Reranker untersucht haben, nutzen diese hauptsächlich internes Modellwissen und übersehen die reichhaltigen Überwachungssignale, die LLMs liefern können, wie z. B. die Nutzung der Antwortqualität als Feedback zur Optimierung von Reranking-Entscheidungen. In diesem Artikel schlagen wir DynamicRAG vor, ein neuartiges RAG-Framework, bei dem der Reranker sowohl die Reihenfolge als auch die Anzahl der abgerufenen Dokumente dynamisch an die Anfrage anpasst. Wir modellieren den Reranker als Agenten, der durch Reinforcement Learning (RL) optimiert wird, wobei Belohnungen auf der Grundlage der LLM-Ausgabequalität abgeleitet werden. Über sieben wissensintensive Datensätze hinweg zeigt DynamicRAG eine überlegene Leistung und erzielt state-of-the-art Ergebnisse. Das Modell, die Daten und der Code sind unter https://github.com/GasolSun36/DynamicRAG verfügbar.

LLAMAPIE: Proaktive In-Ear-Konversationsassistenten
LLAMAPIE: Proactive In-Ear Conversation Assistants

May 7

ByTuochao Chen, Nicholas Batchelder, Alisa Liu, Noah Smith, Shyamnath Gollakota

Wir stellen LlamaPIE vor, den ersten Echtzeit-Proaktivassistenten, der entwickelt wurde, um menschliche Gespräche durch diskrete, prägnante Anleitungen zu verbessern, die über hörbare Geräte bereitgestellt werden. Im Gegensatz zu traditionellen Sprachmodellen, die eine explizite Benutzeraufforderung erfordern, arbeitet dieser Assistent im Hintergrund, antizipiert Benutzerbedürfnisse, ohne Gespräche zu unterbrechen. Wir adressieren mehrere Herausforderungen, darunter die Bestimmung des richtigen Zeitpunkts für eine Antwort, die Erstellung prägnanter Antworten, die Gespräche bereichern, die Nutzung von Benutzerwissen für kontextbewusste Unterstützung und die Echtzeitverarbeitung auf dem Gerät. Um dies zu erreichen, erstellen wir einen halbsynthetischen Dialogdatensatz und schlagen eine Zwei-Modell-Pipeline vor: ein kleines Modell, das entscheidet, wann geantwortet werden soll, und ein größeres Modell, das die Antwort generiert. Wir bewerten unseren Ansatz anhand realer Datensätze und demonstrieren seine Wirksamkeit bei der Bereitstellung hilfreicher, unaufdringlicher Unterstützung. Benutzerstudien mit unserem Assistenten, der auf Apple Silicon M2-Hardware implementiert ist, zeigen eine starke Präferenz für den proaktiven Assistenten im Vergleich zu einer Basislinie ohne Unterstützung und einem reaktiven Modell, was das Potenzial von LlamaPIE zur Verbesserung von Live-Gesprächen unterstreicht.

H^{3}DP: Dreifach-hierarchische Diffusionspolitik für visuomotorisches Lernen
H^{3}DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning

May 12

ByYiyang Lu, Yufeng Tian, Zhecheng Yuan, Xianbang Wang, Pu Hua, Zhengrong Xue, Huazhe Xu

Das Lernen von Visuomotorik-Policies hat erhebliche Fortschritte in der robotischen Manipulation erlebt, wobei neuere Ansätze überwiegend auf generative Modelle zurückgreifen, um die Aktionsverteilung zu modellieren. Diese Methoden übersehen jedoch oft die entscheidende Kopplung zwischen visueller Wahrnehmung und Aktionsvorhersage. In dieser Arbeit stellen wir die Triply-Hierarchical Diffusion Policy (H^{\mathbf{3}DP}) vor, ein neuartiges Framework für das Visuomotorik-Lernen, das explizit hierarchische Strukturen einbezieht, um die Integration zwischen visuellen Merkmalen und Aktionsgenerierung zu stärken. H^{3}DP umfasst drei Hierarchieebenen: (1) eine tiefenbewusste Eingabeschichtung, die RGB-D-Beobachtungen basierend auf Tiefeninformationen organisiert; (2) mehrstufige visuelle Repräsentationen, die semantische Merkmale auf verschiedenen Granularitätsebenen kodieren; und (3) einen hierarchisch bedingten Diffusionsprozess, der die Erzeugung von grob- bis feinabgestimmten Aktionen mit entsprechenden visuellen Merkmalen in Einklang bringt. Umfangreiche Experimente zeigen, dass H^{3}DP eine durchschnittliche relative Verbesserung von +27,5 % gegenüber den Baselines über 44 Simulationstasks erzielt und eine überlegene Leistung in 4 anspruchsvollen bimanuellen Manipulationsaufgaben in der realen Welt erreicht. Projektseite: https://lyy-iiis.github.io/h3dp/.

Überlaufvermeidung verbessert rekurrente LLMs mit langem Kontext
Overflow Prevention Enhances Long-Context Recurrent LLMs

May 12

ByAssaf Ben-Kish, Itamar Zimerman, M. Jehanzeb Mirza, James Glass, Leonid Karlinsky, Raja Giryes

Ein aktueller Trend bei großen Sprachmodellen (LLMs) ist die Entwicklung von rekurrenten sub-quadratischen Modellen, die die Effizienz bei der Verarbeitung langer Kontexte verbessern. Wir untersuchen führende große Modelle für lange Kontexte, wobei wir uns darauf konzentrieren, wie ihr festgelegter rekurrenter Speicher ihre Leistung beeinflusst. Unsere Experimente zeigen, dass selbst wenn diese Modelle für erweiterte Kontexte trainiert werden, ihre Nutzung langer Kontexte unterausgeschöpft bleibt. Insbesondere demonstrieren wir, dass ein chunk-basiertes Inferenzverfahren, das nur den relevantesten Teil der Eingabe identifiziert und verarbeitet, rekurrente Speicherfehler mildern und für viele Aufgaben mit langen Kontexten effektiv sein kann: Auf LongBench verbessert unsere Methode die Gesamtleistung von Falcon3-Mamba-Inst-7B um 14%, Falcon-Mamba-Inst-7B um 28%, RecurrentGemma-IT-9B um 50% und RWKV6-Finch-7B um 51%. Überraschenderweise führt dieser einfache Ansatz auch zu state-of-the-art Ergebnissen im anspruchsvollen LongBench v2 Benchmark und zeigt eine wettbewerbsfähige Leistung im Vergleich zu Transformern gleicher Größe. Darüber hinaus werfen unsere Ergebnisse Fragen auf, ob rekurrente Modelle tatsächlich langreichweitige Abhängigkeiten nutzen, da unsere Single-Chunk-Strategie eine stärkere Leistung liefert – selbst bei Aufgaben, die vermeintlich kontextübergreifende Beziehungen erfordern.

Dokumentenattribution: Untersuchung von Zitationsbeziehungen mithilfe von Large Language Models
Document Attribution: Examining Citation Relationships using Large Language Models

May 9

ByVipula Rawte, Ryan A. Rossi, Franck Dernoncourt, Nedim Lipka

Da große Sprachmodelle (LLMs) zunehmend für dokumentbasierte Aufgaben eingesetzt werden – wie Dokumentenzusammenfassung, Fragebeantwortung und Informationsextraktion –, bei denen sich die Benutzeranforderungen darauf konzentrieren, Informationen aus bereitgestellten Dokumenten abzurufen, anstatt sich auf das parametrische Wissen des Modells zu verlassen, ist die Sicherstellung der Vertrauenswürdigkeit und Interpretierbarkeit dieser Systeme zu einem zentralen Anliegen geworden. Ein zentraler Ansatz zur Bewältigung dieser Herausforderung ist die Attribution, bei der die generierten Ausgaben auf ihre Quelldokumente zurückverfolgt werden. Da LLMs jedoch ungenaue oder unpräzise Antworten liefern können, ist es entscheidend, die Zuverlässigkeit dieser Zitate zu bewerten. Um dies zu bewältigen, schlägt unsere Arbeit zwei Techniken vor. (1) Ein Zero-Shot-Ansatz, der Attribution als eine einfache Aufgabe der textuellen Implikation betrachtet. Unsere Methode mit flan-ul2 zeigt eine Verbesserung von 0,27 % und 2,4 % gegenüber der besten Baseline der ID- und OOD-Datensätze von AttributionBench. (2) Wir untersuchen auch die Rolle des Aufmerksamkeitsmechanismus bei der Verbesserung des Attributionsprozesses. Mit einem kleineren LLM, flan-t5-small, übertreffen die F1-Werte die Baseline in fast allen Schichten, mit Ausnahme von Schicht 4 und den Schichten 8 bis 11.

Physikgestütztes und topologieinformiertes Deep Learning für die Wettervorhersage
Physics-Assisted and Topology-Informed Deep Learning for Weather Prediction

May 8

ByJiaqi Zheng, Qing Ling, Yerong Feng

Obwohl Deep-Learning-Modelle ein bemerkenswertes Potenzial in der Wettervorhersage gezeigt haben, übersehen die meisten von ihnen entweder die Physik der zugrunde liegenden Wetterentwicklung oder die Topologie der Erdoberfläche. Angesichts dieser Nachteile entwickeln wir PASSAT, ein neuartiges Physics-ASSisted And Topology-informed Deep-Learning-Modell für die Wettervorhersage. PASSAT führt die Wetterentwicklung auf zwei Schlüsselfaktoren zurück: (i) den Advektionsprozess, der durch die Advektionsgleichung und die Navier-Stokes-Gleichung charakterisiert werden kann; (ii) die Wechselwirkung zwischen Erde und Atmosphäre, die sowohl schwer zu modellieren als auch zu berechnen ist. PASSAT berücksichtigt auch die Topologie der Erdoberfläche, anstatt sie einfach als Ebene zu behandeln. Mit diesen Überlegungen löst PASSAT numerisch die Advektionsgleichung und die Navier-Stokes-Gleichung auf der sphärischen Mannigfaltigkeit, nutzt ein sphärisches Graph-Neuronales Netzwerk, um die Wechselwirkung zwischen Erde und Atmosphäre zu erfassen, und generiert die Anfangsgeschwindigkeitsfelder, die für die Lösung der Advektionsgleichung entscheidend sind, aus demselben sphärischen Graph-Neuronalen Netzwerk. Im 5,625°-Auflösungs-ERA5-Datensatz übertrifft PASSAT sowohl die modernsten Deep-Learning-basierten Wettervorhersagemodelle als auch das operationelle numerische Wettervorhersagemodell IFS T42. Code und Checkpoint sind verfügbar unter https://github.com/Yumenomae/PASSAT_5p625.

Multi-Objective-gesteuertes diskretes Flow Matching für kontrollierbare biologische Sequenzdesign
Multi-Objective-Guided Discrete Flow Matching for Controllable Biological Sequence Design

May 11

ByTong Chen, Yinuo Zhang, Sophia Tang, Pranam Chatterjee

Die Gestaltung biologischer Sequenzen, die mehrere, oft widersprüchliche funktionelle und biophysikalische Kriterien erfüllen, bleibt eine zentrale Herausforderung im Bereich des Biomoleküldesigns. Während diskrete Flow-Matching-Modelle kürzlich vielversprechende Ansätze für effizientes Sampling in hochdimensionalen Sequenzräumen gezeigt haben, adressieren bestehende Methoden nur einzelne Ziele oder erfordern kontinuierliche Einbettungen, die diskrete Verteilungen verzerren können. Wir stellen Multi-Objective-Guided Discrete Flow Matching (MOG-DFM) vor, ein allgemeines Framework, um jeden vortrainierten diskreten Flow-Matching-Generator in Richtung Pareto-effizienter Kompromisse über mehrere skalare Ziele zu steuern. Bei jedem Sampling-Schritt berechnet MOG-DFM einen hybriden Rang-Richtungs-Score für Kandidatenübergänge und wendet einen adaptiven Hyperkegel-Filter an, um konsistenten Fortschritt bei mehreren Zielen zu gewährleisten. Wir haben außerdem zwei unkonditionierte diskrete Flow-Matching-Modelle trainiert, PepDFM für die Erzeugung diverser Peptide und EnhancerDFM für die Generierung funktioneller Enhancer-DNA, als Basismodelle für MOG-DFM. Wir demonstrieren die Wirksamkeit von MOG-DFM bei der Erzeugung von Peptidbindern, die über fünf Eigenschaften optimiert sind (Hämolyse, Anti-Fouling, Löslichkeit, Halbwertszeit und Bindungsaffinität), sowie beim Design von DNA-Sequenzen mit spezifischen Enhancer-Klassen und DNA-Formen. Insgesamt erweist sich MOG-DFM als ein leistungsstarkes Werkzeug für das multi-eigenschaftsgesteuerte Design von Biomolekülsequenzen.

Seed1.5-VL Technischer Bericht
Seed1.5-VL Technical Report

May 11

154