papers.title

papers.description

DeepSeek-R1: Anreizung der Fähigkeit zur Schlussfolgerung in LLMs durch Reinforcement Learning
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Jan 22

ByDeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen Zhang

438

Wir stellen unsere Reasoning-Modelle der ersten Generation vor, DeepSeek-R1-Zero und DeepSeek-R1. DeepSeek-R1-Zero, ein Modell, das durch groß angelegtes Reinforcement-Learning (RL) ohne überwachtes Feintuning (SFT) als vorläufiger Schritt trainiert wurde, zeigt bemerkenswerte Reasoning-Fähigkeiten. Durch RL entwickelt DeepSeek-R1-Zero natürlicherweise zahlreiche leistungsstarke und faszinierende Reasoning-Verhaltensweisen. Es sieht sich jedoch Herausforderungen wie schlechter Lesbarkeit und Sprachvermischung gegenüber. Um diese Probleme anzugehen und die Reasoning-Performance weiter zu verbessern, stellen wir DeepSeek-R1 vor, das mehrstufiges Training und Cold-Start-Daten vor dem RL integriert. DeepSeek-R1 erreicht eine Leistung, die mit OpenAI-o1-1217 bei Reasoning-Aufgaben vergleichbar ist. Um die Forschungsgemeinschaft zu unterstützen, stellen wir DeepSeek-R1-Zero, DeepSeek-R1 und sechs dichte Modelle (1,5B, 7B, 8B, 14B, 32B, 70B) vor, die auf Qwen und Llama basierend aus DeepSeek-R1 destilliert wurden, als Open Source zur Verfügung.

Kimi k1.5: Skalierung von Reinforcement Learning mit LLMs
Kimi k1.5: Scaling Reinforcement Learning with LLMs

Jan 22

ByKimi Team, Angang Du, Bofei Gao, Bowei Xing, Changjiu Jiang, Cheng Chen, Cheng Li, Chenjun Xiao, Chenzhuang Du, Chonghua Liao, Chuning Tang, Congcong Wang, Dehao Zhang, Enming Yuan, Enzhe Lu, Fengxiang Tang, Flood Sung, Guangda Wei, Guokun Lai, Haiqing Guo, Han Zhu, Hao Ding, Hao Hu, Hao Yang, Hao Zhang, Haotian Yao, Haotian Zhao, Haoyu Lu, Haoze Li, Haozhen Yu, Hongcheng Gao, Huabin Zheng, Huan Yuan, Jia Chen, Jianhang Guo, Jianlin Su, Jianzhou Wang, Jie Zhao, Jin Zhang, Jingyuan Liu, Junjie Yan, Junyan Wu, Lidong Shi, Ling Ye, Longhui Yu, Mengnan Dong, Neo Zhang, Ningchen Ma, Qiwei Pan, Qucheng Gong, Shaowei Liu, Shengling Ma, Shupeng Wei, Sihan Cao, Siying Huang, Tao Jiang, Weihao Gao, Weimin Xiong, Weiran He, Weixiao Huang, Wenhao Wu, Wenyang He, Xianghui Wei, Xianqing Jia, Xingzhe Wu, Xinran Xu, Xinxing Zu, Xinyu Zhou, Xuehai Pan, Y. Charles, Yang Li, Yangyang Hu, Yangyang Liu, Yanru Chen, Yejie Wang, Yibo Liu, Yidao Qin, Yifeng Liu, Ying Yang, Yiping Bao, Yulun Du, Yuxin Wu, Yuzhi Wang, Zaida Zhou, Zhaoji Wang, Zhaowei Li, Zhen Zhu, Zheng Zhang, Zhexu Wang, Zhilin Yang, Zhiqi Huang, Zihao Huang, Ziyao Xu, Zonghan Yang

126

Die Vorbereitung von Sprachmodellen durch Vorhersage des nächsten Tokens hat sich als wirksam erwiesen, um die Rechenleistung zu skalieren, ist jedoch auf die Menge der verfügbaren Trainingsdaten begrenzt. Die Skalierung des Reinforcement Learning (RL) eröffnet eine neue Dimension für die kontinuierliche Verbesserung der künstlichen Intelligenz, mit der Aussicht, dass große Sprachmodelle (LLMs) ihre Trainingsdaten durch das Erlernen von Erkundungen mit Belohnungen skalieren können. Bisherige Veröffentlichungen haben jedoch keine wettbewerbsfähigen Ergebnisse erzielt. Vor diesem Hintergrund berichten wir über die Trainingspraxis von Kimi k1.5, unserem neuesten multimodalen LLM, der mit RL trainiert wurde, einschließlich seiner RL-Trainingsmethoden, multimodalen Datenvorschriften und Infrastrukturoptimierung. Die Skalierung langer Kontexte und verbesserte Methoden zur Richtlinienoptimierung sind Schlüsselelemente unseres Ansatzes, der ein einfaches, effektives RL-Framework etabliert, ohne auf komplexere Techniken wie Monte-Carlo-Baumsuche, Wertefunktionen und Prozessbelohnungsmodelle angewiesen zu sein. Bemerkenswerterweise erreicht unser System eine Spitzenleistung bei der Argumentation über mehrere Benchmarks und Modalitäten – z. B. 77,5 bei AIME, 96,2 bei MATH 500, 94. Perzentil bei Codeforces, 74,9 bei MathVista – und entspricht damit dem Stand der Technik von OpenAI's o1. Darüber hinaus präsentieren wir effektive Long2Short-Methoden, die Long-CoT-Techniken verwenden, um Short-CoT-Modelle zu verbessern, was zu Spitzenleistungen bei der Short-CoT-Argumentation führt – z. B. 60,8 bei AIME, 94,6 bei MATH500, 47,3 bei LiveCodeBench – und bestehende Short-CoT-Modelle wie GPT-4o und Claude Sonnet 3.5 deutlich übertreffen (um bis zu +550 %).

VideoLLaMA 3: Frontier Multimodale Grundlagenmodelle für die Bild- und Videoverarbeitung
VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

Jan 22

ByBoqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao

In diesem Paper schlagen wir VideoLLaMA3 vor, ein fortschrittliches multimodales Grundlagenmodell für die Bild- und Videoverarbeitung. Die Kern-Designphilosophie von VideoLLaMA3 ist visionzentriert. Die Bedeutung von "visionzentriert" ist zweigleisig: das visionzentrierte Trainingsparadigma und das visionzentrierte Framework-Design. Der Schlüsselerkenntnis unseres visionzentrierten Trainingsparadigmas ist, dass hochwertige Bild-Text-Daten sowohl für die Bild- als auch für die Videoverarbeitung entscheidend sind. Anstatt umfangreiche Video-Text-Datensätze vorzubereiten, konzentrieren wir uns auf den Aufbau von groß angelegten und hochwertigen Bild-Text-Datensätzen. VideoLLaMA3 durchläuft vier Trainingsphasen: 1) die visionzentrierte Ausrichtungsphase, die den Vision-Encoder und Projektor vorbereitet; 2) die vision-sprachliche Vorabstufe, die den Vision-Encoder, Projektor und LLM mit groß angelegten Bild-Text-Daten unterschiedlicher Typen (einschließlich Szenenbildern, Dokumenten, Diagrammen) sowie reinen Textdaten gemeinsam abstimmt; 3) die Mehrfachaufgabenfeinabstimmung, die Bild-Text-SFT-Daten für nachgelagerte Aufgaben und Video-Text-Daten zur Grundlage für die Videoverarbeitung einbezieht; 4) die videozentrierte Feinabstimmung, die die Fähigkeiten des Modells in der Videoverarbeitung weiter verbessert. In Bezug auf das Framework-Design wird der vortrainierte Vision-Encoder angepasst, um Bilder unterschiedlicher Größen in Vision-Token mit entsprechenden Nummern anstatt einer festen Anzahl von Tokens zu kodieren, um feingranulare Details in Bildern besser erfassen zu können. Für Videoeingaben reduzieren wir die Anzahl der Vision-Tokens entsprechend ihrer Ähnlichkeit, sodass die Repräsentation von Videos präziser und kompakter wird. Dank der visionzentrierten Designs erzielt VideoLLaMA3 überzeugende Leistungen in Bild- und Videoverarbeitungs-Benchmarks.

FilmAgent: Ein Multi-Agenten-Framework für die End-to-End-Filmautomatisierung in virtuellen 3D-Räumen.
FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces

Jan 22

ByZhenran Xu, Longyue Wang, Jifang Wang, Zhouyi Li, Senbao Shi, Xue Yang, Yiyu Wang, Baotian Hu, Jun Yu, Min Zhang

Die virtuelle Filmproduktion erfordert komplexe Entscheidungsprozesse, einschließlich Drehbuchschreiben, virtueller Kamerarbeit und präziser Positionierung und Handlungen der Schauspieler. Inspiriert von den jüngsten Fortschritten bei automatisierten Entscheidungsfindungen mit sprachbasierten Agentengesellschaften, stellt dieser Artikel FilmAgent vor, ein neuartiges LLM-basiertes Multi-Agenten-Kollaborationsframework für die vollständige Automatisierung von Filmen in unseren konstruierten 3D-Virtualräumen. FilmAgent simuliert verschiedene Crew-Rollen, darunter Regisseure, Drehbuchautoren, Schauspieler und Kameraleute, und umfasst Schlüsselphasen eines Filmproduktions-Workflows: (1) Die Ideenentwicklung verwandelt gesammelte Ideen in strukturierte Handlungsabläufe; (2) Das Drehbuch erweitert Dialoge und Charakterhandlungen für jede Szene; (3) Die Kamerakunst bestimmt die Kameraeinstellungen für jede Aufnahme. Ein Team von Agenten arbeitet durch iterative Rückmeldungen und Überarbeitungen zusammen, um Zwischenskripte zu überprüfen und Halluzinationen zu reduzieren. Wir bewerten die generierten Videos anhand von 15 Ideen und 4 Schlüsselaspekten. Die menschliche Bewertung zeigt, dass FilmAgent in allen Aspekten alle Baselines übertrifft und durchschnittlich 3,98 von 5 Punkten erreicht, was die Machbarkeit der Multi-Agenten-Kollaboration in der Filmproduktion zeigt. Eine weitere Analyse zeigt, dass FilmAgent trotz Verwendung des weniger fortschrittlichen GPT-4o-Modells den einzelnen Agenten o1 übertrifft und somit den Vorteil eines gut koordinierten Multi-Agenten-Systems zeigt. Abschließend diskutieren wir die ergänzenden Stärken und Schwächen von OpenAIs Text-zu-Video-Modell Sora und unserem FilmAgent in der Filmproduktion.

Testzeit-Präferenzoptimierung: On-the-Fly-Ausrichtung durch iterative textuelle Rückmeldung
Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

Jan 22

ByYafu Li, Xuyang Hu, Xiaoye Qu, Linjie Li, Yu Cheng

Große Sprachmodelle (LLMs) zeigen beeindruckende Leistungen, aber es fehlt ihnen die Flexibilität, sich schnell an menschliche Präferenzen anzupassen, ohne erneutes Training. In dieser Arbeit stellen wir Testzeit-Präferenzoptimierung (TPO) vor, ein Framework, das die Ausgaben von LLMs während der Inferenz mit menschlichen Präferenzen abgleicht, ohne dass eine Aktualisierung der Modellparameter erforderlich ist. Anstatt sich ausschließlich auf numerische Belohnungen zu verlassen, übersetzt TPO Belohnungssignale in textuelle Kritiken und verwendet sie als textuelle Belohnungen, um seine Antwort iterativ zu verfeinern. Evaluationen anhand von Benchmarks zu Anweisungsverfolgung, Präferenzabstimmung, Sicherheit und Mathematik zeigen, dass TPO die Ausrichtung auf menschliche Präferenzen kontinuierlich verbessert. Bemerkenswert ist, dass das zunächst nicht ausgerichtete Llama-3.1-70B-SFT-Modell nach nur wenigen TPO-Schritten das ausgerichtete Gegenstück, Llama-3.1-70B-Instruct, übertreffen kann. Darüber hinaus skaliert TPO effizient sowohl mit der Suchbreite als auch mit der Suchtiefe während der Inferenz. Anhand von Fallstudien zeigen wir, wie TPO die angeborene Fähigkeit von LLMs nutzt, Belohnungssignale zu interpretieren und darauf zu reagieren. Unsere Ergebnisse etablieren TPO als praktische, leichtgewichtige Alternative für die Optimierung von Präferenzen zur Testzeit und ermöglichen eine schnelle Ausrichtung. Unser Code ist öffentlich verfügbar unter https://github.com/yafuly/TPO.

Modelle zur Autonomie von Experten
Autonomy-of-Experts Models

Jan 22

ByAng Lv, Ruobing Xie, Yining Qian, Songhao Wu, Xingwu Sun, Zhanhui Kang, Di Wang, Rui Yan

Mixture-of-Experts (MoE) Modelle verwenden hauptsächlich einen Router, um Tokens spezifischen Expertenmodulen zuzuweisen, wodurch nur teilweise Parameter aktiviert werden und sie oft dicht besetzte Modelle übertreffen. Wir argumentieren, dass die Trennung zwischen der Entscheidungsfindung des Routers und der Ausführung der Experten ein kritisches, aber übersehenes Problem darstellt, das zu einer suboptimalen Expertenauswahl und ineffektivem Lernen führt. Um dies zu lösen, schlagen wir Autonomy-of-Experts (AoE) vor, ein neuartiges MoE-Paradigma, bei dem Experten sich autonom auswählen, um Eingaben zu verarbeiten. AoE basiert auf der Erkenntnis, dass ein Experte sich seiner eigenen Fähigkeit bewusst ist, ein Token effektiv zu verarbeiten, ein Bewusstsein, das sich im Ausmaß seiner internen Aktivierungen widerspiegelt. In AoE werden Router entfernt; stattdessen berechnen Experten interne Aktivierungen für Eingaben im Voraus und werden basierend auf ihren Aktivierungsnormen eingestuft. Nur die am besten eingestuften Experten setzen den Vorwärtspass fort, während die anderen abbrechen. Der Overhead der Vorab-Berechnung von Aktivierungen wird durch eine Faktorisierung von Gewichtsfaktoren mit niedrigem Rang reduziert. Dieser Ansatz des Selbstbewertens-und-Partner-Vergleichens gewährleistet eine verbesserte Expertenauswahl und effektives Lernen. Wir trainieren Sprachmodelle mit 700M bis zu 4B Parametern vor und zeigen, dass AoE traditionelle MoE-Modelle mit vergleichbarer Effizienz übertrifft.

O1-Pruner: Längenharmonisierendes Feintuning für O1-ähnliches Schlussfolgerungs-Pruning
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

Jan 22

ByHaotian Luo, Li Shen, Haiying He, Yibo Wang, Shiwei Liu, Wei Li, Naiqiang Tan, Xiaochun Cao, Dacheng Tao

In letzter Zeit übernehmen lang überlegte Schlussfolgerungs-LLMs, wie OpenAIs O1, erweiterte Schlussfolgerungsprozesse, die ähnlich sind wie die Art und Weise, wie Menschen über komplexe Probleme nachdenken. Dieses Schlussfolgerungsparadigma verbessert signifikant die Problemlösungsfähigkeiten des Modells und hat vielversprechende Ergebnisse erzielt. Allerdings führt der lang überlegte Schlussfolgerungsprozess zu einer erheblichen Zunahme der Inferenzzeit. Eine dringende Herausforderung besteht darin, den Inferenzaufwand von lang überlegten LLMs zu reduzieren, während die Genauigkeit gewährleistet wird. In diesem Papier zeigen wir experimentell, dass lang überlegte Schlussfolgerungsmodelle Schwierigkeiten haben, Token-Budgets basierend auf der Problemkomplexität und Schlussfolgerungsüberflüssigkeiten effektiv zuzuweisen. Um dies zu lösen, schlagen wir das Längen-Harmonisierungs-Finetuning (O1-Pruner) vor, das darauf abzielt, den Schlussfolgerungsaufwand zu minimieren, während die Genauigkeit beibehalten wird. Diese effektive Feinabstimmungsmethode schätzt zunächst die Baseline-Leistung des LLMs durch Vorabstichproben ab und verwendet dann ein RL-ähnliches Feintuning, um das Modell dazu zu ermutigen, kürzere Schlussfolgerungsprozesse unter Genauigkeitsbeschränkungen zu generieren. Dies ermöglicht es dem Modell, effiziente Schlussfolgerungen mit geringerer Redundanz zu erreichen, während die Genauigkeit beibehalten wird. Experimente an verschiedenen mathematischen Schlussfolgerungs-Benchmarks zeigen, dass O1-Pruner nicht nur den Inferenzaufwand signifikant reduziert, sondern auch eine höhere Genauigkeit erzielt und somit eine neuartige und vielversprechende Lösung für diese Herausforderung bietet. Unser Code wird bald unter https://github.com/StarDewXXX/O1-Pruner verfügbar sein.

Paarweises RM: Führen Sie Best-of-N-Sampling mit Knockout-Turnieren durch.
Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament

Jan 22

ByYantao Liu, Zijun Yao, Rui Min, Yixin Cao, Lei Hou, Juanzi Li

Die Best-of-N (BoN)-Stichprobenziehung, eine gängige Strategie zur Skalierung von Large Language Models (LLMs) zur Testzeit, basiert auf Belohnungsmodellen, um die beste Kandidatenlösung aus mehreren Generationen auszuwählen. Traditionelle Belohnungsmodelle weisen jedoch oft willkürliche und inkonsistente Bewertungen auf, was ihre Wirksamkeit einschränkt. Um diesem Problem zu begegnen, schlagen wir ein Pairwise Reward Model (Pairwise RM) in Kombination mit einem Knockout-Turnier für BoN-Stichprobenziehung vor. Anstatt absolute Bewertungen zuzuweisen, bewertet Pairwise RM bei einem mathematischen Problem gleichzeitig die Korrektheit von zwei Kandidatenlösungen. Dieser Ansatz beseitigt die Notwendigkeit willkürlicher Bewertungen und ermöglicht die Kreuzvalidierung von Lösungen durch den parallelen Vergleich. Im Knockout-Turnier führt Pairwise RM paarweise Vergleiche zwischen Kandidatenlösungen durch und eliminiert iterativ die inkorrekten. Wir erstellen \ourdataset, einen groß angelegten Datensatz von 443K paarweisen Vergleichen, abgeleitet von NumiaMath und annotiert mit gemini-1.5-flash, und trainieren das Pairwise RM durch überwachtes Feintuning. Experimente mit MATH-500 und dem Olympiad Bench zeigen signifikante Verbesserungen gegenüber traditionellen diskriminativen Belohnungsmodellen. Eine 40\% bis 60\% relative Verbesserung wird bei den 50\% schwierigsten Problemen erzielt.

Fast3R: Auf dem Weg zur 3D-Rekonstruktion von über 1000 Bildern in einem Vorwärtsschritt
Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

Jan 23

ByJianing Yang, Alexander Sax, Kevin J. Liang, Mikael Henaff, Hao Tang, Ang Cao, Joyce Chai, Franziska Meier, Matt Feiszli

Die mehrblickige 3D-Rekonstruktion bleibt eine zentrale Herausforderung in der Computer Vision, insbesondere bei Anwendungen, die genaue und skalierbare Darstellungen aus verschiedenen Perspektiven erfordern. Aktuelle führende Methoden wie DUSt3R verwenden einen grundlegend paarweisen Ansatz, der Bilder paarweise verarbeitet und kostspielige globale Ausrichtungsverfahren erfordert, um aus mehreren Ansichten zu rekonstruieren. In dieser Arbeit schlagen wir Fast 3D Reconstruction (Fast3R) vor, eine neuartige mehrblickige Verallgemeinerung von DUSt3R, die durch die parallele Verarbeitung vieler Ansichten eine effiziente und skalierbare 3D-Rekonstruktion erreicht. Die auf Transformer basierende Architektur von Fast3R leitet N Bilder in einem einzigen Vorwärtspass weiter, ohne die Notwendigkeit iterativer Ausrichtung. Durch umfangreiche Experimente zur Kamerapositionsschätzung und 3D-Rekonstruktion zeigt Fast3R eine Leistung auf dem neuesten Stand der Technik mit signifikanten Verbesserungen in der Inferenzgeschwindigkeit und reduzierter Fehlerakkumulation. Diese Ergebnisse etablieren Fast3R als robuste Alternative für mehrblickige Anwendungen, die eine verbesserte Skalierbarkeit bietet, ohne die Rekonstruktionsgenauigkeit zu beeinträchtigen.

IntellAgent: Ein Multi-Agenten-Framework zur Evaluierung von Konversations-KI-Systemen
IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems

Jan 19

ByElad Levi, Ilan Kadar

Große Sprachmodelle (LLMs) transformieren künstliche Intelligenz und entwickeln sich zu aufgabenorientierten Systemen, die in der Lage sind, autonom zu planen und auszuführen. Eine der Hauptanwendungen von LLMs sind dialogorientierte KI-Systeme, die mehrstufige Dialoge bewältigen, domänenspezifische APIs integrieren und strengen Richtlinien unterliegen müssen. Die Bewertung dieser Agenten bleibt jedoch eine bedeutende Herausforderung, da herkömmliche Methoden die Komplexität und Variabilität realer Interaktionen nicht erfassen können. Wir stellen IntellAgent vor, ein skalierbares, Open-Source-Multi-Agenten-Framework, das entwickelt wurde, um dialogorientierte KI-Systeme umfassend zu bewerten. IntellAgent automatisiert die Erstellung vielfältiger, synthetischer Benchmarks, indem es policygesteuertes Graphenmodellieren, realistische Ereignisgenerierung und interaktive Benutzer-Agenten-Simulationen kombiniert. Dieser innovative Ansatz bietet feingliedrige Diagnosen, um die Einschränkungen statischer und manuell kuratierter Benchmarks mit grobkörnigen Metriken zu bewältigen. IntellAgent stellt einen Paradigmenwechsel in der Bewertung dialogorientierter KI dar. Durch die Simulation realistischer, multipolitischer Szenarien mit unterschiedlichen Komplexitätsgraden erfasst IntellAgent das nuancierte Zusammenspiel von Agentenfähigkeiten und Richtlinienbeschränkungen. Im Gegensatz zu traditionellen Methoden verwendet es ein graphenbasiertes Richtlinienmodell, um Beziehungen, Wahrscheinlichkeiten und Komplexitäten von Richtlinieninteraktionen darzustellen und hochdetaillierte Diagnosen zu ermöglichen. IntellAgent identifiziert auch kritische Leistungslücken und bietet handlungsorientierte Einblicke zur gezielten Optimierung. Sein modulares, Open-Source-Design unterstützt eine nahtlose Integration neuer Domänen, Richtlinien und APIs, fördert die Reproduzierbarkeit und die Zusammenarbeit in der Gemeinschaft. Unsere Ergebnisse zeigen, dass IntellAgent ein effektives Framework zur Weiterentwicklung dialogorientierter KI darstellt, indem es Herausforderungen bei der Verbindung von Forschung und Bereitstellung angeht. Das Framework ist unter https://github.com/plurai-ai/intellagent verfügbar.

papers.title

papers.description

DeepSeek-R1: Anreizung der Fähigkeit zur Schlussfolgerung in LLMs durch Reinforcement Learning
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Jan 22

438

Kimi k1.5: Skalierung von Reinforcement Learning mit LLMs
Kimi k1.5: Scaling Reinforcement Learning with LLMs

Jan 22

126

VideoLLaMA 3: Frontier Multimodale Grundlagenmodelle für die Bild- und Videoverarbeitung
VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

Jan 22

ByBoqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao

FilmAgent: Ein Multi-Agenten-Framework für die End-to-End-Filmautomatisierung in virtuellen 3D-Räumen.
FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces

Jan 22

ByZhenran Xu, Longyue Wang, Jifang Wang, Zhouyi Li, Senbao Shi, Xue Yang, Yiyu Wang, Baotian Hu, Jun Yu, Min Zhang

Testzeit-Präferenzoptimierung: On-the-Fly-Ausrichtung durch iterative textuelle Rückmeldung
Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

Jan 22

ByYafu Li, Xuyang Hu, Xiaoye Qu, Linjie Li, Yu Cheng

Modelle zur Autonomie von Experten
Autonomy-of-Experts Models

Jan 22

ByAng Lv, Ruobing Xie, Yining Qian, Songhao Wu, Xingwu Sun, Zhanhui Kang, Di Wang, Rui Yan

O1-Pruner: Längenharmonisierendes Feintuning für O1-ähnliches Schlussfolgerungs-Pruning
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

Jan 22

ByHaotian Luo, Li Shen, Haiying He, Yibo Wang, Shiwei Liu, Wei Li, Naiqiang Tan, Xiaochun Cao, Dacheng Tao

Paarweises RM: Führen Sie Best-of-N-Sampling mit Knockout-Turnieren durch.
Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament

Jan 22

ByYantao Liu, Zijun Yao, Rui Min, Yixin Cao, Lei Hou, Juanzi Li

Fast3R: Auf dem Weg zur 3D-Rekonstruktion von über 1000 Bildern in einem Vorwärtsschritt
Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

Jan 23

ByJianing Yang, Alexander Sax, Kevin J. Liang, Mikael Henaff, Hao Tang, Ang Cao, Joyce Chai, Franziska Meier, Matt Feiszli

IntellAgent: Ein Multi-Agenten-Framework zur Evaluierung von Konversations-KI-Systemen
IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems

Jan 19

ByElad Levi, Ilan Kadar