HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

14 papers found

GLM-4.5: Agentische, schlussfolgernde und programmierende (ARC) Basismodelle
GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

Aug 8

ByGLM-4. 5 Team, Aohan Zeng, Xin Lv, Qinkai Zheng, Zhenyu Hou, Bin Chen, Chengxing Xie, Cunxiang Wang, Da Yin, Hao Zeng, Jiajie Zhang, Kedong Wang, Lucen Zhong, Mingdao Liu, Rui Lu, Shulin Cao, Xiaohan Zhang, Xuancheng Huang, Yao Wei, Yean Cheng, Yifan An, Yilin Niu, Yuanhao Wen, Yushi Bai, Zhengxiao Du, Zihan Wang, Zilin Zhu, Bohan Zhang, Bosi Wen, Bowen Wu, Bowen Xu, Can Huang, Casey Zhao, Changpeng Cai, Chao Yu, Chen Li, Chendi Ge, Chenghua Huang, Chenhui Zhang, Chenxi Xu, Chenzheng Zhu, Chuang Li, Congfeng Yin, Daoyan Lin, Dayong Yang, Dazhi Jiang, Ding Ai, Erle Zhu, Fei Wang, Gengzheng Pan, Guo Wang, Hailong Sun, Haitao Li, Haiyang Li, Haiyi Hu, Hanyu Zhang, Hao Peng, Hao Tai, Haoke Zhang, Haoran Wang, Haoyu Yang, He Liu, He Zhao, Hongwei Liu, Hongxi Yan, Huan Liu, Huilong Chen, Ji Li, Jiajing Zhao, Jiamin Ren, Jian Jiao, Jiani Zhao, Jianyang Yan, Jiaqi Wang, Jiayi Gui, Jiayue Zhao, Jie Liu, Jijie Li, Jing Li, Jing Lu, Jingsen Wang, Jingwei Yuan, Jingxuan Li, Jingzhao Du, Jinhua Du, Jinxin Liu, Junkai Zhi, Junli Gao, Ke Wang, Lekang Yang, Liang Xu, Lin Fan, Lindong Wu, Lintao Ding, Lu Wang, Man Zhang, Minghao Li, Minghuan Xu, Mingming Zhao, Mingshu Zhai, Pengfan Du, Qian Dong, Shangde Lei, Shangqing Tu, Shangtong Yang, Shaoyou Lu, Shijie Li, Shuang Li, Shuang-Li, Shuxun Yang, Sibo Yi, Tianshu Yu, Wei Tian, Weihan Wang, Wenbo Yu, Weng Lam Tam, Wenjie Liang, Wentao Liu, Xiao Wang, Xiaohan Jia, Xiaotao Gu, Xiaoying Ling, Xin Wang, Xing Fan, Xingru Pan, Xinyuan Zhang, Xinze Zhang, Xiuqing Fu, Xunkai Zhang, Yabo Xu, Yandong Wu, Yida Lu, Yidong Wang, Yilin Zhou, Yiming Pan, Ying Zhang, Yingli Wang, Yingru Li, Yinpei Su, Yipeng Geng, Yitong Zhu, Yongkun Yang, Yuhang Li, Yuhao Wu, Yujiang Li, Yunan Liu, Yunqing Wang, Yuntao Li, Yuxuan Zhang, Zezhen Liu, Zhen Yang, Zhengda Zhou, Zhongpei Qiao, Zhuoer Feng, Zhuorui Liu, Zichen Zhang, Zihan Wang, Zijun Yao, Zikang Wang, Ziqiang Liu, Ziwei Chai, Zixuan Li, Zuodong Zhao, Wenguang Chen, Jidong Zhai, Bin Xu, Minlie Huang, Hongning Wang, Juanzi Li, Yuxiao Dong, Jie Tang

182

Wir präsentieren GLM-4.5, ein quelloffenes Mixture-of-Experts (MoE)-Modell für große Sprachmodelle mit insgesamt 355 Milliarden Parametern und 32 Milliarden aktivierten Parametern, das eine hybride Denkmethode unterstützt, die sowohl Denk- als auch Direktantwortmodi ermöglicht. Durch mehrstufiges Training mit 23 Billionen Tokens und umfassendes Nachtraining mit Expertenmodelliteration und Verstärkungslernen erzielt GLM-4.5 starke Leistungen in agentenbasierten, schlussfolgernden und Programmieraufgaben (ARC), mit 70,1 % auf TAU-Bench, 91,0 % auf AIME 24 und 64,2 % auf SWE-bench Verified. Mit deutlich weniger Parametern als mehrere Konkurrenzmodelle belegt GLM-4.5 den 3. Platz insgesamt unter allen bewerteten Modellen und den 2. Platz auf agentenbasierten Benchmarks. Wir veröffentlichen sowohl GLM-4.5 (355 Milliarden Parameter) als auch eine kompakte Version, GLM-4.5-Air (106 Milliarden Parameter), um die Forschung in schlussfolgernden und agentenbasierten KI-Systemen voranzutreiben. Code, Modelle und weitere Informationen sind unter https://github.com/zai-org/GLM-4.5 verfügbar.

Voost: Ein einheitlicher und skalierbarer Diffusions-Transformer für bidirektionales virtuelles An- und Ausprobieren
Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off

Aug 6

BySeungyong Lee, Jeong-gi Kwak

Virtual Try-on zielt darauf ab, ein realistisches Bild einer Person zu synthetisieren, die ein bestimmtes Kleidungsstück trägt, doch die präzise Modellierung der Korrespondenz zwischen Kleidung und Körper bleibt eine anhaltende Herausforderung, insbesondere bei Variationen in Pose und Erscheinung. In diesem Artikel stellen wir Voost vor – ein einheitliches und skalierbares Framework, das Virtual Try-on und Try-off gemeinsam mit einem einzigen Diffusion Transformer lernt. Durch die gemeinsame Modellierung beider Aufgaben ermöglicht Voost, dass jedes Kleidungsstück-Person-Paar beide Richtungen überwacht und eine flexible Konditionierung über die Generierungsrichtung und Kleidungskategorie unterstützt, wodurch die relationale Schlussfolgerung zwischen Kleidung und Körper verbessert wird, ohne auf aufgabenspezifische Netzwerke, zusätzliche Verlustfunktionen oder zusätzliche Labels zurückzugreifen. Darüber hinaus führen wir zwei Inferenzzeit-Techniken ein: Attention Temperature Scaling für Robustheit gegenüber Auflösungs- oder Maskenvariationen und Self-Corrective Sampling, das die bidirektionale Konsistenz zwischen den Aufgaben nutzt. Umfangreiche Experimente zeigen, dass Voost state-of-the-art Ergebnisse sowohl bei Try-on- als auch bei Try-off-Benchmarks erzielt und starke Baselines in Bezug auf Ausrichtungsgenauigkeit, visuelle Qualität und Generalisierung konsequent übertrifft.

Memp: Untersuchung des prozeduralen Gedächtnisses von Agenten
Memp: Exploring Agent Procedural Memory

Aug 8

ByRunnan Fang, Yuan Liang, Xiaobin Wang, Jialong Wu, Shuofei Qiao, Pengjun Xie, Fei Huang, Huajun Chen, Ningyu Zhang

Große Sprachmodelle (LLMs) basierte Agenten zeichnen sich durch ihre Fähigkeit aus, vielfältige Aufgaben zu bewältigen, leiden jedoch unter einem brüchigen prozeduralen Gedächtnis, das manuell konstruiert oder in statischen Parametern verankert ist. In dieser Arbeit untersuchen wir Strategien, um Agenten mit einem erlernbaren, aktualisierbaren und lebenslangen prozeduralen Gedächtnis auszustatten. Wir schlagen Memp vor, das vergangene Agenten-Trajektorien sowohl in feinkörnige, schrittweise Anweisungen als auch in höhere, skriptartige Abstraktionen destilliert, und erforschen die Auswirkungen verschiedener Strategien für den Aufbau, die Abfrage und die Aktualisierung des prozeduralen Gedächtnisses. In Verbindung mit einem dynamischen Regime, das seine Inhalte kontinuierlich aktualisiert, korrigiert und veraltet, entwickelt sich dieses Repository im Gleichschritt mit neuen Erfahrungen. Empirische Auswertungen auf TravelPlanner und ALFWorld zeigen, dass mit der Verfeinerung des Gedächtnis-Repositorys die Agenten stetig höhere Erfolgsraten und größere Effizienz bei analogen Aufgaben erreichen. Darüber hinaus behält das prozedurale Gedächtnis, das aus einem stärkeren Modell aufgebaut wurde, seinen Wert: Die Migration des prozeduralen Gedächtnisses zu einem schwächeren Modell führt zu erheblichen Leistungssteigerungen.

InfiGUI-G1: Fortschritte in der GUI-Verankerung durch adaptive Explorationspolitik-Optimierung
InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

Aug 7

ByYuhang Liu, Zeyu Liu, Shuanghe Zhu, Pengxiang Li, Congkai Xie, Jiasheng Wang, Xueyu Hu, Xiaotian Han, Jianbo Yuan, Xinyao Wang, Shengyu Zhang, Hongxia Yang, Fei Wu

Die Entstehung von Multimodalen Großen Sprachmodellen (MLLMs) hat die Entwicklung autonomer Agenten vorangetrieben, die auf grafischen Benutzeroberflächen (GUIs) mit rein visuellen Eingaben operieren. Eine grundlegende Herausforderung besteht darin, natürliche Sprachanweisungen robust zu verankern. Dies erfordert eine präzise räumliche Ausrichtung, die die Koordinaten jedes Elements genau lokalisiert, und, noch kritischer, eine korrekte semantische Ausrichtung, die die Anweisungen mit dem funktional passenden UI-Element abgleicht. Obwohl Reinforcement Learning mit Verifizierbaren Belohnungen (RLVR) sich als effektiv erwiesen hat, um die räumliche Ausrichtung für diese MLLMs zu verbessern, stellen wir fest, dass ineffiziente Exploration die semantische Ausrichtung behindert, was die Modelle daran hindert, schwierige semantische Assoziationen zu erlernen. Um dieses Explorationsproblem zu lösen, präsentieren wir Adaptive Exploration Policy Optimization (AEPO), ein neues Policy-Optimierungs-Framework. AEPO verwendet eine Multi-Antwort-Generierungsstrategie, um eine breitere Exploration zu erzwingen, die dann durch eine theoretisch fundierte Adaptive Exploration Reward (AER)-Funktion geleitet wird, die aus den ersten Prinzipien der Effizienz eta=U/C abgeleitet ist. Unsere mit AEPO trainierten Modelle, InfiGUI-G1-3B und InfiGUI-G1-7B, setzen neue Maßstäbe in mehreren anspruchsvollen GUI-Verankerungs-Benchmarks und erzielen signifikante relative Verbesserungen von bis zu 9,0 % gegenüber dem naiven RLVR-Baseline auf Benchmarks, die zur Überprüfung der Generalisierung und des semantischen Verständnisses entwickelt wurden. Ressourcen sind verfügbar unter https://github.com/InfiXAI/InfiGUI-G1.

Beschneiden des Unerwarteten: Effiziente Code-Analyse durch Überraschung des ersten Tokens
Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal

Aug 8

ByWenhao Zeng, Yaoning Wang, Chao Hu, Yuling Shi, Chengcheng Wan, Hongyu Zhang, Xiaodong Gu

Kürzlich haben Large Reasoning Models (LRMs) bemerkenswerte Fähigkeiten im Code Reasoning durch die Skalierung der Länge von Chain-of-Thought (CoT) demonstriert. Allerdings führen übermäßig lange Reasoning-Traces zu erheblichen Herausforderungen in Bezug auf Trainingskosten, Inferenzlatenz und Einsatzfähigkeit. Während verschiedene CoT-Kompressionsansätze entwickelt wurden, um diese Herausforderung zu bewältigen, stehen sie vor inhärenten Kompromissen: Token-basierte Methoden stören oft die syntaktische und logische Kohärenz, während schrittbasierte Methoden, die auf Perplexität beruhen, nicht zuverlässig die logisch entscheidenden Reasoning-Schritte erfassen können. In diesem Artikel schlagen wir ASAP (Anchor-guided, Surprisal-based Pruning) vor, ein neuartiges grob-zu-fein Framework für die CoT-Kompression. ASAP führt zunächst eine ankergeführte Beschneidung durch, um die Kernstruktur des Reasonings zu bewahren, wodurch der Suchraum für die nachfolgende Verarbeitung effizient reduziert wird. Anschließend ermöglicht es eine logikbewusste Beschneidung, indem logisch essentielle Reasoning-Schritte basierend auf einer neuartigen First-Token-Surprisal-Metrik ausgewählt werden. Schließlich lehrt ASAP Modelle, diese prägnanten CoTs autonom zu generieren und während der Inferenz zu nutzen, was ein effizientes Reasoning in Codierungsaufgaben ermöglicht. Experimente zeigen, dass ASAP eine state-of-the-art Genauigkeit über mehrere Code-Generierungs-Benchmarks hinweg erreicht, während die Trainings- und Inferenzkosten erheblich reduziert werden. Beim anspruchsvollen LiveCodeBench v4_v5 Benchmark reduziert unser Ansatz die Token-Generierung um 23,5 % und die Inferenzlatenz um 43,5 % im Vergleich zum stärksten Baseline-Modell, während eine wettbewerbsfähige Genauigkeit von 36,19 % in Pass@1 erreicht wird. Unsere Ergebnisse verdeutlichen eine vielversprechende Richtung für den Aufbau leistungsstarker und effizienter LRMs.

Verborgene Dynamiken massiver Aktivierungen im Transformer-Training
Hidden Dynamics of Massive Activations in Transformer Training

Aug 5

ByJorge Gallego-Feliciano, S. Aaron McClendon, Juan Morinelli, Stavros Zervoudakis, Antonios Saravanos

Massive Aktivierungen sind skalare Werte in den verborgenen Zuständen von Transformer-Modellen, die Werte erreichen, die um Größenordnungen größer sind als typische Aktivierungen und sich als entscheidend für die Funktionalität des Modells erwiesen haben. Während frühere Arbeiten diese Phänomene in vollständig trainierten Modellen charakterisiert haben, ist die zeitliche Dynamik ihres Auftretens während des Trainingsprozesses noch weitgehend unverstanden. Wir präsentieren die erste umfassende Analyse der Entwicklung von massiven Aktivierungen während des Transformer-Trainings, wobei wir die Pythia-Modellfamilie als Testumgebung verwenden. Durch systematische Analysen verschiedener Modellgrößen über mehrere Trainings-Checkpoints hinweg zeigen wir, dass das Auftreten von massiven Aktivierungen vorhersagbaren mathematischen Mustern folgt, die mithilfe einer exponentiell-modulierten logarithmischen Funktion mit fünf Schlüsselparametern genau modelliert werden können. Wir entwickeln ein maschinelles Lernframework, um diese mathematischen Parameter allein aus den architektonischen Spezifikationen vorherzusagen, wobei wir eine hohe Genauigkeit für das stationäre Verhalten und eine moderate Genauigkeit für den Zeitpunkt und die Größe des Auftretens erreichen. Diese Erkenntnisse ermöglichen es Architekten, Schlüsselaspekte des Auftretens von massiven Aktivierungen durch Designentscheidungen vorherzusagen und potenziell zu steuern, was erhebliche Auswirkungen auf die Modellstabilität, die Länge des Trainingszyklus, die Interpretierbarkeit und die Optimierung hat. Unsere Ergebnisse zeigen, dass das Auftreten von massiven Aktivierungen durch das Modelldesign bestimmt wird und vor Beginn des Trainings antizipiert und potenziell kontrolliert werden kann.

Anpassung von Vision-Sprache-Modellen ohne Labels: Eine umfassende Übersicht
Adapting Vision-Language Models Without Labels: A Comprehensive Survey

Aug 7

ByHao Dong, Lijun Sheng, Jian Liang, Ran He, Eleni Chatzi, Olga Fink

Vision-Language-Modelle (VLMs) haben bemerkenswerte Generalisierungsfähigkeiten über eine breite Palette von Aufgaben hinweg gezeigt. Ihre Leistung bleibt jedoch oft suboptimal, wenn sie ohne aufgabenspezifische Anpassung direkt auf bestimmte Downstream-Szenarien angewendet werden. Um ihren Nutzen zu steigern und gleichzeitig die Dateneffizienz zu bewahren, hat sich die aktuelle Forschung zunehmend auf unüberwachte Anpassungsmethoden konzentriert, die nicht auf annotierte Daten angewiesen sind. Trotz des wachsenden Interesses in diesem Bereich fehlt es nach wie vor an einer einheitlichen, aufgabenorientierten Übersicht, die sich der unüberwachten Anpassung von VLMs widmet. Um diese Lücke zu schließen, präsentieren wir einen umfassenden und strukturierten Überblick über das Feld. Wir schlagen eine Taxonomie vor, die auf der Verfügbarkeit und Art der unannotierten visuellen Daten basiert und bestehende Ansätze in vier Schlüsselparadigmen kategorisiert: Data-Free Transfer (keine Daten), Unsupervised Domain Transfer (reichlich Daten), Episodic Test-Time Adaptation (Batch-Daten) und Online Test-Time Adaptation (Streaming-Daten). Innerhalb dieses Rahmens analysieren wir Kernmethoden und Anpassungsstrategien, die mit jedem Paradigma verbunden sind, mit dem Ziel, ein systematisches Verständnis des Feldes zu etablieren. Zusätzlich überprüfen wir repräsentative Benchmarks in verschiedenen Anwendungsbereichen und heben offene Herausforderungen sowie vielversprechende Richtungen für zukünftige Forschung hervor. Ein aktiv gepflegtes Repository relevanter Literatur ist unter https://github.com/tim-learn/Awesome-LabelFree-VLMs verfügbar.

GENIE: Gaußsche Kodierung für interaktive Bearbeitung von Neural Radiance Fields
GENIE: Gaussian Encoding for Neural Radiance Fields Interactive Editing

Aug 4

ByMikołaj Zieliński, Krzysztof Byrski, Tomasz Szczepanik, Przemysław Spurek

Neural Radiance Fields (NeRF) und Gaussian Splatting (GS) haben kürzlich die 3D-Szenendarstellung und -Rendering revolutioniert. NeRF erreicht eine hochauflösende Synthese neuer Ansichten durch das Erlernen volumetrischer Darstellungen mittels neuronaler Netzwerke, doch seine implizite Kodierung erschwert die Bearbeitung und physikalische Interaktion. Im Gegensatz dazu repräsentiert GS Szenen als explizite Sammlungen von Gaußschen Primitiven, was Echtzeit-Rendering, schnellere Trainingszeiten und intuitivere Manipulation ermöglicht. Diese explizite Struktur macht GS besonders geeignet für interaktive Bearbeitung und Integration mit physikbasierter Simulation. In diesem Artikel stellen wir GENIE (Gaussian Encoding for Neural Radiance Fields Interactive Editing) vor, ein hybrides Modell, das die fotorealistische Rendering-Qualität von NeRF mit der bearbeitbaren und strukturierten Darstellung von GS kombiniert. Anstelle von sphärischen Harmoniken zur Erscheinungsmodellierung weisen wir jedem Gaußschen Primitiv ein trainierbares Feature-Embedding zu. Diese Embeddings werden verwendet, um ein NeRF-Netzwerk basierend auf den k nächsten Gaußschen zu jedem Abfragepunkt zu konditionieren. Um diese Konditionierung effizient zu gestalten, führen wir Ray-Traced Gaussian Proximity Search (RT-GPS) ein, eine schnelle Suche nach den nächsten Gaußschen basierend auf einer modifizierten Ray-Tracing-Pipeline. Zudem integrieren wir ein Multi-Resolution-Hash-Grid, um Gaußsche Features zu initialisieren und zu aktualisieren. Zusammen ermöglichen diese Komponenten eine Echtzeit-Bearbeitung mit Lokalitätsbewusstsein: Wenn Gaußsche Primitiven neu positioniert oder modifiziert werden, spiegelt sich ihr interpoliertes Einflussgebiet unmittelbar im gerenderten Ergebnis wider. Durch die Kombination der Stärken impliziter und expliziter Darstellungen unterstützt GENIE intuitive Szenenmanipulation, dynamische Interaktion und Kompatibilität mit physikalischer Simulation und schließt so die Lücke zwischen geometriebasierter Bearbeitung und neuronalem Rendering. Der Code ist unter (https://github.com/MikolajZielinski/genie) verfügbar.

OS-Agenten: Ein Überblick über MLLM-basierte Agenten für allgemeine Rechengeräte
OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use

Aug 6

ByXueyu Hu, Tao Xiong, Biao Yi, Zishu Wei, Ruixuan Xiao, Yurun Chen, Jiasheng Ye, Meiling Tao, Xiangxin Zhou, Ziyu Zhao, Yuhuai Li, Shengze Xu, Shenzhi Wang, Xinchen Xu, Shuofei Qiao, Zhaokai Wang, Kun Kuang, Tieyong Zeng, Liang Wang, Jiwei Li, Yuchen Eleanor Jiang, Wangchunshu Zhou, Guoyin Wang, Keting Yin, Zhou Zhao, Hongxia Yang, Fan Wu, Shengyu Zhang, Fei Wu

Der Traum, KI-Assistenten zu erschaffen, die so fähig und vielseitig sind wie der fiktive J.A.R.V.I.S aus Iron Man, hat die Vorstellungskraft schon lange beflügelt. Mit der Entwicklung von (multi-modalen) großen Sprachmodellen ((M)LLMs) rückt dieser Traum näher an die Realität, da (M)LLM-basierte Agenten, die Rechengeräte (z.B. Computer und Mobiltelefone) nutzen, indem sie innerhalb der Umgebungen und Schnittstellen (z.B. Grafische Benutzeroberfläche (GUI)) von Betriebssystemen (OS) operieren, um Aufgaben zu automatisieren, erhebliche Fortschritte gemacht haben. Dieses Papier präsentiert eine umfassende Übersicht über diese fortschrittlichen Agenten, die als OS-Agenten bezeichnet werden. Wir beginnen damit, die Grundlagen von OS-Agenten zu erläutern, ihre Schlüsselkomponenten wie die Umgebung, den Beobachtungsraum und den Aktionsraum zu untersuchen und wesentliche Fähigkeiten wie Verständnis, Planung und Verankerung zu skizzieren. Anschließend betrachten wir Methoden zur Konstruktion von OS-Agenten, wobei wir uns auf domänenspezifische Basismodelle und Agenten-Frameworks konzentrieren. Eine detaillierte Überprüfung von Evaluationsprotokollen und Benchmarks zeigt, wie OS-Agenten in verschiedenen Aufgaben bewertet werden. Schließlich diskutieren wir aktuelle Herausforderungen und identifizieren vielversprechende Richtungen für zukünftige Forschung, darunter Sicherheit und Datenschutz, Personalisierung und Selbstentwicklung. Diese Übersicht zielt darauf ab, den Stand der OS-Agenten-Forschung zu konsolidieren und Einblicke zu bieten, die sowohl die akademische Forschung als auch die industrielle Entwicklung leiten können. Ein Open-Source-GitHub-Repository wird als dynamische Ressource gepflegt, um weitere Innovationen in diesem Bereich zu fördern. Wir präsentieren eine 9-seitige Version unserer Arbeit, die von ACL 2025 akzeptiert wurde, um einen prägnanten Überblick über das Gebiet zu bieten.

MeshLLM: Ermächtigung großer Sprachmodelle, 3D-Meshes schrittweise zu verstehen und zu generieren
MeshLLM: Empowering Large Language Models to Progressively Understand and Generate 3D Mesh

Aug 2

ByShuangkang Fang, I-Chao Shen, Yufeng Wang, Yi-Hsuan Tsai, Yi Yang, Shuchang Zhou, Wenrui Ding, Takeo Igarashi, Ming-Hsuan Yang

Wir präsentieren MeshLLM, ein neuartiges Framework, das große Sprachmodelle (LLMs) nutzt, um textserialisierte 3D-Meshes zu verstehen und zu generieren. Unser Ansatz adressiert zentrale Einschränkungen bestehender Methoden, darunter den begrenzten Datensatzumfang bei der Berücksichtigung der Token-Länge von LLMs sowie den Verlust von 3D-Strukturinformationen während der Mesh-Serialisierung. Wir führen eine Primitive-Mesh-Zerlegungsstrategie ein, die 3D-Meshes in strukturell bedeutsame Untereinheiten aufteilt. Dies ermöglicht die Erstellung eines groß angelegten Datensatzes mit über 1500k Proben, der fast 50-mal größer ist als bei bisherigen Methoden und besser mit den Skalierungsgesetzen von LLMs übereinstimmt. Darüber hinaus schlagen wir vor, die Flächenkonnektivität aus Vertices abzuleiten und lokale Mesh-Assembly-Trainingsstrategien zu verwenden, wodurch die Fähigkeit der LLMs, Mesh-Topologie und räumliche Strukturen zu erfassen, erheblich verbessert wird. Experimente zeigen, dass MeshLLM den state-of-the-art LLaMA-Mesh sowohl in der Mesh-Generierungsqualität als auch im Formverständnis übertrifft, was sein großes Potenzial bei der Verarbeitung textserialisierter 3D-Meshes unterstreicht.

VLM4D: Auf dem Weg zur raumzeitlichen Wahrnehmung in visuell-sprachlichen Modellen
VLM4D: Towards Spatiotemporal Awareness in Vision Language Models

Aug 4

ByShijie Zhou, Alexander Vilesov, Xuehai He, Ziyu Wan, Shuwang Zhang, Aditya Nagachandra, Di Chang, Dongdong Chen, Xin Eric Wang, Achuta Kadambi

Vision Language Models (VLMs) haben bemerkenswerte Fähigkeiten bei der Integration von linguistischem und visuellem Denken gezeigt, bleiben jedoch grundlegend eingeschränkt im Verständnis dynamischer raumzeitlicher Interaktionen. Menschen verfolgen und analysieren mühelos Objektbewegungen, Rotationen und Perspektivwechsel – Fähigkeiten, die für ein robustes Verständnis dynamischer realer Umgebungen entscheidend sind, aber in aktuellen VLMs auffällig fehlen. In diesem Artikel stellen wir VLM4D vor, den ersten speziell entwickelten Benchmark zur Bewertung der raumzeitlichen Denkfähigkeiten von VLMs. Unser Benchmark umfasst diverse reale und synthetische Videos, die von sorgfältig kuratierten Frage-Antwort-Paaren begleitet werden, die translatorische und rotatorische Bewegungen, Perspektivbewusstsein und Bewegungsfortsetzung betonen. Durch umfassende Bewertungen von state-of-the-art Open- und Closed-Source-VLMs identifizieren wir erhebliche Leistungslücken im Vergleich zu menschlichen Baselines, die grundlegende Defizite in bestehenden Modellen aufzeigen. Eine umfangreiche Analyse zeigt, dass VLMs insbesondere Schwierigkeiten haben, multiple visuelle Hinweise zu integrieren und zeitliche Kohärenz aufrechtzuerhalten. Wir untersuchen weiterhin vielversprechende Ansätze, wie die Nutzung von 4D-Feature-Field-Rekonstruktion und gezieltes raumzeitlich überwachtes Fine-Tuning, und demonstrieren deren Wirksamkeit bei der Verbesserung des raumzeitlichen Verständnisses. Unsere Arbeit zielt darauf ab, eine vertiefte Erforschung der Verbesserung der räumlichen und zeitlichen Verankerung von VLMs zu fördern und den Weg zu einer leistungsfähigeren und zuverlässigeren visuellen Intelligenz für dynamische Umgebungen zu ebnen.

MELLA: Überbrückung von Sprachfähigkeit und kultureller Verankerung für MLLMs in ressourcenarmen Sprachen
MELLA: Bridging Linguistic Capability and Cultural Groundedness for Low-Resource Language MLLMs

Aug 7

ByYufei Gao, Jiaying Fei, Nuo Chen, Ruirui Chen, Guohang Yan, Yunshi Lan, Botian Shi

Multimodale Large Language Models (MLLMs) haben bemerkenswerte Leistungen in ressourcenstarken Sprachen gezeigt. Ihre Effektivität nimmt jedoch in Kontexten mit ressourcenarmen Sprachen erheblich ab. Aktuelle Methoden zur mehrsprachigen Verbesserung beschränken sich oft auf die Textmodalität oder verlassen sich ausschließlich auf maschinelle Übersetzung. Obwohl solche Ansätze den Modellen grundlegende sprachliche Fähigkeiten vermitteln und „dünne Beschreibungen“ erzeugen, vernachlässigen sie die Bedeutung multimodaler Informativität und kultureller Verankerung, die beide entscheidend sind, um Nutzer ressourcenarmer Sprachen effektiv zu bedienen. Um diese Lücke zu schließen, identifizieren wir in dieser Studie zwei wesentliche Ziele für einen wirklich effektiven MLLM in ressourcenarmen Sprachumgebungen, nämlich 1) sprachliche Fähigkeiten und 2) kulturelle Verankerung, mit besonderem Schwerpunkt auf kulturellem Bewusstsein. Um diese doppelten Ziele zu erreichen, schlagen wir eine Dual-Source-Strategie vor, die die Sammlung von Daten leitet, die auf jedes Ziel zugeschnitten sind, indem wir native Web-Alt-Texte für die Kultur und MLLM-generierte Beschreibungen für die Sprachwissenschaft nutzen. Als konkrete Implementierung stellen wir MELLA vor, einen multimodalen, mehrsprachigen Datensatz. Experimentelle Ergebnisse zeigen, dass nach dem Fine-Tuning auf MELLA eine allgemeine Leistungssteigerung für die acht Sprachen auf verschiedenen MLLM-Backbones zu verzeichnen ist, wobei die Modelle „dichte Beschreibungen“ erzeugen. Wir bestätigen, dass die Leistungssteigerungen sowohl auf der Verbesserung des kulturellen Wissens als auch der sprachlichen Fähigkeiten beruhen. Unser Datensatz ist unter https://opendatalab.com/applyMultilingualCorpus verfügbar.

UI-AGILE: Fortschrittliche GUI-Agenten durch effektives Reinforcement Learning und präzises Grounding zur Inferenzzeit
UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding

Jul 29

ByShuquan Lian, Yuhang Wu, Jia Ma, Zihan Song, Bingqi Chen, Xiawu Zheng, Hui Li

Die Entstehung von Multimodalen Großen Sprachmodellen (MLLMs) hat bedeutende Fortschritte in den Fähigkeiten von Agenten für Grafische Benutzeroberflächen (GUIs) vorangetrieben. Dennoch leiden bestehende Trainings- und Inferenztechniken für GUI-Agenten weiterhin unter einem Dilemma in Bezug auf die Gestaltung von Schlussfolgerungen, ineffektive Belohnungen und visuelles Rauschen. Um diese Probleme zu adressieren, stellen wir UI-AGILE vor, ein umfassendes Framework, das GUI-Agenten sowohl im Trainings- als auch im Inferenzstadium verbessert. Für das Training schlagen wir eine Reihe von Verbesserungen für den Supervised Fine-Tuning (SFT)-Prozess vor: 1) eine kontinuierliche Belohnungsfunktion, um eine hochpräzise Verankerung zu fördern; 2) eine „Simple Thinking“-Belohnung, um die Planung mit Geschwindigkeit und Verankerungsgenauigkeit auszubalancieren; und 3) eine auf Zuschneiden basierende Resampling-Strategie, um das Problem der spärlichen Belohnung zu mildern und das Lernen bei komplexen Aufgaben zu verbessern. Für die Inferenz präsentieren wir „Decomposed Grounding with Selection“, eine neuartige Methode, die die Verankerungsgenauigkeit auf hochauflösenden Displays dramatisch verbessert, indem das Bild in kleinere, handhabbare Teile zerlegt wird. Experimente zeigen, dass UI-AGILE die state-of-the-art Leistung auf zwei Benchmarks, ScreenSpot-Pro und ScreenSpot-v2, erreicht. Beispielsweise bringt die Verwendung unserer vorgeschlagenen Trainings- und Inferenzverbesserungsmethoden eine 23%ige Verbesserung der Verankerungsgenauigkeit gegenüber dem besten Baseline-Modell auf ScreenSpot-Pro.

LightSwitch: Multi-View-Beleuchtung mit materialgeleiteter Diffusion
LightSwitch: Multi-view Relighting with Material-guided Diffusion

Aug 8

ByYehonathan Litman, Fernando De la Torre, Shubham Tulsiani

Aktuelle Ansätze für 3D-Relighting haben vielversprechende Ergebnisse gezeigt, indem sie generative Prioritäten aus dem 2D-Bildrelighting integrieren, um das Erscheinungsbild einer 3D-Darstellung zu verändern, während die zugrunde liegende Struktur erhalten bleibt. Dennoch nutzen generative Prioritäten, die für das 2D-Relighting verwendet werden und direkt aus einem Eingabebild relighten, nicht die intrinsischen Eigenschaften des Subjekts, die abgeleitet werden könnten, oder können multiview-Daten in großem Maßstab nicht berücksichtigen, was zu minderwertigem Relighting führt. In diesem Artikel stellen wir LightSwitch vor, einen neuartigen, feinabgestimmten Material-Relighting-Diffusionsrahmen, der effizient eine beliebige Anzahl von Eingabebildern auf eine Zielbeleuchtungsbedingung relightet und dabei Hinweise aus abgeleiteten intrinsischen Eigenschaften einbezieht. Durch die Verwendung von multiview- und Materialinformationen zusammen mit einem skalierbaren Denoising-Schema relightet unsere Methode konsistent und effizient dichte multiview-Daten von Objekten mit unterschiedlichen Materialzusammensetzungen. Wir zeigen, dass die Qualität unserer 2D-Relighting-Vorhersagen bisherige state-of-the-art-Relighting-Prioritäten, die direkt aus Bildern relighten, übertrifft. Darüber hinaus demonstrieren wir, dass LightSwitch state-of-the-art-Diffusions-Inverse-Rendering-Methoden beim Relighting von synthetischen und realen Objekten in nur 2 Minuten erreicht oder übertrifft.

GLM-4.5: Agentische, schlussfolgernde und programmierende (ARC) Basismodelle
GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

Aug 8

182