HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

36 papers found

Ist die Chain-of-Thought-Denkweise von LLMs eine Illusion? Eine Betrachtung aus der Perspektive der Datenverteilung.
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Aug 2

ByChengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu

236

Chain-of-Thought (CoT) Prompting hat sich als wirksame Methode erwiesen, um die Leistung von Large Language Models (LLMs) bei verschiedenen Aufgaben zu verbessern. Bei diesem Ansatz scheinen LLMs menschenähnliche Denkschritte zu erzeugen, bevor sie Antworten liefern (sog. CoT-Reasoning), was oft den Eindruck erweckt, dass sie gezielte Schlussfolgerungsprozesse durchführen. Erste Erkenntnisse deuten jedoch darauf hin, dass CoT-Reasoning oberflächlicher sein könnte, als es erscheint, was uns dazu motiviert, dies weiter zu erforschen. In dieser Arbeit untersuchen wir CoT-Reasoning aus der Perspektive der Datenverteilung und prüfen, ob CoT-Reasoning einen strukturierten induktiven Bias widerspiegelt, der aus in-distribution Daten gelernt wurde und es dem Modell ermöglicht, bedingt Denkpfade zu generieren, die denen während des Trainings ähnlich sind. Somit ist seine Wirksamkeit grundlegend durch den Grad der Verteilungsabweichung zwischen den Trainingsdaten und den Testanfragen begrenzt. Mit diesem Ansatz zerlegen wir CoT-Reasoning in drei Dimensionen: Aufgabe, Länge und Format. Um jede Dimension zu untersuchen, entwickeln wir DataAlchemy, eine isolierte und kontrollierte Umgebung, in der LLMs von Grund auf trainiert und systematisch unter verschiedenen Verteilungsbedingungen geprüft werden. Unsere Ergebnisse zeigen, dass CoT-Reasoning ein brüchiges Trugbild ist, das verschwindet, wenn es über die Trainingsverteilungen hinausgeht. Diese Arbeit bietet ein tieferes Verständnis dafür, warum und wann CoT-Reasoning versagt, und unterstreicht die anhaltende Herausforderung, echtes und generalisierbares Reasoning zu erreichen.

VeriGUI: Verifizierbarer Long-Chain GUI-Datensatz
VeriGUI: Verifiable Long-Chain GUI Dataset

Aug 6

ByShunyu Liu, Minghao Liu, Huichi Zhou, Zhenyu Cui, Yang Zhou, Yuhao Zhou, Wendong Fan, Ge Zhang, Jiajun Shi, Weihao Xuan, Jiaxing Huang, Shuang Luo, Fang Wu, Heli Qi, Qingcheng Zeng, Ziqi Ren, Jialiang Gao, Jindi Lv, Junjie Wang, Aosong Feng, Heng Zhou, Wangchunshu Zhou, Zhenfei Yin, Wenlong Zhang, Guohao Li, Wenhao Yu, Irene Li, Lei Ma, Lei Bai, Qunshu Lin, Mingli Song, Dacheng Tao

157

Aktuelle Studien haben sich mit der Entwicklung autonomer Agenten befasst, die in der Lage sind, komplexe Computeraufgaben auf Basis von grafischen Benutzeroberflächen (GUIs) auszuführen, was das Potenzial hat, die Mensch-Computer-Interaktion zu revolutionieren. Trotz ermutigender Ergebnisse konzentrieren sich bestehende Bemühungen hauptsächlich auf kurzfristige Interaktionen und stützen sich auf eine reine Ergebnisüberprüfung, was ihre Skalierbarkeit in realen GUI-Anwendungen, die eine langfristige Aufgabenzerlegung und -ausführung erfordern, einschränkt. In dieser Arbeit stellen wir VeriGUI vor, einen neuartigen, verifizierbaren Datensatz für langkettige GUI-Aufgaben, der die Entwicklung und Bewertung von generalistischen GUI-Agenten in realistischen Computerumgebungen erleichtern soll. Unser Datensatz betont zwei kritische Dimensionen: (1) die Komplexität langkettiger Aufgaben, bei denen Aufgaben in eine Abfolge voneinander abhängiger Teilaufgaben zerlegt werden, die Hunderte von Schritten umfassen und explizit so gestaltet sind, dass jede Teilaufgabe als gültiger Ausgangspunkt dienen kann; und (2) die Verifizierbarkeit auf Teilaufgabenebene, die verschiedene Explorationsstrategien innerhalb jeder Teilaufgabe ermöglicht, während sichergestellt wird, dass das Ziel jeder Teilaufgabe verifizierbar und konsistent bleibt. Der Datensatz besteht aus GUI-Aufgabenverläufen sowohl auf Desktop- als auch auf Webplattformen, die von menschlichen Experten annotiert wurden. Umfangreiche Experimente mit VeriGUI unter Verwendung verschiedener Agenten mit unterschiedlichen Basismodellen zeigen erhebliche Leistungslücken bei der Bewältigung langfristiger Aufgaben auf und unterstreichen die Notwendigkeit robusterer Planungs- und Entscheidungsfähigkeiten in GUI-Agenten.

Effiziente Agenten: Entwicklung effektiver Agenten bei gleichzeitiger Kostenreduzierung
Efficient Agents: Building Effective Agents While Reducing Cost

Jul 24

ByNingning Wang, Xavier Hu, Pai Liu, He Zhu, Yue Hou, Heyuan Huang, Shengyu Zhang, Jian Yang, Jiaheng Liu, Ge Zhang, Changwang Zhang, Jun Wang, Yuchen Eleanor Jiang, Wangchunshu Zhou

Die bemerkenswerten Fähigkeiten von Large Language Model (LLM)-gesteuerten Agenten haben es fortschrittlichen Systemen ermöglicht, komplexe, mehrstufige Aufgaben zu bewältigen, doch ihre steigenden Kosten gefährden die Skalierbarkeit und Zugänglichkeit. Diese Arbeit präsentiert die erste systematische Studie zum Effizienz-Effektivitäts-Kompromiss in modernen Agentensystemen und adressiert den kritischen Bedarf an kosteneffizienten Designs ohne Leistungseinbußen. Wir untersuchen drei zentrale Fragen: (1) Wie viel Komplexität erfordern agentenbasierte Aufgaben inhärent? (2) Wann führen zusätzliche Module zu abnehmenden Erträgen? (3) Wie viel Effizienz kann durch das Design effizienter Agenten-Frameworks gewonnen werden? Durch eine empirische Analyse auf dem GAIA-Benchmark bewerten wir die Auswirkungen der LLM-Backbone-Auswahl, der Agenten-Framework-Designs und der Skalierungsstrategien zur Testzeit. Mithilfe der Cost-of-Pass-Metrik quantifizieren wir den Effizienz-Leistungs-Kompromiss in diesen Dimensionen. Unsere Erkenntnisse informieren die Entwicklung von Efficient Agents, einem neuartigen Agenten-Framework, das eine optimale Komplexität in Bezug auf die Aufgabenanforderungen aufweist. Efficient Agents behält 96,7 % der Leistung von OWL, einem führenden Open-Source-Agenten-Framework, bei und reduziert gleichzeitig die Betriebskosten von 0,398 auf 0,228, was einer Verbesserung des Cost-of-Pass um 28,4 % entspricht. Unsere Arbeit liefert umsetzbare Erkenntnisse für die Gestaltung effizienter, leistungsstarker Agentensysteme und fördert die Zugänglichkeit und Nachhaltigkeit von KI-gestützten Lösungen.

Agent Lightning: Trainiere BELIEBIGE KI-Agenten mit Reinforcement Learning
Agent Lightning: Train ANY AI Agents with Reinforcement Learning

Aug 5

ByXufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Siyun Zhao, Dongsheng Li, Luna K. Qiu, Yuqing Yang

Wir präsentieren Agent Lightning, ein flexibles und erweiterbares Framework, das das Reinforcement Learning (RL)-basierte Training von Large Language Models (LLMs) für beliebige KI-Agenten ermöglicht. Im Gegensatz zu bestehenden Methoden, die RL-Training eng mit dem Agenten koppeln oder auf Sequenzverkettung mit Maskierung angewiesen sind, erreicht Agent Lightning eine vollständige Entkopplung zwischen Agentenausführung und Training. Dies ermöglicht eine nahtlose Integration mit bestehenden Agenten, die auf unterschiedliche Weise entwickelt wurden (z. B. mit Frameworks wie LangChain, OpenAI Agents SDK, AutoGen oder von Grund auf neu), ohne dass nahezu KEINE Codeänderungen erforderlich sind. Indem wir die Agentenausführung als Markov-Entscheidungsprozess formulieren, definieren wir eine einheitliche Datenschnittstelle und schlagen einen hierarchischen RL-Algorithmus, LightningRL, vor, der ein Credit-Assignment-Modul enthält. Dies ermöglicht es uns, Trajektorien, die von BELIEBIGEN Agenten generiert werden, in Trainingsübergänge zu zerlegen. Dadurch kann RL komplexe Interaktionslogiken wie Multi-Agenten-Szenarien und dynamische Workflows bewältigen. Für das Systemdesign führen wir eine Training-Agent-Disaggregation-Architektur ein und integrieren Agenten-Beobachtbarkeitsframeworks in die Laufzeitumgebung des Agenten, wodurch eine standardisierte Feinabstimmungsschnittstelle bereitgestellt wird. Experimente in den Bereichen Text-to-SQL, retrieval-augmentierte Generierung und mathematische Werkzeugnutzung zeigen stabile, kontinuierliche Verbesserungen und demonstrieren das Potenzial des Frameworks für das Training und den Einsatz von Agenten in der Praxis.

Training von Software-Engineering-Agenten mit langem Kontext und Mehrfachinteraktionen durch Reinforcement Learning
Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning

Aug 5

ByAlexander Golubev, Maria Trofimova, Sergei Polezhaev, Ibragim Badertdinov, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Sergey Abramov, Andrei Andriushchenko, Filipp Fisin, Sergei Skvortsov, Boris Yangel

Die Forschung zur Anwendung von Reinforcement Learning (RL) auf Large Language Models (LLMs) hat sich bisher hauptsächlich auf Einzelprobleme wie mathematisches Denken oder einmalige Code-Generierung konzentriert. Obwohl diese Probleme als tokenbasierte Mehrschritt-Markov-Entscheidungsprozesse (MDPs) betrachtet werden können, entspricht diese Sichtweise einem degenerierten Fall von Mehrschritt-Interaktionen, bei denen die Umgebung kein Feedback liefert. Dies steht im Gegensatz zu vielen realen Anwendungsbereichen, wie der Softwareentwicklung (SWE), die reichhaltige Mehrschritt-Interaktionen mit einer zustandsbehafteten Umgebung erfordern, die auf jede Aktion mit einer nicht-trivialen Beobachtung reagiert. Um diese Lücke zu schließen, demonstrieren wir die erfolgreiche Anwendung von RL auf dieses allgemeine Regime. Mit einem modifizierten Decoupled Advantage Policy Optimization (DAPO)-Algorithmus trainieren wir einen Agenten auf Basis von Qwen2.5-72B-Instruct, um reale Softwareentwicklungsaufgaben zu lösen. Unser Ansatz steigert die Erfolgsrate des Agenten im SWE-bench Verified-Benchmark von einer 20%-Ablehnungsrate bei feinabgestimmten Basismodellen auf 39%, ohne auf Lehrer-Modelle zurückzugreifen. Im SWE-rebench-Benchmark erreicht oder übertrifft unser Agent führende Open-Weight-Modelle wie DeepSeek-V3-0324 und Qwen3-235B-A22B unter Verwendung identischer Rahmenbedingungen. Dies bietet einen vielversprechenden Weg zur Entwicklung leistungsfähigerer autonomer Agenten für komplexe reale Probleme auf Basis offener Modelle.

SEAgent: Selbstentwickelnder Computer-Nutzungs-Agent mit autonomen Lernen aus Erfahrung
SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

Aug 6

ByZeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang

Die Umwidmung großer Vision-Sprach-Modelle (LVLMs) zu Computer-Nutzungs-Agenten (CUAs) hat zu erheblichen Durchbrüchen geführt, die hauptsächlich durch menschlich annotierte Daten vorangetrieben wurden. Diese Modelle haben jedoch oft Schwierigkeiten mit neuartiger und spezialisierter Software, insbesondere in Szenarien, in denen menschliche Annotationen fehlen. Um diese Herausforderung zu bewältigen, schlagen wir SEAgent vor, ein agentenbasiertes, selbstentwickelndes Framework, das CUAs ermöglicht, sich autonom durch Interaktionen mit unbekannter Software weiterzuentwickeln. Konkret befähigt SEAgent Computer-Nutzungs-Agenten, neuartige Softwareumgebungen autonom durch erfahrungsbasiertes Lernen zu meistern, wobei die Agenten neue Software erkunden, durch iteratives Ausprobieren lernen und schrittweise automatisch generierte Aufgaben bewältigen, die von einfach bis komplex organisiert sind. Um dieses Ziel zu erreichen, entwerfen wir ein Weltzustandsmodell für die schrittweise Bewertung von Trajektorien sowie einen Lehrplan-Generator, der zunehmend vielfältige und herausfordernde Aufgaben erstellt. Die Policy des Agenten wird durch erfahrungsbasiertes Lernen aktualisiert, das aus der adversarischen Nachahmung von Fehlaktionen und der Gruppen-Relativen-Policy-Optimierung (GRPO) bei erfolgreichen Aktionen besteht. Darüber hinaus führen wir eine Spezialisten-zu-Generalisten-Trainingsstrategie ein, die individuelle Erfahrungserkenntnisse von Spezialistenagenten integriert und die Entwicklung eines stärkeren Generalisten-CUA ermöglicht, der sich kontinuierlich autonom weiterentwickeln kann. Dieser vereinheitlichte Agent übertrifft schließlich die Leistung von Ensembles individueller Spezialistenagenten in ihrer spezialisierten Software. Wir validieren die Wirksamkeit von SEAgent in fünf neuartigen Softwareumgebungen innerhalb von OS-World. Unser Ansatz erzielt eine signifikante Verbesserung der Erfolgsrate um 23,2 %, von 11,3 % auf 34,5 %, gegenüber einem konkurrenzfähigen Open-Source-CUA, nämlich UI-TARS.

Verbesserung des Trainings von Vision-Sprache-Modellen durch Verstärkungslernen in synthetischen Welten für Erfolg in der realen Welt
Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success

Aug 6

ByGeorge Bredis, Stanislav Dereka, Viacheslav Sinii, Ruslan Rakhimov, Daniil Gavrilov

Interaktive multimodale Agenten müssen rohe visuelle Beobachtungen in kohärente Sequenzen von sprachbedingten Aktionen umwandeln – eine Fähigkeit, die aktuelle Vision-Language-Modelle (VLMs) noch nicht besitzen. Frühere Reinforcement-Learning (RL)-Ansätze könnten prinzipiell VLMs mit solchen Fähigkeiten ausstatten, aber sie haben selten getestet, ob die gelernten Verhaltensweisen über ihre Trainingssimulatoren hinaus generalisieren, und sie sind entweder auf empfindliche Hyperparameter-Tuning oder auf Umgebungen mit dichten Belohnungen und geringer Zustandsvarianz angewiesen. Wir stellen Vision-Language Decoupled Actor-Critic (VL-DAC) vor, einen leichten, hyperparameterfreien RL-Algorithmus. VL-DAC wendet PPO-Updates auf Aktions-Tokens an, während der Wert nur auf der Ebene der Umgebungsschritte gelernt wird: eine Anordnung, die unseres Wissens bisher nicht für große VLMs oder LLMs erforscht wurde. Diese einfache Entkopplung entfernt instabile Gewichtungsterme und führt zu schnellerer, zuverlässigerer Konvergenz. Das Training eines einzelnen VLM mit VL-DAC in einem kostengünstigen Simulator nach dem anderen (MiniWorld, Gym-Cards, ALFWorld oder WebShop) erzeugt bereits Richtlinien, die weitgehend generalisieren: +50\% relativ auf BALROG (spielzentrierte agentische Steuerung), +5\% relativ auf dem schwierigsten Teil von VSI-Bench (räumliche Planung) und +2\% auf VisualWebBench (Web-Navigation), alles ohne die allgemeine Bildverständnisgenauigkeit zu beeinträchtigen. Diese Ergebnisse liefern den ersten Beweis, dass ein einfacher RL-Algorithmus VLMs vollständig in kostengünstigen synthetischen Welten trainieren kann, während er messbare Verbesserungen auf realen Bildern für agentische, räumliche Schlussfolgerungs- und Web-Navigations-Benchmarks liefert.

LaTCoder: Umwandlung von Webseitendesign in Code mit Layout-as-Thought
LaTCoder: Converting Webpage Design to Code with Layout-as-Thought

Aug 5

ByYi Gui, Zhen Li, Zhongyi Zhang, Guohao Wang, Tianpeng Lv, Gaoyang Jiang, Yi Liu, Dongping Chen, Yao Wan, Hongyu Zhang, Wenbin Jiang, Xuanhua Shi, Hai Jin

Die Umwandlung von Webseiten-Designs in Code (Design-to-Code) spielt eine entscheidende Rolle in der Entwicklung von Benutzeroberflächen (UI) für Frontend-Entwickler, da sie die Lücke zwischen visuellem Design und funktionaler Implementierung schließt. Obwohl neuere Multimodale Große Sprachmodelle (MLLMs) ein erhebliches Potenzial in Design-to-Code-Aufgaben gezeigt haben, gelingt es ihnen oft nicht, das Layout während der Code-Generierung präzise zu bewahren. Inspiriert von der Chain-of-Thought (CoT)-Argumentation in der menschlichen Kognition, schlagen wir LaTCoder vor, einen neuartigen Ansatz, der die Layoutbewahrung bei der Code-Generierung von Webseiten-Designs durch Layout-as-Thought (LaT) verbessert. Konkret führen wir zunächst einen einfachen, aber effizienten Algorithmus ein, um das Webseiten-Design in Bildblöcke zu unterteilen. Anschließend verwenden wir einen CoT-basierten Ansatz, um MLLMs dazu zu veranlassen, Code für jeden Block zu generieren. Schließlich wenden wir zwei Assemblierungsstrategien an – absolute Positionierung und eine MLLM-basierte Methode – gefolgt von einer dynamischen Auswahl, um das optimale Ergebnis zu bestimmen. Wir evaluieren die Wirksamkeit von LaTCoder mit mehreren Basis-MLLMs (d. h. DeepSeek-VL2, Gemini und GPT-4o) sowohl anhand eines öffentlichen Benchmarks als auch eines neu eingeführten, anspruchsvolleren Benchmarks (CC-HARD), der komplexe Layouts aufweist. Die experimentellen Ergebnisse anhand automatischer Metriken zeigen signifikante Verbesserungen. Insbesondere stiegen die TreeBLEU-Werte um 66,67 % und der MAE sank um 38 %, wenn DeepSeek-VL2 im Vergleich zur direkten Prompting-Methode verwendet wurde. Darüber hinaus zeigen die Ergebnisse der menschlichen Präferenzbewertung, dass Annotatoren in über 60 % der Fälle die von LaTCoder generierten Webseiten bevorzugen, was die Wirksamkeit unseres Ansatzes deutlich belegt.

Sotopia-RL: Belohnungsdesign für soziale Intelligenz
Sotopia-RL: Reward Design for Social Intelligence

Aug 5

ByHaofei Yu, Zhengyang Qi, Yining Zhao, Kolby Nottingham, Keyang Xuan, Bodhisattwa Prasad Majumder, Hao Zhu, Paul Pu Liang, Jiaxuan You

Soziale Intelligenz ist zu einer entscheidenden Fähigkeit für große Sprachmodelle (LLMs) geworden, die es ihnen ermöglicht, effektiv an realen sozialen Aufgaben wie Anpassung, Überzeugung, Zusammenarbeit und Verhandlung teilzunehmen. Reinforcement Learning (RL) eignet sich natürlich für das Training sozial intelligenter Agenten, da es Modellen ermöglicht, komplexe Strategien direkt durch soziale Interaktionen zu erlernen. Soziale Interaktionen weisen jedoch zwei Schlüsselmerkmale auf, die Barrieren für das RL-Training darstellen: (1) Partielle Beobachtbarkeit, bei der Äußerungen indirekte und verzögerte Effekte haben, was die Kreditvergabe erschwert, und (2) Mehrdimensionalität, bei der Verhaltensweisen wie Beziehungsaufbau oder Wissenssuche indirekt zur Zielerreichung beitragen. Diese Merkmale machen RL auf Basis von Markov-Entscheidungsprozessen (MDP) mit eindimensionalen Belohnungen auf Episodebene ineffizient und instabil. Um diese Herausforderungen zu bewältigen, schlagen wir Sotopia-RL vor, ein neuartiges Framework, das grobes Feedback auf Episodebene in Äußerungsbezogene, mehrdimensionale Belohnungen verfeinert. Die Kreditvergabe auf Äußerungsebene mildert die partielle Beobachtbarkeit, indem sie Ergebnisse einzelnen Äußerungen zuschreibt, während mehrdimensionale Belohnungen die volle Komplexität sozialer Interaktionen erfassen und Belohnungsmanipulation reduzieren. Experimente in Sotopia, einer offenen sozialen Lernumgebung, zeigen, dass Sotopia-RL state-of-the-art Ergebnisse bei der Erreichung sozialer Ziele erzielt (7,17 bei Sotopia-hard und 8,31 bei Sotopia-full) und bestehende Ansätze deutlich übertrifft. Ablationsstudien bestätigen die Notwendigkeit sowohl der Kreditvergabe auf Äußerungsebene als auch des mehrdimensionalen Belohnungsdesigns für das RL-Training. Unsere Implementierung ist öffentlich verfügbar unter: https://github.com/sotopia-lab/sotopia-rl.

CoTox: Ketten-der-Gedanken-basiertes molekulares Toxizitätsreasoning und -vorhersage
CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction

Aug 5

ByJueon Park, Yein Park, Minju Song, Soyon Park, Donghyeon Lee, Seungheun Baek, Jaewoo Kang

Die Toxizität von Arzneimitteln bleibt eine große Herausforderung in der pharmazeutischen Entwicklung. Aktuelle maschinelle Lernmodelle haben die in silico-Toxizitätsvorhersage verbessert, doch ihre Abhängigkeit von annotierten Daten und mangelnde Interpretierbarkeit schränken ihre Anwendbarkeit ein. Dies begrenzt ihre Fähigkeit, organspezifische Toxizitäten zu erfassen, die durch komplexe biologische Mechanismen verursacht werden. Große Sprachmodelle (LLMs) bieten eine vielversprechende Alternative durch schrittweises Denken und die Integration von Textdaten, doch bisherige Ansätze fehlt es an biologischem Kontext und transparenter Begründung. Um dieses Problem zu lösen, schlagen wir CoTox vor, ein neuartiges Framework, das LLM mit Chain-of-Thought (CoT)-Denken für die Vorhersage von Multi-Toxizität kombiniert. CoTox integriert chemische Strukturdaten, biologische Pfade und Gene-Ontology (GO)-Begriffe, um interpretierbare Toxizitätsvorhersagen durch schrittweises Denken zu generieren. Mit GPT-4o zeigen wir, dass CoTox sowohl traditionelle maschinelle Lernmodelle als auch Deep-Learning-Modelle übertrifft. Wir untersuchen weiterhin seine Leistung über verschiedene LLMs hinweg, um zu identifizieren, wo CoTox am effektivsten ist. Zusätzlich stellen wir fest, dass die Darstellung chemischer Strukturen mit IUPAC-Namen, die für LLMs leichter zu verstehen sind als SMILES, die Denkfähigkeit des Modells verbessert und die Vorhersageleistung steigert. Um den praktischen Nutzen in der Arzneimittelentwicklung zu demonstrieren, simulieren wir die Behandlung relevanter Zelltypen mit einem Wirkstoff und integrieren den daraus resultierenden biologischen Kontext in das CoTox-Framework. Dieser Ansatz ermöglicht es CoTox, Toxizitätsvorhersagen zu generieren, die mit physiologischen Reaktionen übereinstimmen, wie in einer Fallstudie gezeigt wird. Dieses Ergebnis unterstreicht das Potenzial von LLM-basierten Frameworks, die Interpretierbarkeit zu verbessern und die Sicherheitsbewertung von Arzneimitteln in frühen Entwicklungsstadien zu unterstützen. Der Code und die verwendeten Prompts sind unter https://github.com/dmis-lab/CoTox verfügbar.

Web-CogReasoner: Auf dem Weg zu wissensinduziertem kognitivem Reasoning für Web-Agenten
Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents

Aug 3

ByYuhan Guo, Cong Guo, Aiwen Sun, Hongliang He, Xinyu Yang, Yue Lu, Yingji Zhang, Xuntao Guo, Dong Zhang, Jianzhuang Liu, Jiang Duan, Yijia Xiao, Liangjian Wen, Hai-Ming Xu, Yong Dai

Multimodale großskalige Modelle haben die Entwicklung von Web-Agenten erheblich vorangetrieben und ermöglichen eine Wahrnehmung und Interaktion mit digitalen Umgebungen, die der menschlichen Kognition ähnelt. In diesem Artikel argumentieren wir, dass Web-Agenten zunächst ausreichend Wissen erwerben müssen, um effektiv an kognitiven Denkprozessen teilnehmen zu können. Daher unterteilen wir die Fähigkeiten eines Web-Agenten in zwei wesentliche Phasen: Wissensinhaltslernen und kognitive Prozesse. Um dies zu formalisieren, schlagen wir das Web-CogKnowledge-Framework vor, das Wissen in die Kategorien Faktisch, Konzeptionell und Prozedural einteilt. In diesem Framework entspricht das Wissensinhaltslernen den Prozessen des Merkens und Verstehens des Agenten, die sich auf die ersten beiden Wissensarten stützen und das „Was“ des Lernens darstellen. Im Gegensatz dazu entsprechen die kognitiven Prozesse dem Erkunden, das auf prozeduralem Wissen basiert und das „Wie“ des Denkens und Handelns definiert. Um den Wissenserwerb zu erleichtern, erstellen wir das Web-CogDataset, eine strukturierte Ressource, die aus 14 realen Websites kuratiert wurde und darauf abzielt, das Kernwissen, das für einen Web-Agenten erforderlich ist, systematisch zu vermitteln. Dieser Datensatz dient als konzeptionelle Grundlage des Agenten – die „Substantive“, auf denen das Verständnis aufbaut – sowie als Basis für das Erlernen des Denkens und Handelns. Auf dieser Grundlage operationalisieren wir diese Prozesse durch einen neuartigen wissensgesteuerten Chain-of-Thought (CoT)-Denkrahmen und entwickeln und trainieren unseren vorgeschlagenen Agenten, den Web-CogReasoner. Umfangreiche Experimente zeigen seine deutliche Überlegenheit gegenüber bestehenden Modellen, insbesondere bei der Generalisierung auf unbekannte Aufgaben, bei denen strukturiertes Wissen entscheidend ist. Um eine strenge Bewertung zu ermöglichen, führen wir den Web-CogBench ein, eine umfassende Evaluationssuite, die darauf abzielt, die Leistung von Agenten in den definierten Wissensdomänen und kognitiven Fähigkeiten zu bewerten und zu vergleichen. Unser Code und unsere Daten sind unter https://github.com/Gnonymous/Web-CogReasoner open source verfügbar.

HPSv3: Auf dem Weg zu einem breitgefächerten menschlichen Präferenzscore
HPSv3: Towards Wide-Spectrum Human Preference Score

Aug 5

ByYuhang Ma, Xiaoshi Wu, Keqiang Sun, Hongsheng Li

Die Bewertung von Text-zu-Bild-Generierungsmodellen erfordert eine Übereinstimmung mit der menschlichen Wahrnehmung, doch bestehende menschenzentrierte Metriken sind durch begrenzte Datenabdeckung, suboptimale Merkmalsextraktion und ineffiziente Verlustfunktionen eingeschränkt. Um diese Herausforderungen zu bewältigen, führen wir den Human Preference Score v3 (HPSv3) ein. (1) Wir veröffentlichen HPDv3, den ersten breitgefächerten Datensatz für menschliche Präferenzen, der 1,08 Millionen Text-Bild-Paare und 1,17 Millionen annotierte paarweise Vergleiche aus modernsten generativen Modellen sowie realen Bildern von niedriger bis hoher Qualität integriert. (2) Wir stellen ein VLM-basiertes Präferenzmodell vor, das mit einem unsicherheitsbewussten Ranking-Verlust für fein abgestuftes Ranking trainiert wird. Zudem schlagen wir Chain-of-Human-Preference (CoHP) vor, eine iterative Bildverfeinerungsmethode, die die Qualität ohne zusätzliche Daten verbessert, indem HPSv3 verwendet wird, um in jedem Schritt das beste Bild auszuwählen. Umfangreiche Experimente zeigen, dass HPSv3 als robuste Metrik für die breitgefächerte Bildbewertung dient und CoHP einen effizienten und menschenorientierten Ansatz bietet, um die Qualität der Bildgenerierung zu verbessern. Der Code und der Datensatz sind auf der HPSv3-Homepage verfügbar.

Gaußscher Variationsfeld-Diffusion für hochauflösende Video-zu-4D-Synthese
Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis

Jul 31

ByBowen Zhang, Sicheng Xu, Chuxin Wang, Jiaolong Yang, Feng Zhao, Dong Chen, Baining Guo

In diesem Artikel stellen wir ein neuartiges Framework für die Video-zu-4D-Generierung vor, das hochwertige dynamische 3D-Inhalte aus einzelnen Videoeingaben erzeugt. Die direkte 4D-Diffusionsmodellierung ist aufgrund der aufwändigen Datenerstellung und der hochdimensionalen Natur der gemeinsamen Darstellung von 3D-Form, Erscheinungsbild und Bewegung äußerst anspruchsvoll. Wir adressieren diese Herausforderungen durch die Einführung eines Direct 4DMesh-to-GS Variation Field VAE, der kanonische Gaussian Splats (GS) und ihre zeitlichen Variationen direkt aus 3D-Animationsdaten kodiert, ohne eine pro-Instanz-Anpassung, und hochdimensionale Animationen in einen kompakten latenten Raum komprimiert. Aufbauend auf dieser effizienten Darstellung trainieren wir ein Gaussian Variation Field Diffusionsmodell mit einem zeitlich bewussten Diffusion Transformer, der auf Eingabevideos und kanonische GS konditioniert ist. Unser Modell, das auf sorgfältig kuratierten animierbaren 3D-Objekten aus dem Objaverse-Datensatz trainiert wurde, zeigt eine überlegene Generierungsqualität im Vergleich zu bestehenden Methoden. Es weist auch eine bemerkenswerte Generalisierungsfähigkeit für Videoeingaben aus der realen Welt auf, obwohl es ausschließlich auf synthetischen Daten trainiert wurde, und ebnet den Weg für die Erzeugung hochwertiger animierter 3D-Inhalte. Projektseite: https://gvfdiffusion.github.io/.

Sculptor: Stärkung von LLMs durch kognitive Handlungsfähigkeit mittels aktivem Kontextmanagement
Sculptor: Empowering LLMs with Cognitive Agency via Active Context Management

Aug 6

ByMo Li, L. H. Xu, Qitai Tan, Ting Cao, Yunxin Liu

Große Sprachmodelle (LLMs) leiden unter einer erheblichen Leistungsverschlechterung bei der Verarbeitung langer Kontexte aufgrund von proaktiver Interferenz, bei der irrelevante Informationen in früheren Teilen des Kontexts das logische Denken und die Gedächtnisabrufe beeinträchtigen. Während sich die meisten Forschungsarbeiten auf externe Speichersysteme konzentrieren, um die Fähigkeiten von LLMs zu erweitern, schlagen wir einen komplementären Ansatz vor: die Ausstattung von LLMs mit Werkzeugen zur aktiven Kontextverwaltung (Active Context Management, ACM), um ihr internes Arbeitsgedächtnis gezielt zu formen. Wir stellen Sculptor vor, ein Framework, das LLMs mit drei Kategorien von Werkzeugen ausstattet: (1) Kontextfragmentierung, (2) Zusammenfassung, Ausblendung und Wiederherstellung sowie (3) intelligente Suche. Unser Ansatz ermöglicht es LLMs, ihre Aufmerksamkeit und ihr Arbeitsgedächtnis proaktiv zu steuern, ähnlich wie Menschen sich selektiv auf relevante Informationen konzentrieren und Ablenkungen ausblenden. Experimentelle Auswertungen auf informationsarmen Benchmarks – PI-LLM (proaktive Interferenz) und NeedleBench Multi-Needle Reasoning – zeigen, dass Sculptor die Leistung selbst ohne spezifisches Training erheblich verbessert, indem es die inhärenten Fähigkeiten von LLMs zur Werkzeugnutzung verallgemeinert. Durch die Ermöglichung aktiver Kontextverwaltung mildert Sculptor nicht nur proaktive Interferenz, sondern schafft auch eine kognitive Grundlage für zuverlässigeres Denken über diverse langkontextbezogene Aufgaben hinweg – und verdeutlicht, dass explizite Kontextkontrollstrategien, und nicht lediglich größere Token-Fenster, der Schlüssel zur Robustheit im großen Maßstab sind.

DreamVVT: Beherrschung realistischer Video-Virtual-Try-Ons in der Praxis durch ein stufenweises Diffusions-Transformer-Framework
DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework

Aug 4

ByTongchun Zuo, Zaiyu Huang, Shuliang Ning, Ente Lin, Chao Liang, Zerong Zheng, Jianwen Jiang, Yuan Zhang, Mingyuan Gao, Xin Dong

Die Video-Virtual-Try-On-Technologie (VVT) hat aufgrund ihrer vielversprechenden Anwendungen im E-Commerce-Werbung und Unterhaltungsbereich erhebliches akademisches Interesse geweckt. Die meisten bestehenden End-to-End-Methoden stützen sich jedoch stark auf knappe, paarweise Datensätze mit Kleidungsfokus und nutzen die Prioritäten fortgeschrittener visueller Modelle und Testzeit-Eingaben nicht effektiv, was es schwierig macht, fein abgestimmte Kleidungsdetails genau zu bewahren und zeitliche Konsistenz in unbegrenzten Szenarien aufrechtzuerhalten. Um diese Herausforderungen zu bewältigen, schlagen wir DreamVVT vor, ein sorgfältig entworfenes zweistufiges Framework, das auf Diffusion Transformers (DiTs) basiert und von Natur aus in der Lage ist, diverse ungepaarte, menschenzentrierte Daten zu nutzen, um die Anpassungsfähigkeit in realen Szenarien zu verbessern. Um Vorwissen aus vortrainierten Modellen und Testzeit-Eingaben weiter zu nutzen, werden im ersten Stadium repräsentative Frames aus dem Eingabevideo ausgewählt und ein Multi-Frame-Try-On-Modell, das mit einem Vision-Language-Modell (VLM) integriert ist, verwendet, um hochauflösende und semantisch konsistente Keyframe-Try-On-Bilder zu synthetisieren. Diese Bilder dienen als ergänzende Erscheinungsführung für die nachfolgende Videogenerierung. Im zweiten Stadium werden Skelettkarten zusammen mit fein abgestimmten Bewegungs- und Erscheinungsbeschreibungen aus dem Eingabeinhalt extrahiert, und diese werden zusammen mit den Keyframe-Try-On-Bildern in ein vortrainiertes Videogenerierungsmodell eingespeist, das mit LoRA-Adaptern verbessert wurde. Dies gewährleistet langfristige zeitliche Kohärenz für ungesehene Regionen und ermöglicht hoch plausible dynamische Bewegungen. Umfangreiche quantitative und qualitative Experimente zeigen, dass DreamVVT bestehende Methoden in der Bewahrung detaillierter Kleidungsinhalte und zeitlicher Stabilität in realen Szenarien übertrifft. Unsere Projektseite https://virtu-lab.github.io/

Position: Das aktuelle KI-Konferenzmodell ist nicht nachhaltig! Diagnose der Krise zentralisierter KI-Konferenzen
Position: The Current AI Conference Model is Unsustainable! Diagnosing the Crisis of Centralized AI Conference

Aug 6

ByNuo Chen, Moming Duan, Andre Huikai Lin, Qian Wang, Jiaying Wu, Bingsheng He

Konferenzen für Künstliche Intelligenz (KI) sind entscheidend für die Förderung von Forschung, den Wissensaustausch und die Stärkung der akademischen Gemeinschaft. Ihre rasche Expansion hat jedoch das zentralisierte Konferenzmodell zunehmend unhaltbar gemacht. Dieser Artikel bietet eine datengestützte Analyse einer strukturellen Krise, die die grundlegenden Ziele der wissenschaftlichen Verbreitung, Chancengleichheit und des Gemeinschaftswohls bedroht. Wir identifizieren vier zentrale Problembereiche: (1) wissenschaftlich, mit einer Verdoppelung der Publikationsrate pro Autor in den letzten zehn Jahren auf über 4,5 Arbeiten jährlich; (2) ökologisch, mit einem CO₂-Fußabdruck einer einzelnen Konferenz, der die täglichen Emissionen der Gastgeberstadt übersteigt; (3) psychologisch, wobei 71 % des Online-Community-Diskurses negative Stimmung widerspiegeln und 35 % auf psychische Gesundheitsprobleme verweisen; und (4) logistisch, da die Teilnehmerzahlen bei Top-Konferenzen wie NeurIPS 2024 beginnen, die Kapazitäten der Veranstaltungsorte zu übersteigen. Diese Belastungen deuten auf ein System hin, das nicht mehr mit seiner Kernmission im Einklang steht. Als Antwort schlagen wir das Community-Federated Conference (CFC)-Modell vor, das Peer-Review, Präsentation und Networking in global koordinierte, aber lokal organisierte Komponenten aufteilt. Dies bietet einen nachhaltigeren, inklusiveren und widerstandsfähigeren Weg für die KI-Forschung.

LeanK: Lernbare K-Cache-Kanalreduzierung für effiziente Dekodierung
LeanK: Learnable K Cache Channel Pruning for Efficient Decoding

Aug 4

ByYike Zhang, Zhiyuan He, Huiqiang Jiang, Chengruidong Zhang, Yuqing Yang, Jianyong Wang, Lili Qiu

Große Sprachmodelle (LLMs) ermöglichen Aufgaben mit langem Kontext, stehen jedoch aufgrund des wachsenden Key-Value (KV)-Caches vor Effizienzproblemen. Wir schlagen LeanK vor, eine lernbasierte Methode, die unwichtige Key (K)-Cache-Kanäle durch die Nutzung statischer Kanalsparsamkeit beschneidet. Mit einem neuartigen zweistufigen Trainingsprozess lernt LeanK kanalweise statische Masken, die ein bestimmtes Sparsamkeitsverhältnis und Hardware-Ausrichtungsanforderungen erfüllen können. LeanK reduziert den GPU-Speicher und beschleunigt die Decodierung, ohne die Genauigkeit zu beeinträchtigen. Experimente zeigen eine Reduktion des K-Caches um bis zu 70 % und des V-Cache-Speichers um 16 %–18 %. Ein benutzerdefinierter Decodierungskernel ermöglicht eine 1,3-fache Beschleunigung der Aufmerksamkeitsberechnung. Wir bieten auch Einblicke in Modellkanäle und Aufmerksamkeitsköpfe während der Inferenz mit langem Kontext durch die Analyse der gelernten Wichtigkeitsverteilung. Unser Code ist verfügbar unter https://aka.ms/LeanK.

StepFun-Formalizer: Freisetzung des Autoformalierungspotenzials von LLMs durch Wissens-Reasoning-Fusion
StepFun-Formalizer: Unlocking the Autoformalization Potential of LLMs through Knowledge-Reasoning Fusion

Aug 6

ByYutong Wu, Di Huang, Ruosi Wan, Yue Peng, Shijie Shang, Chenrui Cao, Lei Qi, Rui Zhang, Zidong Du, Jie Yan, Xing Hu

Autoformalisierung zielt darauf ab, mathematische Aussagen in natürlicher Sprache in eine formale Sprache zu übersetzen. Obwohl LLMs den Fortschritt in diesem Bereich beschleunigt haben, leiden bestehende Methoden immer noch unter geringer Genauigkeit. Wir identifizieren zwei Schlüsselfähigkeiten für eine effektive Autoformalierung: umfassende Beherrschung des Domänenwissens der formalen Sprache und die Fähigkeit, natürliche Sprache zu verstehen und informelle mit formalen Aussagen in Einklang zu bringen. Ohne erstere kann ein Modell die korrekten formalen Objekte nicht identifizieren; ohne letztere hat es Schwierigkeiten, reale Kontexte zu interpretieren und sie präzise in formale Ausdrücke abzubilden. Um diese Lücken zu schließen, stellen wir ThinkingF vor, eine Pipeline zur Datensynthese und zum Training, die beide Fähigkeiten verbessert. Zunächst erstellen wir zwei Datensätze: einen durch Destillation und Auswahl groß angelegter Beispiele, die reich an formalem Wissen sind, und einen anderen durch die Generierung von informell-zu-formal-Schlussfolgerungspfaden, die von Experten entworfenen Vorlagen folgen. Anschließend wenden wir SFT und RLVR mit diesen Datensätzen an, um beide Fähigkeiten weiter zu verschmelzen und zu verfeinern. Die resultierenden 7B- und 32B-Modelle zeigen sowohl umfassendes formales Wissen als auch starke informell-zu-formal-Schlussfolgerungsfähigkeiten. Bemerkenswerterweise erreicht StepFun-Formalizer-32B SOTA BEq@1-Werte von 40,5 % auf FormalMATH-Lite und 26,7 % auf ProverBench und übertrifft damit alle bisherigen allgemeinen und spezialisierten Modelle.

MiDashengLM: Effizientes Audioverständnis mit allgemeinen Audio-Beschreibungen
MiDashengLM: Efficient Audio Understanding with General Audio Captions

Aug 6

ByHeinrich Dinkel, Gang Li, Jizhong Liu, Jian Luan, Yadong Niu, Xingwei Sun, Tianzi Wang, Qiyang Xiao, Junbo Zhang, Jiahao Zhou

Aktuelle Ansätze für große Audio-Sprachmodelle (LALMs) basieren häufig auf geschlossenen Datenquellen oder proprietären Modellen, was ihre Generalisierbarkeit und Zugänglichkeit einschränkt. Dieses Papier stellt MiDashengLM vor, ein neuartiges offenes Audio-Sprachmodell, das für ein effizientes und umfassendes Audioverständnis durch die Verwendung allgemeiner Audio-Beschreibungen mithilfe unseres neuartigen ACAVCaps-Trainingsdatensatzes entwickelt wurde. MiDashengLM stützt sich ausschließlich auf öffentlich verfügbare Vorabtrainings- und überwachte Feinabstimmungsdatensätze (SFT), wodurch vollständige Transparenz und Reproduzierbarkeit gewährleistet werden. Im Kern integriert MiDashengLM Dasheng, einen Open-Source-Audio-Encoder, der speziell dafür entwickelt wurde, diverse auditive Informationen effektiv zu verarbeiten. Im Gegensatz zu früheren Arbeiten, die sich hauptsächlich auf die Audio-Text-Ausrichtung basierend auf automatischer Spracherkennung (ASR) konzentrierten, zentriert sich unsere Strategie auf allgemeine Audio-Beschreibungen, die Sprach-, Klang- und Musikinformationen in einer textuellen Darstellung vereinen und somit eine ganzheitliche textuelle Repräsentation komplexer Audioszenen ermöglichen. Schließlich bietet MiDashengLM eine bis zu 4-fache Beschleunigung in Bezug auf die Zeit bis zum ersten Token (TTFT) und einen bis zu 20-fach höheren Durchsatz im Vergleich zu ähnlichen Modellen. Checkpoints sind online verfügbar unter https://huggingface.co/mispeech/midashenglm-7b und https://github.com/xiaomi-research/dasheng-lm.

OpenMed NER: Open-Source, domänenangepasste State-of-the-Art-Transformer für biomedizinische Named Entity Recognition über 12 öffentliche Datensätze
OpenMed NER: Open-Source, Domain-Adapted State-of-the-Art Transformers for Biomedical NER Across 12 Public Datasets

Aug 3

ByMaziyar Panahi

Named-Entity Recognition (NER) ist grundlegend für die Extraktion strukturierter Informationen aus den >80 % der Gesundheitsdaten, die in unstrukturierten klinischen Notizen und biomedizinischer Literatur enthalten sind. Trotz jüngster Fortschritte bei großen Sprachmodellen bleibt die Erreichung von Spitzenleistungen über verschiedene Entitätstypen hinweg bei gleichzeitiger Wahrung der Recheneffizienz eine erhebliche Herausforderung. Wir stellen OpenMed NER vor, eine Suite von Open-Source-Transformer-Modellen, die domänenadaptives Pre-Training (DAPT) mit parameter-effizienter Low-Rank Adaptation (LoRA) kombinieren. Unser Ansatz führt kosteneffizientes DAPT auf einem Korpus von 350.000 Passagen durch, der aus ethisch einwandfreien, öffentlich zugänglichen Forschungsrepositorien und anonymisierten klinischen Notizen (PubMed, arXiv und MIMIC-III) zusammengestellt wurde, wobei DeBERTa-v3, PubMedBERT und BioELECTRA als Backbones verwendet werden. Darauf folgt eine aufgabenspezifische Feinabstimmung mit LoRA, die weniger als 1,5 % der Modellparameter aktualisiert. Wir evaluieren unsere Modelle anhand von 12 etablierten biomedizinischen NER-Benchmarks, die Chemikalien, Krankheiten, Gene und Spezies abdecken. OpenMed NER erreicht neue Spitzenwerte bei den Mikro-F1-Scores auf 10 dieser 12 Datensätze, mit erheblichen Verbesserungen über verschiedene Entitätstypen hinweg. Unsere Modelle setzen neue Maßstäbe bei grundlegenden Benchmarks für Krankheiten und Chemikalien (z. B. BC5CDR-Disease, +2,70 Prozentpunkte), während sie noch größere Verbesserungen von über 5,3 und 9,7 Prozentpunkten auf spezialisierteren Gen- und klinischen Zelllinien-Korpora erzielen. Diese Arbeit zeigt, dass strategisch angepasste Open-Source-Modelle proprietäre Lösungen übertreffen können. Diese Leistung wird mit bemerkenswerter Effizienz erreicht: Das Training dauert weniger als 12 Stunden auf einer einzelnen GPU mit einem geringen CO2-Fußabdruck (< 1,2 kg CO2e) und produziert Open-Source-Checkpoints mit freizügigen Lizenzen, die Praktikern dabei helfen sollen, die Einhaltung neuer Datenschutz- und KI-Regulierungen wie dem EU-KI-Gesetz zu erleichtern.

HarmonyGuard: Zu Sicherheit und Nutzen in Web-Agenten durch adaptive Politikverbesserung und Dual-Ziel-Optimierung
HarmonyGuard: Toward Safety and Utility in Web Agents via Adaptive Policy Enhancement and Dual-Objective Optimization

Aug 6

ByYurun Chen, Xavier Hu, Yuhan Liu, Keting Yin, Juncheng Li, Zhuosheng Zhang, Shengyu Zhang

Große Sprachmodelle ermöglichen es Agenten, Aufgaben in offenen Webumgebungen autonom auszuführen. Da sich jedoch versteckte Bedrohungen im Web weiterentwickeln, stehen Webagenten vor der Herausforderung, die Aufgabenleistung mit den aufkommenden Risiken während langwieriger Operationen in Einklang zu bringen. Obwohl diese Herausforderung entscheidend ist, beschränkt sich die aktuelle Forschung auf die Einzelzieloptimierung oder Einzelszenarien und verfügt nicht über die Fähigkeit, Sicherheit und Nutzen in Webumgebungen gemeinsam zu optimieren. Um diese Lücke zu schließen, schlagen wir HarmonyGuard vor, ein Multi-Agenten-Kollaborationsframework, das durch Politikverbesserung und Zieloptimierung sowohl den Nutzen als auch die Sicherheit gemeinsam verbessert. HarmonyGuard zeichnet sich durch eine Multi-Agenten-Architektur aus, die durch zwei grundlegende Fähigkeiten charakterisiert ist: (1) Adaptive Politikverbesserung: Wir führen den Policy Agent innerhalb von HarmonyGuard ein, der automatisch strukturierte Sicherheitsrichtlinien aus unstrukturierten externen Dokumenten extrahiert und pflegt, während er die Richtlinien kontinuierlich an die sich entwickelnden Bedrohungen anpasst. (2) Duale Zieloptimierung: Basierend auf den dualen Zielen von Sicherheit und Nutzen führt der in HarmonyGuard integrierte Utility Agent eine Markovsche Echtzeit-Argumentation durch, um die Ziele zu bewerten, und nutzt metakognitive Fähigkeiten zu deren Optimierung. Umfangreiche Bewertungen auf mehreren Benchmarks zeigen, dass HarmonyGuard die Richtlinienkonformität um bis zu 38 % und die Aufgabenabschlussrate um bis zu 20 % gegenüber bestehenden Baselines verbessert, während es eine Richtlinienkonformität von über 90 % bei allen Aufgaben erreicht. Unser Projekt ist hier verfügbar: https://github.com/YurunChen/HarmonyGuard.

IAUNet: Instanzbewusstes U-Net
IAUNet: Instance-Aware U-Net

Aug 3

ByYaroslav Prytula, Illia Tsiporenko, Ali Zeynalli, Dmytro Fishman

Die Instanzsegmentierung ist in der biomedizinischen Bildgebung entscheidend, um einzelne Objekte wie Zellen, die sich häufig überlappen und in ihrer Größe variieren, präzise zu unterscheiden. Neuere, abfragebasierte Methoden, bei denen Objektabfragen die Segmentierung steuern, haben eine starke Leistung gezeigt. Während U-Net eine etablierte Architektur in der medizinischen Bildsegmentierung ist, bleibt sein Potenzial in abfragebasierten Ansätzen weitgehend unerforscht. In dieser Arbeit präsentieren wir IAUNet, eine neuartige abfragebasierte U-Net-Architektur. Das Kernkonzept umfasst eine vollständige U-Net-Architektur, die durch einen neuartigen, leichtgewichtigen konvolutionellen Pixel-Decoder erweitert wird, wodurch das Modell effizienter wird und die Anzahl der Parameter reduziert wird. Zusätzlich schlagen wir einen Transformer-Decoder vor, der objektspezifische Merkmale über mehrere Skalen hinweg verfeinert. Schließlich stellen wir das 2025 Revvity Full Cell Segmentation Dataset vor, eine einzigartige Ressource mit detaillierten Annotationen von sich überlappenden Zellzytoplasmen in Hellfeldbildern, die einen neuen Maßstab für die biomedizinische Instanzsegmentierung setzt. Experimente auf mehreren öffentlichen Datensätzen sowie unseren eigenen zeigen, dass IAUNet die meisten state-of-the-art vollständig konvolutionellen, transformerbasierten und abfragebasierten Modelle sowie zellspezifische Segmentierungsmodelle übertrifft und somit eine solide Grundlage für Zellinstanzsegmentierungsaufgaben schafft. Der Code ist verfügbar unter https://github.com/SlavkoPrytula/IAUNet.

EVOC2RUST: Ein Skelett-gesteuertes Framework für die projektweite C-zu-Rust-Übersetzung
EVOC2RUST: A Skeleton-guided Framework for Project-Level C-to-Rust Translation

Aug 6

ByChaofan Wang, Tingrui Yu, Jie Wang, Dong Chen, Wenrui Zhang, Yuling Shi, Xiaodong Gu, Beijun Shen

Rusts Garantien für Sicherheit zur Kompilierzeit machen es ideal für sicherheitskritische Systeme, was die Nachfrage nach der Übersetzung von Legacy-C-Codebasen in Rust erhöht. Obwohl verschiedene Ansätze für diese Aufgabe entstanden sind, stehen sie vor inhärenten Kompromissen: regelbasierte Lösungen haben Schwierigkeiten, die Anforderungen an Code-Sicherheit und Idiomatizität zu erfüllen, während LLM-basierte Lösungen oft daran scheitern, semantisch äquivalenten Rust-Code zu generieren, aufgrund der starken Abhängigkeiten von Modulen über die gesamte Codebasis hinweg. Aktuelle Studien haben gezeigt, dass beide Lösungen auf kleine Programme beschränkt sind. In diesem Artikel schlagen wir EvoC2Rust vor, ein automatisiertes Framework zur Konvertierung gesamter C-Projekte in äquivalente Rust-Projekte. EvoC2Rust verwendet eine skelettgesteuerte Übersetzungsstrategie für die Übersetzung auf Projektebene. Die Pipeline besteht aus drei evolutionären Phasen: 1) Zunächst zerlegt es das C-Projekt in funktionale Module, verwendet ein feature-mapping-verstärktes LLM, um Definitionen und Makros zu transformieren, und generiert typgeprüfte Funktionsstubs, die ein kompilierbares Rust-Skelett bilden; 2) Anschließend übersetzt es die Funktion schrittweise und ersetzt den entsprechenden Stub-Platzhalter; 3) Schließlich behebt es Kompilierungsfehler durch die Integration von LLM und statischer Analyse. Durch evolutionäre Erweiterung kombiniert EvoC2Rust die Vorteile sowohl regelbasierter als auch LLM-basierter Lösungen. Unsere Bewertung auf Open-Source-Benchmarks und sechs industriellen Projekten demonstriert die überlegene Leistung von EvoC2Rust bei der projektbasierten C-zu-Rust-Übersetzung. Im Durchschnitt erreicht es Verbesserungen von 17,24 % und 14,32 % in der Syntax- und Semantikgenauigkeit gegenüber den LLM-basierten Ansätzen sowie eine 96,79 % höhere Code-Sicherheitsrate als die regelbasierten Tools. Auf Modulebene erreicht EvoC2Rust Kompilierungs- und Testdurchlaufraten von 92,25 % bzw. 89,53 % bei industriellen Projekten, selbst für komplexe Codebasen und lange Funktionen.

DPoser-X: Diffusionsmodell als robuste 3D-Ganzkörper-Posenschätzungsprior
DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior

Aug 1

ByJunzhe Lu, Jing Lin, Hongkun Dou, Ailing Zeng, Yue Deng, Xian Liu, Zhongang Cai, Lei Yang, Yulun Zhang, Haoqian Wang, Ziwei Liu

Wir präsentieren DPoser-X, ein diffusionsbasiertes Prior-Modell für 3D-Ganzkörper-Posen des Menschen. Die Entwicklung eines vielseitigen und robusten Prior-Modells für die gesamte menschliche Körperhaltung bleibt aufgrund der inhärenten Komplexität artikulierter menschlicher Posen und der Knappheit hochwertiger Ganzkörper-Posendatensätze eine Herausforderung. Um diese Einschränkungen zu adressieren, führen wir ein Diffusionsmodell als Körperposen-Prior (DPoser) ein und erweitern es zu DPoser-X für die expressive Modellierung von Ganzkörper-Posen. Unser Ansatz vereint verschiedene posenzentrierte Aufgaben als inverse Probleme und löst sie durch variationsbasierte Diffusionssammlung. Um die Leistung in nachgelagerten Anwendungen zu verbessern, führen wir eine neuartige Methode zur zeitgestuften Planung ein, die speziell auf die Eigenschaften von Posendaten zugeschnitten ist. Zudem schlagen wir einen maskierten Trainingsmechanismus vor, der Ganzkörper- und teilbezogene Datensätze effektiv kombiniert, wodurch unser Modell die Interdependenzen zwischen Körperteilen erfassen kann, ohne sich auf spezifische Bewegungen zu spezialisieren. Umfangreiche Experimente demonstrieren die Robustheit und Vielseitigkeit von DPoser-X über mehrere Benchmarks hinweg für die Modellierung von Körper-, Hand-, Gesichts- und Ganzkörper-Posen. Unser Modell übertrifft durchweg state-of-the-art Alternativen und setzt einen neuen Maßstab für die Prior-Modellierung von Ganzkörper-Posen des Menschen.

RL-PLUS: Gegensteuern des Fähigkeitsgrenzenkollapses von LLMs im Reinforcement Learning durch hybride Politikoptimierung
RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization

Jul 31

ByYihong Dong, Xue Jiang, Yongding Tao, Huanyu Liu, Kechi Zhang, Lili Mou, Rongyu Cao, Yingwei Ma, Jue Chen, Binhua Li, Zhi Jin, Fei Huang, Yongbin Li, Ge Li

Reinforcement Learning mit verifizierbarer Belohnung (RLVR) hat die komplexen Denkfähigkeiten von Large Language Models (LLMs) erheblich vorangetrieben. Es hat jedoch Schwierigkeiten, die inhärenten Fähigkeitsgrenzen des Basismodells zu überwinden, da es im Wesentlichen eine On-Policy-Strategie verwendet, die mit dem immensen Aktionsraum und der spärlichen Belohnung von LLMs kombiniert ist. Kritisch ist, dass RLVR zu einem Zusammenbruch der Fähigkeitsgrenzen führen kann, wodurch der Problemlösungsbereich des LLMs eingeschränkt wird. Um dieses Problem zu lösen, schlagen wir RL-PLUS vor, einen neuartigen hybriden Policy-Optimierungsansatz für LLMs, der interne Ausnutzung mit externen Daten kombiniert, um stärkere Denkfähigkeiten zu erreichen und die Grenzen der Basismodelle zu überschreiten. RL-PLUS integriert zwei Kernkomponenten, nämlich Multiple Importance Sampling, um die Verteilungsabweichung durch externe Daten zu adressieren, und eine explorationsbasierte Vorteilsfunktion, um das Modell auf hochwertige, unerforschte Denkpfade zu lenken. Wir liefern sowohl theoretische Analysen als auch umfangreiche Experimente, um die Überlegenheit und Generalisierbarkeit unseres Ansatzes zu demonstrieren. Im Vergleich zu bestehenden RLVR-Methoden erreicht RL-PLUS 1) state-of-the-art Leistung auf sechs mathematischen Denkbenchmarks; 2) überlegene Leistung bei sechs Out-of-Distribution-Denkaufgaben; 3) konsistente und signifikante Verbesserungen über verschiedene Modellfamilien hinweg, mit durchschnittlichen relativen Verbesserungen von bis zu 69,2\%. Darüber hinaus zeigt die Analyse der Pass@k-Kurven, dass RL-PLUS das Problem des Zusammenbruchs der Fähigkeitsgrenzen effektiv löst.

Light-IF: Ausstattung von LLMs mit generalisierbarem Denken durch Vorschau und Selbstüberprüfung für komplexe Instruktionsbefolgung
Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following

Aug 5

ByChenyang Wang, Liang Wen, Shousheng Jia, Xiangzheng Zhang, Liang Xu

Während die Fortschritte in den Fähigkeiten von LLMs (Large Language Models) zur logischen Schlussfolgerung ihre Leistung bei der Lösung mathematischer Probleme, Programmieraufgaben und allgemeiner Rätsel erheblich verbessert haben, bleibt ihre Effektivität bei der präzisen Befolgung von Anweisungen insbesondere bei komplexeren Anweisungen inkonsistent. Unsere Untersuchung identifiziert nachlässiges Denken während der Denkphase als den Hauptfaktor, der zu einer schlechten Anweisungsbefolgung führt. Um dieses Problem zu mildern, schlagen wir ein umfassendes Framework vor, das rigorose Denkprozesse mit Vorausschau und Selbstüberprüfung ermöglicht, die für die Einhaltung strenger Anweisungsbedingungen unerlässlich sind. Konkret generieren wir zunächst Anweisungen mit komplexen Bedingungen und wenden einen Filterprozess an, um gültige Prompts zu erhalten, was zu drei verschiedenen Prompt-Datensätzen führt, die als schwer, einfach und passend kategorisiert sind. Anschließend verwenden wir Rejection Sampling auf den passenden Prompts, um einen kleinen, aber hochwertigen Datensatz zu erstellen, der eine Kaltstart-Initialisierung des Modells ermöglicht und dessen Anpassung an effektive Denkmuster erleichtert. Danach setzen wir eine entropieerhaltende überwachte Feinabstimmung (Entropy-SFT) in Kombination mit tokenweiser entropieadaptiver (TEA-RL) Verstärkungslernung ein, die durch regelbasierte dichte Belohnungen geleitet wird. Dieser Ansatz ermutigt das Modell, seinen Denkmechanismus zu transformieren, wodurch letztendlich generalisierbare Denkfähigkeiten gefördert werden, die Vorausschau und Selbstüberprüfung umfassen. Umfangreiche Experimente auf Benchmarks zur Anweisungsbefolgung zeigen bemerkenswerte Leistungsverbesserungen über verschiedene Modellgrößen hinweg. Insbesondere übertrifft unser Light-IF-32B-Modell sowohl größere Open-Source-Modelle wie DeepSeek-R1 als auch Closed-Source-Modelle wie Doubao-1.6.

Ein Grob-zu-Fein-Ansatz zur Multi-Modalitäts-3D-Okkupationsverankerung
A Coarse-to-Fine Approach to Multi-Modality 3D Occupancy Grounding

Aug 2

ByZhan Shi, Song Wang, Junbo Chen, Jianke Zhu

Visuelle Verankerung zielt darauf ab, Objekte oder Regionen in einer Szene basierend auf natürlichen Sprachbeschreibungen zu identifizieren, was für eine räumlich bewusste Wahrnehmung im autonomen Fahren entscheidend ist. Bisherige Aufgaben zur visuellen Verankerung basieren jedoch typischerweise auf Begrenzungsrahmen, die oft feinere Details nicht erfassen können. Nicht alle Voxel innerhalb eines Begrenzungsrahmens sind belegt, was zu ungenauen Objektdarstellungen führt. Um dies zu beheben, führen wir einen Benchmark für die 3D-Belegungsverankerung in anspruchsvollen Außenszenen ein. Basierend auf dem nuScenes-Datensatz integriert er natürliche Sprache mit Voxel-genauen Belegungsannotationen und bietet im Vergleich zur traditionellen Verankerungsaufgabe eine präzisere Objektwahrnehmung. Darüber hinaus schlagen wir GroundingOcc vor, ein End-to-End-Modell, das für die 3D-Belegungsverankerung durch multimodales Lernen entwickelt wurde. Es kombiniert visuelle, textuelle und Punktwolkenmerkmale, um die Objektposition und Belegungsinformationen von grob bis fein vorherzusagen. Insbesondere besteht GroundingOcc aus einem multimodalen Encoder zur Merkmalsextraktion, einem Belegungskopf für Voxel-genaue Vorhersagen und einem Verankerungskopf zur Verfeinerung der Lokalisierung. Zusätzlich verbessern ein 2D-Verankerungsmodul und ein Tiefenschätzungsmodul das geometrische Verständnis und steigern so die Modellleistung. Umfangreiche Experimente auf dem Benchmark zeigen, dass unsere Methode bestehende Baselines bei der 3D-Belegungsverankerung übertrifft. Der Datensatz ist unter https://github.com/RONINGOD/GroundingOcc verfügbar.

FACTORY: Ein anspruchsvoller, menschlich verifizierter Prompt-Datensatz für langformatige Faktizität
FACTORY: A Challenging Human-Verified Prompt Set for Long-Form Factuality

Jul 31

ByMingda Chen, Yang Li, Xilun Chen, Adina Williams, Gargi Ghosh, Scott Yih

Die Bewertung der Langform-Faktizität beurteilt die Fähigkeit von Modellen, präzise und umfassende Antworten auf kurze Eingabeaufforderungen zu generieren. Bestehende Benchmarks weisen oft eine fehlende menschliche Überprüfung auf, was zu potenziellen Qualitätsproblemen führen kann. Um diese Einschränkung zu überwinden, führen wir FACTORY ein, einen groß angelegten, menschlich verifizierten Satz von Eingabeaufforderungen. FACTORY wurde mithilfe eines Modell-in-the-Loop-Ansatzes entwickelt und durch menschliche Bearbeitung verfeinert. Es umfasst anspruchsvolle Eingabeaufforderungen, die faktenorientiert, beantwortbar und eindeutig sind. Wir führen menschliche Bewertungen an 6 state-of-the-art-Sprachmodellen durch, wobei FACTORY und bestehende Datensätze verwendet werden. Unsere Ergebnisse zeigen, dass FACTORY ein anspruchsvoller Benchmark ist: etwa 40 % der Behauptungen in den Antworten der SOTA-Modelle sind nicht faktisch korrekt, verglichen mit nur 10 % bei anderen Datensätzen. Unsere Analyse hebt die Stärken von FACTORY gegenüber früheren Benchmarks hervor und betont dessen Zuverlässigkeit sowie die Notwendigkeit für Modelle, über langschwänzige Fakten hinweg zu schlussfolgern.

Reasoning Language Models für die Ursachenanalyse in 5G-Drahtlosnetzwerken
Reasoning Language Models for Root Cause Analysis in 5G Wireless Networks

Jul 29

ByMohamed Sana, Nicola Piovesan, Antonio De Domenico, Yibin Kang, Haozhe Zhang, Merouane Debbah, Fadhel Ayed

Die Ursachenanalyse (Root Cause Analysis, RCA) in Mobilfunknetzen bleibt aufgrund der Anforderungen an Interpretierbarkeit, Domänenexpertise und kausale Schlussfolgerungen eine herausfordernde Aufgabe. In dieser Arbeit schlagen wir ein leichtgewichtiges Framework vor, das Large Language Models (LLMs) für die RCA nutzt. Hierfür führen wir TeleLogs ein, einen kuratierten Datensatz annotierter Problembehandlungsfälle, der dazu dient, die Fähigkeiten zur RCA zu bewerten. Unsere Auswertung zeigt, dass bestehende Open-Source-LLMs mit diesen Problemen kämpfen, was den Bedarf an domänenspezifischer Anpassung unterstreicht. Um dieses Problem zu adressieren, schlagen wir eine zweistufige Trainingsmethodik vor, die überwachtes Fein-Tuning mit bestärkendem Lernen kombiniert, um die Genauigkeit und die Qualität der Schlussfolgerungen von LLMs zu verbessern. Der vorgeschlagene Ansatz feinjustiert eine Reihe von RCA-Modellen, um Domänenwissen zu integrieren und strukturierte, mehrstufige Diagnoseerklärungen zu generieren, wodurch sowohl die Interpretierbarkeit als auch die Effektivität verbessert werden. Umfangreiche Experimente über verschiedene LLM-Größen hinweg zeigen signifikante Leistungssteigerungen gegenüber state-of-the-art Schlussfolgerungs- und Nicht-Schlussfolgerungsmodellen, einschließlich einer starken Generalisierung auf randomisierte Testvarianten. Diese Ergebnisse demonstrieren das Potenzial von domänenangepassten, schlussfolgerungsgestärkten LLMs für praktische und erklärbare RCA in der Netzwerkbetriebsführung und -verwaltung.

DiffSemanticFusion: Semantische Raster-BEV-Fusion für autonomes Fahren durch Online-HD-Kartendiffusion
DiffSemanticFusion: Semantic Raster BEV Fusion for Autonomous Driving via Online HD Map Diffusion

Aug 3

ByZhigang Sun, Yiru Wang, Anqing Jiang, Shuo Wang, Yu Gao, Yuwen Heng, Shouyi Zhang, An He, Hao Jiang, Jinhao Chai, Zichong Gu, Wang Jijun, Shichen Tang, Lavdim Halilaj, Juergen Luettin, Hao Sun

Autonomes Fahren erfordert ein präzises Verständnis der Szene, einschließlich der Straßengeometrie, der Verkehrsteilnehmer und ihrer semantischen Beziehungen. In Szenarien zur Online-Generierung von HD-Karten eignen sich rasterbasierte Darstellungen gut für Vision-Modelle, weisen jedoch eine mangelnde geometrische Präzision auf, während graphenbasierte Darstellungen strukturelle Details bewahren, jedoch ohne präzise Karten instabil werden. Um die komplementären Stärken beider Ansätze zu nutzen, schlagen wir DiffSemanticFusion vor – ein Fusionsframework für multimodale Trajektorienvorhersage und Planung. Unser Ansatz arbeitet in einem semantischen, rasterfusionierten BEV-Raum, der durch ein Karten-Diffusionsmodul erweitert wird, das sowohl die Stabilität als auch die Ausdrucksfähigkeit von Online-HD-Kartendarstellungen verbessert. Wir validieren unser Framework anhand von zwei nachgelagerten Aufgaben: Trajektorienvorhersage und end-to-end autonomes Fahren mit Planungsorientierung. Experimente auf realen Benchmark-Datensätzen für autonomes Fahren, nuScenes und NAVSIM, zeigen eine verbesserte Leistung gegenüber mehreren state-of-the-art Methoden. Für die Vorhersageaufgabe auf nuScenes integrieren wir DiffSemanticFusion mit dem Online-HD-Karten-informierten QCNet und erzielen eine Leistungssteigerung von 5,1 %. Für end-to-end autonomes Fahren in NAVSIM erreicht DiffSemanticFusion state-of-the-art Ergebnisse mit einer Leistungssteigerung von 15 % in NavHard-Szenarien. Darüber hinaus zeigen umfangreiche Ablations- und Sensitivitätsstudien, dass unser Karten-Diffusionsmodul nahtlos in andere vektorbasierte Ansätze integriert werden kann, um deren Leistung zu verbessern. Alle Artefakte sind verfügbar unter https://github.com/SunZhigang7/DiffSemanticFusion.

Sel3DCraft: Interaktive visuelle Eingabehilfen für benutzerfreundliche Text-zu-3D-Generierung
Sel3DCraft: Interactive Visual Prompts for User-Friendly Text-to-3D Generation

Aug 1

ByNan Xiang, Tianyi Liang, Haiwen Huang, Shiqi Jiang, Hao Huang, Yifei Huang, Liangyu Chen, Changbo Wang, Chenhui Li

Text-to-3D (T23D)-Generierung hat die digitale Inhaltserstellung revolutioniert, bleibt jedoch durch blinde Trial-and-Error-Prompting-Prozesse eingeschränkt, die unvorhersehbare Ergebnisse liefern. Während die visuelle Prompt-Engineering-Technik in Text-zu-Bild-Domänen Fortschritte gemacht hat, stellt ihre Anwendung auf die 3D-Generierung einzigartige Herausforderungen dar, die eine Multi-View-Konsistenzbewertung und räumliches Verständnis erfordern. Wir präsentieren Sel3DCraft, ein visuelles Prompt-Engineering-System für T23D, das unstrukturierte Exploration in einen geführten visuellen Prozess transformiert. Unser Ansatz führt drei Schlüsselinnovationen ein: eine Dual-Branch-Struktur, die Retrieval und Generierung kombiniert, um die Exploration vielfältiger Kandidaten zu ermöglichen; ein Multi-View-Hybrid-Scoring-Ansatz, der MLLMs mit innovativen High-Level-Metriken nutzt, um 3D-Modelle mit menschlicher Expertenkonsistenz zu bewerten; sowie eine Prompt-gesteuerte visuelle Analyselösung, die eine intuitive Fehleridentifikation und -verfeinerung ermöglicht. Umfangreiche Tests und Nutzerstudien zeigen, dass Sel3DCraft andere T23D-Systeme in der Unterstützung der Kreativität von Designern übertrifft.

IFDECORATOR: Verifizierbare Belohnungen für Reinforcement Learning zur Befolgung von Anweisungen
IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards

Aug 6

ByXu Guo, Tianyi Liang, Tong Jian, Xiaogui Yang, Ling-I Wu, Chenhui Li, Zhihui Lu, Qipeng Guo, Kai Chen

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) verbessert die Fähigkeiten großer Sprachmodelle (LLMs), Anweisungen zu befolgen, leidet jedoch unter Ineffizienz im Training aufgrund unzureichender Schwierigkeitsbewertung. Darüber hinaus neigt RLVR zur Überoptimierung, bei der LLMs Verifikationsabkürzungen ausnutzen, ohne sich an die eigentliche Absicht der Benutzeranweisungen zu halten. Wir stellen den Instruction Following Decorator (IFDecorator) vor, ein Framework, das das RLVR-Training in eine robuste und probeneffiziente Pipeline einbettet. Es besteht aus drei Komponenten: (1) einem kooperativ-adversarischen Datenflywheel, das Anweisungen und hybride Verifikationen gemeinsam weiterentwickelt und zunehmend anspruchsvollere Anweisungs-Verifikations-Paare erzeugt; (2) IntentCheck, ein Bypass-Modul, das die Absichtsausrichtung erzwingt; und (3) Stolperdrähte, ein Diagnosemechanismus, der Belohnungshacking durch Fallenanweisungen erkennt, die Ausnutzungsverhalten von Abkürzungen auslösen und erfassen. Unser Qwen2.5-32B-Instruct-IFDecorator erreicht eine Genauigkeit von 87,43 % auf IFEval und übertrifft damit größere proprietäre Modelle wie GPT-4o. Zudem zeigen wir erhebliche Verbesserungen auf FollowBench bei gleichzeitiger Bewahrung der allgemeinen Fähigkeiten. Unsere Stolperdrähte zeigen signifikante Reduktionen der Belohnungshacking-Raten. Wir werden Modelle, Code und Daten für zukünftige Forschung veröffentlichen.

SonicMaster: Auf dem Weg zu kontrollierbarer All-in-One-Musikrestaurierung und -mastering
SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

Aug 5

ByJan Melechovsky, Ambuj Mehrish, Dorien Herremans

Musikaufnahmen leiden oft unter Audioqualitätsproblemen wie übermäßigem Hall, Verzerrungen, Clipping, tonalen Ungleichgewichten und einem verengten Stereobild, insbesondere wenn sie in nicht-professionellen Umgebungen ohne spezielle Ausrüstung oder Expertise erstellt werden. Diese Probleme werden typischerweise mit separaten spezialisierten Tools und manuellen Anpassungen korrigiert. In diesem Artikel stellen wir SonicMaster vor, das erste einheitliche generative Modell für die Musikrestaurierung und -mastering, das ein breites Spektrum von Audioartefakten mit textbasierter Steuerung behandelt. SonicMaster wird durch natürliche Sprachbefehle konditioniert, um gezielte Verbesserungen vorzunehmen, oder kann in einem automatischen Modus für die allgemeine Restaurierung arbeiten. Um dieses Modell zu trainieren, erstellen wir den SonicMaster-Datensatz, einen großen Datensatz von gepaarten degradierten und hochwertigen Tracks, indem wir häufige Degradationstypen mit neunzehn Degradationsfunktionen aus fünf Verbesserungsgruppen simulieren: Equalization, Dynamik, Hall, Amplitude und Stereo. Unser Ansatz nutzt ein Flow-Matching-generatives Trainingsparadigma, um eine Audiotransformation zu erlernen, die degradierte Eingaben in ihre bereinigten, gemasterten Versionen abbildet, die durch Textbefehle gesteuert werden. Objektive Audioqualitätsmetriken zeigen, dass SonicMaster die Klangqualität in allen Artefaktkategorien erheblich verbessert. Darüber hinaus bestätigen subjektive Hörtests, dass Hörer die verbesserten Ausgaben von SonicMaster gegenüber dem ursprünglichen degradierten Audio bevorzugen, was die Effektivität unseres einheitlichen Ansatzes unterstreicht.

C3D-AD: Hin zu kontinuierlicher 3D-Anomalieerkennung durch Kernel-Attention mit lernbarem Berater
C3D-AD: Toward Continual 3D Anomaly Detection via Kernel Attention with Learnable Advisor

Aug 2

ByHaoquan Lu, Hanzhe Liang, Jie Zhang, Chenxi Hu, Jinbao Wang, Can Gao

Die 3D-Anomalieerkennung (AD) hat großes Potenzial bei der Erkennung von Anomalien oder Defekten in hochpräzisen Industrieprodukten gezeigt. Bestehende Methoden werden jedoch typischerweise klassen-spezifisch trainiert und verfügen nicht über die Fähigkeit, aus neu auftretenden Klassen zu lernen. In dieser Studie schlagen wir ein kontinuierliches Lernframework namens Continual 3D Anomaly Detection (C3D-AD) vor, das nicht nur generalisierte Repräsentationen für multi-klassige Punktwolken lernen kann, sondern auch neue Klassen, die im Laufe der Zeit auftreten, verarbeiten kann. Insbesondere wird im Merkmalsextraktionsmodul die Kernel Attention mit zufälliger Merkmalschicht (KAL) eingeführt, um generalisierte lokale Merkmale aus verschiedenen Produkttypen unterschiedlicher Aufgaben effizient zu extrahieren und den Merkmalsraum zu normalisieren. Um Daten korrekt und kontinuierlich zu rekonstruieren, wird ein effizienter Kernel Attention mit lernbarem Advisor (KAA)-Mechanismus vorgeschlagen, der Informationen aus neuen Kategorien lernt, während redundante alte Informationen sowohl im Encoder als auch im Decoder verworfen werden. Schließlich wird zur Aufrechterhaltung der Repräsentationskonsistenz über Aufgaben hinweg ein Reconstruction with Parameter Perturbation (RPP)-Modul vorgeschlagen, indem eine Repräsentationswiederholungsverlustfunktion entworfen wird, die sicherstellt, dass das Modell vorherige Kategorieninformationen behält und kategorie-adaptive Repräsentationen zurückgibt. Umfangreiche Experimente auf drei öffentlichen Datensätzen demonstrieren die Effektivität der vorgeschlagenen Methode, die durchschnittliche Leistungen von 66,4 %, 83,1 % und 63,4 % AUROC auf Real3D-AD, Anomaly-ShapeNet und MulSen-AD erzielt.

Daten- und KI-Governance: Förderung von Gerechtigkeit, Ethik und Fairness in großen Sprachmodellen
Data and AI governance: Promoting equity, ethics, and fairness in large language models

Aug 5

ByAlok Abhishek, Lisa Erickson, Tushar Bandopadhyay

In diesem Artikel behandeln wir Ansätze zur systematischen Steuerung, Bewertung und Quantifizierung von Verzerrungen über den gesamten Lebenszyklus von Machine-Learning-Modellen hinweg – von der anfänglichen Entwicklung und Validierung bis hin zur kontinuierlichen Produktionsüberwachung und der Implementierung von Schutzmaßnahmen. Aufbauend auf unserer grundlegenden Arbeit zum Bias Evaluation and Assessment Test Suite (BEATS) für Large Language Models teilen die Autoren verbreitete Lücken im Zusammenhang mit Verzerrungen und Fairness in Large Language Models (LLMs) und diskutieren ein Daten- und KI-Governance-Framework, um Verzerrungen, Ethik, Fairness und Faktentreue in LLMs zu adressieren. Der in diesem Artikel diskutierte Daten- und KI-Governance-Ansatz eignet sich für praktische, reale Anwendungen und ermöglicht eine rigorose Benchmarking von LLMs vor der Produktionsbereitstellung, erleichtert die kontinuierliche Echtzeitbewertung und steuert proaktiv die von LLMs generierten Antworten. Durch die Implementierung der Daten- und KI-Governance über den gesamten Lebenszyklus der KI-Entwicklung hinweg können Organisationen die Sicherheit und Verantwortung ihrer GenAI-Systeme erheblich verbessern, Risiken der Diskriminierung effektiv mindern und potenzielle reputations- oder markenbezogene Schäden abwehren. Letztendlich zielen wir mit diesem Artikel darauf ab, einen Beitrag zur Weiterentwicklung der Erstellung und Bereitstellung von sozial verantwortungsvollen und ethisch ausgerichteten, generativen KI-gestützten Anwendungen zu leisten.

Die Kuh von Rembrandt – Analyse der Interpretation künstlerischer Anweisungen in Text-zu-Bild-Modellen
The Cow of Rembrandt - Analyzing Artistic Prompt Interpretation in Text-to-Image Models

Jul 31

ByAlfio Ferrara, Sergio Picascia, Elisabetta Rocchetti

Text-to-Image-Diffusionsmodelle haben bemerkenswerte Fähigkeiten bei der Erzeugung künstlerischer Inhalte demonstriert, indem sie aus Milliarden von Bildern, einschließlich populärer Kunstwerke, lernen. Die grundlegende Frage, wie diese Modelle intern Konzepte wie Inhalt und Stil in Gemälden repräsentieren, bleibt jedoch unerforscht. Die traditionelle Computer Vision geht davon aus, dass Inhalt und Stil orthogonal sind, doch Diffusionsmodelle erhalten während des Trainings keine explizite Anleitung zu dieser Unterscheidung. In dieser Arbeit untersuchen wir, wie transformerbasierte Text-to-Image-Diffusionsmodelle Inhalts- und Stilkonzepte kodieren, wenn sie Kunstwerke erzeugen. Wir nutzen Cross-Attention-Heatmaps, um Pixel in generierten Bildern bestimmten Prompt-Tokens zuzuordnen, wodurch wir Bildregionen isolieren können, die durch inhaltsbeschreibende oder stilbeschreibende Tokens beeinflusst werden. Unsere Ergebnisse zeigen, dass Diffusionsmodelle je nach spezifischem künstlerischen Prompt und angefordertem Stil unterschiedliche Grade der Trennung von Inhalt und Stil aufweisen. In vielen Fällen beeinflussen Inhalts-Tokens hauptsächlich objektbezogene Regionen, während Stil-Tokens Hintergrund- und Texturbereiche beeinflussen, was auf ein emergentes Verständnis der Unterscheidung zwischen Inhalt und Stil hindeutet. Diese Erkenntnisse tragen zu unserem Verständnis bei, wie großskalige generative Modelle komplexe künstlerische Konzepte ohne explizite Überwachung intern repräsentieren. Wir teilen den Code und den Datensatz zusammen mit einem explorativen Tool zur Visualisierung von Attention-Maps unter https://github.com/umilISLab/artistic-prompt-interpretation.