HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

11 papers found

Tiefenforscher mit Testzeit-Diffusion
Deep Researcher with Test-Time Diffusion

Jul 21

ByRujun Han, Yanfei Chen, Zoey CuiZhu, Lesly Miculicich, Guan Sun, Yuanjun Bi, Weiming Wen, Hui Wan, Chunfeng Wen, Solène Maître, George Lee, Vishy Tirumalashetty, Emily Xue, Zizhao Zhang, Salem Haykal, Burak Gokturk, Tomas Pfister, Chen-Yu Lee

Tiefgehende Forschungsagenten, die durch Large Language Models (LLMs) angetrieben werden, schreiten rasch voran; dennoch erreicht ihre Leistung oft ein Plateau, wenn sie komplexe, langformatige Forschungsberichte mit generischen Testzeit-Skalierungsalgorithmen generieren. Inspiriert von der iterativen Natur menschlicher Forschung, die Zyklen von Suche, Schlussfolgerung und Überarbeitung umfasst, schlagen wir den Test-Time Diffusion Deep Researcher (TTD-DR) vor. Dieses neuartige Rahmenwerk konzeptualisiert die Generierung von Forschungsberichten als einen Diffusionsprozess. TTD-DR startet diesen Prozess mit einem vorläufigen Entwurf, einem aktualisierbaren Skelett, das als sich entwickelnde Grundlage dient, um die Forschungsrichtung zu leiten. Der Entwurf wird dann iterativ durch einen „Entrauschungs“-Prozess verfeinert, der dynamisch durch einen Retrieval-Mechanismus informiert wird, der in jedem Schritt externe Informationen einbezieht. Der Kernprozess wird weiter durch einen selbst-evolutionären Algorithmus verbessert, der auf jede Komponente des agentenbasierten Workflows angewendet wird und so die Generierung von hochwertigem Kontext für den Diffusionsprozess sicherstellt. Dieser entwurfszentrierte Ansatz macht den Berichtserstellungsprozess zeitnaher und kohärenter, während der Informationsverlust während des iterativen Suchprozesses reduziert wird. Wir zeigen, dass unser TTD-DR auf einer Vielzahl von Benchmarks, die intensive Suche und Multi-Hop-Schlussfolgerungen erfordern, state-of-the-art Ergebnisse erzielt und bestehende tiefgehende Forschungsagenten deutlich übertrifft.

Die Geometrie der LLM-Quantisierung: GPTQ als Babais Nearest-Plane-Algorithmus
The Geometry of LLM Quantization: GPTQ as Babai's Nearest Plane Algorithm

Jul 24

ByJiale Chen, Torsten Hoefler, Dan Alistarh

Die Quantisierung der Gewichte großer Sprachmodelle (LLMs) von 16-Bit auf niedrigere Bitbreiten ist der de-facto-Ansatz, um massive Transformer auf kostengünstigere Beschleuniger zu implementieren. GPTQ hat sich als eine der Standardmethoden für die One-Shot-Post-Training-Quantisierung im LLM-Maßstab etabliert. Dennoch werden seine inneren Abläufe als eine Folge von ad-hoc algebraischen Aktualisierungen beschrieben, die jegliche geometrische Bedeutung oder Worst-Case-Garantien verschleiern. In dieser Arbeit zeigen wir, dass GPTQ, wenn es rückwärts (von der letzten zur ersten Dimension) für eine lineare Schicht ausgeführt wird, mathematisch identisch mit Babais Nearest-Plane-Algorithmus für das klassische Closest-Vector-Problem (CVP) auf einem Gitter ist, das durch die Hessematrix der Eingaben der Schicht definiert wird. Diese Äquivalenz basiert auf einem anspruchsvollen mathematischen Argument und hat zwei analytische Konsequenzen: (i) der GPTQ-Fehlerfortpflanzungsschritt erhält eine intuitive geometrische Interpretation; (ii) GPTQ übernimmt die Fehlerobergrenze von Babais Algorithmus unter der No-Clipping-Bedingung. Zusammengenommen stellen diese Ergebnisse GPTQ auf eine solide theoretische Grundlage und öffnen die Tür, um jahrzehntelange Fortschritte in Gitteralgorithmen für die Gestaltung zukünftiger Quantisierungsalgorithmen für Milliarden-Parameter-Modelle zu nutzen.

MMBench-GUI: Hierarchisches Multi-Plattform-Bewertungsframework für GUI-Agenten
MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents

Jul 25

ByXuehui Wang, Zhenyu Wu, JingJing Xie, Zichen Ding, Bowen Yang, Zehao Li, Zhaoyang Liu, Qingyun Li, Xuan Dong, Zhe Chen, Weiyun Wang, Xiangyu Zhao, Jixuan Chen, Haodong Duan, Tianbao Xie, Chenyu Yang, Shiqian Su, Yue Yu, Yuan Huang, Yiqian Liu, Xiao Zhang, Yanting Zhang, Xiangyu Yue, Weijie Su, Xizhou Zhu, Wei Shen, Jifeng Dai, Wenhai Wang

Wir stellen MMBench-GUI vor, einen hierarchischen Benchmark zur Bewertung von GUI-Automatisierungsagenten über Windows, macOS, Linux, iOS, Android und Web-Plattformen hinweg. Er umfasst vier Ebenen: GUI-Inhaltsverständnis, Elementverankerung, Aufgabenautomatisierung und Aufgabenkollaboration, die wesentliche Fähigkeiten für GUI-Agenten abdecken. Zusätzlich schlagen wir eine neuartige Effizienz-Qualitäts-Fläche (EQA) als Metrik vor, um die Ausführungseffizienz von GUI-Agenten in Online-Automatisierungsszenarien zu bewerten. Durch MMBench-GUI identifizieren wir eine präzise visuelle Verankerung als entscheidenden Faktor für den Gesamterfolg von Aufgaben und betonen die erheblichen Vorteile modularer Frameworks, die spezialisierte Verankerungsmodule integrieren. Darüber hinaus benötigt ein Agent für zuverlässige GUI-Automatisierung starke Fähigkeiten in der Aufgabenplanung und plattformübergreifenden Generalisierung, wobei Langzeitgedächtnis, ein breiter Aktionsraum und langfristiges Schlussfolgern eine entscheidende Rolle spielen. Noch wichtiger ist, dass die Aufgabeneffizienz eine kritisch unerforschte Dimension bleibt, und alle Modelle leiden unter erheblichen Ineffizienzen, mit übermäßig redundanten Schritten, selbst wenn Aufgaben letztendlich abgeschlossen werden. Die Integration von präziser Lokalisierung, effektiver Planung und frühen Abbruchstrategien ist unerlässlich, um wirklich effiziente und skalierbare GUI-Automatisierung zu ermöglichen. Unser Benchmark-Code, Evaluationsdaten und Laufzeitumgebung werden öffentlich unter https://github.com/open-compass/MMBench-GUI verfügbar sein.

GEPA: Reflektive Prompt-Evolution kann Reinforcement Learning übertreffen
GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

Jul 25

ByLakshya A Agrawal, Shangyin Tan, Dilara Soylu, Noah Ziems, Rishi Khare, Krista Opsahl-Ong, Arnav Singhvi, Herumb Shandilya, Michael J Ryan, Meng Jiang, Christopher Potts, Koushik Sen, Alexandros G. Dimakis, Ion Stoica, Dan Klein, Matei Zaharia, Omar Khattab

Große Sprachmodelle (LLMs) werden zunehmend durch Reinforcement-Learning (RL)-Methoden wie Group Relative Policy Optimization (GRPO) an nachgelagerte Aufgaben angepasst, was oft Tausende von Durchläufen erfordert, um neue Aufgaben zu erlernen. Wir argumentieren, dass die interpretierbare Natur der Sprache oft ein viel reichhaltigeres Lernmedium für LLMs darstellen kann, verglichen mit Policy-Gradienten, die aus spärlichen, skalaren Belohnungen abgeleitet werden. Um dies zu testen, führen wir GEPA (Genetic-Pareto) ein, einen Prompt-Optimierer, der natürliche Sprachreflexion umfassend einbezieht, um auf hoher Ebene Regeln aus Versuch und Irrtum zu lernen. Bei jedem KI-System, das einen oder mehrere LLM-Prompts enthält, erfasst GEPA systemweite Trajektorien (z.B. Argumentation, Tool-Aufrufe und Tool-Ergebnisse) und reflektiert diese in natürlicher Sprache, um Probleme zu diagnostizieren, Prompt-Updates vorzuschlagen und zu testen sowie komplementäre Erkenntnisse aus der Pareto-Front seiner eigenen Versuche zu kombinieren. Aufgrund des Designs von GEPA kann es oft bereits aus wenigen Durchläufen eine erhebliche Qualitätssteigerung erzielen. Über vier Aufgaben hinweg übertrifft GEPA GRPO im Durchschnitt um 10 % und bis zu 20 %, während es bis zu 35-mal weniger Durchläufe verwendet. GEPA übertrifft auch den führenden Prompt-Optimierer, MIPROv2, bei zwei LLMs um über 10 % und zeigt vielversprechende Ergebnisse als Suchstrategie zur Inferenzzeit für die Code-Optimierung.

Wenn Token zu viel reden: Eine Übersicht zur multimodalen Langkontext-Token-Kompression bei Bildern, Videos und Audios
When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios

Jul 27

ByKele Shao, Keda Tao, Kejia Zhang, Sicheng Feng, Mu Cai, Yuzhang Shang, Haoxuan You, Can Qin, Yang Sui, Huan Wang

Multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Fortschritte erzielt, die maßgeblich durch ihre Fähigkeit getrieben werden, zunehmend lange und komplexe Kontexte zu verarbeiten, wie beispielsweise hochauflösende Bilder, ausgedehnte Videosequenzen und lange Audioeingaben. Während diese Fähigkeit die Leistungsfähigkeit von MLLMs erheblich steigert, führt sie auch zu erheblichen rechnerischen Herausforderungen, die hauptsächlich auf die quadratische Komplexität von Selbstaufmerksamkeitsmechanismen bei einer Vielzahl von Eingabe-Tokens zurückzuführen sind. Um diese Engpässe zu mildern, hat sich die Token-Komprimierung als vielversprechender und kritischer Ansatz herausgestellt, der die Anzahl der Tokens sowohl während des Trainings als auch der Inferenz effizient reduziert. In diesem Artikel präsentieren wir die erste systematische Übersicht und Synthese des aufstrebenden Forschungsgebiets der multimodalen Langkontext-Token-Komprimierung. In der Erkenntnis, dass effektive Komprimierungsstrategien eng mit den einzigartigen Eigenschaften und Redundanzen jeder Modalität verbunden sind, kategorisieren wir bestehende Ansätze nach ihrem primären Datenfokus, um Forschern einen schnellen Zugang zu maßgeschneiderten Methoden für ihr spezifisches Interessengebiet zu ermöglichen: (1) bildzentrierte Komprimierung, die räumliche Redundanzen in visuellen Daten adressiert; (2) videozentrierte Komprimierung, die räumlich-zeitliche Redundanzen in dynamischen Sequenzen behandelt; und (3) audiozentrierte Komprimierung, die zeitliche und spektrale Redundanzen in akustischen Signalen bewältigt. Über diese modalitätsgetriebene Kategorisierung hinaus analysieren wir Methoden weiterhin basierend auf ihren zugrunde liegenden Mechanismen, einschließlich transformationsbasierter, ähnlichkeitsbasierter, aufmerksamkeitsbasierter und abfragebasierter Ansätze. Durch die Bereitstellung eines umfassenden und strukturierten Überblicks zielt diese Übersicht darauf ab, den aktuellen Fortschritt zu konsolidieren, zentrale Herausforderungen zu identifizieren und zukünftige Forschungsrichtungen in diesem sich schnell entwickelnden Bereich zu inspirieren. Wir pflegen zudem ein öffentliches Repository, um die neuesten Fortschritte in diesem vielversprechenden Gebiet kontinuierlich zu verfolgen und zu aktualisieren.

CLEAR: Fehleranalyse mittels LLM-als-Richter vereinfacht
CLEAR: Error Analysis via LLM-as-a-Judge Made Easy

Jul 24

ByAsaf Yehudai, Lilach Eden, Yotam Perlitz, Roy Bar-Haim, Michal Shmueli-Scheuer

Die Bewertung von Large Language Models (LLMs) stützt sich zunehmend auf andere LLMs, die als Richter fungieren. Allerdings liefern aktuelle Evaluationsparadigmen typischerweise eine einzelne Bewertung oder Rangfolge, die beantwortet, welches Modell besser ist, aber nicht warum. Obwohl diese Top-Level-Bewertungen für Benchmarking unerlässlich sind, verdecken sie die spezifischen, umsetzbaren Gründe hinter der Leistung eines Modells. Um diese Lücke zu schließen, stellen wir CLEAR vor, ein interaktives, quelloffenes Paket für die fehlerbasierte Analyse von LLMs. CLEAR generiert zunächst textbasierte Rückmeldungen pro Instanz, erstellt dann eine Reihe von systemweiten Fehlerproblemen und quantifiziert die Häufigkeit jedes identifizierten Problems. Unser Paket bietet den Nutzern auch ein interaktives Dashboard, das eine umfassende Fehleranalyse durch aggregierte Visualisierungen ermöglicht, interaktive Filter zur Isolierung spezifischer Probleme oder Bewertungsbereiche anwendet und bis zu den einzelnen Instanzen vordringt, die ein bestimmtes Verhaltensmuster exemplarisch darstellen. Wir demonstrieren die CLEAR-Analyse für RAG- und Mathematik-Benchmarks und zeigen ihren Nutzen durch eine Nutzerfallstudie auf.

Frontier AI-Risikomanagementrahmen in der Praxis: Eine Risikoanalyse Technischer Bericht
Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report

Jul 22

ByShanghai AI Lab, Xiaoyang Chen, Yunhao Chen, Zeren Chen, Zhiyun Chen, Hanyun Cui, Yawen Duan, Jiaxuan Guo, Qi Guo, Xuhao Hu, Hong Huang, Lige Huang, Chunxiao Li, Juncheng Li, Qihao Lin, Dongrui Liu, Xinmin Liu, Zicheng Liu, Chaochao Lu, Xiaoya Lu, Jingjing Qu, Qibing Ren, Jing Shao, Jingwei Shi, Jingwei Sun, Peng Wang, Weibing Wang, Jia Xu, Lewen Yan, Xiao Yu, Yi Yu, Boxuan Zhang, Jie Zhang, Weichen Zhang, Zhijie Zheng, Tianyi Zhou, Bowen Zhou

Um die beispiellosen Risiken zu verstehen und zu identifizieren, die durch sich schnell entwickelnde künstliche Intelligenz (KI)-Modelle entstehen, präsentiert dieser Bericht eine umfassende Bewertung ihrer Grenzrisiken. Unter Verwendung der E-T-C-Analyse (Einsatzumgebung, Bedrohungsquelle, ermöglichende Fähigkeit) aus dem Frontier AI Risk Management Framework (v1.0) (SafeWork-F1-Framework) identifizieren wir kritische Risiken in sieben Bereichen: Cyberangriffe, biologische und chemische Risiken, Überzeugung und Manipulation, unkontrollierte autonome KI-Forschung und -Entwicklung (F&E), strategische Täuschung und Planung, Selbstreplikation sowie Kollusion. Angeleitet durch das „AI-45°-Gesetz“ bewerten wir diese Risiken anhand von „roten Linien“ (unerträgliche Schwellenwerte) und „gelben Linien“ (Frühwarnindikatoren), um Risikozonen zu definieren: grün (beherrschbares Risiko für den Routinebetrieb und kontinuierliche Überwachung), gelb (erfordert verstärkte Minderungsmaßnahmen und kontrollierten Einsatz) und rot (erfordert die Einstellung der Entwicklung und/oder des Einsatzes). Experimentelle Ergebnisse zeigen, dass alle aktuellen Frontier-KI-Modelle in den grünen und gelben Zonen liegen, ohne rote Linien zu überschreiten. Insbesondere überschreiten keine der bewerteten Modelle die gelbe Linie für Cyberangriffe oder unkontrollierte KI-F&E-Risiken. Bei Selbstreplikation sowie strategischer Täuschung und Planung bleiben die meisten Modelle in der grünen Zone, mit Ausnahme bestimmter Reasoning-Modelle in der gelben Zone. Bei Überzeugung und Manipulation befinden sich die meisten Modelle aufgrund ihrer effektiven Einflussnahme auf Menschen in der gelben Zone. Für biologische und chemische Risiken können wir die Möglichkeit nicht ausschließen, dass die meisten Modelle in der gelben Zone liegen, obwohl detaillierte Bedrohungsmodellierung und vertiefte Bewertungen erforderlich sind, um weitere Aussagen zu treffen. Diese Arbeit spiegelt unser aktuelles Verständnis der KI-Grenzrisiken wider und fordert kollektives Handeln, um diese Herausforderungen zu bewältigen.

Spezifikations-Selbstkorrektur: Minderung von In-Context-Reward-Hacking durch Testzeit-Verfeinerung
Specification Self-Correction: Mitigating In-Context Reward Hacking Through Test-Time Refinement

Jul 24

ByVíctor Gallego

Sprachmodelle (LMs) sind anfällig für In-Context-Reward-Hacking, bei dem sie Schwächen in fehlerhaften oder manipulierten schriftlichen Spezifikationen oder Bewertungskriterien ausnutzen, um hohe Bewertungen zu erzielen, ohne die eigentliche Absicht des Nutzers zu erfüllen. Wir stellen Specification Self-Correction (SSC) vor, ein neuartiges Framework zur Laufzeit, das einem LM ermöglicht, Schwächen in seiner eigenen Leitlinie zu identifizieren und zu korrigieren. SSC verwendet einen mehrstufigen Inferenzprozess, bei dem das Modell zunächst eine Antwort auf Basis einer potenziell fehlerhaften Spezifikation generiert, seine Ausgabe kritisch bewertet und dann die Spezifikation selbst überarbeitet, um ausnutzbare Lücken zu schließen. Eine endgültige, robustere Antwort wird anschließend unter Verwendung dieser selbstkorrigierten Spezifikation erzeugt. In Experimenten, die kreatives Schreiben und agentenbasiertes Codieren mit mehreren LMs umfassen, zeigen wir, dass Modelle zwar zunächst in 50–70\% der Fälle fehlerhafte Spezifikationen ausnutzen, der SSC-Prozess diese Anfälligkeit jedoch um über 90\% reduziert. Diese dynamische Reparatur erfolgt zur Laufzeit, erfordert keine Gewichtsänderungen und führt zu einem robusteren, besser ausgerichteten Modellverhalten. Code unter https://github.com/vicgalle/specification-self-corction.

PRIX: Erlernen von Planung aus Rohpixeln für End-to-End autonomes Fahren
PRIX: Learning to Plan from Raw Pixels for End-to-End Autonomous Driving

Jul 23

ByMaciej K. Wozniak, Lianhang Liu, Yixi Cai, Patric Jensfelt

Während end-to-end-Modelle für autonomes Fahren vielversprechende Ergebnisse zeigen, wird ihre praktische Anwendung oft durch große Modellgrößen, die Abhängigkeit von teuren LiDAR-Sensoren und rechenintensive BEV-Feature-Repräsentationen behindert. Dies schränkt ihre Skalierbarkeit ein, insbesondere für Massenmarktfahrzeuge, die nur mit Kameras ausgestattet sind. Um diese Herausforderungen zu bewältigen, schlagen wir PRIX (Plan from Raw Pixels) vor. Unsere neuartige und effiziente end-to-end-Fahrarchitektur arbeitet ausschließlich mit Kameradaten, ohne explizite BEV-Repräsentation und ohne den Bedarf für LiDAR. PRIX nutzt einen visuellen Feature-Extraktor, der mit einem generativen Planungskopf gekoppelt ist, um sichere Trajektorien direkt aus Rohpixeleingaben vorherzusagen. Ein Kernbestandteil unserer Architektur ist der Context-aware Recalibration Transformer (CaRT), ein neuartiges Modul, das entwickelt wurde, um mehrstufige visuelle Features effektiv zu verbessern und so eine robustere Planung zu ermöglichen. Wir zeigen durch umfassende Experimente, dass PRIX auf den NavSim- und nuScenes-Benchmarks state-of-the-art-Leistung erzielt und dabei die Fähigkeiten größerer, multimodaler Diffusionsplaner erreicht, während es in Bezug auf Inferenzgeschwindigkeit und Modellgröße deutlich effizienter ist, was es zu einer praktischen Lösung für den realen Einsatz macht. Unsere Arbeit ist Open-Source, und der Code wird unter https://maxiuw.github.io/prix verfügbar sein.

Chat mit KI: Die überraschende Wende der Echtzeit-Videokommunikation von Mensch zu KI
Chat with AI: The Surprising Turn of Real-time Video Communication from Human to AI

Jul 14

ByJiangkai Wu, Zhiyuan Ren, Liming Liu, Xinggong Zhang

AI-Video-Chat etabliert sich als neues Paradigma für Echtzeitkommunikation (Real-time Communication, RTC), bei dem ein Kommunikationspartner kein Mensch, sondern ein multimodales großes Sprachmodell (Multimodal Large Language Model, MLLM) ist. Dies macht die Interaktion zwischen Mensch und KI intuitiver, als würde man sich mit einer realen Person von Angesicht zu Angesicht unterhalten. Allerdings stellt dies erhebliche Herausforderungen an die Latenz, da die Inferenz des MLLM den Großteil der Antwortzeit beansprucht und nur sehr wenig Zeit für den Video-Streaming-Prozess bleibt. Aufgrund von Netzwerkunsicherheiten und -instabilitäten wird die Übertragungslatenz zu einem kritischen Engpass, der verhindert, dass die KI wie eine reale Person agiert. Um dies zu lösen, schlagen wir Artic vor, ein KI-orientiertes Echtzeitkommunikations-Framework, das den Netzwerkanforderungswechsel von „Menschen, die Videos ansehen“ zu „KI, die Videos versteht“ untersucht. Um die Bitrate drastisch zu reduzieren und gleichzeitig die Genauigkeit des MLLM zu erhalten, schlagen wir Context-Aware Video Streaming vor, das die Bedeutung jeder Videoregion für den Chat erkennt und die Bitrate fast ausschließlich auf chatrelevante Regionen verteilt. Um Paketwiederholungen zu vermeiden, schlagen wir Loss-Resilient Adaptive Frame Rate vor, das vorherige Frames nutzt, um verlorene oder verzögerte Frames zu ersetzen und dabei Bitrateverschwendung zu vermeiden. Um die Auswirkungen der Video-Streaming-Qualität auf die Genauigkeit des MLLM zu bewerten, haben wir den ersten Benchmark entwickelt, den Degraded Video Understanding Benchmark (DeViBench). Abschließend diskutieren wir einige offene Fragen und laufende Lösungen für AI-Video-Chat.

AFRDA: Aufmerksamkeitsbasierte Merkmalsverfeinerung für domänenadaptive semantische Segmentierung
AFRDA: Attentive Feature Refinement for Domain Adaptive Semantic Segmentation

Jul 23

ByMd. Al-Masrur Khan, Durgakant Pushp, Lantao Liu

Bei der Unsupervised Domain Adaptive Semantic Segmentation (UDA-SS) wird ein Modell auf annotierten Daten aus einem Quellbereich (z. B. synthetische Bilder) trainiert und an einen nicht annotierten Zielbereich (z. B. reale Bilder) angepasst, ohne Zugriff auf Zielannotierungen zu haben. Bestehende UDA-SS-Methoden haben oft Schwierigkeiten, feinkörnige lokale Details mit globalen Kontextinformationen auszubalancieren, was zu Segmentierungsfehlern in komplexen Regionen führt. Um dies zu beheben, führen wir das Adaptive Feature Refinement (AFR)-Modul ein, das die Segmentierungsgenauigkeit verbessert, indem hochauflösende Merkmale mithilfe semantischer Prioritäten aus niedrigauflösenden Logits verfeinert. AFR integriert auch hochfrequente Komponenten, die feinkörnige Strukturen erfassen und wichtige Grenzinformationen liefern, wodurch die Objektabgrenzung verbessert wird. Zusätzlich balanciert AFR lokale und globale Informationen durch unsicherheitsgesteuerte Aufmerksamkeit aus, was Fehlklassifikationen reduziert. Sein leichtgewichtiges Design ermöglicht eine nahtlose Integration in HRDA-basierte UDA-Methoden und führt zu state-of-the-art Segmentierungsleistungen. Unser Ansatz verbessert bestehende UDA-SS-Methoden um 1,05 % mIoU auf GTA V --> Cityscapes und 1,04 % mIoU auf Synthia --> Cityscapes. Die Implementierung unseres Frameworks ist verfügbar unter: https://github.com/Masrur02/AFRDA.

Frontier AI-Risikomanagementrahmen in der Praxis: Eine Risikoanalyse Technischer Bericht
Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report

Jul 22