ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

1

HopChain: Multi-Hop-Datensynthese für generalisierbares visuell-sprachliches Reasoning
HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

Mar 17
ByShenzhi Wang, Shixuan Liu, Jing Zhou, Chang Gao, Xiong-Hui Chen, Binghai Wang, An Yang, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin
99
3

VLMs zeigen starke multimodale Fähigkeiten, haben aber nach wie vor Schwierigkeiten mit feinkörniger Bild-Sprache-Reasoning. Wir stellen fest, dass langes Chain-of-Thought-Reasoning diverse Fehlermodi offenlegt, einschließlich Wahrnehmungs-, Reasoning-, Wissens- und Halluzinationsfehler, die sich über Zwischenschritte aufschaukeln können. Die meisten vorhandenen Bild-Sprache-Daten, die für RLVR verwendet werden, beinhalten jedoch keine komplexen Reasoning-Ketten, die durchgängig auf visuellen Beweisen basieren, wodurch diese Schwächen weitgehend unentdeckt bleiben. Daher schlagen wir HopChain vor, einen skalierbaren Rahmen zur Synthese von Multi-Hop-Bild-Sprache-Reasoning-Daten speziell für das RLVR-Training von VLMs. Jede synthetisierte Multi-Hop-Abfrage bildet eine logisch abhängige Kette von instanzbasierten Hops, bei der frühere Hops die Instanzen, Mengen oder Bedingungen für spätere Hops etablieren, während die endgültige Antwort eine spezifische, eindeutige Zahl bleibt, die sich für verifizierbare Belohnungen eignet. Wir fügen die von HopChain synthetisierten Multi-Hop-Daten zu den ursprünglichen RLVR-Daten hinzu, die zum Training von Qwen3.5-35B-A3B und Qwen3.5-397B-A17B verwendet wurden, und vergleichen dies mit RLVR, das nur auf den ursprünglichen RLVR-Daten trainiert wurde, über 24 Benchmarks aus den Bereichen STEM und Puzzle, General VQA, Texterkennung und Dokumentenverständnis sowie Video Understanding. Obwohl diese Multi-Hop-Daten nicht gezielt für einen bestimmten Benchmark synthetisiert wurden, verbessert ihre Hinzufügung 20 von 24 Benchmarks bei beiden Modellen, was auf breite und verallgemeinerbare Gewinne hindeutet. Um zu zeigen, dass vollständige verkettete Abfragen wichtig sind, ersetzen wir sie durch Halb-Multi-Hop- oder Single-Hop-Varianten, was die durchschnittliche Genauigkeit über die 24 Benchmarks um 5,3 bzw. 7,0 Punkte verringert. Multi-Hop-Training stärkt auch das lange-CoT-Bild-Sprache-Reasoning, wobei die Gewinne im Ultra-Lang-CoT-Bereich bei über 50 Genauigkeitspunkten gipfeln. Diese Experimente etablieren HopChain als einen effektiven, skalierbaren Rahmen zur Synthese von Multi-Hop-Daten, die das verallgemeinerbare Bild-Sprache-Reasoning verbessern.

2

Astrolabe: Steuerung des Forward-Process Reinforcement Learning für destillierte autoregressive Videomodelle
Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

Mar 17
BySongchun Zhang, Zeyue Xue, Siming Fu, Jie Huang, Xianghao Kong, Y Ma, Haoyang Huang, Nan Duan, Anyi Rao
91
5

Destillierte autoregressive (AR) Video-Modelle ermöglichen eine effiziente Streaming-Generierung, sind jedoch häufig nicht mit menschlichen visuellen Präferenzen abgestimmt. Bestehende Reinforcement-Learning (RL)-Frameworks sind für diese Architekturen nicht natürlich geeignet und erfordern typischerweise entweder teure Neu-Destillation oder eine lösungsgekoppelte Optimierung des Rückwärtsprozesses, die erheblichen Speicher- und Rechenaufwand verursacht. Wir stellen Astrolabe vor, ein effizientes Online-RL-Framework für destillierte AR-Modelle. Um bestehende Engpässe zu überwinden, führen wir eine RL-Formulierung für den Vorwärtsprozess ein, die auf negativitätsbewusstem Fine-Tuning basiert. Durch den direkten Vergleich positiver und negativer Beispiele an den Inferenz-Endpunkten etabliert dieser Ansatz eine implizite Richtung zur Verbesserung der Policy, ohne ein Ausrollen des Rückwärtsprozesses zu benötigen. Um dieses Alignment auf lange Videos zu skalieren, schlagen wir ein Streaming-Trainingsschema vor, das Sequenzen progressiv über einen rollenden KV-Cache generiert und RL-Aktualisierungen ausschließlich auf lokale Clip-Fenster anwendet, während auf vorherigen Kontext konditioniert wird, um langreichweitige Kohärenz sicherzustellen. Schließlich integrieren wir, um Reward Hacking zu mindern, ein Multi-Reward-Ziel, das durch unsicherheitsbewusste selektive Regularisierung und dynamische Referenzaktualisierungen stabilisiert wird. Umfangreiche Experimente zeigen, dass unsere Methode die Generierungsqualität über mehrere destillierte AR-Videomodelle hinweg konsistent verbessert und als robuste und skalierbare Alignment-Lösung dient.

3

TerraScope: Pixel-basiertes visuelles Denken für die Erdbeobachtung
TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

Mar 19
ByYan Shu, Bin Ren, Zhitong Xiong, Xiao Xiang Zhu, Begüm Demir, Nicu Sebe, Paolo Rota
42
3

Vision-Language-Modelle (VLMs) haben in der Erdbeobachtung vielversprechende Ergebnisse gezeigt, stoßen jedoch an Grenzen bei Aufgaben, die komplexes räumliches Schließen in präzisen pixelbasierten visuellen Darstellungen verankern müssen. Um dieses Problem zu lösen, stellen wir TerraScope vor, ein einheitliches VLM, das pixelgestütztes georäumliches Schließen mit zwei Schlüsselfähigkeiten ermöglicht: (1) modalitätsflexibles Schließen: Es verarbeitet Eingaben einzelner Modalitäten (optisch oder SAR) und fusioniert bei Verfügbarkeit beider Modalitäten diese adaptiv in den Schließprozess; (2) multitemporales Schließen: Es integriert Zeitreihen für Veränderungsanalysen über mehrere Zeitpunkte hinweg. Zusätzlich haben wir Terra-CoT erstellt, einen großen Datensatz mit 1 Million Samples, die Pixel-Masken in Schließketten über mehrere Quellen hinweg eingebettet enthalten. Wir schlagen außerdem TerraScope-Bench vor, den ersten Benchmark für pixelgestütztes georäumliches Schließen mit sechs Teilaufgaben, der sowohl Antwortgenauigkeit als auch Maskenqualität bewertet, um authentisches pixelgestütztes Schließen zu gewährleisten. Experimente zeigen, dass TerraScope bestehende VLMs beim pixelgestützten georäumlichen Schließen signifikant übertrifft und dabei interpretierbare visuelle Evidenz liefert.

4

ProactiveBench: Benchmarking der Proaktivität in multimodalen großen Sprachmodellen
ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models

Mar 19
ByThomas De Min, Subhankar Roy, Stéphane Lathuilière, Elisa Ricci, Massimiliano Mancini
32
2

Eine effektive Zusammenarbeit beginnt damit, zu wissen, wann man um Hilfe bitten muss. Wenn ein Mensch beispielsweise ein verdecktes Objekt identifizieren möchte, würde er jemanden bitten, das Hindernis zu entfernen. Können MLLMs ein ähnlich "proaktives" Verhalten zeigen, indem sie um einfache Benutzereingriffe bitten? Um dies zu untersuchen, stellen wir ProactiveBench vor – einen Benchmark, der aus sieben umfunktionierten Datensätzen besteht und Proaktivität bei verschiedenen Aufgaben testet, wie etwa der Erkennung verdeckter Objekte, der Verbesserung der Bildqualität und der Interpretation grober Skizzen. Wir evaluieren 22 MLLMs auf ProactiveBench und zeigen, dass (i) ihnen Proaktivität allgemein fehlt; (ii) Proaktivität nicht mit der Modellkapazität korreliert; (iii) „Hinweise“ auf Proaktivität nur marginale Verbesserungen bringen. Überraschenderweise stellten wir fest, dass Konversationsverläufe und In-Context-Learning negative Verzerrungen einführen, die die Leistung beeinträchtigen. Abschließend untersuchen wir eine einfache Feinabstimmungsstrategie auf Basis von bestärkendem Lernen: Ihre Ergebnisse deuten darauf hin, dass Proaktivität erlernbar ist und sogar auf unbekannte Szenarien verallgemeinern kann. Wir veröffentlichen ProactiveBench öffentlich als ersten Schritt zum Aufbau proaktiver multimodaler Modelle.

5

FlowScene: Stilkonsistente Innenraumgenerierung mit multimodalem Graph Rectified Flow
FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

Mar 20
ByZhifei Yang, Guangyao Zhai, Keyang Lu, YuYang Yin, Chao Zhang, Zhen Xiao, Jieyi Long, Nassir Navab, Yikai Wang
27
2

Szenengenerierung hat umfangreiche industrielle Anwendungen und erfordert sowohl hohen Realismus als auch präzise Kontrolle über Geometrie und Erscheinungsbild. Sprachgesteuerte Retrieval-Methoden setzen plausible Szenen aus großen Objektdatenbanken zusammen, vernachlässigen jedoch die Objektebene-Kontrolle und scheitern oft an der Durchsetzung stilistischer Kohärenz auf Szenenebene. Graphbasierte Formulierungen bieten höhere Steuerbarkeit über Objekte und gewährleisten holistische Konsistenz durch explizite Modellierung von Relationen, doch bestehende Methoden erzeugen kaum hochwertige texturierte Ergebnisse, was ihre praktische Nutzbarkeit einschränkt. Wir präsentieren FlowScene, ein tri-modulares Szenengenerierungsmodell, das auf multimodalen Graphen konditioniert ist und gemeinsam Szenenlayouts, Objektgeometrien und Objekttexturen generiert. Kernstück ist ein eng gekoppeltes rectified flow-Modell, das Objektinformationen während der Generierung austauscht und damit kollaborative Reasoning-Prozesse über den Graphen hinweg ermöglicht. Dies erlaubt feingranulare Kontrolle von Objektformen, -texturen und -relationen bei gleichzeitiger Wahrung stilistischer Kohärenz auf Szenenebene in Struktur und Erscheinungsbild. Umfangreiche Experimente zeigen, dass FlowScene sowohl sprach- als auch graphkonditionierte Baseline-Methoden hinsichtlich Generierungsrealismus, Stilkonsistenz und Übereinstimmung mit menschlichen Präferenzen übertrifft.

6

Der Y-Kombinator für LLMs: Lösung des Langkontext-Verfalls mit λ-Kalkül
The Y-Combinator for LLMs: Solving Long-Context Rot with λ-Calculus

Mar 20
ByAmartya Roy, Rasul Tutunov, Xiaotong Ji, Matthieu Zimmer, Haitham Bou-Ammar
27
6

Große Sprachmodelle (LLMs) werden zunehmend als universelle Problemlöser eingesetzt, doch lange Eingaben werden nach wie vor durch ein festes Kontextfenster begrenzt. Rekursive Sprachmodelle (RLMs) adressieren dies, indem sie den Prompt externalisieren und Teilprobleme rekursiv lösen. Bisherige RLMs sind jedoch auf eine offene Lese-Auswerten-Drucken-Schleife (REPL) angewiesen, in der das Modell beliebigen Steuercode generiert, was die Ausführung schwer verifizierbar, vorhersagbar und analysierbar macht. Wir stellen λ-RLM vor, ein Framework für Reasoning mit langem Kontext, das die Erzeugung von freiem rekursivem Code durch eine typisierte funktionale Laufzeitumgebung ersetzt, die auf dem λ-Kalkül basiert. Es führt eine kompakte Bibliothek von vorab verifizierten Kombinatoren aus und verwendet neuronale Inferenz nur für beschränkte Teilprobleme auf Blattebene. Dadurch wird rekursives Reasoning in ein strukturiertes funktionales Programm mit explizitem Kontrollfluss überführt. Wir zeigen, dass λ-RLM formale Garantien bietet, die in standardmäßigen RLMs fehlen, darunter Terminierung, geschlossene Kostenschranken, kontrollierte Genauigkeitsskalierung mit der Rekursionstiefe und eine optimale Partitionierungsregel unter einem einfachen Kostenmodell. Empirisch übertrifft λ-RLM in vier Reasoning-Aufgaben mit langem Kontext und neun Basismodellen den Standard-RLM in 29 von 36 Modell-Aufgaben-Vergleichen, steigert die durchschnittliche Genauigkeit über verschiedene Modellklassen hinweg um bis zu +21,9 Prozentpunkte und reduziert die Latenz um bis zum 4,1-fachen. Diese Ergebnisse zeigen, dass typisierte symbolische Steuerung eine zuverlässigere und effizientere Grundlage für Reasoning mit langem Kontext bietet als die Erzeugung von offenem rekursivem Code. Die vollständige Implementierung von λ-RLM ist unter https://github.com/lambda-calculus-LLM/lambda-RLM für die Community quelloffen verfügbar.

7

Hyperagenten
Hyperagents

Mar 19
ByJenny Zhang, Bingchen Zhao, Wannan Yang, Jakob Foerster, Jeff Clune, Minqi Jiang, Sam Devlin, Tatiana Shavrina
25
5

Selbstverbessernde KI-Systeme zielen darauf ab, die Abhängigkeit von menschlicher Ingenieursarbeit zu verringern, indem sie lernen, ihre eigenen Lern- und Problemlösungsprozesse zu verbessern. Bestehende Ansätze zur Selbstverbesserung basieren auf festen, handgefertigten Meta-Mechanismen, was grundsätzlich begrenzt, wie schnell sich solche Systeme verbessern können. Die Darwin-Gödel-Maschine (DGM) demonstriert endlose Selbstverbesserung im Bereich der Programmierung, indem sie wiederholt selbstmodifizierte Varianten generiert und bewertet. Da sowohl die Bewertung als auch die Selbstmodifikation Programmieraufgaben sind, können Fortschritte in der Programmierfähigkeit in Fortschritte bei der Selbstverbesserungsfähigkeit umgesetzt werden. Diese Übereinstimmung gilt jedoch allgemein nicht über Programmierdomänen hinaus. Wir führen Hyperagents ein, selbstreferentielle Agenten, die einen Aufgaben-Agenten (der die Zielaufgabe löst) und einen Meta-Agenten (der sich selbst und den Aufgaben-Agenten modifiziert) in ein einziges editierbares Programm integrieren. Entscheidend ist, dass die Meta-Ebenen-Modifikationsprozedur selbst editierbar ist, was metakognitive Selbstmodifikation ermöglicht und nicht nur das aufgabenlösende Verhalten, sondern auch den Mechanismus verbessert, der zukünftige Verbesserungen generiert. Wir instanziieren diesen Rahmen, indem wir die DGM erweitern, um DGM-Hyperagents (DGM-H) zu schaffen, und dabei die Annahme einer domänenspezifischen Übereinstimmung zwischen Aufgabenleistung und Selbstmodifikationsfähigkeit eliminieren, um potenziell selbstbeschleunigende Fortschritte bei beliebigen berechenbaren Aufgaben zu unterstützen. In verschiedenen Domänen verbessert die DGM-H ihre Leistung über die Zeit und übertrifft Baseline-Systeme ohne Selbstverbesserung oder endlose Exploration sowie frühere selbstverbessernde Systeme. Darüber hinaus verbessert die DGM-H den Prozess, durch den sie neue Agenten generiert (z.B. persistenter Speicher, Leistungsverfolgung), und diese Meta-Ebenen-Verbesserungen übertragen sich domänenübergreifend und akkumulieren über mehrere Durchläufe. DGM-Hyperagents bieten einen Ausblick auf endlose KI-Systeme, die nicht nur nach besseren Lösungen suchen, sondern kontinuierlich ihre Suche danach verbessern, wie sie sich verbessern können.

8

LumosX: Verknüpfung beliebiger Identitäten mit ihren Attributen für personalisierte Videogenerierung
LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

Mar 20
ByJiazheng Xing, Fei Du, Hangjie Yuan, Pengwei Liu, Hongbin Xu, Hai Ci, Ruigang Niu, Weihua Chen, Fan Wang, Yong Liu
22
2

Jüngste Fortschritte bei Diffusionsmodellen haben die Text-zu-Video-Generierung erheblich verbessert und ermöglichen personalisierte Inhaltserstellung mit feinkörniger Kontrolle über Vorder- und Hintergrundelemente. Allerdings bleibt die präzise Gesichtsattribut-Ausrichtung über verschiedene Subjekte hinweg eine Herausforderung, da bestehende Methoden keine expliziten Mechanismen zur Sicherstellung von Intra-Gruppen-Konsistenz bieten. Um diese Lücke zu schließen, sind sowohl explizite Modellierungsstrategien als auch gesichtsattribut-sensitive Datenressourcen erforderlich. Daher schlagen wir LumosX vor, ein Framework, das sowohl Daten- als auch Modellgestaltung vorantreibt. Auf der Datenseite orchestriert eine maßgeschneiderte Erfassungspipeline Beschriftungen und visuelle Hinweise aus unabhängigen Videos, während multimodale große Sprachmodelle (MLLMs) subjektspezifische Abhängigkeiten inferieren und zuweisen. Diese extrahierten relationalen Priors verleihen eine feinkörnigere Struktur, die die expressive Kontrolle personalisierter Videogenerierung verstärkt und den Aufbau eines umfassenden Benchmarks ermöglicht. Auf der Modellierungsseite verweben Relational Self-Attention und Relational Cross-Attention positionssensitive Einbettungen mit verfeinerten Aufmerksamkeitsdynamiken, um explizite Subjekt-Attribut-Abhängigkeiten einzubetten, wodurch disziplinierte Intra-Gruppen-Kohäsion erzwungen und die Trennung zwischen verschiedenen Subjektclustern verstärkt wird. Umfassende Evaluierungen auf unserem Benchmark zeigen, dass LumosX state-of-the-art Leistung in feinkörniger, identitätskonsistenter und semantisch abgestimmter personalisierter Multi-Subjekt-Videogenerierung erreicht. Code und Modelle sind verfügbar unter https://jiazheng-xing.github.io/lumosx-home/.

9

Schlussfolgern als Kompression: Vereinheitlichung von Budget Forcing durch das bedingte Informationsflaschenhals-Prinzip
Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck

Mar 9
ByFabio Valerio Massoli, Andrey Kuzmin, Arash Behboodi
17
2

Chain-of-Thought (CoT)-Prompting verbessert zwar die Genauigkeit von LLMs bei komplexen Aufgaben, erhöht jedoch oft den Token-Verbrauch und die Inferenzkosten. Bestehende "Budget Forcing"-Methoden, die Kosten durch Fine-Tuning mit heuristischen Längenstrafen reduzieren, unterdrücken sowohl essentielle Schlussfolgerungen als auch redundantes Füllmaterial. Wir formulieren effizientes Reasoning als Problem der verlustbehafteten Kompression nach dem Information-Bottleneck (IB)-Prinzip und identifizieren eine grundlegende theoretische Lücke bei der Anwendung eines naiven IB auf Transformer: Attention verletzt die Markov-Eigenschaft zwischen Prompt, Reasoning-Trace und Antwort. Um dieses Problem zu lösen, modellieren wir die CoT-Generierung nach dem Prinzip des Conditional Information Bottleneck (CIB), bei dem der Reasoning-Trace Z als computationale Brücke fungiert, die nur die Informationen über die Antwort Y enthält, die nicht direkt aus dem Prompt X abgeleitet werden können. Dies führt zu einem allgemeinen Reinforcement-Learning-Ziel: Maximierung der Aufgabenbelohnung bei gleichzeitiger Komprimierung der Completions unter einer A-priori-Verteilung über Reasoning-Traces, wobei gängige Heuristiken (z.B. Längenstrafen) als Spezialfälle (z.B. uniforme Priors) subsumiert werden. Im Gegensatz zu naiven, tokenzählbasierten Ansätzen führen wir einen semantischen Prior ein, der Token-Kosten durch Surprisal unter einem Sprachmodell-Prior misst. Empirisch zeigt unser CIB-Ziel, dass kognitive Überfrachtung reduziert wird, während Flüssigkeit und Logik erhalten bleiben; es verbessert die Genauigkeit bei moderater Kompression und ermöglicht aggressive Kompression mit minimalem Genauigkeitsverlust.

10

Ein Subziel-gesteuerter Rahmen zur Verbesserung von KI-Agenten mit langem Planungshorizont
A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

Mar 20
ByTaiyi Wang, Sian Gooding, Florian Hartmann, Oriana Riva, Edward Grefenstette
15
2

Auf großen Sprachmodellen (LLM) basierende Agenten haben sich als leistungsstarke autonome Steuerungssysteme für digitale Umgebungen etabliert, einschließlich mobiler Oberflächen, Betriebssysteme und Webbrowser. Die Webbrowser-Navigation erfordert beispielsweise den Umgang mit dynamischen Inhalten und langen Aktionssequenzen, was sie besonders anspruchsvoll macht. Bestehende LLM-basierte Agenten haben vor allem in zwei Bereichen Schwierigkeiten mit der langfristigen Planung. Während der Online-Ausführung verlieren sie häufig den Überblick, wenn neue Informationen eintreffen, da ihnen ein klarer und adaptiver Pfad zum Endziel fehlt. Dieses Problem wird während des Reinforcement-Learning(RL)-Feintunings weiter verstärkt, wo spärliche und verzögerte Belohnungen es den Agenten erschweren, zu identifizieren, welche Aktionen zum Erfolg führen, was eine kohärente Entscheidungsfindung bei umfangreichen Aufgaben verhindert. Um diese Herausforderungen zu bewältigen, schlagen wir zwei Beiträge vor. Erstens führen wir ein Agenten-Framework ein, das proprietäre Modelle für die Online-Planung durch Teilziel-Zerlegung nutzt. Zweitens präsentieren wir MiRA (Milestoning your Reinforcement Learning Enhanced Agent), ein RL-Trainingsframework, das dichte, meilensteinbasierte Belohnungssignale verwendet. Der Echtzeit-Planungsmechanismus verbessert proprietäre Modelle wie Gemini um einen absoluten Anstieg der Erfolgsquote (SR) von etwa 10 % auf dem WebArena-Lite-Benchmark. Die Anwendung von MiRA auf das offene Gemma3-12B-Modell steigert dessen Erfolgsquote unterdessen von 6,4 % auf 43,0 %. Diese Leistung übertrifft proprietäre Systeme wie GPT-4-Turbo (17,6 %) und GPT-4o (13,9 %) sowie den bisherigen State-of-the-Art unter den offenen Modellen, WebRL (38,4 %). Insgesamt zeigen unsere Ergebnisse, dass die Kombination von expliziter Planung zur Inferenzzeit mit meilensteinbasierten Belohnungen die Fähigkeiten eines Agenten für langfristige Planung erheblich verbessert und den Weg für robustere und universellere autonome Systeme ebnet.

11

Vielseitige Bearbeitung von Videoinhalten, Aktionen und Dynamiken ohne Training
Versatile Editing of Video Content, Actions, and Dynamics without Training

Mar 18
ByVladimir Kulikov, Roni Paiss, Andrey Voynov, Inbar Mosseri, Tali Dekel, Tomer Michaeli
13
2

Die gesteuerte Videogenerierung hat in den letzten Jahren drastische Verbesserungen erfahren. Dennoch bleibt die Bearbeitung von Aktionen und dynamischen Ereignissen oder das Einfügen von Inhalten, die das Verhalten anderer Objekte in realen Videos beeinflussen sollten, eine große Herausforderung. Bestehende trainierte Modelle haben Schwierigkeiten mit komplexen Bearbeitungen, was wahrscheinlich auf die Schwierigkeit zurückzuführen ist, relevante Trainingsdaten zu sammeln. Ebenso sind bestehende trainingsfreie Methoden inhärent auf struktur- und bewegungserhaltende Bearbeitungen beschränkt und unterstützen keine Änderung der Bewegung oder Interaktionen. Hier stellen wir DynaEdit vor, eine trainingsfreie Bearbeitungsmethode, die vielseitige Videobearbeitungsfähigkeiten mit vortrainierten Text-zu-Video-Flow-Modellen freisetzt. Unsere Methode basiert auf dem kürzlich eingeführten inversionsfreien Ansatz, der nicht in die Modellinterna eingreift und somit modellagnostisch ist. Wir zeigen, dass ein naiver Versuch, diesen Ansatz auf allgemeine, uneingeschränkte Bearbeitung anzupassen, zu schwerer Niederfrequenz-Fehlausrichtung und Hochfrequenz-Flimmern führt. Wir erklären die Ursachen für diese Phänomene und führen neuartige Mechanismen zu ihrer Überwindung ein. Durch umfangreiche Experimente zeigen wir, dass DynaEdit bei komplexen textbasierten Videobearbeitungsaufgaben state-of-the-art Ergebnisse erzielt, einschließlich der Modifikation von Aktionen, dem Einfügen von Objekten, die mit der Szene interagieren, und der Einführung globaler Effekte.

12

Tiefgehende Forschung zu Tabellendaten durch kontinuierliche erfahrungsgesteuerte Ausführung
Deep Tabular Research via Continual Experience-Driven Execution

Mar 10
ByJunnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Qiufeng Wang, Yinghui Li, Siyu An, Di Yin, Xing Sun, Feiyue Huang
11
2

Große Sprachmodelle haben oft Schwierigkeiten mit komplexen langfristigen analytischen Aufgaben über unstrukturierten Tabellen, die typischerweise hierarchische und bidirektionale Kopfzeilen sowie nicht-kanonische Layouts aufweisen. Wir formalisieren diese Herausforderung als Deep Tabular Research (DTR), die mehrstufiges Schließen über interdependente Tabellenbereiche erfordert. Um DTR zu adressieren, schlagen wir einen neuartigen agentenbasierten Rahmenansatz vor, der tabellarisches Schließen als einen geschlossenen Entscheidungsprozess behandelt. Wir entwerfen sorgfältig ein gekoppeltes Abfrage- und Tabellenverständnis für Pfadentscheidungen und operative Ausführung. Konkret: (i) DTR konstruiert zunächst einen hierarchischen Metagraphen, um bidirektionale Semantik zu erfassen und natürliche Sprachabfragen in einen operationsbasierten Suchraum abzubilden; (ii) Um diesen Raum zu navigieren, führen wir eine erwartungsbewusste Auswahlstrategie ein, die Ausführungspfade mit hohem Nutzen priorisiert; (iii) Entscheidend ist, dass historische Ausführungsergebnisse in ein siamesisches strukturiertes Gedächtnis synthetisiert werden, d.h. parametrisierte Aktualisierungen und abstrahierte Texte, die eine kontinuierliche Verfeinerung ermöglichen. Umfangreiche Experimente mit anspruchsvollen unstrukturierten Tabellen-Benchmarks verifizieren die Wirksamkeit und unterstreichen die Notwendigkeit, strategische Planung von niedrigschwelliger Ausführung für langfristiges tabellarisches Schließen zu trennen.

13

WorldAgents: Können Foundation-Image-Modelle als Agenten für 3D-Weltmodelle fungieren?
WorldAgents: Can Foundation Image Models be Agents for 3D World Models?

Mar 20
ByZiya Erkoç, Angela Dai, Matthias Nießner
10
2

Angesichts der bemerkenswerten Fähigkeit von 2D-Foundation-Modellen für die Bildgenerierung, hochwertige Ausgaben zu erzeugen, untersuchen wir eine grundlegende Frage: Verfügen 2D-Foundation-Modelle inhärent über Fähigkeiten eines 3D-Weltmodells? Um dies zu beantworten, evaluieren wir systematisch mehrere state-of-the-art Bildgenerierungsmodelle und Vision-Language-Models (VLMs) für die Aufgabe der 3D-Weltsynthese. Um ihr potenzielles implizites 3D-Vermögen zu nutzen und zu bewerten, schlagen wir einen agentenbasierten Rahmen zur Erleichterung der 3D-Weltgenerierung vor. Unser Ansatz verwendet eine Multi-Agenten-Architektur: einen VLM-basierten Direktor, der Prompts formuliert, um die Bildsynthese zu steuern, einen Generator, der neue Bildansichten synthetisiert, und einen VLM-gestützten zweistufigen Verifizierer, der generierte Frames sowohl aus dem 2D-Bild- als auch dem 3D-Rekonstruktionsraum bewertet und gezielt kuratiert. Entscheidend ist, dass wir zeigen, dass unser agentenbasierter Ansatz kohärente und robuste 3D-Rekonstruktionen liefert und Ausgabeszenen erzeugt, die durch das Rendern neuer Ansichten erkundet werden können. Durch umfangreiche Experimente mit verschiedenen Foundation-Modellen demonstrieren wir, dass 2D-Modelle tatsächlich ein Verständnis von 3D-Welten verkapseln. Indem wir dieses Verständnis ausnutzen, synthetisiert unsere Methode erfolgreich weitläufige, realistische und 3D-konsistente Welten.

14

BEAVER: Eine trainingsfreie hierarchische Prompt-Komprimierungsmethode durch strukturierte Seitenauswahl
BEAVER: A Training-Free Hierarchical Prompt Compression Method via Structure-Aware Page Selection

Mar 20
ByZhengpei Hu, Kai Li, Dapeng Fu, Chang Zeng, Yue Li, Yuanhao Tang, Jianqiang Huang
10
2

Die exponentielle Erweiterung der Kontextfenster von LLMs hat zwar Fähigkeiten zum Verständnis langer Dokumente freigesetzt, aber gleichzeitig erhebliche Engpässe bei der Inferenzlatenz und Informationsnutzung verursacht. Bestehende Komprimierungsmethoden leiden häufig unter hohen Trainingskosten oder semantischer Fragmentierung aufgrund aggressiver Token-Reduzierung. In diesem Beitrag stellen wir BEAVER vor, ein neuartiges, trainingsfreies Framework, das die Komprimierung von linearer Token-Entfernung auf strukturbewusste hierarchische Selektion verlagert. BEAVER maximiert die Hardware-Parallelität, indem variable Kontextlängen über duale Pfad-Pooling in dichte, seitenbasierte Tensoren abgebildet werden, und bewahrt die Diskursintegrität durch einen hybriden Planer, der semantische und lexikalische Zweigauswahl mit Satzglättung kombiniert. Umfangreiche Auswertungen auf vier Langkontext-Benchmarks zeigen, dass BEAVER eine vergleichbare Leistung zu state-of-the-art Methoden wie LongLLMLingua erzielt. Besonders hervorzuheben ist, dass BEAVER im RULER-Benchmark eine hohe Treue bei Multi-Needle-Retrieval beibehält, während Baseline-Methoden abbauen. In Bezug auf Effizienz reduziert BEAVER die Latenz bei 128k Kontexten um den Faktor 26,4 und bietet damit eine skalierbare Lösung für hochdurchsatzorientierte Anwendungen. Unser Code ist verfügbar unter https://cslikai.cn/BEAVER/.

15

HiMu: Hierarchische multimodale Rahmenselektion für Frage-Antwort-Systeme mit langen Videos
HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

Mar 19
ByDan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin
9
2

Langformat-Videofragebeantwortung erfordert Schlussfolgerungen über erweiterte zeitliche Kontexte, was die Bildauswahl für große Vision-Sprache-Modelle (LVLMs) mit begrenzten Kontextfenstern entscheidend macht. Bestehende Methoden stehen vor einem deutlichen Zielkonflikt: Ähnlichkeitsbasierte Selektoren sind schnell, reduzieren aber kompositionelle Abfragen auf einen einzelnen dichten Vektor und verlieren dabei Teilereignisreihenfolge und cross-modale Bindungen; agentenbasierte Methoden stellen diese Struktur durch iterative LVLM-Inferenz wieder her, jedoch zu prohibitiv hohen Kosten. Wir stellen HiMu vor, ein trainierungsfreies Framework, das diese Lücke schließt. Ein einzelner LLM-Aufruf (nur Text) zerlegt die Abfrage in einen hierarchischen Logikbaum, dessen Blätter atomare Prädikate sind – jedes wird einem leichtgewichtigen Experten zugeleitet, der Vision (CLIP, Open-Vocabulary Detection, OCR) und Audio (ASR, CLAP) abdeckt. Die resultierenden Signale werden normalisiert, zeitlich geglättet, um verschiedene Modalitäten abzugleichen, und bottom-up durch Fuzzy-Logik-Operatoren zusammengesetzt, die zeitliche Abfolge und Nachbarschaft erzwingen, wodurch eine kontinuierliche Erfüllungskurve entsteht. Evaluationen auf Video-MME, LongVideoBench und HERBench-Lite zeigen, dass HiMu die Effizienz-Genauigkeits-Paretofront vorantreibt: Mit 16 Frames und Qwen3-VL 8B übertrifft es alle konkurrierenden Selektoren, und mit GPT-4o übertrifft es agentenbasierte Systeme, die mit 32-512 Frames operieren, bei etwa 10x geringerem FLOPs-Bedarf.

16

Wie gut verallgemeinern generative Empfehlungssysteme?
How Well Does Generative Recommendation Generalize?

Mar 20
ByYijie Ding, Zitian Guo, Jiacheng Li, Letian Peng, Shuai Shao, Wei Shao, Xiaoqiang Luo, Luke Simon, Jingbo Shang, Julian McAuley, Yupeng Hou
9
2

Eine weit verbreitete Hypothese dafür, warum generative Empfehlungsmodelle (GR) konventionelle, auf Item-IDs basierende Modelle übertreffen, ist ihre bessere Generalisierungsfähigkeit. Es gibt jedoch kaum systematische Methoden, um diese Hypothese über einen oberflächlichen Vergleich der Gesamtleistung hinaus zu überprüfen. Um diese Lücke zu schließen, kategorisieren wir jede Dateninstanz basierend auf der für eine korrekte Vorhersage erforderlichen Fähigkeit: entweder Memorierung (Wiederverwendung von während des Trainings beobachteten Item-Übergangsmustern) oder Generalisierung (Kombination bekannter Muster zur Vorhersage ungesehener Item-Übergänge). Umfangreiche Experimente zeigen, dass GR-Modelle bei Instanzen, die Generalisierung erfordern, besser abschneiden, während auf Item-IDs basierende Modelle überlegen sind, wenn Memorierung wichtiger ist. Um diese Diskrepanz zu erklären, verlagern wir die Analyse von der Item- auf die Token-Ebene und zeigen, dass sich das, was auf Item-Ebene nach Generalisierung aussieht, für GR-Modelle oft auf Token-level Memorierung reduzieren lässt. Schließlich zeigen wir, dass die beiden Paradigmen komplementär sind. Wir schlagen einen einfachen memorierungsbasierten Indikator vor, der sie adaptiv auf Instanzebene kombiniert und so zu einer verbesserten Gesamtleistung der Empfehlungen führt.

17

LoopRPT: Verstärkendes Vor-Training für geloopte Sprachmodelle
LoopRPT: Reinforcement Pre-Training for Looped Language Models

Mar 20
ByGuo Tang, Shixin Jiang, Heng Chang, Nuo Chen, Yuhan Li, Huiming Fan, Jia Li, Ming Liu, Bing Qin
9
2

Loop-Sprachmodelle (LoopLMs) führen iterative latente Berechnungen durch, um interne Repräsentationen zu verfeinern, und bieten somit eine vielversprechende Alternative zur expliziten Chain-of-Thought (CoT)-Argumentation. Bestehende Reinforcement-Learning (RL)-Paradigmen zielen jedoch primär auf Ausgabe-Tokens ab, was eine strukturelle Diskrepanz zu loop-basierten Architekturen erzeugt, deren Schlussfolgerungsprozess implizit abläuft. In dieser Arbeit schlagen wir LoopRPT vor, ein Reinforcement-Pre-Training-Framework, das speziell für LoopLMs entwickelt wurde. Indem wir die Next-Token-Vorhersage als Next-Token-Argumentationsaufgabe umformulieren, weist LoopRPT Verstärkungssignale direkt latenten Schritten mittels eines EMA-Lehrerreferenzmodells und verrauschter latenter Rollouts zu. Diese Formulierung ermöglicht es RL, Zwischenrepräsentationen direkt zu formen und effektives Reasoning in weniger Iterationen zu komprimieren. Wir implementieren LoopRPT auf der Ouro-Architektur über mehrere Modellgrößen hinweg. Die Ergebnisse zeigen, dass LoopRPT konsistent die Repräsentationsqualität pro Schritt verbessert und eine Pareto-Dominanz in den Genauigkeits-Berechnungs-Kompromissen erreicht. Bemerkenswerterweise deuten signifikante Verbesserungen bei schwierigen Tokens darauf hin, dass LoopRPT das Reasoning in frühen Phasen verbessert und nicht lediglich vorzeitiges Beenden fördert. Unsere Erkenntnisse unterstreichen Reinforcement Pre-Training als ein prinzipielles Paradigma zum Erlernen effizienten latenten Reasonings in LoopLMs.

18

Durch die Wiedereinführung von Markov-Zuständen die Fähigkeitsgrenzen von LLMs nach dem Training durchbrechen
Breaking the Capability Ceiling of LLM Post-Training by Reintroducing Markov States

Mar 20
ByYurun Yuan, Tengyang Xie
7
2

Reinforcement Learning (RL) hat sich als Standardparadigma für das Nachtraining und die Ausrichtung von Large Language Models (LLMs) etabliliert, doch jüngste Erkenntnisse deuten auf eine anhaltende "Fähigkeitsgrenze" hin: Im Gegensatz zu klassischen RL-Systemen, die neue Strategien entdecken, wirkt RL für LLMs oft lediglich als Verfeinerer von Mustern, die bereits latent in den vortrainierten Gewichten vorhanden sind. In dieser Arbeit identifizieren wir einen grundlegenden strukturellen Engpass: Während sich klassisches RL auf kompakte, informative Markov-Zustände stützt, sind aktuelle Formulierungen für das LLM-Nachtraining an eine sich ständig erweiternde Historie von Aktionen geknüpft. Wir beleuchten erneut ein klassisches Prinzip, das seit langem zentral für RL, jedoch beim LLM-Nachtraining abwesend ist: explizite Markov-Zustände. Theoretisch liefern wir rigorose Garantien, die demonstrieren, dass die Nutzung geschätzter Markov-Zustände die Probenkomplexität erheblich reduzieren kann. Empirisch zeigen wir, dass die Einführung von Markov-Zuständen durchgängig die Leistungsgrenzen des standardmäßigen RL-Nachtrainings über eine Reihe komplexer Logikrätsel hinweg durchbricht. Unsere Ergebnisse legen nahe, dass ein Schritt weg von der "Historie-als-Zustand"-Modellierung hin zu strukturierten Markovschen Repräsentationen entscheidend ist, um offene Entdeckung und genuin neue Reasoning-Fähigkeiten in Generative AI zu erschließen.

19

Jenseits einzelner Token: Destillation diskreter Diffusionsmodelle mittels diskretem MMD
Beyond Single Tokens: Distilling Discrete Diffusion Models via Discrete MMD

Mar 20
ByEmiel Hoogeboom, David Ruhe, Jonathan Heek, Thomas Mensink, Tim Salimans
7
2

Derzeit ist es schwierig, diskrete Diffusionsmodelle zu destillieren. Im Gegensatz dazu bietet die Literatur zu kontinuierlicher Diffusion viele Destillationsansätze, die die Anzahl der Abtastschritte auf eine Handvoll reduzieren können. Unsere Methode, Discrete Moment Matching Distillation (D-MMD), nutzt Ideen, die sich im kontinuierlichen Bereich als sehr erfolgreich erwiesen haben. Während frühere diskrete Destillationsmethoden versagen, bewahrt D-MMD hohe Qualität und Vielfalt (bei ausreichender Abtastschrittzahl). Dies wird sowohl an Text- als auch Bilddatensätzen demonstriert. Darüber hinaus können die neu destillierten Generatoren ihre Lehrer-Modelle übertreffen.

20

EgoForge: Zielgerichteter Egocentrischer Weltensimulator
EgoForge: Goal-Directed Egocentric World Simulator

Mar 20
ByYifan Shen, Jiateng Liu, Xinzhuo Li, Yuanzhe Liu, Bingxuan Li, Houze Yang, Wenqi Jia, Yijiang Li, Tianjiao Yu, James Matthew Rehg, Xu Cao, Ismini Lourentzou
6
2

Generative Weltmodelle haben sich als vielversprechend für die Simulation dynamischer Umgebungen erwiesen, doch egozentrische Videos bleiben aufgrund schneller Blickwinkeländerungen, häufiger Hand-Objekt-Interaktionen und zielgerichteter Prozeduren, deren Verlauf von latenten menschlichen Intentionen abhängt, eine Herausforderung. Bestehende Ansätze konzentrieren sich entweder auf handzentrierte Instruktionssynthese mit begrenzter Szenenentwicklung, führen statische Blickübersetzungen ohne Modellierung von Aktionsdynamiken durch oder sind auf umfangreiche Supervision angewiesen, wie z.B. Kameratrajektorien, lange Videopräfixe, synchronisierte Multikameraaufnahmen usw. In dieser Arbeit stellen wir EgoForge vor, einen egozentrischen, zielgerichteten Weltsimulator, der kohärente, egozentrische Video-Rollouts aus minimalen statischen Eingaben erzeugt: einem einzelnen egozentrischen Bild, einer hochleveligen Anweisung und einer optionalen auxiliären exozentrischen Ansicht. Um die Intentionsausrichtung und zeitliche Konsistenz zu verbessern, schlagen wir VideoDiffusionNFT vor, eine trajektorienbasierte, belohnungsgeführte Verfeinerung, die während des Diffusions-Samplings die Zielerreichung, zeitliche Kausalität, Szenenkonsistenz und perzeptuelle Qualität optimiert. Umfangreiche Experimente zeigen, dass EgoForge gegenüber starken Baselines konsistente Verbesserungen bei semantischer Ausrichtung, geometrischer Stabilität und Bewegungsqualität erzielt und eine robuste Leistung in realen Experimenten mit Smart Glasses aufweist.

21

Einem Agenten beibringen, skizzenweise ein Teil nach dem anderen zu zeichnen
Teaching an Agent to Sketch One Part at a Time

Mar 19
ByXiaodan Du, Ruize Xu, David Yunis, Yael Vinker, Greg Shakhnarovich
4
1

Wir entwickeln eine Methode zur schrittweisen Erstellung von Vektorskizzen. Dazu trainieren wir einen multimodalen, sprachmodellbasierten Agenten mittels eines neuartigen mehrstufigen Reinforcement-Learning-Ansatzes mit Prozessbelohnung nach supervidiertem Fein-Tuning. Unser Ansatz wird ermöglicht durch einen neuen Datensatz, den wir ControlSketch-Part nennen, der umfangreiche Annotationen auf Teilebene für Skizzen enthält. Diese wurden durch eine neuartige, generische automatische Annotationspipeline gewonnen, die Vektorskizzen in semantische Teile segmentiert und Pfade mittels eines strukturierten mehrstufigen Labeling-Prozesses den Teilen zuweist. Unsere Ergebnisse zeigen, dass die Einbeziehung strukturierter Daten auf Teilebene und die Bereitstellung visueller Rückmeldungen für den Agenten während des Prozesses eine interpretierbare, steuerbare und lokal editierbare Text-zu-Vektorskizzen-Generierung ermöglicht.

22

DROID-SLAM in der Wildnis
DROID-SLAM in the Wild

Mar 19
ByMoyang Li, Zihan Zhu, Marc Pollefeys, Daniel Barath
4
2

Wir stellen ein robustes Echtzeit-RGB-SLAM-System vor, das dynamische Umgebungen durch den Einsatz von differenzierbarer, unsicherheitsbewusster Bündelblockausgleichung bewältigt. Herkömmliche SLAM-Methoden gehen typischerweise von statischen Szenen aus, was zu Tracking-Fehlern bei Bewegung führt. Neuere dynamische SLAM-Ansätze versuchen, diese Herausforderung durch vordefinierte dynamische Priori-Informationen oder unsicherheitsbewusste Kartierung zu lösen, bleiben jedoch begrenzt, wenn sie mit unbekannten dynamischen Objekten oder stark unübersichtlichen Szenen konfrontiert werden, in denen geometrische Kartierung unzuverlässig wird. Im Gegensatz dazu schätzt unsere Methode die Unsicherheit pro Pixel durch Ausnutzung von Mehrbild-Inkonsistenzen visueller Merkmale, was robustes Tracking und Rekonstruktion selbst in realen Umgebungen ermöglicht. Das vorgeschlagene System erreicht state-of-the-art Kameraposen und Szenengeometrie in unübersichtlichen dynamischen Szenarien bei Echtzeitbetrieb mit etwa 10 Bildern pro Sekunde. Code und Datensätze sind unter https://github.com/MoyangLi00/DROID-W.git verfügbar.

23

AgentDS Technischer Bericht: Benchmarking der Zukunft der Mensch-KI-Kollaboration in der domänenspezifischen Datenwissenschaft
AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

Mar 19
ByAn Luo, Jin Du, Xun Xian, Robert Specht, Fangqiao Tian, Ganghua Wang, Xuan Bi, Charles Fleming, Ashish Kundu, Jayanth Srinivasa, Mingyi Hong, Rui Zhang, Tianxi Li, Galin Jones, Jie Ding
4
2

Data Science spielt eine entscheidende Rolle bei der Transformation komplexer Daten in umsetzbare Erkenntnisse in zahlreichen Domänen. Jüngste Entwicklungen bei großen Sprachmodellen (LLMs) und KI-Agenten haben den Data-Science-Workflow erheblich automatisiert. Es bleibt jedoch unklar, inwieweit KI-Agenten die Leistung menschlicher Experten bei domänenspezifischen Data-Science-Aufgaben erreichen können und in welchen Aspekten menschliche Expertise weiterhin Vorteile bietet. Wir stellen AgentDS vor, einen Benchmark und Wettbewerb, der entwickelt wurde, um sowohl die Leistung von KI-Agenten als auch die Mensch-KI-Kollaboration in der domänenspezifischen Data Science zu bewerten. AgentDS umfasst 17 Herausforderungen aus sechs Branchen: Handel, Lebensmittelproduktion, Gesundheitswesen, Versicherungen, Fertigung und Privatkundengeschäft von Banken. Wir führten einen offenen Wettbewerb mit 29 Teams und 80 Teilnehmern durch, der einen systematischen Vergleich zwischen Mensch-KI-Kollaborationsansätzen und reinen KI-Baselines ermöglicht. Unsere Ergebnisse zeigen, dass aktuelle KI-Agenten mit domänenspezifischem Denken Schwierigkeiten haben. Reine KI-Baselines schneiden nahe dem Median oder darunter liegend im Vergleich zu den Wettbewerbsteilnehmern ab, während die stärksten Lösungen aus der Mensch-KI-Kollaboration hervorgehen. Diese Ergebnisse stellen die Erzählung einer vollständigen Automatisierung durch KI in Frage und unterstreichen die anhaltende Bedeutung menschlicher Expertise in der Data Science, während sie gleichzeitig Richtungen für die nächste KI-Generation aufzeigen. Besuchen Sie die AgentDS-Website hier: https://agentds.org/ und die Open-Source-Datensätze hier: https://huggingface.co/datasets/lainmn/AgentDS.

24

Kooperation und Ausbeutung bei der LLM-Politiksynthese für sequenzielle soziale Dilemmata
Cooperation and Exploitation in LLM Policy Synthesis for Sequential Social Dilemmas

Mar 19
ByVíctor Gallego
4
2

Wir untersuchen die Synthese von LLM-Politiken: die Verwendung eines großen Sprachmodells zur iterativen Erzeugung programmatischer Agentenpolitiken für Multi-Agenten-Umgebungen. Anstatt neuronale Politiken durch bestärkendes Lernen zu trainieren, fordert unser Framework ein LLM auf, Python-Politikfunktionen zu generieren, bewertet diese im Selbstspiel und verfeinert sie über Iterationen hinweg unter Verwendung von Leistungsfeedback. Wir untersuchen das Feedback-Engineering (das Design der Bewertungsinformationen, die dem LLM während der Verfeinerung gezeigt werden) und vergleichen spärliches Feedback (nur skalarer Belohnungswert) mit dichtem Feedback (Belohnung plus soziale Metriken: Effizienz, Gleichheit, Nachhaltigkeit, Frieden). In zwei kanonischen Sequenziellen Sozialen Dilemmata (Gathering und Cleanup) und zwei fortschrittlichen LLMs (Claude Sonnet 4.6, Gemini 3.1 Pro) übertrifft dichtes Feedback durchgängig das spärliche Feedback bei allen Metriken oder erreicht gleiche Werte. Der Vorteil ist im Cleanup-Öffentliche-Güter-Spiel am größten, wo die Bereitstellung sozialer Metriken dem LLM hilft, den kostspieligen Kompromiss zwischen Reinigen und Ernten zu kalibrieren. Soziale Metriken führen nicht zu einer Überoptimierung der Fairness, sondern dienen als Koordinationssignal, das das LLM zu effektiveren kooperativen Strategien führt, einschließlich Gebietsaufteilung, adaptiver Rollenzuweisung und der Vermeidung verschwenderischer Aggression. Wir führen weiterhin ein adversarisches Experiment durch, um zu bestimmen, ob LLMs diese Umgebungen reward-hacken können. Wir charakterisieren fünf Angriffsklassen und diskutieren Gegenmaßnahmen, wobei wir einen inherenten Zielkonflikt in der LLM-Politiksynthese zwischen Ausdrucksstärke und Sicherheit aufzeigen. Code unter https://github.com/vicgalle/llm-policies-social-dilemmas.

25

Brauchen VLMs Vision Transformer? Eine Evaluierung von State Space Models als Vision-Encoder
Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Mar 19
ByShang-Jui Ray Kuo, Paola Cascante-Bonilla
3
2

Große visuell-sprachliche Modelle (VLMs) verwenden oft ein eingefrorenes visuelles Backbone, dessen Bildmerkmale über einen leichten Connector in ein großes Sprachmodell abgebildet werden. Während transformerbasierte Encoder der Standard für visuelle Backbones sind, stellen wir die Frage, ob Vision-Backbones auf Basis von State Space Models (SSMs) eine starke Alternative darstellen können. Wir evaluieren SSM-Vision-Backbones für VLMs systematisch unter kontrollierten Bedingungen. Bei angeglichener ImageNet-1K-Initialisierung erreicht das SSM-Backbone die insgesamt stärkste Leistung sowohl bei VQA als auch bei Grounding/Lokalisierung. Wir passen sowohl SSM- als auch ViT-Backbones weiter durch Training für Detektion oder Segmentierung an und stellen fest, dass das Feintuning auf dichte Aufgaben die Leistung allgemein über beide Familien hinweg verbessert; nach dieser Anpassung bleibt das SSM-Backbone wettbewerbsfähig, operiert jedoch bei einem deutlich geringeren Modellmaßstab. Wir beobachten weiterhin, dass (i) eine höhere ImageNet-Genauigkeit oder größere Backbones nicht zuverlässig in eine bessere VLM-Leistung übersetzt werden und (ii) einige visuelle Backbones bei der Lokalisierung instabil sind. Basierend auf diesen Erkenntnissen schlagen wir Stabilisierungsstrategien vor, die die Robustheit für beide Backbone-Familien verbessern, und heben SSM-Backbones als starke Alternative zu transformerbasierten visuellen Encodern in VLMs hervor.

26

Sprache auf Abruf, Wissen im Kern: Die Kombination von LLMs mit Encoder-Decoder-Übersetzungsmodellen für erweiterbare Mehrsprachigkeit
Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality

Mar 18
ByMengyu Bu, Yang Feng
3
2

Große Sprachmodelle (LLMs) zeigen eine starke allgemeine Intelligenz, doch ihre mehrsprachige Leistungsfähigkeit bleibt hochgradig unausgewogen. Obwohl LLMs umfangreiches cross-linguales Wissen in einem einheitlichen semantischen Raum kodieren, haben sie oft Schwierigkeiten, dieses Wissen zuverlässig mit ressourcenarmen oder unbekannten Sprachen zu verbinden. Glücklicherweise verfügen vortrainierte Encoder-Decoder-Übersetzungsmodelle bereits über eine ausgewogene mehrsprachige Fähigkeit, was eine natürliche Ergänzung zu LLMs nahelegt. In dieser Arbeit schlagen wir XBridge vor, eine kompositionelle Encoder-LLM-Decoder-Architektur, die das mehrsprachige Verständnis und die Generierung auf externe vortrainierte Übersetzungsmodelle auslagert, während das LLM als englisch-zentrierter Kern zur Verarbeitung allgemeinen Wissens erhalten bleibt. Um die daraus resultierende Repräsentationsfehlausrichtung zwischen den Modellen zu adressieren, führen wir leichte Cross-Model-Mapping-Schichten und ein auf optimalem Transport basierendes Alignment-Ziel ein, das eine feinkörnige semantische Konsistenz für die mehrsprachige Generierung ermöglicht. Experimente mit vier LLMs in den Bereichen mehrsprachiges Verständnis, Reasoning, Zusammenfassung und Generierung zeigen, dass XBridge starke Baseline-Methoden übertrifft, insbesondere bei ressourcenarmen und zuvor unbekannten Sprachen, ohne das LLM neu trainieren zu müssen.

27

Mensch-KI-Synergie bei agentenbasierter Code-Überprüfung
Human-AI Synergy in Agentic Code Review

Mar 16
BySuzhen Zhong, Shayan Noei, Ying Zou, Bram Adams
3
2

Code Review ist eine entscheidende Praxis in der Softwareentwicklung, bei der Entwickler Code-Änderungen vor der Integration prüfen, um Codequalität sicherzustellen, Fehler zu erkennen und die Wartbarkeit zu verbessern. In den letzten Jahren werden zunehmend KI-Agenten in den Code-Review-Prozess integriert, die Code-Kontext verstehen, Review-Aktionen planen und mit Entwicklungsumgebungen interagieren können. Allerdings gibt es nur begrenzte empirische Belege, um die Effektivität von KI-Agenten und menschlichen Prüfern in kollaborativen Workflows zu vergleichen. Um diese Lücke zu schließen, führen wir eine groß angelegte empirische Analyse von 278.790 Code-Review-Diskussionen aus 300 Open-Source-GitHub-Projekten durch. In unserer Studie vergleichen wir die Feedback-Unterschiede zwischen menschlichen Prüfern und KI-Agenten. Wir untersuchen Mensch-KI-Kollaborationsmuster in Review-Diskussionen, um zu verstehen, wie Interaktion die Review-Ergebnisse beeinflusst. Darüber hinaus analysieren wir die Übernahme von Code-Vorschlägen menschlicher Prüfer und KI-Agenten in die Codebase und wie übernommene Vorschläge die Codequalität verändern. Wir stellen fest, dass menschliche Prüfer zusätzliches Feedback im Vergleich zu KI-Agenten geben, einschließlich Verständnisfragen, Tests und Wissenstransfer. Menschliche Prüfer tauschen 11,8 % mehr Diskussionsrunden aus, wenn sie KI-generierten Code prüfen, als bei menschengeschriebenem Code. Zudem werden Code-Vorschläge von KI-Agenten signifikant seltener in die Codebase übernommen als Vorschläge menschlicher Prüfer. Über die Hälfte der nicht übernommenen Vorschläge von KI-Agenten sind entweder fehlerhaft oder werden durch alternative Lösungen der Entwickler behoben. Wenn übernommen, führen Vorschläge von KI-Agenten zu signifikant stärkeren Steigerungen der Codekomplexität und Codegröße als Vorschläge menschlicher Prüfer. Unsere Ergebnisse deuten darauf hin, dass KI-Agenten zwar die Fehlerprüfung skalieren können, menschliche Aufsicht jedoch entscheidend bleibt, um die Qualität der Vorschläge sicherzustellen und kontextbezogenes Feedback zu geben, das KI-Agenten fehlt.

28

TAPESTRY: Von der Geometrie zum Erscheinungsbild durch konsistente Drehteller-Videos
TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos

Mar 18
ByYan Zeng, Haoran Jiang, Kaixin Yao, Qixuan Zhang, Longwen Zhang, Lan Xu, Jingyi Yu
2
2

Die automatische Generierung fotorealistischer und selbstkonsistenter Oberflächen für texturlose 3D-Modelle ist eine zentrale Herausforderung in der digitalen Inhaltserstellung. Die Fortschritte bei großskaligen Videogenerierungsmodellen bieten einen naheliegenden Ansatz: die direkte Synthese von 360-Grad-Rundgangvideos (TTVs), die nicht nur als hochwertige dynamische Vorschau dienen können, sondern auch als Zwischendarstellung zur Steuerung von Textursynthese und neuronalem Rendering. Allerdings haben bestehende allgemeine Videodiffusionsmodelle Schwierigkeiten, strenge geometrische Konsistenz und Erscheinungsstabilität über den gesamten Blickwinkelbereich hinweg aufrechtzuerhalten, was ihre Ergebnisse für hochwertige 3D-Rekonstruktionen ungeeignet macht. Zu diesem Zweck stellen wir TAPESTRY vor, ein Framework zur Generierung hochauflösender TTVs, die durch explizite 3D-Geometrie konditioniert sind. Wir formulieren die Aufgabe der 3D-Erscheinungsgenerierung als ein geometrie-konditioniertes Videodiffusionsproblem: gegeben ein 3D-Netz, rendern und enkodieren wir zunächst multimodale geometrische Merkmale, um den Videogenerierungsprozess mit Pixelgenauigkeit zu steuern und so die Erstellung hochwertiger und konsistenter TTVs zu ermöglichen. Darauf aufbauend entwerfen wir auch eine Methode für nachgelagerte Rekonstruktionsaufgaben aus der TTV-Eingabe, die eine mehrstufige Pipeline mit 3D-bewusstem Inpainting umfasst. Durch Drehung des Modells und eine kontextbewusste Sekundärgenerierung vervollständigt diese Pipeline effektiv selbstverdeckte Bereiche, um eine vollständige Oberflächenabdeckung zu erreichen. Die von TAPESTRY generierten Videos sind nicht nur hochwertige dynamische Vorschauen, sondern dienen auch als zuverlässige, 3D-bewusste Zwischendarstellung, die nahtlos in UV-Texturen zurückprojiziert oder zur Überwachung neuronaler Rendering-Verfahren wie 3DGS verwendet werden kann. Dies ermöglicht die automatisierte Erstellung produktionsreifer, vollständiger 3D-Assets aus texturlosen Netzen. Experimentelle Ergebnisse zeigen, dass unsere Methode bestehende Ansätze sowohl in der Videokonsistenz als auch in der finalen Rekonstruktionsqualität übertrifft.

29

ReLi3D: Beleuchtbare Multi-View-3D-Rekonstruktion mit entkoppelter Beleuchtung
ReLi3D: Relightable Multi-view 3D Reconstruction with Disentangled Illumination

Mar 20
ByJan-Niklas Dihlmann, Mark Boss, Simon Donne, Andreas Engelhardt, Hendrik P. A. Lensch, Varun Jampani
2
2

Die Rekonstruktion von 3D-Assets aus Bildern erforderte bisher separate Prozesse für die Geometrierekonstruktion, Materialschätzung und Beleuchtungsbestimmung, die jeweils mit unterschiedlichen Einschränkungen und Rechenaufwand verbunden sind. Wir stellen ReLi3D vor, die erste vereinheitlichte End-to-End-Pipeline, die gleichzeitig vollständige 3D-Geometrie, räumlich variierende physikalisch basierte Materialien und Umgebungsbeleuchtung aus spärlichen Multi-View-Bildern in unter einer Sekunde rekonstruiert. Unsere zentrale Erkenntnis ist, dass Multi-View-Bedingungen die Entflechtung von Material und Beleuchtung erheblich verbessern können – ein Problem, das für Single-Image-Methoden grundsätzlich schlecht gestellt bleibt. Entscheidend für unseren Ansatz ist die Fusion der Multi-View-Eingaben über eine Transformer-Cross-Conditioning-Architektur, gefolgt von einer neuartigen vereinheitlichten Zwei-Pfad-Vorhersagestrategie. Der erste Pfad sagt die Struktur und das Erscheinungsbild des Objekts vorher, während der zweite Pfad die Umgebungsbeleuchtung aus dem Bildhintergrund oder Objektreflexionen ableitet. Dies, kombiniert mit einem differenzierbaren Monte-Carlo-Multiple-Importance-Sampling-Renderer, schafft eine optimale Trainingspipeline zur Beleuchtungsentflechtung. Zusätzlich erreichen wir durch unser Mixed-Domain-Training-Protokoll, das synthetische PBR-Datensätze mit realen RGB-Aufnahmen kombiniert, generalisierbare Ergebnisse in Bezug auf Geometrie, Materialgenauigkeit und Beleuchtungsqualität. Indem wir zuvor separate Rekonstruktionsaufgaben in einem einzigen Vorwärtsdurchlauf vereinen, ermöglichen wir die nahezu sofortige Generierung vollständiger, neu beleuchtbarer 3D-Assets. Projektseite: https://reli3d.jdihlmann.com/

30

CurveStream: Verbesserung des Verständnisses von Streaming-Videos in MLLMs durch krümmungsbewusstes hierarchisches Management des visuellen Gedächtnisses
CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management

Mar 20
ByChao Wang, Xudong Tan, Jianjian Cao, Kangcong Li, Tao Chen
2
2

Multimodale Large Language Models haben bedeutende Erfolge im Bereich des Offline-Videoverständnisses erzielt, doch ihre Anwendung auf Streaming-Videos wird stark durch die lineare Explosion visueller Tokens eingeschränkt, was häufig zu Out-of-Memory (OOM)-Fehlern oder katastrophalem Vergessen führt. Bestehende Methoden zur visuellen Speicherung und Speicherverwaltung basieren typischerweise auf gleichmäßiger Abtastung, niedrigschwelligen physikalischen Metriken oder passiver Cache-Verdrängung. Diese Strategien weisen jedoch oft ein mangelndes intrinsisches Semantikbewusstsein auf, was die kontextuelle Kohärenz stören und flüchtige, jedoch kritische semantische Übergänge verwischen kann. Um diese Einschränkungen zu adressieren, schlagen wir CurveStream vor, einen trainierungsfreien, krümmungssensitiven hierarchischen Framework zur visuellen Speicherverwaltung. Unser Ansatz wird durch die Schlüsselbeobachtung motiviert, dass Regionen mit hoher Krümmung entlang kontinuierlicher Merkmaltrajektorien eng mit kritischen globalen semantischen Übergängen korrelieren. Basierend auf dieser geometrischen Erkenntnis bewertet CurveStream die Echtzeit-Semantikintensität mittels eines Krümmungs-Scores und integriert einen online K-Sigma dynamischen Schwellenwert, um Frames adaptiv unter striktem Token-Budget in klare und unscharfe Speicherzustände zu routen. Evaluationen über diverse Zeitskalen hinweg bestätigen, dass dieser leichtgewichtige Framework, CurveStream, konsistent absolute Leistungssteigerungen von über 10 % (z.B. 10,69 % auf StreamingBench und 13,58 % auf OVOBench) gegenüber jeweiligen Baselines erzielt und damit neue State-of-the-Art Ergebnisse für die Streaming-Videowahrnehmung etabliert. Der Code wird unter https://github.com/streamingvideos/CurveStream veröffentlicht.

31

Untersuchung kultureller Signale in großen Sprachmodellen mittels Autorenprofilierung
Probing Cultural Signals in Large Language Models through Author Profiling

Mar 17
ByValentin Lafargue, Ariel Guerra-Adames, Emmanuelle Claeys, Elouan Vuichard, Jean-Michel Loubes
2
2

Große Sprachmodelle (LLMs) werden zunehmend in Anwendungen mit gesellschaftlicher Tragweite eingesetzt, was Bedenken hinsichtlich der kulturellen Verzerrungen (Biases) aufwirft, die sie kodieren. Wir untersuchen diese Repräsentationen, indem wir evaluieren, ob LLMs in einem Zero-Shot-Setting Autorenprofilierung anhand von Songtexten durchführen können, also das Geschlecht und die ethnische Zugehörigkeit von Sängern ohne taskspezifisches Fine-Tuning inferieren. Bei der Auswertung mehrerer Open-Source-Modelle mit über 10.000 Songtexten stellen wir fest, dass LLMs eine nicht-triviale Profiling-Leistung erbringen, aber systematische kulturelle Ausrichtungen zeigen: Die meisten Modelle tendieren standardmäßig zur nordamerikanischen Ethnizität, während DeepSeek-1.5B stärker mit asiatischer Ethnizität übereinstimmt. Diese Erkenntnis ergibt sich sowohl aus den Vorhersageverteilungen der Modelle als auch aus einer Analyse ihrer generierten Begründungen. Um diese Disparitäten zu quantifizieren, führen wir zwei Fairness-Metriken ein, die Modality Accuracy Divergence (MAD) und die Recall Divergence (RD), und zeigen, dass Ministral-8B die stärkste Ethnizitätsverzerrung unter den evaluierten Modellen aufweist, während Gemma-12B das ausgewogenste Verhalten zeigt. Unser Code ist auf GitHub verfügbar (https://github.com/ValentinLafargue/CulturalProbingLLM).

32

Adaptive Layerweise Perturbation: Vereinheitlichung von Off-Policy-Korrekturen für RL mit großen Sprachmodellen
Adaptive Layerwise Perturbation: Unifying Off-Policy Corrections for LLM RL

Mar 19
ByChenlu Ye, Xuanchang Zhang, Yifan Hao, Zhou Yu, Ziji Zhang, Abhinav Gullapalli, Hao Chen, Jing Huang, Tong Zhang
1
2

Off-Policy-Probleme wie Policy-Stagnation und Trainings-Inferenz-Diskrepanz haben sich zu einem Hauptengpass für Trainingsstabilität und weitere Exploration bei LLM-RL entwickelt. Um die Inferenzeffizienz zu steigern, vergrößert sich die Verteilungslücke zwischen Inferenz und aktualisierter Policy, was zu schwerlastigen Importance Ratios führt. Schwerlastige Ratios entstehen, wenn die Policy lokal spitz ist, was wiederum spitze Gradienten aufbläht und Updates außerhalb der Trust-Region drängen kann. Um dies zu adressieren, schlagen wir Adaptive Layerwise Perturbation (ALP) vor, bei der während Updates kleine lernbare Perturbationen in die versteckten Eingabezustände jeder Schicht injiziert werden. Diese dienen im Ziel als Zähler des Importance Ratios gegenüber der unveränderten Inferenz-Policy. Intuitiv verhindert ALP durch das Hinzufügen kontrollierten Rauschens zu intermediären Repräsentationen, dass sich die aktualisierte Policy zu abrupt von der Inferenz-Policy entfernt, und erweitert die Policy-Familie, um die Inferenz-Policy-Familie mit Fehlanpassungsrauschen abzudecken. Somit kann die abgeflachte Verteilung die Lücke zwischen aktualisierter und Inferenz-Policy natürlicherweise verringern und den Ausläufer der Importance Ratios reduzieren, wodurch die Trainingsstabilität erhalten bleibt. Dies wird empirisch weiter validiert. Experimente zu einstufigen Mathe- und mehrstufigen, toolintegrierten Reasoning-Aufgaben zeigen, dass ALP nicht nur die Endleistung verbessert, sondern auch ein Explodieren des Importance-Ratio-Ausläufers und KL-Spikes während des iterativen Trainings vermeidet, verbunden mit gesteigerter Exploration. Ablationstudien belegen, dass Perturbationen auf Repräsentationsebene über alle Schichten hinweg am effektivsten sind und partielle Schicht- sowie rein Logits-Varianten erheblich übertreffen.

33

s2n-bignum-bench: Ein praktischer Benchmark zur Bewertung des Low-Level-Code-Verständnisses von LLMs
s2n-bignum-bench: A practical benchmark for evaluating low-level code reasoning of LLMs

Mar 15
ByBalaji Rao, John Harrison, Soonho Kong, Juneyoung Lee, Carlo Lipizzi
1
2

Neurosymbolische Ansätze, die große Sprachmodelle (LLMs) mit formalen Methoden kombinieren, haben kürzlich starke Ergebnisse bei mathematisch orientierten Theorem-Beweis-Benchmarks erzielt. Erfolge bei wettbewerbsartiger Mathematik demonstrieren jedoch nicht automatisch die Fähigkeit, Beweise über Implementierungen aus der realen Welt zu konstruieren. Wir schließen diese Lücke mit einem Benchmark, der aus einer industriellen Kryptographie-Bibliothek abgeleitet ist, deren Assembler-Routinen bereits in HOL Light verifiziert sind. s2n-bignum ist eine bei AWS eingesetzte Bibliothek, die schnelle Assembler-Routinen für Kryptographie bereitstellt, und ihre Korrektheit wird durch formale Verifikation sichergestellt. Die Aufgabe, diese Bibliothek formal zu verifizieren, war eine bedeutende Errungenschaft für die Automated Reasoning Group. Sie umfasste zwei Aufgaben: (1) die präzise Spezifikation des korrekten Verhaltens eines Programms als mathematische Aussage und (2) den Beweis, dass diese Aussage korrekt ist. Im Fall von s2n-bignum wurden beide Aufgaben von menschlichen Experten durchgeführt. In s2n-bignum-bench stellen wir die formale Spezifikation bereit und fordern das LLM auf, ein Proof-Skript zu generieren, das von HOL Light innerhalb eines festgelegten Proof-Checking-Timeouts akzeptiert wird. Nach unserem Wissen ist s2n-bignum-bench der erste öffentliche Benchmark, der sich auf maschinenprüfbare Beweissynthese für industrielle Low-Level-Kryptographie-Assembler-Routinen in HOL Light konzentriert. Dieser Benchmark bietet eine anspruchsvolle und praktisch relevante Testumgebung zur Bewertung LLM-basierten Theorembeweisens über Wettbewerbsmathematik hinaus. Der Code zur Einrichtung und Nutzung des Benchmarks ist hier verfügbar: https://github.com/kings-crown/s2n-bignum-bench{s2n-bignum-bench}.

34

Von Masken zu Pixeln und Bedeutung: Eine neue Taxonomie, Benchmark und Metriken für Bildmanipulation mit visuell-sprachlichen Modellen
From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering

Mar 20
ByXinyi Shang, Yi Tang, Jiacheng Cui, Ahmed Elhagry, Salwa K. Al Khatib, Sondos Mahmoud Bsharat, Jiacheng Liu, Xiaohan Zhao, Jing-Hao Xue, Hao Li, Salman Khan, Zhiqiang Shen
1
2

Bestehende Benchmarks zur Manipulationserkennung basieren weitgehend auf Objektmasken, die sich stark von den tatsächlichen Bearbeitungssignalen unterscheiden: Viele Pixel innerhalb einer Maske sind unverändert oder nur trivial modifiziert, während subtile, aber folgenreiche Bearbeitungen außerhalb der Maske als natürlich eingestuft werden. Wir reformulieren die Bildmanipulationserkennung mit VLMs von groben Bereichslabels zu einer pixelbasierten, bedeutungs- und sprachbewussten Aufgabe. Erstens führen wir eine Taxonomie ein, die Bearbeitungsprimitive (Ersetzen/Entfernen/Einfügen/Retuschieren/Attributänderung/Kolorierung etc.) und ihre semantische Klasse des manipulierten Objekts umspannt und so low-level-Änderungen mit high-level-Verständnis verknüpft. Zweitens veröffentlichen wir einen neuen Benchmark mit pixelgenauen Manipulationskarten und gepaarten Kategorie-Labels, um Detektion und Klassifikation innerhalb eines einheitlichen Protokolls zu evaluieren. Drittens schlagen wir ein Trainingsframework und Evaluierungsmetriken vor, die pixelgenaue Korrektheit mit Lokalisierung quantifizieren, um die Konfidenz oder Vorhersage der tatsächlichen Bearbeitungsintensität zu bewerten, und darüber hinaus das Verständnis der Manipulationsbedeutung durch semantikbewusste Klassifikation und natürliche Sprachbeschreibungen für die vorhergesagten Regionen messen. Wir evaluieren zudem bestehende starke Segmentierungs-/Lokalisierungs-Baselines auf aktuellen leistungsfähigen Manipulationsdetektoren neu und zeigen erhebliche Über- und Unterbewertungen bei reinen Maskenmetriken auf, sowie Schwachstellen bei Mikro-Bearbeitungen und Änderungen außerhalb der Masken. Unser Framework führt das Feld von Masken zu Pixeln, Bedeutungen und Sprachbeschreibungen weiter und etabliert einen rigorosen Standard für Manipulationslokalisierung, semantische Klassifikation und Beschreibung. Code und Benchmark-Daten sind unter https://github.com/VILA-Lab/PIXAR verfügbar.

35

Automatische Erkennung von Gen-AI-Texten: Ein vergleichendes Framework neuronaler Modelle
Automatic detection of Gen-AI texts: A comparative framework of neural models

Mar 19
ByCristian Buttaro, Irene Amerini
1
2

Die rasche Verbreitung großsprachlicher Modelle hat die Unterscheidung zwischen menschengeschriebenen und KI-generierten Texten erheblich erschwert, was kritische Fragen in akademischen, redaktionellen und sozialen Bereichen aufwirft. Diese Arbeit untersucht das Problem der Erkennung KI-generierter Texte durch den Entwurf, die Implementierung und die vergleichende Bewertung mehrerer auf maschinellem Lernen basierender Detektoren. Vier neuronale Architekturen werden entwickelt und analysiert: ein mehrschichtiges Perzeptron, ein eindimensionales Convolutional Neural Network, ein auf MobileNet basierendes CNN und ein Transformer-Modell. Die vorgeschlagenen Modelle werden mit weit verbreiteten Online-Detektoren verglichen, darunter ZeroGPT, GPTZero, QuillBot, Originality.AI, Sapling, IsGen, Rephrase und Writer. Experimente werden auf dem COLING Multilingual Dataset durchgeführt, wobei sowohl englische als auch italienische Konfigurationen berücksichtigt werden, sowie auf einem originalen thematischen Datensatz mit Fokus auf Kunst und psychische Gesundheit. Die Ergebnisse zeigen, dass überwachte Detektoren über verschiedene Sprachen und Domänen hinweg stabilere und robustere Leistungen erzielen als kommerzielle Tools, was die wesentlichen Stärken und Grenzen aktueller Erkennungsstrategien aufzeigt.

36

Mehrskaliger Schalter für semi-überwachtes und kontrastives Lernen bei der Segmentierung medizinischer Ultraschallbilder
Multiscale Switch for Semi-Supervised and Contrastive Learning in Medical Ultrasound Image Segmentation

Mar 19
ByJingguo Qu, Xinyang Han, Yao Pu, Man-Lik Chui, Simon Takadiyi Gunda, Ziman Chen, Jing Qin, Ann Dorothy King, Winnie Chiu-Wing Chu, Jing Cai, Michael Tin-Cheung Ying
1
2

Die Segmentierung medizinischer Ultraschallbilder steht vor erheblichen Herausforderungen aufgrund begrenzter annotierter Daten und charakteristischer Bildartefakte, einschließlich Speckle-Rauschen und kontrastschwacher Grenzen. Während semi-süberwachte Lernansätze (SSL) entwickelt wurden, um den Datenmangel zu bewältigen, leiden bestehende Methoden unter suboptimaler Nutzung ungelabelter Daten und fehlenden robusten Merkmalsrepräsentationsmechanismen. In dieser Arbeit stellen wir Switch vor, ein neuartiges SSL-Framework mit zwei zentralen Innovationen: (1) Eine Multiskalen-Switch (MSS)-Strategie, die hierarchisches Patch-Mixing zur gleichmäßigen räumlichen Abdeckung einsetzt; (2) Frequency Domain Switch (FDS) mit kontrastivem Lernen, das Amplitudenwechsel im Fourier-Raum für robuste Merkmalsrepräsentationen durchführt. Unser Framework integriert diese Komponenten in einer Teacher-Student-Architektur, um sowohl gelabelte als auch ungelabelte Daten effektiv zu nutzen. Eine umfassende Auswertung über sechs verschiedene Ultraschall-Datensätze (Lymphknoten, Brustläsionen, Schilddrüsenknoten und Prostata) demonstriert eine konsistente Überlegenheit gegenüber state-of-the-art Methoden. Bei einem Labeling-Anteil von 5 % erzielt Switch bemerkenswerte Verbesserungen: 80,04 % Dice auf LN-INT, 85,52 % Dice auf DDTI und 83,48 % Dice auf den Prostata-Datensätzen, wobei unser semi-süberwachter Ansatz sogar vollständig süberwachte Baseline-Methoden übertrifft. Die Methode bewahrt Parametereffizienz (1,8 Mio. Parameter) bei gleichzeitig überlegener Leistung, was ihre Wirksamkeit für ressourcenbeschränkte medizinische Bildgebungsanwendungen bestätigt. Der Quellcode ist öffentlich verfügbar unter https://github.com/jinggqu/Switch.

37

ReLMXEL: Adaptiver RL-basierter Speichercontroller mit erklärbarer Energie- und Latenzoptimierung
ReLMXEL: Adaptive RL-Based Memory Controller with Explainable Energy and Latency Optimization

Mar 18
ByPanuganti Chirag Sai, Gandholi Sarat, R. Raghunatha Sarma, Venkata Kalyan Tavva, Naveen M
0
2

Die Reduzierung von Latenz und Energieverbrauch ist entscheidend für die Verbesserung der Effizienz von Speichersystemen im modernen Computing. Diese Arbeit stellt ReLMXEL (Reinforcement Learning for Memory Controller with Explainable Energy and Latency Optimization) vor, ein erklärbares Multi-Agenten-Online-Reinforcement-Learning-Framework, das Speichercontroller-Parameter dynamisch mittels Belohnungszerlegung optimiert. ReLMXEL operiert innerhalb des Speichercontrollers und nutzt detaillierte Metriken des Speicherverhaltens, um die Entscheidungsfindung zu steuern. Experimentelle Auswertungen über verschiedene Workloads hinweg zeigen konsistente Leistungssteigerungen gegenüber Basislinien-Konfigurationen, wobei die Verfeinerungen durch workloadspezifisches Speicherzugriffsverhalten angetrieben werden. Durch die Integration von Erklärbarkeit in den Lernprozess verbessert ReLMXEL nicht nur die Leistung, sondern erhöht auch die Transparenz von Kontrollentscheidungen und ebnet so den Weg für verantwortungsvollere und adaptivere Speichersystem-Designs.

Mar 20
Mar 23
Mar 24