papers.title

papers.description

PixelHacker: Bildinpainting mit struktureller und semantischer Konsistenz
PixelHacker: Image Inpainting with Structural and Semantic Consistency

Apr 29

ByZiyang Xu, Kangsheng Duan, Xiaolei Shen, Zhifeng Ding, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang

Bildinpainting ist ein grundlegendes Forschungsgebiet zwischen Bildbearbeitung und Bildgenerierung. Aktuelle State-of-the-Art (SOTA)-Methoden haben neuartige Aufmerksamkeitsmechanismen, leichtgewichtige Architekturen und kontextbewusste Modellierung untersucht und dabei beeindruckende Leistungen gezeigt. Allerdings haben sie oft Schwierigkeiten mit komplexen Strukturen (z.B. Textur, Form, räumliche Beziehungen) und Semantik (z.B. Farbkonsistenz, Objektwiederherstellung und logische Korrektheit), was zu Artefakten und unangemessener Generierung führt. Um diese Herausforderung zu bewältigen, entwerfen wir ein einfaches, aber effektives Inpainting-Paradigma namens latente Kategorienführung und schlagen weiterhin ein diffusionsbasiertes Modell namens PixelHacker vor. Konkret konstruieren wir zunächst einen großen Datensatz, der 14 Millionen Bild-Masken-Paare enthält, indem wir Vordergrund und Hintergrund (potenziell 116 bzw. 21 Kategorien) annotieren. Dann kodieren wir potenzielle Vordergrund- und Hintergrunddarstellungen separat durch zwei Embeddings fester Größe und injizieren diese Merkmale intermittierend über lineare Aufmerksamkeit in den Denoising-Prozess. Schließlich erhalten wir PixelHacker durch Vorabtraining auf unserem Datensatz und Feinabstimmung auf Open-Source-Benchmarks. Umfangreiche Experimente zeigen, dass PixelHacher die SOTA-Methoden auf einer Vielzahl von Datensätzen (Places2, CelebA-HQ und FFHQ) umfassend übertrifft und sowohl in der Struktur als auch in der Semantik bemerkenswerte Konsistenz aufweist. Projektseite unter https://hustvl.github.io/PixelHacker.

Llama-Nemotron: Effiziente Reasoning-Modelle
Llama-Nemotron: Efficient Reasoning Models

May 2

ByAkhiad Bercovich, Itay Levy, Izik Golan, Mohammad Dabbah, Ran El-Yaniv, Omri Puny, Ido Galil, Zach Moshe, Tomer Ronen, Najeeb Nabwani, Ido Shahaf, Oren Tropp, Ehud Karpas, Ran Zilberstein, Jiaqi Zeng, Soumye Singhal, Alexander Bukharin, Yian Zhang, Tugrul Konuk, Gerald Shen, Ameya Sunil Mahabaleshwarkar, Bilal Kartal, Yoshi Suhara, Olivier Delalleau, Zijia Chen, Zhilin Wang, David Mosallanezhad, Adi Renduchintala, Haifeng Qian, Dima Rekesh, Fei Jia, Somshubra Majumdar, Vahid Noroozi, Wasi Uddin Ahmad, Sean Narenthiran, Aleksander Ficek, Mehrzad Samadi, Jocelyn Huang, Siddhartha Jain, Igor Gitman, Ivan Moshkov, Wei Du, Shubham Toshniwal, George Armstrong, Branislav Kisacanin, Matvei Novikov, Daria Gitman, Evelina Bakhturina, Jane Polak Scowcroft, John Kamalu, Dan Su, Kezhi Kong, Markus Kliegl, Rabeeh Karimi, Ying Lin, Sanjeev Satheesh, Jupinder Parmar, Pritam Gundecha, Brandon Norick, Joseph Jennings, Shrimai Prabhumoye, Syeda Nahida Akter, Mostofa Patwary, Abhinav Khattar, Deepak Narayanan, Roger Waleffe, Jimmy Zhang, Bor-Yiing Su, Guyue Huang, Terry Kong, Parth Chadha, Sahil Jain, Christine Harvey, Elad Segal, Jining Huang, Sergey Kashirsky, Robert McQueen, Izzy Putterman, George Lam, Arun Venkatesan, Sherry Wu, Vinh Nguyen, Manoj Kilaru, Andrew Wang, Anna Warno, Abhilash Somasamudramath, Sandip Bhaskar, Maka Dong, Nave Assaf, Shahar Mor, Omer Ullman Argov, Scot Junkin, Oleksandr Romanenko, Pedro Larroy, Monika Katariya, Marco Rovinelli, Viji Balas, Nicholas Edelman, Anahita Bhiwandiwalla, Muthu Subramaniam, Smita Ithape, Karthik Ramamoorthy, Yuting Wu, Suguna Varshini Velury, Omri Almog, Joyjit Daw, Denys Fridman, Erick Galinkin, Michael Evans, Katherine Luna, Leon Derczynski, Nikki Pope, Eileen Long, Seth Schneider, Guillermo Siman, Tomasz Grzegorzek, Pablo Ribalta, Monika Katariya, Joey Conway, Trisha Saar, Ann Guan, Krzysztof Pawelec, Shyamala Prayaga, Oleksii Kuchaiev, Boris Ginsburg, Oluwatobi Olabiyi, Kari Briski, Jonathan Cohen, Bryan Catanzaro, Jonah Alben, Yonatan Geifman, Eric Chung

Wir stellen die Llama-Nemotron-Modellreihe vor, eine offene Familie heterogener Reasoning-Modelle, die außergewöhnliche Reasoning-Fähigkeiten, Inferenzeffizienz und eine offene Lizenz für den Unternehmenseinsatz bieten. Die Familie umfasst drei Größen – Nano (8B), Super (49B) und Ultra (253B) – und schneidet wettbewerbsfähig mit state-of-the-art Reasoning-Modellen wie DeepSeek-R1 ab, während sie einen überlegenen Inferenzdurchsatz und Speichereffizienz bietet. In diesem Bericht erläutern wir das Trainingsverfahren für diese Modelle, das die Verwendung von Neural Architecture Search aus Llama-3-Modellen für beschleunigte Inferenz, Knowledge Distillation und fortgesetztes Pretraining umfasst, gefolgt von einer Reasoning-fokussierten Post-Training-Phase, die aus zwei Hauptteilen besteht: Supervised Fine-Tuning und groß angelegtem Reinforcement Learning. Llama-Nemotron-Modelle sind die ersten Open-Source-Modelle, die einen dynamischen Reasoning-Schalter unterstützen, der es Benutzern ermöglicht, während der Inferenz zwischen Standard-Chat- und Reasoning-Modi zu wechseln. Um die offene Forschung weiter zu unterstützen und die Modellentwicklung zu erleichtern, stellen wir die folgenden Ressourcen bereit: 1. Wir veröffentlichen die Llama-Nemotron-Reasoning-Modelle – LN-Nano, LN-Super und LN-Ultra – unter der kommerziell freizügigen NVIDIA Open Model License Agreement. 2. Wir veröffentlichen den vollständigen Post-Training-Datensatz: Llama-Nemotron-Post-Training-Dataset. 3. Wir veröffentlichen auch unsere Trainingscodebasen: NeMo, NeMo-Aligner und Megatron-LM.

Verbesserung der Bearbeitbarkeit in der Bildgenerierung durch schichtenweise Speicherung
Improving Editability in Image Generation with Layer-wise Memory

May 2

ByDaneul Kim, Jaeah Lee, Jaesik Park

Die meisten Bildbearbeitungsaufgaben in der Praxis erfordern mehrere sequenzielle Bearbeitungsschritte, um die gewünschten Ergebnisse zu erzielen. Aktuelle Bearbeitungsansätze, die primär für die Modifikation einzelner Objekte konzipiert sind, haben Schwierigkeiten mit sequenziellen Bearbeitungen: insbesondere bei der Beibehaltung vorheriger Änderungen und der natürlichen Integration neuer Objekte in den bestehenden Inhalt. Diese Einschränkungen behindern erheblich komplexe Bearbeitungsszenarien, in denen mehrere Objekte modifiziert werden müssen, während ihre kontextuellen Beziehungen erhalten bleiben. Wir gehen diese grundlegende Herausforderung durch zwei zentrale Vorschläge an: die Ermöglichung von groben Maskeneingaben, die bestehende Inhalte bewahren und neue Elemente natürlich integrieren, sowie die Unterstützung konsistenter Bearbeitungen über mehrere Modifikationen hinweg. Unser Framework erreicht dies durch eine schichtenweise Speicherung, die latente Repräsentationen und Prompt-Embeddings aus vorherigen Bearbeitungen speichert. Wir schlagen die Background Consistency Guidance vor, die gespeicherte latente Repräsentationen nutzt, um die Szenenkohärenz zu bewahren, sowie die Multi-Query Disentanglement in der Cross-Attention, die eine natürliche Anpassung an bestehende Inhalte sicherstellt. Um unsere Methode zu evaluieren, präsentieren wir einen neuen Benchmark-Datensatz, der semantische Ausrichtungsmetriken und interaktive Bearbeitungsszenarien umfasst. Durch umfassende Experimente demonstrieren wir eine überlegene Leistung bei iterativen Bildbearbeitungsaufgaben mit minimalem Benutzeraufwand, wobei nur grobe Masken erforderlich sind und gleichzeitig hochwertige Ergebnisse über mehrere Bearbeitungsschritte hinweg erhalten bleiben.

Jenseits der Einheitslösung: Inversionslernen für hochwirksame NLG-Evaluationsprompts
Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts

Apr 29

ByHanhua Hong, Chenghao Xiao, Yang Wang, Yiqi Liu, Wenge Rong, Chenghua Lin

Die Bewertung von Systemen zur natürlichen Sprachgenerierung (NLG) ist aufgrund der Vielfalt gültiger Ausgaben eine Herausforderung. Obwohl die menschliche Bewertung als Goldstandard gilt, leidet sie unter Inkonsistenzen, mangelnder Standardisierung und demografischen Verzerrungen, was die Reproduzierbarkeit einschränkt. Die LLM-basierte Bewertung bietet eine skalierbare Alternative, ist jedoch äußerst empfindlich gegenüber dem Prompt-Design, bei dem kleine Variationen zu erheblichen Abweichungen führen können. In dieser Arbeit schlagen wir eine Inversionslernmethode vor, die effektive Rückabbildungen von Modellausgaben auf ihre Eingabeanweisungen lernt und so die automatische Generierung hochwirksamer, modellspezifischer Bewertungs-Prompts ermöglicht. Unsere Methode erfordert lediglich eine einzelne Bewertungsprobe und eliminiert den Bedarf an zeitaufwändiger manueller Prompt-Entwicklung, wodurch sowohl die Effizienz als auch die Robustheit verbessert werden. Unsere Arbeit trägt zu einer neuen Richtung für eine robustere und effizientere LLM-basierte Bewertung bei.

Reale Lücken in der KI-Governance-Forschung
Real-World Gaps in AI Governance Research

Apr 30

ByIlan Strauss, Isobel Moure, Tim O'Reilly, Sruly Rosenblat

Basierend auf 1.178 Sicherheits- und Zuverlässigkeitsarbeiten aus 9.439 Papieren zur generativen KI (Januar 2020 - März 2025) vergleichen wir die Forschungsergebnisse führender KI-Unternehmen (Anthropic, Google DeepMind, Meta, Microsoft und OpenAI) und KI-Universitäten (CMU, MIT, NYU, Stanford, UC Berkeley und University of Washington). Wir stellen fest, dass sich die Unternehmensforschung im Bereich KI zunehmend auf prä-deployment-Bereiche konzentriert – Modellausrichtung sowie Testen und Bewertung – während die Aufmerksamkeit für deployment-bezogene Probleme wie Modellverzerrung nachgelassen hat. Es bestehen erhebliche Forschungslücken in Hochrisiko-Bereichen des Einsatzes, einschließlich Gesundheitswesen, Finanzen, Fehlinformationen, überzeugenden und suchterzeugenden Funktionen, Halluzinationen und Urheberrecht. Ohne verbesserte Beobachtbarkeit von eingesetzter KI könnte die wachsende Konzentration im Unternehmensbereich Wissensdefizite vertiefen. Wir empfehlen, den Zugang externer Forscher zu Einsatzdaten und die systematische Beobachtbarkeit des Marktverhaltens von KI zu erweitern.

CORG: Generierung von Antworten aus komplexen, miteinander verknüpften Kontexten
CORG: Generating Answers from Complex, Interrelated Contexts

Apr 25

ByHyunji Lee, Franck Dernoncourt, Trung Bui, Seunghyun Yoon

In einem realen Textkorpus tritt Wissen häufig über verschiedene Dokumente hinweg auf, enthält jedoch oft Inkonsistenzen aufgrund von mehrdeutigen Benennungen, veralteten Informationen oder Fehlern, was zu komplexen Wechselbeziehungen zwischen Kontexten führt. Frühere Forschungen haben gezeigt, dass Sprachmodelle mit diesen Komplexitäten Schwierigkeiten haben und sich typischerweise auf einzelne Faktoren isoliert konzentrieren. Wir klassifizieren diese Beziehungen in vier Typen: ablenkend, mehrdeutig, kontrafaktisch und dupliziert. Unsere Analyse zeigt, dass kein einzelner Ansatz alle diese Wechselbeziehungen gleichzeitig effektiv adressiert. Daher führen wir den Context Organizer (CORG) ein, ein Framework, das mehrere Kontexte in unabhängig verarbeitete Gruppen organisiert. Dieser Entwurf ermöglicht es dem Modell, effizient alle relevanten Antworten zu finden und gleichzeitig Mehrdeutigkeiten zu beseitigen. CORG besteht aus drei Schlüsselkomponenten: einem Graph-Konstruktor, einem Re-Ranker und einem Aggregator. Unsere Ergebnisse zeigen, dass CORG Leistung und Effizienz effektiv ausbalanciert, bestehende Gruppierungsmethoden übertrifft und vergleichbare Ergebnisse zu rechenintensiveren, einzelkontextbasierten Ansätzen erzielt.

X-Cross: Dynamische Integration von Sprachmodellen für domänenübergreifende sequenzielle Empfehlungen
X-Cross: Dynamic Integration of Language Models for Cross-Domain Sequential Recommendation

Apr 29

ByGuy Hadad, Haggai Roitman, Yotam Eshel, Bracha Shapira, Lior Rokach

Da täglich neue Produkte auf den Markt kommen, müssen Empfehlungssysteme in der Lage sein, sich schnell an mögliche neue Domänen anzupassen, ohne umfangreiche Neuanpassungen zu benötigen. Diese Arbeit stellt „X-Cross“ vor – ein neuartiges Cross-Domain-Sequential-Empfehlungsmodell, das Produkte in neuen Domänen empfiehlt, indem es mehrere domänenspezifische Sprachmodelle integriert; jedes Modell wird mit Low-Rank-Adaptern (LoRA) feinabgestimmt. Bei einem Empfehlungs-Prompt verfeinert X-Cross schichtweise dynamisch die Repräsentation jedes Quellsprachmodells, indem es Wissen aus allen anderen Modellen integriert. Diese verfeinerten Repräsentationen werden von einer Schicht zur nächsten weitergegeben, wobei die Aktivierungen jedes Domänenadapters genutzt werden, um domänenspezifische Nuancen zu bewahren und gleichzeitig die Anpassungsfähigkeit über Domänen hinweg zu ermöglichen. Unter Verwendung von Amazon-Datensätzen für sequenzielle Empfehlungen erreicht X-Cross eine Leistung, die mit einem mit LoRA feinabgestimmten Modell vergleichbar ist, während nur 25 % der zusätzlichen Parameter verwendet werden. Bei Cross-Domain-Aufgaben, wie der Anpassung von der Spielzeugdomäne zu Werkzeugen, Elektronik oder Sport, zeigt X-Cross eine robuste Leistung, während etwa 50 %–75 % weniger Feinabstimmungsdaten als LoRA benötigt werden, um die Feinabstimmung effektiv zu machen. Darüber hinaus erzielt X-Cross eine signifikante Verbesserung der Genauigkeit gegenüber alternativen Cross-Domain-Baselines. Insgesamt ermöglicht X-Cross skalierbare und adaptive Cross-Domain-Empfehlungen, reduziert den Rechenaufwand und bietet eine effiziente Lösung für datenbegrenzte Umgebungen.

TeLoGraF: Temporale Logikplanung durch graphenkodierte Flussanpassung
TeLoGraF: Temporal Logic Planning via Graph-encoded Flow Matching

May 1

ByYue Meng, Chuchu Fan

Das Erlernen der Lösung komplexer Aufgaben mit Spezifikationen der Signal Temporal Logic (STL) ist für viele reale Anwendungen von entscheidender Bedeutung. Die meisten bisherigen Arbeiten betrachten jedoch nur feste oder parametrisierte STL-Spezifikationen, da es an einem vielfältigen STL-Datensatz und Encodern mangelt, um zeitliche Logikinformationen effektiv für nachgelagerte Aufgaben zu extrahieren. In diesem Artikel schlagen wir TeLoGraF, Temporal Logic Graph-encoded Flow, vor, das Graph Neural Networks (GNN)-Encoder und Flow-Matching nutzt, um Lösungen für allgemeine STL-Spezifikationen zu erlernen. Wir identifizieren vier häufig verwendete STL-Vorlagen und sammeln insgesamt 200.000 Spezifikationen mit gepaarten Demonstrationen. Wir führen umfangreiche Experimente in fünf Simulationsumgebungen durch, die von einfachen dynamischen Modellen im 2D-Raum bis hin zu hochdimensionalen 7DoF Franka Panda-Roboterarmen und Ant-Vierbeiner-Navigation reichen. Die Ergebnisse zeigen, dass unsere Methode andere Baselines in der STL-Erfüllungsrate übertrifft. Im Vergleich zu klassischen STL-Planungsalgorithmen ist unser Ansatz 10-100 Mal schneller in der Inferenz und kann auf jeder Systemdynamik arbeiten. Darüber hinaus zeigen wir die Fähigkeit unserer Graph-Encodierungsmethode, komplexe STLs zu lösen, und ihre Robustheit gegenüber Out-of-Distribution-STL-Spezifikationen. Der Code ist verfügbar unter https://github.com/mengyuest/TeLoGraF.