Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Bildinpainting ist ein grundlegendes Forschungsgebiet zwischen Bildbearbeitung und Bildgenerierung. Aktuelle State-of-the-Art (SOTA)-Methoden haben neuartige Aufmerksamkeitsmechanismen, leichtgewichtige Architekturen und kontextbewusste Modellierung untersucht und dabei beeindruckende Leistungen gezeigt. Allerdings haben sie oft Schwierigkeiten mit komplexen Strukturen (z.B. Textur, Form, räumliche Beziehungen) und Semantik (z.B. Farbkonsistenz, Objektwiederherstellung und logische Korrektheit), was zu Artefakten und unangemessener Generierung führt. Um diese Herausforderung zu bewältigen, entwerfen wir ein einfaches, aber effektives Inpainting-Paradigma namens latente Kategorienführung und schlagen weiterhin ein diffusionsbasiertes Modell namens PixelHacker vor. Konkret konstruieren wir zunächst einen großen Datensatz, der 14 Millionen Bild-Masken-Paare enthält, indem wir Vordergrund und Hintergrund (potenziell 116 bzw. 21 Kategorien) annotieren. Dann kodieren wir potenzielle Vordergrund- und Hintergrunddarstellungen separat durch zwei Embeddings fester Größe und injizieren diese Merkmale intermittierend über lineare Aufmerksamkeit in den Denoising-Prozess. Schließlich erhalten wir PixelHacker durch Vorabtraining auf unserem Datensatz und Feinabstimmung auf Open-Source-Benchmarks. Umfangreiche Experimente zeigen, dass PixelHacher die SOTA-Methoden auf einer Vielzahl von Datensätzen (Places2, CelebA-HQ und FFHQ) umfassend übertrifft und sowohl in der Struktur als auch in der Semantik bemerkenswerte Konsistenz aufweist. Projektseite unter https://hustvl.github.io/PixelHacker.
Wir stellen die Llama-Nemotron-Modellreihe vor, eine offene Familie heterogener Reasoning-Modelle, die außergewöhnliche Reasoning-Fähigkeiten, Inferenzeffizienz und eine offene Lizenz für den Unternehmenseinsatz bieten. Die Familie umfasst drei Größen – Nano (8B), Super (49B) und Ultra (253B) – und schneidet wettbewerbsfähig mit state-of-the-art Reasoning-Modellen wie DeepSeek-R1 ab, während sie einen überlegenen Inferenzdurchsatz und Speichereffizienz bietet. In diesem Bericht erläutern wir das Trainingsverfahren für diese Modelle, das die Verwendung von Neural Architecture Search aus Llama-3-Modellen für beschleunigte Inferenz, Knowledge Distillation und fortgesetztes Pretraining umfasst, gefolgt von einer Reasoning-fokussierten Post-Training-Phase, die aus zwei Hauptteilen besteht: Supervised Fine-Tuning und groß angelegtem Reinforcement Learning. Llama-Nemotron-Modelle sind die ersten Open-Source-Modelle, die einen dynamischen Reasoning-Schalter unterstützen, der es Benutzern ermöglicht, während der Inferenz zwischen Standard-Chat- und Reasoning-Modi zu wechseln. Um die offene Forschung weiter zu unterstützen und die Modellentwicklung zu erleichtern, stellen wir die folgenden Ressourcen bereit: 1. Wir veröffentlichen die Llama-Nemotron-Reasoning-Modelle – LN-Nano, LN-Super und LN-Ultra – unter der kommerziell freizügigen NVIDIA Open Model License Agreement. 2. Wir veröffentlichen den vollständigen Post-Training-Datensatz: Llama-Nemotron-Post-Training-Dataset. 3. Wir veröffentlichen auch unsere Trainingscodebasen: NeMo, NeMo-Aligner und Megatron-LM.
Die meisten Bildbearbeitungsaufgaben in der Praxis erfordern mehrere sequenzielle Bearbeitungsschritte, um die gewünschten Ergebnisse zu erzielen. Aktuelle Bearbeitungsansätze, die primär für die Modifikation einzelner Objekte konzipiert sind, haben Schwierigkeiten mit sequenziellen Bearbeitungen: insbesondere bei der Beibehaltung vorheriger Änderungen und der natürlichen Integration neuer Objekte in den bestehenden Inhalt. Diese Einschränkungen behindern erheblich komplexe Bearbeitungsszenarien, in denen mehrere Objekte modifiziert werden müssen, während ihre kontextuellen Beziehungen erhalten bleiben. Wir gehen diese grundlegende Herausforderung durch zwei zentrale Vorschläge an: die Ermöglichung von groben Maskeneingaben, die bestehende Inhalte bewahren und neue Elemente natürlich integrieren, sowie die Unterstützung konsistenter Bearbeitungen über mehrere Modifikationen hinweg. Unser Framework erreicht dies durch eine schichtenweise Speicherung, die latente Repräsentationen und Prompt-Embeddings aus vorherigen Bearbeitungen speichert. Wir schlagen die Background Consistency Guidance vor, die gespeicherte latente Repräsentationen nutzt, um die Szenenkohärenz zu bewahren, sowie die Multi-Query Disentanglement in der Cross-Attention, die eine natürliche Anpassung an bestehende Inhalte sicherstellt. Um unsere Methode zu evaluieren, präsentieren wir einen neuen Benchmark-Datensatz, der semantische Ausrichtungsmetriken und interaktive Bearbeitungsszenarien umfasst. Durch umfassende Experimente demonstrieren wir eine überlegene Leistung bei iterativen Bildbearbeitungsaufgaben mit minimalem Benutzeraufwand, wobei nur grobe Masken erforderlich sind und gleichzeitig hochwertige Ergebnisse über mehrere Bearbeitungsschritte hinweg erhalten bleiben.
Die Bewertung von Systemen zur natürlichen Sprachgenerierung (NLG) ist aufgrund der Vielfalt gültiger Ausgaben eine Herausforderung. Obwohl die menschliche Bewertung als Goldstandard gilt, leidet sie unter Inkonsistenzen, mangelnder Standardisierung und demografischen Verzerrungen, was die Reproduzierbarkeit einschränkt. Die LLM-basierte Bewertung bietet eine skalierbare Alternative, ist jedoch äußerst empfindlich gegenüber dem Prompt-Design, bei dem kleine Variationen zu erheblichen Abweichungen führen können. In dieser Arbeit schlagen wir eine Inversionslernmethode vor, die effektive Rückabbildungen von Modellausgaben auf ihre Eingabeanweisungen lernt und so die automatische Generierung hochwirksamer, modellspezifischer Bewertungs-Prompts ermöglicht. Unsere Methode erfordert lediglich eine einzelne Bewertungsprobe und eliminiert den Bedarf an zeitaufwändiger manueller Prompt-Entwicklung, wodurch sowohl die Effizienz als auch die Robustheit verbessert werden. Unsere Arbeit trägt zu einer neuen Richtung für eine robustere und effizientere LLM-basierte Bewertung bei.
Basierend auf 1.178 Sicherheits- und Zuverlässigkeitsarbeiten aus 9.439 Papieren zur generativen KI (Januar 2020 - März 2025) vergleichen wir die Forschungsergebnisse führender KI-Unternehmen (Anthropic, Google DeepMind, Meta, Microsoft und OpenAI) und KI-Universitäten (CMU, MIT, NYU, Stanford, UC Berkeley und University of Washington). Wir stellen fest, dass sich die Unternehmensforschung im Bereich KI zunehmend auf prä-deployment-Bereiche konzentriert – Modellausrichtung sowie Testen und Bewertung – während die Aufmerksamkeit für deployment-bezogene Probleme wie Modellverzerrung nachgelassen hat. Es bestehen erhebliche Forschungslücken in Hochrisiko-Bereichen des Einsatzes, einschließlich Gesundheitswesen, Finanzen, Fehlinformationen, überzeugenden und suchterzeugenden Funktionen, Halluzinationen und Urheberrecht. Ohne verbesserte Beobachtbarkeit von eingesetzter KI könnte die wachsende Konzentration im Unternehmensbereich Wissensdefizite vertiefen. Wir empfehlen, den Zugang externer Forscher zu Einsatzdaten und die systematische Beobachtbarkeit des Marktverhaltens von KI zu erweitern.
In einem realen Textkorpus tritt Wissen häufig über verschiedene Dokumente hinweg auf, enthält jedoch oft Inkonsistenzen aufgrund von mehrdeutigen Benennungen, veralteten Informationen oder Fehlern, was zu komplexen Wechselbeziehungen zwischen Kontexten führt. Frühere Forschungen haben gezeigt, dass Sprachmodelle mit diesen Komplexitäten Schwierigkeiten haben und sich typischerweise auf einzelne Faktoren isoliert konzentrieren. Wir klassifizieren diese Beziehungen in vier Typen: ablenkend, mehrdeutig, kontrafaktisch und dupliziert. Unsere Analyse zeigt, dass kein einzelner Ansatz alle diese Wechselbeziehungen gleichzeitig effektiv adressiert. Daher führen wir den Context Organizer (CORG) ein, ein Framework, das mehrere Kontexte in unabhängig verarbeitete Gruppen organisiert. Dieser Entwurf ermöglicht es dem Modell, effizient alle relevanten Antworten zu finden und gleichzeitig Mehrdeutigkeiten zu beseitigen. CORG besteht aus drei Schlüsselkomponenten: einem Graph-Konstruktor, einem Re-Ranker und einem Aggregator. Unsere Ergebnisse zeigen, dass CORG Leistung und Effizienz effektiv ausbalanciert, bestehende Gruppierungsmethoden übertrifft und vergleichbare Ergebnisse zu rechenintensiveren, einzelkontextbasierten Ansätzen erzielt.
Das Erlernen der Lösung komplexer Aufgaben mit Spezifikationen der Signal Temporal Logic (STL) ist für viele reale Anwendungen von entscheidender Bedeutung. Die meisten bisherigen Arbeiten betrachten jedoch nur feste oder parametrisierte STL-Spezifikationen, da es an einem vielfältigen STL-Datensatz und Encodern mangelt, um zeitliche Logikinformationen effektiv für nachgelagerte Aufgaben zu extrahieren. In diesem Artikel schlagen wir TeLoGraF, Temporal Logic Graph-encoded Flow, vor, das Graph Neural Networks (GNN)-Encoder und Flow-Matching nutzt, um Lösungen für allgemeine STL-Spezifikationen zu erlernen. Wir identifizieren vier häufig verwendete STL-Vorlagen und sammeln insgesamt 200.000 Spezifikationen mit gepaarten Demonstrationen. Wir führen umfangreiche Experimente in fünf Simulationsumgebungen durch, die von einfachen dynamischen Modellen im 2D-Raum bis hin zu hochdimensionalen 7DoF Franka Panda-Roboterarmen und Ant-Vierbeiner-Navigation reichen. Die Ergebnisse zeigen, dass unsere Methode andere Baselines in der STL-Erfüllungsrate übertrifft. Im Vergleich zu klassischen STL-Planungsalgorithmen ist unser Ansatz 10-100 Mal schneller in der Inferenz und kann auf jeder Systemdynamik arbeiten. Darüber hinaus zeigen wir die Fähigkeit unserer Graph-Encodierungsmethode, komplexe STLs zu lösen, und ihre Robustheit gegenüber Out-of-Distribution-STL-Spezifikationen. Der Code ist verfügbar unter https://github.com/mengyuest/TeLoGraF.
Da täglich neue Produkte auf den Markt kommen, müssen Empfehlungssysteme in der Lage sein, sich schnell an mögliche neue Domänen anzupassen, ohne umfangreiche Neuanpassungen zu benötigen. Diese Arbeit stellt „X-Cross“ vor – ein neuartiges Cross-Domain-Sequential-Empfehlungsmodell, das Produkte in neuen Domänen empfiehlt, indem es mehrere domänenspezifische Sprachmodelle integriert; jedes Modell wird mit Low-Rank-Adaptern (LoRA) feinabgestimmt. Bei einem Empfehlungs-Prompt verfeinert X-Cross schichtweise dynamisch die Repräsentation jedes Quellsprachmodells, indem es Wissen aus allen anderen Modellen integriert. Diese verfeinerten Repräsentationen werden von einer Schicht zur nächsten weitergegeben, wobei die Aktivierungen jedes Domänenadapters genutzt werden, um domänenspezifische Nuancen zu bewahren und gleichzeitig die Anpassungsfähigkeit über Domänen hinweg zu ermöglichen. Unter Verwendung von Amazon-Datensätzen für sequenzielle Empfehlungen erreicht X-Cross eine Leistung, die mit einem mit LoRA feinabgestimmten Modell vergleichbar ist, während nur 25 % der zusätzlichen Parameter verwendet werden. Bei Cross-Domain-Aufgaben, wie der Anpassung von der Spielzeugdomäne zu Werkzeugen, Elektronik oder Sport, zeigt X-Cross eine robuste Leistung, während etwa 50 %–75 % weniger Feinabstimmungsdaten als LoRA benötigt werden, um die Feinabstimmung effektiv zu machen. Darüber hinaus erzielt X-Cross eine signifikante Verbesserung der Genauigkeit gegenüber alternativen Cross-Domain-Baselines. Insgesamt ermöglicht X-Cross skalierbare und adaptive Cross-Domain-Empfehlungen, reduziert den Rechenaufwand und bietet eine effiziente Lösung für datenbegrenzte Umgebungen.