Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle basieren auf einer Transformer-basierten Architektur, um textuelle Eingaben zu verarbeiten. Beispielsweise sticht LLaMA unter vielen Open-Source-Implementierungen hervor. Kann derselbe Transformer auch zur Verarbeitung von 2D-Bildern verwendet werden? In diesem Papier beantworten wir diese Frage, indem wir einen LLaMA-ähnlichen Vision-Transformer in einfacher und pyramidaler Form vorstellen, der als VisionLLaMA bezeichnet wird und speziell für diesen Zweck entwickelt wurde. VisionLLaMA ist ein einheitliches und generisches Modellierungsframework zur Lösung der meisten Vision-Aufgaben. Wir evaluieren seine Wirksamkeit umfassend anhand typischer Pre-Training-Paradigmen in einer Vielzahl von Downstream-Aufgaben der Bildwahrnehmung und insbesondere der Bildgenerierung. In vielen Fällen hat VisionLLaMA erhebliche Verbesserungen gegenüber den bisherigen State-of-the-Art Vision-Transformern gezeigt. Wir glauben, dass VisionLLaMA als ein starkes neues Basismodell für die Bildgenerierung und -verarbeitung dienen kann. Unser Code wird unter https://github.com/Meituan-AutoML/VisionLLaMA veröffentlicht.
Die Joint-Embedding Predictive Architecture (JEPA) hat sich als vielversprechender Ansatz des selbstüberwachten Lernens etabliert, der durch die Nutzung eines Weltmodells lernt. Während sie bisher auf die Vorhersage fehlender Teile eines Eingabebildes beschränkt war, untersuchen wir, wie sich die JEPA-Vorhersageaufgabe auf ein breiteres Spektrum von Bildverfälschungen verallgemeinern lässt. Wir stellen Image World Models (IWMs) vor, einen Ansatz, der über das Masked Image Modeling hinausgeht und lernt, die Auswirkungen globaler photometrischer Transformationen im latenten Raum vorherzusagen. Wir untersuchen die Rezeptur für das Erlernen leistungsstarker IWMs und zeigen, dass sie auf drei Schlüsselaspekten beruht: Konditionierung, Vorhersageschwierigkeit und Kapazität. Darüber hinaus zeigen wir, dass das durch IWM erlernte prädiktive Weltmodell durch Feinabstimmung an verschiedene Aufgaben angepasst werden kann; ein feinabgestimmtes IWM-Weltmodell erreicht oder übertrifft die Leistung bisheriger selbstüberwachter Methoden. Schließlich zeigen wir, dass das Lernen mit einem IWM die Kontrolle über den Abstraktionsgrad der erlernten Repräsentationen ermöglicht, sei es das Erlernen invarianter Repräsentationen wie bei kontrastiven Methoden oder äquivarianter Repräsentationen wie beim Masked Image Modeling.
Diese Arbeit befasst sich mit der Herausforderung von Train-Short-Test-Long (TSTL)-Szenarien in Large Language Models (LLMs), die mit Rotary Position Embedding (RoPE) ausgestattet sind, wobei Modelle, die auf kürzeren Sequenzen vortrainiert wurden, Schwierigkeiten mit Out-of-Distribution (OOD)-Token-Positionen in längeren Sequenzen haben. Wir stellen Resonance RoPE vor, einen neuartigen Ansatz, der darauf abzielt, die Generalisierungslücke in TSTL-Szenarien zu verringern, indem die Interpolation von RoPE-Features für OOD-Positionen verfeinert wird, was die Modellleistung erheblich verbessert, ohne zusätzliche Online-Rechenkosten zu verursachen. Darüber hinaus präsentieren wir PosGen, einen neuen synthetischen Benchmark, der speziell für die feinkörnige Verhaltensanalyse in TSTL-Szenarien entwickelt wurde, um die ständig zunehmende Schwierigkeit der Token-Generierung in langen Kontexten von den Herausforderungen der Erkennung neuer Token-Positionen zu isolieren. Unsere Experimente mit synthetischen Aufgaben zeigen, dass Transformers nach der Anwendung von Resonance RoPE OOD-Positionen besser und robuster erkennen. Unsere umfangreichen LLM-Experimente zeigen ebenfalls eine überlegene Leistung nach der Anwendung von Resonance RoPE auf die derzeit beste RoPE-Skalierungsmethode, YaRN, sowohl bei Upstream-Sprachmodellierungsaufgaben als auch bei einer Vielzahl von Downstream-Langtext-Anwendungen.
Text-to-Image-Anpassung, die darauf abzielt, textgesteuerte Bilder für gegebene Subjekte zu synthetisieren, hat die Inhaltserstellung in letzter Zeit revolutioniert. Bestehende Arbeiten folgen dem Pseudowort-Paradigma, d.h., sie repräsentieren die gegebenen Subjekte als Pseudowörter und kombinieren diese dann mit dem gegebenen Text. Allerdings führt der inhärent verflochtene Einflussbereich von Pseudowörtern mit dem gegebenen Text zu einem Dual-Optimum-Paradox, d.h., die Ähnlichkeit der gegebenen Subjekte und die Steuerbarkeit des gegebenen Texts können nicht gleichzeitig optimal sein. Wir präsentieren RealCustom, das erstmals Ähnlichkeit von Steuerbarkeit entkoppelt, indem es den Einfluss des Subjekts präzise auf relevante Teile beschränkt. Dies wird erreicht, indem das reale Textwort schrittweise von seiner allgemeinen Bedeutung zum spezifischen Subjekt eingegrenzt und seine Cross-Attention zur Unterscheidung der Relevanz genutzt wird. Konkret führt RealCustom ein neuartiges „Trainings-Inferenz“-entkoppeltes Framework ein: (1) Während des Trainings lernt RealCustom die allgemeine Ausrichtung zwischen visuellen Bedingungen und ursprünglichen textuellen Bedingungen durch ein neuartiges adaptives Bewertungsmodul, um den Einflussumfang adaptiv zu modulieren; (2) während der Inferenz wird eine neuartige adaptive Maskenführungsstrategie vorgeschlagen, um den Einflussbereich und den Einflussumfang der gegebenen Subjekte iterativ zu aktualisieren und die Generierung des realen Textworts schrittweise einzugrenzen. Umfassende Experimente demonstrieren die überlegene Echtzeit-Anpassungsfähigkeit von RealCustom im offenen Bereich, wodurch erstmals sowohl eine beispiellose Ähnlichkeit der gegebenen Subjekte als auch die Steuerbarkeit des gegebenen Texts erreicht wird. Die Projektseite ist https://corleone-huang.github.io/realcustom/.
Aktivierungspatching ist eine Methode zur direkten Berechnung kausaler Zuschreibungen von Verhalten zu Modellkomponenten. Die exhaustive Anwendung erfordert jedoch einen Durchlauf, dessen Kosten linear mit der Anzahl der Modellkomponenten skalieren, was bei modernen Large Language Models (LLMs) unverhältnismäßig teuer sein kann. Wir untersuchen Attribution Patching (AtP), eine schnelle, gradientenbasierte Approximation von Aktivierungspatching, und identifizieren zwei Klassen von Fehlermodi bei AtP, die zu signifikanten falschen Negativen führen. Wir schlagen eine Variante von AtP namens AtP* vor, die zwei Änderungen enthält, um diese Fehlermodi zu beheben, während die Skalierbarkeit erhalten bleibt. Wir präsentieren die erste systematische Studie zu AtP und alternativen Methoden für schnelleres Aktivierungspatching und zeigen, dass AtP alle anderen untersuchten Methoden deutlich übertrifft, wobei AtP* eine weitere signifikante Verbesserung bietet. Abschließend stellen wir eine Methode vor, um die Wahrscheinlichkeit verbleibender falscher Negativschätzungen von AtP* zu begrenzen.