Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Qualität der Anweisungsdaten ist entscheidend für die Ausrichtung großer Sprachmodelle (LLMs). Obwohl einige Modelle, wie z.B. Llama-3-Instruct, offene Gewichte haben, bleiben ihre Ausrichtungsdaten privat, was die Demokratisierung der KI behindert. Hohe menschliche Arbeitskosten und ein begrenzter, vordefinierter Umfang für Aufforderungen verhindern, dass bestehende Open-Source-Daten-Erstellungsmethoden effektiv skalieren, was die Vielfalt und Qualität öffentlicher Ausrichtungsdatensätze potenziell einschränkt. Ist es möglich, hochwertige Anweisungsdaten im großen Maßstab zu synthetisieren, indem sie direkt aus einem ausgerichteten LLM extrahiert werden? Wir stellen eine Selbstsynthesemethode zur Erzeugung von groß angelegten Ausrichtungsdaten namens Magpie vor. Unsere Schlüsselbeobachtung ist, dass ausgerichtete LLMs wie Llama-3-Instruct eine Benutzerabfrage generieren können, wenn wir nur die linksseitigen Vorlagen bis zur Position eingeben, die für Benutzermitteilungen reserviert ist, dank ihrer autoregressiven Natur. Wir verwenden diese Methode, um Llama-3-Instruct zu fördern und 4 Millionen Anweisungen zusammen mit ihren entsprechenden Antworten zu generieren. Wir führen eine umfassende Analyse der extrahierten Daten durch und wählen 300.000 hochwertige Instanzen aus. Um die Magpie-Daten mit anderen öffentlichen Anweisungsdatensätzen zu vergleichen, feinabstimmen wir Llama-3-8B-Base mit jedem Datensatz und bewerten die Leistung der feinabgestimmten Modelle. Unsere Ergebnisse deuten darauf hin, dass in einigen Aufgaben Modelle, die mit Magpie feinabgestimmt wurden, vergleichbar mit dem offiziellen Llama-3-8B-Instruct abschneiden, obwohl letzteres mit 10 Millionen Datenpunkten durch überwachtes Feintuning (SFT) und anschließendes Feedback-Lernen verbessert wurde. Wir zeigen auch, dass die ausschließliche Verwendung von Magpie für SFT die Leistung früherer öffentlicher Datensätze übertreffen kann, die sowohl für SFT als auch für Präferenzoptimierung genutzt wurden, wie z.B. direkte Präferenzoptimierung mit UltraFeedback. Dieser Vorteil zeigt sich bei Ausrichtungs-Benchmarks wie AlpacaEval, ArenaHard und WildBench.
Wir schlagen ein Video-Editing-Framework namens NaRCan vor, das ein hybrides Deformationsfeld und Diffusionsprior verwendet, um hochwertige natürliche kanonische Bilder zur Darstellung des Eingabevideos zu generieren. Unser Ansatz nutzt Homographie zur Modellierung globaler Bewegungen und verwendet Mehrschichtperzeptrons (MLPs), um lokale Restdeformationen zu erfassen und die Fähigkeit des Modells zur Bewältigung komplexer Videodynamiken zu verbessern. Durch die Einführung eines Diffusionspriors von den frühen Trainingsphasen an stellt unser Modell sicher, dass die generierten Bilder ein hochwertiges natürliches Erscheinungsbild bewahren, wodurch die produzierten kanonischen Bilder für verschiedene nachgelagerte Aufgaben im Video-Editing geeignet sind, was von aktuellen kanonischen Methoden nicht erreicht wird. Darüber hinaus integrieren wir Feinabstimmung durch Low-Rank-Anpassung (LoRA) und führen eine Rausch- und Diffusionsprior-Aktualisierungsplanungstechnik ein, die den Schulungsprozess um das 14-fache beschleunigt. Umfangreiche experimentelle Ergebnisse zeigen, dass unsere Methode bestehende Ansätze in verschiedenen Video-Editing-Aufgaben übertrifft und kohärente und hochwertige bearbeitete Videosequenzen produziert. Besuchen Sie unsere Projektseite für Videoergebnisse unter https://koi953215.github.io/NaRCan_page/.
Web-gecrawlte Bild-Text-Paare sind grundsätzlich rauschanfällig. Frühere Studien zeigen, dass eine semantische Ausrichtung und Anreicherung der textuellen Beschreibungen dieser Paare das Modelltraining bei verschiedenen Vision-Language-Aufgaben erheblich verbessern kann, insbesondere bei der Text-zu-Bild-Generierung. Allerdings sind groß angelegte Untersuchungen in diesem Bereich überwiegend Closed-Source. Unser Paper zielt darauf ab, diese Gemeinschaftsbemühung zu unterstützen, indem wir auf das leistungsstarke und Open-Source LLaMA-3 zurückgreifen, ein LLM auf GPT-4-Niveau. Unser Re-Captioning-Pipeline ist einfach: Zunächst feinjustieren wir ein LLaMA-3-8B-betriebenes LLaVA-1.5 und setzen es dann ein, um 1,3 Milliarden Bilder aus dem DataComp-1B-Datensatz neu zu beschriften. Unsere empirischen Ergebnisse bestätigen, dass dieser verbesserte Datensatz, Recap-DataComp-1B, erhebliche Vorteile beim Training fortschrittlicher Vision-Language-Modelle bietet. Für diskriminative Modelle wie CLIP beobachten wir eine verbesserte Zero-Shot-Performance bei Cross-Modal-Retrieval-Aufgaben. Für generative Modelle wie Text-zu-Bild-Diffusionstransformatoren zeigen die generierten Bilder eine signifikante Verbesserung in der Ausrichtung auf die Textanweisungen der Benutzer, insbesondere bei komplexen Abfragen. Unsere Projektseite ist https://www.haqtu.me/Recap-Datacomp-1B/
Die auf Bewegungen basierende steuerbare Text-zu-Video-Generierung beinhaltet Bewegungen zur Steuerung der Videoerzeugung. Frühere Methoden erfordern in der Regel das Training von Modellen zur Kodierung von Bewegungshinweisen oder das Feintuning von Videodiffusionsmodellen. Diese Ansätze führen jedoch häufig zu suboptimaler Bewegungserzeugung, wenn sie außerhalb des trainierten Bereichs angewendet werden. In dieser Arbeit schlagen wir MotionClone vor, ein trainingsfreies Framework, das die Bewegungsklonierung von einem Referenzvideo zur Steuerung der Text-zu-Video-Generierung ermöglicht. Wir verwenden zeitliche Aufmerksamkeit in der Videoinversion, um die Bewegungen im Referenzvideo darzustellen, und führen primäre zeitliche Aufmerksamkeitsführung ein, um den Einfluss von rauschhaften oder sehr subtilen Bewegungen innerhalb der Aufmerksamkeitsgewichte zu mildern. Darüber hinaus schlagen wir zur Unterstützung des Generierungsmodells bei der Synthese vernünftiger räumlicher Beziehungen und zur Verbesserung seiner prompten Folgefähigkeit einen ortsbezogenen semantischen Führungmechanismus vor, der den groben Standort des Vordergrunds aus dem Referenzvideo und originale klassifiziererfreie Führungseigenschaften nutzt, um die Videoerzeugung zu leiten. Umfangreiche Experimente zeigen, dass MotionClone sowohl bei globalen Kamerabewegungen als auch bei lokalen Objektbewegungen eine hohe Kompetenz aufweist, mit bemerkenswerter Überlegenheit in Bezug auf Bewegungstreue, textuelle Ausrichtung und zeitliche Konsistenz.
In den letzten Jahren hat es eine rasante Entwicklung bei 3D-Generierungsmodellen gegeben, die neue Möglichkeiten für Anwendungen wie die Simulation der dynamischen Bewegungen von 3D-Objekten und die Anpassung ihres Verhaltens eröffnen. Allerdings neigen aktuelle 3D-generative Modelle dazu, sich nur auf Oberflächenmerkmale wie Farbe und Form zu konzentrieren und vernachlässigen die inhärenten physikalischen Eigenschaften, die das Verhalten von Objekten in der realen Welt steuern. Um Physik-orientierte Dynamiken genau zu simulieren, ist es entscheidend, die physikalischen Eigenschaften von Materialien vorherzusagen und in den Verhaltensvorhersageprozess zu integrieren. Dennoch ist die Vorhersage der vielfältigen Materialien realer Objekte aufgrund der komplexen Natur ihrer physikalischen Attribute nach wie vor eine Herausforderung. In diesem Artikel schlagen wir Physics3D vor, eine neuartige Methode zum Erlernen verschiedener physikalischer Eigenschaften von 3D-Objekten durch ein Video-Diffusionsmodell. Unser Ansatz beinhaltet die Entwicklung eines hochgradig generalisierbaren physikalischen Simulationssystems auf Basis eines viskoelastischen Materialmodells, das es uns ermöglicht, eine Vielzahl von Materialien mit hoher Genauigkeit zu simulieren. Darüber hinaus destillieren wir die physikalischen Voraussetzungen aus einem Video-Diffusionsmodell, das ein tieferes Verständnis realistischer Objektmaterialeigenschaften bietet. Umfangreiche Experimente zeigen die Wirksamkeit unserer Methode sowohl bei elastischen als auch bei plastischen Materialien. Physics3D zeigt ein großes Potenzial, um die Kluft zwischen der physischen Welt und dem virtuellen neuronalen Raum zu überbrücken und eine bessere Integration und Anwendung realistischer physikalischer Prinzipien in virtuellen Umgebungen zu ermöglichen. Projektseite: https://liuff19.github.io/Physics3D.
Dieses Papier stellt PowerInfer-2 vor, ein Framework, das für die schnelle Inferenz von Large Language Models (LLMs) auf Smartphones entwickelt wurde und besonders effektiv für Modelle ist, deren Größe die Speicherkapazität des Geräts übersteigt. Der Schlüsselgedanke von PowerInfer-2 besteht darin, die heterogenen Rechen-, Speicher- und I/O-Ressourcen in Smartphones zu nutzen, indem traditionelle Matrixberechnungen in feinkörnige Neuronencluster-Berechnungen zerlegt werden. Speziell verfügt PowerInfer-2 über einen polymorphen Neuronen-Engine, der sich an verschiedene Phasen der LLM-Inferenz anpasst. Darüber hinaus führt es segmentiertes Neuronen-Caching und feinkörniges Neuronencluster-Level-Pipelining ein, um die durch I/O-Operationen verursachten Overheads effektiv zu minimieren und zu verbergen. Die Implementierung und Evaluation von PowerInfer-2 zeigen seine Fähigkeit, eine Vielzahl von LLM-Modellen auf zwei Smartphones zu unterstützen und dabei eine bis zu 29,2-fache Geschwindigkeitssteigerung im Vergleich zu State-of-the-Art-Frameworks zu erreichen. Beachtenswert ist, dass PowerInfer-2 das erste System ist, das das TurboSparse-Mixtral-47B-Modell mit einer Generierungsrate von 11,68 Tokens pro Sekunde auf einem Smartphone bedienen kann. Für Modelle, die vollständig in den Speicher passen, kann PowerInfer-2 eine Speichernutzung von etwa 40% reduzieren, während die Inferenzgeschwindigkeiten vergleichbar mit llama.cpp und MLC-LLM bleiben. Für weitere Details, einschließlich eines Demonstrationsvideos, besuchen Sie bitte die Projektseite unter www.powerinfer.ai/v2.
Vielleicht nicht. Wir identifizieren und analysieren Fehler im beliebten Massive Multitask Language Understanding (MMLU) Benchmark. Obwohl MMLU weit verbreitet ist, zeigt unsere Analyse zahlreiche Fehler in den Ground-Truth-Daten auf, die die tatsächlichen Fähigkeiten von LLMs verschleiern. Zum Beispiel haben wir festgestellt, dass 57% der analysierten Fragen im Virologie-Teil Fehler enthalten. Um dieses Problem anzugehen, stellen wir ein umfassendes Framework zur Identifizierung von Datensatzfehlern unter Verwendung einer neuartigen Fehler-Taxonomie vor. Anschließend erstellen wir MMLU-Redux, das eine Teilmenge von 3.000 manuell neu annotierten Fragen über 30 MMLU-Themen umfasst. Unter Verwendung von MMLU-Redux zeigen wir signifikante Diskrepanzen bei den Modellleistungsmetriken auf, die ursprünglich berichtet wurden. Unsere Ergebnisse sprechen sich nachdrücklich dafür aus, fehlerhafte Fragen in MMLU zu überarbeiten, um deren zukünftige Nützlichkeit und Zuverlässigkeit als Benchmark zu verbessern. Daher stellen wir MMLU-Redux für zusätzliche Annotationen zur Verfügung unter https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux.
In diesem Paper präsentieren wir VideoLLaMA 2, eine Reihe von Video Large Language Models (Video-LLMs), die entwickelt wurden, um die räumlich-zeitliche Modellierung und Audioverständnis bei Video- und Audio-orientierten Aufgaben zu verbessern. Aufbauend auf seinem Vorgänger integriert VideoLLaMA 2 einen maßgeschneiderten Spatial-Temporal Convolution (STC) Connector, der die komplexen räumlichen und zeitlichen Dynamiken von Videodaten effektiv erfasst. Darüber hinaus integrieren wir einen Audio Branch in das Modell durch gemeinsames Training, wodurch die multimodalen Verständnisfähigkeiten des Modells durch nahtlose Integration von Audiohinweisen bereichert werden. Umfassende Evaluationen in Multiple-Choice Video Question Answering (MC-VQA), Open-Ended Video Question Answering (OE-VQA) und Video Captioning (VC) Aufgaben zeigen, dass VideoLLaMA 2 durchweg wettbewerbsfähige Ergebnisse im Vergleich zu Open-Source-Modellen erzielt und sogar einigen proprietären Modellen auf mehreren Benchmarks nahe kommt. Darüber hinaus zeigt VideoLLaMA 2 vernünftige Verbesserungen in Audio-only und Audio-Video Question-Answering (AQA & OE-AVQA) Benchmarks im Vergleich zu bestehenden Modellen. Diese Fortschritte unterstreichen die überlegene Leistung von VideoLLaMA 2 in multimodalem Verständnis und setzen einen neuen Standard für intelligente Videosysteme. Alle Modelle sind öffentlich zugänglich, um weitere Forschung zu erleichtern.
Die Integration von Sprache und 3D-Wahrnehmung ist entscheidend für die Entwicklung von verkörperten Agenten und Robotern, die die physische Welt verstehen und mit ihr interagieren. Während große Sprachmodelle (LLMs) beeindruckende Fähigkeiten in der Sprachverarbeitung und -erzeugung gezeigt haben, befindet sich ihre Anpassung an 3D-Umgebungen (3D-LLMs) noch in den Anfängen. Eine Hauptherausforderung besteht in dem Fehlen von groß angelegten Datensätzen, die eine dichte Verknüpfung zwischen Sprache und 3D-Szenen bieten. In diesem Paper stellen wir 3D-GRAND vor, einen wegweisenden groß angelegten Datensatz, der 40.087 Haushaltsszenen mit 6,2 Millionen dicht verknüpften Szenen-Sprachanweisungen umfasst. Unsere Ergebnisse zeigen, dass die Feinabstimmung von Anweisungen mit 3D-GRAND die Verankerungsfähigkeiten signifikant verbessert und Halluzinationen in 3D-LLMs reduziert. Als Teil unserer Beiträge schlagen wir einen umfassenden Benchmark 3D-POPE vor, um Halluzinationen in 3D-LLMs systematisch zu bewerten und faire Vergleiche zwischen zukünftigen Modellen zu ermöglichen. Unsere Experimente verdeutlichen einen Skalierungseffekt zwischen Datensatzgröße und Leistung von 3D-LLMs und betonen die entscheidende Rolle von groß angelegten 3D-Textdatensätzen bei der Weiterentwicklung der verkörperten KI-Forschung. Bemerkenswerterweise zeigen unsere Ergebnisse erste Anzeichen für eine effektive Simulation-zu-Realität-Übertragung, was darauf hindeutet, dass Modelle, die auf großen synthetischen Daten trainiert wurden, auch in der Lage sind, gut auf realen 3D-Scans zu performen. Durch 3D-GRAND und 3D-POPE möchten wir die verkörperte KI-Community mit essentiellen Ressourcen und Erkenntnissen ausstatten und den Weg für zuverlässigere und besser verankerte 3D-LLMs ebnen. Projekthomepage: https://3d-grand.github.io
Multimodale Sprachsprachmodelle (MLLMs) zeigen die aufkommenden Fähigkeiten von "Weltmodellen" - der Interpretation und dem Denken über komplexe realweltliche Dynamiken. Zur Bewertung dieser Fähigkeiten postulieren wir, dass Videos das ideale Medium sind, da sie reichhaltige Darstellungen von realweltlichen Dynamiken und Kausalitäten verkörpern. Zu diesem Zweck stellen wir MMWorld vor, einen neuen Maßstab für multidisziplinäres, vielschichtiges multimodales Videoverständnis. MMWorld unterscheidet sich von früheren Videoverständnis-Maßstäben durch zwei einzigartige Vorteile: (1) multidisziplinär, umfasst verschiedene Disziplinen, die oft Fachkenntnisse für umfassendes Verständnis erfordern; (2) vielschichtiges Denken, einschließlich Erklärung, kontrafaktisches Denken, zukünftige Vorhersage usw. MMWorld besteht aus einem menschlich annotierten Datensatz zur Bewertung von MLLMs mit Fragen zu den gesamten Videos und einem synthetischen Datensatz zur Analyse von MLLMs innerhalb einer einzigen Modalität der Wahrnehmung. Insgesamt umfasst MMWorld 1.910 Videos aus sieben breiten Disziplinen und 69 Unterdisziplinen, komplett mit 6.627 Frage-Antwort-Paaren und zugehörigen Untertiteln. Die Bewertung umfasst 2 proprietäre und 10 Open-Source MLLMs, die auf MMWorld Schwierigkeiten haben (z. B. GPT-4V erzielt die beste Leistung mit nur 52,3\% Genauigkeit), was einen großen Verbesserungsspielraum zeigt. Weitere Ablationsstudien zeigen weitere interessante Ergebnisse wie unterschiedliche Fähigkeiten der Modelle im Vergleich zu Menschen. Wir hoffen, dass MMWorld als ein wesentlicher Schritt zur Bewertung von Weltmodellen in Videos dienen kann.
Die Ausnutzung von Aktivitätssparsamkeit ist ein vielversprechender Ansatz, um den Inferenzprozess großer Sprachmodelle (LLMs) signifikant zu beschleunigen, ohne die Leistung zu beeinträchtigen. Die Aktivitätssparsamkeit wird jedoch durch Aktivierungsfunktionen bestimmt, und häufig verwendete wie SwiGLU und GeGLU zeigen nur begrenzte Sparsamkeit. Ein einfacher Austausch dieser Funktionen durch ReLU führt nicht zu ausreichender Sparsamkeit. Darüber hinaus kann unzureichende Trainingsdaten das Risiko einer Leistungsverschlechterung weiter erhöhen. Um diese Herausforderungen anzugehen, schlagen wir eine neuartige dReLU-Funktion vor, die entwickelt wurde, um die Aktivitätssparsamkeit von LLMs zu verbessern, zusammen mit einem hochwertigen Trainingsdatenmischungsverhältnis, um eine effektive Sparsamkeit zu erleichtern. Darüber hinaus nutzen wir die sparsamen Aktivierungsmuster innerhalb der Feed-Forward Network (FFN)-Experten von Mixture-of-Experts (MoE)-Modellen, um die Effizienz weiter zu steigern. Durch die Anwendung unserer Neuronensparsamkeitsmethode auf die Mistral- und Mixtral-Modelle werden nur 2,5 Milliarden bzw. 4,3 Milliarden Parameter pro Inferenziteration aktiviert, während eine noch leistungsstärkere Modellleistung erreicht wird. Evaluierungsergebnisse zeigen, dass diese Sparsamkeit eine 2-5-fache Dekodierungsgeschwindigkeitssteigerung erreicht. Bemerkenswert ist, dass unser TurboSparse-Mixtral-47B auf Mobiltelefonen eine Inferenzgeschwindigkeit von 11 Token pro Sekunde erreicht. Unsere Modelle sind unter https://huggingface.co/PowerInfer verfügbar.
In letzter Zeit hat die Anwendung moderner auf Diffusion basierender Text-zu-Bild-Generierungsmodelle zur Erstellung künstlerischer Schriftarten, die traditionell das Fachgebiet professioneller Designer sind, erhebliches Interesse geweckt. Abweichend von der Mehrheit der bestehenden Studien, die sich auf die Generierung künstlerischer Typografie konzentrieren, zielt unsere Forschung darauf ab, eine neuartige und anspruchsvollere Herausforderung anzugehen: die Generierung von Texteffekten für mehrsprachige Schriftarten. Diese Aufgabe erfordert im Wesentlichen die Erzeugung kohärenter und konsistenter visueller Inhalte innerhalb der Grenzen einer schriftförmigen Leinwand, im Gegensatz zu einer traditionellen rechteckigen Leinwand. Um diese Aufgabe anzugehen, stellen wir ein neuartiges formadaptives Diffusionsmodell vor, das in der Lage ist, die gegebene Form zu interpretieren und strategisch Pixelverteilungen innerhalb der unregelmäßigen Leinwand zu planen. Um dies zu erreichen, kuratieren wir einen hochwertigen formadaptiven Bild-Text-Datensatz und integrieren die Segmentierungsmaske als visuelle Bedingung, um den Bildgenerierungsprozess innerhalb der unregelmäßigen Leinwand zu lenken. Dieser Ansatz ermöglicht es dem traditionell auf rechteckiger Leinwand basierenden Diffusionsmodell, die gewünschten Konzepte entsprechend den bereitgestellten geometrischen Formen zu erzeugen. Zweitens präsentieren wir auch eine trainingsfreie, formadaptive Effektübertragungsmethode, um die Konsistenz über mehrere Buchstaben hinweg aufrechtzuerhalten, indem Texturen von einem generierten Referenzbuchstaben auf andere übertragen werden. Die Schlüsselerkenntnisse bestehen darin, ein Schriftart-Effekt-Rauschen vorab zu erstellen und die Schriftart-Effektinformationen in einem konkatenierten latenten Raum zu propagieren. Die Wirksamkeit unseres FontStudio-Systems wird durch Benutzerpräferenzstudien bestätigt, die eine deutliche Präferenz (78% Gewinnrate in Ästhetik) für unser System zeigen, selbst im Vergleich zum neuesten unübertroffenen kommerziellen Produkt, Adobe Firefly.
In jüngster Zeit haben Diffusionstransformatoren (DiTs) beeindruckende Fähigkeiten bei der Erzeugung hochwertiger Inhalte in einer Modalität gezeigt, einschließlich Bilder, Videos und Audio. Es ist jedoch noch unerforscht, ob der auf Transformatoren basierende Diffusor effizient Rauschen entfernen kann, um eine hervorragende multimodale Inhalterzeugung zu ermöglichen. Um diese Lücke zu schließen, stellen wir AV-DiT vor, einen neuartigen und effizienten audiovisuellen Diffusionstransformator, der darauf ausgelegt ist, hochwertige, realistische Videos mit sowohl visuellen als auch auditiven Spuren zu erzeugen. Um die Modellkomplexität und die Rechenkosten zu minimieren, nutzt AV-DiT eine gemeinsame DiT-Grundstruktur, die auf ausschließlich Bildern vortrainiert ist, wobei nur leichte, neu eingefügte Adapter trainierbar sind. Diese gemeinsame Grundstruktur ermöglicht sowohl die Audio- als auch die Videoerzeugung. Speziell integriert der Videozweig eine trainierbare zeitliche Aufmerksamkeitsschicht in einen eingefrorenen vortrainierten DiT-Block für zeitliche Konsistenz. Darüber hinaus passen eine kleine Anzahl trainierbarer Parameter den bildbasierten DiT-Block für die Audioerzeugung an. Ein zusätzlicher gemeinsamer DiT-Block, ausgestattet mit leichten Parametern, erleichtert die Merkmalsinteraktion zwischen Audio- und visuellen Modalitäten, um die Ausrichtung sicherzustellen. Umfangreiche Experimente mit den Datensätzen AIST++ und Landscape zeigen, dass AV-DiT eine Spitzenleistung bei der gemeinsamen Audio-Vis-Erzeugung mit signifikant weniger anpassbaren Parametern erreicht. Darüber hinaus verdeutlichen unsere Ergebnisse, dass eine einzige gemeinsame bildgenerierende Grundstruktur mit modalitätsspezifischen Anpassungen ausreicht, um einen gemeinsamen Audio-Video-Generator zu erstellen. Unser Quellcode und vortrainierte Modelle werden veröffentlicht.
Die Offline-Präferenzoptimierung ist eine Schlüsselmethode zur Verbesserung und Steuerung der Qualität von Large Language Model (LLM)-Ausgaben. Typischerweise wird die Präferenzoptimierung als eine offline überwachte Lernaufgabe unter Verwendung manuell erstellter konvexer Verlustfunktionen angegangen. Obwohl diese Methoden auf theoretischen Erkenntnissen beruhen, sind sie inhärent durch menschliche Kreativität eingeschränkt, wodurch der große Suchraum möglicher Verlustfunktionen unterexploriert bleibt. Diesem Problem begegnen wir, indem wir eine LLM-gesteuerte Zielentdeckung durchführen, um automatisch neue erstklassige Präferenzoptimierungsalgorithmen ohne (ExpertInnen-)Menscheneingriff zu entdecken. Konkret fordern wir iterativ eine LLM auf, neue Präferenzoptimierungsverlustfunktionen vorzuschlagen und umzusetzen, basierend auf zuvor evaluierten Leistungsmetriken. Dieser Prozess führt zur Entdeckung zuvor unbekannter und leistungsstarker Präferenzoptimierungsalgorithmen. Der leistungsstärkste davon wird als Entdeckte Präferenzoptimierung (DiscoPOP) bezeichnet, ein neuartiger Algorithmus, der logistische und exponentielle Verluste adaptiv kombiniert. Experimente zeigen die erstklassige Leistung von DiscoPOP und dessen erfolgreiche Übertragung auf zurückgehaltene Aufgaben.
Diffusionsmodelle haben eine bemerkenswerte Leistung bei der Bild- und Videosynthese gezeigt. Das Skalieren auf hochauflösende Eingaben ist jedoch eine Herausforderung und erfordert die Umstrukturierung des Diffusions-Pipelines in mehrere unabhängige Komponenten, was die Skalierbarkeit einschränkt und die nachgelagerten Anwendungen kompliziert. Dies macht es sehr effizient während des Trainings und ermöglicht eine End-to-End-Optimierung von hochauflösenden Videos. Wir verbessern PDMs auf zwei prinzipielle Arten. Erstens entwickeln wir zur Durchsetzung der Konsistenz zwischen Patches die Deep Context Fusion - eine architektonische Technik, die die Kontextinformationen von niedrigskaligen zu hochskaligen Patches hierarchisch propagiert. Zweitens schlagen wir zur Beschleunigung des Trainings und der Inferenz die adaptive Berechnung vor, die mehr Netzwerkkapazität und Berechnung für grobe Bilddetails zuweist. Das resultierende Modell erreicht einen neuen State-of-the-Art FVD-Score von 66,32 und einen Inception-Score von 87,68 bei der klassenbedingten Videogenerierung auf UCF-101 256^2 und übertrifft damit aktuelle Methoden um mehr als 100%. Anschließend zeigen wir, dass es schnell von einem Basis-36-mal-64-Niedrigauflösungs-Generator für die Hochauflösungs-64-mal-288-mal-512-Text-zu-Video-Synthese feinabgestimmt werden kann. Unseres Wissens nach ist unser Modell die erste auf Diffusion basierende Architektur, die vollständig end-to-end auf solch hohen Auflösungen trainiert wird. Projektwebseite: https://snap-research.github.io/hpdm.
Eine klare Sicht mit hoher Auflösung ist ein Grundpfeiler großer multimodaler Modelle (LMMs), die sich als entscheidend für die visuelle Wahrnehmung und das Schlussfolgern erwiesen haben. In bestehenden Arbeiten wird in der Regel eine einfache Methode zur Auflösungsskalierung verwendet, bei der das Bild aus globalen und lokalen Zweigen besteht, wobei letztere aus den geschnittenen Bildausschnitten bestehen, die jedoch auf dieselbe Auflösung wie die ersteren skaliert werden. Dies bedeutet, dass eine höhere Auflösung mehr lokale Ausschnitte erfordert, was zu exorbitanten Rechenaufwänden führt, während gleichzeitig die Dominanz lokaler Bildtoken den globalen Kontext verringern kann. In diesem Papier gehen wir auf die Probleme ein und schlagen ein neues Framework sowie eine ausgearbeitete Optimierungsstrategie vor. Speziell extrahieren wir kontextbezogene Informationen aus der globalen Ansicht mithilfe einer Mischung von Adaptern, basierend auf der Beobachtung, dass verschiedene Adapter in verschiedenen Aufgaben herausragend sind. In Bezug auf lokale Ausschnitte werden erlernbare Abfrageeinbettungen eingeführt, um Bildtoken zu reduzieren, wobei die wichtigsten Token, die für die Benutzerfrage relevant sind, durch einen ähnlichkeitsbasierten Selektor weiter ausgewählt werden. Unsere empirischen Ergebnisse zeigen ein Muster von 'weniger ist mehr', bei dem die Verwendung weniger, aber informativerer lokaler Bildtoken zu einer verbesserten Leistung führt. Darüber hinaus liegt eine bedeutende Herausforderung in der Trainingsstrategie, da ein simultanes End-to-End-Training des globalen Mining-Blocks und des lokalen Kompressionsblocks keine optimalen Ergebnisse liefert. Daher befürworten wir einen alternierenden Schulungsweg, der ein ausgewogenes Lernen zwischen globalen und lokalen Aspekten gewährleistet. Schließlich stellen wir auch einen anspruchsvollen Datensatz mit hohen Anforderungen an das Bilddetail vor, um das Training der lokalen Kompressionsschicht zu verbessern. Die vorgeschlagene Methode, genannt LMM mit anspruchsvollen Aufgaben, lokaler Bildkompression und Mischung globaler Experten (SliME), erzielt führende Leistungen in verschiedenen Benchmarks mit nur 2 Millionen Trainingsdaten.
Wir stellen Visual Caption Restoration (VCR) vor, eine neuartige Vision-Sprache-Aufgabe, die Modelle herausfordert, teilweise verdeckte Texte genau mithilfe von Pixelhinweisen innerhalb von Bildern wiederherzustellen. Diese Aufgabe basiert auf der Beobachtung, dass in Bildern eingebetteter Text intrinsisch anders ist als übliche visuelle Elemente und natürliche Sprache aufgrund der Notwendigkeit, die Modalitäten von Vision, Text und in Bildern eingebettetem Text auszurichten. Während zahlreiche Arbeiten Texte in Bildern in visuelle Frage-Antwort-Aufgaben integriert haben, stützen sich Ansätze für diese Aufgaben im Allgemeinen auf optische Zeichenerkennung oder maskiertes Sprachmodellieren, wodurch die Aufgabe hauptsächlich auf textbasierte Verarbeitung reduziert wird. Textbasierte Verarbeitung wird jedoch in VCR ineffektiv, da eine genaue Textwiederherstellung von kombinierten Informationen aus bereitgestellten Bildern, Kontext und subtilen Hinweisen aus den winzigen freigelegten Bereichen maskierter Texte abhängt. Wir entwickeln eine Pipeline zur Erzeugung synthetischer Bilder für die VCR-Aufgabe unter Verwendung von Bildunterschriftspaaren, wobei die Sichtbarkeit der Untertitel angepasst werden kann, um die Schwierigkeit der Aufgabe zu steuern. Mit dieser Pipeline erstellen wir einen Datensatz für VCR namens VCR-Wiki, der Bilder mit Untertiteln aus Wikipedia umfasst und 2,11 Mio. englische und 346.000 chinesische Entitäten in beiden einfachen und schwierigen Varianten enthält. Unsere Ergebnisse zeigen, dass aktuelle Vision-Sprache-Modelle in der VCR-Aufgabe signifikant hinter der menschlichen Leistung zurückbleiben und das reine Feintuning der Modelle auf unserem Datensatz nicht zu bemerkenswerten Verbesserungen führt. Wir veröffentlichen VCR-Wiki und den Datenerstellungsscode, um zukünftige Forschung zu erleichtern.
Die Modellierung multivariater Zeitreihen ist ein etabliertes Problem mit einer breiten Anwendungspalette von der Gesundheitsversorgung bis zu Finanzmärkten. Traditionelle Zustandsraummodelle (SSMs) sind klassische Ansätze zur Modellierung univariater Zeitreihen aufgrund ihrer Einfachheit und Ausdruckskraft, um lineare Abhängigkeiten darzustellen. Sie haben jedoch grundsätzlich begrenzte Ausdruckskraft, um nichtlineare Abhängigkeiten zu erfassen, sind in der Praxis langsam und versagen dabei, die intervariablen Informationsflüsse zu modellieren. Trotz jüngster Versuche, die Ausdruckskraft von SSMs durch den Einsatz von tiefen strukturierten SSMs zu verbessern, sind die bestehenden Methoden entweder auf univariate Zeitreihen beschränkt, versagen darin, komplexe Muster (z. B. saisonale Muster) zu modellieren, versagen darin, die Abhängigkeiten von Variablen und Zeitdimensionen dynamisch zu modellieren und/oder sind eingabeunabhängig. Wir stellen Chimera vor, das zwei eingabeabhängige 2-D SSM-Köpfe mit unterschiedlichen Diskretisierungsprozessen verwendet, um langfristige Fortschritte und saisonale Muster zu erlernen. Zur Verbesserung der Effizienz komplexer 2D-Rückfälle präsentieren wir ein schnelles Training unter Verwendung eines neuen zweidimensionalen parallelen selektiven Scans. Darüber hinaus stellen wir 2-dimensionale Mamba und Mamba-2 als spezielle Fälle unseres 2D SSM vor und diskutieren sie. Unsere experimentelle Bewertung zeigt die überlegene Leistung von Chimera bei umfangreichen und vielfältigen Benchmarks, einschließlich EKG- und Sprachzeitreihenklassifikation, langfristiger und kurzfristiger Zeitreihenprognosen sowie der Erkennung von Anomalien in Zeitreihen.
Große Sprachmodelle (LLMs) haben sich weiterentwickelt, um umfangreiches Wissen in verschiedenen Bereichen zu umfassen. Die Kontrolle darüber, was ein großes Sprachmodell nicht wissen sollte, ist jedoch wichtig, um Ausrichtung und somit sichere Nutzung zu gewährleisten. Die präzise und effiziente Entfernung von Wissen aus einem LLM bleibt jedoch aufgrund der potenziellen Kollateralschäden, die durch die unscharfe Grenze zwischen Beibehalten und Vergessen verursacht werden, sowie der hohen Rechenanforderungen für die Optimierung von Spitzenmodellen mit Hunderten von Milliarden Parametern eine Herausforderung. In dieser Arbeit stellen wir Embedding-Corrupted (ECO) Prompts vor, ein leichtgewichtiges Entfernungsframework für große Sprachmodelle, um sowohl den Herausforderungen der Wissensverflechtung als auch der Effizienz des Entfernens zu begegnen. Anstatt sich auf das LLM selbst zu verlassen, um zu vergessen, erzwingen wir einen vergessenen Zustand während der Inferenz, indem wir einen Prompt-Klassifizierer einsetzen, um Prompts zu identifizieren und zu schützen, die vergessen werden sollen. Wir lernen Korruptionen, die den Prompt-Embeddings hinzugefügt werden, offline über Nullter-Ordnung-Optimierung in Richtung des Entfernungsziels und korrupte Prompts, die während der Inferenz vom Klassifizierer markiert werden. Wir stellen fest, dass diese embedding-korrupten Prompts nicht nur zu wünschenswerten Ausgaben führen, die das Entfernungsziel erfüllen, sondern auch die Ausgabe eines Modells eng approximieren, das nie mit den Daten trainiert wurde, die vergessen werden sollen. Durch umfangreiche Experimente zum Entfernen zeigen wir die Überlegenheit unserer Methode bei der Erzielung vielversprechender Entfernungen mit nahezu keinen Nebenwirkungen in allgemeinen Bereichen und Bereichen, die eng mit den zu vergessenden Bereichen verbunden sind. Darüber hinaus heben wir die Skalierbarkeit unserer Methode auf 100 LLMs hervor, die von 0,5B bis 236B Parametern reichen, ohne zusätzliche Kosten zu verursachen, wenn die Anzahl der Parameter zunimmt.
Die Pathologie, die mikroskopische Untersuchung von erkranktem Gewebe, ist entscheidend für die Diagnose verschiedener medizinischer Zustände, insbesondere von Krebserkrankungen. Traditionelle Methoden sind arbeitsintensiv und anfällig für menschliche Fehler. Die digitale Pathologie, die Glaspräparate in hochauflösende digitale Bilder umwandelt, die von Computer-Algorithmen analysiert werden, revolutioniert das Feld, indem sie die diagnostische Genauigkeit, Konsistenz und Effizienz durch automatisierte Bildanalyse und die Verarbeitung großer Datenmengen verbessert. Die grundlegende Vorverarbeitung von Transformern ist entscheidend für die Entwicklung robuster, generalisierbarer Modelle, da sie das Lernen aus großen Mengen nicht annotierter Daten ermöglicht. Dieses Papier stellt die Hibou-Familie von grundlegenden Vision-Transformern für die Pathologie vor, die das DINOv2-Framework nutzen, um zwei Modellvarianten, Hibou-B und Hibou-L, auf einem proprietären Datensatz von über 1 Million ganzen Bildern von Gewebeschnitten zu trainieren, die verschiedene Gewebetypen und Färbetechniken repräsentieren. Unsere vortrainierten Modelle zeigen eine überlegene Leistung sowohl auf Patch-Ebene als auch auf Slide-Ebene und übertreffen bestehende State-of-the-Art-Methoden. Insbesondere erzielt Hibou-L die höchste durchschnittliche Genauigkeit über mehrere Benchmark-Datensätze. Um weitere Forschung und Anwendungen auf diesem Gebiet zu unterstützen, haben wir das Hibou-B-Modell als Open-Source veröffentlicht, das unter folgendem Link abgerufen werden kann: https://github.com/HistAI/hibou
Maskierte (oder absorbierende) Diffusion wird aktiv als Alternative zu autoregressiven Modellen für die generative Modellierung diskreter Daten erforscht. Bisher wurde die Arbeit in diesem Bereich jedoch durch unnötig komplexe Modellformulierungen und unklare Beziehungen zwischen verschiedenen Perspektiven behindert, was zu suboptimaler Parametrisierung, Trainingszielen und ad hoc-Anpassungen zur Gegenwirkung dieser Probleme führt. In dieser Arbeit zielen wir darauf ab, ein einfaches und allgemeines Rahmenwerk bereitzustellen, das das volle Potenzial von maskierten Diffusionsmodellen freisetzt. Wir zeigen, dass das kontinuierliche Variationsziel maskierter Diffusionsmodelle eine einfache gewichtete Integration von Cross-Entropy-Verlusten ist. Unser Rahmenwerk ermöglicht auch das Training von generalisierten maskierten Diffusionsmodellen mit zustandsabhängigen Maskierungsplänen. Bei der Bewertung nach Perplexität übertreffen unsere Modelle, die auf OpenWebText trainiert wurden, frühere Diffusions-Sprachmodelle im GPT-2-Maßstab und zeigen eine überlegene Leistung bei 4 von 5 Zero-Shot-Sprachmodellierungsaufgaben. Darüber hinaus übertreffen unsere Modelle deutlich frühere diskrete Diffusionsmodelle bei der Modellierung von Bilddaten auf Pixel-Ebene und erreichen 2,78 (CIFAR-10) bzw. 3,42 (ImageNet 64x64) Bits pro Dimension, die vergleichbar oder besser sind als autoregressive Modelle ähnlicher Größe.