Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das Vortrainieren großer Sprachmodelle (LLMs) auf umfangreichen Textdatensätzen ist mittlerweile ein Standardparadigma. Wenn diese LLMs für zahlreiche nachgelagerte Anwendungen verwendet werden, ist es üblich, zusätzlich neues Wissen (z. B. zeitkritische Nachrichten oder privates Domänenwissen) in das vortrainierte Modell einzubinden, entweder durch RAG-basiertes Prompting oder Feinabstimmung. Die optimale Methodik für das Modell, um ein solches neues Wissen zu erlangen, bleibt jedoch eine offene Frage. In diesem Paper präsentieren wir Retrieval Augmented FineTuning (RAFT), ein Schulungsrezept, das die Fähigkeit des Modells verbessert, Fragen in einem "offenen Buch" in-domänen Umfeld zu beantworten. Bei RAFT trainieren wir das Modell, bei einer Frage und einer Reihe von abgerufenen Dokumenten, diejenigen Dokumente zu ignorieren, die nicht bei der Beantwortung der Frage helfen, die wir als Ablenkungsdokumente bezeichnen. RAFT erreicht dies, indem es wortwörtlich die richtige Sequenz aus dem relevanten Dokument zitiert, die bei der Beantwortung der Frage helfen würde. Dies zusammen mit der kettenartigen Antwort im Stil des Denkens von RAFT hilft, die Fähigkeit des Modells zu verbessern, zu argumentieren. In domänenspezifischen RAG verbessert RAFT konsistent die Leistung des Modells über die PubMed-, HotpotQA- und Gorilla-Datensätze hinweg und präsentiert ein Nachtrainingsrezept zur Verbesserung vortrainierter LLMs für in-domäne RAG. Der Code und die Demo von RAFT sind unter github.com/ShishirPatil/gorilla als Open Source verfügbar.
In wissenschaftlicher Forschung und ihrer Anwendung ist die Analyse wissenschaftlicher Literatur entscheidend, da sie es Forschern ermöglicht, auf den Arbeiten anderer aufzubauen. Jedoch hat das schnelle Wachstum des wissenschaftlichen Wissens zu einem massiven Anstieg wissenschaftlicher Artikel geführt, was eine eingehende Literaturanalyse zunehmend herausfordernd und zeitaufwändig macht. Das Aufkommen großer Sprachmodelle (LLMs) hat einen neuen Ansatz geboten, um dieser Herausforderung zu begegnen. Bekannt für ihre starken Fähigkeiten zur Zusammenfassung von Texten, werden LLMs als potentielles Werkzeug zur Verbesserung der Analyse wissenschaftlicher Literatur angesehen. Allerdings haben bestehende LLMs ihre eigenen Grenzen. Wissenschaftliche Literatur umfasst oft eine Vielzahl multimodaler Elemente, wie molekulare Strukturen, Tabellen und Diagramme, die für textbasierte LLMs schwer zu verstehen und zu analysieren sind. Dieses Problem verdeutlicht den dringenden Bedarf an neuen Lösungen, die multimodale Inhalte in wissenschaftlicher Literatur vollständig verstehen und analysieren können. Um dieser Nachfrage gerecht zu werden, präsentieren wir Uni-SMART (Universal Science Multimodal Analysis and Research Transformer), ein innovatives Modell, das für ein tiefgreifendes Verständnis multimodaler wissenschaftlicher Literatur entwickelt wurde. Durch eine rigorose quantitative Evaluierung in mehreren Bereichen zeigt Uni-SMART eine überlegene Leistung im Vergleich zu führenden textbasierten LLMs. Darüber hinaus erstreckt sich unsere Erkundung auf praktische Anwendungen, einschließlich der Erkennung von Patentverletzungen und der nuancierten Analyse von Diagrammen. Diese Anwendungen heben nicht nur die Anpassungsfähigkeit von Uni-SMART hervor, sondern auch sein Potenzial, die Art und Weise zu revolutionieren, wie wir mit wissenschaftlicher Literatur interagieren.
Die Verarbeitung von Langvideos stellt eine bedeutende Herausforderung im Bereich der Computer Vision dar und erfordert ein Modell, das in der Lage ist, über lange multimodale Sequenzen zu argumentieren. Inspiriert vom menschlichen kognitiven Prozess für das Verständnis von Langvideos betonen wir interaktives Argumentieren und Planen über die Fähigkeit, umfangreiche visuelle Eingaben zu verarbeiten. Wir stellen ein neuartiges agentenbasiertes System, VideoAgent, vor, das ein großes Sprachmodell als zentralen Agenten einsetzt, um iterativ wichtige Informationen zur Beantwortung einer Frage zu identifizieren und zusammenzustellen, wobei Vision-Language-Grundlagenmodelle als Werkzeuge dienen, um visuelle Informationen zu übersetzen und abzurufen. Anhand der anspruchsvollen EgoSchema- und NExT-QA-Benchmarks erreicht VideoAgent eine Nullschussgenauigkeit von 54,1 % bzw. 71,3 %, wobei im Durchschnitt nur 8,4 bzw. 8,2 Frames verwendet werden. Diese Ergebnisse zeigen die überlegene Wirksamkeit und Effizienz unserer Methode im Vergleich zu den aktuellen State-of-the-Art-Methoden auf und heben das Potenzial agentenbasierter Ansätze zur Weiterentwicklung des Verständnisses von Langvideos hervor.
Die Ausrichtung großer Sprachmodelle wird in der Regel von Modellanbietern durchgeführt, um Verhaltensweisen hinzuzufügen oder zu kontrollieren, die in verschiedenen Anwendungsfällen und Kontexten verbreitet oder allgemein verständlich sind. Im Gegensatz dazu präsentieren wir in diesem Artikel einen Ansatz und eine Architektur, die es Anwendungsentwicklern ermöglichen, ein Modell an ihre spezifischen Werte, sozialen Normen, Gesetze und andere Vorschriften anzupassen und zwischen potenziell widersprüchlichen Anforderungen im Kontext zu orchestrieren. Wir stellen drei Hauptkomponenten einer solchen Alignment-Studio-Architektur vor: Rahmensetzer, Instruktoren und Prüfer, die zusammenarbeiten, um das Verhalten eines Sprachmodells zu steuern. Wir veranschaulichen diesen Ansatz anhand eines laufenden Beispiels zur Ausrichtung eines unternehmensinternen Chatbots an die Verhaltensrichtlinien des Unternehmens.
In diesem Paper stellen wir einen verbesserten Ansatz des spekulativen Decodings vor, der darauf abzielt, die Effizienz bei der Bedienung großer Sprachmodelle zu steigern. Unsere Methode nutzt die Stärken zweier etablierter Techniken: des klassischen spekulativen Decoding-Ansatzes mit zwei Modellen und des neueren Ansatzes mit einem Modell, Medusa. Inspiriert von Medusa übernimmt unser Ansatz eine Ein-Modell-Strategie für spekulatives Decoding. Allerdings zeichnet sich unsere Methode durch die Verwendung eines einzigen, leichten Entwurfskopfes mit einem rekurrenten Abhängigkeitsdesign aus, das im Wesentlichen dem kleinen Entwurfsmodell ähnelt, das bei klassischem spekulativem Decoding verwendet wird, jedoch ohne die Komplexitäten der vollen Transformer-Architektur. Und aufgrund der rekurrenten Abhängigkeit können wir mit dem Entwurfskopf die unerwünschten Kandidaten schnell durch Beam Search filtern. Das Ergebnis ist eine Methode, die die Einfachheit des Ein-Modell-Designs kombiniert und es vermeidet, eine datenabhängige Baum-Aufmerksamkeitsstruktur nur für die Inferenz in Medusa zu erstellen. Wir zeigen empirisch die Wirksamkeit der vorgeschlagenen Methode an mehreren beliebten Open-Source-Sprachmodellen, zusammen mit einer umfassenden Analyse der Abwägungen, die bei der Übernahme dieses Ansatzes eine Rolle spielen.
Diffusionsbasierte Modelle zur Audio- und Musikgenerierung erzeugen häufig Musik, indem sie eine Bildrepräsentation des Audios konstruieren (z. B. ein Mel-Spektrogramm) und es dann mithilfe eines Phasenrekonstruktionsmodells oder Vokoders in Audio umwandeln. Typische Vokoder erzeugen jedoch monophone Audiosignale mit niedrigeren Auflösungen (z. B. 16-24 kHz), was ihre Effektivität einschränkt. Wir schlagen MusicHiFi vor - einen effizienten hochwertigen stereophonen Vokoder. Unsere Methode verwendet eine Kaskade von drei generativen gegnerischen Netzwerken (GANs), die niedrigauflösende Mel-Spektrogramme in Audio umwandeln, auf hochauflösendes Audio mittels Bandbreitenerweiterung hochskalieren und zu stereophonen Audiosignalen aufmischen. Im Vergleich zu früheren Arbeiten schlagen wir 1) eine vereinheitlichte GAN-basierte Generator- und Diskriminatorarchitektur sowie Schulungsverfahren für jeden Schritt unserer Kaskade vor, 2) ein neues schnelles, nahe am Downsampling-kompatibles Bandbreitenverlängerungsmodul und 3) einen neuen schnellen Downmix-kompatiblen Mono-zu-Stereo-Upmixer vor, der die Erhaltung des monophonen Inhalts in der Ausgabe sicherstellt. Wir bewerten unseren Ansatz anhand sowohl objektiver als auch subjektiver Hörtests und stellen fest, dass unser Ansatz vergleichbare oder bessere Audioqualität, bessere räumliche Kontrolle und signifikant schnellere Inferenzgeschwindigkeit im Vergleich zu früheren Arbeiten liefert. Klangbeispiele finden Sie unter https://MusicHiFi.github.io/web/.
Die Rekonstruktion detaillierter 3D-Objekte aus Einzelbildern bleibt aufgrund der begrenzten verfügbaren Informationen eine anspruchsvolle Aufgabe. In diesem Artikel stellen wir FDGaussian vor, ein neuartiges Zwei-Stufen-Framework für die 3D-Rekonstruktion aus Einzelbildern. Aktuelle Methoden nutzen in der Regel vortrainierte 2D-Diffusionsmodelle, um plausible neue Ansichten des Eingabebildes zu generieren, stoßen jedoch auf Probleme hinsichtlich Mehr-Ansicht-Inkonsistenz oder mangelnder geometrischer Treue. Um diese Herausforderungen zu überwinden, schlagen wir einen orthogonalen Ebenenzerlegungsmechanismus vor, um 3D-geometrische Merkmale aus der 2D-Eingabe zu extrahieren, was die Generierung konsistenter Mehr-Ansicht-Bilder ermöglicht. Darüber hinaus beschleunigen wir den state-of-the-art Gaussian Splatting, indem wir epipolare Aufmerksamkeit integrieren, um Bilder aus verschiedenen Blickwinkeln zu verschmelzen. Wir zeigen, dass FDGaussian Bilder mit hoher Konsistenz über verschiedene Ansichten generiert und qualitativ und quantitativ hochwertige 3D-Objekte rekonstruiert. Weitere Beispiele finden Sie auf unserer Website unter https://qjfeng.net/FDGaussian/.
Bisherige Bemühungen zur Entwicklung von leichten Modellen konzentrierten sich hauptsächlich auf CNN- und Transformer-basierte Designs, die jedoch auf anhaltende Herausforderungen stießen. CNNs, die sich auf die lokale Merkmalsextraktion verstehen, gehen auf Kosten der Auflösung, während Transformer eine globale Reichweite bieten, aber die Rechenanforderungen auf O(N^2) erhöhen. Dieser fortlaufende Kompromiss zwischen Genauigkeit und Effizienz bleibt ein bedeutendes Hindernis. In letzter Zeit haben Zustandsraummodelle (SSMs) wie Mamba eine herausragende Leistung und Wettbewerbsfähigkeit in verschiedenen Aufgaben wie der Sprachmodellierung und der Computer Vision gezeigt, wobei die Zeitkomplexität der globalen Informationsextraktion auf O(N) reduziert wird. Inspiriert davon schlägt diese Arbeit vor, das Potenzial von visuellen Zustandsraummodellen bei der Entwicklung von leichten Modellen zu erkunden und eine neuartige effiziente Modellvariante namens EfficientVMamba einzuführen. Konkret integriert unser EfficientVMamba einen auf Atrous basierenden selektiven Scan-Ansatz durch effizientes Überspringen von Proben, der aus Bausteinen besteht, die darauf ausgelegt sind, sowohl globale als auch lokale Repräsentationsmerkmale zu nutzen. Darüber hinaus untersuchen wir die Integration von SSM-Blöcken und Faltungen und führen einen effizienten visuellen Zustandsraumblock in Kombination mit einem zusätzlichen Faltungsast ein, der die Leistung des Modells weiter verbessert. Experimentelle Ergebnisse zeigen, dass EfficientVMamba die Rechenkomplexität reduziert und dabei wettbewerbsfähige Ergebnisse bei einer Vielzahl von Vision-Aufgaben liefert. Beispielsweise verbessert unser EfficientVMamba-S mit 1,3G FLOPs die Vim-Ti mit 1,5G FLOPs um einen großen Anteil von 5,6% Genauigkeit auf ImageNet. Der Code ist verfügbar unter: https://github.com/TerryPei/EfficientVMamba.
Angespornt durch die zunehmende Verfügbarkeit von vortrainierten 2D-Diffusionsmodellen, macht die Bild-zu-3D-Generierung unter Verwendung von Score Distillation Sampling (SDS) bemerkenswerte Fortschritte. Die meisten bestehenden Methoden kombinieren die Neuansicht-Transformation von 2D-Diffusionsmodellen, die in der Regel das Referenzbild als Bedingung verwenden, während sie eine harte L2-Bildüberwachung in der Referenzansicht anwenden. Doch eine starke Bindung an das Bild neigt dazu, das induktive Wissen des 2D-Diffusionsmodells zu verfälschen, was häufig zu flacher oder verzerrter 3D-Generierung führt. In dieser Arbeit überprüfen wir die Bild-zu-3D-Generierung aus einer neuen Perspektive und präsentieren Isotropic3D, eine Bild-zu-3D-Generierungspipeline, die nur ein Bild-CLIP-Embedding als Eingabe verwendet. Isotropic3D ermöglicht es, die Optimierung isotrop bezüglich des Azimutwinkels zu gestalten, indem es ausschließlich auf den SDS-Verlust setzt. Der Kern unseres Frameworks liegt in einem zweistufigen Feinabstimmungsprozess des Diffusionsmodells. Zunächst verfeinern wir ein Text-zu-3D-Diffusionsmodell, indem wir seinen Text-Encoder durch einen Bild-Encoder ersetzen, wodurch das Modell vorläufig Bild-zu-Bild-Fähigkeiten erwirbt. Anschließend führen wir eine Feinabstimmung unter Verwendung unserer Explicit Multi-view Attention (EMA) durch, die rauschhafte Multi-View-Bilder mit dem rauschfreien Referenzbild als explizite Bedingung kombiniert. Das CLIP-Embedding wird während des gesamten Prozesses an das Diffusionsmodell gesendet, während Referenzbilder nach der Feinabstimmung verworfen werden. Als Ergebnis ist Isotropic3D in der Lage, mit nur einem Bild-CLIP-Embedding Multi-View-Bilder zu erzeugen, die sich gegenseitig konsistent sind, sowie ein 3D-Modell mit symmetrischeren und ordentlicheren Inhalten, gut proportionierter Geometrie, reichhaltiger farbiger Textur und weniger Verzerrungen im Vergleich zu bestehenden Bild-zu-3D-Methoden zu generieren, während es gleichzeitig die Ähnlichkeit zum Referenzbild weitgehend bewahrt. Die Projektseite ist unter https://isotropic3d.github.io/ verfügbar. Der Code und die Modelle sind unter https://github.com/pkunliu/Isotropic3D verfügbar.
Während Text-zu-3D- und Bild-zu-3D-Generierungsaufgaben beträchtliche Aufmerksamkeit erhalten haben, ist ein wichtiges, aber unterforschtes Feld zwischen ihnen die kontrollierbare Text-zu-3D-Generierung, auf die wir uns hauptsächlich in dieser Arbeit konzentrieren. Um diese Aufgabe anzugehen, 1) stellen wir Multi-View ControlNet (MVControl) vor, eine neuartige neuronale Netzwerkarchitektur, die entwickelt wurde, um bestehende vortrainierte Multi-View-Diffusionsmodelle zu verbessern, indem zusätzliche Eingabekonditionen integriert werden, wie Kanten, Tiefe, Normalen und Skizzenkarten. Unsere Innovation liegt in der Einführung eines Konditionierungsmoduls, das das Basis-Diffusionsmodell mithilfe von lokalen und globalen Einbettungen steuert, die aus den Eingabekonditionsbildern und Kamerapositionen berechnet werden. Nach dem Training ist MVControl in der Lage, 3D-Diffusionsanleitungen für die optimierungsbasierte 3D-Generierung anzubieten. Und, 2) schlagen wir eine effiziente mehrstufige 3D-Generierungspipeline vor, die von den Vorteilen aktueller großer Rekonstruktionsmodelle und des Score-Destillationsalgorithmus profitiert. Aufbauend auf unserer MVControl-Architektur verwenden wir eine einzigartige hybride Diffusionsführungsmethode, um den Optimierungsprozess zu lenken. Auf der Suche nach Effizienz verwenden wir 3D-Gaußsche als unsere Repräsentation anstelle der üblicherweise verwendeten impliziten Repräsentationen. Wir sind auch Vorreiter bei der Verwendung von SuGaR, einer hybriden Repräsentation, die Gaußsche an die Dreiecksflächen des Gitternetzes bindet. Dieser Ansatz lindert das Problem schlechter Geometrie in 3D-Gaußschen und ermöglicht das direkte Modellieren von feinkörniger Geometrie auf dem Gitternetz. Umfangreiche Experimente zeigen, dass unsere Methode robuste Verallgemeinerung erreicht und die kontrollierte Generierung hochwertiger 3D-Inhalte ermöglicht.
Echtzeit-Hochpräzisions-Schätzung des optischen Flusses ist eine entscheidende Komponente in verschiedenen Anwendungen, einschließlich Lokalisierung und Kartierung in der Robotik, Objektverfolgung und Aktivitätserkennung in der Computer Vision. Während neuere lernbasierte optische Flussmethoden hohe Genauigkeit erreicht haben, gehen sie oft mit hohen Rechenkosten einher. In diesem Papier schlagen wir eine äußerst effiziente optische Flussarchitektur namens NeuFlow vor, die sowohl Genauigkeits- als auch Rechenkostenbedenken anspricht. Die Architektur folgt einem globalen-zu-lokalen Schema. Anhand der Merkmale der Eingabebilder, die in verschiedenen räumlichen Auflösungen extrahiert wurden, wird eine globale Zuordnung verwendet, um einen anfänglichen optischen Fluss in der 1/16-Auflösung zu schätzen, der große Verschiebungen erfasst, die dann in der 1/8-Auflösung mit leichten CNN-Schichten für eine bessere Genauigkeit verfeinert werden. Wir evaluieren unseren Ansatz auf Jetson Orin Nano und RTX 2080, um Effizienzverbesserungen auf verschiedenen Rechenplattformen zu demonstrieren. Wir erzielen eine bemerkenswerte 10x-80x Beschleunigung im Vergleich zu mehreren State-of-the-Art-Methoden, während wir eine vergleichbare Genauigkeit beibehalten. Unser Ansatz erreicht etwa 30 FPS auf Edge-Computing-Plattformen, was einen bedeutenden Durchbruch bei der Bereitstellung komplexer Computer-Vision-Aufgaben wie SLAM auf kleinen Robotern wie Drohnen darstellt. Der vollständige Trainings- und Evaluierungscode ist verfügbar unter https://github.com/neufieldrobotics/NeuFlow.