Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Sprachmodelle haben sich in einer Vielzahl von Anwendungen als wirksam erwiesen, doch die ausgefeiltesten Modelle sind oft proprietär. Zum Beispiel sind GPT-4 von OpenAI und verschiedene Modelle von Anthropic teuer und verbrauchen erhebliche Energie. Im Gegensatz dazu hat die Open-Source-Community wettbewerbsfähige Modelle wie Llama3 entwickelt. Darüber hinaus haben spezialisierte kleinere Sprachmodelle, die für rechtliche, medizinische oder finanzielle Aufgaben maßgeschneidert sind, ihre proprietären Gegenstücke übertroffen. Dieser Artikel stellt einen neuartigen Ansatz vor, der funktionale Tokens verwendet, um mehrere Open-Source-Modelle zu integrieren, die jeweils für bestimmte Aufgaben optimiert sind. Unser neu entwickeltes Modell Octopus v4 nutzt funktionale Tokens, um Benutzeranfragen intelligent an das geeignetste vertikale Modell zu leiten und die Anfrage neu zu formatieren, um die beste Leistung zu erzielen. Octopus v4, eine Weiterentwicklung der Modelle Octopus v1, v2 und v3, zeichnet sich durch Auswahl- und Parameterverständnis sowie Neugestaltung aus. Darüber hinaus untersuchen wir den Einsatz von Graphen als vielseitige Datenstruktur, die mehrere Open-Source-Modelle effektiv koordiniert, indem sie die Fähigkeiten des Octopus-Modells und funktionale Tokens nutzt. Nutzen Sie unser Open-Source-GitHub (https://www.nexa4ai.com/), um Octopus v4-Modelle auszuprobieren (https://huggingface.co/NexaAIDev/Octopus-v4) und tragen Sie zu einem größeren Graphen von Sprachmodellen bei. Durch die Aktivierung von Modellen mit weniger als 10 Milliarden Parametern haben wir einen SOTA MMLU-Score von 74,8 bei Modellen auf dem gleichen Niveau erreicht.
Angeregt durch den Kolmogorov-Arnold Darstellungssatz schlagen wir Kolmogorov-Arnold Netzwerke (KANs) als vielversprechende Alternativen zu Mehrschicht-Perzeptronen (MLPs) vor. Während MLPs feste Aktivierungsfunktionen auf Knoten ("Neuronen") haben, verfügen KANs über erlernbare Aktivierungsfunktionen auf Kanten ("Gewichten"). KANs haben überhaupt keine linearen Gewichte - jeder Gewichtsparameter wird durch eine univariate Funktion ersetzt, die als Spline parametrisiert ist. Wir zeigen, dass diese scheinbar einfache Änderung dazu führt, dass KANs MLPs in Bezug auf Genauigkeit und Interpretierbarkeit übertreffen. Hinsichtlich der Genauigkeit können wesentlich kleinere KANs vergleichbare oder bessere Genauigkeit als wesentlich größere MLPs bei der Datenanpassung und der Lösung partieller Differentialgleichungen erreichen. Theoretisch und empirisch weisen KANs schnellere neuronale Skalierungsgesetze als MLPs auf. In Bezug auf die Interpretierbarkeit können KANs intuitiv visualisiert werden und lassen sich leicht mit menschlichen Benutzern interagieren. Anhand von zwei Beispielen aus Mathematik und Physik wird gezeigt, dass KANs nützliche Partner sind, die Wissenschaftler dabei unterstützen, mathematische und physikalische Gesetze (neu) zu entdecken. Zusammenfassend sind KANs vielversprechende Alternativen zu MLPs, die Möglichkeiten für die weitere Verbesserung heutiger Deep-Learning-Modelle eröffnen, die stark auf MLPs angewiesen sind.
Große Sprachmodelle wie GPT und Llama werden mit einem Verlust für die Vorhersage des nächsten Tokens trainiert. In dieser Arbeit schlagen wir vor, dass das Training von Sprachmodellen zur Vorhersage mehrerer zukünftiger Tokens auf einmal zu einer höheren Stichproben-Effizienz führt. Genauer gesagt bitten wir das Modell an jeder Position im Trainingskorpus, die nächsten n Tokens mit n unabhängigen Ausgabeköpfen vorherzusagen, die auf einem gemeinsamen Modell-Trunk arbeiten. Indem wir die Mehrfach-Token-Vorhersage als zusätzliche Trainingsaufgabe betrachten, messen wir verbesserte Fähigkeiten für nachgelagerte Anwendungen ohne zusätzlichen Zeitaufwand für das Training von Code- und natürlichen Sprachmodellen. Die Methode ist besonders nützlich für größere Modellgrößen und behält ihren Reiz bei, wenn über mehrere Epochen trainiert wird. Die Gewinne sind besonders deutlich bei generativen Benchmarks wie dem Codieren, wo unsere Modelle konsequent starke Baselines um mehrere Prozentpunkte übertreffen. Unsere 13B-Parameter-Modelle lösen auf HumanEval 12 % mehr Probleme und auf MBPP 17 % mehr als vergleichbare nächst-Token-Modelle. Experimente an kleinen algorithmischen Aufgaben zeigen, dass die Mehrfach-Token-Vorhersage für die Entwicklung von Induktionsköpfen und algorithmischen Denkfähigkeiten vorteilhaft ist. Als zusätzlicher Vorteil sind Modelle, die mit 4-Token-Vorhersage trainiert wurden, bis zu 3-mal schneller bei der Inferenz, selbst bei großen Batch-Größen.
Im Bereich der personalisierten Bildgenerierung hat sich die Fähigkeit, Bilder unter Beibehaltung von Konzepten zu erstellen, signifikant verbessert. Ein Bild zu schaffen, das mehrere Konzepte auf natürliche Weise in einer zusammenhängenden und visuell ansprechenden Komposition integriert, kann in der Tat herausfordernd sein. Dieses Papier stellt "InstantFamily" vor, einen Ansatz, der einen neuartigen maskierten Kreuz-Aufmerksamkeitsmechanismus und einen multimodalen Einbettungsstapel verwendet, um die Mehrfach-ID-Bildgenerierung ohne Trainingsdaten zu erreichen. Unsere Methode bewahrt die ID effektiv, da sie globale und lokale Merkmale aus einem vorab trainierten Gesichtserkennungsmodell nutzt, das mit Textbedingungen integriert ist. Darüber hinaus ermöglicht unser maskierter Kreuz-Aufmerksamkeitsmechanismus die präzise Steuerung der Mehrfach-ID und der Komposition in den generierten Bildern. Wir zeigen die Wirksamkeit von InstantFamily durch Experimente, die seine Dominanz bei der Generierung von Bildern mit Mehrfach-ID aufzeigen, während bekannte Probleme bei der Mehrfach-ID-Generierung gelöst werden. Darüber hinaus erreicht unser Modell eine Spitzenleistung sowohl bei der Erhaltung einer einzelnen ID als auch bei der Mehrfach-ID-Erhaltung. Darüber hinaus zeigt unser Modell eine bemerkenswerte Skalierbarkeit mit einer größeren Anzahl von ID-Erhaltungen, als es ursprünglich trainiert wurde.
Iterative Präferenzoptimierungsmethoden haben kürzlich gezeigt, dass sie gut für allgemeine Anpassungsaufgaben geeignet sind, machen jedoch in der Regel nur geringe Verbesserungen bei Denkaufgaben (Yuan et al., 2024, Chen et al., 2024). In dieser Arbeit entwickeln wir einen iterativen Ansatz, der die Präferenz zwischen konkurrierenden generierten Chain-of-Thought (CoT)-Kandidaten optimiert, indem er auf gewinnende vs. verlierende Denkschritte optimiert, die zur richtigen Antwort führen. Wir trainieren mit einem modifizierten DPO-Verlust (Rafailov et al., 2023) mit einem zusätzlichen negativen Log-Likelihood-Term, den wir als entscheidend erachten. Wir zeigen, dass das Denken über wiederholte Iterationen dieses Schemas verbessert wird. Obwohl wir nur auf Beispiele im Trainingssatz angewiesen sind, führt unser Ansatz zu einer zunehmenden Genauigkeit für Llama-2-70B-Chat von 55,6% auf 81,6% auf GSM8K (und 88,7% bei Mehrheitsabstimmung aus 32 Proben), von 12,5% auf 20,8% bei MATH und von 77,8% auf 86,7% bei ARC-Challenge, was andere auf Llama-2 basierende Modelle übertrifft, die nicht auf zusätzlich beschaffte Datensätze angewiesen sind.
Wir erweitern die Kontextlänge von Llama-3-8B-Instruct von 8K auf 80K durch QLoRA Feinabstimmung. Der gesamte Schulungszyklus ist äußerst effizient und dauert 8 Stunden auf einer 8xA800 (80G) GPU-Maschine. Das resultierende Modell zeigt überlegene Leistungen in einer breiten Palette von Bewertungsaufgaben, wie NIHS, Themenabruf und Verständnis von Sprache mit langem Kontext; gleichzeitig bewahrt es auch die ursprüngliche Leistungsfähigkeit über kurze Kontexte gut. Die dramatische Kontexterweiterung ist hauptsächlich auf lediglich 3,5K synthetische Trainingsbeispiele zurückzuführen, die von GPT-4 generiert wurden, was auf das inhärente (aber weitgehend unterschätzte) Potenzial der LLMs hinweist, ihre ursprüngliche Kontextlänge zu erweitern. Tatsächlich könnte die Kontextlänge mit mehr Rechenressourcen weit über 80K hinaus erweitert werden. Daher wird das Team die gesamten Ressourcen (einschließlich Daten, Modell, Daten-Generierungspipeline, Schulungscode) öffentlich freigeben, um zukünftige Forschungen aus der Gemeinschaft zu erleichtern: https://github.com/FlagOpen/FlagEmbedding.
Diese Arbeit stellt MotionLCM vor, das die kontrollierte Bewegungserzeugung auf eine Echtzeit-Ebene erweitert. Bestehende Methoden zur räumlichen Steuerung in textkonditionierter Bewegungserzeugung leiden unter erheblicher Laufzeiteffizienz. Um dieses Problem zu lösen, schlagen wir zunächst das Bewegungs-Latenz-Konsistenzmodell (MotionLCM) für die Bewegungserzeugung vor, das auf dem Latenzdiffusionsmodell (MLD) aufbaut. Durch die Verwendung von Ein-Schritt- (oder Wenige-Schritte-) Inferenz verbessern wir weiter die Laufzeiteffizienz des Bewegungs-Latenzdiffusionsmodells für die Bewegungserzeugung. Um eine effektive Steuerbarkeit zu gewährleisten, integrieren wir ein Bewegungssteuerungsnetz innerhalb des Latenzraums von MotionLCM und ermöglichen explizite Steuersignale (z. B. Beckentrajektorie) im herkömmlichen Bewegungsraum, um den Generierungsprozess direkt zu steuern, ähnlich wie bei der Steuerung anderer latenzfreier Diffusionsmodelle für Bewegungserzeugung. Durch den Einsatz dieser Techniken kann unser Ansatz menschliche Bewegungen mit Text und Steuersignalen in Echtzeit generieren. Experimentelle Ergebnisse zeigen die bemerkenswerten Generierungs- und Steuerungsfähigkeiten von MotionLCM bei gleichzeitiger Aufrechterhaltung der Echtzeit-Laufzeiteffizienz.
Bestehende automatische Untertitelungsmethoden für visuelle Inhalte stehen vor Herausforderungen wie mangelnder Detailgenauigkeit, Inhalts-Halluzinationen und schlechter Anweisungsbefolgung. In dieser Arbeit schlagen wir VisualFactChecker (VFC) vor, eine flexible, trainingsfreie Pipeline, die hochwertige und detaillierte Untertitel für sowohl 2D-Bilder als auch 3D-Objekte generiert. VFC besteht aus drei Schritten: 1) Vorschlag, bei dem Bild-zu-Text-Untertitelungsmodelle mehrere anfängliche Untertitel vorschlagen; 2) Überprüfung, bei der ein großes Sprachmodell (LLM) Tools wie Objekterkennung und VQA-Modelle nutzt, um die vorgeschlagenen Untertitel zu überprüfen; 3) Untertitelung, bei der ein LLM den endgültigen Untertitel generiert, indem er die Untertitelvorschläge und die Ergebnisse der Faktenüberprüfung zusammenfasst. In diesem Schritt kann VFC flexibel Untertitel in verschiedenen Stilen gemäß komplexen Anweisungen generieren. Wir führen umfassende Untertitelungsbewertungen durch, die vier Metriken umfassen: 1) CLIP-Score für die Ähnlichkeit von Bild und Text; 2) CLIP-Image-Score zur Messung der Bild-Bild-Ähnlichkeit zwischen dem Original und dem rekonstruierten Bild, das von einem Text-zu-Bild-Modell unter Verwendung des Untertitels generiert wurde. 3) Benutzerstudie auf Amazon Mechanical Turk; 4) GPT-4V für eine feingranulare Bewertung. Die Evaluierungsergebnisse zeigen, dass VFC im Vergleich zu modernsten quelloffenen Untertitelungsmethoden für 2D-Bilder im COCO-Datensatz und 3D-Assets im Objaverse-Datensatz überlegen ist. Unsere Studie zeigt, dass wir durch die Kombination von quelloffenen Modellen in einer Pipeline eine Untertitelungsfähigkeit erreichen können, die mit proprietären Modellen wie GPT-4V vergleichbar ist, obwohl sie über 10-mal kleiner in Modellgröße ist.
Wir schlagen GS-LRM vor, ein skalierbares großes Rekonstruktionsmodell, das hochwertige 3D-Gaußsche Primitive aus 2-4 aufgenommenen spärlichen Bildern in 0,23 Sekunden auf einer einzelnen A100 GPU vorhersagen kann. Unser Modell zeichnet sich durch eine sehr einfache auf Transformer basierende Architektur aus; wir unterteilen die Eingabe der aufgenommenen Bilder in Patches, leiten die konkatenierten Mehransichtsbild-Token durch eine Sequenz von Transformer-Blöcken und decodieren abschließend die pro Pixel Gaußschen Parameter direkt aus diesen Tokens für differenzierbares Rendern. Im Gegensatz zu früheren LRM-Modellen, die nur Objekte rekonstruieren können, handhabt GS-LRM durch die Vorhersage von pro Pixel Gaußschen Parametern natürlicherweise Szenen mit großen Variationen in Skala und Komplexität. Wir zeigen, dass unser Modell sowohl bei der Erfassung von Objekten als auch von Szenen funktioniert, indem wir es jeweils auf Objaverse und RealEstate10K trainieren. In beiden Szenarien übertrifft das Modell die State-of-the-Art-Baselines bei weitem. Wir zeigen auch Anwendungen unseres Modells in nachgelagerten 3D-Generierungsaufgaben. Unsere Projektwebseite ist verfügbar unter: https://sai-bi.github.io/project/gs-lrm/ .
Nach dem Aufkommen von NeRFs hat die 3D-Gaussian Splatting (3D-GS) den Weg zur Echtzeit-Neuralrendervorlage geebnet, wodurch die Rechenlast volumetrischer Methoden überwunden wurde. Nach der wegweisenden Arbeit von 3D-GS haben mehrere Methoden versucht, komprimierbare und hochwertige Leistungsalternativen zu erreichen. Allerdings vernachlässigen diese Methoden durch die Verwendung eines geometrieagnostischen Optimierungsschemas die inhärente 3D-Struktur der Szene, was die Ausdruckskraft und Qualität der Darstellung einschränkt und zu verschiedenen Gleitkommafehlern und Artefakten führt. In dieser Arbeit schlagen wir eine strukturbewusste Gaussian Splatting-Methode (SAGS) vor, die die Geometrie der Szene implizit codiert, was sich in modernster Rendervorlagenleistung und reduzierten Speicheranforderungen in Benchmark-Neuansichtssynthesedatensätzen widerspiegelt. SAGS basiert auf einer lokalen-globalen Graphendarstellung, die das Lernen komplexer Szenen erleichtert und sinnvolle Punktverschiebungen erzwingt, die die Geometrie der Szene bewahren. Darüber hinaus stellen wir eine leichtgewichtige Version von SAGS vor, die ein einfaches, aber effektives Mittelpunktinterpolationsverfahren verwendet, und eine kompakte Darstellung der Szene mit einer bis zu 24-fachen Größenreduzierung ohne Abhängigkeit von Kompressionsstrategien zeigt. Umfangreiche Experimente über mehrere Benchmark-Datensätze hinweg zeigen die Überlegenheit von SAGS gegenüber modernsten 3D-GS-Methoden sowohl hinsichtlich der Rendernqualität als auch der Modellgröße. Darüber hinaus zeigen wir, dass unsere strukturbewusste Methode Gleitartefakte und unregelmäßige Verzerrungen früherer Methoden wirksam reduzieren kann, während präzise Tiefenkarten erhalten werden. Projektseite: https://eververas.github.io/SAGS/.
Vision-Sprach-Datensätze sind sowohl für die Text-zu-Bild (T2I) als auch für die Bild-zu-Text (I2T) Forschung entscheidend. Allerdings fehlen aktuellen Datensätzen Beschreibungen mit feingliedrigen Details, die es Modellen ermöglichen würden, reichhaltigere Assoziationen zu erlernen. Um diese Lücke zu schließen, stellen wir Descriptions of Connected and Contrasting Images (DOCCI) vor, einen Datensatz mit langen, menschlich annotierten englischen Beschreibungen für 15.000 Bilder, die von einem einzelnen Forscher aufgenommen, kuratiert und gespendet wurden, mit dem Ziel, Schlüsselherausforderungen wie räumliche Beziehungen, Zählen, Textdarstellung, Weltwissen und mehr zu erfassen. Wir weisen menschliche Annotatoren an, umfassende Beschreibungen für jedes Bild zu erstellen; diese sind im Durchschnitt 136 Wörter lang und werden so verfasst, dass jedes Bild klar von verwandten oder ähnlichen Bildern abgegrenzt wird. Jede Beschreibung ist stark zusammengesetzt und umfasst in der Regel mehrere Herausforderungen. Durch quantitative und qualitative Analysen zeigen wir, dass DOCCI als effektive Schulungsressource für die Bild-zu-Text-Generierung dient - ein PaLI 5B-Modell, das auf DOCCI feinabgestimmt ist, zeigt gleichwertige oder überlegene Ergebnisse im Vergleich zu hochleistungsfähigen größeren Modellen wie LLaVA-1.5 7B und InstructBLIP 7B. Darüber hinaus zeigen wir, dass DOCCI ein nützliches Testfeld für die Text-zu-Bild-Generierung ist und die Grenzen der aktuellen Text-zu-Bild-Modelle bei der Erfassung langer Beschreibungen und feiner Details aufzeigt.
Die Generierung von 3D-Szenen ist schnell zu einer anspruchsvollen neuen Forschungsrichtung geworden, angetrieben durch kontinuierliche Verbesserungen von 2D-generativen Diffusionsmodellen. Die meisten früheren Arbeiten in diesem Bereich generieren Szenen, indem sie iterativ neu generierte Frames mit vorhandener Geometrie zusammensetzen. Diese Arbeiten sind oft auf vortrainierte monokulare Tiefenschätzer angewiesen, um die generierten Bilder in 3D zu überführen, sie mit der vorhandenen Szenenrepräsentation zu verschmelzen. Diese Ansätze werden dann oft anhand eines Textmetriks evaluiert, der die Ähnlichkeit zwischen den generierten Bildern und einem gegebenen Textprompt misst. In dieser Arbeit leisten wir zwei grundlegende Beiträge auf dem Gebiet der 3D-Szenengenerierung. Erstens stellen wir fest, dass das Anheben von Bildern auf 3D mit einem monokularen Tiefenschätzmodell suboptimal ist, da es die Geometrie der vorhandenen Szene ignoriert. Wir führen daher ein neuartiges Tiefenvervollständigungsmodell ein, das über Lehrerdistillation und Selbsttraining trainiert wird, um den 3D-Fusionsprozess zu erlernen, was zu einer verbesserten geometrischen Kohärenz der Szene führt. Zweitens führen wir ein neues Benchmarking-Schema für Methoden zur Szenengenerierung ein, das auf Ground-Truth-Geometrie basiert und somit die Qualität der Struktur der Szene misst.
Optimierungsbasierte Ansätze wie die Score-Destillations-Stichprobenahme (SDS) zeigen vielversprechende Ergebnisse bei der Null-Shot-3D-Generierung, leiden jedoch unter geringer Effizienz, hauptsächlich aufgrund der hohen Anzahl von Funktionsauswertungen (NFEs), die für jede Probe erforderlich sind. In diesem Papier stellen wir Score-basierte iterative Rekonstruktion (SIR) vor, einen effizienten und allgemeinen Algorithmus für die 3D-Generierung mit einem Multi-View-Score-basierten Diffusionsmodell. Angesichts der Bilder, die vom Diffusionsmodell erzeugt werden, reduziert SIR die NFEs, indem es wiederholt 3D-Parameter optimiert, im Gegensatz zur einmaligen Optimierung in SDS, wodurch der 3D-Rekonstruktionsprozess nachgeahmt wird. Mit weiteren Verbesserungen, einschließlich der Optimierung im Pixelraum, präsentieren wir einen effizienten Ansatz namens MicroDreamer, der im Allgemeinen auf verschiedene 3D-Darstellungen und 3D-Generierungsaufgaben anwendbar ist. Insbesondere ist MicroDreamer bei vergleichbarer Leistung 5-20 Mal schneller als SDS bei der Generierung eines neuronalen Strahlungsfelds und benötigt etwa 20 Sekunden, um Gitter aus 3D-Gaußscher Aufspaltung auf einer einzelnen A100-GPU zu generieren, wodurch die Zeit des schnellsten Null-Shot-Baselines, DreamGaussian, halbiert wird. Unser Code ist verfügbar unter https://github.com/ML-GSAI/MicroDreamer.
Die zeitgenössische 3D-Forschung, insbesondere in der Rekonstruktion und Generierung, stützt sich stark auf 2D-Bilder für Eingaben oder Überwachung. Die aktuellen Entwürfe für diese 2D-3D-Zuordnung sind jedoch speicherintensiv, was einen erheblichen Engpass für bestehende Methoden darstellt und die Entwicklung neuer Anwendungen behindert. Als Antwort schlagen wir ein Paar hoch skalierbarer Komponenten für 3D-Neuronenfelder vor: Lightplane Render und Splatter, die den Speicherverbrauch bei der 2D-3D-Zuordnung erheblich reduzieren. Diese Innovationen ermöglichen die Verarbeitung von deutlich mehr und höher aufgelösten Bildern mit geringen Speicher- und Rechenkosten. Wir zeigen ihre Nützlichkeit in verschiedenen Anwendungen, von der Verbesserung der Optimierung einzelner Szenen mit verlustbehafteten Bildern bis zur Realisierung einer vielseitigen Pipeline zur drastischen Skalierung von 3D-Rekonstruktion und Generierung. Code: https://github.com/facebookresearch/lightplane.