Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Obwohl die Vorhersage des nächsten Tokens als vielversprechender Weg zur künstlichen allgemeinen Intelligenz gilt, hat sie Schwierigkeiten, sich in multimodalen Aufgaben zu behaupten, die immer noch von Diffusionsmodellen (z. B. Stabile Diffusion) und kompositorischen Ansätzen (z. B. CLIP in Kombination mit LLMs) dominiert werden. In diesem Paper stellen wir Emu3 vor, eine neue Suite von hochmodernen multimodalen Modellen, die ausschließlich mit der Vorhersage des nächsten Tokens trainiert wurden. Indem wir Bilder, Texte und Videos in einen diskreten Raum tokenisieren, trainieren wir einen einzigen Transformer von Grund auf an einer Mischung von multimodalen Sequenzen. Emu3 übertrifft mehrere etablierte aufgabenspezifische Modelle sowohl in Generierungs- als auch in Wahrnehmungsaufgaben und übertrifft Flaggschiffmodelle wie SDXL und LLaVA-1.6, während die Notwendigkeit von Diffusions- oder kompositorischen Architekturen eliminiert wird. Emu3 ist auch in der Lage, hochwertige Videos zu generieren, indem der nächste Token in einer Videosequenz vorhergesagt wird. Wir vereinfachen komplexe multimodale Modellentwürfe, indem wir uns auf einen einzigen Fokus konzentrieren: Tokens, was großes Potenzial für das Skalieren sowohl während des Trainings als auch bei der Inferenz freisetzt. Unsere Ergebnisse zeigen, dass die Vorhersage des nächsten Tokens ein vielversprechender Weg ist, um eine allgemeine multimodale Intelligenz jenseits der Sprache aufzubauen. Wir stellen Schlüsseltechniken und Modelle als Open Source zur Verfügung, um weitere Forschung in diese Richtung zu unterstützen.
In diesem Paper stellen wir MIO vor, ein neuartiges Grundlagenmodell, das auf multimodalen Tokens aufbaut und in der Lage ist, Sprache, Texte, Bilder und Videos in einem end-to-end, autoregressiven Ansatz zu verstehen und zu generieren. Während das Aufkommen großer Sprachmodelle (LLMs) und multimodaler großer Sprachmodelle (MM-LLMs) Fortschritte in der künstlichen allgemeinen Intelligenz durch ihre vielseitigen Fähigkeiten vorantreibt, fehlt es ihnen immer noch an echtem Verständnis und Generierung von beliebigen Inhalten. Kürzlich hat die Veröffentlichung von GPT-4o das bemerkenswerte Potenzial von beliebig-zu-beliebig LLMs für komplexe realweltliche Aufgaben gezeigt, indem sie omnidirektionale Eingabe und Ausgabe über Bilder, Sprache und Text ermöglichen. Es ist jedoch Closed-Source und unterstützt nicht die Generierung von multimodalen interleaved Sequenzen. Um diese Lücke zu schließen, präsentieren wir MIO, das auf einer Mischung diskreter Tokens über vier Modalitäten trainiert wird, unter Verwendung von kausaler multimodaler Modellierung. MIO durchläuft einen vierstufigen Trainingsprozess: (1) Ausrichtungs-Vortraining, (2) interleaved Vortraining, (3) sprachverbessertes Vortraining und (4) umfassendes überwachtes Feintuning auf vielfältigen textuellen, visuellen und sprachlichen Aufgaben. Unsere experimentellen Ergebnisse deuten darauf hin, dass MIO im Vergleich zu früheren Dual-Modal-Baselines, beliebig-zu-beliebig Modell-Baselines und sogar modalitätsspezifischen Baselines eine wettbewerbsfähige und in einigen Fällen überlegene Leistung zeigt. Darüber hinaus zeigt MIO fortgeschrittene Fähigkeiten, die seiner beliebig-zu-beliebig Funktion innewohnen, wie die interleaved Video-Text-Generierung, Ketten-von-visuellem-Denken-Argumentieren, visuelle Richtliniengenerierung, instruktive Bildbearbeitung usw.
Ehrlichkeit ist ein grundlegendes Prinzip zur Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Werten, das verlangt, dass diese Modelle erkennen, was sie wissen und nicht wissen, und in der Lage sind, ihr Wissen treu auszudrücken. Trotz vielversprechender Ansätze zeigen aktuelle LLMs immer noch signifikant unehrliches Verhalten, wie zum Beispiel selbstbewusst falsche Antworten zu präsentieren oder nicht in der Lage zu sein, ihr Wissen angemessen auszudrücken. Darüber hinaus sieht sich die Forschung zur Ehrlichkeit von LLMs auch Herausforderungen gegenüber, darunter unterschiedliche Definitionen von Ehrlichkeit, Schwierigkeiten bei der Unterscheidung zwischen bekanntem und unbekanntem Wissen sowie ein Mangel an umfassendem Verständnis der damit verbundenen Forschung. Um diese Probleme anzugehen, bieten wir eine Untersuchung zur Ehrlichkeit von LLMs an, die deren Klärung, Bewertungsansätze und Strategien zur Verbesserung abdeckt. Darüber hinaus bieten wir Einblicke für zukünftige Forschung an, mit dem Ziel, weitere Erkundungen in diesem wichtigen Bereich anzuregen.
Die Skalierung der Modellgröße stellt eine erhebliche Herausforderung für die Bereitstellung und Inferenz von Großen Sprachmodellen (LLMs) dar. Aufgrund der Redundanz in den Gewichten von LLMs konzentrierte sich die jüngste Forschung darauf, die Gewichtsquantisierung auf extrem niedrige Bits (sogar bis zu 2 Bits) zu reduzieren. Dies verringert den Speicherbedarf, optimiert die Speicherkosten und reduziert die Speicherbandbreitenanforderungen während der Inferenz. Aufgrund von numerischen Darstellungsbeschränkungen kämpft die traditionelle skalare Gewichtsquantisierung jedoch damit, solch extrem niedrige Bits zu erreichen. Jüngste Forschung zur Vektorquantisierung (VQ) für LLMs hat das Potenzial für eine extrem niedrige Bit-Modellquantisierung durch die Komprimierung von Vektoren in Indizes mithilfe von Suchtabellen aufgezeigt. In diesem Papier stellen wir die Vektor-Post-Training-Quantisierung (VPTQ) für die extrem niedrige Bit-Quantisierung von LLMs vor. Wir verwenden die Optimierung zweiter Ordnung, um das LLM VQ-Problem zu formulieren und unser Quantisierungsalgorithmusdesign durch Lösung der Optimierung zu führen. Wir verfeinern die Gewichte weiter mithilfe der kanalunabhängigen Optimierung zweiter Ordnung für eine granulare VQ. Darüber hinaus schlagen wir durch die Zerlegung des Optimierungsproblems einen kurzen und effektiven Algorithmus zur Codebuchinitialisierung vor. Wir erweitern VPTQ auch, um die Residual- und Ausreißer-Quantisierung zu unterstützen, was die Modellgenauigkeit verbessert und das Modell weiter komprimiert. Unsere experimentellen Ergebnisse zeigen, dass VPTQ die Modellquantisierungsperplexität um 0,01-0,34 auf LLaMA-2, 0,38-0,68 auf Mistral-7B, 4,41-7,34 auf LLaMA-3 im Vergleich zum SOTA bei 2 Bit reduziert, mit einer durchschnittlichen Genauigkeitsverbesserung von 0,79-1,5% auf LLaMA-2, 1% auf Mistral-7B, 11-22% auf LLaMA-3 bei QA-Aufgaben im Durchschnitt. Wir nutzen nur 10,4-18,6% der Ausführungszeit des Quantisierungsalgorithmus, was zu einer 1,6-1,8-fachen Steigerung der Inferenzdurchsatz im Vergleich zum SOTA führt.
Die Analyse von Dokumenteninhalten ist ein entscheidender Forschungsbereich in der Computer Vision. Trotz signifikanter Fortschritte bei Methoden wie OCR, Layouterkennung und Formelerkennung haben bestehende Open-Source-Lösungen Schwierigkeiten, eine konsistent hohe Qualität bei der Extraktion von Inhalten aufgrund der Vielfalt an Dokumententypen und -inhalten zu liefern. Um diesen Herausforderungen zu begegnen, präsentieren wir MinerU, eine Open-Source-Lösung für die präzise Extraktion von Dokumenteninhalten. MinerU nutzt die ausgefeilten PDF-Extract-Kit-Modelle, um Inhalte aus verschiedenen Dokumenten effektiv zu extrahieren, und setzt fein abgestimmte Vorverarbeitungs- und Nachverarbeitungsregeln ein, um die Genauigkeit der Endresultate zu gewährleisten. Experimentelle Ergebnisse zeigen, dass MinerU konsistent eine hohe Leistung bei verschiedenen Dokumententypen erzielt und die Qualität und Konsistenz der Inhaltsextraktion signifikant verbessert. Das MinerU Open-Source-Projekt ist unter https://github.com/opendatalab/MinerU verfügbar.
Wir präsentieren PhysGen, eine innovative Methode zur Generierung von Bildern zu Videos, die ein einzelnes Bild und eine Eingangsbedingung (z. B. die auf ein Objekt im Bild angewandte Kraft und das Drehmoment) in ein realistisches, physikalisch plausibles und zeitlich konsistentes Video umwandelt. Unser Schlüsselerkenntnis besteht darin, modellbasierte physikalische Simulation mit einem datengesteuerten Videoerstellungsprozess zu integrieren, um plausible Dynamik im Bildraum zu ermöglichen. Im Zentrum unseres Systems stehen drei Kernkomponenten: (i) ein Bildverständnis-Modul, das effektiv die Geometrie, Materialien und physikalischen Parameter des Bildes erfasst; (ii) ein Bildraum-Dynamik-Simulationsmodell, das starre Körperphysik und abgeleitete Parameter nutzt, um realistische Verhaltensweisen zu simulieren; und (iii) ein bildbasiertes Rendering- und Verfeinerungsmodul, das die generative Videodiffusion nutzt, um realistische Videomaterialien mit der simulierten Bewegung zu erzeugen. Die resultierenden Videos sind sowohl physikalisch als auch optisch realistisch und sogar präzise steuerbar, was über quantitative Vergleiche und umfassende Benutzerstudien überlegene Ergebnisse im Vergleich zu bestehenden datengesteuerten Bild-zu-Video-Generierungswerken zeigt. Die resultierenden Videos von PhysGen können für verschiedene nachgelagerte Anwendungen verwendet werden, wie die Umwandlung eines Bildes in eine realistische Animation oder die Ermöglichung von Benutzerinteraktionen mit dem Bild zur Erzeugung verschiedener Dynamiken. Projektseite: https://stevenlsw.github.io/physgen/
Präferenzoptimierungsmethoden beginnen typischerweise das Training mit einem gut trainierten SFT-Modell als Referenzmodell. In RLHF und DPO wird während des Präferenzoptimierungsprozesses ein Regularisierungsterm verwendet, um zu verhindern, dass das Richtlinienmodell zu weit von der Verteilung des Referenzmodells abweicht und somit die Generierung anomaler Antworten vermieden wird. Wenn das Referenzmodell bereits gut auf die vorliegenden Daten ausgerichtet ist oder nur geringfügige Anpassungen erfordert, kann dieser Ansatz ein gut ausgerichtetes Modell erzeugen. Wenn das Referenzmodell jedoch nicht auf die vorliegenden Daten ausgerichtet ist und erhebliche Abweichungen von seinem aktuellen Zustand erfordert, kann ein Regularisierungsterm tatsächlich die Modellausrichtung behindern. In dieser Studie schlagen wir Modulated Intervention Preference Optimization (MIPO) vor, um dieses Problem zu lösen. MIPO moduliert den Grad des Eingreifens vom Referenzmodell basierend darauf, wie gut die vorliegenden Daten damit ausgerichtet sind. Wenn die Daten gut ausgerichtet sind, wird das Eingreifen erhöht, um zu verhindern, dass das Richtlinienmodell signifikant vom Referenzmodell abweicht. Im Gegensatz dazu wird bei schlechter Ausrichtung das Eingreifen reduziert, um ein umfangreicheres Training zu ermöglichen. Wir vergleichen die Leistung von MIPO und DPO unter Verwendung von Mistral-7B und Llama3-8B in Alpaca Eval 2.0 und MT-Bench. Die experimentellen Ergebnisse zeigen, dass MIPO in verschiedenen Evaluierungsszenarien konsistent besser abschneidet als DPO.
Dieses Papier stellt einen neuen Ansatz zur Verwendung von Large Language Models (LLMs) für Klassifizierungsaufgaben vor, die in der Regel mit Machine Learning (ML)-Modellen bearbeitet werden. Im Gegensatz zu ML-Modellen, die stark auf Datenbereinigung und Merkmalsextraktion angewiesen sind, vereinfacht diese Methode den Prozess mithilfe von LLMs. Dieses Papier schlägt ein neues Konzept namens "Language Model Learning (LML)" vor, das von einer neuen Methode namens "Data-Augmented Prediction (DAP)" unterstützt wird. Die Klassifizierung wird von LLMs durchgeführt, die eine Methode ähnlich der manuellen Erkundung und Verständnis von Daten durch Menschen verwenden und Entscheidungen über Klassifizierungen anhand von Daten als Referenz treffen. Trainingsdaten werden zusammengefasst und bewertet, um die Merkmale zu bestimmen, die am meisten zur Klassifizierung jedes Labels beitragen. Im Verlauf von DAP verwendet das System die Zusammenfassung der Daten, um automatisch eine Abfrage zu erstellen, die zur Abrufung relevanter Zeilen aus dem Datensatz dient. Eine Klassifizierung wird vom LLM unter Verwendung der Datenzusammenfassung und relevanter Zeilen generiert, was eine zufriedenstellende Genauigkeit auch bei komplexen Daten gewährleistet. Die Verwendung von Datenzusammenfassung und ähnlichen Daten in DAP gewährleistet entscheidungsbezogene Kontextsensibilität. Die vorgeschlagene Methode verwendet die Worte "Als ein erklärbares Machine Learning-Modell handeln" in der Eingabeaufforderung, um die Interpretierbarkeit der Vorhersagen zu verbessern, indem Benutzern ermöglicht wird, die Logik hinter jeder Vorhersage zu überprüfen. In einigen Testfällen erzielte das System eine Genauigkeit von über 90%, was die Wirksamkeit des Systems und sein Potenzial, herkömmliche ML-Modelle in verschiedenen Szenarien zu übertreffen, belegt. Der Code ist verfügbar unter https://github.com/Pro-GenAI/LML-DAP
Langzeitgedächtnis ist für Agenten signifikant, in dem Erkenntnisse eine entscheidende Rolle spielen. Allerdings können das Auftreten irrelevanter Erkenntnisse und der Mangel an allgemeinen Erkenntnissen die Wirksamkeit von Erkenntnissen erheblich untergraben. Um dieses Problem zu lösen, stellen wir in diesem Paper den Multi-Scale Insight Agent (MSI-Agent) vor, einen verkörperten Agenten, der entwickelt wurde, um die Planungs- und Entscheidungsfähigkeiten von LLMs durch effektive Zusammenfassung und Nutzung von Erkenntnissen über verschiedene Skalen hinweg zu verbessern. MSI erreicht dies durch den Erfahrungsselektor, den Erkenntniserzeuger und den Erkenntnisauswähler. Durch Nutzung eines dreiteiligen Prozesses kann MSI aufgabenspezifische und hochrangige Erkenntnisse generieren, diese in einer Datenbank speichern und dann relevante Erkenntnisse daraus nutzen, um bei Entscheidungen zu helfen. Unsere Experimente zeigen, dass MSI eine andere Erkenntnisstrategie bei der Planung durch GPT3.5 übertrifft. Darüber hinaus untersuchen wir die Strategien zur Auswahl von Ausgangserfahrungen und Erkenntnissen, mit dem Ziel, LLMs mehr nützliche und relevante Erkenntnisse für bessere Entscheidungsfindung bereitzustellen. Unsere Beobachtungen deuten auch darauf hin, dass MSI eine bessere Robustheit bei der Bewältigung von Szenarien mit Domänenwechsel zeigt.
Trotz der jüngsten Fortschritte bei großen Sprachmodellen (LLMs) ist ihre Leistung bei komplexen Problemen des Denkens in mehreren Schritten und der Kombination verschiedener Fähigkeiten immer noch begrenzt. Um dies anzugehen, schlagen wir ein neuartiges Framework namens HDFlow für komplexes Denken mit LLMs vor, das schnelle und langsame Denkmodi auf adaptive Weise kombiniert. Unser Ansatz besteht aus zwei Schlüsselkomponenten: 1) ein neuer Ansatz für langsames, überlegtes Denken namens Dynamischer Workflow, der komplexe Probleme automatisch in handlichere Teilaufgaben zerlegt und dynamisch einen Workflow entwirft, um spezialisierte LLMs oder symbolische Denkwerkzeuge zur Lösung von Teilaufgaben zusammenzustellen; 2) Hybriddenken, ein allgemeines Framework, das schnelles und langsames Denken basierend auf der Problemkomplexität dynamisch kombiniert. Schließlich schlagen wir eine leicht skalierbare Methode zur automatischen Synthese eines groß angelegten Datensatzes von 27K herausfordernden Denkproblemen für komplexes Denken und eine Hybriddenk-Abstimmungsmethode vor, die kleinere LLMs auf diesem Datensatz trainiert, um die Hybrid-Denkstrategien für schnelles/langsames Denken zu internalisieren. Experimente mit vier Denk-Benchmark-Datensätzen zeigen, dass unser langsames Denken mit dynamischen Workflows signifikant besser abschneidet als Chain-of-Thought, und das Hybriddenken die höchste Genauigkeit erreicht, während es ein effektives Gleichgewicht zwischen Recheneffizienz und Leistung bietet. Das Feintuning mit unserem Hybriddenkansatz steigert auch signifikant die Fähigkeiten des komplexen Denkens von Open-Source-Sprachmodellen. Die Ergebnisse zeigen das Potenzial von langsamen Denken, dynamischen Workflows und Hybriddenken bei der Erweiterung der Grenzen der komplexen Problemlösung mit LLMs. Code und Daten werden unter \url{https://github.com/wenlinyao/HDFlow.} veröffentlicht.