Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die jüngste Welle von Multimodalen Großen Sprachmodellen (MLLMs) hat das Forschungs- und Industrielandschaft der KI grundlegend verändert und einen vielversprechenden Weg zum nächsten KI-Meilenstein aufgezeigt. Es gibt jedoch weiterhin bedeutende Herausforderungen, die verhindern, dass MLLMs in der Praxis in realen Anwendungen eingesetzt werden können. Die herausragendste Herausforderung ergibt sich aus den enormen Kosten für den Betrieb eines MLLMs mit einer riesigen Anzahl von Parametern und umfangreichen Berechnungen. Als Ergebnis müssen die meisten MLLMs auf leistungsstarken Cloud-Servern bereitgestellt werden, was ihre Anwendungsbereiche wie mobile, offline, energieempfindliche und datenschutzsensible Szenarien erheblich einschränkt. In dieser Arbeit präsentieren wir MiniCPM-V, eine Serie effizienter MLLMs, die auf Endgeräten einsetzbar sind. Durch die Integration der neuesten MLLM-Techniken in Architektur, Vortraining und Ausrichtung weist das neueste MiniCPM-Llama3-V 2.5 mehrere bemerkenswerte Merkmale auf: (1) Starke Leistung, die GPT-4V-1106, Gemini Pro und Claude 3 in OpenCompass, einer umfassenden Bewertung über 11 beliebte Benchmarks, übertrifft, (2) starke OCR-Fähigkeiten und eine 1,8 Millionen Pixel hochauflösende Bildwahrnehmung bei beliebigem Seitenverhältnis, (3) vertrauenswürdiges Verhalten mit niedrigen Halluzinationsraten, (4) mehrsprachige Unterstützung für über 30 Sprachen und (5) effiziente Bereitstellung auf Mobiltelefonen. Noch wichtiger ist, dass MiniCPM-V als repräsentatives Beispiel für einen vielversprechenden Trend angesehen werden kann: Die Modellgrößen, um eine nutzbare (z. B. GPT-4V) Leistung zu erzielen, nehmen rapide ab, zusammen mit dem schnellen Wachstum der Endgeräte-Berechnungskapazität. Dies zeigt gemeinsam, dass MLLMs auf GPT-4V-Niveau, die auf Endgeräten bereitgestellt werden, zunehmend möglich werden und in naher Zukunft ein breiteres Spektrum an KI-Anwendungen in der realen Welt erschließen.
Der Dialog dient als die natürlichste Art der Mensch-Computer-Interaktion (HCI). Die jüngsten Fortschritte bei Sprachmodellen haben die sprachbasierte konversationelle KI erheblich verbessert. Diese Modelle sind jedoch auf dialogbasierte Konversation beschränkt und können nicht in Echtzeit mit Menschen interagieren, beispielsweise wenn der generierte Inhalt nicht zufriedenstellend ist. Um diese Einschränkungen zu überwinden, untersuchen wir das vollduplexe Modellieren (FDM) in interaktiven Sprachmodellen (iSLM), wobei der Schwerpunkt auf der Verbesserung der Echtzeitinteraktion liegt und insbesondere die wesentliche Fähigkeit der Unterbrechung erforscht wird. Wir stellen ein neuartiges Modell vor, das sogenannte Zuhören-während-Sprechens-Sprachmodell (LSLM), ein End-to-End-System mit sowohl Zuhör- als auch Sprechkanälen. Unser LSLM verwendet einen tokenbasierten Decoder-only Text-to-Speech (TTS) für die Spracherzeugung und einen Streaming-Selbstüberwachungs-Lernencoder für Echtzeit-Audioeingabe. LSLM fusioniert beide Kanäle für die autoregressive Generierung und erkennt das Wechseln der Sprecher in Echtzeit. Drei Fusionsstrategien - Frühfusion, Mittelfusion und Spätfusion - werden untersucht, wobei die Mittelfusion ein optimales Gleichgewicht zwischen Sprachgenerierung und Echtzeitinteraktion erreicht. Zwei experimentelle Einstellungen, befehlsbasiertes FDM und sprachbasiertes FDM, zeigen die Robustheit des LSLM gegenüber Geräuschen und die Empfindlichkeit gegenüber verschiedenen Anweisungen. Unsere Ergebnisse heben die Fähigkeit des LSLM hervor, Duplexkommunikation mit minimalem Einfluss auf bestehende Systeme zu erreichen. Diese Studie zielt darauf ab, die Entwicklung interaktiver Sprachdialogsysteme voranzutreiben und ihre Anwendbarkeit in realen Kontexten zu verbessern.
Die Implementierung von Retrieval-Augmented Generation (RAG)-Systemen ist grundsätzlich komplex und erfordert ein tiefes Verständnis von Daten, Anwendungsfällen und komplexen Designentscheidungen. Darüber hinaus stellt die Bewertung dieser Systeme bedeutende Herausforderungen dar, die eine Bewertung sowohl der Abrufgenauigkeit als auch der generativen Qualität durch einen vielschichtigen Ansatz erfordern. Wir stellen RAG Foundry vor, ein Open-Source-Framework zur Erweiterung großer Sprachmodelle für RAG-Anwendungsfälle. RAG Foundry integriert die Erstellung von Daten, das Training, die Inferenz und die Bewertung in einen einzigen Workflow, der die Erstellung von datengestützten Datensätzen für das Training und die Bewertung großer Sprachmodelle in RAG-Umgebungen erleichtert. Diese Integration ermöglicht schnelles Prototyping und Experimentieren mit verschiedenen RAG-Techniken, wodurch Benutzer leicht Datensätze generieren und RAG-Modelle unter Verwendung interner oder spezialisierter Wissensquellen trainieren können. Wir demonstrieren die Wirksamkeit des Frameworks durch die Erweiterung und Feinabstimmung von Llama-3- und Phi-3-Modellen mit vielfältigen RAG-Konfigurationen und zeigen konsistente Verbesserungen über drei wissensintensive Datensätze hinweg. Der Code wird als Open-Source unter https://github.com/IntelLabs/RAGFoundry veröffentlicht.
Wir präsentieren Lumina-mGPT, eine Familie von multimodalen autoregressiven Modellen, die in der Lage sind, verschiedene Vision- und Sprachaufgaben zu bewältigen, insbesondere bei der Erzeugung flexibler fotorealistischer Bilder aus Textbeschreibungen. Im Gegensatz zu bestehenden autoregressiven Ansätzen zur Bildgenerierung verwendet Lumina-mGPT einen vorab trainierten dekoderbasierten Transformer als einheitliches Rahmenwerk zur Modellierung multimodaler Tokenfolgen. Unsere Schlüsselerkenntnis besteht darin, dass ein einfacher dekoderbasierter Transformer mit multimodalem Generative PreTraining (mGPT), der das Ziel der Vorhersage des nächsten Tokens auf massiven, abwechselnden Text-Bild-Sequenzen nutzt, breite und allgemeine multimodale Fähigkeiten erlernen kann, was die fotorealistische Text-zu-Bild-Generierung erleuchtet. Aufbauend auf diesen vorab trainierten Modellen schlagen wir Flexibles Progressives Supervised Feintuning (FP-SFT) auf hochwertigen Bild-Text-Paaren vor, um ihr Potenzial für die Synthese hochästhetischer Bilder in beliebiger Auflösung vollständig zu entfalten, während ihre allgemeinen multimodalen Fähigkeiten erhalten bleiben. Darüber hinaus führen wir Ominipotentes Supervised Feintuning (Omni-SFT) ein, das Lumina-mGPT in ein Grundlagenmodell verwandelt, das nahtlos eine omnipotente Aufgabenvereinigung erreicht. Das resultierende Modell zeigt vielseitige multimodale Fähigkeiten, einschließlich visueller Generierungsaufgaben wie flexible Text-zu-Bild-Generierung und kontrollierbare Generierung, visueller Erkennungsaufgaben wie Segmentierung und Tiefenschätzung sowie Vision-Sprach-Aufgaben wie mehrschichtige visuelle Fragebeantwortung. Darüber hinaus analysieren wir die Unterschiede und Ähnlichkeiten zwischen diffusionsbasierten und autoregressiven Methoden in einem direkten Vergleich.
Wir stellen MeshAnything V2 vor, einen autoregressiven Transformer, der Künstler-erstellte Meshes (AM) erzeugt, die an gegebene Formen ausgerichtet sind. Es kann in verschiedene 3D-Asset-Produktionspipelines integriert werden, um eine hochwertige und hochgradig steuerbare AM-Generierung zu erreichen. MeshAnything V2 übertrifft bisherige Methoden sowohl in Effizienz als auch Leistung unter Verwendung von Modellen derselben Größe. Diese Verbesserungen sind auf unsere neu vorgeschlagene Mesh-Tokenisierungsmethode zurückzuführen: Adjacent Mesh Tokenization (AMT). Im Gegensatz zu früheren Methoden, die jedes Gesicht mit drei Eckpunkten darstellen, verwendet AMT einen einzelnen Eckpunkt, wann immer möglich. Im Vergleich zu früheren Methoden erfordert AMT etwa die Hälfte der Tokenfolgenlänge, um das gleiche Mesh im Durchschnitt darzustellen. Darüber hinaus sind die Tokenfolgen von AMT kompakter und gut strukturiert, was der AM-Generierung grundlegend zugutekommt. Unsere umfangreichen Experimente zeigen, dass AMT die Effizienz und Leistung der AM-Generierung signifikant verbessert. Projektseite: https://buaacyw.github.io/meshanything-v2/
Die modellbasierte Evaluation steht im Mittelpunkt der erfolgreichen Modellentwicklung - als Belohnungsmodell für das Training und als Ersatz für die menschliche Bewertung. Um solche Evaluatoren zu trainieren, ist der Standardansatz, eine große Menge menschlicher Präferenzurteile über Modellantworten zu sammeln, was kostspielig ist und die Daten veralten, während sich die Modelle verbessern. In dieser Arbeit stellen wir einen Ansatz vor, der darauf abzielt, Evaluatoren ohne menschliche Annotationen zu verbessern, indem nur synthetische Trainingsdaten verwendet werden. Ausgehend von unbeschrifteten Anweisungen generiert unser iteratives Selbstverbesserungsschema kontrastierende Modellausgaben und trainiert einen LLM-als-Richter, um Begründungsspuren und endgültige Urteile zu erzeugen. Dieses Training wird in jeder neuen Iteration unter Verwendung der verbesserten Vorhersagen wiederholt. Ohne jegliche beschrifteten Präferenzdaten kann unser selbstlernender Evaluator einen starken LLM (Llama3-70B-Instruct) von 75,4 auf 88,3 verbessern (88,7 mit Mehrheitsentscheidung) auf RewardBench. Dies übertrifft häufig verwendete LLM-Richter wie GPT-4 und entspricht der Leistung der am besten abschneidenden Belohnungsmodelle, die mit beschrifteten Beispielen trainiert wurden.
Die Feinabstimmung von Anweisungen spielt eine entscheidende Rolle bei der Ausrichtung großer Sprachmodelle (LLMs) auf menschliche Präferenzen. Trotz der großen Menge an offenen Anweisungsdatensätzen ist es möglicherweise nicht optimal und praktisch, ein LLM naiv auf allen vorhandenen Anweisungen zu trainieren. Um die vorteilhaftesten Datenpunkte zu ermitteln, wurden in den Bereichen der natürlichen Sprachverarbeitung (NLP) und des Deep Learning Datenbewertungs- und Auswahlmethoden vorgeschlagen. Unter dem Kontext der Anweisungsfeinabstimmung besteht jedoch immer noch eine Wissenslücke darüber, welche Art von Datenbewertungsmetriken verwendet werden können und wie sie in den Auswahlmechanismus integriert werden können. Um diese Lücke zu schließen, präsentieren wir eine umfassende Übersicht über die bestehende Literatur zur Datenbewertung und -auswahl, insbesondere für die Anweisungsfeinabstimmung von LLMs. Wir kategorisieren systematisch alle anwendbaren Methoden in qualitätsbasierte, diversitätsbasierte und bedeutungsbasierte Methoden, wobei eine vereinheitlichte, feingliedrige Taxonomie strukturiert wird. Für jede Kategorie werden repräsentative Methoden erläutert, um das Spektrum relevanter Forschung darzustellen. Darüber hinaus wird ein Vergleich zwischen den neuesten Methoden anhand ihrer offiziell gemeldeten Ergebnisse durchgeführt, um eingehende Diskussionen über ihre Einschränkungen zu bieten. Abschließend fassen wir die offenen Herausforderungen zusammen und schlagen vielversprechende Ansätze für zukünftige Studien vor. Alle relevanten Inhalte sind verfügbar unter https://github.com/yuleiqin/fantastic-data-engineering.
Die Qualität von Video-Text-Paaren bestimmt grundlegend die Obergrenze von Text-zu-Video-Modellen. Derzeit leiden die für das Training dieser Modelle verwendeten Datensätze unter erheblichen Mängeln, darunter geringe zeitliche Konsistenz, schlechte Untertitelqualität, minderwertige Videoqualität und eine unausgewogene Datenverteilung. Der vorherrschende Prozess der Videokuration, der auf Bildmodellen zur Markierung und manuellen regelbasierten Kuration beruht, führt zu einer hohen Rechenlast und hinterlässt unreine Daten. Als Ergebnis gibt es einen Mangel an geeigneten Trainingsdatensätzen für Text-zu-Video-Modelle. Um dieses Problem zu lösen, präsentieren wir VidGen-1M, einen überlegenen Trainingsdatensatz für Text-zu-Video-Modelle. Durch eine grob-zu-fein-Kurationsstrategie erstellt, garantiert dieser Datensatz hochwertige Videos und detaillierte Untertitel mit ausgezeichneter zeitlicher Konsistenz. Bei Verwendung zur Schulung des Videoerzeugungsmodells führte dieser Datensatz zu experimentellen Ergebnissen, die die mit anderen Modellen erzielten übertreffen.
In diesem Paper schlagen wir ProCreate vor, eine einfache und leicht umzusetzende Methode zur Verbesserung der Stichprobenvielfalt und Kreativität von diffusionsbasierten generativen Bildmodellen vor und zur Verhinderung der Reproduktion von Trainingsdaten. ProCreate arbeitet mit einer Reihe von Referenzbildern und treibt den generierten Bildembedding aktiv von den Referenz-Embeddings während des Generierungsprozesses weg. Wir schlagen FSCG-8 (Few-Shot Creative Generation 8) vor, einen Few-Shot-Kreativgenerierungsdatensatz in acht verschiedenen Kategorien - die verschiedene Konzepte, Stile und Einstellungen umfassen - in dem ProCreate die höchste Stichprobenvielfalt und -treue erreicht. Darüber hinaus zeigen wir, dass ProCreate wirksam ist, um die Replikation von Trainingsdaten in einer groß angelegten Evaluation unter Verwendung von Trainings-Textvorgaben zu verhindern. Code und FSCG-8 sind verfügbar unter https://github.com/Agentic-Learning-AI-Lab/procreate-diffusion-public. Die Projektseite ist unter https://procreate-diffusion.github.io verfügbar.
Der Fortschritt der natürlichen Sprachverarbeitung (NLP) in der Biologie hängt von der Fähigkeit der Modelle ab, komplexe biomedizinische Literatur zu interpretieren. Traditionelle Modelle haben oft Schwierigkeiten mit der komplexen und fachspezifischen Sprache in diesem Bereich. In diesem Artikel stellen wir BioMamba vor, ein speziell für das Text-Mining in der Biomedizin entwickeltes vorab trainiertes Modell. BioMamba baut auf der Mamba-Architektur auf und wird auf einem umfangreichen Korpus biomedizinischer Literatur vorab trainiert. Unsere empirischen Studien zeigen, dass BioMamba in verschiedenen biomedizinischen Aufgaben signifikant bessere Leistungen erbringt als Modelle wie BioBERT und die allgemeine Mamba-Architektur. Beispielsweise erzielt BioMamba eine 100-fache Reduzierung der Perplexität und eine 4-fache Reduzierung des Cross-Entropy-Verlusts auf dem BioASQ-Testdatensatz. Wir geben einen Überblick über die Modellarchitektur, den Vorab-Trainingsprozess und die Feinabstimmungstechniken. Darüber hinaus veröffentlichen wir den Code und das trainierte Modell, um weitere Forschung zu erleichtern.
Multi-Agent-Lernalgorithmen waren erfolgreich bei der Erzeugung von übermenschlicher Planung in einer Vielzahl von Spielen, haben jedoch wenig Einfluss auf die Gestaltung von implementierten Multi-Agenten-Planern gehabt. Ein zentraler Engpass bei der Anwendung dieser Techniken auf Multi-Agenten-Planung ist, dass sie Milliarden von Erfahrungsschritten erfordern. Um die Untersuchung der Multi-Agenten-Planung in diesem Maßstab zu ermöglichen, präsentieren wir GPUDrive, einen auf GPUs beschleunigten Multi-Agenten-Simulator, der auf dem Madrona Game Engine aufbaut und über eine Million Erfahrungsschritte pro Sekunde generieren kann. Beobachtungs-, Belohnungs- und Dynamikfunktionen sind direkt in C++ geschrieben, was es den Benutzern ermöglicht, komplexe, heterogene Agentenverhalten zu definieren, die in leistungsstarkes CUDA umgewandelt werden. Wir zeigen, dass wir mit GPUDrive in der Lage sind, Verstärkungslernagenten effektiv über viele Szenen im Waymo Motion-Datensatz zu trainieren, wodurch hochwirksame Ziel-erreichende Agenten in Minuten für einzelne Szenen und im Allgemeinen fähige Agenten in wenigen Stunden entstehen. Diese trainierten Agenten werden als Teil des Code-Basissystems unter https://github.com/Emerge-Lab/gpudrive bereitgestellt.
Kompositionelle visuelle Denkmethoden, die eine komplexe Abfrage in eine strukturierte Zusammensetzung machbarer visueller Aufgaben übersetzen, haben ein starkes Potenzial bei komplizierten multimodalen Aufgaben gezeigt. Belebt durch jüngste Fortschritte in großen Sprachmodellen (LLMs) wurde diese multimodale Herausforderung durch die Behandlung von LLMs als Few-Shot/Zero-Shot-Planer, d.h. Vision-Language (VL)-Programmierung, auf eine neue Stufe gehoben. Solche Methoden leiden trotz ihrer zahlreichen Vorzüge unter Herausforderungen aufgrund von Planungsfehlern von LLMs oder Ungenauigkeiten der visuellen Ausführungsmodule und hinken den nicht-kompositionellen Modellen hinterher. In dieser Arbeit entwickeln wir eine "Plug-and-Play"-Methode, ExoViP, um Fehler sowohl in den Planungs- als auch in den Ausführungsphasen durch introspektive Überprüfung zu korrigieren. Wir verwenden Überprüfungsmodule als "Exoskelette", um aktuelle VL-Programmierschemata zu verbessern. Speziell nutzt unser vorgeschlagenes Überprüfungsmodul eine Mischung aus drei Teilüberprüfern, um Vorhersagen nach jedem Denkschritt zu validieren, anschließend die Vorhersagen des visuellen Moduls zu kalibrieren und die von LLMs geplante Denkspur zu verfeinern. Experimentelle Ergebnisse zu zwei repräsentativen VL-Programmierungsmethoden zeigen konsistente Verbesserungen bei fünf kompositionellen Denkaufgaben auf Standard-Benchmarks. In Anbetracht dessen sind wir der Überzeugung, dass ExoViP eine bessere Leistung und Verallgemeinerung bei offenen multimodalen Herausforderungen fördern kann.
Der kürzliche Anstieg von Open-Source Large Language Models (LLMs) ermöglicht es Entwicklern, KI-basierte Lösungen zu erstellen, während sie die Kontrolle über Aspekte wie Datenschutz und Konformität behalten, wodurch Governance und Eigentum des Modellbereitstellungsprozesses gewährleistet werden. Um diese LLMs zu nutzen, werden Inferenz-Engines benötigt. Diese Engines laden die Gewichte des Modells auf verfügbare Ressourcen wie GPUs und verarbeiten Anfragen, um Antworten zu generieren. Die Geschwindigkeit der Inferenz oder Leistung des LLM ist für Echtzeit-Anwendungen entscheidend, da sie Millionen oder Milliarden von Gleitkommaoperationen pro Inferenz berechnet. In letzter Zeit sind fortschrittliche Inferenz-Engines wie vLLM aufgetaucht, die neuartige Mechanismen wie effizientes Speichermanagement integrieren, um eine Spitzenleistung zu erreichen. In diesem Papier analysieren wir die Leistung, insbesondere den Durchsatz (generierte Tokens pro Zeiteinheit), von 20 LLMs unter Verwendung von zwei Inferenz-Bibliotheken: vLLM und HuggingFace's Pipelines. Wir untersuchen, wie verschiedene Hyperparameter, die von Entwicklern konfiguriert werden müssen, die Inferenzleistung beeinflussen. Unsere Ergebnisse zeigen, dass die Durchsatzlandschaften unregelmäßig sind, mit deutlichen Spitzen, was die Bedeutung der Hyperparameteroptimierung zur Erzielung maximaler Leistung hervorhebt. Wir zeigen auch, dass die Anwendung von Hyperparameteroptimierung beim Aufrüsten oder Herabstufen des für die Inferenz verwendeten GPU-Modells den Durchsatz von HuggingFace-Pipelines im Durchschnitt um 9,16 % bzw. 13,7 % verbessern kann.
Fortgeschrittene KI-Assistenten kombinieren fortschrittliche LLMs und Werkzeugzugriff, um autonom komplexe Aufgaben im Auftrag von Benutzern auszuführen. Während die Hilfreichkeit solcher Assistenten dramatisch steigen kann, wenn sie Zugriff auf Benutzerinformationen wie E-Mails und Dokumente haben, ergeben sich Datenschutzbedenken hinsichtlich der Weitergabe unangemessener Informationen durch Assistenten an Dritte ohne Benutzeraufsicht. Um die Weitergabe von Informationen durch Assistenten so zu lenken, dass sie den Datenschutzerwartungen entsprechen, schlagen wir vor, den Begriff der kontextuellen Integrität (CI) zu operationalisieren, ein Rahmenwerk, das Datenschutz mit dem angemessenen Informationsfluss in einem bestimmten Kontext gleichsetzt. Insbesondere entwerfen und bewerten wir eine Reihe von Strategien, um die Weitergabe von Informationen durch Assistenten CI-konform zu lenken. Unsere Bewertung basiert auf einem neuartigen Formularausfüllungs-Benchmark, der aus synthetischen Daten und menschlichen Annotationen besteht, und zeigt, dass das Auffordern von fortschrittlichen LLMs zur Durchführung von CI-basiertem Denken zu starken Ergebnissen führt.