Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren Movie Gen, eine Gruppe von Grundlagenmodellen, die hochwertige, 1080p HD-Videos mit verschiedenen Seitenverhältnissen und synchronisiertem Audio generiert. Wir zeigen auch zusätzliche Fähigkeiten wie präzise instruktionsbasierte Videobearbeitung und die Generierung personalisierter Videos basierend auf einem Benutzerbild. Unsere Modelle setzen einen neuen State-of-the-Art in mehreren Aufgaben: Text-zu-Video-Synthese, Video-Personalisierung, Videobearbeitung, Video-zu-Audio-Generierung und Text-zu-Audio-Generierung. Unser größtes Video-Generierungsmodell ist ein 30B-Parameter-Transformer, der mit einer maximalen Kontextlänge von 73K Video-Token trainiert wurde, was einem generierten Video von 16 Sekunden bei 16 Bildern pro Sekunde entspricht. Wir zeigen mehrere technische Innovationen und Vereinfachungen in der Architektur, den latenten Räumen, den Trainingszielen und Rezepten, der Datenaufbereitung, den Evaluierungsprotokollen, den Parallelisierungstechniken und den Inferenzoptimierungen, die es uns ermöglichen, die Vorteile der Skalierung von Vortrainingsdaten, Modellgröße und Trainingsrechenleistung für das Training von groß angelegten Medien-Generierungsmodellen zu nutzen. Wir hoffen, dass dieser Artikel der Forschungsgemeinschaft hilft, Fortschritte und Innovationen in Medien-Generierungsmodellen zu beschleunigen. Alle Videos aus diesem Artikel sind unter https://go.fb.me/MovieGenResearchVideos verfügbar.
Das Wahrnehmen und Generieren verschiedener Modalitäten sind entscheidend für KI-Modelle, um effektiv aus realen Signalen zu lernen und mit ihnen zu interagieren, was zuverlässige Bewertungen für ihre Entwicklung erforderlich macht. Wir identifizieren zwei Hauptprobleme bei aktuellen Bewertungen: (1) inkonsistente Standards, geprägt von verschiedenen Gemeinschaften mit unterschiedlichen Protokollen und Reifegraden; und (2) signifikante Abfragen-, Bewertungs- und Verallgemeinerungsfehler. Um diesen Herausforderungen zu begegnen, stellen wir MixEval-X vor, den ersten beliebigen-zu-beliebigen Benchmark für reale Welt, der darauf abzielt, Bewertungen über Eingabe- und Ausgabemodalitäten zu optimieren und zu standardisieren. Wir schlagen multimodale Benchmark-Mischungs- und Anpassungs-Korrektur-Pipelines vor, um reale Aufgabenverteilungen wiederherzustellen und sicherzustellen, dass Bewertungen effektiv auf reale Anwendungsfälle verallgemeinern. Umfangreiche Meta-Bewertungen zeigen, dass unser Ansatz Benchmark-Stichproben effektiv mit realen Aufgabenverteilungen abgleicht und die Modell-Rankings stark mit denen von crowd-sourced realen Welt-Bewertungen korrelieren (bis zu 0,98). Wir bieten umfassende Ranglisten an, um bestehende Modelle und Organisationen neu zu bewerten und Erkenntnisse zu liefern, um das Verständnis von multimodalen Bewertungen zu verbessern und zukünftige Forschung zu informieren.
LLM-basierte Richter sind als skalierbare Alternative zur menschlichen Bewertung aufgetaucht und werden zunehmend zur Bewertung, Vergleich und Verbesserung von Modellen eingesetzt. Die Zuverlässigkeit der LLM-basierten Richter selbst wird jedoch selten überprüft. Mit der zunehmenden Weiterentwicklung von LLMs werden ihre Antworten anspruchsvoller, was stärkere Richter erfordert, um sie zu bewerten. Bestehende Benchmarks konzentrieren sich hauptsächlich auf die Übereinstimmung eines Richters mit menschlichen Präferenzen, berücksichtigen jedoch oft nicht anspruchsvolle Aufgaben, bei denen die von der Crowd bezogenen menschlichen Präferenzen ein schlechter Indikator für faktische und logische Korrektheit sind. Um dies zu lösen, schlagen wir ein neuartiges Bewertungsframework vor, um LLM-basierte Richter objektiv zu bewerten. Basierend auf diesem Framework schlagen wir JudgeBench vor, einen Benchmark zur Bewertung von LLM-basierten Richtern anhand anspruchsvoller Antwortpaare, die Wissen, Schlussfolgerungen, Mathematik und Codierung umfassen. JudgeBench nutzt eine neuartige Pipeline zur Umwandlung bestehender schwieriger Datensätze in anspruchsvolle Antwortpaare mit Präferenzlabels, die die objektive Korrektheit widerspiegeln. Unsere umfassende Evaluation an einer Sammlung von aufgeforderten Richtern, feinabgestimmten Richtern, Multi-Agenten-Richtern und Belohnungsmodellen zeigt, dass JudgeBench eine deutlich größere Herausforderung darstellt als bisherige Benchmarks, wobei viele starke Modelle (z.B. GPT-4o) nur geringfügig besser abschneiden als zufälliges Raten. Insgesamt bietet JudgeBench eine zuverlässige Plattform zur Bewertung von zunehmend fortgeschrittenen LLM-basierten Richtern. Daten und Code sind verfügbar unter https://github.com/ScalerLab/JudgeBench.
Das Skalieren von autoregressiven Modellen in der Bildverarbeitung hat sich nicht als so vorteilhaft erwiesen wie bei großen Sprachmodellen. In dieser Arbeit untersuchen wir dieses Skalierungsproblem im Kontext der Text-zu-Bild-Erzeugung und konzentrieren uns auf zwei entscheidende Faktoren: ob Modelle diskrete oder kontinuierliche Tokens verwenden und ob Tokens in einer zufälligen oder festen Rasterreihenfolge unter Verwendung von BERT- oder GPT-ähnlichen Transformer-Architekturen generiert werden. Unsere empirischen Ergebnisse zeigen, dass alle Modelle zwar effektiv hinsichtlich Validierungsverlust skalieren, ihre Evaluationsleistung - gemessen an FID, GenEval-Score und visueller Qualität - unterschiedlichen Trends folgt. Modelle, die auf kontinuierlichen Tokens basieren, erzielen signifikant bessere visuelle Qualität als solche, die diskrete Tokens verwenden. Darüber hinaus beeinflussen die Generierungsreihenfolge und Aufmerksamkeitsmechanismen signifikant den GenEval-Score: Modelle mit zufälliger Reihenfolge erzielen bemerkenswert bessere GenEval-Scores im Vergleich zu Rasterreihenfolgemodellen. Inspiriert von diesen Erkenntnissen trainieren wir Fluid, ein autoregressives Modell mit zufälliger Reihenfolge auf kontinuierlichen Tokens. Das Fluid 10.5B-Modell erreicht einen neuen state-of-the-art Zero-Shot FID von 6.16 auf MS-COCO 30K und eine Gesamtpunktzahl von 0.69 im GenEval-Benchmark. Wir hoffen, dass unsere Erkenntnisse und Ergebnisse zukünftige Bemühungen ermutigen werden, die Skalierungslücke zwischen Bild- und Sprachmodellen weiter zu überbrücken.
In diesem Paper stellen wir Janus vor, ein autoregressives Framework, das multimodales Verständnis und Generierung vereint. Frühere Forschung stützt sich oft auf einen einzigen visuellen Encoder für beide Aufgaben, wie z.B. Chameleon. Aufgrund der unterschiedlichen Informationsgranularität, die für multimodales Verständnis und Generierung erforderlich ist, kann dieser Ansatz jedoch zu suboptimaler Leistung führen, insbesondere beim multimodalen Verständnis. Um dieses Problem anzugehen, entkoppeln wir die visuelle Kodierung in separate Pfade, während wir weiterhin eine einzige, vereinheitlichte Transformer-Architektur für die Verarbeitung nutzen. Die Entkopplung lindert nicht nur den Konflikt zwischen den Rollen des visuellen Encoders beim Verständnis und bei der Generierung, sondern erhöht auch die Flexibilität des Frameworks. Beispielsweise können sowohl die multimodalen Verständnis- als auch die Generierungskomponenten unabhängig voneinander ihre am besten geeigneten Kodierungsmethoden auswählen. Experimente zeigen, dass Janus das bisherige vereinheitlichte Modell übertrifft und die Leistung von aufgabenspezifischen Modellen erreicht oder übertrifft. Die Einfachheit, hohe Flexibilität und Effektivität von Janus machen es zu einem vielversprechenden Kandidaten für vereinheitlichte multimodale Modelle der nächsten Generation.
Der Erfolg großer Sprachmodelle (LLMs) hat Bemühungen ausgelöst, Sprach- und Audio-Daten zu integrieren, um allgemeine Grundlagenmodelle zu schaffen, die in der Lage sind, sowohl textuelle als auch nicht-textuelle Eingaben zu verarbeiten. Aktuelle Fortschritte, wie z.B. GPT-4o, heben das Potenzial für end-to-end Sprach-LLMs hervor, die nicht-semantische Informationen und Weltwissen für ein tieferes Verständnis von Sprache bewahren. Um die Entwicklung von Sprach-LLMs zu lenken, schlagen wir einen Fünf-Stufen-Fahrplan vor, der von grundlegender automatischer Spracherkennung (ASR) bis hin zu fortschrittlichen übermenschlichen Modellen reicht, die in der Lage sind, nicht-semantische Informationen mit abstraktem akustischem Wissen für komplexe Aufgaben zu integrieren. Darüber hinaus entwerfen wir einen Benchmark, das SAGI-Bechmark, das kritische Aspekte über verschiedene Aufgaben in diesen fünf Stufen standardisiert und Herausforderungen bei der Verwendung von abstraktem akustischem Wissen und Vollständigkeit der Fähigkeit aufdeckt. Unsere Ergebnisse zeigen Lücken bei der Behandlung von paralinguistischen Hinweisen und abstraktem akustischem Wissen auf, und wir bieten zukünftige Richtungen an. Dieses Papier skizziert einen Fahrplan zur Weiterentwicklung von Sprach-LLMs, führt einen Benchmark zur Evaluation ein und liefert wichtige Erkenntnisse zu ihren aktuellen Einschränkungen und Potenzialen.
Aktuelle mobile Assistenten sind durch ihre Abhängigkeit von System-APIs eingeschränkt oder haben Schwierigkeiten mit komplexen Benutzeranweisungen und verschiedenen Schnittstellen aufgrund begrenzter Verständnis- und Entscheidungsfähigkeiten. Um diesen Herausforderungen zu begegnen, schlagen wir MobA vor, einen neuartigen mobilen Agenten, der von multimodalen großen Sprachmodellen angetrieben wird und die Verständnis- und Planungsfähigkeiten durch eine ausgefeilte Agentenarchitektur auf zwei Ebenen verbessert. Der hochrangige Globale Agent (GA) ist für das Verstehen von Benutzerbefehlen, das Verfolgen von Verlaufserinnerungen und die Planung von Aufgaben verantwortlich. Der niedergradige Lokale Agent (LA) sagt detaillierte Aktionen in Form von Funktionsaufrufen voraus, geleitet von Teilaufgaben und Erinnerungen des GA. Die Integration eines Reflexionsmoduls ermöglicht eine effiziente Aufgabenerfüllung und befähigt das System, zuvor nicht gesehene komplexe Aufgaben zu bewältigen. MobA zeigt signifikante Verbesserungen in der Effizienz der Aufgabenausführung und im Abschlussgrad in Realweltbewertungen und unterstreicht das Potenzial von MLLM-gestützten mobilen Assistenten.
Vision Language Models (VLMs) haben oft Schwierigkeiten mit kulturspezifischem Wissen, insbesondere in Sprachen außerhalb des Englischen und in unterrepräsentierten kulturellen Kontexten. Um ihr Verständnis für solches Wissen zu bewerten, führen wir WorldCuisines ein, einen Benchmark im großen Maßstab für mehrsprachiges und multikulturelles, visuell fundiertes Sprachverständnis ein. Dieser Benchmark umfasst einen visuellen Frage-Antwort-Datensatz (VQA) mit Text-Bild-Paaren in 30 Sprachen und Dialekten, die 9 Sprachfamilien abdecken und über 1 Million Datenpunkte enthalten, was ihn zum größten multikulturellen VQA-Benchmark macht. Er beinhaltet Aufgaben zur Identifizierung von Gerichten und deren Ursprüngen. Wir stellen Bewertungsdatensätze in zwei Größen (12k und 60k Instanzen) zusammen mit einem Trainingsdatensatz (1 Million Instanzen) bereit. Unsere Ergebnisse zeigen, dass VLMs zwar besser abschneiden, wenn der richtige Ortskontext gegeben ist, sie jedoch Schwierigkeiten mit adversen Kontexten und der Vorhersage spezifischer regionaler Küchen und Sprachen haben. Um zukünftige Forschung zu unterstützen, veröffentlichen wir eine Wissensdatenbank mit annotierten Lebensmitteleinträgen und Bildern zusammen mit den VQA-Daten.
Textreiches visuelles Verständnis - die Fähigkeit, Umgebungen zu verarbeiten, in denen dichte Textinhalte mit visuellen Elementen integriert sind - ist entscheidend für multimodale große Sprachmodelle (MLLMs), um effektiv mit strukturierten Umgebungen zu interagieren. Zur Verbesserung dieser Fähigkeit schlagen wir vor, allgemeine multimodale Anweisungen aus Webseiten-Benutzeroberflächen unter Verwendung von textbasierten großen Sprachmodellen (LLMs) zu synthetisieren. Obwohl textbasierte LLMs keine direkte visuelle Eingabe haben, können sie strukturierte Textrepräsentationen aus Webseiten-Zugänglichkeitsbäumen verarbeiten. Diese Anweisungen werden dann mit UI-Bildschirmfotos gepaart, um multimodale Modelle zu trainieren. Wir stellen MultiUI vor, ein Datensatz mit 7,3 Millionen Beispielen von 1 Million Websites, der verschiedene multimodale Aufgaben und UI-Layouts abdeckt. Modelle, die auf MultiUI trainiert sind, übertreffen nicht nur in Web-UI-Aufgaben - mit einer Verbesserung von bis zu 48\% bei VisualWebBench und einer Steigerung der Handlungsrichtigkeit um 19,1\% bei einem Web-Agenten-Datensatz Mind2Web - sondern generalisieren auch überraschend gut auf nicht-webbasierte UI-Aufgaben und sogar auf nicht-UI-Bereiche wie Dokumentenverständnis, OCR und Diagramminterpretation. Diese Ergebnisse verdeutlichen die breite Anwendbarkeit von Web-UI-Daten zur Förderung des textreichen visuellen Verständnisses in verschiedenen Szenarien.
In jüngster Zeit haben Fortschritte bei der individuellen Videogenerierung Benutzern ermöglicht, Videos zu erstellen, die sowohl spezifischen Themen als auch Bewegungsbahnen angepasst sind. Allerdings erfordern bestehende Methoden oft kompliziertes Feintuning zur Testzeit und haben Schwierigkeiten, das Lernen von Themen und die Bewegungssteuerung auszubalancieren, was ihre Anwendbarkeit im wirklichen Leben einschränkt. In diesem Artikel stellen wir DreamVideo-2 vor, ein Zero-Shot-Videokonfigurations-Framework, das in der Lage ist, Videos mit einem spezifischen Thema und Bewegungsbahn zu generieren, die jeweils durch ein einzelnes Bild und eine Sequenz von Begrenzungsrahmen geleitet werden, und ohne die Notwendigkeit für Feintuning zur Testzeit. Speziell führen wir die Referenzaufmerksamkeit ein, die die inhärenten Fähigkeiten des Modells für das Themenlernen nutzt, und entwickeln ein maskengeführtes Bewegungsmodul, um eine präzise Bewegungssteuerung zu erreichen, indem das robuste Bewegungssignal von Feldmasken, die aus Begrenzungsrahmen abgeleitet sind, vollständig genutzt wird. Obwohl diese beiden Komponenten ihre beabsichtigten Funktionen erfüllen, beobachten wir empirisch, dass die Bewegungssteuerung dazu neigt, das Themenlernen zu dominieren. Um dies anzugehen, schlagen wir zwei Schlüsselkonzepte vor: 1) die maskierte Referenzaufmerksamkeit, die ein integriertes latentes Maskenmodellierungsschema in die Referenzaufmerksamkeit einbezieht, um Themenrepräsentationen an den gewünschten Positionen zu verbessern, und 2) einen neu gewichteten Diffusionsverlust, der die Beiträge von Regionen innerhalb und außerhalb der Begrenzungsrahmen differenziert, um ein Gleichgewicht zwischen Themen- und Bewegungssteuerung sicherzustellen. Umfangreiche experimentelle Ergebnisse auf einem neu zusammengestellten Datensatz zeigen, dass DreamVideo-2 sowohl in der Themenanpassung als auch in der Bewegungssteuerung die Methoden auf dem neuesten Stand der Technik übertrifft. Der Datensatz, der Code und die Modelle werden öffentlich zugänglich gemacht.
Künstliche Intelligenz (KI) hat ein signifikantes Potenzial im Gesundheitswesen gezeigt, insbesondere bei der Krankheitsdiagnose und der Behandlungsplanung. Der jüngste Fortschritt bei Medizinischen Großen Bild-Sprach-Modellen (Med-LVLMs) hat neue Möglichkeiten für interaktive diagnostische Werkzeuge eröffnet. Allerdings leiden diese Modelle oft unter faktischer Halluzination, was zu falschen Diagnosen führen kann. Feinabstimmung und abrufgestützte Generierung (RAG) haben sich als Methoden zur Bewältigung dieser Probleme herausgebildet. Die Menge an hochwertigen Daten und Verteilungsverschiebungen zwischen Trainingsdaten und Bereitstellungsdaten begrenzen jedoch die Anwendung von Feinabstimmungsmethoden. Obwohl RAG leichtgewichtig und effektiv ist, sind bestehende auf RAG basierende Ansätze nicht ausreichend allgemein für verschiedene medizinische Bereiche und können potenziell zu Ausrichtungsproblemen führen, sowohl zwischen Modalitäten als auch zwischen dem Modell und der Realität. In diesem Artikel schlagen wir ein vielseitiges multimodales RAG-System, MMed-RAG, vor, das darauf abzielt, die Faktizität von Med-LVLMs zu verbessern. Unser Ansatz führt einen domänenbewussten Abrufmechanismus, eine adaptive Auswahlmethode für abgerufene Kontexte und eine nachweisbare RAG-basierte Feinabstimmungsstrategie ein. Diese Innovationen machen den RAG-Prozess ausreichend allgemein und zuverlässig und verbessern die Ausrichtung signifikant, wenn abgerufene Kontexte eingeführt werden. Experimentelle Ergebnisse über fünf medizinische Datensätze (Radiologie, Augenheilkunde, Pathologie) zu medizinischer VQA und Berichterstellung zeigen, dass MMed-RAG eine durchschnittliche Verbesserung von 43,8% in der faktischen Genauigkeit von Med-LVLMs erreichen kann. Unsere Daten und der Code sind unter https://github.com/richard-peng-xia/MMed-RAG verfügbar.
In dieser Arbeit verbessern wir den Multi-Head-Attention-Mechanismus, den Kern des Transformer-Modells, um die Effizienz zu steigern, während wir das bisherige Genauigkeitsniveau beibehalten oder übertreffen. Wir zeigen, dass der Multi-Head-Attention in Form einer Summe ausgedrückt werden kann. Basierend auf der Erkenntnis, dass nicht alle Aufmerksamkeitsköpfe gleich wichtig sind, schlagen wir Mixture-of-Head-Attention (MoH) vor, eine neue Architektur, die Aufmerksamkeitsköpfe als Experten im Mixture-of-Experts (MoE)-Mechanismus behandelt. MoH hat zwei wesentliche Vorteile: Erstens ermöglicht MoH jedem Token, die geeigneten Aufmerksamkeitsköpfe auszuwählen, was die Inferenzeffizienz verbessert, ohne die Genauigkeit zu beeinträchtigen oder die Anzahl der Parameter zu erhöhen. Zweitens ersetzt MoH die Standard-Summe im Multi-Head-Attention durch eine gewichtete Summe, was der Aufmerksamkeitsmechanismus flexibler macht und zusätzliches Leistungspotenzial freisetzt. Umfangreiche Experimente mit ViT, DiT und LLMs zeigen, dass MoH Multi-Head-Attention übertrifft, indem es nur 50%-90% der Aufmerksamkeitsköpfe verwendet. Darüber hinaus zeigen wir, dass vorab trainierte Multi-Head-Attention-Modelle, wie z.B. LLaMA3-8B, weiterhin in unsere MoH-Modelle überführt werden können. Bemerkenswert ist, dass MoH-LLaMA3-8B eine durchschnittliche Genauigkeit von 64,0% über 14 Benchmarks erreicht und LLaMA3-8B um 2,4% übertrifft, indem es nur 75% der Aufmerksamkeitsköpfe verwendet. Wir glauben, dass das vorgeschlagene MoH eine vielversprechende Alternative zu Multi-Head-Attention darstellt und eine solide Grundlage für die Entwicklung fortschrittlicher und effizienter aufmerksamkeitsbasierter Modelle bietet.
Die Evaluierung großer Sprachmodelle (LLMs) ist kostspielig: Sie erfordert die Generierung und Untersuchung von LLM-Ausgaben auf einem groß angelegten Benchmark verschiedener Aufgaben. Diese Arbeit untersucht, wie man effizient die Aufgaben reduzieren kann, die zur Bewertung von LLMs verwendet werden, ohne die Evaluierungsqualität zu beeinträchtigen. Unsere Studie zeigt, dass die Übertragbarkeit und Relevanz von Aufgaben entscheidende Informationen liefern, um die repräsentativste Teilmengen von Aufgaben zu identifizieren, indem eine Facility-Location-Funktion optimiert wird. Wir schlagen eine praktisch effiziente Metrik zur Schätzung der Übertragbarkeit zwischen zwei Aufgaben mittels In-Context-Learning (ICL) vor. Durch die Analyse der paarweisen Übertragbarkeit können wir die Aufgaben in einem modernen LLM-Benchmark (z.B. MMLU oder FLAN) auf 5% reduzieren, während nur eine <4%ige Differenz zur Bewertung auf dem Original-Benchmark induziert wird. Im Vergleich zu früheren Arbeiten ist unsere Methode trainingsfrei, gradientenfrei und äußerst effizient und erfordert nur ICL.
Die Ausrichtung großer Sprachmodelle (LLMs) beinhaltet das Training von Modellen anhand von Präferenz-kontrastiven Ausgabe-Paaren, um ihre Antworten gemäß menschlicher Präferenzen anzupassen. Um solche kontrastiven Paare zu erhalten, verlassen sich traditionelle Methoden wie RLHF und RLAIF auf begrenzte kontrastierende Muster, wie zum Beispiel variierende Modellvarianten oder Decodierungstemperaturen. Diese Einseitigkeit führt zu zwei Problemen: (1) Die Ausrichtung ist nicht umfassend; und dadurch (2) sind Modelle anfällig für Jailbreaking-Angriffe. Um diese Probleme anzugehen, untersuchen wir, wie man umfassendere und vielfältigere kontrastierende Muster konstruieren kann, um die Präferenzdaten zu verbessern (RQ1) und den Einfluss der Diversifizierung von kontrastierenden Mustern auf die Modellausrichtung zu überprüfen (RQ2). Für RQ1 schlagen wir PopAlign vor, ein Framework, das vielfältige kontrastierende Muster auf prompt-, Modell- und Pipeline-Ebenen integriert und sechs kontrastierende Strategien einführt, die keine zusätzlichen Feedback-Kennzeichnungsverfahren erfordern. In Bezug auf RQ2 führen wir gründliche Experimente durch, die zeigen, dass PopAlign signifikant besser abschneidet als bestehende Methoden und zu einer umfassenderen Ausrichtung führt.
Die Ermöglichung von Large Language Models (LLMs), eine breitere Palette komplexer Aufgaben zu bewältigen (z. B. Codierung, Mathematik), hat das Interesse vieler Forscher geweckt. Da LLMs weiterhin entwickelt werden, führt allein die Erhöhung der Anzahl der Modellparameter zu abnehmenden Leistungsverbesserungen und hohen Rechenkosten. Kürzlich hat OpenAI's o1-Modell gezeigt, dass Inferenzstrategien (d. h. Testzeit-Berechnungsmethoden) auch die Schlussfolgerungsfähigkeiten von LLMs signifikant verbessern können. Die Mechanismen hinter diesen Methoden sind jedoch noch unerforscht. In unserer Arbeit vergleichen wir o1 mit bestehenden Testzeit-Berechnungsmethoden (BoN, Schrittweise BoN, Agent Workflow und Self-Refine), indem wir OpenAI's GPT-4o als Grundlage für allgemeine Schlussfolgerungstests in drei Bereichen (d. h. Mathematik, Codierung, gesunder Menschenverstand) verwenden, um die Schlussfolgerungsmuster von o1 zu untersuchen. Unsere Experimente zeigen, dass das o1-Modell die beste Leistung auf den meisten Datensätzen erzielt hat. In Bezug auf Methoden zur Suche nach vielfältigen Antworten (z. B. BoN) stellen wir fest, dass die Fähigkeit der Belohnungsmodelle und der Suchraum beide die Obergrenze dieser Methoden begrenzen. In Bezug auf Methoden, die das Problem in viele Teilprobleme aufteilen, hat der Agent Workflow aufgrund des domänenspezifischen Systemprompt für eine bessere Planung von Schlussfolgerungsprozessen eine bessere Leistung als Schrittweise BoN erzielt. Es sei erwähnt, dass wir sechs Schlussfolgerungsmuster von o1 zusammengefasst und eine detaillierte Analyse mehrerer Schlussfolgerungstests bereitgestellt haben.
Die Post-Training-Methode hat sich als entscheidendes Paradigma für die Anpassung von großangelegten, vortrainierten Modellen an verschiedene Aufgaben herausgestellt, deren Auswirkungen vollständig durch Delta-Parameter reflektiert werden (d. h. die Diskrepanz zwischen post-trainierten und vortrainierten Parametern). Während zahlreiche Studien Delta-Parameter-Eigenschaften mittels Operationen wie Pruning, Quantisierung, Niederrangapproximation und Extrapolation untersucht haben, fehlte bisher ein einheitlicher Rahmen zur systematischen Untersuchung dieser Eigenschaften. In diesem Artikel schlagen wir eine neue Perspektive vor, die auf der Riemannschen Summenapproximation der Verlustfunktion basiert, um die Operationen zur Bearbeitung von Delta-Parametern zu erläutern. Unsere Analyse kategorisiert bestehende Methoden basierend auf ihrer Leistung nach der Bearbeitung in drei Klassen: wettbewerbsfähig, verringert und verbessert. Wir erklären, wie sie durch den Riemannschen Summenapproximationsterm ausgedrückt werden und wie sie die Modellleistung verändern. Umfangreiche Experimente an visuellen und Sprachmodellen, einschließlich ViT, LLaMA 3, Qwen 2 und Mistral, bestätigen unsere theoretischen Erkenntnisse. Darüber hinaus stellen wir Erweiterungen bestehender Techniken wie DARE und BitDelta vor, die aufzeigen, wie sie die Eigenschaften von Delta-Parametern nutzen und sie in allgemeine Ausdrücke umstrukturieren können, um die Anwendbarkeit und Effektivität der Bearbeitung von Delta-Parametern in post-trainierten Modellen zu verbessern.
In letzter Zeit wird Quantisierung weit verbreitet für die Kompression und Beschleunigung großer Sprachmodelle (LLMs) eingesetzt. Aufgrund der Ausreißer in LLMs ist es entscheidend, Gewichte und Aktivierungen zu glätten, um den Quantisierungsfehler mit gleichermaßen verteilten Quantisierungspunkten zu minimieren. Frühere Forschung untersucht verschiedene Vor-Quantisierungstransformationen zur Unterdrückung von Ausreißern, wie beispielsweise kanalweise Skalierung und Hadamard-Transformation. Allerdings stellen wir fest, dass diese transformierten Gewichte und Aktivierungen weiterhin steil und weitläufig bleiben können. In diesem Artikel schlagen wir FlatQuant (Schnelle und erlernbare affine Transformation) vor, einen neuen Post-Training-Quantisierungsansatz zur Verbesserung der Gleichmäßigkeit von Gewichten und Aktivierungen. Unser Ansatz identifiziert optimale affine Transformationen, die auf jeden linearen Layer zugeschnitten sind, und kalibriert sie in Stunden über ein leichtgewichtiges Ziel. Um den Laufzeitoverhead zu reduzieren, wenden wir Kronecker-Zerlegung auf die Transformationsmatrizen an und verschmelzen alle Operationen in FlatQuant zu einem einzigen Kernel. Umfangreiche Experimente zeigen, dass FlatQuant einen neuen State-of-the-Art-Quantisierungsbenchmark aufstellt. Beispielsweise erreicht es bei der W4A4-Quantisierung des LLaMA-3-70B-Modells eine Genauigkeitsminderung von weniger als 1%, was SpinQuant um 7,5% übertrifft. In Bezug auf die Inferenzlatenz reduziert FlatQuant die durch Vor-Quantisierungstransformation verursachte Verlangsamung von 0,26x bei QuaRot auf lediglich 0,07x, was eine Beschleunigung von bis zu 2,3x für Prefill und 1,7x für Decodierung bringt. Der Code ist verfügbar unter: https://github.com/ruikangliu/FlatQuant.
Die Panorama-Bildzusammenfügung bietet einen vereinheitlichten, weitwinkligen Blick auf eine Szene, der über das Sichtfeld der Kamera hinausreicht. Das Zusammenfügen von Bildern eines schwenkenden Videos zu einem Panoramafoto ist ein gut verstandenes Problem für stationäre Szenen, aber wenn sich Objekte bewegen, kann eine statische Panoramaaufnahme die Szene nicht einfangen. Wir präsentieren eine Methode zur Synthese eines Panoramavideos aus einem zufällig aufgenommenen Schwenkvideo, als ob das Originalvideo mit einer Weitwinkelkamera aufgenommen worden wäre. Wir stellen die Panoramasynthese als ein Raum-Zeit-Ausmalproblem dar, bei dem wir versuchen, ein vollständiges Panoramavideo mit derselben Länge wie das Eingangsvideo zu erstellen. Eine konsistente Vervollständigung des Raum-Zeit-Volumens erfordert eine leistungsstarke, realistische Voraussetzung über den Videoinhalt und die Bewegung, für die wir generative Videomodelle anpassen. Bestehende generative Modelle lassen sich jedoch nicht unmittelbar auf die Panoramavervollständigung erweitern, wie wir zeigen. Stattdessen wenden wir die Videogenerierung als Komponente unseres Panoramasynthesesystems an und zeigen, wie man die Stärken der Modelle ausnutzen kann, während man ihre Einschränkungen minimiert. Unser System kann Videopanoramen für eine Vielzahl von Szenen in freier Wildbahn erstellen, darunter Menschen, Fahrzeuge und fließendes Wasser sowie stationäre Hintergrundmerkmale.
Obwohl große Sprachmodelle (LLMs) beeindruckende Fähigkeiten in verschiedenen Aufgaben zeigen, bergen sie potenzielle Sicherheitsrisiken, wie z.B. 'Jailbreaks', bei denen bösartige Eingaben LLMs dazu bringen können, schädliche Inhalte zu generieren. Um diese Probleme anzugehen, haben viele LLM-Entwickler verschiedene Sicherheitsmaßnahmen implementiert, um diese Modelle auszurichten. Diese Ausrichtung beinhaltet mehrere Techniken, einschließlich Datenfilterung während des Vor-Trainings, überwachtes Feintuning, Verstärkungslernen aus menschlichem Feedback und Red-Teaming-Übungen. Diese Methoden führen oft absichtliche und beabsichtigte Voreingenommenheiten ähnlich der politischen Korrektheit (PC) ein, um das ethische Verhalten von LLMs sicherzustellen. In diesem Artikel gehen wir auf die absichtlichen Voreingenommenheiten ein, die in LLMs für Sicherheitszwecke eingefügt werden, und untersuchen Methoden, um diese Sicherheitsausrichtungstechniken zu umgehen. Insbesondere führen diese absichtlichen Voreingenommenheiten zu einer Jailbreak-Erfolgsquote in GPT-4o-Modellen, die um 20% zwischen nicht-binären und cisgeschlechtlichen Schlüsselwörtern und um 16% zwischen weißen und schwarzen Schlüsselwörtern variiert, selbst wenn die anderen Teile der Eingabe identisch sind. Wir führen das Konzept des PCJailbreak ein, das die inhärenten Risiken hervorhebt, die durch diese sicherheitsbedingten Voreingenommenheiten entstehen. Darüber hinaus schlagen wir eine effiziente Verteidigungsmethode, PCDefense, vor, die Jailbreak-Versuche verhindert, indem Verteidigungsanweisungen vor der Generierung eingefügt werden. PCDefense stellt eine attraktive Alternative zu Schutzmodellen wie Llama-Guard dar, die zusätzliche Inferenzkosten nach der Textgenerierung erfordern. Unsere Ergebnisse betonen die dringende Notwendigkeit, dass LLM-Entwickler einen verantwortungsbewussteren Ansatz bei der Gestaltung und Implementierung von Sicherheitsmaßnahmen verfolgen.
Mit der stetigen Verbesserung der Fähigkeiten von Multimodalen Großen Sprachmodellen (MLLMs) steigt der Bedarf an Evaluierung von MLLMs auf höherer Ebene. Es gibt jedoch einen Mangel an Arbeiten, die MLLMs auf höherer Ebene in der Wahrnehmung und im Verständnis von chinesischem visuellem Inhalt bewerten. Um diese Lücke zu schließen, stellen wir das **C**hinese **I**mage **I**mplication understanding **Bench**mark, **CII-Bench**, vor, das darauf abzielt, die höheren Wahrnehmungs- und Verständnisfähigkeiten von MLLMs für chinesische Bilder zu bewerten. CII-Bench hebt sich auf verschiedene Weisen von bestehenden Benchmarks ab. Zunächst werden die Bilder in CII-Bench aus dem chinesischen Internet bezogen und manuell überprüft, wobei die entsprechenden Antworten ebenfalls manuell erstellt werden, um die Authentizität des chinesischen Kontexts sicherzustellen. Darüber hinaus integriert CII-Bench Bilder, die die chinesische traditionelle Kultur repräsentieren, wie berühmte chinesische traditionelle Gemälde, die das Verständnis des Modells für die chinesische traditionelle Kultur tief reflektieren können. Durch umfangreiche Experimente auf CII-Bench mit mehreren MLLMs haben wir bedeutende Erkenntnisse gewonnen. Zunächst wird ein erheblicher Unterschied in der Leistung von MLLMs und Menschen auf CII-Bench festgestellt. Die höchste Genauigkeit von MLLMs beträgt 64,4%, während die menschliche Genauigkeit im Durchschnitt 78,2% beträgt und beeindruckende 81,0% erreicht. Anschließend schneiden MLLMs schlechter bei chinesischen traditionellen Kulturbildern ab, was auf Einschränkungen in ihrer Fähigkeit hinweist, hochrangige Semantik zu verstehen und über ein tiefes Wissensfundament der chinesischen traditionellen Kultur zu verfügen. Schließlich wird festgestellt, dass die meisten Modelle eine verbesserte Genauigkeit aufweisen, wenn emotionale Hinweise aus den Bildern in die Anfragen integriert werden. Wir sind der Überzeugung, dass CII-Bench MLLMs ermöglichen wird, ein besseres Verständnis für chinesische Semantik und chinesisch-spezifische Bilder zu erlangen und somit den Weg hin zu einer Experten-Künstlichen-Allgemeinintelligenz (AGI) voranzutreiben. Unser Projekt ist öffentlich verfügbar unter https://cii-bench.github.io/.
Die Generative Fehlerkorrektur (GEC) hat sich als leistungsstarke Nachbearbeitungsmethode zur Verbesserung der Leistung von Automatischen Spracherkennungssystemen (ASR) etabliert. Allerdings zeigen wir, dass GEC-Modelle Schwierigkeiten haben, über die spezifischen während des Trainings aufgetretenen Fehlerarten hinaus zu generalisieren, was ihre Fähigkeit einschränkt, neue, unerkannte Fehler zur Testzeit zu korrigieren, insbesondere in Out-of-Domain (OOD)-Szenarien. Dieses Phänomen verstärkt sich bei benannten Entitäten (NEs), bei denen neben unzureichenden Kontextinformationen oder Kenntnissen über die NEs ständig neue NEs auftauchen. Um diese Probleme anzugehen, schlagen wir DARAG (Daten- und Abruf-erweiterte Generative Fehlerkorrektur) vor, einen neuartigen Ansatz, der darauf abzielt, die GEC für ASR in In-Domain (ID) und OOD-Szenarien zu verbessern. Wir erweitern den GEC-Trainingsdatensatz mit synthetischen Daten, die durch Aufforderung von LLMs und Text-in-Sprache-Modellen generiert wurden, um zusätzliche Fehler zu simulieren, aus denen das Modell lernen kann. Für OOD-Szenarien simulieren wir Testzeitfehler aus neuen Domänen ähnlich und auf unsupervised Weise. Zusätzlich führen wir zur besseren Behandlung von benannten Entitäten eine abruf-erweiterte Korrektur ein, indem wir die Eingabe mit aus einer Datenbank abgerufenen Entitäten erweitern. Unser Ansatz ist einfach, skalierbar und sowohl domänen- als auch sprachunabhängig. Wir experimentieren mit mehreren Datensätzen und Einstellungen und zeigen, dass DARAG alle unsere Baselines übertrifft, mit relativen WER-Verbesserungen von 8\% - 30\% in ID und 10\% - 33\% in OOD-Einstellungen.
Mehrstufige Interaktionen zwischen großen Sprachmodellen (LLMs) und Benutzern beinhalten natürlicherweise implizite Feedbacksignale. Wenn ein LLM unerwartet auf eine Anweisung reagiert, wird der Benutzer dies wahrscheinlich durch eine Neufassung der Anfrage, Ausdruck von Frustration oder Wechsel zu einer alternativen Aufgabe signalisieren. Solche Signale sind aufgabenunabhängig und nehmen einen relativ begrenzten Sprachraum ein, was es dem LLM ermöglicht, sie zu identifizieren, selbst wenn er bei der tatsächlichen Aufgabe versagt. Dies schafft eine Möglichkeit, kontinuierlich aus Interaktionen zu lernen, ohne zusätzliche Annotationen. Wir stellen ReSpect vor, eine Methode, um aus solchen Signalen in vergangenen Interaktionen durch Rückblick zu lernen. Wir setzen ReSpect in einem neuen multimodalen Interaktionsszenario ein, bei dem Menschen ein LLM anweisen, eine abstrakte Denkaufgabe mit einem kombinatorischen Lösungsraum zu lösen. Durch Tausende von Interaktionen mit Menschen zeigen wir, wie ReSpect die Aufgabenerfüllungsrate allmählich von 31% auf 82% verbessert, und das alles ohne externe Annotationen.
Die Entwicklung großer Sprachmodelle (LLMs) hat die Fähigkeiten multimodaler LLMs (MLLMs) als allgemeine Assistenten signifikant verbessert. Allerdings beschränkt der Mangel an benutzerspezifischem Wissen noch immer ihre Anwendung im täglichen Leben der Menschen. In diesem Artikel stellen wir das Retrieval Augmented Personalization (RAP) Framework für die Personalisierung von MLLMs vor. Ausgehend von einem allgemeinen MLLM verwandeln wir ihn in drei Schritten in einen personalisierten Assistenten. (a) Erinnern: Wir entwerfen eine Schlüssel-Wert-Datenbank, um benutzerbezogene Informationen wie den Namen des Benutzers, Avatar und andere Attribute zu speichern. (b) Abrufen: Wenn der Benutzer ein Gespräch beginnt, wird RAP relevante Informationen aus der Datenbank mithilfe eines multimodalen Retrievers abrufen. (c) Generieren: Die Eingabeabfrage und die abgerufenen Konzeptinformationen werden in die MLLMs eingespeist, um personalisierte, wissensgestützte Antworten zu generieren. Im Gegensatz zu früheren Methoden ermöglicht RAP die Echtzeitkonzeptbearbeitung durch Aktualisierung der externen Datenbank. Um die Generierungsqualität und die Ausrichtung auf benutzerspezifische Informationen weiter zu verbessern, entwerfen wir eine Pipeline für die Datensammlung und erstellen einen spezialisierten Datensatz für das personalisierte Training von MLLMs. Basierend auf dem Datensatz trainieren wir eine Reihe von MLLMs als personalisierte multimodale Assistenten. Durch Vortraining auf einem groß angelegten Datensatz können sich RAP-MLLMs auf unendliche visuelle Konzepte generalisieren, ohne zusätzliches Feintuning. Unsere Modelle zeigen eine herausragende Flexibilität und Generierungsqualität bei einer Vielzahl von Aufgaben, wie personalisierte Bildunterschriften, Fragebeantwortung und visuelle Erkennung. Der Code, die Daten und die Modelle sind unter https://github.com/Hoar012/RAP-MLLM verfügbar.
Die Generierung von Musik, die mit dem visuellen Inhalt eines Videos übereinstimmt, war eine anspruchsvolle Aufgabe, da sie ein tiefes Verständnis der visuellen Semantik erfordert und die Erzeugung von Musik beinhaltet, deren Melodie, Rhythmus und Dynamik mit den visuellen Erzählungen harmonieren. Dieses Papier stellt MuVi vor, ein neuartiges Framework, das diese Herausforderungen effektiv angeht, um die Kohäsion und immersive Erfahrung von audiovisuellen Inhalten zu verbessern. MuVi analysiert den Videoinhalt durch einen speziell entwickelten visuellen Adapter, um kontextuell und zeitlich relevante Merkmale zu extrahieren. Diese Merkmale werden verwendet, um Musik zu generieren, die nicht nur zur Stimmung und zum Thema des Videos passt, sondern auch zu seinem Rhythmus und Tempo. Wir führen auch ein kontrastives Musik-Visual-Pre-Training-Schema ein, um die Synchronisation sicherzustellen, basierend auf der periodischen Natur von Musikphrasen. Darüber hinaus zeigen wir, dass unser auf Flussabgleich basierender Musikgenerator über eine kontextbezogene Lernfähigkeit verfügt, die es uns ermöglicht, den Stil und das Genre der generierten Musik zu kontrollieren. Experimentelle Ergebnisse zeigen, dass MuVi eine überlegene Leistung sowohl in der Audioqualität als auch in der zeitlichen Synchronisation aufweist. Die generierten Musikvideo-Beispiele sind unter https://muvi-v2m.github.io verfügbar.
Sprachmodelle (LMs) haben Expertenlevel-Argumentation und Erinnerungsfähigkeiten in der Medizin gezeigt. Jedoch stellen Rechenkosten und Datenschutzbedenken zunehmende Barrieren für eine breit angelegte Implementierung dar. Wir stellen eine sparsame Anpassung von phi-3-mini vor, MedMobile, ein 3,8 Milliarden Parameter LM, das auf einem mobilen Gerät lauffähig ist, für medizinische Anwendungen. Wir zeigen, dass MedMobile 75,7% bei der MedQA (USMLE) erreicht, den Bestehenswert für Ärzte (~60%) übertrifft und sich den Punktzahlen von Modellen annähert, die 100-mal so groß sind. Anschließend führen wir eine sorgfältige Reihe von Ablationen durch und zeigen, dass Gedankenketten, Ensembling und Feinabstimmung zu den größten Leistungssteigerungen führen, während unerwarteterweise die erweiterte Generierung durch Abrufen keine signifikanten Verbesserungen aufzeigt.
Trotz des signifikanten Fortschritts bei multimodalen großen Sprachmodellen (MLLMs) bleibt ihr hoher Rechenaufwand ein Hindernis für den Einsatz in der realen Welt. Inspiriert von der Mischung von Tiefen (MoDs) in der natürlichen Sprachverarbeitung zielen wir darauf ab, diese Einschränkung aus der Perspektive der "aktivierten Token" anzugehen. Unsere Schlüsselerkenntnis ist, dass, wenn die meisten Token für die Schichtberechnung überflüssig sind, sie direkt über die MoD-Schicht übersprungen werden können. Die direkte Umwandlung der dichten Schichten von MLLMs in MoD-Schichten führt jedoch zu erheblichen Leistungseinbußen. Um dieses Problem zu lösen, schlagen wir eine innovative MoD-Anpassungsstrategie für bestehende MLLMs namens Gamma-MoD vor. Bei Gamma-MoD wird eine neue Metrik vorgeschlagen, um die Bereitstellung von MoDs im MLLM zu steuern, nämlich der Rang der Aufmerksamkeitskarten (ARank). Durch ARank können wir effektiv identifizieren, welche Schicht überflüssig ist und durch die MoD-Schicht ersetzt werden sollte. Basierend auf ARank schlagen wir außerdem zwei neue Designs vor, um die Rechensparsamkeit von MLLM zu maximieren, während seine Leistung beibehalten wird, nämlich gemeinsamer Vision-Sprach-Router und maskiertes Routing-Lernen. Mit diesen Designs können mehr als 90% der dichten Schichten des MLLM effektiv in MoD-Schichten umgewandelt werden. Um unsere Methode zu validieren, wenden wir sie auf drei beliebte MLLMs an und führen umfangreiche Experimente an 9 Benchmark-Datensätzen durch. Die experimentellen Ergebnisse bestätigen nicht nur den signifikanten Effizienzvorteil von Gamma-MoD gegenüber bestehenden MLLMs, sondern bestätigen auch seine Verallgemeinerungsfähigkeit auf verschiedene MLLMs. Beispielsweise kann Gamma-MoD bei einem geringfügigen Leistungsabfall von -1,5% die Trainings- und Inferenzzeit von LLaVA-HR um 31,0% bzw. 53,2% reduzieren.
Das rasante Wachstum des Modellumfangs hat einen erheblichen Bedarf an Rechenressourcen für Feinabstimmungen erforderlich gemacht. Bestehende Ansätze wie die Low-Rank-Anpassung (LoRA) haben versucht, das Problem des Umgangs mit den vielen aktualisierten Parametern bei vollständiger Feinabstimmung zu lösen. Allerdings verwendet LoRA eine zufällige Initialisierung und Optimierung von niederrangigen Matrizen, um die aktualisierten Gewichte anzunähern, was zu einer suboptimalen Konvergenz und einer Genauigkeitslücke im Vergleich zur vollständigen Feinabstimmung führen kann. Um diese Probleme zu lösen, schlagen wir LoLDU vor, einen parameter-effizienten Feinabstimmungsansatz (PEFT), der die trainierbaren Parameter im Vergleich zu herkömmlichen PEFT-Methoden um das 2600-fache reduziert, während die Leistung vergleichbar bleibt. LoLDU nutzt die Lower-Diag-Upper-Zerlegung (LDU), um niederrangige Matrizen für eine schnellere Konvergenz und Orthogonalität zu initialisieren. Wir konzentrieren uns auf die Optimierung der Diagonalmatrix für Skalierungstransformationen. Unseres Wissens nach hat LoLDU die geringste Anzahl an Parametern unter allen PEFT-Ansätzen. Wir führten umfangreiche Experimente durch, die 4 Datensätze zur Anweisungsbeachtung, 6 Datensätze zur natürlichen Sprachverarbeitung (NLU), 8 Datensätze zur Bildklassifizierung und Bildgenerierung mit mehreren Modelltypen (LLaMA2, RoBERTa, ViT und Stable Diffusion) umfassen, und bieten eine umfassende und detaillierte Analyse. Unser Open-Source-Code ist unter folgendem Link verfügbar: https://github.com/SKDDJ/LoLDU.
Die Fähigkeit, neue Materialien mit wünschenswerten Eigenschaften zu entdecken, ist für zahlreiche Anwendungen von entscheidender Bedeutung, von der Unterstützung bei der Minderung des Klimawandels bis hin zu Fortschritten in der Hardware für die nächste Generation von Computern. KI hat das Potenzial, die Entdeckung und Gestaltung von Materialien zu beschleunigen, indem sie den chemischen Raum effektiver erkundet im Vergleich zu anderen rechnergestützten Methoden oder durch Ausprobieren. Obwohl bereits erhebliche Fortschritte bei KI für Materialdaten, Benchmarks und Modelle erzielt wurden, ist eine Hürde, die aufgetreten ist, der Mangel an öffentlich verfügbaren Trainingsdaten und offenen vortrainierten Modellen. Um dies zu lösen, präsentieren wir eine Meta FAIR-Veröffentlichung des Open Materials 2024 (OMat24) groß angelegten offenen Datensatzes und einer begleitenden Reihe von vortrainierten Modellen. OMat24 enthält über 110 Millionen Dichtefunktionaltheorie (DFT)-Berechnungen, die auf strukturelle und kompositionelle Vielfalt ausgerichtet sind. Unsere EquiformerV2-Modelle erzielen Spitzenleistungen auf der Matbench Discovery-Rangliste und sind in der Lage, den Grundzustandstabilität und Bildungsenergien mit einem F1-Score über 0,9 bzw. einer Genauigkeit von 20 meV/Atom vorherzusagen. Wir untersuchen die Auswirkungen von Modellgröße, zusätzlichen Rauschunterdrückungszielen und Feinabstimmung auf die Leistung über eine Reihe von Datensätzen, einschließlich OMat24, MPtraj und Alexandria. Die offene Veröffentlichung des OMat24-Datensatzes und der Modelle ermöglicht es der Forschungsgemeinschaft, auf unseren Bemühungen aufzubauen und weitere Fortschritte in der KI-unterstützten Materialwissenschaft voranzutreiben.
Wir schlagen Long-LRM vor, ein generalisierbares 3D-Gaußsches Rekonstruktionsmodell, das in der Lage ist, eine große Szene aus einer langen Sequenz von Eingabebildern wiederherzustellen. Speziell kann unser Modell 32 Quellbilder mit einer Auflösung von 960x540 verarbeiten, und das innerhalb von nur 1,3 Sekunden auf einer einzelnen A100 80G GPU. Unsere Architektur umfasst eine Mischung aus den neueren Mamba2-Blöcken und den klassischen Transformer-Blöcken, die es ermöglichten, deutlich mehr Tokens zu verarbeiten als in früheren Arbeiten. Dies wird durch effizientes Zusammenführen von Tokens und Gaußschem Beschneiden erreicht, um ein Gleichgewicht zwischen Qualität und Effizienz zu schaffen. Im Gegensatz zu früheren feedforward-Modellen, die auf die Verarbeitung von 1-4 Eingabebildern beschränkt sind und nur einen kleinen Teil einer großen Szene rekonstruieren können, rekonstruiert Long-LRM die gesamte Szene in einem einzigen feedforward-Schritt. Auf groß angelegten Szenendatensätzen wie DL3DV-140 und Tanks and Temples erreicht unsere Methode eine vergleichbare Leistung wie optimierungsbasierte Ansätze, ist jedoch um zwei Größenordnungen effizienter. Projektseite: https://arthurhero.github.io/projects/llrm
Mit der raschen Weiterentwicklung großer Sprachmodelle zur Unterstützung längerer Kontexte besteht eine bemerkenswerte Diskrepanz in ihrer Fähigkeit, längere Ausgaben zu generieren. Eine kürzlich durchgeführte Studie legt nahe, dass die Hauptursache für dieses Ungleichgewicht in dem Mangel an Daten mit langen Ausgaben während des Ausrichtungstrainings liegen könnte. Angesichts dieser Beobachtung werden Versuche unternommen, Grundlagenmodelle mit Daten neu auszurichten, die diese Lücke füllen, was zu Modellen führt, die in der Lage sind, umfangreiche Ausgaben zu generieren, wenn sie angewiesen werden. In diesem Paper untersuchen wir die Auswirkungen der Datenqualität bei der Abstimmung eines Modells für lange Ausgaben und die Möglichkeit, dies von den Ausgangspunkten menschenorientierter (Anweisungs- oder Chat-) Modelle aus zu tun. Durch sorgfältige Datenkuratierung zeigen wir, dass es möglich ist, ähnliche Leistungsverbesserungen in unseren abgestimmten Modellen zu erzielen, und das nur mit einem kleinen Bruchteil der Trainingsdaten und Rechenleistung. Darüber hinaus bewerten wir die Verallgemeinerbarkeit solcher Ansätze, indem wir unsere Abstimmungsrezepte auf mehrere Modelle anwenden. Unsere Ergebnisse legen nahe, dass, obwohl die Fähigkeiten zur Generierung langer Ausgaben bei verschiedenen Modellen von Haus aus variieren, unser Ansatz, sie mit hochwertigen Daten unter Verwendung geringer Rechenleistung abzustimmen, konsistent signifikante Verbesserungen bei allen Modellen erzielt, auf denen wir experimentiert haben. Wir haben unseren kuratierten Datensatz zur Abstimmung der Fähigkeit zum Verfassen langer Texte, die Implementierungen zur Modellabstimmung und -bewertung sowie die feinabgestimmten Modelle öffentlich zugänglich gemacht.
Classifier-Free Guidance (CFG) ist eine entscheidende Technik zur Verbesserung der Stichprobenqualität von visuellen generativen Modellen. Allerdings führt CFG in der autoregressiven (AR) multimodalen Generierung zu Designinkonsistenzen zwischen Sprache und visuellem Inhalt, die im Widerspruch zur Designphilosophie der Vereinheitlichung verschiedener Modalitäten für visuelle AR stehen. Angeregt durch Methoden zur Ausrichtung von Sprachmodellen schlagen wir Condition Contrastive Alignment (CCA) vor, um die leitungslose AR-Visuallgenerierung mit hoher Leistung zu erleichtern und ihre theoretische Verbindung mit geleiteten Abtastmethoden zu analysieren. Im Gegensatz zu Leitungsverfahren, die den Abtastprozess verändern, um die ideale Abtastverteilung zu erreichen, feinabstimmt CCA direkt vortrainierte Modelle, um dieselbe Zielverteilung anzupassen. Experimentelle Ergebnisse zeigen, dass CCA die leitungslose Leistung aller getesteten Modelle signifikant verbessern kann, mit nur einer Feinabstimmungsepisode (ca. 1\% der Vortrainingsepochen) auf dem Vortrainingsdatensatz, vergleichbar mit geleiteten Abtastmethoden. Dies reduziert weitgehend die Notwendigkeit für geleitete Abtastung in der AR-Visuallgenerierung und halbiert die Abtastkosten. Darüber hinaus kann CCA durch Anpassung der Trainingsparameter Kompromisse zwischen Stichprobenvielfalt und -treue erreichen, ähnlich wie CFG. Dies bestätigt experimentell die starke theoretische Verbindung zwischen sprachorientierter Ausrichtung und visuell orientierten Leitungsverfahren und vereinigt zwei zuvor unabhängige Forschungsfelder. Code und Modellgewichte: https://github.com/thu-ml/CCA.
Die Verbreitung proprietärer Sprachmodelle hat Datenschutzbedenken hinsichtlich sensibler Nutzerdaten aufgeworfen und die Notwendigkeit für private Inferenz (PI) betont, bei der die Inferenz direkt auf verschlüsselten Eingaben durchgeführt wird. Allerdings stehen aktuelle PI-Methoden aufgrund nichtlinearer Operationen vor unverhältnismäßig höheren Kommunikations- und Latenzüberlastungen. In diesem Papier präsentieren wir eine umfassende Analyse, um die Rolle der Nichtlinearitäten in auf Decodern basierenden Sprachmodellen zu verstehen. Wir stellen AERO vor, ein vierstufiges architektonisches Optimierungsframework, das die bestehende LLM-Architektur für effiziente PI verfeinert, indem systematisch Nichtlinearitäten wie LayerNorm und GELU entfernt und die Anzahl der Gleitkommaoperationen reduziert werden. Zum ersten Mal schlagen wir eine ausschließlich auf Softmax basierende Architektur mit signifikant weniger Gleitkommaoperationen für effiziente PI vor. Darüber hinaus entwickeln wir eine neuartige Entropie-Regularisierungstechnik, um die Leistung von ausschließlich Softmax-Modellen zu verbessern. AERO erzielt eine bis zu 4,23-fache Kommunikations- und 1,94-fache Latenzreduktion. Wir validieren die Wirksamkeit von AERO, indem wir es mit dem Stand der Technik vergleichen.
Vision-Sprache-Grundlagenmodelle (wie CLIP) haben kürzlich ihre Leistungsfähigkeit im Transferlernen gezeigt, dank des groß angelegten Vortrainings von Bild-Text. Allerdings können die Zielbereichsdaten in den nachgelagerten Aufgaben stark von der Vortrainingsphase abweichen, was es für ein solches einzelnes Modell schwierig macht, gut zu generalisieren. Alternativ gibt es eine Vielzahl von Expertenmodellen, die vielfältiges Vision- und/oder Sprachwissen enthalten, das auf verschiedenen Modalitäten, Aufgaben, Netzwerken und Datensätzen vortrainiert ist. Leider handelt es sich bei diesen Modellen um "isolierter Agenten" mit heterogenen Strukturen, und wie man ihr Wissen zur Verallgemeinerung von CLIP-ähnlichen Modellen vollständig integriert, wurde noch nicht vollständig erforscht. Um diese Lücke zu überbrücken, schlagen wir ein allgemeines und prägnantes TransAgenten-Framework vor, das das Wissen der isolierten Agenten auf einheitliche Weise transportiert und CLIP effektiv anleitet, mit Multi-Source-Wissensdestillation zu generalisieren. Mit einem solchen einzigartigen Framework arbeiten wir flexibel mit 11 heterogenen Agenten zusammen, um Vision-Sprache-Grundlagenmodelle zu stärken, ohne zusätzliche Kosten in der Inferenzphase. Schließlich erzielt unser TransAgent Spitzenleistungen auf 11 visuellen Erkennungsdatensätzen. Unter denselben Low-Shot-Einstellungen übertrifft es das beliebte CoOp durchschnittlich um etwa 10 % und um 20 % auf EuroSAT, das große Domänenverschiebungen enthält.
Viele Schüler haben Schwierigkeiten mit Mathematik-Wortproblemen (MWPs) und finden es oft schwer, Schlüsselinformationen zu identifizieren und die geeigneten mathematischen Operationen auszuwählen. Die instruktionsbasierte Schema-Strategie (SBI) ist eine evidenzbasierte Methode, die Schülern hilft, Probleme anhand ihrer Struktur zu kategorisieren und so die Genauigkeit bei der Problemlösung zu verbessern. Aufbauend darauf schlagen wir ein Schema-basiertes Instruktionsabruf-erweitertes Generierungs (SBI-RAG) Framework vor, das ein großes Sprachmodell (LLM) integriert. Unser Ansatz betont schrittweises Denken, indem er Schemata nutzt, um die Lösungsgenerierung zu lenken. Wir bewerten seine Leistung anhand des GSM8K-Datensatzes, vergleichen sie mit GPT-4 und GPT-3.5 Turbo und führen eine "Denk-Score"-Metrik ein, um die Lösungsqualität zu bewerten. Unsere Ergebnisse legen nahe, dass SBI-RAG die Klarheit des Denkens und die Genauigkeit der Problemlösung verbessert und möglicherweise Bildungsvorteile für Schüler bietet.