Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Proprietäre Sprachmodelle wie GPT-4 werden häufig zur Bewertung der Qualität von Antworten aus verschiedenen Sprachmodellen eingesetzt. Bedenken hinsichtlich Transparenz, Steuerbarkeit und Erschwinglichkeit motivieren jedoch nachdrücklich die Entwicklung von Open-Source-Sprachmodellen, die auf Bewertungen spezialisiert sind. Andererseits weisen bestehende offene Bewertungssprachmodelle wesentliche Mängel auf: 1) sie vergeben Bewertungen, die erheblich von denen abweichen, die von Menschen vergeben werden, und 2) ihnen fehlt die Flexibilität, sowohl direkte Bewertungen als auch paarweise Rangfolgen, die beiden gängigsten Formen der Bewertung, durchzuführen. Darüber hinaus besitzen sie nicht die Fähigkeit, auf der Grundlage benutzerdefinierter Bewertungskriterien zu bewerten, sondern konzentrieren sich stattdessen auf allgemeine Attribute wie Hilfreichkeit und Unbedenklichkeit. Um diese Probleme zu lösen, stellen wir Prometheus 2 vor, ein leistungsfähigeres Bewertungssprachmodell als sein Vorgänger, das menschlichen und GPT-4-Beurteilungen eng nachempfunden ist. Darüber hinaus ist es in der Lage, sowohl direkte Bewertungen als auch paarweise Rangfolgen in Verbindung mit benutzerdefinierten Bewertungskriterien zu verarbeiten. Auf vier direkten Bewertungsbenchmarks und vier paarweisen Rangfolgenbenchmarks erzielt Prometheus 2 die höchste Korrelation und Übereinstimmung mit Menschen und proprietären LM-Richtern unter allen getesteten offenen Bewertungssprachmodellen. Unsere Modelle, der Code und die Daten sind alle öffentlich verfügbar unter https://github.com/prometheus-eval/prometheus-eval.
Low Rank Adaptation (LoRA) hat sich als eine der am weitesten verbreiteten Methoden für die parameter-effiziente Feinabstimmung (PEFT) von großen Sprachmodellen (LLMs) etabliert. LoRA reduziert die Anzahl der trainierbaren Parameter und den Speicherverbrauch, während eine vergleichbare Leistung wie bei vollständiger Feinabstimmung erzielt wird. Unser Ziel ist es, die Machbarkeit des Trainings und des Einsatzes von mit LoRA feinabgestimmten LLMs in realen Anwendungen zu bewerten. Zunächst messen wir die Qualität von mit quantisierten Low-Rank-Adaptern feinabgestimmten LLMs über 10 Basismodelle und 31 Aufgaben für insgesamt 310 Modelle. Wir stellen fest, dass 4-Bit LoRA-feinabgestimmte Modelle im Durchschnitt die Basismodelle um 34 Punkte und GPT-4 um 10 Punkte übertreffen. Zweitens untersuchen wir die effektivsten Basismodelle für die Feinabstimmung und bewerten die korrelative und prädiktive Kapazitäten von Heuristiken zur Aufgabenkomplexität bei der Vorhersage der Ergebnisse der Feinabstimmung. Schließlich evaluieren wir die Latenz- und Parallelitätsfähigkeiten von LoRAX, einem Open-Source Multi-LoRA-Inferenzserver, der die Bereitstellung mehrerer mit LoRA feinabgestimmter Modelle auf einer einzigen GPU unter Verwendung gemeinsamer Basismodellgewichte und dynamischem Adapterladen erleichtert. LoRAX betreibt LoRA Land, eine Webanwendung, die 25 mit LoRA feinabgestimmte Mistral-7B LLMs auf einer einzigen NVIDIA A100 GPU mit 80 GB Speicher hostet. LoRA Land hebt die Qualität und Kosteneffizienz hervor, die sich aus der Verwendung mehrerer spezialisierter LLMs gegenüber einem einzigen, allgemeinen LLM ergeben.
Chatbots wie GPT-4 und ChatGPT bedienen nun Millionen von Benutzern. Trotz ihrer weit verbreiteten Nutzung fehlt es immer noch an öffentlichen Datensätzen, die zeigen, wie diese Tools von einer Benutzerpopulation in der Praxis eingesetzt werden. Um diese Lücke zu schließen, haben wir kostenlosen Zugang zu ChatGPT für Online-Benutzer angeboten, im Austausch für ihre zustimmende, freiwillige Zustimmung zur anonymen Erfassung ihrer Chat-Transkripte und Anfrage-Header. Daraus haben wir WildChat erstellt, ein Korpus von 1 Million Benutzer-ChatGPT-Gesprächen, das über 2,5 Millionen Interaktionswechsel umfasst. Wir vergleichen WildChat mit anderen beliebten Benutzer-Chatbot-Interaktionsdatensätzen und stellen fest, dass unser Datensatz die vielfältigsten Benutzeranfragen bietet, die größte Anzahl von Sprachen enthält und die reichhaltigste Vielfalt an potenziell toxischen Anwendungsfällen für Forscher zum Studium bereitstellt. Zusätzlich zu den zeitgestempelten Chat-Transkripten bereichern wir den Datensatz mit demografischen Daten, einschließlich Bundesland, Land und gehashten IP-Adressen, zusammen mit Anfrage-Headern. Diese Erweiterung ermöglicht eine detailliertere Analyse des Benutzerverhaltens in verschiedenen geografischen Regionen und zeitlichen Dimensionen. Schließlich, da es eine breite Palette von Anwendungsfällen erfasst, zeigen wir das potenzielle Nutzen des Datensatzes zur Feinabstimmung von Anweisungsfolgemodellen auf. WildChat wird unter AI2 ImpACT Lizenzen auf https://wildchat.allen.ai veröffentlicht.
Für aktuelle diffusionsbasierte generative Modelle stellt die Aufrechterhaltung konsistenter Inhalte über eine Reihe von generierten Bildern, insbesondere solche mit Motiven und komplexen Details, eine bedeutende Herausforderung dar. In diesem Paper schlagen wir eine neue Methode zur Selbst-Aufmerksamkeitsberechnung vor, die als Konsistente Selbst-Aufmerksamkeit bezeichnet wird und die Konsistenz zwischen den generierten Bildern signifikant verbessert und gängige vortrainierte diffusionsbasierte Text-zu-Bild-Modelle auf Null-Shot-Weise erweitert. Um unsere Methode auf die Langstrecken-Videoerzeugung auszudehnen, führen wir zusätzlich ein neuartiges semantisches Raum-Zeit-Bewegungsvorhersagemodul ein, das als Semantischer Bewegungsvorhersager bezeichnet wird. Es wird trainiert, um die Bewegungsbedingungen zwischen zwei bereitgestellten Bildern in den semantischen Räumen zu schätzen. Dieses Modul wandelt die generierte Sequenz von Bildern in Videos mit sanften Übergängen und konsistenten Motiven um, die signifikant stabiler sind als Module, die nur auf latenten Räumen basieren, insbesondere im Kontext der Langvideoerzeugung. Durch die Fusion dieser beiden neuartigen Komponenten kann unser Framework, das als StoryDiffusion bezeichnet wird, eine textbasierte Geschichte mit konsistenten Bildern oder Videos beschreiben, die eine Vielzahl von Inhalten umfassen. Die vorgeschlagene StoryDiffusion umfasst bahnbrechende Erkundungen in der visuellen Geschichtenerzeugung mit der Präsentation von Bildern und Videos, die hoffentlich mehr Forschung aus dem Aspekt der architektonischen Modifikationen inspirieren können. Unser Code ist öffentlich unter https://github.com/HVision-NKU/StoryDiffusion verfügbar gemacht.
Die Ausrichtung von großen Sprachmodellen (LLMs) an menschlichen Werten und Präferenzen ist entscheidend, um sie hilfreich und sicher zu machen. Die Entwicklung effizienter Tools zur Durchführung der Ausrichtung kann jedoch herausfordernd sein, insbesondere für die größten und leistungsfähigsten LLMs, die oft zehn oder hunderte Milliarden Parameter enthalten. Wir haben NeMo-Aligner entwickelt, ein Toolkit für die Modellausrichtung, das effizient auf Hunderte von GPUs für das Training skaliert werden kann. NeMo-Aligner bietet hoch optimierte und skalierbare Implementierungen für wichtige Paradigmen der Modellausrichtung wie: Verstärkendes Lernen aus menschlichem Feedback (RLHF), Direkte Präferenzoptimierung (DPO), SteerLM und Selbstspiel Feinabstimmung (SPIN). Darüber hinaus unterstützt unser Toolkit das Ausführen der meisten Ausrichtungstechniken in einem Einstellung für parametereffizientes Feintuning (PEFT). NeMo-Aligner ist auf Erweiterbarkeit ausgelegt und ermöglicht die Unterstützung anderer Ausrichtungstechniken mit minimalem Aufwand. Es ist Open Source unter der Apache 2.0 Lizenz und wir laden die Community ein, Beiträge unter https://github.com/NVIDIA/NeMo-Aligner zu leisten.
Die Ausrichtung ist ein Standardverfahren zur Feinabstimmung von vortrainierten großen Sprachmodellen (LLMs), um natürlichen Sprachanweisungen zu folgen und als hilfreiche KI-Assistenten zu dienen. Wir haben jedoch beobachtet, dass der herkömmliche Ausrichtungsprozess die faktische Genauigkeit von LLMs nicht verbessert und oft zu einer vermehrten Generierung falscher Fakten (d. h. Halluzination) führt. In diesem Papier untersuchen wir, wie der Ausrichtungsprozess von LLMs faktentreuer gestaltet werden kann, indem wir zunächst Faktoren identifizieren, die zu Halluzinationen in beiden Ausrichtungsschritten führen: überwachtes Feintuning (SFT) und Verstärkendes Lernen (RL). Insbesondere stellen wir fest, dass das Training des LLMs mit neuem Wissen oder unvertrauten Texten Halluzinationen fördern kann. Dies macht SFT weniger faktentreu, da es auf menschlich gelabelten Daten trainiert, die für das LLM möglicherweise neu sind. Darüber hinaus können Belohnungsfunktionen, die im Standard-RL verwendet werden, ebenfalls Halluzinationen fördern, da sie das LLM dazu anleiten, auf eine vielfältige Menge von Anweisungen hilfreichere Antworten zu geben, oft längere und ausführlichere Antworten bevorzugend. Basierend auf diesen Beobachtungen schlagen wir eine faktentreue Ausrichtung vor, bestehend aus faktentreuem SFT und faktentreuem RL durch direkte Präferenzoptimierung. Experimente zeigen, dass unsere vorgeschlagene faktentreue Ausrichtung LLMs dazu anleitet, faktentreuere Antworten auszugeben, während sie die Fähigkeit zur Befolgung von Anweisungen beibehalten.
Kunstneuinterpretation ist die Praxis, eine Variation eines Referenzwerks zu erstellen, indem ein gepaartes Kunstwerk geschaffen wird, das einen eindeutigen künstlerischen Stil aufweist. Wir untersuchen, ob ein solches Bildpaar verwendet werden kann, um ein generatives Modell anzupassen, um den gezeigten stilistischen Unterschied einzufangen. Wir schlagen Pair Customization vor, eine neue Anpassungsmethode, die den stilistischen Unterschied aus einem einzigen Bildpaar lernt und dann den erworbenen Stil auf den Generierungsprozess anwendet. Im Gegensatz zu bestehenden Methoden, die lernen, ein einzelnes Konzept aus einer Sammlung von Bildern zu imitieren, erfasst unsere Methode den stilistischen Unterschied zwischen gepaarten Bildern. Dies ermöglicht es uns, eine stilistische Veränderung anzuwenden, ohne sich an den spezifischen Bildinhalten in den Beispielen anzupassen. Um diese neue Aufgabe anzugehen, verwenden wir eine gemeinsame Optimierungsmethode, die den Stil und den Inhalt explizit in separate LoRA-Gewichtsräume trennt. Wir optimieren diese Stil- und Inhalts-Gewichte, um die Stil- und Inhaltsbilder zu reproduzieren und ihre Orthogonalität zu fördern. Während der Inferenz passen wir den Diffusionsprozess über eine neue Stilführung basierend auf unseren gelernten Gewichten an. Sowohl qualitative als auch quantitative Experimente zeigen, dass unsere Methode effektiv lernen kann, den Stil zu erfassen, während sie sich an den Bildinhalt anpasst, was das Potenzial der Modellierung solcher stilistischer Unterschiede aus einem einzigen Bildpaar hervorhebt.
Die Entwicklung der Audiodeskription (AD) war ein entscheidender Schritt hin zur Verbesserung der Zugänglichkeit und Inklusivität von Videoinhalten. Traditionell erforderte die AD-Produktion einen erheblichen Einsatz von Fachkräften, während bestehende automatisierte Ansätze immer noch umfangreiches Training erfordern, um multimodale Eingaben zu integrieren und die Ausgabe von einem Untertitelungsstil in einen AD-Stil anzupassen. In diesem Artikel stellen wir eine automatisierte AD-Erzeugungspipeline vor, die die leistungsstarken multimodalen und anweisungsbefolgenden Fähigkeiten von GPT-4V(ision) nutzt. Bemerkenswert ist, dass unsere Methodik leicht verfügbare Komponenten einsetzt, was zusätzliches Training überflüssig macht. Sie erzeugt ADs, die nicht nur den etablierten Standards der natürlichen Sprach-AD-Produktion entsprechen, sondern auch kontextuell konsistente Charakterinformationen über Frames hinweg beibehalten, dank eines auf Tracking basierenden Charaktererkennungsmoduls. Eine gründliche Analyse des MAD-Datensatzes zeigt, dass unser Ansatz eine Leistung erzielt, die mit lernbasierten Methoden in der automatisierten AD-Produktion vergleichbar ist, wie durch einen CIDEr-Score von 20,5 belegt wird.