Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Generierung natürlicher und sinnvoller Antworten zur Kommunikation mit multimodalen menschlichen Eingaben ist eine grundlegende Fähigkeit großer Bild-Sprach-Modelle (LVLMs). Während aktuelle Open-Source LVLMs vielversprechende Leistungen in vereinfachten Szenarien wie einzelnen Einzelbild-Eingaben in einem Dialog zeigen, bleiben sie in realen Gesprächssituationen wie dem Befolgen von Anweisungen in einem langen Kontextverlauf mit multiplen Dialogrunden und Bildern hinter den Erwartungen zurück. Bestehende LVLM-Benchmarks konzentrieren sich hauptsächlich auf Einzelantwortfragen oder kurze Antworten, die die Fähigkeiten von LVLMs in Anwendungen für die Interaktion zwischen Mensch und KI in der realen Welt nicht angemessen bewerten. Daher stellen wir MMDU vor, einen umfassenden Benchmark, und MMDU-45k, einen groß angelegten Anweisungsabstimmungsdatensatz, der entwickelt wurde, um die Fähigkeiten von LVLMs in mehrstufigen und multiplen Bild-Gesprächen zu bewerten und zu verbessern. Wir verwenden den Cluster-Algorithmus, um relevante Bilder und Textbeschreibungen aus der Open-Source Wikipedia zu finden und konstruieren die Frage-Antwort-Paare durch menschliche Annotatoren mit Unterstützung des GPT-4o-Modells. MMDU umfasst maximal 18k Bild+Text-Tokens, 20 Bilder und 27 Dialogrunden, was mindestens 5-mal länger ist als frühere Benchmarks und Herausforderungen für aktuelle LVLMs darstellt. Unsere eingehende Analyse von 15 repräsentativen LVLMs unter Verwendung von MMDU zeigt, dass Open-Source LVLMs aufgrund begrenzter Daten für die Konversationsanpassung im Rückstand gegenüber geschlossenen Gegenstücken sind. Wir zeigen, dass das Feinabstimmen von Open-Source LVLMs auf MMDU-45k diese Lücke signifikant schließt, längere und genauere Gespräche generiert und die Punktzahlen auf MMDU und bestehenden Benchmarks verbessert (MMStar: +1,1%, MathVista: +1,5%, ChartQA: +1,2%). Unsere Beiträge ebnen den Weg, um die Kluft zwischen aktuellen LVLM-Modellen und den Anforderungen in der realen Welt zu überbrücken. Dieses Projekt ist verfügbar unter https://github.com/Liuziyu77/MMDU.
Wir stellen DataComp für Sprachmodelle (DCLM) vor, eine Testumgebung für kontrollierte Datensatzeperimente mit dem Ziel, Sprachmodelle zu verbessern. Im Rahmen von DCLM bieten wir einen standardisierten Korpus von 240 Billionen Tokens, extrahiert aus Common Crawl, effektive Vortrainingsrezepte basierend auf dem OpenLM-Framework und eine breite Palette von 53 nachgelagerten Bewertungen. Teilnehmer am DCLM-Benchmark können mit Datenkurierungsstrategien wie Deduplizierung, Filterung und Datenmischung bei Modellskalen von 412 Millionen bis 7 Milliarden Parametern experimentieren. Als Basislinie für DCLM führen wir umfangreiche Experimente durch und stellen fest, dass modellbasierte Filterung entscheidend ist, um einen hochwertigen Trainingsdatensatz zusammenzustellen. Der resultierende Datensatz, DCLM-Basislinie, ermöglicht das Training eines Sprachmodells mit 7 Milliarden Parametern von Grund auf auf eine 5-Schuss-Genauigkeit von 64% auf MMLU mit 2,6 Billionen Trainings-Tokens. Im Vergleich zu MAP-Neo, dem bisherigen Stand der Technik bei Sprachmodellen mit offenen Daten, stellt DCLM-Basislinie eine Verbesserung um 6,6 Prozentpunkte auf MMLU dar, während es mit 40% weniger Rechenleistung trainiert wird. Unser Basismodell ist auch vergleichbar mit Mistral-7B-v0.3 und Llama 3 8B auf MMLU (63% & 66%) und führt ähnlich auf durchschnittlich 53 natürlichen Sprachverständnisaufgaben aus, während es mit 6,6-mal weniger Rechenleistung trainiert wird als Llama 3 8B. Unsere Ergebnisse unterstreichen die Bedeutung des Datensatzdesigns für das Training von Sprachmodellen und bieten einen Ausgangspunkt für weitere Forschung zur Datenkuratierung.
Die direkte Präferenzoptimierung (DPO) hat sich als eine effektive Methode zur Ausrichtung großer Sprachmodelle (LLM) erwiesen. In jüngsten Arbeiten wurde versucht, DPO auf multimodale Szenarien anzuwenden, jedoch stellte sich heraus, dass es herausfordernd ist, konsistente Verbesserungen zu erzielen. Durch ein vergleichendes Experiment identifizieren wir das bedingungslose Präferenzproblem in der multimodalen Präferenzoptimierung, bei der das Modell die Bildbedingung übersieht. Um dieses Problem zu lösen, schlagen wir mDPO vor, ein multimodales DPO-Ziel, das die Überpriorisierung von ausschließlich sprachlichen Präferenzen verhindert, indem es auch die Bildpräferenz optimiert. Darüber hinaus führen wir einen Belohnungsanker ein, der die Belohnung für ausgewählte Antworten positiv erzwingt, um so das Absinken ihrer Wahrscheinlichkeit zu vermeiden - ein inhärentes Problem der relativen Präferenzoptimierung. Experimente mit zwei multimodalen LLMs unterschiedlicher Größe und drei weit verbreiteten Benchmarks zeigen, dass mDPO das bedingungslose Präferenzproblem in der multimodalen Präferenzoptimierung effektiv angeht und die Leistung des Modells signifikant verbessert, insbesondere bei der Reduzierung von Halluzinationen.
Große Sprachmodelle (LLMs) sind in der Lage, umfangreiche Dialogverläufe während langer Interaktionen mit Benutzern ohne zusätzliche Speichermodule zu verarbeiten; jedoch neigen ihre Antworten dazu, Informationen aus der Vergangenheit zu übersehen oder falsch zu erinnern. In diesem Paper überdenken wir die speichererweiterte Antwortgenerierung im Zeitalter von LLMs. Während bisherige Arbeiten darauf abzielen, veraltete Erinnerungen loszuwerden, argumentieren wir, dass solche Erinnerungen kontextuelle Hinweise liefern können, die Dialogsystemen helfen, die Entwicklung vergangener Ereignisse zu verstehen und somit die Antwortgenerierung zu verbessern. Wir stellen Theanine vor, ein Framework, das die Antwortgenerierung von LLMs mit Gedächtniszeitachsen erweitert - Serien von Erinnerungen, die die Entwicklung und Kausalität relevanter vergangener Ereignisse aufzeigen. Neben Theanine führen wir TeaFarm ein, eine kontrafaktisch gesteuerte Frage-Antwort-Pipeline, die die Einschränkung von G-Eval in langfristigen Gesprächen angeht. Zusätzliche Videos unserer Methoden und des TeaBag-Datensatzes zur Bewertung von TeaFarm finden Sie unter https://theanine-693b0.web.app/.
In letzter Zeit haben 3D-Assets, die durch Rekonstruktion und Generierung erstellt wurden, die Qualität von manuell erstellten Assets erreicht, was ihr Potenzial für den Ersatz hervorhebt. Dieses Potenzial bleibt jedoch weitgehend ungenutzt, da diese Assets immer in Meshes für 3D-Industrieanwendungen umgewandelt werden müssen, und die von aktuellen Mesh-Extraktionsmethoden erzeugten Meshes sind deutlich minderwertig im Vergleich zu von Künstlern erstellten Meshes (AMs), d.h. Meshes, die von menschlichen Künstlern erstellt wurden. Aktuelle Mesh-Extraktionsmethoden stützen sich insbesondere auf dichte Flächen und ignorieren geometrische Merkmale, was zu Ineffizienzen, komplizierten Nachbearbeitungen und einer geringeren Repräsentationsqualität führt. Um diese Probleme anzugehen, stellen wir MeshAnything vor, ein Modell, das die Mesh-Extraktion als ein Generierungsproblem behandelt und AMs erzeugt, die mit spezifizierten Formen übereinstimmen. Durch die Umwandlung von 3D-Assets in jeder 3D-Repräsentation in AMs kann MeshAnything mit verschiedenen 3D-Asset-Produktionsmethoden integriert werden und somit ihre Anwendung in der gesamten 3D-Industrie verbessern. Die Architektur von MeshAnything umfasst ein VQ-VAE und einen formkonditionierten Decoder-Only-Transformer. Zunächst erlernen wir mit dem VQ-VAE ein Mesh-Vokabular und trainieren dann den formkonditionierten Decoder-Only-Transformer auf diesem Vokabular für die formkonditionierte autoregressive Mesh-Generierung. Unsere umfangreichen Experimente zeigen, dass unsere Methode AMs mit hundertmal weniger Flächen erzeugt, wodurch die Speicher-, Render- und Simulations-Effizienz erheblich verbessert wird, während eine Präzision erreicht wird, die mit früheren Methoden vergleichbar ist.
Trotz der jüngsten Beobachtung, dass große Sprachmodelle (LLMs) erhebliches faktisches Wissen speichern können, besteht ein begrenztes Verständnis der Mechanismen, wie sie faktisches Wissen durch Vortraining erwerben. Diese Arbeit befasst sich mit dieser Lücke, indem sie untersucht, wie LLMs während des Vortrainings faktisches Wissen erwerben. Die Ergebnisse liefern mehrere wichtige Erkenntnisse über die Dynamik des Erwerbs von faktischem Wissen während des Vortrainings. Zunächst beobachten wir gegenintuitiv, dass ein Vortraining auf mehr Daten keine signifikante Verbesserung der Fähigkeit des Modells zeigt, faktisches Wissen zu erwerben und zu bewahren. Weiterhin besteht eine Potenzgesetzbeziehung zwischen Trainingschritten und dem Vergessen von Memorierung und Verallgemeinerung von faktischem Wissen, und LLMs, die mit duplizierten Trainingsdaten trainiert werden, zeigen ein schnelleres Vergessen. Drittens kann das Training von LLMs mit größeren Batch-Größen die Robustheit der Modelle gegen Vergessen erhöhen. Insgesamt legen unsere Beobachtungen nahe, dass der Erwerb von faktischem Wissen beim LLM-Vortraining durch eine allmähliche Erhöhung der Wahrscheinlichkeit des im Vortrainingsdatensatz präsentierten faktischen Wissens bei jedem Schritt erfolgt. Diese Erhöhung wird jedoch durch nachfolgendes Vergessen verdünnt. Basierend auf dieser Interpretation zeigen wir, dass wir plausible Erklärungen für kürzlich beobachtete Verhaltensweisen von LLMs liefern können, wie die schlechte Leistung von LLMs bei speziellem Wissen und die Vorteile der Entdopplung des Vortrainingskorpus.
In jüngster Zeit wurden große Sprachmodelle um Sehfähigkeiten erweitert, die es ihnen ermöglichen, Bilder, Videos und verschränkte Bild-Sprache-Inhalte zu erfassen. Die Lernmethoden dieser großen multimodalen Modelle behandeln Videos jedoch in der Regel als vordefinierte Clips, was sie weniger effektiv und effizient im Umgang mit Streaming-Videoeingaben macht. In diesem Paper schlagen wir ein neuartiges Learning-In-Video-Stream (LIVE)-Framework vor, das eine zeitlich abgestimmte, langkontextige und Echtzeit-Konversation innerhalb eines kontinuierlichen Videostreams ermöglicht. Unser LIVE-Framework umfasst umfassende Ansätze zur Erzielung von Video-Streaming-Dialogen, einschließlich: (1) eines Trainingsziels, das darauf ausgelegt ist, Sprachmodellierung für kontinuierliche Streaming-Eingaben durchzuführen, (2) eines Datengenerierungsschemas, das Offline-Zeitmarkierungen in ein Streaming-Dialogformat umwandelt, und (3) einer optimierten Inferenzpipeline, um die Modellantworten in Echtzeit in Video-Streams zu beschleunigen. Mit unserem LIVE-Framework haben wir das VideoLLM-online-Modell auf Llama-2/Llama-3 aufgebaut und seine signifikanten Vorteile bei der Verarbeitung von Streaming-Videos demonstriert. Beispielsweise kann unser Modell im Durchschnitt einen Streaming-Dialog in einem 5-minütigen Videoclip mit über 10 FPS auf einer A100 GPU unterstützen. Darüber hinaus zeigt es auch eine erstklassige Leistung bei öffentlichen Offline-Video-Benchmarks wie Erkennung, Beschriftung und Prognose. Der Code, das Modell, die Daten und die Demo sind unter https://showlab.github.io/videollm-online verfügbar gemacht worden.
Die Bereitstellung großer Sprachmodelle (LLMs) wird oft durch den umfangreichen Speicherbedarf des Key-Value (KV)-Caches behindert, insbesondere wenn die Kontextlängen zunehmen. Bestehende Ansätze zur Reduzierung der KV-Cache-Größe beinhalten entweder das Feintuning des Modells, um eine Komprimierungsstrategie zu erlernen, oder die Nutzung von Aufmerksamkeitswerten zur Reduzierung der Sequenzlänge. Wir analysieren die Aufmerksamkeitsverteilungen in auf Decoder-Transformatoren basierenden Modellen und stellen fest, dass die Aufmerksamkeitsallokationsmuster in den meisten Schichten konsistent bleiben. Überraschenderweise finden wir eine klare Korrelation zwischen dem L_2 und den Aufmerksamkeitswerten über gecachten KV-Paaren, wobei ein niedriges L_2 eines Schlüssel-Embeddings in der Regel zu einem hohen Aufmerksamkeitswert während der Dekodierung führt. Diese Erkenntnis deutet darauf hin, dass der Einfluss eines KV-Paares potenziell durch das Schlüssel-Embedding selbst vor der Abfrage bestimmt wird. Basierend auf dieser Beobachtung komprimieren wir den KV-Cache basierend auf dem L_2 der Schlüssel-Embeddings. Unsere experimentellen Ergebnisse zeigen, dass diese einfache Strategie die KV-Cache-Größe bei der Sprachmodellierung und Nadel-im-Heuhaufen-Aufgaben um 50 % reduzieren kann und bei Passwortabrufaufgaben um 90 %, ohne an Genauigkeit zu verlieren.
Große Sprachmodelle (LLMs) auf Basis von Decoder-only-Transformern haben im Vergleich zu CLIP- und T5-Serienmodellen überlegene Textverständnisfähigkeiten gezeigt. Allerdings bleibt das Paradigma zur Nutzung aktueller fortschrittlicher LLMs in Text-zu-Bild-Diffusionsmodellen noch zu erforschen. Wir haben ein ungewöhnliches Phänomen beobachtet: Die direkte Verwendung eines großen Sprachmodells als Prompt-Encoder beeinträchtigt signifikant die Fähigkeit zur Prompt-Verfolgung bei der Bildgenerierung. Wir haben zwei Hauptprobleme hinter diesem Problem identifiziert. Eines davon ist die Missanpassung zwischen dem Training zur Vorhersage des nächsten Tokens in LLM und der Anforderung an diskriminative Prompt-Merkmale in Diffusionsmodellen. Das andere ist die intrinsische Positionsbias, die durch die Decoder-only-Architektur eingeführt wird. Um dieses Problem zu bewältigen, schlagen wir ein neuartiges Framework vor, um die Fähigkeiten von LLMs vollständig zu nutzen. Durch die sorgfältig gestaltete Verwendungshilfe verbessern wir effektiv die Textrepräsentationsfähigkeit für die Prompt-Codierung und beseitigen deren inhärente Positionsbias. Dies ermöglicht es uns, modernste LLMs flexibel in das Text-zu-Bild-Generierungsmodell zu integrieren. Darüber hinaus bieten wir auch eine effektive Methode zur Verschmelzung mehrerer LLMs in unser Framework an. Angesichts der ausgezeichneten Leistung und Skalierungsfähigkeiten, die von der Transformer-Architektur gezeigt wurden, entwerfen wir weiterhin einen LLM-Infused Diffusion Transformer (LI-DiT) basierend auf dem Framework. Wir führen umfangreiche Experimente durch, um LI-DiT über Modellgröße und Datengröße zu validieren. Dank der inhärenten Fähigkeiten der LLMs und unserer innovativen Designs übertrifft die Prompt-Verständnisleistung von LI-DiT mühelos state-of-the-art Open-Source-Modelle sowie Mainstream Closed-Source-Kommerzmodelle, einschließlich Stable Diffusion 3, DALL-E 3 und Midjourney V6. Das leistungsstarke LI-DiT-10B wird nach weiterer Optimierung und Sicherheitsüberprüfungen verfügbar sein.
Das Wahrnehmen und Verstehen von nicht-sprachlichen Klängen und non-verbalen Sprachäußerungen ist entscheidend, um Entscheidungen zu treffen, die uns dabei helfen, mit unserer Umgebung zu interagieren. In diesem Papier schlagen wir GAMA vor, ein neuartiges Allzweck-Großes Audio-Sprachmodell (LALM) mit fortgeschrittenen Audio-Verständnis- und komplexen Argumentationsfähigkeiten. Wir entwickeln GAMA, indem wir ein LLM mit verschiedenen Arten von Audio-Repräsentationen integrieren, einschließlich Merkmalen aus einem benutzerdefinierten Audio-Q-Former, einem mehrschichtigen Aggregator, der Merkmale aus mehreren Schichten eines Audio-Encoders zusammenführt. Wir feinabstimmen GAMA anhand eines umfangreichen Audio-Sprachdatensatzes, der es mit Audio-Verständnisfähigkeiten ausstattet. Als Nächstes schlagen wir CompA-R (Instruktionsabstimmung für komplexe Audio-Argumentation) vor, einen synthetisch generierten Instruktionsabstimmungs (IT)-Datensatz mit Anweisungen, die das Modell dazu auffordern, komplexe Argumentationen über den Eingangston durchzuführen. Wir stimmen GAMA mit CompA-R ab, um es mit komplexen Argumentationsfähigkeiten auszustatten, wobei wir zusätzlich einen weichen Hinweis als Eingabe hinzufügen, der auf hochrangigen semantischen Beweisen basiert, indem wir Ereignis-Tags des Eingangstons nutzen. Schließlich schlagen wir auch CompA-R-Test vor, einen von Menschen gelabelten Evaluationsdatensatz zur Bewertung der Fähigkeiten von LALMs bei offenen Audio-Frage-Antwort-Aufgaben, die komplexe Argumentation erfordern. Durch automatisierte und Experten-Humanbewertungen zeigen wir, dass GAMA alle anderen LALMs in der Literatur bei vielfältigen Audio-Verständnisaufgaben um 1%-84% übertrifft. Darüber hinaus erweist sich GAMA, abgestimmt auf CompA-R, in seinen komplexen Argumentations- und Anweisungsfähigkeiten als überlegen.
Multimodale durchsetzte Datensätze mit frei formatierten durchsetzten Sequenzen von Bildern und Texten sind entscheidend für das Training moderner großer multimodaler Modelle (LMMs). Trotz des schnellen Fortschritts bei Open-Source LMMs besteht immer noch ein deutlicher Mangel an umfangreichen, vielfältigen Open-Source multimodalen durchsetzten Datensätzen. Als Antwort darauf stellen wir MINT-1T vor, den umfangreichsten und vielfältigsten Open-Source Multimodal INTerleaved Datensatz bis heute. MINT-1T umfasst eine Billion Text-Token und drei Milliarden Bilder, eine Verzehnfachung gegenüber bestehenden Open-Source Datensätzen. Darüber hinaus haben wir zuvor ungenutzte Quellen wie PDFs und ArXiv-Papiere einbezogen. Da das Skalieren multimodaler durchsetzter Datensätze erheblichen technischen Aufwand erfordert, profitiert die Gemeinschaft erheblich davon, den Prozess der Datenaufbereitung zu teilen und den Datensatz freizugeben. Unsere Experimente zeigen, dass LMMs, die auf MINT-1T trainiert wurden, die Leistung von Modellen, die auf dem bisher führenden Datensatz OBELICS trainiert wurden, erreichen. Unsere Daten und der Code werden unter https://github.com/mlfoundations/MINT-1T veröffentlicht.
Multimodale Große Sprachmodelle (MLLMs) haben ein ausgezeichnetes Verständnis von Bildern und 3D-Daten gezeigt. Beide Modalitäten haben jedoch Schwächen darin, das Erscheinungsbild und die Geometrie von Objekten ganzheitlich zu erfassen. In der Zwischenzeit sind Neuronale Strahlungsfelder (NeRFs), die Informationen in den Gewichten eines einfachen Mehrschicht-Perzeptrons (MLP) codieren, als eine zunehmend verbreitete Modalität aufgetaucht, die gleichzeitig die Geometrie und fotorealistische Erscheinung von Objekten codiert. Dieser Artikel untersucht die Machbarkeit und Wirksamkeit der Integration von NeRF in MLLM. Wir haben LLaNA erstellt, den ersten allgemeinen NeRF-Sprachassistenten, der in der Lage ist, neue Aufgaben wie NeRF-Beschriftung und Frage-Antwort zu erfüllen. Bemerkenswert ist, dass unsere Methode direkt die Gewichte des MLP des NeRF verarbeitet, um Informationen über die dargestellten Objekte zu extrahieren, ohne Bilder rendern oder 3D-Datenstrukturen materialisieren zu müssen. Darüber hinaus haben wir ein Datenset von NeRFs mit Textannotationen für verschiedene NeRF-Sprachaufgaben ohne menschliches Eingreifen erstellt. Basierend auf diesem Datenset haben wir einen Benchmark entwickelt, um die NeRF-Verständnisfähigkeit unserer Methode zu bewerten. Die Ergebnisse zeigen, dass die Verarbeitung der NeRF-Gewichte gegenüber dem Extrahieren von 2D- oder 3D-Repräsentationen aus NeRFs vorteilhaft ist.
Das Training großer Vision-Language-Modelle erfordert umfangreiche, hochwertige Bild-Text-Paare. Bestehende web-gescrapte Datensätze sind jedoch fehlerhaft und weisen keine detaillierten Bildbeschreibungen auf. Um diese Lücke zu schließen, stellen wir PixelProse vor, einen umfassenden Datensatz von über 16 Millionen synthetisch generierten Bildunterschriften, der modernste Vision-Language-Modelle für detaillierte und präzise Beschreibungen nutzt. Um die Datenintegrität sicherzustellen, analysieren wir unseren Datensatz sorgfältig auf problematische Inhalte, einschließlich Material zu sexuellem Missbrauch von Kindern (CSAM), persönlich identifizierbaren Informationen (PII) und Toxizität. Wir bieten auch wertvolle Metadaten wie das Vorhandensein von Wasserzeichen und ästhetische Bewertungen, die bei der weiteren Datensatzfilterung helfen. Wir hoffen, dass PixelProse eine wertvolle Ressource für zukünftige Vision-Language-Forschung sein wird. PixelProse ist verfügbar unter https://huggingface.co/datasets/tomg-group-umd/pixelprose
Die Verstärkungslernmethode aus menschlichem Feedback (RLHF) ist eine vielversprechende Lösung, um große Sprachmodelle (LLMs) enger an menschlichen Werten auszurichten. Die Off-Policy-Präferenzoptimierung, bei der die Präferenzdaten von anderen Modellen erhalten werden, wird aufgrund ihrer Kosteneffizienz und Skalierbarkeit weit verbreitet eingesetzt. Allerdings leidet die Off-Policy-Präferenzoptimierung oft unter einer Verteilungslücke zwischen der Richtlinie, die für die Datensammlung verwendet wird, und der Zielrichtlinie, was zu einer suboptimalen Optimierung führt. In diesem Papier schlagen wir eine neuartige Strategie vor, um dieses Problem zu mildern, indem wir das On-Policy-Lernen mit Off-Policy-Präferenzdaten simulieren. Unsere Methode der Gewichteten Präferenzoptimierung (WPO) passt Off-Policy-Daten an, um On-Policy-Daten näher zu kommen, indem Präferenzpaare entsprechend ihrer Wahrscheinlichkeit unter der aktuellen Richtlinie neu gewichtet werden. Diese Methode behebt nicht nur das Verteilungslückenproblem, sondern verbessert auch den Optimierungsprozess, ohne zusätzliche Kosten zu verursachen. Wir validieren unsere Methode anhand von Anweisungsfolge-Benchmarks, einschließlich Alpaca Eval 2 und MT-bench. WPO übertrifft nicht nur die Direkte Präferenzoptimierung (DPO) um bis zu 5,6% bei Alpaca Eval 2, sondern etabliert auch eine bemerkenswerte Längenkontrollgewinnrate gegen GPT-4-turbo von 48,6% basierend auf Llama-3-8B-Instruct und wird damit zum stärksten 8B-Modell auf der Bestenliste. Wir werden den Code und die Modelle unter https://github.com/wzhouad/WPO veröffentlichen.
Das bestehende Feinabstimmungs-Paradigma für Sprachmodelle ist in Szenarien des Wissens-Editierens spröde, in denen das Modell neue Informationen ohne umfangreiches Neutraining integrieren muss. Diese Sprödigkeit führt oft zu Überanpassung, reduzierter Leistung und unnatürlicher Sprachgenerierung. Um dies zu lösen, schlagen wir Consistent In-Context Editing (ICE) vor, einen neuartigen Ansatz, der die Fähigkeit des Modells zum kontextbezogenen Lernen nutzt, um auf eine kontextuelle Verteilung anstatt eines One-Hot-Ziels abzustimmen. ICE führt ein einfaches Optimierungsrahmenwerk ein, das sowohl ein Ziel als auch ein Verfahren umfasst, um die Robustheit und Effektivität von auf Gradienten basierenden Abstimmungsmethoden zu verbessern. Wir bieten analytische Einblicke in ICE über vier wesentliche Aspekte des Wissens-Editierens: Genauigkeit, Lokalität, Verallgemeinerung und sprachliche Qualität und zeigen seine Vorteile. Experimentelle Ergebnisse über vier Datensätze bestätigen die Wirksamkeit von ICE und zeigen sein Potenzial für kontinuierliches Editieren, um sicherzustellen, dass aktualisierte Informationen integriert werden, während die Integrität des Modells erhalten bleibt.
Weltmodelle simulieren zukünftige Zustände der Welt als Reaktion auf verschiedene Aktionen. Sie erleichtern die interaktive Inhalteerstellung und bilden eine Grundlage für fundiertes, langfristiges Denken. Aktuelle Grundlagenmodelle erfüllen nicht vollständig die Fähigkeiten allgemeiner Weltmodelle: Große Sprachmodelle (LLMs) sind durch ihre Abhängigkeit von der Sprachmodalität und ihr begrenztes Verständnis der physischen Welt eingeschränkt, während Videomodelle keine interaktive Aktionskontrolle über die Weltsimulationen haben. Dieser Artikel macht einen Schritt in Richtung des Aufbaus eines allgemeinen Weltmodells, indem er Pandora einführt, ein hybrides autoregressives Diffusionsmodell, das Weltzustände simuliert, indem es Videos generiert und Echtzeitsteuerung mit Freitextaktionen ermöglicht. Pandora erreicht Domänengeneralität, Video-Konsistenz und Steuerbarkeit durch groß angelegtes Vortraining und Anpassung der Anweisungen. Entscheidend umgeht Pandora die Kosten des Trainings von Grund auf, indem es ein vorab trainiertes LLM (7B) und ein vorab trainiertes Videomodell integriert und nur zusätzliches leichtgewichtiges Feintuning erfordert. Wir veranschaulichen umfangreiche Ausgaben von Pandora in verschiedenen Bereichen (innen/außen, natürliche/städtische Umgebung, Mensch/Roboter, 2D/3D usw.). Die Ergebnisse deuten auf das große Potenzial hin, stärkere allgemeine Weltmodelle mit Training im größeren Maßstab aufzubauen.
Aktuelle Durchbrüche in Vision-Language-Modellen (VLMs) betonen die Notwendigkeit, menschliche Präferenzen in multimodalen Interaktionen in der realen Welt zu bewerten. Um diese Lücke zu schließen, haben wir WildVision-Arena (WV-Arena) ins Leben gerufen, eine Online-Plattform, die menschliche Präferenzen sammelt, um VLMs zu bewerten. Wir haben WV-Bench kuratiert, indem wir 500 hochwertige Beispiele aus 8.000 Benutzereinreichungen in WV-Arena ausgewählt haben. WV-Bench verwendet GPT-4 als Richter, um jedes VLM mit Claude-3-Sonnet zu vergleichen und erreicht eine Spearman-Korrelation von 0,94 mit dem WV-Arena Elo. Dies übertrifft signifikant andere Benchmarks wie MMVet, MMMU und MMStar. Unsere umfassende Analyse von 20.000 realen Interaktionen liefert wichtige Erkenntnisse über die Fehlerfälle der leistungsstarken VLMs. Zum Beispiel stellen wir fest, dass obwohl GPT-4V viele andere Modelle wie Reka-Flash, Opus und Yi-VL-Plus in einfachen visuellen Erkennungs- und Denkaufgaben übertrifft, es dennoch Schwierigkeiten mit subtilen Kontexthinweisen, räumlichem Denken, visueller Vorstellungskraft und Expertenwissen aufweist. Darüber hinaus zeigen aktuelle VLMs Probleme mit Halluzinationen und Sicherheit, wenn sie absichtlich provoziert werden. Wir veröffentlichen unsere Chat- und Feedback-Daten, um die Forschung im Bereich der VLMs weiter voranzutreiben.
Wir präsentieren L4GM, das erste 4D Large Reconstruction Model, das animierte Objekte aus einem Einzelansichtsvideoeingang erzeugt - in einem einzigen Feedforward-Durchlauf, der nur eine Sekunde dauert. Schlüssel zu unserem Erfolg ist ein neuartiger Datensatz von Multiview-Videos, die kuratierte, gerenderte animierte Objekte aus dem Objaverse enthalten. Dieser Datensatz zeigt 44.000 verschiedene Objekte mit 110.000 Animationen, die in 48 Ansichten gerendert wurden, was zu 12 Millionen Videos mit insgesamt 300 Millionen Frames führt. Wir halten unser L4GM einfach für Skalierbarkeit und bauen direkt auf dem LGM auf, einem vortrainierten 3D Large Reconstruction Model, das 3D-Gaußellipsoide aus einem Multiview-Bildeingang ausgibt. L4GM gibt eine pro Frame 3D-Gauß-Splatting-Repräsentation aus den mit niedriger fps abgetasteten Videoframes aus und interpoliert dann die Repräsentation auf eine höhere fps, um zeitliche Glattheit zu erreichen. Wir fügen dem Basis-LGM zeitliche Selbst-Aufmerksamkeitsschichten hinzu, um ihm zu helfen, Konsistenz über die Zeit zu lernen, und nutzen einen pro-Zeitschritt Multiview-Rendering-Verlust, um das Modell zu trainieren. Die Repräsentation wird durch Training eines Interpolationsmodells, das Zwischen-3D-Gauß-Repräsentationen erzeugt, auf eine höhere Bildrate interpoliert. Wir zeigen, dass L4GM, das nur auf synthetischen Daten trainiert ist, sehr gut auf Wildvideos generalisiert und hochwertige animierte 3D-Assets erzeugt.
In der realen Welt sind Dokumente in verschiedenen Formaten und Modalitäten organisiert. Traditionelle Abrufpipelines erfordern maßgeschneiderte Dokumentenparsings-Techniken und Inhaltsextraktionsmodule, um Eingaben für die Indizierung vorzubereiten. Dieser Prozess ist mühsam, fehleranfällig und führt zu Informationsverlust. Zu diesem Zweck schlagen wir das Dokument-Screenshot-Einbetten (DSE) vor, ein neuartiges Abrufparadigma, das Dokumentenscreenshots als einheitliches Eingabeformat betrachtet, das keine Inhaltsextraktionsvorverarbeitung erfordert und alle Informationen in einem Dokument (z. B. Text, Bild und Layout) bewahrt. DSE nutzt ein großes Vision-Sprach-Modell, um Dokumentenscreenshots direkt in dichte Repräsentationen für den Abruf zu codieren. Zur Bewertung unserer Methode erstellen wir zunächst den Datensatz Wiki-SS, eine Sammlung von 1,3 Millionen Wikipedia-Webseitenscreenshots als Korpus, um Fragen aus dem Natural Questions-Datensatz zu beantworten. In einem textintensiven Dokumentenabrufumfeld zeigt DSE im Vergleich zu anderen auf Parsen basierenden Textabrufmethoden eine wettbewerbsfähige Wirksamkeit. Beispielsweise übertrifft DSE BM25 um 17 Punkte in der Abrufgenauigkeit für die Top-1. Darüber hinaus übertrifft DSE in einer gemischten Modalitätsaufgabe des Folienabrufs signifikant OCR-Textabrufmethoden um über 15 Punkte in nDCG@10. Diese Experimente zeigen, dass DSE ein effektives Dokumentenabrufparadigma für verschiedene Arten von Dokumenten ist. Modell-Checkpoints, Code und die Wiki-SS-Sammlung werden veröffentlicht.
Benchmarks für große multimodale Sprachmodelle (MLMs) dienen nun dazu, die allgemeinen Fähigkeiten von Modellen gleichzeitig zu bewerten, anstatt eine spezifische Fähigkeit zu überprüfen. Dadurch werden Entwickler, die herausfinden möchten, welche Modelle sie für ihre Anwendung verwenden sollen, von der Vielzahl an Benchmarks überwältigt und bleiben unsicher, welche Benchmark-Ergebnisse am besten ihr spezifisches Anwendungsszenario widerspiegeln. Dieses Papier stellt Task-Me-Anything vor, eine Benchmark-Erstellungsmaschine, die eine auf die Bedürfnisse des Benutzers zugeschnittene Benchmark erstellt. Task-Me-Anything verfügt über eine erweiterbare Taxonomie visueller Assets und kann programmgesteuert eine große Anzahl von Aufgabeninstanzen generieren. Darüber hinaus beantwortet es algorithmisch Benutzeranfragen zur Leistung von MLMs effizient innerhalb eines Rechenaufwands. Es enthält 113.000 Bilder, 10.000 Videos, 2.000 3D-Objekt-Assets, über 365 Objektkategorien, 655 Attribute und 335 Beziehungen. Es kann 750 Millionen Bild-/Video-Frage-Antwort-Paare generieren, die sich auf die Bewertung der Wahrnehmungsfähigkeiten von MLMs konzentrieren. Task-Me-Anything offenbart wichtige Erkenntnisse: Open-Source-MLMs zeichnen sich in der Objekt- und Attributerkennung aus, aber es mangelt an räumlichem und zeitlichem Verständnis; jedes Modell zeigt einzigartige Stärken und Schwächen; größere Modelle erzielen im Allgemeinen bessere Leistungen, obwohl Ausnahmen existieren; und GPT4o zeigt Herausforderungen bei der Erkennung rotierender/bewegter Objekte und der Unterscheidung von Farben.
Eine kürzliche Neuerung in der Computer Vision ist die Aufgabe der 3D-Videoerzeugung, bei der es darum geht, eine sich im Laufe der Zeit verändernde 3D-Repräsentation einer Szene zu erzeugen. Um dynamische 3D-Szenen zu generieren, modellieren aktuelle Methoden explizit die 3D-zeitlichen Dynamiken, indem sie gemeinsam die Konsistenz über Zeit und Ansichten der Szene optimieren. In diesem Papier untersuchen wir stattdessen, ob es notwendig ist, wie es aktuelle Ansätze tun, multiansichtige Konsistenz über die Zeit explizit durchzusetzen oder ob es ausreicht, dass ein Modell 3D-Repräsentationen jedes Zeitschritts unabhängig voneinander erzeugt. Daher schlagen wir ein Modell namens Vid3D vor, das 2D-Video-Diffusion nutzt, um 3D-Videos zu generieren, indem es zunächst ein 2D-"Seed" der zeitlichen Dynamik des Videos erzeugt und dann unabhängig voneinander eine 3D-Repräsentation für jeden Zeitschritt im Seed-Video generiert. Wir evaluieren Vid3D im Vergleich zu zwei führenden Methoden zur 3D-Videoerzeugung und stellen fest, dass Vid3D vergleichbare Ergebnisse erzielt, obwohl es die 3D-zeitlichen Dynamiken nicht explizit modelliert. Wir untersuchen auch, wie die Qualität von Vid3D von der Anzahl der pro Frame generierten Ansichten abhängt. Während wir bei weniger Ansichten eine gewisse Verschlechterung beobachten, bleibt die Leistungseinbuße geringfügig. Unsere Ergebnisse legen daher nahe, dass 3D-zeitliches Wissen möglicherweise nicht erforderlich ist, um hochwertige dynamische 3D-Szenen zu erzeugen, was möglicherweise einfachere generative Algorithmen für diese Aufgabe ermöglicht.
Es wird allgemein angenommen, dass ein neuronales Netzwerk einen Trainingsdatensatz passend machen kann, der mindestens so viele Beispiele enthält wie es Parameter gibt, was die Konzepte von überparametrisierten und unterparametrisierten Modellen untermauert. In der Praxis finden wir jedoch nur Lösungen, die über unser Schulungsverfahren zugänglich sind, einschließlich des Optimierers und Regularisierer, was die Flexibilität einschränkt. Darüber hinaus formt die genaue Parametrisierung der Funktionsklasse, die in eine Architektur eingebettet ist, deren Verlustfläche und beeinflusst die Minima, die wir finden. In dieser Arbeit untersuchen wir die Fähigkeit von neuronalen Netzwerken, Daten in der Praxis anzupassen. Unsere Ergebnisse deuten darauf hin, dass: (1) Standardoptimierer Minima finden, in denen das Modell nur Trainingsdatensätze mit signifikant weniger Beispielen als Parametern passen kann; (2) Faltungsnetzwerke sind parameter-effizienter als MLPs und ViTs, selbst bei zufällig gelabelten Daten; (3) obwohl angenommen wird, dass stochastisches Training eine Regularisierungswirkung hat, findet SGD tatsächlich Minima, die mehr Trainingsdaten passen als das Gradientenabstiegsverfahren mit vollem Batch; (4) der Unterschied in der Fähigkeit, richtig und falsch gelabelte Beispiele anzupassen, kann auf die Verallgemeinerung schließen lassen; (5) ReLU-Aktivierungsfunktionen führen dazu, dass Minima gefunden werden, die mehr Daten passen, obwohl sie darauf ausgelegt sind, das Verschwinden und Explodieren von Gradienten in tiefen Architekturen zu vermeiden.
Wir präsentieren einen neuartigen multimodalen Präferenzdatensatz für kreative Aufgaben, bestehend aus über 250 Millionen menschlichen Bewertungen zu mehr als 2,2 Millionen Bildunterschriften, die durch die Erfassung von Bewertungsdaten durch Crowdsourcing für den wöchentlichen Cartoon-Bildunterschriftenwettbewerb des New Yorker in den letzten acht Jahren gesammelt wurden. Dieser einzigartige Datensatz unterstützt die Entwicklung und Bewertung von multimodalen großen Sprachmodellen und präferenzbasierten Feinabstimmungsalgorithmen für die Generierung humorvoller Bildunterschriften. Wir schlagen neue Maßstäbe zur Beurteilung der Qualität von modellgenerierten Bildunterschriften vor, indem wir sowohl GPT4 als auch menschliche Bewertungen nutzen, um rangbasierte Bewertungsstrategien festzulegen. Unsere experimentellen Ergebnisse heben die Grenzen der aktuellen Feinabstimmungsmethoden wie RLHF und DPO hervor, wenn sie auf kreative Aufgaben angewendet werden. Darüber hinaus zeigen wir auf, dass selbst modernste Modelle wie GPT4 und Claude derzeit hinter den besten menschlichen Teilnehmern zurückbleiben, wenn es um die Generierung humorvoller Bildunterschriften geht. Mit dem Abschluss dieses umfangreichen Datensammelprojekts stellen wir den gesamten Präferenzdatensatz der Forschungsgemeinschaft zur Verfügung, um weitere Fortschritte in der KI-Humor-Generierung und -Bewertung zu fördern.
Der rasante Aufstieg von Sprachmodellen (LMs) hat ihren Einsatz in mehreren Anwendungen erweitert. Dennoch ist es aufgrund von Beschränkungen hinsichtlich Modellgröße, damit verbundenen Kosten oder proprietären Einschränkungen nicht immer machbar, hochmoderne (SOTA) große Sprachmodelle zu nutzen. Mit dem Aufkommen offener, kleinerer LMs können mehr Anwendungen von ihren Fähigkeiten profitieren, aber die Auswahl des richtigen LMs kann eine Herausforderung darstellen. Diese Arbeit führt eine eingehende experimentelle Analyse der semantischen Korrektheit der Ausgaben von 10 kleineren, offenen LMs in Bezug auf drei Aspekte durch: Aufgabentypen, Anwendungsbereiche und Arten des Schlussfolgerns, unter Verwendung verschiedener Eingabe-Stile. Wir zeigen, dass die effektivsten Modelle und Eingabe-Stile je nach spezifischen Anforderungen variieren. Unsere Analyse bietet eine vergleichende Bewertung von LMs und Eingabe-Stilen unter Verwendung eines vorgeschlagenen dreistufigen Schemas von Aspekten für ihre strategische Auswahl basierend auf Anwendungsfällen und anderen Einschränkungen. Wir zeigen auch, dass diese LMs, wenn sie angemessen genutzt werden, mit SOTA LMs wie DeepSeek-v2, GPT-3.5-Turbo und GPT-4o konkurrieren können und diese manchmal übertreffen können.
Aufmerksamkeitsbasierte Transformer sind zur Standardarchitektur in vielen Bereichen des Deep Learning geworden, hauptsächlich aufgrund ihrer Fähigkeit, langreichweitige Abhängigkeiten zu modellieren und Eingabesequenzen variabler Länge zu verarbeiten. Allerdings stellt der Aufmerksamkeitsmechanismus mit seiner quadratischen Komplexität einen signifikanten Engpass in der Transformerarchitektur dar. Dieser Algorithmus ist nur in der Decoder-Richtung unidirektional und konvergiert zu einem statischen Muster in überparametrisierten Modellen, die nur Decoder enthalten. Ich gehe dieses Problem an, indem ich eine generative Funktion als Ersatz für Aufmerksamkeit oder Aktivierung entwickle. Sie behält den autoregressiven Charakter bei, indem sie jedes Token mit dem vorherigen vergleicht. In meinem Testsetting mit nanoGPT führt dies zu einem geringeren Verlust bei einem kleineren Modell. Der Verlust sinkt weiter, wenn ein durchschnittlicher Kontextvektor eingebunden wird. Dieses Konzept des Aufmerksamkeitseratzes wird unter der GNU AGPL v3-Lizenz auf https://gitlab.com/Bachstelze/causal_generation veröffentlicht.
Eine Vielzahl verschiedener großer Sprachmodelle (Large Language Models, LLMs) steht vor einer gemeinsamen Herausforderung bei der kontextuellen Analyse von Tabellen-Frage-Antwort-Aufgaben. Diese Herausforderungen entstehen aus (1) begrenzten Kontextfenstern für große Tabellen, (2) vielschichtigen Diskrepanzen zwischen Tokenisierungsmustern und Zellgrenzen sowie (3) verschiedenen Einschränkungen, die sich aus der Datenvertraulichkeit im Prozess der Verwendung externer Modelle wie gpt-3.5-turbo ergeben. Wir schlagen ein kooperatives Spiel namens "HiddenTables" als potenzielle Lösung für diese Herausforderung vor. Im Wesentlichen wird "HiddenTables" zwischen dem codegenerierenden LLM "Solver" und dem "Oracle" gespielt, der die Fähigkeit der LLM-Agenten zur Lösung von Tabellen-QA-Aufgaben bewertet. Dieses Spiel basiert auf natürlichen Sprachschemas und gewährleistet die Sicherheit der zugrunde liegenden Daten. Wir liefern experimentelle Beweise anhand einer vielfältigen Auswahl von Tabellen, die die kollektive Unfähigkeit eines LLMs zeigen, zu generalisieren und komplexe Abfragen durchzuführen, kompositionelle Abhängigkeiten zu handhaben und natürliche Sprache mit programmatischen Befehlen abzugleichen, wenn konkrete Tabellenschemas bereitgestellt werden. Im Gegensatz zu encoderbasierten Modellen haben wir die Grenzen von "HiddenTables" erweitert, um nicht durch die Anzahl der Zeilen eingeschränkt zu sein - daher zeigen wir eine verbesserte Effizienz bei Eingabeaufforderungen und Abschluss-Token. Unsere Infrastruktur hat einen neuen Datensatz "PyQTax" hervorgebracht, der sich über 116.671 Frage-Tabellen-Antwort-Tripel erstreckt und zusätzliche feingranulare Aufschlüsselungen und Labels für verschiedene Frage-Taxonomien bietet. Daher ist "HiddenTables" in Verbindung mit unseren wissenschaftlichen Beiträgen zur Unzulänglichkeit von LLMs bei TableQA-Aufgaben eine greifbare Manifestation davon, wie LLMs mit umfangreichen Datensätzen interagieren können, während sie die Datensicherheit gewährleisten und die Generierungskosten minimieren.
Die Auswahl hochwertiger Daten für das Pre-Training ist entscheidend für die Leistung von Sprachmodellen bei nachgelagerten Aufgaben. Eine große Herausforderung besteht darin, dieses optimale Subset zu identifizieren, ein Problem, das im Allgemeinen als unlösbar angesehen wird und daher skalierbare und effektive Heuristiken erfordert. In dieser Arbeit schlagen wir eine Methode zur Datenauswahl vor, CoLoR-Filter (Conditional Loss Reduction Filtering), die einen empirisch Bayes-inspirierten Ansatz nutzt, um ein einfaches und recheneffizientes Auswahlkriterium auf der Grundlage der relativen Verlustwerte von zwei Hilfsmodellen abzuleiten. Neben der Modellierungsbegründung evaluieren wir CoLoR-Filter empirisch in zwei Sprachmodellierungsaufgaben: (1) Auswahl von Daten aus C4 für die Domänenanpassung zur Auswertung in Büchern und (2) Auswahl von Daten aus C4 für eine Reihe von nachgelagerten Multiple-Choice-Fragenbeantwortungsaufgaben. Wir zeigen eine günstige Skalierung sowohl bei aggressiverer Teilauswahl als auch bei Verwendung kleiner Hilfsmodelle zur Auswahl von Daten für große Zielmodelle. Als eine der Hauptergebnisse kann CoLoR-Filter-Daten, die mithilfe eines Paares von 150-Millionen-Parameter-Hilfsmodellen ausgewählt wurden, ein 1,2-Milliarden-Parameter-Zielmodell trainieren, um mit einem auf 25 Milliarden zufällig ausgewählten Tokens trainierten 1,2-Milliarden-Parameter-Modell mit 25-mal weniger Daten für Bücher und 11-mal weniger Daten für die nachgelagerten Aufgaben übereinzustimmen. Code: https://github.com/davidbrandfonbrener/color-filter-olmo Gefilterte Daten: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4
Die generative 3D-Malerei zählt zu den wichtigsten Produktivitätssteigerern im Management und Recycling von hochauflösenden 3D-Ressourcen. Seit Text-zu-Bild-Modelle für die Inferenz auf Verbraucherhardware zugänglich wurden, hat sich die Leistung von 3D-Malmethoden kontinuierlich verbessert und nähert sich derzeit einem Plateau. Im Kern der meisten solcher Modelle liegt die Rauschunterdrückungsdiffusion im latenten Raum, ein inhärent zeitaufwändiger iterativer Prozess. In jüngster Zeit wurden mehrere Techniken entwickelt, um die Generierung zu beschleunigen und die Sampling-Iterationen um Größenordnungen zu reduzieren. Diese Techniken, die für die generative Bildgebung in 2D konzipiert sind, werden jedoch nicht mit Anleitungen geliefert, wie sie in den 3D-Bereich übertragen werden können. In diesem Paper beheben wir diese Schwäche, indem wir eine Anpassung des Latent Consistency Models (LCM) für die vorliegende Aufgabe vorschlagen. Wir analysieren die Stärken und Schwächen des vorgeschlagenen Modells und bewerten es quantitativ und qualitativ. Basierend auf der Studie von Beispielen des Objaverse-Datensatzes erzielt unsere 3D-Maltechnik in allen Bewertungen eine starke Präferenz. Der Quellcode ist verfügbar unter https://github.com/kongdai123/consistency2.
Die Nutzung menschlicher Präferenzen zur Lenkung des Verhaltens von Large Language Models (LLMs) hat in den letzten Jahren beachtliche Erfolge gezeigt. Dennoch sind die Auswahl und Kennzeichnung von Daten nach wie vor ein Engpass für diese Systeme, insbesondere im großen Maßstab. Daher kann die Auswahl der informativsten Punkte zur Erlangung menschlichen Feedbacks die Kosten für die Präferenzkennzeichnung erheblich reduzieren und die weitere Entwicklung von LLMs vorantreiben. Das Bayesian Active Learning bietet einen fundierten Rahmen zur Bewältigung dieser Herausforderung und hat in verschiedenen Umgebungen bemerkenswerte Erfolge gezeigt. Bisherige Versuche, es für die Präferenzmodellierung einzusetzen, entsprachen jedoch nicht diesen Erwartungen. In dieser Arbeit stellen wir fest, dass eine naive epistemische Unsicherheitsschätzung zur Erlangung redundanter Proben führt. Dies wird durch die Vorstellung des Bayesian Active Learner for Preference Modeling (BAL-PM) angegangen, einer neuartigen stochastischen Erwerbspolitik, die nicht nur Punkte hoher epistemischer Unsicherheit gemäß dem Präferenzmodell anvisiert, sondern auch die Entropie der erworbenen Eingabe-Verteilung im Merkmalsraum maximieren möchte, der vom verwendeten LLM aufgespannt wird. Bemerkenswert ist, dass unsere Experimente zeigen, dass BAL-PM in zwei beliebten menschlichen Präferenzdatensätzen 33 % bis 68 % weniger Präferenzkennzeichnungen benötigt und frühere stochastische Bayesian-Erwerbspolitiken übertrifft.