Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Neuronale Strahlungsfelder (NeRF) stehen vor erheblichen Herausforderungen in wenigen Aufnahmeszenarien, hauptsächlich aufgrund von Überanpassung und langen Trainingszeiten für hochauflösendes Rendern. Bestehende Methoden wie FreeNeRF und SparseNeRF verwenden Frequenzregulierung oder vorab trainierte Prioritäten, haben jedoch Schwierigkeiten mit komplexer Planung und Verzerrung. Wir stellen FrugalNeRF vor, ein neuartiges Few-Shot-NeRF-Framework, das Gewichts teilt und Voxel über mehrere Maßstäbe hinweg nutzt, um Szenendetails effizient darzustellen. Unser Hauptbeitrag ist ein Kreisskalengeometrie-Anpassungsschema, das Pseudo-Grundwahrtiefe basierend auf Reprojektionsfehlern über Maßstäbe hinweg auswählt. Dies leitet das Training ohne externe erlernte Prioritäten und ermöglicht die vollständige Nutzung der Trainingsdaten. Es kann auch vorab trainierte Prioritäten integrieren, die Qualität verbessern, ohne die Konvergenz zu verlangsamen. Experimente mit LLFF, DTU und RealEstate-10K zeigen, dass FrugalNeRF andere Few-Shot-NeRF-Methoden übertrifft und gleichzeitig die Trainingszeit erheblich reduziert, was es zu einer praktischen Lösung für effiziente und präzise 3D-Szenenrekonstruktion macht.
Das Segment Anything Model 2 (SAM 2) hat sich als leistungsstarkes Grundlagenmodell für die Objektsegmentierung in Bildern und Videos etabliert und ebnet den Weg für verschiedene nachgelagerte Videoanwendungen. Das entscheidende Design von SAM 2 für die Videosegmentierung ist sein Speichermodul, das objektbewusste Erinnerungen aus vorherigen Frames für die Vorhersage des aktuellen Frames anregt. Allerdings leidet sein gieriges Auswahl-Speicherdesign unter dem "Fehlerakkumulations"-Problem, bei dem eine fehlerhafte oder verpasste Maske kaskadenartig wirkt und die Segmentierung der nachfolgenden Frames beeinflusst, was die Leistung von SAM 2 bei komplexen Langzeitvideos einschränkt. Zu diesem Zweck stellen wir SAM2Long vor, eine verbesserte, trainingsfreie Strategie für die Videoobjektsegmentierung, die die Segmentierungsunsicherheit innerhalb jedes Frames berücksichtigt und die videoebenen optimalen Ergebnisse aus mehreren Segmentierungspfaden auf eine eingeschränkte Baum-Suchweise auswählt. In der Praxis halten wir eine feste Anzahl von Segmentierungspfaden während des gesamten Videos aufrecht. Für jedes Frame werden basierend auf den vorhandenen Pfaden mehrere Masken vorgeschlagen, die verschiedene Kandidatenzweige erzeugen. Anschließend wählen wir dieselbe feste Anzahl von Zweigen mit höheren kumulativen Punktzahlen als neue Pfade für das nächste Frame aus. Nach der Verarbeitung des letzten Frames wird der Pfad mit der höchsten kumulativen Punktzahl als endgültiges Segmentierungsergebnis ausgewählt. Dank seines heuristischen Suchdesigns ist SAM2Long robust gegenüber Verdeckungen und dem erneuten Erscheinen von Objekten und kann Objekte in komplexen Langzeitvideos effektiv segmentieren und verfolgen. Bemerkenswerterweise erzielt SAM2Long eine durchschnittliche Verbesserung von 3,0 Punkten bei allen 24 direkten Vergleichen, mit Zuwächsen von bis zu 5,3 Punkten in J&F bei Langzeitvideosegmentierungsbenchmarks wie SA-V und LVOS. Der Code ist unter https://github.com/Mark12Ding/SAM2Long verfügbar.
Eine effiziente und genaue Bewertung ist entscheidend für die kontinuierliche Verbesserung großer Sprachmodelle (LLMs). Unter verschiedenen Bewertungsmethoden hat die subjektive Bewertung aufgrund ihrer überlegenen Ausrichtung auf realistische Anwendungsszenarien und menschliche Präferenzen erhebliche Aufmerksamkeit erregt. Menschliche Bewertungen sind jedoch kostspielig und mangelt es an Reproduzierbarkeit, wodurch präzise automatisierte Bewertungssysteme (Richter) in diesem Prozess unerlässlich sind. In diesem Bericht stellen wir CompassJudger-1 vor, den ersten Open-Source-Alleskönner-Richter für LLMs. CompassJudger-1 ist ein vielseitiges LLM für allgemeine Zwecke, das bemerkenswerte Vielseitigkeit zeigt. Es ist in der Lage: 1. Einzelbewertungen und Zwei-Modell-Vergleiche als Belohnungsmodell durchzuführen; 2. Bewertungen gemäß festgelegten Formaten durchzuführen; 3. Kritiken zu generieren; 4. Diverse Aufgaben wie ein allgemeines LLM auszuführen. Um die Bewertungsfähigkeiten verschiedener Richtermodelle in einer einheitlichen Umgebung zu bewerten, haben wir auch JudgerBench eingeführt, einen neuen Benchmark, der verschiedene subjektive Bewertungsaufgaben umfasst und eine Vielzahl von Themen abdeckt. CompassJudger-1 bietet eine umfassende Lösung für verschiedene Bewertungsaufgaben und behält gleichzeitig die Flexibilität bei, sich an unterschiedliche Anforderungen anzupassen. Sowohl CompassJudger als auch JudgerBench sind veröffentlicht und stehen der Forschungsgemeinschaft unter https://github.com/open-compass/CompassJudger zur Verfügung. Wir sind der Überzeugung, dass wir durch die Freigabe dieser Tools die Zusammenarbeit fördern und den Fortschritt bei der Bewertungsmethodik von LLMs beschleunigen können.
Dank der Fortschritte bei Open-Source-Modellen ist das Training (oder Feintuning) von Modellen auf benutzerdefinierten Datensätzen zu einem entscheidenden Bestandteil der Entwicklung von Lösungen geworden, die speziell auf bestimmte industrielle oder Open-Source-Anwendungen zugeschnitten sind. Dennoch gibt es kein einzelnes Tool, das den Schulungsprozess über verschiedene Arten von Modalitäten oder Aufgaben hinweg vereinfacht. Wir stellen AutoTrain (auch bekannt als AutoTrain Advanced) vor - ein Open-Source-Tool/Bibliothek ohne Code, das zur Schulung (oder zum Feintuning) von Modellen für verschiedene Arten von Aufgaben wie: Feintuning großer Sprachmodelle (LLM), Textklassifizierung/-regression, Tokenklassifizierung, Sequenz-zu-Sequenz-Aufgaben, Feintuning von Satz-Transformern, Feintuning von visuellen Sprachmodellen (VLM), Bildklassifizierung/-regression und sogar Klassifizierungs- und Regressionsaufgaben auf tabellarischen Daten verwendet werden kann. AutoTrain Advanced ist eine Open-Source-Bibliothek, die bewährte Verfahren für das Training von Modellen auf benutzerdefinierten Datensätzen bereitstellt. Die Bibliothek ist unter https://github.com/huggingface/autotrain-advanced verfügbar. AutoTrain kann im vollständig lokalen Modus oder auf Cloud-Maschinen verwendet werden und funktioniert mit Zehntausenden von Modellen, die im Hugging Face Hub geteilt werden, sowie deren Varianten.
In jüngster Zeit haben Fortschritte bei multimodalen Grundlagenmodellen zu erheblichen Fortschritten im Verständnis von Vision und Sprache geführt. Erste Versuche haben auch das Potenzial multimodaler großer Sprachmodelle (MLLMs) für die Generierung visueller Inhalte erkundet. Allerdings haben bestehende Arbeiten die unterschiedlichen Granularitätsanforderungen verschiedener Bildgenerierungsaufgaben innerhalb eines vereinheitlichten MLLM-Paradigmas unzureichend behandelt - von der Vielfalt, die bei der Text-zu-Bild-Generierung erforderlich ist, bis zur präzisen Steuerbarkeit, die bei der Bildmanipulation benötigt wird. In dieser Arbeit schlagen wir PUMA vor, das vereinheitlichte MLLM mit Multi-granularer visueller Generierung befähigt. PUMA vereinheitlicht multi-granulare visuelle Merkmale sowohl als Eingaben als auch als Ausgaben von MLLMs und adressiert elegant die unterschiedlichen Granularitätsanforderungen verschiedener Bildgenerierungsaufgaben innerhalb eines vereinheitlichten MLLM-Rahmens. Nach multimodalem Pretraining und aufgabenbezogener Instruktionsoptimierung zeigt PUMA Kompetenz in einer Vielzahl von multimodalen Aufgaben. Diese Arbeit stellt einen bedeutenden Schritt hin zu einem wirklich vereinheitlichten MLLM dar, der in der Lage ist, sich an die Granularitätsanforderungen verschiedener visueller Aufgaben anzupassen. Der Code und das Modell werden unter https://github.com/rongyaofang/PUMA veröffentlicht.
Wir stellen Baichuan Alignment vor, eine detaillierte Analyse der Ausrichtungstechniken, die in der Baichuan-Serie von Modellen verwendet werden. Dies stellt die erste umfassende Darstellung von Ausrichtungsmethoden in der Branche dar und bietet wertvolle Einblicke zur Förderung der KI-Forschung. Wir untersuchen die entscheidenden Komponenten, die die Leistung des Modells während des Ausrichtungsprozesses verbessern, einschließlich Optimierungsmethoden, Datenauswahlstrategien, Leistungserweiterungen und Evaluierungsprozesse. Der Prozess umfasst drei Schlüsselstufen: Prompt-Augmentierungssystem (PAS), Überwachtes Feintuning (SFT) und Präferenzausrichtung. Die auftretenden Probleme, angewandten Lösungen und vorgenommenen Verbesserungen werden gründlich dokumentiert. Durch Vergleiche mit etablierten Benchmarks heben wir die technologischen Fortschritte hervor, die durch Baichuan Alignment ermöglicht werden. Baichuan-Instruct ist ein internes Modell, während Qwen2-Nova-72B und Llama3-PBM-Nova-70B Instruct-Versionen der Basismodelle Qwen2-72B und Llama-3-70B sind, die durch Baichuan Alignment optimiert wurden. Baichuan-Instruct zeigt signifikante Verbesserungen in den Kernfähigkeiten, mit Nutzererfahrungssteigerungen von 17% bis 28% und erzielt herausragende Leistungen bei spezialisierten Benchmarks. In Evaluierungen anhand von Open-Source-Benchmarks übertreffen sowohl Qwen2-Nova-72B als auch Llama3-PBM-Nova-70B konsistent ihre jeweiligen offiziellen Instruct-Versionen in nahezu allen Datensätzen. Dieser Bericht zielt darauf ab, die Schlüsseltechnologien hinter dem Ausrichtungsprozess zu klären und ein tieferes Verständnis innerhalb der Gemeinschaft zu fördern. Das Llama3-PBM-Nova-70B-Modell ist verfügbar unter https://huggingface.co/PKU-Baichuan-MLSystemLab/Llama3-PBM-Nova-70B.
Das überwachte Feintuning (SFT) ist entscheidend, um große Sprachmodelle (LLMs) an eine spezifische Domäne oder Aufgabe anzupassen. Allerdings steht in praktischen Anwendungen nur eine begrenzte Menge an gelabelten Daten zur Verfügung, was eine ernsthafte Herausforderung für das SFT darstellt, um zufriedenstellende Ergebnisse zu erzielen. Daher wird ein dateneffizientes Framework dringend erwartet, das gelabelte und ungelabelte Daten vollständig für das Feintuning von LLMs nutzen kann. Zu diesem Zweck stellen wir ein semi-überwachtes Feintuning-Framework namens SemiEvol für die Anpassung von LLMs in einer Propagate-and-Select-Manier vor. Für die Wissensverbreitung übernimmt SemiEvol einen zweistufigen Ansatz, bei dem Wissen von gelabelten Daten auf ungelabelte Daten durch sowohl In-Gewicht- als auch In-Kontext-Methoden übertragen wird. Für die Wissensauswahl integriert SemiEvol einen kollaborativen Lernmechanismus, der qualitativ hochwertigere Pseudoantwortproben auswählt. Wir führten Experimente mit GPT-4o-mini und Llama-3.1 auf sieben allgemeinen oder domänenspezifischen Datensätzen durch, die signifikante Verbesserungen der Modellleistung auf den Ziel-Daten zeigten. Darüber hinaus verglichen wir SemiEvol mit SFT- und Selbstentwicklungs-Methoden und betonten dessen Praktikabilität in hybriden Datenszenarien.
Trotz der jüngsten Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) lag ihr Schwerpunkt bisher hauptsächlich auf englisch- und westzentrierten Datensätzen und Aufgaben, wodurch die meisten Sprachen der Welt und vielfältigen kulturellen Kontexte unterrepräsentiert sind. Dieser Artikel stellt Pangea vor, ein mehrsprachiges multimodales LLM, das auf PangeaIns trainiert wurde, einem vielfältigen 6M-Instruktionsdatensatz, der 39 Sprachen umfasst. PangeaIns umfasst: 1) hochwertige englische Anweisungen, 2) sorgfältig maschinell übersetzte Anweisungen und 3) kulturell relevante multimodale Aufgaben, um eine interkulturelle Abdeckung sicherzustellen. Zur gründlichen Bewertung der Fähigkeiten der Modelle führen wir PangeaBench ein, eine umfassende Bewertungssuite, die 14 Datensätze mit 47 Sprachen abdeckt. Die Ergebnisse zeigen, dass Pangea in mehrsprachigen Umgebungen und vielfältigen kulturellen Kontexten signifikant bessere Leistungen erbringt als bestehende Open-Source-Modelle. Ablationsstudien enthüllen weiterhin die Bedeutung von englischen Datenvolumen, Sprachpopularität und der Anzahl von multimodalen Trainingsbeispielen für die Gesamtleistung. Wir stellen unsere Daten, Codes und trainierten Checkpoints vollständig als Open Source zur Verfügung, um die Entwicklung inklusiver und robuster mehrsprachiger MLLMs zu erleichtern und die Gerechtigkeit und Zugänglichkeit über ein breiteres linguistisches und kulturelles Spektrum hinweg zu fördern.
Belohnungsmodelle sind entscheidend in Techniken wie dem Lernen aus menschlichem Feedback (RLHF) und Inferenzskalengesetzen, wo sie die Ausrichtung von Sprachmodellen steuern und optimale Antworten auswählen. Trotz ihrer Bedeutung bewerten bestehende Benchmark-Modelle für Belohnungsmodelle oft Modelle, indem sie sie auffordern, zwischen Antworten zu unterscheiden, die von Modellen unterschiedlicher Leistung erzeugt wurden. Dieser Ansatz versäumt es jedoch, Belohnungsmodelle auf subtile, aber entscheidende Inhaltsänderungen und Variationen im Stil zu bewerten, was zu einer geringen Korrelation mit der Leistung des Richtlinienmodells führt. Zu diesem Zweck stellen wir RM-Bench vor, einen neuen Benchmark, der entwickelt wurde, um Belohnungsmodelle anhand ihrer Empfindlichkeit für subtile Inhaltsunterschiede und ihrer Resistenz gegen Stilvorurteile zu bewerten. Umfangreiche Experimente zeigen, dass RM-Bench stark mit der Leistung des Richtlinienmodells korreliert, was es zu einer zuverlässigen Referenz für die Auswahl von Belohnungsmodellen macht, um Sprachmodelle effektiv auszurichten. Wir bewerten fast 40 Belohnungsmodelle auf RM-Bench. Unsere Ergebnisse zeigen, dass selbst modernste Modelle nur eine durchschnittliche Leistung von 46,6% erreichen, was unter der Zufallsgenauigkeit (50%) liegt, wenn sie mit Stilvorurteilen konfrontiert werden. Diese Ergebnisse verdeutlichen den erheblichen Verbesserungsbedarf bei aktuellen Belohnungsmodellen. Der zugehörige Code und die Daten sind unter https://github.com/THU-KEG/RM-Bench verfügbar.
Die Retrieval-gestützte Generierung (RAG) dient als eine geeignete Ergänzung zu großen Sprachmodellen (LLMs), übersieht jedoch oft den entscheidenden Aspekt des Textchunkings innerhalb ihres Arbeitsablaufs, was die Qualität von wissensintensiven Aufgaben beeinträchtigt. Dieser Artikel führt das Konzept des Meta-Chunkings ein, das eine Granularität zwischen Sätzen und Absätzen darstellt und aus einer Sammlung von Sätzen innerhalb eines Absatzes besteht, die tiefe linguistische logische Verbindungen aufweisen. Um das Meta-Chunking umzusetzen, haben wir zwei Strategien basierend auf LLMs entwickelt: Margin Sampling Chunking und Perplexity Chunking. Ersteres nutzt LLMs, um eine binäre Klassifizierung durchzuführen, ob aufeinanderfolgende Sätze segmentiert werden müssen, wobei Entscheidungen auf der Wahrscheinlichkeitsdifferenz basieren, die durch Margin Sampling erhalten wird. Letzteres identifiziert Textchunk-Grenzen präzise, indem es die Merkmale der Perplexity-Verteilung analysiert. Zusätzlich schlagen wir angesichts der inhärenten Komplexität verschiedener Texte eine Strategie vor, die Meta-Chunking mit dynamischem Merging kombiniert, um ein Gleichgewicht zwischen feinkörnigem und grobkörnigem Textchunking zu erreichen. Experimente an elf Datensätzen zeigen, dass Meta-Chunking die Leistung von Single-Hop- und Multi-Hop-Fragenbeantwortung basierend auf RAG effizienter verbessern kann. Beispielsweise übertrifft es auf dem 2WikiMultihopQA-Datensatz das Ähnlichkeits-Chunking um 1,32, während es nur 45,8% der Zeit benötigt. Unser Code ist verfügbar unter https://github.com/IAAR-Shanghai/Meta-Chunking.
Wissensvermittlung (KD) zielt darauf ab, Wissen von einem großen Lehrmodell auf ein kleineres Schülermodell zu übertragen. Frühere Arbeiten zur Anwendung von KD im Bereich großer Sprachmodelle (LLMs) konzentrierten sich in der Regel auf die Post-Training-Phase, in der das Schüler-LLM direkt aus Anweisungen und entsprechenden Antworten lernt, die vom Lehrmodell generiert wurden. In diesem Paper erweitern wir KD auf die Pre-Training-Phase von LLMs, die als Pre-Training-Destillation (PD) bezeichnet wird. Wir führen zunächst ein Vorversuch durch, bei dem GLM-4-9B als Lehr-LLM verwendet wird, um ein 1,9B-Parameter-Schüler-LLM zu destillieren, um die Wirksamkeit von PD zu validieren. Unter Berücksichtigung der Schlüsselfaktoren der Destillation erkunden wir systematisch den Designraum der Pre-Training-Destillation in vier Aspekten: Logits-Verarbeitung, Verlustauswahl, Skalierungsgesetz und Offline- oder Online-Logits. Wir führen umfangreiche Experimente durch, um den Designraum der Pre-Training-Destillation zu erkunden und bessere Konfigurationen sowie interessante Schlussfolgerungen zu finden, wie zum Beispiel dass größere Schüler-LLMs im Allgemeinen stärker von der Pre-Training-Destillation profitieren, während ein größeres Lehr-LLM nicht zwangsläufig bessere Ergebnisse garantiert. Wir hoffen, dass unsere Erkundung des Designraums zukünftige Praktiken in der Pre-Training-Destillation informieren wird.
Das Verfassen formaler Beweise ist selbst für erfahrene Experten eine Herausforderung. Die jüngsten Fortschritte im Bereich des Neuralen Theorembeweises (NTP) zeigen vielversprechende Ansätze zur Beschleunigung dieses Prozesses. Allerdings sind die formalen Korpora, die im Internet verfügbar sind, im Vergleich zum allgemeinen Text begrenzt, was eine erhebliche Datenknappheit für den NTP darstellt. Um dieses Problem zu lösen, schlägt diese Arbeit Alchemy vor, ein allgemeines Rahmenwerk für die Datensynthese, das formale Sätze durch symbolische Mutation konstruiert. Konkret identifizieren wir für jeden Kandidatensatz in Mathlib alle aufrufbaren Sätze, die zur Umformulierung oder Anwendung darauf verwendet werden können. Anschließend mutieren wir den Kandidatensatz, indem wir den entsprechenden Term in der Aussage durch seine äquivalente Form oder den Antezedens ersetzen. Auf diese Weise erhöht unsere Methode die Anzahl der Sätze in Mathlib um eine Größenordnung, von 110k auf 6M. Darüber hinaus führen wir kontinuierliches Pretraining und überwachtes Feintuning an diesem erweiterten Korpus für große Sprachmodelle durch. Experimentelle Ergebnisse zeigen die Wirksamkeit unseres Ansatzes, der eine absolute Leistungssteigerung von 5% beim Leandojo-Benchmark erzielt. Darüber hinaus erzielen unsere synthetischen Daten einen absoluten Leistungsgewinn von 2,5% beim out-of-distribution miniF2F-Benchmark. Um weitere Einblicke zu bieten, führen wir eine umfassende Analyse der Zusammensetzung synthetischer Daten und des Schulungsparadigmas durch, die wertvolle Anleitungen für die Entwicklung eines starken Theorembeweisers bieten.
Große Sprachmodelle (LLMs) haben die Verarbeitung natürlicher Sprache revolutioniert, aber ihre Anwendung auf sprachbasierte Aufgaben bleibt aufgrund der Komplexität der Integration von Audio- und Textmodalitäten herausfordernd. Dieses Papier stellt Ichigo vor, ein Mixed-Modal-Modell, das nahtlos ineinandergreifende Sequenzen von Sprache und Text verarbeitet. Unter Verwendung eines tokenisierten Early-Fusion-Ansatzes quantisiert Ichigo Sprache in diskrete Tokens und verwendet eine einheitliche Transformer-basierte Architektur für beide Modalitäten. Diese Methode ermöglicht gemeinsames Denken und Generieren über Modalitäten hinweg, ohne separate Adapter zu benötigen. Wir präsentieren eine umfassende Schulungsmethodik, einschließlich Vortrainieren auf mehrsprachigen Spracherkennungsdatensätzen und Feinabstimmung auf einem kuratierten Anweisungsdatensatz. Ichigo zeigt eine Leistung auf dem neuesten Stand der Technik bei sprachbasierten Frage-Antwort-Benchmarks, übertrifft bestehende Open-Source-Sprachmodelle und erzielt vergleichbare Ergebnisse wie kaskadierte Systeme. Beachtenswert ist, dass Ichigo eine Latenz von nur 111 ms bis zur Generierung des ersten Tokens aufweist, was deutlich niedriger ist als bei aktuellen Modellen. Unser Ansatz fördert nicht nur das Gebiet der multimodalen KI, sondern bietet auch einen Rahmen für kleinere Forschungsteams, um effektiv zu Open-Source-Sprach- und Sprachmodelle beizutragen.
Die aufkommenden Zero-Shot-Fähigkeiten großer Sprachmodelle (LLMs) haben zu ihrer Anwendung in Bereichen geführt, die weit über natürliche Sprachverarbeitungsaufgaben hinausgehen. Im Bereich des reinforcement learning wurden LLMs zwar umfassend in textbasierten Umgebungen eingesetzt, ihre Integration mit kontinuierlichen Zustandsräumen ist jedoch noch wenig erforscht. In diesem Artikel untersuchen wir, wie vortrainierte LLMs genutzt werden können, um im Kontext die Dynamik kontinuierlicher Markov-Entscheidungsprozesse vorherzusagen. Wir identifizieren die Bewältigung multivariater Daten und die Integration des Steuersignals als zentrale Herausforderungen, die das Potenzial der Bereitstellung von LLMs in diesem Setup einschränken, und schlagen Disentangled In-Context Learning (DICL) vor, um diesen Herausforderungen zu begegnen. Wir präsentieren Proof-of-Concept-Anwendungen in zwei reinforcement learning Umgebungen: modellbasierte Politikevaluierung und datengestütztes Off-Policy-Reinforcement-Learning, unterstützt durch eine theoretische Analyse der vorgeschlagenen Methoden. Unsere Experimente zeigen weiterhin, dass unser Ansatz gut kalibrierte Unsicherheitsschätzungen liefert. Wir veröffentlichen den Code unter https://github.com/abenechehab/dicl.
Die Erweiterung großer Sprachmodelle, um Anweisungen mit extrem langen Kontexten effektiv zu verarbeiten, wurde noch nicht vollständig erforscht. Das Hauptproblem besteht darin, einen hochwertigen Datensatz für das Befolgen langer Anweisungen zu erstellen, der für die Ausrichtung langer Kontexte konzipiert ist. Bisherige Studien haben versucht, das verfügbare Datenvolumen durch die Synthese langer Beispiele für das Befolgen von Anweisungen zu skalieren. Allerdings kann eine unkontrollierte Erhöhung der Datenmenge ohne eine klar definierte Strategie zur Sicherung der Datenqualität zu minderwertigen Beispielen führen und die endgültige Leistung einschränken. Um diese Lücke zu schließen, zielen wir darauf ab, die einzigartige Herausforderung der Ausrichtung von langen Kontexten anzugehen, d.h. die Modellierung der langreichweitigen Abhängigkeiten zur Verarbeitung von Anweisungen und langen Eingabekontexten. Wir schlagen GATEAU vor, ein neuartiges Framework, das entwickelt wurde, um die einflussreichen und hochwertigen Beispiele mit langreichweitigen Abhängigkeiten zu identifizieren, indem es das Homologous Models' Guidance (HMG) und die Contextual Awareness Measurement (CAM) nutzt. Speziell versucht HMG, die Schwierigkeit der Generierung entsprechender Antworten aufgrund der langreichweitigen Abhängigkeiten zu messen, indem die Perplexitätswerte der Antwort von zwei homologen Modellen mit unterschiedlichen Kontextfenstern verwendet werden. Die Aufgabe von CAM besteht darin, die Schwierigkeit des Verstehens langer Eingabekontexte aufgrund langreichweitiger Abhängigkeiten zu messen, indem bewertet wird, ob die Aufmerksamkeit des Modells auf wichtige Segmente gerichtet ist. Basierend auf beiden vorgeschlagenen Methoden wählen wir die herausforderndsten Beispiele als einflussreiche Daten aus, um die langreichweitigen Abhängigkeiten effektiv zu modellieren und somit eine bessere Leistung von LLMs zu erzielen. Umfassende Experimente zeigen, dass GATEAU effektiv Beispiele mit langreichweitigen Abhängigkeiten identifiziert und das auf diesen ausgewählten Beispielen trainierte Modell eine bessere Fähigkeit zum Befolgen von Anweisungen und zum Verständnis langer Kontexte aufweist.
Text-to-Image-Modelle werden mithilfe großer Datensätze trainiert, die durch das Scrapen von Bild-Text-Paaren aus dem Internet gesammelt werden. Diese Datensätze enthalten oft private, urheberrechtlich geschützte und lizenzierte Materialien. Das Trainieren von Modellen mit solchen Datensätzen ermöglicht es ihnen, Bilder mit solchen Inhalten zu generieren, die möglicherweise gegen Urheberrechte und individuelle Privatsphäre verstoßen. Dieses Phänomen wird als Imitation bezeichnet - die Generierung von Bildern mit Inhalten, die eine erkennbare Ähnlichkeit mit den Trainingsbildern aufweisen. In dieser Arbeit untersuchen wir die Beziehung zwischen der Häufigkeit eines Konzepts im Trainingsdatensatz und der Fähigkeit eines Modells, es zu imitieren. Wir möchten den Punkt bestimmen, an dem ein Modell auf ausreichend vielen Instanzen trainiert wurde, um ein Konzept zu imitieren - die Imitationsschwelle. Wir stellen diese Frage als neues Problem: Das Finden der Imitationsschwelle (FIT) und schlagen einen effizienten Ansatz vor, der die Imitationsschwelle schätzt, ohne die enormen Kosten für das Training mehrerer Modelle von Grund auf zu verursachen. Wir experimentieren mit zwei Bereichen - menschliche Gesichter und Kunststile - für die wir vier Datensätze erstellen und drei Text-zu-Bild-Modelle evaluieren, die auf zwei Vor-Trainingsdatensätzen trainiert wurden. Unsere Ergebnisse zeigen, dass die Imitationsschwelle dieser Modelle im Bereich von 200-600 Bildern liegt, abhängig vom Bereich und dem Modell. Die Imitationsschwelle kann eine empirische Grundlage für Urheberrechtsverletzungsansprüche bieten und als Leitprinzip für Entwickler von Text-zu-Bild-Modellen dienen, die die Urheberrechts- und Datenschutzgesetze einhalten möchten. Wir veröffentlichen den Code und die Daten unter https://github.com/vsahil/MIMETIC-2.git und die Website des Projekts ist unter https://how-many-van-goghs-does-it-take.github.io gehostet.
Wir präsentieren Agent-to-Sim (ATS), ein Framework zum Erlernen interaktiver Verhaltensmodelle von 3D-Agenten aus zufälligen longitudinalen Videokollektionen. Im Gegensatz zu früheren Arbeiten, die auf markerbasiertem Tracking und Multikameraperspektiven beruhen, lernt ATS natürliche Verhaltensweisen von Tier- und menschlichen Agenten nicht-invasiv durch Videoaufnahmen, die über einen langen Zeitraum (z. B. einen Monat) in einer einzigen Umgebung aufgezeichnet wurden. Die Modellierung des 3D-Verhaltens eines Agenten erfordert ein kontinuierliches 3D-Tracking (z. B. das Wissen, welcher Punkt welchem entspricht) über einen längeren Zeitraum. Um solche Daten zu erhalten, entwickeln wir eine grob-zu-fein Registrierungsmethode, die den Agenten und die Kamera im Laufe der Zeit durch einen kanonischen 3D-Raum verfolgt, was zu einer vollständigen und persistenten Raum-Zeit-4D-Repräsentation führt. Anschließend trainieren wir ein generatives Modell von Agentenverhalten unter Verwendung von gepaarten Daten zur Wahrnehmung und Bewegung eines Agenten, die aus der 4D-Rekonstruktion abgefragt wurden. ATS ermöglicht den Transfer von Echtzeit zu Simulation von Videoaufnahmen eines Agenten zu einem interaktiven Verhaltenssimulator. Wir demonstrieren die Ergebnisse an Haustieren (z. B. Katze, Hund, Hase) und Menschen anhand monokularer RGBD-Videos, die mit einem Smartphone aufgenommen wurden.
Es besteht eine signifikante Kluft zwischen den Bedürfnissen der Patienten und der verfügbaren psychischen Gesundheitsunterstützung heute. In diesem Papier zielen wir darauf ab, das Potenzial des Einsatzes von Large Language Models (LLMs) zur Unterstützung der professionellen Psychotherapie eingehend zu untersuchen. Zu diesem Zweck schlagen wir einen neuen Benchmark, CBT-BENCH, zur systematischen Bewertung der kognitiven Verhaltenstherapie (CBT) Unterstützung vor. Wir umfassen drei Ebenen von Aufgaben in CBT-BENCH: I: Grundlagen des CBT-Wissenserwerbs, mit der Aufgabe von Multiple-Choice-Fragen; II: Verständnis des kognitiven Modells, mit den Aufgaben der Klassifizierung kognitiver Verzerrungen, der Klassifizierung primärer Kernüberzeugungen und der feingliedrigen Kernüberzeugungsklassifizierung; III: Generierung therapeutischer Antworten, mit der Aufgabe, Antworten auf die Äußerungen der Patienten in CBT-Therapiesitzungen zu generieren. Diese Aufgaben umfassen Schlüsselaspekte der CBT, die potenziell durch KI-Unterstützung verbessert werden könnten, und skizzieren gleichzeitig eine Hierarchie der Leistungsanforderungen, die von der einfachen Wissensrezitation bis hin zur Beteiligung an echten therapeutischen Gesprächen reicht. Wir haben repräsentative LLMs auf unserem Benchmark evaluiert. Die experimentellen Ergebnisse deuten darauf hin, dass LLMs zwar gut darin sind, CBT-Wissen zu rezitieren, jedoch in komplexen realen Szenarien, die eine eingehende Analyse der kognitiven Strukturen der Patienten und die Generierung effektiver Antworten erfordern, nicht ausreichen, was auf mögliche zukünftige Arbeiten hinweist.
Traditionelle Transformer-Modelle weisen häufig eine feste Menge an Rechenressourcen für jedes Eingabe-Token zu, was zu ineffizienter und unnötiger Berechnung führt. Um dies zu lösen, wurde die Mixture of Depths (MoD) eingeführt, um die Rechentiefe dynamisch anzupassen, indem weniger wichtige Schichten übersprungen werden. Trotz ihres Potenzials sind aktuelle MoD-Ansätze noch wenig erforscht und stehen vor zwei Hauptproblemen: (1) hohe Trainingskosten aufgrund der Notwendigkeit, das gesamte Modell zusammen mit den Routern zu trainieren, die bestimmen, welche Schichten übersprungen werden sollen, und (2) das Risiko einer Leistungsverschlechterung, wenn wichtige Schichten umgangen werden. Zur Behebung des ersten Problems schlagen wir Router-Tuning vor, eine Methode, die nur den Router auf einem kleinen Datensatz feinabstimmt und so den Rechenaufwand, der mit dem Training des gesamten Modells verbunden ist, drastisch reduziert. Für die zweite Herausforderung schlagen wir MindSkip vor, das Attention mit dynamischen Tiefen einsetzt. Diese Methode erhält die Leistung des Modells, während sie die Rechen- und Speichereffizienz erheblich verbessert. Umfangreiche Experimente zeigen, dass unser Ansatz wettbewerbsfähige Ergebnisse liefert und die Recheneffizienz dramatisch verbessert, z. B. eine Beschleunigung um 21 % und nur einen Leistungsabfall von 0,2 %. Der Code ist unter https://github.com/CASE-Lab-UMD/Router-Tuning verfügbar.
Jüngste Fortschritte bei Sprach-Sprachmodellen haben signifikante Verbesserungen bei der Tokenisierung und Synthese von Sprache gebracht. Dennoch bleibt die effektive Zuordnung der komplexen, multidimensionalen Merkmale von Sprache in diskrete Tokens eine Herausforderung. Dieser Prozess erfordert akustische, semantische und kontextuelle Informationen für präzise Sprachrepräsentationen. Bestehende Sprachrepräsentationen lassen sich im Allgemeinen in zwei Kategorien einteilen: akustische Tokens aus Audiocodecs und semantische Tokens aus selbstüberwachten Lernmodellen für Sprache. Obwohl jüngste Bemühungen akustische und semantische Tokens vereinheitlicht haben, um die Leistung zu verbessern, vernachlässigen sie die entscheidende Rolle der kontextuellen Repräsentation bei umfassender Sprachmodellierung. Unsere empirischen Untersuchungen zeigen, dass das Fehlen von kontextuellen Repräsentationen zu erhöhten Wortfehlerraten (WER) und verlorenen Wortinformationen (WIL) bei Sprachtranskriptionen führt. Um diese Einschränkungen anzugehen, schlagen wir zwei neuartige Destillationsansätze vor: (1) eine durch ein Sprachmodell (LM) geleitete Destillationsmethode, die kontextuelle Informationen integriert, und (2) eine kombinierte LM- und selbstüberwachte Sprachmodell (SM)-geleitete Destillationstechnik, die multimodale Repräsentationen (akustisch, semantisch und kontextuell) effektiv zu einem umfassenden Sprachtokener, genannt DM-Codec, destilliert. Die DM-Codec-Architektur verwendet ein schlankes Encoder-Decoder-Framework mit einem Residual Vector Quantizer (RVQ) und integriert das LM und SM während des Schulungsprozesses. Experimente zeigen, dass DM-Codec signifikant bessere Leistungen als führende Sprach-Tokenisierungsmodelle erbringt, indem es die WER um bis zu 13,46 %, die WIL um 9,82 % reduziert und die Sprachqualität um 5,84 % und die Verständlichkeit um 1,85 % auf dem Benchmark-Datensatz LibriSpeech verbessert. Der Code, Beispiele und Modell-Checkpoints sind unter https://github.com/mubtasimahasan/DM-Codec verfügbar.
Das Ziel des maschinellen Lernens ist die Verallgemeinerung. Während der No-Free-Lunch-Satz besagt, dass wir ohne weitere Annahmen keine theoretischen Garantien für die Verallgemeinerung erhalten können, beobachten wir in der Praxis, dass einfache Modelle, die die Trainingsdaten am besten erklären, am besten verallgemeinern: ein Prinzip, das als Ockhams Rasiermesser bekannt ist. Trotz des Bedarfs an einfachen Modellen minimieren die meisten aktuellen Ansätze im maschinellen Lernen nur den Trainingsfehler und fördern höchstens indirekt die Einfachheit durch Regularisierung oder Architekturdesign. Hier ziehen wir eine Verbindung zwischen Ockhams Rasiermesser und dem kontextbezogenen Lernen: einer aufkommenden Fähigkeit bestimmter Sequenzmodelle wie Transformers, zur Inferenzzeit aus vergangenen Beobachtungen in einer Sequenz zu lernen. Insbesondere zeigen wir, dass der Verlust bei der Vorhersage des nächsten Tokens, der zur Schulung von kontextbezogenen Lernenden verwendet wird, direkt äquivalent zu einer Datenkomprimierungstechnik namens Prequential-Codierung ist, und dass die Minimierung dieses Verlusts darauf hinausläuft, sowohl den Trainingsfehler als auch die Komplexität des Modells, die implizit aus dem Kontext gelernt wurde, gemeinsam zu minimieren. Unsere Theorie und die empirischen Experimente, die wir zur Unterstützung verwenden, liefern nicht nur eine normative Darstellung des kontextbezogenen Lernens, sondern erhellen auch die Mängel der aktuellen kontextbezogenen Lernmethoden und legen nahe, wie sie verbessert werden können. Wir stellen unseren Code unter https://github.com/3rdCore/PrequentialCode zur Verfügung.
Mit dem zunehmenden Einsatz großer Sprachmodelle (LLMs) in verschiedenen Branchen wachsen Bedenken hinsichtlich ihrer Zuverlässigkeit, insbesondere aufgrund von Halluzinationen - Ausgaben, die faktisch inkorrekt oder für die Benutzereingabe irrelevant sind. Unsere Forschung untersucht die Beziehung zwischen dem Trainingsprozess und dem Auftreten von Halluzinationen, um eine wesentliche Lücke in der bestehenden Forschung zu adressieren, die sich hauptsächlich auf nachträgliche Erkennungs- und Minderungsstrategien konzentriert. Unter Verwendung von Modellen aus der Pythia-Suite (70M-12B Parameter) und mehreren Halluzinationserkennungsmetriken analysieren wir Halluzinationstrends während des Trainings und erforschen die internen Dynamiken von LLMs. Wir stellen SEnsitive Neuron Dropout (SeND) vor, ein neuartiges Trainingsprotokoll, das darauf abzielt, Halluzinationen zu mindern, indem es die Varianz während des Trainings reduziert. SeND erreicht dies, indem es Neuronen mit signifikanter Variabilität auf einem Datensatz deterministisch auslässt, die als Sensitive Neurons bezeichnet werden. Darüber hinaus entwickeln wir eine unüberwachte Halluzinationserkennungsmetrik, Efficient EigenScore (EES), die den traditionellen EigenScore in doppelter Geschwindigkeit approximiert. Diese effiziente Metrik ist in unser Protokoll integriert, was SeND sowohl rechnerisch skalierbar als auch effektiv bei der Reduzierung von Halluzinationen macht. Unsere empirische Evaluierung zeigt, dass unser Ansatz die Zuverlässigkeit von LLMs zur Testzeit um bis zu 40% im Vergleich zum normalen Training verbessert und gleichzeitig eine effiziente Methode bietet, um die faktische Genauigkeit bei der Anpassung von LLMs an Bereiche wie Wikipedia und medizinische Datensätze zu verbessern.
Die Bewertung von maschinengeneriertem Text bleibt eine bedeutende Herausforderung im Bereich der natürlichen Sprachverarbeitung (NLP), insbesondere für nicht-englische Sprachen. Aktuelle Methodologien, einschließlich automatisierter Metriken, menschlicher Bewertungen und LLM-basierter Bewertungen, konzentrieren sich hauptsächlich auf Englisch und zeigen eine signifikante Lücke in mehrsprachigen Bewertungsrahmen auf. Wir stellen die Cross-Lingual Auto Evaluation (CIA) Suite vor, ein erweiterbares Framework, das Evaluatoren LLMs (Hercule) und einen neuartigen Testdatensatz (Recon) umfasst, der speziell für mehrsprachige Bewertungen entwickelt wurde. Unser Testdatensatz umfasst 500 menschlich annotierte Anweisungen, die verschiedene Aufgabenfähigkeiten abdecken, sowie menschliche Bewertungspunkte in sechs Sprachen. Dies ermöglicht die Benchmarking von allgemeinen mehrsprachigen LLMs und erleichtert die Meta-Bewertung von Evaluatoren LLMs. Das vorgeschlagene Modell, Hercule, ist ein cross-linguales Bewertungsmodell, das der Knappheit von Referenzantworten in der Zielsprache begegnet, indem es lernt, Punkte für Antworten basierend auf leicht verfügbaren Referenzantworten auf Englisch zuzuweisen. Unsere Experimente zeigen, dass Hercule im Vergleich zu proprietären Modellen enger mit menschlichen Bewertungen übereinstimmt und somit die Wirksamkeit einer solchen cross-lingualen Bewertung in Szenarien mit geringen Ressourcen demonstriert. Darüber hinaus ist es auch effektiv bei der Null-Schuss-Bewertung in unbekannten Sprachen. Diese Studie ist die erste umfassende Untersuchung der cross-lingualen Bewertung unter Verwendung von LLMs und präsentiert einen skalierbaren und effektiven Ansatz für mehrsprachige Bewertungen. Der gesamte Code, Datensätze und Modelle werden öffentlich zugänglich sein, um weitere Forschung in diesem wichtigen Bereich zu ermöglichen.