Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Der kontrastive Verlust ist ein leistungsstarker Ansatz für die Repräsentationslernen, bei dem größere Batch-Größen die Leistung verbessern, indem sie mehr negative Beispiele bereitstellen, um ähnliche und unähnliche Daten besser zu unterscheiden. Die Skalierung der Batch-Größen wird jedoch durch das quadratische Wachstum des GPU-Speicherverbrauchs eingeschränkt, hauptsächlich aufgrund der vollständigen Instantiierung der Ähnlichkeitsmatrix. Um dies zu lösen, schlagen wir eine kachelbasierte Berechnungsstrategie vor, die die Kontrastverlustberechnung in beliebig kleine Blöcke unterteilt, um die vollständige Materialisierung der Ähnlichkeitsmatrix zu vermeiden. Darüber hinaus führen wir eine mehrstufige Kachelstrategie ein, um die hierarchische Struktur von verteilten Systemen zu nutzen, wobei ringbasierte Kommunikation auf GPU-Ebene zur Optimierung der Synchronisation und fusionierte Kerne auf der CUDA-Core-Ebene zur Reduzierung des I/O-Overheads verwendet werden. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode Batch-Größen auf beispiellose Niveaus skalieren kann. Beispielsweise ermöglicht sie das kontrastive Training eines CLIP-ViT-L/14-Modells mit einer Batch-Größe von 4M oder 12M unter Verwendung von 8 oder 32 A800 80GB, ohne dabei Genauigkeit zu opfern. Im Vergleich zu SOTA-speichereffizienten Lösungen erreicht sie eine Reduzierung des Speichers um zwei Größenordnungen, während sie eine vergleichbare Geschwindigkeit beibehält. Der Code wird öffentlich zugänglich gemacht.
Große Sprachmodelle (LLMs) leiden unter Halluzinationen, die sich auf nicht-faktische Informationen im generierten Inhalt beziehen, trotz ihrer überlegenen Leistungsfähigkeit über verschiedene Aufgaben hinweg. In der Zwischenzeit wurde die Wissensbearbeitung als ein neues populäres Paradigma entwickelt, um fehlerhaftes faktisches Wissen, das in LLMs codiert ist, zu korrigieren, mit dem Vorteil, ein Neutraining von Grund auf zu vermeiden. Ein häufiges Problem bestehender Evaluierungsdatensätze für die Wissensbearbeitung ist jedoch, dass sie nicht sicherstellen, dass LLMs tatsächlich halluzinierte Antworten auf die Evaluierungsfragen generieren, bevor sie bearbeitet werden. Wenn LLMs auf solchen Datensätzen bewertet werden, nachdem sie von verschiedenen Techniken bearbeitet wurden, ist es schwierig, die Leistung direkt zu übernehmen, um die Wirksamkeit verschiedener Wissensbearbeitungsmethoden bei der Korrektur von Halluzinationen zu bewerten. Somit bleibt die grundlegende Frage unzureichend validiert: Kann die Wissensbearbeitung wirklich Halluzinationen in LLMs korrigieren? Wir haben HalluEditBench vorgeschlagen, um Wissensbearbeitungsmethoden zur Korrektur realer Halluzinationen ganzheitlich zu bewerten. Zunächst konstruieren wir rigoros einen umfangreichen Halluzinationsdatensatz mit 9 Domänen, 26 Themen und über 6.000 Halluzinationen. Dann bewerten wir die Leistung von Wissensbearbeitungsmethoden auf ganzheitliche Weise anhand von fünf Dimensionen, einschließlich Wirksamkeit, Generalisierung, Portabilität, Lokalität und Robustheit. Durch HalluEditBench haben wir neue Einblicke in das Potenzial und die Grenzen verschiedener Wissensbearbeitungsmethoden zur Korrektur von Halluzinationen geliefert, die zukünftige Verbesserungen inspirieren und den Fortschritt auf dem Gebiet der Wissensbearbeitung erleichtern könnten.
Langkontextmodelle (LCMs) haben ein großes Potenzial gezeigt, um lange Eingabesequenzen (sogar mehr als 100 Millionen Tokens) bequem und effektiv zu verarbeiten. Mit signifikanten Fortschritten hat die jüngste Forschung darauf hingewiesen, dass LCMs in der Lage sind, Token-ebene herausragende Informationen innerhalb des Kontexts präzise zu lokalisieren. Dennoch ist die Generierungsleistung dieser LCMs weit von zufriedenstellend entfernt und kann zu fehlausgerichteten Antworten führen, wie z.B. Halluzinationen. Um die Generierungsfähigkeit von LCMs zu verbessern, haben bestehende Arbeiten die Auswirkungen von Datengröße und -qualität sowohl für das Vortraining als auch für die Anleitungsoptimierung untersucht. Obwohl bedeutende Verbesserungen erzielt wurden, schneiden vorherige Methoden entweder in der Effektivität oder Effizienz kurz. In diesem Papier stellen wir LOGO (Long cOntext aliGnment via effiziente Präferenzoptimierung) vor, eine Trainingsstrategie, die zunächst die Präferenzoptimierung für die Langkontextausrichtung einführt. Um das durch die lange Sequenz verursachte Problem des GPU-Speicherlimits zu überwinden, verwendet LOGO eine referenzfreie Präferenzoptimierungsstrategie und übernimmt eine Positionssynthesemethode zur Konstruktion der Trainingsdaten. Durch das Training mit nur 0,3 Milliarden Daten auf einer einzelnen 8xA800 GPU-Maschine für 16 Stunden ermöglicht LOGO dem Llama-3-8B-Instruct-80K-Modell, vergleichbare Leistungen mit GPT-4 in realen Langkontextaufgaben zu erzielen, während es die ursprünglichen Fähigkeiten des Modells bei anderen Aufgaben, wie z.B. Sprachmodellierung und MMLU, bewahrt. Darüber hinaus kann LOGO die Kontextfenstergröße des Modells erweitern und gleichzeitig dessen Generierungsleistung verbessern.
Die Verfügbarkeit von hochwertigen Daten ist einer der wichtigsten Faktoren zur Verbesserung der Schlussfolgerungsfähigkeit von LLMs. Bestehende Arbeiten haben die Wirksamkeit der Erstellung von mehr Anweisungsdaten aus Ausgangsfragen oder Wissensdatenbanken gezeigt. Aktuelle Forschungsergebnisse deuten darauf hin, dass eine kontinuierliche Skalierung der Datensynthese aus starken Modellen (z. B. GPT-4) die Schlussfolgerungsleistung weiter steigern kann. Obwohl vielversprechend, fehlt es der Open-Source-Community immer noch an hochwertigen Daten in großem Umfang und skalierbaren Datensynthesemethoden mit erschwinglichen Kosten. Um dies zu lösen, stellen wir ScaleQuest vor, eine skalierbare und innovative Datensynthesemethode, die "kleinere" (z. B. 7B) Open-Source-Modelle nutzt, um Fragen von Grund auf zu generieren, ohne auf Ausgangsdaten mit komplexen Erweiterungsbeschränkungen angewiesen zu sein. Mit dem effizienten ScaleQuest haben wir automatisch einen mathematischen Schlussfolgerungsdatensatz erstellt, der aus 1 Million Problem-Lösungs-Paaren besteht und effektiver ist als bestehende Open-Source-Datensätze. Es kann die Leistung von gängigen Open-Source-Modellen (z. B. Mistral, Llama3, DeepSeekMath und Qwen2-Math) universell steigern, indem es auf MATH Gewinne von 29,2% bis 46,4% erzielt. Bemerkenswert ist, dass allein durch Feinabstimmung des Qwen2-Math-7B-Base-Modells mit unserem Datensatz sogar Qwen2-Math-7B-Instruct übertreffen kann, ein starkes und gut ausgerichtetes Modell auf Closed-Source-Daten, sowie proprietäre Modelle wie GPT-4-Turbo und Claude-3.5 Sonnet.
Wir schlagen Framer für die interaktive Bildinterpolation vor, die darauf abzielt, sanft übergehende Frames zwischen zwei Bildern gemäß der Benutzerkreativität zu erzeugen. Konkret unterstützt unser Ansatz neben der Verwendung der Start- und Endframes auch die Anpassung des Übergangsprozesses durch die Gestaltung der Trajektorie einiger ausgewählter Schlüsselpunkte. Ein solches Design bietet zwei klare Vorteile. Erstens mildert die Einbeziehung menschlicher Interaktion das Problem, das sich aus zahlreichen Möglichkeiten der Transformation eines Bildes in ein anderes ergibt, und ermöglicht somit eine feinere Steuerung lokaler Bewegungen. Zweitens helfen Schlüsselpunkte als einfachste Form der Interaktion dabei, die Korrespondenz zwischen den Frames herzustellen und das Modell zu verbessern, um anspruchsvolle Fälle zu bewältigen (z. B. Objekte auf den Start- und Endframes haben unterschiedliche Formen und Stile). Es ist erwähnenswert, dass unser System auch einen "Autopilot"-Modus bietet, bei dem wir ein Modul einführen, um die Schlüsselpunkte zu schätzen und die Trajektorie automatisch zu verfeinern, um die Anwendung in der Praxis zu vereinfachen. Umfangreiche experimentelle Ergebnisse zeigen die überzeugende Leistung von Framer in verschiedenen Anwendungen wie Bildmorphing, Zeitraffer-Videogenerierung, Cartoon-Interpolation usw. Der Code, das Modell und die Benutzeroberfläche werden veröffentlicht, um weitere Forschung zu erleichtern.
Wir stellen das Konzept eines generativen unendlichen Spiels vor, ein Videospiel, das die traditionellen Grenzen endlicher, fest codierter Systeme durch die Verwendung generativer Modelle überwindet. Inspiriert von James P. Carses Unterscheidung zwischen endlichen und unendlichen Spielen nutzen wir die jüngsten Fortschritte in der generativen KI, um Unbounded zu kreieren: ein Spiel zur Simulation des Lebens eines Charakters, das vollständig in generativen Modellen verkörpert ist. Speziell bezieht Unbounded Inspiration aus Sandbox-Lebenssimulationen und ermöglicht es Ihnen, mit Ihrem autonomen virtuellen Charakter in einer virtuellen Welt zu interagieren, indem Sie ihn füttern, mit ihm spielen und ihn führen - mit offenen Mechaniken, die von einem LLM generiert werden, von denen einige emergent sein können. Um Unbounded zu entwickeln, schlagen wir technische Innovationen in den Bereichen des LLM und der visuellen Generierung vor. Konkret präsentieren wir: (1) ein spezialisiertes, destilliertes großes Sprachmodell (LLM), das dynamisch Spielmechaniken, Erzählungen und Charakterinteraktionen in Echtzeit generiert, und (2) einen neuen dynamischen regionalen Bildprompt-Adapter (IP-Adapter) für Bildmodelle, der eine konsistente, aber flexible visuelle Generierung eines Charakters in mehreren Umgebungen gewährleistet. Wir evaluieren unser System durch sowohl qualitative als auch quantitative Analysen und zeigen signifikante Verbesserungen in der Simulation des Charakterlebens, der Benutzeranweisungen, der narrativen Kohärenz und der visuellen Konsistenz sowohl für Charaktere als auch für die Umgebungen im Vergleich zu traditionellen Ansätzen.
Die Lösung komplexer Diagramm-Fragen-Antwort-Aufgaben erfordert fortgeschrittene visuelle Denkfähigkeiten in multimodalen großen Sprachmodellen (MLLMs). Aktuelle Studien heben hervor, dass diese Fähigkeiten aus zwei Hauptteilen bestehen: dem Erkennen von Schlüsselinformationen aus visuellen Eingaben und dem Durchführen von Schlussfolgerungen darüber. Ein vielversprechender Ansatz zur Verbesserung von MLLMs besteht daher darin, relevante Trainingsdaten zu erstellen, die sich auf diese beiden Aspekte konzentrieren. Das Sammeln und Annotieren komplexer Diagramme und Fragen ist jedoch kostspielig und zeitaufwändig, und die Sicherstellung der Qualität der annotierten Antworten bleibt eine Herausforderung. In diesem Papier schlagen wir Code-als-Zwischenübersetzung (CIT) vor, eine kostengünstige, effiziente und leicht skalierbare Datensynthesemethode zur Extraktion von visuellen Denkfähigkeiten aus LLMs für MLLMs. Der Code dient als Vermittler, der visuelle Diagrammdarstellungen in textuelle Darstellungen übersetzt und es LLMs ermöglicht, informationen über Modalitäten hinweg zu verstehen. Konkret verwenden wir textbasierte Synthesetechniken, um Diagrammplot-Code zu erstellen und ReachQA zu produzieren, einen Datensatz mit 3k schlussfolgerungsintensiven Diagrammen und 20k Frage-Antwort-Paaren zur Verbesserung von Erkennungs- und Schlussfolgerungsfähigkeiten. Experimente zeigen, dass Modelle, die mit unseren Daten feinabgestimmt sind, nicht nur gut bei Diagramm-bezogenen Benchmarks abschneiden, sondern auch verbesserte multimodale Denkfähigkeiten bei allgemeinen mathematischen Benchmarks wie MathVista zeigen. Der Code und der Datensatz sind öffentlich unter https://github.com/hewei2001/ReachQA verfügbar.
In diesem Bericht stellen wir eine Sammlung von Methoden zur Verbesserung der Belohnungsmodellierung für LLMs vor, wobei wir uns speziell auf datenzentrierte Techniken konzentrieren. Wir schlagen effektive Strategien zur Datenauswahl und -filterung zur Kuratierung hochwertiger Open-Source-Präferenzdatensätze vor, die in der Skywork-Reward-Datensammlung gipfeln, die nur 80K Präferenzpaare enthält - signifikant kleiner als bestehende Datensätze. Unter Verwendung dieses kuratierten Datensatzes haben wir die Skywork-Reward-Modellreihe entwickelt - Skywork-Reward-Gemma-27B und Skywork-Reward-Llama-3.1-8B - wobei erstere derzeit die Spitzenposition auf der RewardBench-Rangliste einnimmt. Bemerkenswert ist, dass unsere Techniken und Datensätze die Leistung vieler erstklassiger Modelle auf RewardBench direkt verbessert haben, was die praktische Auswirkung unserer Beiträge in Anwendungen des realen Präferenzlernens hervorhebt.
Große Sprachmodelle (LLMs) können eine bedeutende Menge an Faktenwissen in ihren Parametern speichern. Allerdings kann ihr parametrisches Wissen im Widerspruch zu den Informationen stehen, die im Kontext bereitgestellt werden - dieses Phänomen, bekannt als Konflikt zwischen Kontext- und Gedächtniswissen, kann zu unerwünschtem Modellverhalten führen, wie der Abhängigkeit von veralteten oder inkorrekten Informationen. Durch die Analyse der internen Aktivierungen von LLMs stellen wir fest, dass sie die Signale von Wissenskonflikten in mittleren Schichten intern registrieren können. Solche Signale ermöglichen es uns festzustellen, ob ein Wissenskonflikt auftritt, und Inverventionsstrategien zur Auflösung während der Inferenzzeit zu nutzen. In dieser Arbeit schlagen wir SpARE vor, eine trainingsfreie Repräsentations-Engineering-Methode, die vortrainierte Sparse Auto-Encoder (SAEs) verwendet, um das Wissensauswahlverhalten von LLMs zu steuern. SpARE identifiziert die funktionalen Merkmale, die das Wissensauswahlverhalten steuern, und wendet sie an, um die internen Aktivierungen von LLMs zur Inferenzzeit zu bearbeiten. Unsere experimentellen Ergebnisse zeigen, dass SpARE die Verwendung einer der Wissensquellen effektiv steuern kann, um Wissenskonflikte in offenen Frage-Antwort-Aufgaben zu lösen, wobei bestehende Repräsentations-Engineering-Methoden (+10%) sowie kontrastive Dekodierungsmethoden (+15%) übertroffen werden.
Fortschritte im verteilten Training und effiziente Aufmerksamkeitsmechanismen haben die Kontextfenstergrößen großer Sprachmodelle (LLMs) signifikant erweitert. Allerdings zeigt aktuelle Arbeit, dass die effektiven Kontextlängen von Open-Source LLMs oft begrenzt sind und in der Regel nicht mehr als die Hälfte ihrer Trainingslängen erreichen. In dieser Arbeit führen wir diese Beschränkung auf die linkssteile Häufigkeitsverteilung relativer Positionen zurück, die sich in den Vor- und Nachtrainingsphasen von LLMs bildet und ihre Fähigkeit beeinträchtigt, entfernte Informationen effektiv zu sammeln. Um diese Herausforderung anzugehen, führen wir ShifTed Rotray Position Embedding (STRING) ein. STRING verschiebt gut trainierte Positionen, um die ursprünglich ineffektiven Positionen während der Inferenz zu überschreiben und die Leistung innerhalb ihrer bestehenden Trainingslängen zu verbessern. Experimentelle Ergebnisse zeigen, dass STRING ohne zusätzliches Training die Leistung der neuesten groß angelegten Modelle wie Llama3.1 70B und Qwen2 72B auf beliebten Langkontext-Benchmarks RULER und InfiniteBench dramatisch um über 10 Punkte verbessert und neue State-of-the-Art-Ergebnisse für Open-Source LLMs etabliert. Im Vergleich zu kommerziellen Modellen erzielt Llama 3.1 70B mit STRING sogar eine bessere Leistung als GPT-4-128K und übertrifft deutlich Claude 2 und Kimi-chat.
Effizientes Sprachmodellieren über lange Kontexte bleibt eine bedeutende Herausforderung im Bereich der natürlichen Sprachverarbeitung (NLP). Obwohl Transformer dominierend in Sprachaufgaben sind, haben sie Schwierigkeiten mit langen Sequenzen aufgrund quadratischer Rechenkomplexität beim Training und linear skalierenden Speicherkosten während der Inferenz. Neueste Zustandsraummodelle (SSMs) wie Mamba bieten Alternativen mit konstanter Speichernutzung, jedoch erbringen sie schlechtere Leistungen bei Aufgaben, die umfangreiche Kontextabrufungen erfordern. Wir stellen Taipan vor, eine neuartige Hybridarchitektur, die Mamba-2 mit Selektiven Aufmerksamkeitsschichten (SALs) kombiniert. Diese SALs identifizieren Tokens, die langreichweitige Interaktionen erfordern, entfernen weniger wichtige Merkmale und erweitern dann ihre Darstellungen mithilfe des Aufmerksamkeitsmoduls. Dieser Ansatz balanciert die Effizienz von Mamba mit Transformer-ähnlicher Leistung bei speicherintensiven Aufgaben. Durch die Begrenzung des Aufmerksamkeitsbudgets ermöglicht Taipan präzise Vorhersagen für Kontextlängen von bis zu 1 Million Tokens bei gleichzeitiger Beibehaltung der Recheneffizienz. Unsere Experimente zeigen die überlegene Leistung von Taipan über verschiedene Maßstäbe und Aufgaben hinweg und bieten eine vielversprechende Lösung für effizientes Sprachmodellieren über lange Kontexte.
Das Segmentieren eines Objekts in einem Video birgt signifikante Herausforderungen. Jedes Pixel muss genau gekennzeichnet werden, und diese Kennzeichnungen müssen über die Frames hinweg konsistent bleiben. Die Schwierigkeit steigt, wenn die Segmentierung mit beliebiger Granularität erfolgt, was bedeutet, dass die Anzahl der Segmente beliebig variieren kann und Masken basierend nur auf einem oder wenigen Beispielfotos definiert sind. In diesem Paper behandeln wir dieses Problem, indem wir ein vortrainiertes Text-zu-Bild-Diffusionsmodell verwenden, das um einen zusätzlichen Tracking-Mechanismus ergänzt wird. Wir zeigen, dass unser Ansatz verschiedene Segmentierungsszenarien effektiv bewältigen kann und im Vergleich zu modernsten Alternativen überlegen ist.
Diese Forschung beschäftigt sich mit dem Problem der interaktiven Bearbeitung der Generierung menschlicher Bewegungen. Bisherige Bewegungsdiffusionsmodelle vernachlässigen die explizite Modellierung der Text-Bewegungs-Korrespondenz auf Wortebene und bieten keine gute Erklärbarkeit, was ihre fein abgestimmte Bearbeitungsfähigkeit einschränkt. Um dieses Problem anzugehen, schlagen wir ein auf Aufmerksamkeit basierendes Bewegungsdiffusionsmodell namens MotionCLR vor, mit CLeaR-Modellierung von Aufmerksamkeitsmechanismen. Technisch gesehen modelliert MotionCLR die In-Modalitäts- und Kreuz-Modalitäts-Interaktionen mit Selbst-Aufmerksamkeit und Kreuz-Aufmerksamkeit. Genauer gesagt zielt der Selbst-Aufmerksamkeitsmechanismus darauf ab, die sequenzielle Ähnlichkeit zwischen Frames zu messen und beeinflusst die Reihenfolge der Bewegungsmerkmale. Im Gegensatz dazu arbeitet der Kreuz-Aufmerksamkeitsmechanismus daran, die fein abgestimmte Wortfolge-Korrespondenz zu finden und die entsprechenden Zeitschritte in der Bewegungssequenz zu aktivieren. Basierend auf diesen Schlüsseleigenschaften entwickeln wir eine vielseitige Reihe einfacher, aber effektiver Bewegungsbearbeitungsmethoden durch Manipulation von Aufmerksamkeitskarten, wie Bewegungsbetonung oder -abschwächung, Bewegungsaustausch am gleichen Ort und beispielbasierte Bewegungsgenerierung usw. Zur weiteren Überprüfung der Erklärbarkeit des Aufmerksamkeitsmechanismus erkunden wir zusätzlich das Potenzial der Aktionszählung und der fundierten Bewegungsgenerierungsfähigkeit über Aufmerksamkeitskarten. Unsere experimentellen Ergebnisse zeigen, dass unsere Methode über eine gute Generierungs- und Bearbeitungsfähigkeit mit guter Erklärbarkeit verfügt.
Die Webentwicklung beinhaltet die Umsetzung von UI-Designs in funktionale Webseiten, was sowohl für Anfänger als auch erfahrene Entwickler aufgrund der Komplexität der hierarchischen Strukturen und Stile von HTML schwierig sein kann. Obwohl Large Language Models (LLMs) vielversprechend bei der Generierung von Quellcode sind, bestehen weiterhin zwei Hauptprobleme bei der Generierung von UI-zu-HTML-Code: (1) die effektive Darstellung der hierarchischen Struktur von HTML für LLMs und (2) die Überbrückung der Kluft zwischen der visuellen Natur von UI-Designs und dem textbasierten Format des HTML-Codes. Um diese Herausforderungen anzugehen, stellen wir Waffle vor, eine neue Feinabstimmungsstrategie, die einen strukturbewussten Aufmerksamkeitsmechanismus verwendet, um das Verständnis von LLMs für die Struktur von HTML zu verbessern, sowie einen kontrastiven Feinabstimmungsansatz, um das Verständnis von LLMs für UI-Bilder und HTML-Code in Einklang zu bringen. Modelle, die mit Waffle feinabgestimmt wurden, zeigen auf unserem neuen Benchmark WebSight-Test und einem bestehenden Benchmark Design2Code bis zu 9,00 Prozentpunkte höhere HTML-Übereinstimmung, 0,0982 höhere CW-SSIM, 32,99 höhere CLIP und 27,12 Prozentpunkte höheres LLEM und übertreffen damit aktuelle Feinabstimmungsmethoden.
In den letzten Jahren hat das Interesse an der Entwicklung großer multimodaler Modelle (LMMs) zugenommen, die in der Lage sind, verschiedene visuelle Denk- und Verständnisaufgaben auszuführen. Dies hat zur Einführung mehrerer LMM-Benchmarktests geführt, um LMMs in verschiedenen Aufgaben zu bewerten. Die meisten bestehenden LMM-Evaluierungsbenchmarktests sind jedoch überwiegend auf die englische Sprache ausgerichtet. In dieser Arbeit entwickeln wir einen umfassenden LMM-Evaluierungsbenchmark für die arabische Sprache, um eine große Bevölkerung von über 400 Millionen Sprechern zu repräsentieren. Der vorgeschlagene Benchmark, namens CAMEL-Bench, umfasst acht verschiedene Bereiche und 38 Unterbereiche, darunter Multi-Bild-Verständnis, komplexe visuelle Wahrnehmung, Verständnis von handschriftlichen Dokumenten, Videoverständnis, medizinische Bildgebung, Pflanzenkrankheiten und fernerkundungsbasiertes Verständnis der Landnutzung, um die breite Szenariogeneralisierbarkeit zu bewerten. Unser CAMEL-Bench umfasst rund 29.036 Fragen, die aus einem größeren Pool von Beispielen gefiltert sind, wobei die Qualität von Muttersprachlern manuell überprüft wird, um eine zuverlässige Modellbewertung sicherzustellen. Wir führen Evaluierungen sowohl von Closed-Source-Modellen, einschließlich der GPT-4-Serie, als auch von Open-Source-LMMs durch. Unsere Analyse zeigt den Bedarf an erheblicher Verbesserung auf, insbesondere bei den besten Open-Source-Modellen, wobei selbst das Closed-Source-Modell GPT-4o einen Gesamtscore von 62% erreicht. Unser Benchmark und Evaluierungsskripte sind Open-Source.
Große Sprachmodelle (LLMs) halluzinieren oft und erzeugen untreue oder faktisch inkorrekte Ausgaben, indem sie den bereitgestellten Kontext falsch darstellen oder interne Kenntnisse falsch abrufen. In jüngsten Studien wurden spezifische Aufmerksamkeitsköpfe innerhalb der Transformer-Architektur identifiziert, die als Abrufköpfe bekannt sind und für die Extraktion relevanter Kontextinformationen verantwortlich sind. Wir vermuten, dass das Maskieren dieser Abrufköpfe Halluzinationen hervorrufen kann und dass ein Vergleich der Ausgaben des Basis-LLM und des maskierten LLM Halluzinationen reduzieren kann. Zu diesem Zweck schlagen wir Decoding by Contrasting Retrieval Heads (DeCoRe) vor, eine neuartige, trainingsfreie Dekodierungsstrategie, die Informationen im Kontext und den Modellparametern verstärkt. DeCoRe mildert potenziell halluzinierte Antworten, indem es dynamisch die Ausgaben des Basis-LLM und des maskierten LLM kontrastiert und bedingte Entropie als Leitfaden verwendet. Unsere umfangreichen Experimente bestätigen, dass DeCoRe die Leistung bei Aufgaben, die eine hohe Kontexttreue erfordern, signifikant verbessert, wie z. B. Zusammenfassung (XSum um 18,6%), Anweisungsbefolgung (MemoTrap um 10,9%) und offene Fragebeantwortung (NQ-Open um 2,4% und NQ-Swap um 5,5%).
Wir präsentieren CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), ein hochwertiges 500 GB Subset des Chinese Corpora Internet 3.0 (CCI3.0) (https://huggingface.co/datasets/BAAI/CCI3-Data), das mithilfe eines neuartigen zweistufigen hybriden Filterungspipelines entwickelt wurde, die die Datenqualität signifikant verbessert. Zur Bewertung seiner Wirksamkeit haben wir ein 0,5 Mrd. Parameter Modell von Grund auf auf 100 Mrd. Tokens über verschiedene Datensätze trainiert und dabei eine überlegene Leistung in einem Zero-Shot-Setting auf 10 Benchmarks im Vergleich zu CCI3.0, SkyPile und WanjuanV1 erzielt. Der hochwertige Filterungsprozess destilliert effektiv die Fähigkeiten des Qwen2-72B-instruct Modells in ein kompaktes 0,5 Mrd. Modell, das optimale F1-Scores für die Klassifizierung chinesischer Webdaten erreicht. Wir sind der Überzeugung, dass dieser Open-Access-Datensatz den breiteren Zugang zu hochwertigen Sprachmodellen erleichtern wird.
Diffusionsmodelle erzielen eine überlegene Generierungsqualität, leiden jedoch unter einer langsamen Generierungsgeschwindigkeit aufgrund der iterativen Natur des Rauschunterdrückungsprozesses. Im Gegensatz dazu erreichen Konsistenzmodelle, eine neue generative Modellfamilie, eine wettbewerbsfähige Leistung bei deutlich schnellerer Probenahme. Diese Modelle werden entweder durch Konsistenzdestillation trainiert, die auf vorab trainierten Diffusionsmodellen basiert, oder durch Konsistenztraining/-anpassung direkt aus Rohdaten. In dieser Arbeit schlagen wir einen neuartigen Rahmen zur Untersuchung von Konsistenzmodellen vor, indem wir den Rauschunterdrückungsprozess des Diffusionsmodells als Markov-Entscheidungsprozess (MDP) modellieren und das Training von Konsistenzmodellen als Werteschätzung durch Temporal Difference (TD) Learning darstellen. Dieser Rahmen ermöglicht es uns insbesondere, die Grenzen der aktuellen Konsistenztrainings-/-anpassungsstrategien zu analysieren. Aufbauend auf Easy Consistency Tuning (ECT) schlagen wir Stable Consistency Tuning (SCT) vor, das eine lernreduzierte Varianz unter Verwendung der Score-Identität integriert. SCT führt zu signifikanten Leistungsverbesserungen bei Benchmarks wie CIFAR-10 und ImageNet-64. Auf ImageNet-64 erreicht SCT einen 1-Schritt-FID von 2,42 und einen 2-Schritt-FID von 1,55, ein neuer Stand der Technik für Konsistenzmodelle.
Aktuelle Bild-Wasserzeichenmethoden sind anfällig für fortschrittliche Bildbearbeitungstechniken, die durch groß angelegte Text-zu-Bild-Modelle ermöglicht werden. Diese Modelle können eingebettete Wasserzeichen während der Bearbeitung verzerren und stellen somit erhebliche Herausforderungen für den Urheberschutz dar. In dieser Arbeit stellen wir W-Bench vor, den ersten umfassenden Benchmark, der entwickelt wurde, um die Robustheit von Wasserzeichnungsmethoden gegen eine Vielzahl von Bildbearbeitungstechniken zu bewerten, einschließlich Bildregeneration, globaler Bearbeitung, lokaler Bearbeitung und Bild-zu-Video-Erstellung. Durch umfangreiche Bewertungen von elf repräsentativen Wasserzeichnungsmethoden gegen verbreitete Bearbeitungstechniken zeigen wir, dass die meisten Methoden Wasserzeichen nach solchen Bearbeitungen nicht erkennen können. Um diese Einschränkung zu beheben, schlagen wir VINE vor, eine Wasserzeichnungsmethode, die die Robustheit gegen verschiedene Bildbearbeitungstechniken erheblich verbessert, während sie eine hohe Bildqualität beibehält. Unser Ansatz umfasst zwei Schlüsselinnovationen: (1) Wir analysieren die Frequenzeigenschaften der Bildbearbeitung und identifizieren, dass Unschärfeverzerrungen ähnliche Frequenzeigenschaften aufweisen, was es uns ermöglicht, sie als Ersatzangriffe während des Trainings zu verwenden, um die Robustheit des Wasserzeichens zu stärken; (2) Wir nutzen ein groß angelegtes vortrainiertes Diffusionsmodell SDXL-Turbo und passen es für die Wasserzeichnungsaufgabe an, um eine noch unauffälligere und robustere Wasserzeichen-Einbettung zu erreichen. Experimentelle Ergebnisse zeigen, dass unsere Methode eine herausragende Wasserzeichnungsleistung unter verschiedenen Bildbearbeitungstechniken erzielt und bestehende Methoden sowohl in Bildqualität als auch in Robustheit übertrifft. Der Code ist verfügbar unter https://github.com/Shilin-LU/VINE.
Transformer können mit Selbst-Aufmerksamkeit langreichweitige Abhängigkeiten erfassen, wodurch Tokens direkt auf alle anderen zugreifen können. Das Stapeln mehrerer Aufmerksamkeitsschichten führt jedoch zu Aufmerksamkeitskonzentration. Ein natürlicher Ansatz, um dieses Problem zu lösen, ist die Verwendung von Kreuzschicht-Aufmerksamkeit, die es ermöglicht, dass Informationen aus früheren Schichten direkt von späteren Schichten abgerufen werden können. Allerdings ist dieser Ansatz rechenaufwendig. Um dieses Problem zu lösen, schlagen wir den Transformer mit Restwert (ResFormer) vor, der die Kreuzschicht-Aufmerksamkeit durch das Hinzufügen einer Restverbindung von den Werten der ersten Schicht zu allen nachfolgenden Schichten approximiert. Basierend auf dieser Methode ist eine Variante der Transformer mit einzelner Schichtwert (SVFormer), bei der alle Schichten die gleiche Wert-Einbettung der ersten Schicht teilen, wodurch der KV-Cache um fast 50% reduziert wird. Umfassende empirische Beweise zeigen, dass ResFormer das Problem der Aufmerksamkeitskonzentration in tieferen Schichten mildert und die Repräsentation über die meisten Schichten verbessert, wobei es den herkömmlichen Transformer, DenseFormer und NeuTRENO sowohl im Trainingsfehler als auch in nachgelagerten Aufgaben übertrifft. SVFormer trainiert signifikant schneller als der herkömmliche Transformer und ist besser als andere Methoden wie GQA und CLA, wobei die Leistung von der Sequenzlänge und der kumulativen Lernrate beeinflusst wird.
Die jüngsten Fortschritte in der multimodalen Fusion haben den bemerkenswerten Erfolg von Bildsprachmodellen (VL-Modelle) erlebt, die in verschiedenen multimodalen Anwendungen wie Bildbeschreibungen und visuellen Frage-Antworten herausragend sind. Der Aufbau von VL-Modellen erfordert jedoch erhebliche Hardware-Ressourcen, wobei die Effizienz durch zwei Schlüsselfaktoren eingeschränkt ist: Die erweiterte Eingabesequenz des Sprachmodells mit Bildmerkmalen erfordert mehr Rechenoperationen, und eine große Anzahl zusätzlicher lernbarer Parameter erhöht die Speicherkomplexität. Diese Herausforderungen beschränken die breitere Anwendbarkeit solcher Modelle erheblich. Um diese Lücke zu überbrücken, schlagen wir ADEM-VL vor, eine effiziente Bildsprachmethode, die VL-Modelle basierend auf vortrainierten großen Sprachmodellen (LLMs) abstimmt, indem sie einen parameterfreien Kreuz-Aufmerksamkeitsmechanismus für Ähnlichkeitsmessungen in der multimodalen Fusion übernimmt. Dieser Ansatz erfordert nur das Einbetten von Bildmerkmalen in den Sprachraum, was die Anzahl der trainierbaren Parameter erheblich reduziert und sowohl das Training als auch die Inferenzgeschwindigkeiten beschleunigt. Um das Repräsentationslernen im Fusionsmodul zu verbessern, führen wir ein effizientes Multiskalen-Merkmalsgenerierungsschema ein, das nur einen einzigen Vorwärtspass durch den Bildencoder erfordert. Darüber hinaus schlagen wir ein adaptives Fusionsverfahren vor, das weniger relevante visuelle Informationen für jedes Texttoken basierend auf seinem Aufmerksamkeitsscore dynamisch verwirft. Dies stellt sicher, dass der Fusionsprozess die relevantesten visuellen Merkmale priorisiert. Mit Experimenten zu verschiedenen Aufgaben wie visueller Frage-Antwort, Bildbeschreibung und Anweisungsfolgen zeigen wir, dass unser Rahmenwerk bestehende Ansätze übertrifft. Insbesondere übertrifft unsere Methode bestehende Methoden auf dem ScienceQA-Datensatz um durchschnittlich 0,77% Genauigkeit, bei reduzierter Trainings- und Inferenzlatenz, was die Überlegenheit unseres Rahmenwerks demonstriert. Der Code ist verfügbar unter https://github.com/Hao840/ADEM-VL.
Große Sprachmodelle (LLMs) haben vermutlich Schwierigkeiten mit dem Erlernen von Arithmetik aufgrund der inhärenten Unterschiede zwischen Sprachmodellierung und numerischer Berechnung, aber konkrete Beweise fehlen bisher. Diese Arbeit reagiert auf diese Behauptung durch ein Zwei-Seiten-Experiment. Zunächst untersuchen wir, ob LLMs während des Arithmetiklernens Teilprodukte nutzen. Wir stellen fest, dass LLMs zwar einige Teilprodukte nach dem Lernen identifizieren können, sie jedoch nicht für arithmetische Aufgaben nutzen können. Anschließend erforschen wir, wie LLMs sich symbolisch der Arithmetik nähern, indem wir Aufgaben in Untergruppen aufteilen und vermuten, dass Schwierigkeiten aus der Komplexität und Auswahl der Untergruppen entstehen. Unsere Ergebnisse zeigen, dass LLMs, wenn die Untergruppenkomplexität festgelegt ist, eine Sammlung verschiedener arithmetischer Operationen ähnlich behandeln. Durch die Analyse der Genauigkeit auf Positionsebene bei verschiedenen Trainingsgrößen stellen wir weiter fest, dass sie einem U-förmigen Muster folgt: LLMs lernen schnell die einfachsten Muster an den ersten und letzten Positionen, während sie die schwierigeren Muster in den mittleren Positionen allmählich erlernen. Dies legt nahe, dass LLMs Untergruppen gemäß einem einfach-zu-schwierig-Paradigma während des Lernens auswählen. Unsere Arbeit bestätigt, dass LLMs reine symbolische Lernende bei arithmetischen Aufgaben sind und betont die Bedeutung, sie durch eine Quantifizierung auf Untergruppenebene tiefgehend zu verstehen.
Die Bearbeitung von Modellen hat sich zu einer zunehmend beliebten Alternative entwickelt, um Wissen innerhalb von Sprachmodellen effizient zu aktualisieren. Aktuelle Methoden konzentrieren sich hauptsächlich auf Zuverlässigkeit, Verallgemeinerung und Lokalität, wobei viele Methoden in diesen Kriterien hervorragende Leistungen erbringen. Einige aktuelle Arbeiten offenbaren die Fallstricke dieser Bearbeitungsmethoden wie Wissensverzerrung oder Konflikte. Die allgemeinen Fähigkeiten von nachbearbeiteten Sprachmodellen bleiben jedoch unerforscht. In diesem Paper führen wir eine umfassende Bewertung verschiedener Bearbeitungsmethoden und unterschiedlicher Sprachmodelle durch und haben folgende Erkenntnisse. (1) Bestehende Bearbeitungsmethoden führen zu unvermeidlichem Leistungsabfall bei allgemeinen Benchmarks, was darauf hindeutet, dass bestehende Bearbeitungsmethoden die allgemeinen Fähigkeiten des Modells nur bei wenigen Dutzend Bearbeitungen beibehalten. Wenn die Anzahl der Bearbeitungen etwas größer ist, wird die intrinsische Wissensstruktur des Modells gestört oder sogar vollständig beschädigt. (2) Anweisungsangepasste Modelle sind robuster gegenüber Bearbeitungen und zeigen weniger Leistungsabfall bei allgemeinem Wissen nach der Bearbeitung. (3) Sprachmodelle im großen Maßstab sind widerstandsfähiger gegenüber Bearbeitungen im Vergleich zu kleinen Modellen. (4) Die Sicherheit des bearbeiteten Modells wird signifikant geschwächt, selbst bei Sicherheitsausgerichteten Modellen. Unsere Ergebnisse deuten darauf hin, dass aktuelle Bearbeitungsmethoden nur für kleinere Wissensaktualisierungen innerhalb von Sprachmodellen geeignet sind, was weitere Forschung zu praktischeren und zuverlässigeren Bearbeitungsmethoden motiviert. Einzelheiten zum Code und zur Reproduktion finden Sie unter https://github.com/lqinfdim/EditingEvaluation.
In diesem Paper geben wir eine eingehende Analyse der mathematischen Problemformulierungen und der probabilistischen Optimierungserkundungen für einige der Schlüsselkomponenten im Transformer-Modell [33] im Bereich der generativen KI. Wir erforschen und diskutieren einige potenzielle weitere Verbesserungen für aktuelle State-of-the-Art-Methoden für einige der Schlüsseltechnologien generativer KI-Modelle aus algorithmischer und probabilistischer Optimierungsperspektive. Insbesondere präsentieren wir eine optimale Lösung für die Teilwortcodierung (SWE) basierend auf ähnlichen Ausgangseinstellungen wie der Byte-Pair-Codierung (BPE)-Algorithmus in [9] mit ähnlichen Zielen wie der WordPiece-Ansatz in [28, 31], um die Wahrscheinlichkeit der Trainingsdaten zu maximieren. Wir präsentieren auch eine Kreuzentropie-Optimierungsmethode zur Optimierung von Hyperparametern für das Word2Vec-Modell [17]. Darüber hinaus schlagen wir eine faktorielle Kombination aus rotierender Positionscodierung (RoPE) [32] und Aufmerksamkeit mit linearen Verzerrungen (ALiBi) [23] mit einer harmonischen Reihe vor. Wir präsentieren auch eine probabilistische FlashAttention [6, 7] (PrFlashAttention)-Methode mit einer Wahrscheinlichkeitsverteilung über Blockabstände in der Matrix, um zu entscheiden, welcher Block wahrscheinlich an einer bestimmten Runde der Aufmerksamkeitsberechnung teilnehmen wird, während die untere Dreiecksform des Tensors für autoregressive Sprachmodelle beibehalten wird, indem die Tensoren umgeformt werden. Schließlich präsentieren wir eine stufenweise adaptive Quantisierung (SAQ) des Schlüssel-Wert (KV)-Caches für Multi-Query-Aufmerksamkeit (MQA) basierend auf dem in [16] vorgestellten Rahmen, um eine allmähliche Quantisierungsverschlechterung zu erreichen, während eine angemessene Modellqualität und Kosteneinsparungen erzielt werden.
Das dominante Paradigma für RLHF ist das Online- und On-Policy-RL: synchrones Generieren aus dem großen Sprachmodell (LLM), Markieren mit einem Belohnungsmodell und Lernen unter Verwendung von Feedback zu den eigenen Ausgaben des LLM. Obwohl leistungsstark, ist dieses Paradigma rechnerisch ineffizient. Inspiriert von der klassischen Literatur zum tiefen RL schlagen wir vor, Generierung und Lernen in RLHF zu trennen. Dies ermöglicht eine asynchrone Generierung neuer Proben, während gleichzeitig auf alten Proben trainiert wird, was zu schnellerem Training und einer rechnerisch optimaleren Skalierung führt. Allerdings stützt sich das asynchrone Training auf ein wenig erforschtes Regime, das Online- aber Off-Policy-RLHF: Lernen an Proben aus vorherigen Iterationen unseres Modells. Um die Herausforderungen in diesem Regime zu verstehen, untersuchen wir eine grundlegende Frage: Wie viel Abweichung von der Policy können wir tolerieren, um das Lernen durch asynchrones Training zu beschleunigen, aber die Leistung beizubehalten? Unter mehreren getesteten RLHF-Algorithmen stellen wir fest, dass Online DPO am robustesten gegenüber Off-Policy-Daten ist und die Robustheit mit dem Umfang des Richtlinienmodells zunimmt. Wir untersuchen weitere Rechenoptimierungen für asynchrones RLHF, stellen jedoch fest, dass sie mit einem Leistungskosten verbunden sind, was zu einem Kompromiss führt. Schließlich überprüfen wir die Skalierbarkeit von asynchronem RLHF, indem wir LLaMA 3.1 8B bei einer Anweisungsfolge-Aufgabe 40 % schneller trainieren als bei einem synchronen Durchlauf, während die endgültige Leistung übereinstimmt.
Die Skalierung von Daten hat Felder wie die natürliche Sprachverarbeitung und Computer Vision revolutioniert, indem sie Modellen bemerkenswerte Verallgemeinerungsfähigkeiten bietet. In diesem Paper untersuchen wir, ob ähnliche Skalierungsgesetze in der Robotik existieren, insbesondere in der robotergestützten Manipulation, und ob eine angemessene Skalierung von Daten einzelne Roboterstrategien ermöglichen kann, die ohne vorheriges Training für jedes Objekt innerhalb derselben Kategorie in jeder Umgebung eingesetzt werden können. Zu diesem Zweck führen wir eine umfassende empirische Studie zur Skalierung von Daten im Imitationslernen durch. Durch die Sammlung von Daten in zahlreichen Umgebungen und mit verschiedenen Objekten untersuchen wir, wie sich die Verallgemeinerungsleistung einer Strategie mit der Anzahl der Trainingsumgebungen, Objekte und Demonstrationen ändert. Im Verlauf unserer Forschung sammeln wir über 40.000 Demonstrationen und führen mehr als 15.000 Roboterrollouts in der realen Welt gemäß einem strengen Evaluierungsprotokoll durch. Unsere Ergebnisse zeigen mehrere faszinierende Erkenntnisse: Die Verallgemeinerungsleistung der Strategie folgt einer grob potenzgesetzlichen Beziehung zur Anzahl der Umgebungen und Objekte. Die Vielfalt der Umgebungen und Objekte ist weit wichtiger als die absolute Anzahl der Demonstrationen; sobald die Anzahl der Demonstrationen pro Umgebung oder Objekt einen bestimmten Schwellenwert erreicht, haben zusätzliche Demonstrationen nur minimale Auswirkungen. Basierend auf diesen Erkenntnissen schlagen wir eine effiziente Datensammlungsstrategie vor. Mit vier Datensammlern, die einen Nachmittag lang arbeiten, sammeln wir ausreichend Daten, um die Strategien für zwei Aufgaben zu ermöglichen, die in neuen Umgebungen mit unbekannten Objekten Erfolgsraten von etwa 90% zu erzielen.
Die Auswahl von Daten ist entscheidend für die Optimierung der Leistung von Sprachmodellen (LM) bei spezifischen Aufgaben, doch die meisten bestehenden Methoden versäumen es, die Zielverteilung der Aufgabe effektiv zu berücksichtigen. Aktuelle Ansätze ignorieren entweder gänzlich die aufgabenspezifischen Anforderungen oder stützen sich auf Näherungen, die die fein nuancierten Muster für Aufgaben wie Autoformalisierung oder Codegenerierung nicht erfassen können. Methoden, die die Zielverteilung berücksichtigen, setzen oft auf vereinfachte, manchmal fehleranfällige Darstellungen wie gehashte n-Gramm-Merkmale, die zu Kollisionen führen und Rauschen einführen können. Wir stellen ZIP-FIT vor, ein Datenauswahl-Framework, das die gzip-Komprimierung nutzt, um die Übereinstimmung zwischen potenziellen Trainingsdaten und der Zielverteilung der Aufgabe direkt zu messen. In umfangreichen Evaluierungen zur Autoformalisierung und Python-Codegenerierung übertrifft ZIP-FIT signifikant führende Baselines wie DSIR und D4. Modelle, die mit von ZIP-FIT ausgewählten Daten trainiert wurden, erreichen ihren niedrigsten Kreuzentropieverlust bis zu 85,1\% schneller als Baselines, was zeigt, dass eine bessere Aufgabenübereinstimmung zu effizienterem Lernen führt. Zusätzlich erfolgt die Auswahl durch ZIP-FIT bis zu 65,8\% schneller als bei DSIR und zwei Größenordnungen schneller als bei D4. Bemerkenswert ist, dass ZIP-FIT zeigt, dass kleinere, gut ausgerichtete Datensätze oft leistungsstärker sind als größere, aber weniger gezielte, was darauf hindeutet, dass eine geringe Menge an hochwertigen Daten einer großen Menge an minderwertigen überlegen ist. Unsere Ergebnisse legen nahe, dass eine aufgabenbewusste Datenwahl für eine effiziente Domänenanpassung entscheidend ist und dass die Kompression einen fundierten Weg zur Messung der Aufgabenübereinstimmung bietet. Indem wir zeigen, dass eine gezielte Datenwahl die aufgabenspezifische Leistung drastisch verbessern kann, liefert unsere Arbeit neue Erkenntnisse über die Beziehung zwischen Datenqualität, Aufgabenübereinstimmung und Modell-Lerneffizienz.
Wir betrachten das mehrstufige spekulative Sampling, bei dem die Vorschlagssequenzen unabhängig voneinander aus verschiedenen Entwurfsmodellen ausgewählt werden. Bei jedem Schritt verwendet ein Token-Ebene Entwurfsauswahlverfahren eine Liste gültiger Token als Eingabe und erzeugt einen Ausgabetoken, dessen Verteilung der des Zielmodells entspricht. Frühere Arbeiten haben gezeigt, dass das optimale Verfahren (das die Wahrscheinlichkeit maximiert, einen der Eingabetoken zu akzeptieren) als Lösung eines linearen Programms formuliert werden kann. In dieser Arbeit zeigen wir, dass das optimale Verfahren in eine Zwei-Schritt-Lösung zerlegt werden kann: Im ersten Schritt wird ein Verfahren vom Typ Importance Sampling (IS) verwendet, um einen Zwischentoken auszuwählen; im zweiten Schritt wird das (einstufige) spekulative Sampling angewendet, um den Ausgabetoken zu generieren. Für den Fall von zwei identischen Entwurfsmodellen etablieren wir weiterhin 1) eine notwendige und hinreichende Bedingung für die Verteilungen des Ziel- und Entwurfsmodells, damit die Akzeptanzwahrscheinlichkeit gleich eins ist, und 2) geben einen expliziten Ausdruck für die optimale Akzeptanzwahrscheinlichkeit an. Unsere theoretische Analyse motiviert auch eine neue Klasse von Token-Ebene Auswahlverfahren basierend auf gewichteter Importance Sampling. Unsere experimentellen Ergebnisse zeigen konsistente Verbesserungen in der erreichbaren Blockeffizienz und Token-Raten gegenüber Baseline-Verfahren in einer Reihe von Szenarien.
Die maschinengestützte Beweisführung bezieht sich auf den Prozess des strukturierten Argumentierens zur automatischen Generierung von Beweisen für mathematische Theoreme. In letzter Zeit hat das Interesse zugenommen, maschinelle Lernmodelle in Verbindung mit Beweisassistenten zu verwenden, um diese Aufgabe zu erfüllen. In diesem Artikel stellen wir Pantograph vor, ein Tool, das eine vielseitige Schnittstelle zum Beweisassistenten Lean 4 bietet und eine effiziente Beweissuche über leistungsstarke Suchalgorithmen wie Monte-Carlo-Baumsuche ermöglicht. Darüber hinaus ermöglicht Pantograph ein hochrangiges Argumentieren durch eine robustere Behandlung der Inferenzschritte von Lean 4. Wir geben einen Überblick über die Architektur und Funktionen von Pantograph. Wir berichten auch über einen veranschaulichenden Anwendungsfall: die Verwendung von maschinellen Lernmodellen und Beweisskizzen zur Beweisführung von Lean 4-Theoremen. Die innovativen Funktionen von Pantograph ebnen den Weg für fortschrittlichere maschinelle Lernmodelle, um komplexe Beweissuchen und hochrangiges Argumentieren durchzuführen und zukünftigen Forschern die Möglichkeit zu geben, vielseitigere und leistungsstärkere Theorembeweiser zu entwerfen.