Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Forschung zur Skalierung großer Sprachmodelle (LLMs) hat sich hauptsächlich auf Modellparameter und Trainingsdatengröße konzentriert und die Rolle der Vokabellänge vernachlässigt. Größere Vokabulare ermöglichen intuitiv eine effizientere Tokenisierung, indem Sätze mit weniger Tokens dargestellt werden, erhöhen jedoch auch das Risiko einer Unteranpassung von Darstellungen für seltene Tokens. Wir untersuchen, wie die Vokabellänge die Skalierungsgesetze von LLMs beeinflusst, indem wir Modelle mit 33M bis 3B Parametern auf bis zu 500B Zeichen mit verschiedenen Vokabulkonfigurationen trainieren. Wir schlagen drei ergänzende Ansätze zur Vorhersage der rechenoptimalen Vokabellänge vor: IsoFLOPs-Analyse, Ableitungsschätzung und parametrische Anpassung der Verlustfunktion. Unsere Ansätze konvergieren auf dasselbe Ergebnis, dass die optimale Vokabellänge vom verfügbaren Rechenbudget abhängt und dass größere Modelle größere Vokabulare verdienen. Die meisten LLMs verwenden jedoch zu kleine Vokabulargrößen. Zum Beispiel sagen wir voraus, dass die optimale Vokabellänge von Llama2-70B mindestens 216K hätte betragen sollen, 7-mal größer als sein Vokabular von 32K. Wir validieren unsere Vorhersagen empirisch, indem wir Modelle mit 3B Parametern über verschiedene FLOPs-Budgets trainieren. Die konsistente Übernahme unserer vorhergesagten optimalen Vokabellänge verbessert die Leistung nachgelagerter Prozesse gegenüber häufig verwendeten Vokabulargrößen. Durch Erhöhung der Vokabellänge von den herkömmlichen 32K auf 43K verbessern wir die Leistung bei ARC-Challenge von 29.1 auf 32.0 bei denselben 2.3e21 FLOPs. Unsere Arbeit betont die Notwendigkeit, Modellparameter und Vokabellänge gemeinsam für eine effiziente Skalierung in Betracht zu ziehen.
Skalierungsgesetze in Bezug auf die Menge der Trainingsdaten und die Anzahl der Parameter ermöglichen es uns, die Kosten-Nutzen-Abwägungen beim Vortrainieren von Sprachmodellen (LMs) in verschiedenen Konfigurationen vorherzusagen. In diesem Papier betrachten wir eine weitere Dimension der Skalierung: die Menge der verfügbaren Daten zur Inferenzzeit. Insbesondere stellen wir fest, dass die Erhöhung der Größe des von einem abrufbasierten LM verwendeten Datenspeichers die Sprachmodellierung und mehrere nachgelagerte Aufgaben monoton verbessert, ohne offensichtliche Sättigung, sodass ein kleineres Modell, das mit einem großen Datenspeicher ergänzt wird, ein größeres LM-Modell nur für wissensintensive Aufgaben übertrifft. Durch das Erstellen von rechenoptimalen Skalierungskurven mit variierenden Datenspeicher-, Modell- und Vortrainingsdatengrößen zeigen wir, dass die Verwendung größerer Datenspeicher die Modellleistung bei gleichem Trainingsrechenaufwand erheblich verbessern kann. Wir führen unsere Studie durch, indem wir einen 1,4 Billionen Token umfassenden Datenspeicher namens MassiveDS konstruieren, der der bisher größte und vielfältigste Open-Source-Datenspeicher für abrufbasierte LMs ist, und eine effiziente Pipeline zur Untersuchung der Datenspeicher-Skalierung auf eine rechnerisch zugängliche Weise entwerfen. Schließlich analysieren wir die Auswirkungen der Verbesserung des Retrievers, der Datenspeicherqualitätsfilterung und anderer Designentscheidungen auf unsere beobachteten Skalierungstrends. Insgesamt zeigen unsere Ergebnisse, dass die Größe des Datenspeichers als integraler Bestandteil der Effizienz und Leistungsabwägungen von LMs betrachtet werden sollte. Um zukünftige Forschung zu erleichtern, stellen wir unseren Datenspeicher und Code unter https://github.com/RulinShao/retrieval-scaling als Open Source zur Verfügung.
Die dynamische Rekonstruktion aus monokularen Ansichten ist aufgrund der stark unbestimmten Natur der Aufgabe ein anspruchsvolles und langjähriges Problem der Bildverarbeitung. Bestehende Ansätze sind begrenzt, da sie entweder auf Vorlagen angewiesen sind, nur in quasi-statischen Szenen wirksam sind oder es versäumen, 3D-Bewegungen explizit zu modellieren. In dieser Arbeit stellen wir eine Methode vor, die in der Lage ist, generische dynamische Szenen aus zufällig aufgenommenen monokularen Videos mit expliziten, vollständigen 3D-Bewegungen zu rekonstruieren. Wir gehen mit zwei Schlüsselerkenntnissen auf die unterbestimmte Natur des Problems ein: Erstens nutzen wir die niedrigdimensionale Struktur von 3D-Bewegungen aus, indem wir Szenenbewegungen mit einem kompakten Satz von SE3-Bewegungsbasen darstellen. Die Bewegung jedes Punktes wird als lineare Kombination dieser Basen ausgedrückt, was die sanfte Zerlegung der Szene in mehrere starr bewegende Gruppen ermöglicht. Zweitens verwenden wir eine umfassende Sammlung datengetriebener Voraussetzungen, einschließlich monokularer Tiefenkarten und langreichweitiger 2D-Verfolgungen, und entwickeln eine Methode, um diese rauschenden Überwachungssignale effektiv zu konsolidieren, was zu einer global konsistenten Darstellung der dynamischen Szene führt. Experimente zeigen, dass unsere Methode eine Spitzenleistung sowohl bei der Schätzung von 3D/2D-Bewegungen über lange Strecken als auch bei der Synthese neuer Ansichten von dynamischen Szenen erreicht. Projektseite: https://shape-of-motion.github.io/
Dieses Paper stellt die Long-Context Granite-Code-Modelle vor, die effektive Kontextfenster von bis zu 128K Tokens unterstützen. Unsere Lösung zur Skalierung der Kontextlänge der Granite 3B/8B Code-Modelle von 2K/4K auf 128K besteht aus einem leichtgewichtigen kontinuierlichen Pretraining, bei dem allmählich die RoPE-Basisfrequenz erhöht wird, mit Dateipackung auf Repository-Ebene und längerem Kontextdaten-Upsampling. Darüber hinaus veröffentlichen wir auch instruktionsangepasste Modelle mit Langkontext-Unterstützung, die durch weiteres Feintuning der Langkontext-Basismodelle anhand einer Mischung aus großzügig lizenzierten Kurz- und Langkontext-Instruktions-Antwort-Paaren abgeleitet sind. Im Vergleich zu den originalen Kurzkontext-Granite-Code-Modellen erzielen unsere Langkontext-Modelle signifikante Verbesserungen bei Langkontext-Aufgaben, ohne dass eine spürbare Leistungsminderung bei regulären Code-Vervollständigungs-Benchmarks (z. B. HumanEval) festgestellt wird. Wir veröffentlichen alle unsere Langkontext-Granite-Code-Modelle unter einer Apache 2.0 Lizenz für sowohl Forschungs- als auch kommerzielle Nutzung.
Wir präsentieren eine Methode zur Generierung von Straßenansichten - lange Sequenzen von Ansichten durch eine on-the-fly synthetisierte stadtweite Szene. Unsere Generierung wird durch sprachliche Eingaben (z. B. Stadtname, Wetter) sowie eine zugrunde liegende Karte/Layout, die die gewünschte Trajektorie beherbergt, bedingt. Im Vergleich zu aktuellen Modellen für die Videogenerierung oder die Synthese von 3D-Ansichten kann unsere Methode auf viel längere Kameratrajektorien skalieren, die mehrere Stadtblöcke umfassen, und dabei die visuelle Qualität und Konsistenz beibehalten. Um dieses Ziel zu erreichen, bauen wir auf aktuellen Arbeiten zur Videodiffusion auf, die innerhalb eines autoregressiven Rahmens verwendet werden, der problemlos auf lange Sequenzen skaliert werden kann. Insbesondere führen wir eine neue zeitliche Imputationsmethode ein, die verhindert, dass unser autoregressiver Ansatz von der Verteilung realistischer Stadtbilder abweicht. Wir trainieren unser Streetscapes-System anhand einer überzeugenden Datenquelle - Bildern von Google Street View, zusammen mit kontextbezogenen Kartendaten - die es Benutzern ermöglichen, stadtbezogene Ansichten basierend auf einem beliebigen gewünschten Stadtlayout mit steuerbaren Kamerapositionen zu generieren. Weitere Ergebnisse finden Sie auf unserer Projektseite unter https://boyangdeng.com/streetscapes.
Die direkte Präferenzoptimierung (DPO) ist zu einer weit verbreiteten Schulungsmethode für das Feintuning großer Sprachmodelle (LLMs) geworden. In dieser Arbeit untersuchen wir einen wenig erforschten Aspekt der DPO - ihre Abhängigkeit vom Referenzmodell oder der Referenzrichtlinie. Solche Referenzrichtlinien, die typischerweise als das Modell instantiiert sind, das weiter feinabgestimmt werden soll, sind wichtig, da sie eine Obergrenze für die Wirksamkeit der DPO festlegen können. Daher behandeln wir in dieser Arbeit drei damit zusammenhängende Forschungsfragen. Zunächst untersuchen wir die optimale Stärke der KL-Divergenzbeschränkung in der DPO, die Abweichungen von der Referenzrichtlinie bestraft, und stellen fest, dass die DPO auf diese Stärke empfindlich reagiert. Als nächstes prüfen wir die Notwendigkeit von Referenzrichtlinien für das Feintuning durch theoretische und empirische Vergleiche zwischen der DPO und verwandten Lernzielen und zeigen die Überlegenheit der DPO auf. Darüber hinaus untersuchen wir, ob die DPO von stärkeren Referenzrichtlinien profitiert und stellen fest, dass eine stärkere Referenzrichtlinie zu einer verbesserten Leistung führen kann, jedoch nur, wenn sie dem Modell ähnlich ist, das feinabgestimmt wird. Unsere Ergebnisse heben die verwirrende Rolle von Referenzrichtlinien in der DPO hervor und bieten Einblicke in bewährte Verfahren, während sie auch offene Forschungsfragen für zukünftige Studien identifizieren.
Trotz der überlegenen Fähigkeiten von Multimodalen Großen Sprachmodellen (MLLMs) in verschiedenen Aufgaben stehen sie immer noch vor erheblichen Vertrauensproblemen. Die aktuelle Literatur zur Bewertung vertrauenswürdiger MLLMs ist jedoch begrenzt und bietet keine ganzheitliche Bewertung, um umfassende Einblicke in zukünftige Verbesserungen zu bieten. In dieser Arbeit etablieren wir MultiTrust, den ersten umfassenden und einheitlichen Benchmark zur Vertrauenswürdigkeit von MLLMs in fünf Hauptaspekten: Wahrhaftigkeit, Sicherheit, Robustheit, Fairness und Datenschutz. Unser Benchmark verwendet eine strenge Evaluierungsstrategie, die sowohl multimodale Risiken als auch kreuzmodale Auswirkungen berücksichtigt und 32 verschiedene Aufgaben mit selbstkuratierten Datensätzen umfasst. Umfangreiche Experimente mit 21 modernen MLLMs zeigen einige zuvor unerforschte Vertrauensprobleme und Risiken auf, die die durch die Multimodalität eingeführten Komplexitäten hervorheben und die Notwendigkeit fortschrittlicher Methoden zur Verbesserung ihrer Zuverlässigkeit unterstreichen. Beispielsweise haben typische proprietäre Modelle immer noch Schwierigkeiten mit der Wahrnehmung visuell verwirrender Bilder und sind anfällig für multimodales Jailbreaking und adversarielle Angriffe; MLLMs neigen eher dazu, Datenschutz in Texten preiszugeben und ideologische und kulturelle Vorurteile offenzulegen, selbst wenn sie mit irrelevanten Bildern in der Inferenz kombiniert werden, was darauf hindeutet, dass die Multimodalität die internen Risiken von Basis-LLMs verstärkt. Darüber hinaus veröffentlichen wir ein skalierbares Toolkit für standardisierte Vertrauenswürdigkeitsforschung, um zukünftige Fortschritte in diesem wichtigen Bereich zu erleichtern. Code und Ressourcen sind öffentlich verfügbar unter: https://multi-trust.github.io/.
Im Bereich der digitalen Kreativität wird unser Potenzial, komplexe 3D-Welten aus der Vorstellungskraft zu erschaffen, oft durch die Einschränkungen bestehender digitaler Werkzeuge behindert, die umfangreiches Fachwissen und Anstrengungen erfordern. Um diese Diskrepanz zu verringern, stellen wir CLAY vor, einen 3D-Geometrie- und Materialgenerator, der entwickelt wurde, um die menschliche Vorstellungskraft mühelos in komplexe 3D-Digitalstrukturen zu verwandeln. CLAY unterstützt klassische Text- oder Bildinputs sowie 3D-bewusste Steuerelemente aus verschiedenen Primitiven (Multi-View-Bilder, Voxel, Bounding Boxes, Punktewolken, implizite Darstellungen usw.). In seinem Kern befindet sich ein groß angelegtes generatives Modell, bestehend aus einem Multi-Resolution Variational Autoencoder (VAE) und einem minimalistischen latenten Diffusion Transformer (DiT), um reichhaltige 3D-Prioritäten direkt aus einer vielfältigen Palette von 3D-Geometrien zu extrahieren. Speziell verwendet es neuronale Felder, um kontinuierliche und vollständige Oberflächen darzustellen und nutzt ein Geometrie-generatives Modul mit reinen Transformer-Blöcken im latenten Raum. Wir präsentieren ein progressives Schulungsschema, um CLAY auf einem sehr großen 3D-Modell-Datensatz zu trainieren, der durch eine sorgfältig entworfene Verarbeitungspipeline erhalten wurde und in einem 3D-eigenen Geometrie-Generator mit 1,5 Milliarden Parametern resultiert. Für die Erscheinungsgenerierung zielt CLAY darauf ab, physikalisch basierte Rendering (PBR) Texturen zu erzeugen, indem es ein Multi-View-Materialdiffusionsmodell verwendet, das 2K-Auflösungstexturen mit diffusen, Rauheits- und metallischen Modalitäten generieren kann. Wir zeigen die Verwendung von CLAY für eine Vielzahl von steuerbaren 3D-Asset-Kreationen, von skizzenhaften Konzeptentwürfen bis hin zu produktionsfertigen Assets mit komplexen Details. Selbst Erstbenutzer können CLAY problemlos verwenden, um ihre lebendigen 3D-Vorstellungen zum Leben zu erwecken und unbegrenzte Kreativität freizusetzen.
Große Sprachmodelle (LLMs) können fehlende Elemente aus in einem Eingabereiz aufgelisteten Elementen vorschlagen, die für die Vervollständigung von Listen oder Empfehlungen basierend auf der Historie der Benutzer verwendet werden können. Ihre Leistung nimmt jedoch ab, wenn ihnen zu viele Elemente präsentiert werden, da sie anfangen, Elemente vorzuschlagen, die bereits in der Eingabeliste enthalten sind. Dies tritt bei etwa 100 Elementen für Flaggschiff-LLMs Mitte 2024 auf. Wir bewerten dieses Phänomen sowohl anhand synthetischer Probleme (z. B. das Auffinden fehlender Zahlen in einem gegebenen Bereich von durcheinandergewürfelten Ganzzahlen) als auch anhand realistischer Szenarien für Filmpersonalisierung. Wir bezeichnen dieses Problem als Aufmerksamkeitsüberlauf, da das Verhindern von Wiederholungen erfordert, dass alle Elemente gleichzeitig beachtet werden. Obwohl iterative Schleifen dieses Problem mildern können, steigen ihre Kosten mit der Wiederholungsrate, was sich auf die Fähigkeit der Sprachmodelle auswirkt, Neuheit aus umfangreichen Eingaben abzuleiten.
Bestehende Abruf-Benchmarks bestehen hauptsächlich aus informationsbezogenen Anfragen (z. B. aggregierte Fragen von Suchmaschinen), bei denen die Abrufung auf Stichwörtern oder Semantik basiert und in der Regel ausreicht. Viele komplexe Anfragen in der realen Welt erfordern jedoch eine eingehende Argumentation, um relevante Dokumente zu identifizieren, die über oberflächliche Formübereinstimmungen hinausgehen. Beispielsweise erfordert das Auffinden von Dokumentationen für eine Codierungsfrage das Verständnis der Logik und Syntax der beteiligten Funktionen. Um die Abrufung bei solchen anspruchsvollen Anfragen besser zu bewerten, stellen wir BRIGHT vor, den ersten Textabruf-Benchmark, der intensive Argumentation erfordert, um relevante Dokumente abzurufen. BRIGHT wird aus den 1.398 in verschiedenen Bereichen (wie Wirtschaft, Psychologie, Robotik, Softwaretechnik, Erdwissenschaften usw.) gesammelten realen Anfragen erstellt, die aus natürlichen oder sorgfältig kuratierten menschlichen Daten stammen. Eine umfangreiche Bewertung zeigt, dass selbst modernste Abrufmodelle bei BRIGHT schlecht abschneiden. Das führende Modell auf der MTEB-Rangliste [38], das einen Wert von 59,0 nDCG@10 erreicht, erzielt bei BRIGHT einen Wert von nDCG@10 von 18,0. Wir zeigen weiter, dass die Ergänzung von Anfragen mit Chain-of-Thought-Argumentation, die von großen Sprachmodellen (LLMs) generiert wird, die Leistung um bis zu 12,2 Punkte verbessert. Darüber hinaus ist BRIGHT robust gegen Datenlecks während des Vortrainings der benchmarkten Modelle, wie wir durch die Validierung zeigen, dass ähnliche Leistungen erbracht werden, selbst wenn Dokumente aus dem Benchmark in den Trainingsdaten enthalten sind. Wir sind der Ansicht, dass BRIGHT den Weg für zukünftige Forschung zu Abrufsystemen in realistischeren und anspruchsvolleren Umgebungen ebnet. Unser Code und unsere Daten sind unter https://brightbenchmark.github.io verfügbar.
Die zunehmende Komplexität und die hohen Kosten moderner Prozessorentwürfe haben zu einem Anstieg der Nachfrage nach Prozessorentwurfsautomatisierung geführt. Anweisungsangepasste große Sprachmodelle (LLMs) haben eine bemerkenswerte Leistung bei der automatischen Generierung von Code für allgemeine Programmiersprachen wie Python gezeigt. Diese Methoden versagen jedoch bei Hardware-Beschreibungssprachen (HDLs) wie Verilog aufgrund des Mangels an hochwertigen Anweisungsabstimmungsdaten, da selbst fortschrittliche LLMs wie GPT-3.5 eine begrenzte Leistung bei der Verilog-Generierung aufweisen. In Bezug auf dieses Problem beobachten wir, dass (1) Verilog-Code, der aus der realen Welt gesammelt wurde, eine höhere Qualität aufweist als der von LLMs generierte Code. (2) LLMs wie GPT-3.5 glänzen darin, Verilog-Code zusammenzufassen, anstatt ihn zu generieren. Basierend auf diesen Beobachtungen stellt dieser Artikel CodeV vor, eine Reihe von Open-Source anweisungsangepassten Verilog-Generierungs-LLMs. Anstatt zuerst Beschreibungen zu generieren und dann den entsprechenden Code von fortschrittlichen LLMs zu erhalten, geben wir dem LLM Verilog-Code vor und lassen ihn die entsprechende natürlichsprachliche Beschreibung durch mehrstufige Zusammenfassung generieren. Experimentelle Ergebnisse zeigen, dass CodeV den bisherigen Open-Source-SOTA um 14,4% (BetterV in VerilogEval) bzw. 11,3% (RTLCoder in RTLLM) relativ übertrifft und auch den bisherigen kommerziellen SOTA GPT-4 in VerilogEval um 22,1% relativ übertrifft.
Im Bereich des Sprachmodellierens sind Modelle, die mit Abrufkomponenten erweitert sind, als vielversprechende Lösung zur Bewältigung mehrerer Herausforderungen im Bereich der natürlichen Sprachverarbeitung (NLP) aufgetaucht, einschließlich Wissensverankerung, Interpretierbarkeit und Skalierbarkeit. Trotz des Hauptaugenmerks auf NLP behaupten wir, dass das Paradigma der Abruf-Verbesserung auf ein breiteres Spektrum des maschinellen Lernens (ML) wie Computer Vision, Zeitreihenvorhersage und der computergestützten Biologie ausgeweitet werden kann. Daher führt diese Arbeit ein formales Rahmenwerk dieses Paradigmas ein, das Retrieval-Verbessertes Maschinelles Lernen (REML), indem sie die Literatur in verschiedenen Bereichen des ML mit konsistenten Notationen synthetisiert, die in der aktuellen Literatur fehlen. Außerdem stellten wir fest, dass zwar eine Reihe von Studien Abrufkomponenten einsetzen, um ihre Modelle zu erweitern, jedoch eine Integration mit der grundlegenden Information Retrieval (IR) Forschung fehlt. Wir überbrücken diese Lücke zwischen der wegweisenden IR-Forschung und zeitgenössischen REML-Studien, indem wir jede Komponente untersuchen, die das REML-Rahmenwerk ausmacht. Letztendlich ist das Ziel dieser Arbeit, Forscherinnen und Forscher aus verschiedenen Disziplinen mit einem umfassenden, formal strukturierten Rahmenwerk von Abruf-verbesserten Modellen auszustatten, um so interdisziplinäre zukünftige Forschung zu fördern.
Die jüngsten Fortschritte bei Sprachmodellen (LMs) haben die Schaffung mehrerer Benchmarks vorangetrieben, die entworfen wurden, um die allgemeinen Fähigkeiten dieser Modelle zu bewerten. Eine entscheidende Aufgabe besteht jedoch darin, die Gültigkeit der Benchmarks selbst zu bewerten. Dies geschieht in der Regel durch Benchmark Agreement Testing (BAT), bei dem neue Benchmarks anhand etablierter Benchmarks mithilfe eines Übereinstimmungsmetriken (z. B. Rangkorrelation) validiert werden. Trotz der entscheidenden Rolle von BAT für Benchmark-Ersteller und -Nutzer gibt es keine standardisierten Verfahren für solche Übereinstimmungstests. Diese Mängel können zu ungültigen Schlussfolgerungen führen, das Vertrauen in Benchmarks untergraben und die Fähigkeit zur angemessenen Auswahl des geeigneten Benchmarks beeinträchtigen. Durch die Analyse von über 40 prominenten Benchmarks zeigen wir, wie einige übersehene methodische Entscheidungen BAT-Ergebnisse signifikant beeinflussen können und somit die Gültigkeit von Schlussfolgerungen untergraben. Um diese Inkonsistenzen anzugehen, schlagen wir eine Reihe von Best Practices für BAT vor und zeigen, wie die Anwendung dieser Methoden die Robustheit und Gültigkeit von BAT erheblich verbessert. Zur Förderung der Übernahme und zur Erleichterung zukünftiger Forschung stellen wir BenchBench vor, ein Python-Paket für BAT, und veröffentlichen das BenchBench-Leaderboard, einen Meta-Benchmark, der Benchmarks anhand ihrer Kollegen bewertet. Unsere Ergebnisse unterstreichen die Notwendigkeit einer standardisierten BAT, um die Robustheit und Gültigkeit von Benchmark-Evaluierungen in der sich entwickelnden Landschaft der Sprachmodellforschung zu gewährleisten. BenchBench-Paket: https://github.com/IBM/BenchBench Leaderboard: https://huggingface.co/spaces/per/BenchBench
Diese Studie zielt darauf ab, die Implementierung von Natural Language Processing (NLP) und Machine Learning (ML) Techniken zur Automatisierung der Codierung von medizinischen Briefen mit visualisierter Erklärbarkeit und leichtgewichtigen lokalen Computer-Einstellungen zu erforschen. Derzeit ist die Codierung in klinischen Umgebungen ein manueller Prozess, bei dem Codes für jeden Zustand, jede Prozedur und jedes Medikament in den Unterlagen eines Patienten zugewiesen werden (z. B. 56265001 Herzerkrankung unter Verwendung des SNOMED CT-Codes). Es gibt Voruntersuchungen zur automatischen Codierung in diesem Bereich unter Verwendung modernster ML-Modelle. Aufgrund der Komplexität und Größe der Modelle wird jedoch die Implementierung in der realen Welt nicht erreicht. Um die Möglichkeit der automatischen Codierungspraxis weiter zu erleichtern, erforschen wir einige Lösungen in einer lokalen Computerumgebung. Darüber hinaus untersuchen wir die Funktion der Erklärbarkeit zur Transparenz von KI-Modellen. Wir verwendeten die öffentlich verfügbare MIMIC-III-Datenbank und die HAN/HLAN-Netzwerkmodelle für die Vorhersage von ICD-Codes. Wir haben auch mit der Zuordnung zwischen ICD- und SNOMED CT-Wissensbasen experimentiert. In unseren Experimenten lieferten die Modelle für 97,98 % der Codes nützliche Informationen. Das Ergebnis dieser Untersuchung kann einige Einblicke in die Implementierung automatischer klinischer Codierung in der Praxis bieten, z. B. in Krankenhauseinstellungen, auf den von Klinikern verwendeten lokalen Computern, Projektseite https://github.com/Glenj01/Medical-Coding.
Große Sprachmodelle (LLMs) haben das Potenzial, einige Prozessanalyse (PM) Analysen teilweise zu automatisieren. Während kommerzielle Modelle bereits für viele Analyseaufgaben ausreichend sind, ist der Wettbewerbsstand von Open-Source LLMs in PM-Aufgaben unbekannt. In diesem Paper schlagen wir PM-LLM-Benchmark vor, den ersten umfassenden Benchmark für PM, der sich auf Domänenwissen (spezifisch für Prozessanalyse und prozessspezifisch) sowie auf verschiedene Implementierungsstrategien konzentriert. Wir beleuchten auch die Herausforderungen bei der Erstellung eines solchen Benchmarks, die mit der öffentlichen Verfügbarkeit der Daten und den Bewertungsverzerrungen durch die LLMs zusammenhängen. Insgesamt stellen wir fest, dass die meisten betrachteten LLMs einige Prozessanalyseaufgaben auf zufriedenstellendem Niveau ausführen können, aber kleine Modelle, die auf Edge-Geräten laufen würden, noch unzureichend sind. Wir kommen auch zu dem Schluss, dass der vorgeschlagene Benchmark zwar nützlich ist, um LLMs zu identifizieren, die für Prozessanalyseaufgaben geeignet sind, jedoch weitere Forschung erforderlich ist, um die Bewertungsverzerrungen zu überwinden und ein gründlicheres Ranking der wettbewerbsfähigen LLMs durchzuführen.