Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) zeigen vielversprechende Fähigkeiten bei der Lösung einfacher wissenschaftlicher Probleme, produzieren jedoch häufig Halluzinationen bei komplexen Problemen. Während die Integration von LLMs mit Werkzeugen die Zuverlässigkeit erhöhen kann, führt dieser Ansatz in der Regel zu einer Überabhängigkeit von Werkzeugen, was die Fähigkeit des Modells zur Lösung einfacher Probleme durch grundlegendes Denken verringert. Im Gegensatz dazu bewerten menschliche Experten zunächst die Problemkomplexität anhand ihres Fachwissens, bevor sie einen geeigneten Lösungsansatz wählen. Inspiriert von diesem menschlichen Problemlösungsprozess schlagen wir eine neuartige Zwei-Komponenten-Feinabstimmungsmethode vor. Im ersten Komponenten, dem World Knowledge Distillation (WKD), lernen LLMs direkt aus Lösungen, die mithilfe von Werkzeuginformationen generiert wurden, um Fachwissen zu internalisieren. Im zweiten Komponenten, der Tool Usage Adaptation (TUA), unterteilen wir Probleme in einfache und schwierige Kategorien basierend auf der direkten Antwortgenauigkeit des Modells. Während wir für einfache Probleme das gleiche Ausrichtungsziel wie bei WKD beibehalten, trainieren wir das Modell darauf, intelligent auf die Verwendung von Werkzeugen für anspruchsvollere Probleme umzuschalten. Wir validieren unsere Methode an sechs wissenschaftlichen Benchmark-Datensätzen aus den Bereichen Mathematik, Klimawissenschaft und Epidemiologie. Im Durchschnitt zeigen unsere Modelle eine Verbesserung der Antwortgenauigkeit um 28,18% und eine Steigerung der Werkzeugnutzungsgenauigkeit um 13,89% über alle Datensätze hinweg, wobei sie führende Modelle wie GPT-4o und Claude-3.5 übertreffen.
Bestehende Bemühungen beim Aufbau von GUI-Agenten stützen sich stark auf die Verfügbarkeit von robusten kommerziellen Vision-Sprach-Modellen (VLMs) wie GPT-4o und GeminiProVision. Praktiker zögern oft, Open-Source-VLMs zu verwenden, aufgrund ihrer signifikanten Leistungslücke im Vergleich zu ihren Closed-Source-Pendants, insbesondere bei der GUI-Verankerung und Out-Of-Distribution (OOD)-Szenarien. Um zukünftige Forschung in diesem Bereich zu erleichtern, haben wir OS-Atlas entwickelt - ein grundlegendes GUI-Aktionsmodell, das bei der GUI-Verankerung und OOD-Agentenaufgaben durch Innovationen in Daten und Modellierung hervorragende Leistungen erbringt. Wir haben erhebliche Ingenieuranstrengungen investiert, um ein Open-Source-Toolkit zur Synthese von GUI-Verankerungsdaten über mehrere Plattformen hinweg zu entwickeln, einschließlich Windows, Linux, MacOS, Android und dem Web. Unter Verwendung dieses Toolkits veröffentlichen wir das bisher größte Open-Source plattformübergreifende GUI-Verankerungskorpus, das über 13 Millionen GUI-Elemente enthält. Dieser Datensatz, kombiniert mit Innovationen im Modelltraining, bietet eine solide Grundlage für OS-Atlas, um GUI-Bildschirmfotos zu verstehen und auf nicht gesehene Schnittstellen zu verallgemeinern. Durch umfangreiche Evaluation über sechs Benchmarks, die drei verschiedene Plattformen (mobil, Desktop und Web) umfassen, zeigt OS-Atlas signifikante Leistungsverbesserungen gegenüber früheren State-of-the-Art-Modellen. Unsere Evaluation enthüllt auch wertvolle Erkenntnisse zur kontinuierlichen Verbesserung und Skalierung der agentischen Fähigkeiten von Open-Source-VLMs.
Die Personalisierung von Large Language Models (LLMs) ist in letzter Zeit mit einer Vielzahl von Anwendungen zunehmend wichtig geworden. Trotz der Bedeutung und des jüngsten Fortschritts haben sich die meisten bestehenden Arbeiten zu personalisierten LLMs entweder ausschließlich auf (a) die personalisierte Textgenerierung oder (b) die Nutzung von LLMs für personalisierungsbezogene Anwendungen wie Empfehlungssysteme konzentriert. In dieser Arbeit überbrücken wir erstmals die Kluft zwischen diesen beiden separaten Hauptrichtungen, indem wir eine Taxonomie für die Verwendung von personalisierten LLMs einführen und die wesentlichen Unterschiede und Herausforderungen zusammenfassen. Wir formalisieren die Grundlagen personalisierter LLMs, konsolidieren und erweitern Konzepte der Personalisierung von LLMs, definieren und diskutieren neue Facetten der Personalisierung, Nutzung und Anforderungen personalisierter LLMs. Anschließend vereinheitlichen wir die Literatur in diesen verschiedenen Bereichen und Nutzungsszenarien, indem wir systematische Taxonomien für die Granularität der Personalisierung, Personalisierungstechniken, Datensätze, Evaluationsmethoden und Anwendungen von personalisierten LLMs vorschlagen. Schließlich heben wir Herausforderungen und wichtige offene Probleme hervor, die noch angegangen werden müssen. Durch die Vereinheitlichung und Untersuchung aktueller Forschung anhand der vorgeschlagenen Taxonomien wollen wir einen klaren Leitfaden für die bestehende Literatur und verschiedene Facetten der Personalisierung in LLMs bieten, um sowohl Forscher als auch Praktiker zu unterstützen.
Die Verfahren zur geradlinigen Flusskorrektur und Rückfluss haben die schnelle Generierung durch die fortschreitende Geradlinigmachung von gewöhnlichen Differentialgleichungsflüssen erheblich vorangetrieben. Sie arbeiten unter der Annahme, dass Bild- und Rauschpaare, als Kopplungen bekannt, durch gerade Trajektorien mit konstanter Geschwindigkeit approximiert werden können. Wir beobachten jedoch, dass das Modellieren mit konstanter Geschwindigkeit und die Verwendung von Rückflussverfahren Grenzen bei der genauen Erfassung gerader Trajektorien zwischen Paaren aufweisen, was zu einer suboptimalen Leistung bei der Generierung in wenigen Schritten führt. Um diese Einschränkungen anzugehen, führen wir den Konstante-Beschleunigungs-Fluss (CAF) ein, ein neuartiges Framework, das auf einer einfachen konstanten Beschleunigungsgleichung basiert. CAF führt die Beschleunigung als zusätzliche erlernbare Variable ein, was eine ausdrucksstärkere und genauere Schätzung des ODE-Flusses ermöglicht. Darüber hinaus schlagen wir zwei Techniken vor, um die Schätzungsgenauigkeit weiter zu verbessern: die Anfangsgeschwindigkeitskonditionierung für das Beschleunigungsmodell und einen Rückflussprozess für die Anfangsgeschwindigkeit. Unsere umfassenden Studien an Spielzeugdatensätzen, CIFAR-10 und ImageNet 64x64 zeigen, dass CAF die state-of-the-art Baselines für die Ein-Schritt-Generierung übertrifft. Wir zeigen auch, dass CAF die Erhaltung und Umkehrung von Kopplungen in wenigen Schritten dramatisch verbessert im Vergleich zu geradlinigem Fluss. Der Code ist verfügbar unter https://github.com/mlvlab/CAF.
Bestehende Benchmarks heben oft die bemerkenswerte Leistung hervor, die von modernen Multimodalen Grundlagenmodellen (MFMs) erzielt wird, um den zeitlichen Kontext für das Verständnis von Videos zu nutzen. Doch wie gut führen die Modelle tatsächlich visuelle zeitliche Schlussfolgerungen durch? Unsere Untersuchung bestehender Benchmarks zeigt, dass diese Fähigkeit von MFMs wahrscheinlich überschätzt wird, da viele Fragen durch die Verwendung eines einzelnen, weniger oder nicht in der richtigen Reihenfolge angeordneten Frames gelöst werden können. Um aktuelle visuelle zeitliche Schlussfolgerungsaufgaben systematisch zu untersuchen, schlagen wir drei Prinzipien mit entsprechenden Metriken vor: (1) Multi-Frame-Gewinn, (2) Rahmenreihenfolgensensitivität und (3) Rahmeninformationsungleichheit. Unter Einhaltung dieser Prinzipien stellen wir TOMATO vor, Temporale Schlussfolgerung Multimodale Evaluation, einen neuartigen Benchmark, der entwickelt wurde, um die zeitlichen Schlussfolgerungsfähigkeiten von MFMs beim Verständnis von Videos rigoros zu bewerten. TOMATO umfasst 1.484 sorgfältig kuratierte, menschenannotierte Fragen, die sechs Aufgaben (d.h. Aktionsanzahl, Richtung, Rotation, Form & Trend, Geschwindigkeit & Frequenz und visuelle Hinweise) abdecken und auf 1.417 Videos angewendet werden, darunter 805 selbst aufgenommene und generierte Videos, die menschenzentrierte, realweltliche und simulierte Szenarien umfassen. Unsere umfassende Evaluation zeigt eine mensch-Modell-Leistungslücke von 57,3% beim bestperformenden Modell auf. Darüber hinaus zeigt unsere eingehende Analyse grundlegendere Einschränkungen über diese Lücke hinaus bei aktuellen MFMs auf. Obwohl sie Ereignisse in isolierten Frames genau erkennen können, scheitern sie daran, diese Frames als kontinuierliche Sequenz zu interpretieren. Wir sind der Überzeugung, dass TOMATO als entscheidende Testumgebung für die Bewertung der Multimodalen Grundlagenmodelle der nächsten Generation dienen wird und die Gemeinschaft dazu aufrufen wird, KI-Systeme zu entwickeln, die in der Lage sind, die Dynamik der menschlichen Welt durch die Videomodalität zu verstehen.
Dieses Paper präsentiert Randomized AutoRegressive Modeling (RAR) für die visuelle Generierung, das eine neue state-of-the-art Leistung bei der Bildgenerierung erzielt, während es vollständig kompatibel mit Sprachmodellierungs-Frameworks bleibt. Das vorgeschlagene RAR ist einfach: Während eines Standard-Autoregressions-Trainingsprozesses mit einem Ziel der Vorhersage des nächsten Tokens wird die Eingabesequenz - typischerweise in Rasterform geordnet - mit einer Wahrscheinlichkeit r zufällig in verschiedene Faktorisierungsreihenfolgen umgeordnet, wobei r bei 1 beginnt und linear auf 0 abnimmt im Laufe des Trainings. Diese Trainingsstrategie des Abkühlens ermöglicht es dem Modell, zu lernen, die erwartete Wahrscheinlichkeit über alle Faktorisierungsreihenfolgen hinweg zu maximieren und somit die Fähigkeit des Modells zur Modellierung bidirektionaler Kontexte effektiv zu verbessern. Wichtig ist, dass RAR die Integrität des autoregressiven Modellierungs-Frameworks bewahrt, was die volle Kompatibilität mit Sprachmodellierung gewährleistet, während die Leistung bei der Bildgenerierung signifikant verbessert wird. Auf dem ImageNet-256 Benchmark erreicht RAR einen FID-Score von 1,48, der nicht nur die bisherige state-of-the-art autoregressive Bildgeneratoren übertrifft, sondern auch führende auf Diffusion basierende und maskierte Transformer-basierte Methoden übertrifft. Der Code und die Modelle werden unter https://github.com/bytedance/1d-tokenizer verfügbar gemacht.
Wir haben die zugrunde liegende Physik in der Vorhersage des nächsten Tokens (NTP) entdeckt. Wir haben das Gesetz der Informationskonservierung innerhalb von NTP identifiziert und das Erste Gesetz der Informationskapazität (IC-1) vorgeschlagen, das zeigt, dass die Essenz des Intelligenzaufkommens in autoregressiven Modellen grundlegend ein Prozess des Informationsaustauschs ist. Wir haben auch das Landauer-Prinzip in NTP eingeführt, das das Zweite Gesetz der Informationskapazität (IC-2) formuliert, das die Beziehung zwischen dem Training von autoregressiven Modellen und dem Energieverbrauch festlegt. Darüber hinaus haben wir mehrere Korollare vorgestellt, die praktische Bedeutung für die Produktionspraxis haben. Schließlich haben wir die Kompatibilität und Ergänzung unserer Ergebnisse mit bestehenden Theorien validiert.
Wir präsentieren einen einfachen Weg, um das maskierte Sprachmodellieren mit dem kausalen Sprachmodellieren zu verschmelzen. Dieses hybride Trainingsziel führt zu einem Modell, das die Stärken beider Modellierungsparadigmen innerhalb eines einzigen Transformer-Stacks kombiniert: GPT-BERT kann transparent wie jedes Standard-kausale oder maskierte Sprachmodell verwendet werden. Wir testen den Pretraining-Prozess, der dieses flexible Verhalten bei der BabyLM Challenge 2024 ermöglicht. Die Ergebnisse zeigen, dass das hybride Pretraining maskierte oder kausale Modelle allein übertrifft. Wir veröffentlichen die Modelle, Trainingskorpora und den Code offen.
Die Anwendungen der generativen KI sind äußerst beeindruckend geworden, und die Interaktion zwischen Benutzern und KI ist es noch mehr. Die aktuelle Literatur zur menschlichen KI-Interaktion hat einen breiten Blick darauf geworfen, wie Menschen mit generativer KI interagieren, aber es mangelt an Spezifität hinsichtlich der Benutzeroberflächengestaltungen und Muster, die zur Erstellung dieser Anwendungen verwendet werden. Daher präsentieren wir eine Umfrage, die umfassend Taxonomien darüber vorstellt, wie ein Mensch mit KI interagiert, und die Benutzerinteraktionsmuster, die entwickelt wurden, um die Bedürfnisse einer Vielzahl relevanter Anwendungsfälle zu erfüllen. Wir konzentrieren uns hauptsächlich auf benutzergeführte Interaktionen, indem wir Interaktionen untersuchen, die vom Benutzer initiiert werden und keine impliziten Signale des Benutzers beinhalten. Mit dieser Umfrage möchten wir ein Kompendium verschiedener Benutzerinteraktionsmuster erstellen, das als Referenz für Designer und Entwickler gleichermaßen verwendet werden kann. Dabei streben wir auch danach, die Einstiegshürde für diejenigen zu senken, die mehr über die Gestaltung von generativen KI-Anwendungen erfahren möchten.
Wir präsentieren Fashion-VDM, ein Videodiffusionsmodell (VDM) zur Erzeugung virtueller Anproben-Videos. Ausgehend von einem Eingabebild des Kleidungsstücks und einem Personenvideo zielt unsere Methode darauf ab, ein qualitativ hochwertiges Anprobenvideo der Person zu generieren, die das gegebene Kleidungsstück trägt, wobei die Identität und Bewegung der Person erhalten bleiben. Die bildbasierte virtuelle Anprobe hat beeindruckende Ergebnisse gezeigt; jedoch fehlen den bestehenden Methoden für die videobasierte virtuelle Anprobe (VVT) immer noch Details zur Kleidung und zeitliche Konsistenz. Um diese Probleme anzugehen, schlagen wir eine auf Diffusion basierende Architektur für die videobasierte virtuelle Anprobe vor, eine klassifiziererfreie Aufteilung für eine erhöhte Kontrolle über die Konditionierungseingaben und eine progressive zeitliche Trainingsstrategie für die Generierung von Videos in einem Durchgang mit 64 Frames und 512px. Wir zeigen auch die Wirksamkeit des gemeinsamen Trainings von Bildern und Videos für die Videoanprobe, insbesondere wenn Videodaten begrenzt sind. Unsere qualitativen und quantitativen Experimente zeigen, dass unser Ansatz den neuen Stand der Technik für die videobasierte virtuelle Anprobe setzt. Für zusätzliche Ergebnisse besuchen Sie unsere Projektseite: https://johannakarras.github.io/Fashion-VDM.
Neueste Forschungen arXiv:2410.15027 haben die Verwendung von Diffusions-Transformern (DiTs) zur aufgabenagnostischen Bildgenerierung untersucht, indem sie einfach Aufmerksamkeitstoken über Bilder hinweg konkatenieren. Trotz erheblicher Rechenressourcen bleibt die Qualität der generierten Bilder jedoch suboptimal. In dieser Studie überprüfen und optimieren wir dieses Framework, indem wir die Hypothese aufstellen, dass Text-zu-Bild DiTs von Natur aus über In-Context-Generierungsfähigkeiten verfügen, die nur minimale Anpassungen erfordern, um sie zu aktivieren. Durch vielfältige Aufgabenexperimente zeigen wir qualitativ, dass bestehende Text-zu-Bild DiTs in der Lage sind, In-Context-Generierung effektiv durchzuführen, ohne jegliche Anpassungen vorzunehmen. Basierend auf dieser Erkenntnis schlagen wir eine bemerkenswert einfache Pipeline vor, um die In-Context-Fähigkeiten von DiTs zu nutzen: (1) Bilder anstelle von Token konkatenieren, (2) gemeinsame Beschriftung mehrerer Bilder durchführen und (3) eine aufgabenspezifische LoRA-Anpassung mit kleinen Datensätzen (z.B. 20 bis 100 Proben) anstelle einer vollständigen Parameteranpassung mit großen Datensätzen durchführen. Wir nennen unsere Modelle In-Context LoRA (IC-LoRA). Dieser Ansatz erfordert keine Änderungen an den originalen DiT-Modellen, sondern nur Änderungen an den Trainingsdaten. Bemerkenswerterweise generiert unsere Pipeline hochwertige Bildersets, die besser den Vorgaben entsprechen. Während unser Framework in Bezug auf die Anpassung der Daten aufgabenbezogen ist, bleibt es in Architektur und Pipeline aufgabenagnostisch und bietet ein leistungsstarkes Werkzeug für die Gemeinschaft sowie wertvolle Einblicke für weitere Forschungen zu aufgabenagnostischen Generierungssystemen auf Produktbasis. Wir veröffentlichen unseren Code, unsere Daten und Modelle unter https://github.com/ali-vilab/In-Context-LoRA.
In letzter Zeit hat die 3D-Gaußsche Splatting (3DGS) die Rekonstruktion von Strahlungsfeldern revolutioniert und zeigt eine effiziente und hochwertige Synthese von neuartigen Ansichten. Die präzise Darstellung von Oberflächen, insbesondere in großen und komplexen Szenarien, bleibt jedoch aufgrund der unstrukturierten Natur von 3DGS eine bedeutende Herausforderung. In diesem Papier präsentieren wir CityGaussianV2, einen neuartigen Ansatz für die Rekonstruktion von groß angelegten Szenen, der kritische Herausforderungen in Bezug auf geometrische Genauigkeit und Effizienz angeht. Aufbauend auf den günstigen Verallgemeinerungsfähigkeiten des 2D-Gaußschen Splatting (2DGS) gehen wir auf seine Konvergenz- und Skalierbarkeitsprobleme ein. Speziell implementieren wir eine auf Zerlegungsgradienten basierende Verdichtungs- und Tiefenregressionstechnik, um unscharfe Artefakte zu beseitigen und die Konvergenz zu beschleunigen. Um die Skalierung zu ermöglichen, führen wir einen Elongationsfilter ein, der die durch die Degeneration von 2DGS verursachte Gaußsche Zählexplosion mildert. Darüber hinaus optimieren wir die CityGaussian-Pipeline für paralleles Training, erreichen eine bis zu 10-fache Kompression, mindestens 25% Zeitersparnis beim Training und eine 50%ige Verringerung des Speicherverbrauchs. Wir haben auch Standardgeometriebenchmarks unter groß angelegten Szenen etabliert. Experimentelle Ergebnisse zeigen, dass unsere Methode eine vielversprechende Balance zwischen visueller Qualität, geometrischer Genauigkeit sowie Speicher- und Trainingskosten bietet. Die Projektseite ist unter https://dekuliutesla.github.io/CityGaussianV2/ verfügbar.
Der Wort-Einbettungsraum in neuronalen Modellen ist verzerrt, und das Korrigieren davon kann die Leistung der Aufgabe verbessern. Wir weisen darauf hin, dass die meisten Ansätze zur Modellierung, Korrektur und Messung der Symmetrie eines Einbettungsraums implizit davon ausgehen, dass die Wortfrequenzen gleichmäßig sind; in Wirklichkeit folgen Wortfrequenzen einer stark ungleichmäßigen Verteilung, bekannt als Zipfsches Gesetz. Überraschenderweise verbessert allein die Durchführung einer PCA-Weißmachung, gewichtet nach der empirischen Wortfrequenz, die Zipfsches Gesetz folgt, signifikant die Leistung der Aufgabe und übertrifft etablierte Baselines. Aus theoretischer Sicht können sowohl unser Ansatz als auch bestehende Methoden klar kategorisiert werden: Wortrepräsentationen sind gemäß einer exponentiellen Familie mit entweder gleichmäßigen oder Zipfschen Basismaßen verteilt. Durch die Annahme des letzteren Ansatzes können wir natürlicherweise informative Niedrigfrequenzwörter hervorheben, sowohl in Bezug auf ihre Vektornorm, was aus der information-geometrischen Perspektive deutlich wird, als auch in Bezug auf die Verlustfunktionen für unausgeglichene Klassifikationen. Darüber hinaus bestätigt unsere Theorie, dass beliebte Methoden der natürlichen Sprachverarbeitung, wie Skip-Gram-Negative-Sampling, WhiteningBERT und kopflose Sprachmodelle, gut funktionieren, nur weil ihre Wort-Einbettungen die empirische Wortfrequenz in das zugrunde liegende probabilistische Modell kodieren.
Wir schlagen eine effektive Methode zur Einfügung von Adaptern in Text-zu-Bild-Grundlagenmodelle vor, die die Ausführung komplexer nachgelagerter Aufgaben ermöglicht, während die Verallgemeinerungsfähigkeit des Basismodells erhalten bleibt. Die Kernidee dieser Methode besteht darin, den Aufmerksamkeitsmechanismus in Bezug auf 2D-Merkmalmaps zu optimieren, was die Leistung des Adapters verbessert. Dieser Ansatz wurde anhand der Aufgabe der Meme-Videoerstellung validiert und erzielte signifikante Ergebnisse. Wir hoffen, dass diese Arbeit Einblicke für die Nachschulungsaufgaben großer Text-zu-Bild-Modelle bieten kann. Darüber hinaus, da diese Methode eine gute Kompatibilität mit SD1.5-Derivatmodellen aufweist, hat sie einen gewissen Wert für die Open-Source-Community. Daher werden wir den zugehörigen Code veröffentlichen (https://songkey.github.io/hellomeme).
Aktuelle Techniken zur Anonymisierung von Gesichtern hängen oft von Identitätsverlust ab, der durch Gesichtserkennungsmodelle berechnet wird, die ungenau und unzuverlässig sein können. Darüber hinaus erfordern viele Methoden zusätzliche Daten wie Gesichtslandmarken und Masken, um den Syntheseprozess zu steuern. Im Gegensatz dazu verwendet unser Ansatz Diffusionsmodelle nur mit einem Rekonstruktionsverlust, was den Bedarf an Gesichtslandmarken oder Masken beseitigt, während dennoch Bilder mit komplexen, feingliedrigen Details erzeugt werden. Wir haben unsere Ergebnisse anhand von zwei öffentlichen Benchmarks sowohl quantitativ als auch qualitativ validiert. Unser Modell erzielt Spitzenleistungen in drei Schlüsselbereichen: Identitätsanonymisierung, Erhaltung von Gesichtsmerkmalen und Bildqualität. Über seine Hauptfunktion der Anonymisierung hinaus kann unser Modell auch Gesichtsaustauschaufgaben durchführen, indem es ein zusätzliches Gesichtsbild als Eingabe integriert, was seine Vielseitigkeit und sein Potenzial für vielfältige Anwendungen zeigt. Unser Code und unsere Modelle sind unter https://github.com/hanweikung/face_anon_simple verfügbar.
Große Sprachmodelle (LLMs) haben sich im Multi-Hop-Frage-Antworten (M-QA) aufgrund ihrer fortschrittlichen Fähigkeiten im logischen Denken hervorgetan. Allerdings bleibt der Einfluss der inhärenten logischen Strukturen auf die Leistung von LLMs im M-QA weitgehend unklar, hauptsächlich aufgrund des Mangels an QA-Datensätzen, die fein abgestufte logische Strukturen bereitstellen. Um diese Lücke zu schließen, stellen wir den Graphen-Logik-strukturierten Frage-Antworten-Datensatz (GRS-QA) vor, der sowohl semantische Kontexte als auch logische Strukturen für QA-Paare enthält. Im Gegensatz zu bestehenden M-QA-Datensätzen, in denen verschiedene logische Strukturen miteinander verflochten sind, erfasst GRS-QA explizit komplexe logische Pfade, indem es Logikgraphen konstruiert, in denen Knoten textuelle Kontexte darstellen und Kanten logische Flüsse anzeigen. Diese Logikgraphen unterschiedlicher Strukturen ermöglichen eine fein abgestufte Bewertung der logischen Fähigkeiten von LLMs über verschiedene logische Strukturen hinweg. Unsere empirische Analyse zeigt, dass LLMs sich unterschiedlich verhalten, wenn sie Fragen mit verschiedenen logischen Strukturen bearbeiten. Diese Erkenntnis erleichtert die Erforschung von textuellen Strukturen im Vergleich zu Semantik.
Der Gesundheitszustand (State of Health, SOH) einer Li-Ionen-Batterie ist ein entscheidender Parameter, der die verbleibende Kapazität und die verbleibende Lebensdauer der Batterie bestimmt. In diesem Paper schlagen wir SambaMixer vor, ein neuartiges strukturiertes Zustandsraummodell (State Space Model, SSM) zur Vorhersage des Gesundheitszustands von Li-Ionen-Batterien. Das vorgeschlagene SSM basiert auf der MambaMixer-Architektur, die entwickelt wurde, um multivariate Zeitssignale zu verarbeiten. Wir evaluieren unser Modell anhand des NASA-Batterieentladedatensatzes und zeigen, dass unser Modell auf diesem Datensatz die bisherigen Spitzenleistungen übertrifft. Darüber hinaus führen wir eine neuartige ankerbasierte Resampling-Methode ein, die sicherstellt, dass Zeitssignale die erwartete Länge haben und gleichzeitig als Augmentationstechnik dient. Abschließend konditionieren wir die Vorhersage anhand der Probenzeit und des Zykluszeitunterschieds unter Verwendung von Positionscodierungen, um die Leistung unseres Modells zu verbessern und Erholungseffekte zu erlernen. Unsere Ergebnisse belegen, dass unser Modell in der Lage ist, den SOH von Li-Ionen-Batterien mit hoher Genauigkeit und Robustheit vorherzusagen.
Die Code-Vervollständigung auf Repository-Ebene hat in der Softwareentwicklung große Aufmerksamkeit erregt, und mehrere Benchmark-Datensätze wurden eingeführt. Allerdings konzentrieren sich bestehende Benchmark-Datensätze zur Code-Vervollständigung auf Repository-Ebene normalerweise auf eine begrenzte Anzahl von Sprachen (<5), was nicht die allgemeinen Code-Intelligenzfähigkeiten über verschiedene Sprachen hinweg für existierende Large Language Models (LLMs) bewerten kann. Darüber hinaus berichten die bestehenden Benchmarks in der Regel über Gesamtdurchschnittswerte verschiedener Sprachen, wobei die fein abgestuften Fähigkeiten in verschiedenen Vervollständigungsszenarien ignoriert werden. Daher schlagen wir zur Unterstützung der Forschung von Code-LLMs in mehrsprachigen Szenarien einen massiv mehrsprachigen Benchmark für die Code-Vervollständigung auf Repository-Ebene vor, der 18 Programmiersprachen abdeckt (genannt M2RC-EVAL), und zwei Arten von fein abgestuften Annotationen (d.h. auf Eimer-Ebene und semantischer Ebene) für verschiedene Vervollständigungsszenarien bereitstellt, wobei wir diese Annotationen basierend auf dem geparsten abstrakten Syntaxbaum erhalten. Darüber hinaus kuratieren wir auch ein massiv mehrsprachiges Anweisungskorpora M2RC-INSTRUCT-Datensatz, um die Code-Vervollständigungsfähigkeiten auf Repository-Ebene von existierenden Code-LLMs zu verbessern. Umfassende experimentelle Ergebnisse zeigen die Wirksamkeit unseres M2RC-EVAL und M2RC-INSTRUCT auf.
In diesem Artikel behandeln wir die Qualität des WikiNER-Korpus, eines mehrsprachigen Korpus zur benannten Entitätenerkennung, und stellen eine konsolidierte Version davon bereit. Die Annotation von WikiNER wurde auf halbüberwachte Weise erstellt, d.h. es wurde keine manuelle Überprüfung im Nachhinein durchgeführt. Ein solcher Korpus wird als Silberstandard bezeichnet. In diesem Paper schlagen wir WikiNER-fr-gold vor, was eine überarbeitete Version des französischen Teils des WikiNER ist. Unser Korpus besteht aus zufällig ausgewählten 20% des ursprünglichen französischen Teilkorpus (26.818 Sätze mit 700k Tokens). Wir beginnen damit, die Entitätentypen in jeder Kategorie zusammenzufassen, um eine Anleitungsrichtlinie festzulegen, und gehen dann zur Überarbeitung des Korpus über. Abschließend präsentieren wir eine Analyse von Fehlern und Inkonsistenzen, die im WikiNER-fr-Korpus beobachtet wurden, und diskutieren potenzielle zukünftige Arbeitsrichtungen.