Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das Verständnis wissenschaftlicher Literatur ist entscheidend für die Extraktion gezielter Informationen und die Gewinnung von Erkenntnissen, was die wissenschaftliche Entdeckung erheblich vorantreibt. Trotz des bemerkenswerten Erfolgs von Großen Sprachmodellen (LLMs) stehen sie vor Herausforderungen beim Verständnis wissenschaftlicher Literatur, hauptsächlich aufgrund (1) eines Mangels an wissenschaftlichem Wissen und (2) Unvertrautheit mit spezialisierten wissenschaftlichen Aufgaben. Um ein auf das Verständnis wissenschaftlicher Literatur spezialisiertes LLM zu entwickeln, schlagen wir eine hybride Strategie vor, die kontinuierliches Vor-Training (CPT) und überwachtes Feinabstimmung (SFT) integriert, um gleichzeitig wissenschaftliches Fachwissen einzubringen und die Fähigkeiten zur Befolgung von Anweisungen für domänenspezifische Aufgaben zu verbessern. In diesem Prozess identifizieren wir zwei Hauptprobleme: (1) den Aufbau hochwertiger CPT-Korpora und (2) die Generierung vielfältiger SFT-Anweisungen. Diese Herausforderungen angehen wir durch eine sorgfältige Pipeline, einschließlich PDF-Textextraktion, Fehlerkorrektur beim Parsen von Inhalten, Qualitätsfilterung und Erstellung synthetischer Anweisungen. Unter Anwendung dieser Strategie präsentieren wir eine Reihe von LLMs: SciLitLLM, spezialisiert auf das Verständnis wissenschaftlicher Literatur. Diese Modelle zeigen vielversprechende Leistungen bei wissenschaftlichen Literaturverständnis-Benchmarks. Unsere Beiträge sind dreifach: (1) Wir präsentieren einen effektiven Rahmen, der CPT und SFT integriert, um LLMs an das Verständnis wissenschaftlicher Literatur anzupassen, was auch leicht auf andere Bereiche übertragbar ist. (2) Wir schlagen eine auf LLM basierende Synthesemethode vor, um vielfältige und hochwertige wissenschaftliche Anweisungen zu generieren, was zu einem neuen Anweisungsset - SciLitIns - für überwachtes Feinabstimmen in weniger repräsentierten wissenschaftlichen Bereichen führt. (3) SciLitLLM erzielt vielversprechende Leistungsverbesserungen bei wissenschaftlichen Literaturverständnis-Benchmarks.
In jüngster Zeit haben Fortschritte in der Personalisierung von Text-zu-Bild die hochwertige und steuerbare Bildsynthese für vom Benutzer bereitgestellte Konzepte ermöglicht. Allerdings haben bestehende Methoden nach wie vor Schwierigkeiten, die Balance zwischen Identitätserhaltung und Textausrichtung zu finden. Unser Ansatz beruht darauf, dass die Generierung von prompt-ausgerichteten Bildern ein präzises semantisches Verständnis des Prompts erfordert, was eine genaue Verarbeitung der Interaktionen zwischen dem neuen Konzept und seinen umgebenden Kontext-Token innerhalb des CLIP-Textencoders einschließt. Um dies anzugehen, zielen wir darauf ab, das neue Konzept ordnungsgemäß in den Eingabe-Einbettungsraum des Textencoders zu integrieren, um eine nahtlose Integration mit den bestehenden Tokens zu ermöglichen. Wir führen die Kontextregulierung (CoRe) ein, die das Lernen der Texteinbettung des neuen Konzepts durch Regulierung seiner Kontext-Token im Prompt verbessert. Dies basiert auf der Erkenntnis, dass angemessene Ausgabebereiche des Textencoders für die Kontext-Token nur erreicht werden können, wenn die Texteinbettung des neuen Konzepts korrekt erlernt wird. CoRe kann auf beliebige Prompts angewendet werden, ohne dass die Generierung entsprechender Bilder erforderlich ist, was die Verallgemeinerung der erlernten Texteinbettung verbessert. Darüber hinaus kann CoRe als Testzeit-Optimierungstechnik dienen, um die Generierungen für spezifische Prompts weiter zu verbessern. Umfassende Experimente zeigen, dass unsere Methode mehrere Basislinienmethoden sowohl im Identitätserhalt als auch in der Textausrichtung übertrifft. Der Code wird öffentlich zugänglich gemacht.
Recent evaluations of Large Multimodal Models (LMMs) have explored their capabilities in various domains, with only few benchmarks specifically focusing on urban environments. Moreover, existing urban benchmarks have been limited to evaluating LMMs with basic region-level urban tasks under singular views, leading to incomplete evaluations of LMMs' abilities in urban environments. To address these issues, we present UrBench, a comprehensive benchmark designed for evaluating LMMs in complex multi-view urban scenarios. UrBench contains 11.6K meticulously curated questions at both region-level and role-level that cover 4 task dimensions: Geo-Localization, Scene Reasoning, Scene Understanding, and Object Understanding, totaling 14 task types. In constructing UrBench, we utilize data from existing datasets and additionally collect data from 11 cities, creating new annotations using a cross-view detection-matching method. With these images and annotations, we then integrate LMM-based, rule-based, and human-based methods to construct large-scale high-quality questions. Our evaluations on 21 LMMs show that current LMMs struggle in the urban environments in several aspects. Even the best performing GPT-4o lags behind humans in most tasks, ranging from simple tasks such as counting to complex tasks such as orientation, localization and object attribute recognition, with an average performance gap of 17.4%. Our benchmark also reveals that LMMs exhibit inconsistent behaviors with different urban views, especially with respect to understanding cross-view relations. UrBench datasets and benchmark results will be publicly available at https://opendatalab.github.io/UrBench/.
Die Synthese von Satelliten- zu Straßenansichten zielt darauf ab, ein realistisches Straßenansichtsbild aus seinem entsprechenden Satellitenansichtsbild zu generieren. Obwohl stabile Diffusionsmodelle in einer Vielzahl von Bildgenerierungsanwendungen bemerkenswerte Leistungen gezeigt haben, beschränkt ihre Abhängigkeit von ähnlichen Eingangsansichten zur Steuerung der generierten Struktur oder Textur ihre Anwendung auf die anspruchsvolle Kreuzansichtssynthese-Aufgabe. In dieser Arbeit schlagen wir CrossViewDiff vor, ein Kreuzansichts-Diffusionsmodell für die Synthese von Satelliten- zu Straßenansichten. Um den Herausforderungen der großen Diskrepanz zwischen den Ansichten zu begegnen, entwerfen wir die Module zur Schätzung der Satellitenszene-Struktur und zur Kreuzansichts-Texturzuordnung, um die strukturellen und texturalen Steuerungen für die Straßenansichtsbildsynthese zu konstruieren. Darüber hinaus entwerfen wir einen kreuzansichtsgesteuerten Entrauschungsprozess, der die oben genannten Steuerungen über ein verbessertes Kreuzansichts-Aufmerksamkeitsmodul integriert. Um eine umfassendere Bewertung der Syntheseergebnisse zu erreichen, entwerfen wir zusätzlich eine auf GPT basierende Bewertungsmethode als Ergänzung zu den Standardbewertungsmetriken. Wir untersuchen auch die Auswirkungen verschiedener Datenquellen (z. B. Texte, Karten, Gebäudehöhen und mehrzeitliche Satellitenbilder) auf diese Aufgabe. Ergebnisse auf drei öffentlichen Kreuzansichtsdatensätzen zeigen, dass CrossViewDiff sowohl bei Standard- als auch bei GPT-basierten Bewertungsmetriken den aktuellen Stand der Technik übertrifft und hochwertige Straßenansichtspanoramen mit realistischeren Strukturen und Texturen in ländlichen, Vorstadt- und städtischen Szenen generiert. Der Code und die Modelle dieser Arbeit werden unter https://opendatalab.github.io/CrossViewDiff/ veröffentlicht.
Hochleistungs-Sprachmodelle stoßen oft an ihre Grenzen im afrikanischen Kontext, wo ein dringender Bedarf an Modellen besteht, die effizient, zugänglich und lokal relevant sind, selbst unter erheblichen Rechen- und Datenbeschränkungen. Diese Arbeit stellt InkubaLM vor, ein kleines Sprachmodell mit 0,4 Milliarden Parametern, das eine Leistung erzielt, die mit Modellen vergleichbar ist, die über deutlich größere Parametermengen und umfangreichere Trainingsdaten verfügen, bei Aufgaben wie maschineller Übersetzung, Frage-Antwort, AfriMMLU und der AfriXnli-Aufgabe. InkubaLM übertrifft viele größere Modelle signifikant in der Stimmungsanalyse und zeigt bemerkenswerte Konsistenz über mehrere Sprachen hinweg. Diese Arbeit stellt einen entscheidenden Fortschritt dar, indem sie das konventionelle Paradigma in Frage stellt, dass effektive Sprachmodelle auf erhebliche Ressourcen angewiesen sein müssen. Unser Modell und unsere Datensätze sind öffentlich verfügbar unter \url{https://huggingface.co/lelapa}, um Forschung und Entwicklung zu niedrig-ressourcen Sprachen zu fördern.
Die Diffusionstransformator-Modelle (DiTs) haben die Netzwerkarchitektur von traditionellen UNets auf Transformer umgestellt und dabei außergewöhnliche Fähigkeiten bei der Bildgenerierung gezeigt. Obwohl DiTs weit verbreitet bei der Generierung von hochauflösenden Videos eingesetzt wurden, behindert ihre große Parametergröße die Inferenz auf Edge-Geräten. Die Vektorquantisierung (VQ) kann das Modellgewicht in einen Codebuch und Zuweisungen zerlegen, was eine extrem starke Gewichtsquantisierung ermöglicht und den Speicherverbrauch signifikant reduziert. In diesem Paper schlagen wir VQ4DiT vor, eine schnelle Post-Training-Vektorquantisierungsmethode für DiTs. Wir haben festgestellt, dass traditionelle VQ-Methoden nur das Codebuch kalibrieren, ohne die Zuweisungen zu kalibrieren. Dies führt dazu, dass Gewichts-Teilvektoren fälschlicherweise derselben Zuweisung zugeordnet werden, was inkonsistente Gradienten zum Codebuch liefert und zu einem suboptimalen Ergebnis führt. Um diese Herausforderung anzugehen, berechnet VQ4DiT für jeden Gewichts-Teilvektor auf der Grundlage des euklidischen Abstands den Kandidaten-Zuweisungssatz und rekonstruiert den Teilvektor auf der Grundlage des gewichteten Durchschnitts. Anschließend wird unter Verwendung der Zero-Data- und blockweisen Kalibrierungsmethode die optimale Zuweisung aus dem Satz effizient ausgewählt, während das Codebuch kalibriert wird. VQ4DiT quantisiert ein DiT XL/2-Modell auf einer einzelnen NVIDIA A100 GPU innerhalb von 20 Minuten bis 5 Stunden, abhängig von den verschiedenen Quantisierungseinstellungen. Experimente zeigen, dass VQ4DiT einen neuen Stand der Technik bei der Modellgröße und der Leistungsbilanz etabliert, indem Gewichte auf eine Präzision von 2 Bit quantisiert werden, während eine akzeptable Bildgenerierungsqualität beibehalten wird.
Die VoxCeleb Sprechererkennungsherausforderungen (VoxSRC) waren eine Serie von Herausforderungen und Workshops, die jährlich von 2019 bis 2023 stattfanden. Die Herausforderungen bewerteten hauptsächlich die Aufgaben der Sprechererkennung und Diarisation unter verschiedenen Einstellungen, einschließlich geschlossener und offener Trainingsdaten, sowie überwachtem, selbstüberwachtem und halbüberwachtem Training für die Domänenanpassung. Die Herausforderungen stellten auch öffentlich verfügbare Trainings- und Evaluierungsdatensätze für jede Aufgabe und Einstellung bereit, wobei jedes Jahr neue Testsets veröffentlicht wurden. In diesem Artikel bieten wir eine Überprüfung dieser Herausforderungen an, die folgende Punkte abdeckt: was erforscht wurde; die von den Teilnehmern der Herausforderung entwickelten Methoden und wie sich diese entwickelten; sowie den aktuellen Stand des Feldes für Sprecherüberprüfung und Diarisation. Wir verfolgen den Fortschritt in der Leistung über die fünf Ausgaben der Herausforderung auf einem gemeinsamen Evaluierungsdatensatz und bieten eine detaillierte Analyse, wie der spezielle Fokus jedes Jahres die Leistung der Teilnehmer beeinflusst hat. Dieser Artikel richtet sich sowohl an Forscher, die einen Überblick über das Feld der Sprechererkennung und Diarisation wünschen, als auch an Herausforderungsorganisatoren, die von den Erfolgen profitieren und Fehler der VoxSRC-Herausforderungen vermeiden möchten. Wir schließen mit einer Diskussion über die aktuellen Stärken des Feldes und offene Herausforderungen. Projektseite: https://mm.kaist.ac.kr/datasets/voxceleb/voxsrc/workshop.html
Multi-Vektor-Dichtemodelle wie ColBERT haben sich als äußerst effektiv in der Informationssuche erwiesen. ColBERTs späte Interaktionsbewertung approximiert die gemeinsame Abfrage-Dokument-Aufmerksamkeit, die in Kreuzkodierern zu sehen ist, während sie die Inferenzeffizienz näher an traditionellen dichten Abrufmodellen beibehält, dank seiner Zwei-Kodierer-Architektur und der jüngsten Optimierungen in Indexierung und Suche. In diesem Papier stellen wir mehrere Verbesserungen an der ColBERT-Modellarchitektur und am Schulungspipeline vor, die Techniken nutzen, die im etablierteren Paradigma des Ein-Vektor-Einbettungsmodells erfolgreich sind, insbesondere solche, die für heterogene mehrsprachige Daten geeignet sind. Unser neues Modell, Jina-ColBERT-v2, zeigt eine starke Leistung in einer Reihe von englischen und mehrsprachigen Suchaufgaben und reduziert gleichzeitig den Speicherbedarf um bis zu 50% im Vergleich zu früheren Modellen.
Die Dokumentenzusammenfassung ist eine Aufgabe, um Texte in prägnante und informative Zusammenfassungen zu kürzen. Dieses Papier stellt einen neuartigen Datensatz vor, der für die Zusammenfassung mehrerer wissenschaftlicher Artikel zu einem Abschnitt einer Umfrage entwickelt wurde. Unsere Beiträge sind: (1) SurveySum, ein neuer Datensatz, der die Lücke in domänenspezifischen Zusammenfassungswerkzeugen adressiert; (2) zwei spezifische Abläufe zur Zusammenfassung wissenschaftlicher Artikel zu einem Abschnitt einer Umfrage; und (3) die Bewertung dieser Abläufe unter Verwendung mehrerer Metriken, um ihre Leistung zu vergleichen. Unsere Ergebnisse betonen die Bedeutung von qualitativ hochwertigen Abrufstufen und den Einfluss verschiedener Konfigurationen auf die Qualität der generierten Zusammenfassungen.
Bilder werden zunehmend zur Dokumentation der Biodiversität auf dem Planeten zu einer Währung, die neue Möglichkeiten für die Beschleunigung wissenschaftlicher Entdeckungen im Bereich der Organismenbiologie bietet, insbesondere mit dem Aufkommen großer Bild-Sprach-Modelle (VLMs). Wir untersuchen, ob vorab trainierte VLMs Wissenschaftler dabei unterstützen können, eine Vielzahl biologisch relevanter Fragen ohne zusätzliches Feintuning zu beantworten. In diesem Artikel bewerten wir die Wirksamkeit von 12 State-of-the-Art (SOTA) VLMs im Bereich der Organismenbiologie anhand eines neuartigen Datensatzes, VLM4Bio, der aus 469.000 Frage-Antwort-Paaren besteht, die 30.000 Bilder von drei Gruppen von Organismen - Fischen, Vögeln und Schmetterlingen - umfassen und fünf biologisch relevante Aufgaben abdecken. Wir untersuchen auch die Auswirkungen der Anwendung von Aufforderungstechniken und Tests auf die Vernunftshalleuzination auf die Leistung von VLMs und werfen ein neues Licht auf die Fähigkeiten der aktuellen SOTA VLMs, biologisch relevante Fragen unter Verwendung von Bildern zu beantworten. Der Code und die Datensätze zur Durchführung aller in diesem Artikel beschriebenen Analysen finden Sie unter https://github.com/sammarfy/VLM4Bio.
Die Erkennung und Zuordnung von Temperaturerhöhungen aufgrund des Klimawandels sind entscheidend für das Verständnis der globalen Erwärmung und die Lenkung von Anpassungsstrategien. Die Komplexität der Unterscheidung von vom Menschen verursachten Klimasignalen von natürlicher Variabilität hat herkömmliche Ansätze zur Detektion und Zuordnung (D&A) herausgefordert, die darauf abzielen, spezifische "Fingerabdrücke" in Klimaantwortvariablen zu identifizieren. Deep Learning bietet Potenzial, um diese komplexen Muster in umfangreichen räumlichen Datensätzen zu erkennen. Allerdings haben fehlende Standardprotokolle konsistente Vergleiche zwischen Studien behindert. Wir stellen ClimDetect vor, einen standardisierten Datensatz von über 816.000 täglichen Klimaschnappschüssen, der darauf abzielt, die Genauigkeit von Modellen bei der Identifizierung von Klimawandelsignalen zu verbessern. ClimDetect integriert verschiedene Eingabe- und Zielvariablen, die in früheren Forschungen verwendet wurden, um Vergleichbarkeit und Konsistenz sicherzustellen. Wir untersuchen auch die Anwendung von Vision-Transformern (ViT) auf Klimadaten, einen neuartigen und modernisierenden Ansatz in diesem Kontext. Unsere Open-Access-Daten und der Code dienen als Benchmark zur Förderung der Klimawissenschaft durch verbesserte Modellbewertungen. ClimDetect ist öffentlich über das Huggingface-Datensatz-Repository unter folgendem Link zugänglich: https://huggingface.co/datasets/ClimDetect/ClimDetect.
Dieses Paper stellt CURLoRA vor, einen neuartigen Ansatz zur Feinabstimmung großer Sprachmodelle (LLMs), der die CUR-Matrixzerlegung im Kontext der Low-Rank-Anpassung (LoRA) nutzt. Unsere Methode begegnet zwei entscheidenden Herausforderungen bei der Feinabstimmung von LLMs: der Minderung des katastrophalen Vergessens während des kontinuierlichen Lernens und der Reduzierung der Anzahl der trainierbaren Parameter. Wir schlagen eine einzigartige Modifikation des CUR-Zerlegungsprozesses vor, indem wir invertierte Wahrscheinlichkeiten für die Auswahl von Spalten und Zeilen verwenden, was als implizite Regularisierung fungiert, und die U-Matrix als Nullmatrix initialisieren und nur feinabstimmen. Durch Experimente auf mehreren Datensätzen zeigen wir, dass CURLoRA im Vergleich zu Standard-LoRA das katastrophale Vergessen besser mildert. Es gewährleistet die Stabilität und Leistung des Modells über verschiedene Aufgaben hinweg, während die Anzahl der trainierbaren Parameter signifikant reduziert wird. Unsere Ergebnisse zeigen, dass CURLoRA eine sehr gute und stabile Aufgabengenauigkeit erreicht, während die Perplexitätswerte des Basismodells im Vergleich zu LoRA bei kontinuierlicher Feinabstimmung beibehalten werden, insbesondere in Szenarien mit begrenzten Daten.
Mit dem Fortschreiten des Gebiets der künstlichen Intelligenz werden assistive Technologien in zunehmendem Maße in allen Branchen eingesetzt. Die Gesundheitsbranche bildet hier keine Ausnahme, mit zahlreichen Studien, die durchgeführt werden, um assistive Werkzeuge für medizinisches Fachpersonal zu entwickeln. Automatische Diagnosesysteme sind ein solches nützliches Werkzeug, das bei einer Vielzahl von Aufgaben unterstützen kann, darunter die Erfassung von Patienteninformationen, die Analyse von Testergebnissen und die Diagnose von Patienten. Allerdings wurde die Idee, Systeme zu entwickeln, die eine differenzierte Diagnose liefern können, in den meisten dieser Forschungsstudien weitgehend übersehen. In dieser Studie schlagen wir einen auf Transformer basierenden Ansatz zur Bereitstellung differenzierter Diagnosen basierend auf dem Alter, Geschlecht, der Krankengeschichte und den Symptomen eines Patienten vor. Wir verwenden das DDXPlus-Datenset, das differenzierte Diagnoseinformationen für Patienten basierend auf 49 Krankheitstypen bereitstellt. Zunächst schlagen wir eine Methode vor, um die tabellarischen Patientendaten aus dem Datenset zu verarbeiten und sie in Patientenberichte umzuwandeln, um sie für unsere Forschung geeignet zu machen. Darüber hinaus führen wir zwei Datenmodifikationsmodule ein, um die Trainingsdaten zu diversifizieren und somit die Robustheit der Modelle zu verbessern. Wir betrachten die Aufgabe als ein Multi-Label-Klassifikationsproblem und führen umfangreiche Experimente mit vier Transformer-Modellen durch. Alle Modelle zeigten vielversprechende Ergebnisse, indem sie auf dem zurückgehaltenen Testdatensatz eine F1-Score von über 97% erreichten. Darüber hinaus entwerfen wir zusätzliche Verhaltenstests, um ein umfassenderes Verständnis der Modelle zu erhalten. Insbesondere haben wir für einen unserer Testfälle einen benutzerdefinierten Testdatensatz mit 100 Proben unter Mitwirkung eines Arztes erstellt. Die Ergebnisse des benutzerdefinierten Datensatzes zeigten, dass unsere vorgeschlagenen Datenmodifikationsmodule die Verallgemeinerungsfähigkeiten des Modells verbesserten. Wir hoffen, dass unsere Ergebnisse zukünftigen Forschern wertvolle Einblicke liefern und sie dazu inspirieren werden, zuverlässige Systeme für automatische differenzierte Diagnosen zu entwickeln.
Die Transformer-Architektur hat die Bioinformatik revolutioniert und den Fortschritt im Verständnis und der Vorhersage der Eigenschaften von Biomolekülen vorangetrieben. Fast alle Forschung zu groß angelegten Biosequenz-Transformern hat sich bisher auf jeweils einen Bereich (einzel-omisch) konzentriert, in der Regel Nukleotide oder Peptide. Diese Modelle haben in jedem Bereich erstaunlichen Erfolg bei nachgelagerten Aufgaben erzielt und insbesondere bemerkenswerte Durchbrüche bei Peptidsequenzen und struktureller Modellierung erzielt. Diese einzel-omischen Modelle sind jedoch naturgemäß nicht in der Lage, multi-omische Aufgaben zu modellieren, wobei eine der biologisch kritischsten die Nukleotid-Peptid-Interaktionen sind. Wir präsentieren unsere Arbeit zur Schulung der ersten multi-omischen Nukleotid-Peptid-Grundlagenmodelle. Wir zeigen, dass diese multi-omischen Modelle (MOMs) gemeinsame Darstellungen zwischen verschiedenen einzel-omischen Verteilungen lernen können, die aufkommend im Einklang mit dem Zentralen Dogma der Molekularbiologie stehen, obwohl sie nur auf unbeschrifteten Biosequenzen trainiert wurden. Darüber hinaus zeigen wir, dass MOMs feinabgestimmt werden können, um Spitzenleistung bei Peptid-Nukleotid-Interaktionsaufgaben zu erzielen, nämlich die Vorhersage der Änderung der Gibbs'schen freien Energie ({\Delta}G) der Bindungsinteraktion zwischen einem gegebenen Oligonukleotid und Peptid sowie die Auswirkung auf diese Bindungsinteraktion aufgrund von Mutationen in der Oligonukleotidsequenz ({\Delta}{\Delta}G). Bemerkenswerterweise zeigen wir, dass multi-omische Biosequenz-Transformer aufkommend nützliche strukturelle Informationen lernen, ohne vorheriges strukturelles Training, was es uns ermöglicht vorherzusagen, welche Peptidreste am stärksten an der Peptid-Nukleotid-Bindungsinteraktion beteiligt sind. Schließlich liefern wir Belege dafür, dass multi-omische Biosequenzmodelle nicht unterlegen sind gegenüber Grundlagenmodellen, die auf einzel-omischen Verteilungen trainiert sind, was auf einen allgemeineren oder grundlegenderen Ansatz für den Aufbau dieser Modelle hindeutet.
Parameter Efficient Fine-Tuning (PEFT)-Methoden haben an Popularität gewonnen und die Nutzung von Large Language Models (LLMs) demokratisiert. Aktuelle Studien haben gezeigt, dass eine kleine Untermenge von Gewichten die Leistung signifikant beeinflusst. Basierend auf dieser Beobachtung stellen wir eine neuartige PEFT-Methode vor, die als "Gaussian noise Injected Fine Tuning of Salient Weights" (GIFT-SW) bezeichnet wird. Unsere Methode aktualisiert nur herausragende Spalten, während sie Gaußsches Rauschen in nicht herausragende einfügt. Um diese Spalten zu identifizieren, haben wir eine verallgemeinerte Sensitivitätsmetrik entwickelt, die Metriken aus früheren Studien erweitert und vereinheitlicht. Experimente mit LLaMA-Modellen zeigen, dass GIFT-SW eine bessere Leistung erbringt als vollständiges Feintuning und moderne PEFT-Methoden bei gleichem Rechenaufwand. Darüber hinaus bietet GIFT-SW praktische Vorteile, um die Leistung von Modellen, die einer Quantisierung mit gemischter Präzision unterzogen wurden, wiederherzustellen, indem herausragende Gewichte in voller Präzision beibehalten werden.
Durch die Verdichtung verschiedener Erzählungen gehen LLMs über reine Memorierung hinaus und erlangen Intelligenz, indem sie verallgemeinerbare kausale Beziehungen erfassen. Allerdings leiden sie unter lokalen 'Repräsentationslücken' aufgrund unzureichender Vielfalt an Trainingsdaten, was ihre Nützlichkeit im realen Leben einschränkt, insbesondere bei Aufgaben, die eine strikte Ausrichtung an Regeln erfordern. Traditionelle Ausrichtungsmethoden, die auf umfangreichen menschlichen Annotationen beruhen, sind ineffizient und nicht skalierbar. Auch aktuelle Selbstausrichtungstechniken haben ihre Grenzen, da sie oft auf selbstselektierenden Anreizen und auf memoriengestütztem Lernen basieren. Um diese Probleme anzugehen, stellen wir Iterative Graphenausrichtung (IGA) vor, einen annotationsfreien regelbasierten Ausrichtungsalgorithmus. Ein Lehrermodell (VLM) nutzt die Iterative Graphenanregung (IGP), um logische Graphen und Referenzantworten zu erstellen. Das Schülermodell (LLM) identifiziert lokale Wissenslücken, indem es versucht, seine Antworten mit diesen Referenzen in Einklang zu bringen, und arbeitet mit Hilfsmodellen zusammen, um vielfältige Antworten zu generieren. Diese ausgerichteten Antworten werden dann für das iterative überwachte Feintuning (SFT) verwendet. Unsere Evaluationen über fünf regelbasierte Szenarien zeigen die Wirksamkeit von IGP auf, mit einer Verbesserung der Ausrichtung um 73,12\% in Claude Sonnet 3.5 und Llama3-8B-Instruct, das eine Verbesserung um 86,20\% erzielt und Claude Sonnet 3.5 in der regelbasierten Ausrichtung übertrifft.