Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Tabellenkalkulationen mit ihren umfangreichen zweidimensionalen Rastern, verschiedenen Layouts und vielfältigen Formatierungsoptionen stellen bedeutende Herausforderungen für große Sprachmodelle (LLMs) dar. Als Antwort führen wir SpreadsheetLLM ein, das eine effiziente Codierungsmethode entwickelt, um das leistungsstarke Verständnis- und Schlussfolgerungsvermögen von LLMs auf Tabellenkalkulationen zu entfesseln und zu optimieren. Zunächst schlagen wir einen einfachen Serialisierungsansatz vor, der Zelladressen, Werte und Formate integriert. Allerdings war dieser Ansatz aufgrund der Tokenbeschränkungen von LLMs begrenzt und daher für die meisten Anwendungen unpraktisch. Um diese Herausforderung anzugehen, entwickeln wir SheetCompressor, ein innovatives Codierungsframework, das Tabellenkalkulationen effektiv für LLMs komprimiert. Es besteht aus drei Modulen: strukturankerbasierte Kompression, inverse Indexübersetzung und datenformatbewusste Aggregation. Dies verbessert die Leistung signifikant in der Aufgabe der Tabellenerkennung in Tabellenkalkulationen und übertrifft den einfachen Ansatz um 25,6% im Kontextlernen von GPT4. Darüber hinaus hat ein feinabgestimmtes LLM mit SheetCompressor ein durchschnittliches Kompressionsverhältnis von 25, erreicht jedoch einen state-of-the-art F1-Score von 78,9%, womit die besten bestehenden Modelle um 12,3% übertroffen werden. Abschließend schlagen wir eine Kette von Tabellenkalkulationen für nachgelagerte Aufgaben der Tabellenkalkulationsverarbeitung vor und validieren sie in einer neuen und anspruchsvollen Tabellenkalkulations-F&A-Aufgabe. Wir nutzen systematisch das inhärente Layout und die Struktur von Tabellenkalkulationen und zeigen, dass SpreadsheetLLM bei einer Vielzahl von Tabellenkalkulationsaufgaben äußerst effektiv ist.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten gezeigt, kämpfen jedoch immer noch mit der Verarbeitung umfangreicher Kontexte, was ihre Fähigkeit zur Aufrechterhaltung von Kohärenz und Genauigkeit über lange Sequenzen hinweg einschränkt. Im Gegensatz dazu zeichnet sich das menschliche Gehirn durch die Organisation und den Abruf episodischer Erfahrungen über enorme zeitliche Skalen aus, die ein ganzes Leben umspannen. In dieser Arbeit stellen wir EM-LLM vor, einen neuartigen Ansatz, der wesentliche Aspekte des menschlichen episodischen Gedächtnisses und der Ereigniskognition in LLMs integriert und ihnen ermöglicht, praktisch unendliche Kontextlängen effektiv zu verarbeiten, während die Rechenleistung erhalten bleibt. EM-LLM organisiert Tokensequenzen in kohärente episodische Ereignisse mithilfe einer Kombination aus bayesianischer Überraschung und graphentheoretischer Grenzverfeinerung in Echtzeit. Bei Bedarf werden diese Ereignisse durch einen zweistufigen Speicherprozess abgerufen, der Ähnlichkeits- und zeitlich zusammenhängende Abrufmethoden kombiniert, um einen effizienten und menschenähnlichen Zugriff auf relevante Informationen zu ermöglichen. Experimente mit dem LongBench-Datensatz zeigen die überragende Leistung von EM-LLM, die das modernste InfLLM-Modell mit einer Gesamtverbesserung von 4,3% in verschiedenen Aufgaben übertrifft, einschließlich einer 33%igen Verbesserung bei der Passage-Retrieval-Aufgabe. Darüber hinaus zeigen unsere Analysen starke Korrelationen zwischen der Ereignissegmentierung von EM-LLM und von Menschen wahrgenommenen Ereignissen, was auf eine Verbindung zwischen diesem künstlichen System und seinem biologischen Gegenstück hinweist. Diese Arbeit verbessert nicht nur die Fähigkeiten von LLMs bei der Verarbeitung erweiterter Kontexte, sondern bietet auch einen Rechenrahmen zur Erforschung menschlicher Gedächtnismechanismen und eröffnet neue Möglichkeiten für interdisziplinäre Forschung in KI und Kognitionswissenschaft.
Dieser technische Bericht beschreibt den Time Series Optimized Transformer for Observability (Toto), ein neues Spitzenmodell für Zeitreihenprognosen, das von Datadog entwickelt wurde. Neben der Weiterentwicklung des aktuellen Standes der Technik bei allgemeinen Zeitreihen-Benchmarks in Bereichen wie Elektrizität und Wetter ist dieses Modell das erste allgemeine Zeitreihenprognose-Grundlagenmodell, das speziell auf Observabilitätsmetriken abgestimmt ist. Toto wurde auf einem Datensatz von einer Billion Zeitreihendatenpunkten trainiert, der größte unter allen derzeit veröffentlichten Zeitreihen-Grundlagenmodellen. Neben öffentlich verfügbaren Zeitreihendatensätzen besteht 75 % der für das Training von Toto verwendeten Daten aus vollständig anonymen numerischen Metrikdatenpunkten aus der Datadog-Plattform. In unseren Experimenten übertrifft Toto bestehende Zeitreihen-Grundlagenmodelle bei Observabilitätsdaten. Dies gelingt ihm, während er auch bei allgemeinen Prognoseaufgaben herausragt und Spitzenleistungen bei Null-Schuss-Performance auf mehreren offenen Benchmark-Datensätzen erzielt.
Große Sprachmodelle (LLMs) werden häufig aufgrund von Daten- oder Architekturänderungen aktualisiert, um ihre Leistung zu verbessern. Bei der Aktualisierung von Modellen konzentrieren sich Entwickler oft darauf, die Gesamtleistungsmetriken zu verbessern, wobei weniger Wert auf die Kompatibilität mit früheren Modellversionen gelegt wird. Benutzer bilden jedoch oft ein mentales Modell der Funktionalität und Fähigkeiten eines bestimmten maschinellen Lernmodells, mit dem sie interagieren. Sie müssen ihr mentales Modell bei jeder Aktualisierung anpassen - eine anstrengende Aufgabe, die zu Benutzerunzufriedenheit führen kann. In der Praxis verlassen sich feinabgestimmte Adapter für nachgelagerte Aufgaben auf vorab trainierte LLM-Basismodelle. Wenn diese Basismodelle aktualisiert werden, erfahren diese benutzerorientierten nachgelagerten Aufgabenmodelle Instanzregressionen oder negative Umkehrungen - zuvor korrekte Instanzen werden nun falsch vorhergesagt. Dies geschieht selbst dann, wenn die Trainingsverfahren für nachgelagerte Aufgaben identisch bleiben. Unsere Arbeit zielt darauf ab, einem Benutzer auf zwei Arten nahtlose Modellaktualisierungen bereitzustellen. Erstens bieten wir Bewertungsmetriken für ein Konzept der Kompatibilität mit früheren Modellversionen an, speziell für generative Aufgaben, aber auch für diskriminative Aufgaben anwendbar. Wir beobachten Regressionen und Inkonsistenzen zwischen verschiedenen Modellversionen bei einer vielfältigen Aufgabensammlung und Modellaktualisierungen. Zweitens schlagen wir eine Schulungsstrategie vor, um die Anzahl von Inkonsistenzen bei Modellaktualisierungen zu minimieren, indem ein Kompatibilitätsmodell trainiert wird, das die Feinabstimmung von Sprachmodellen für Aufgaben verbessern kann. Wir reduzieren negative Umkehrungen - Instanzen, bei denen eine frühere Modellversion korrekt war, aber ein neues Modell inkorrekt ist - um bis zu 40% von Llama 1 zu Llama 2.
Große Sprachmodelle (LLMs) haben ein großes Potenzial als Generalisten-Assistenten gezeigt, die leistungsstarke Aufgabenverständnis- und Problemlösungsfähigkeiten präsentieren. Um LLMs als KI-Assistenten einzusetzen, ist es entscheidend, dass diese Modelle wünschenswerte Verhaltensmerkmale aufweisen, wie Nicht-Toxizität und Widerstandsfähigkeit gegen Jailbreak-Versuche. Aktuelle Methoden zur Entgiftung oder Verhinderung von Jailbreaking beinhalten in der Regel Überwachtes Feintuning (SFT) oder Verstärkendes Lernen aus menschlichem Feedback (RLHF), was das Feintuning von Milliarden von Parametern durch Gradientenabstieg mit erheblichen Rechenkosten erfordert. Darüber hinaus können Modelle, die durch SFT und RLHF modifiziert wurden, von den vorab trainierten Modellen abweichen und möglicherweise zu einer Degradierung der grundlegenden LLM-Fähigkeiten führen. In diesem Papier stellen wir fest, dass es überraschenderweise möglich ist, durch direktes Bearbeiten einer kleinen Teilmenge von Parametern spezifische Verhaltensweisen von LLMs effektiv zu modulieren, wie Entgiftung und Widerstand gegen Jailbreaking. Konkret verwenden wir für ein zu vermeidendes Verhalten einen linearen Klassifizierer, den wir als Verhaltenssonde bezeichnen, um binäre Verhaltensetiketten im verborgenen Zustandsraum des LLM zu klassifizieren. Unter Verwendung dieser Sonde führen wir einen Algorithmus ein, um eine kritische Teilmenge von LLM-Parametern zu identifizieren, die dieses gezielte Verhalten signifikant beeinflussen. Anschließend bearbeiten wir diese ausgewählten Parameter direkt, indem wir sie in Richtung der Verhaltenssonde verschieben. Ein solcher direkter Parameterbearbeitungsansatz erfordert nur Inferenz-Ebene Rechenressourcen. Experimente zeigen, dass unser Ansatz bei der repräsentativen Entgiftungsaufgabe Reduzierungen von bis zu 90,0\% in der Toxizität im RealToxicityPrompts-Datensatz und 49,2\% in ToxiGen erreicht, während die allgemeinen Fähigkeiten des LLM in Bereichen wie gesunder Menschenverstand, Fragebeantwortung und Mathematik erhalten bleiben. Unser Code ist verfügbar unter https://github.com/lucywang720/model-surgery.
Wir präsentieren H2O-Danube3, eine Serie kleiner Sprachmodelle, bestehend aus H2O-Danube3-4B, trainiert auf 6T Tokens, und H2O-Danube3-500M, trainiert auf 4T Tokens. Unsere Modelle sind in drei Stufen mit unterschiedlichen Datensätzen vor dem abschließenden überwachten Feintuning für die Chat-Version auf hochwertigen Webdaten, hauptsächlich bestehend aus englischen Tokens, vorab trainiert. Die Modelle zeigen äußerst wettbewerbsfähige Metriken über eine Vielzahl von akademischen, Chat- und Feintuning-Benchmarks. Dank seiner kompakten Architektur kann H2O-Danube3 effizient auf einem modernen Smartphone ausgeführt werden, was lokale Inferenz und schnelle Verarbeitungsfähigkeiten auch auf mobilen Geräten ermöglicht. Wir stellen alle Modelle unter der Apache 2.0 Lizenz offen zur Verfügung, um LLMs weiter zu demokratisieren und einem breiteren Publikum wirtschaftlich zugänglich zu machen.
Die automatische Generierung von neuen und interessanten Spielen ist eine komplexe Aufgabe. Herausforderungen umfassen die Darstellung von Spielregeln in einer rechnerisch umsetzbaren Form, die Suche durch den großen Raum potenzieller Spiele unter den meisten dieser Darstellungen und die genaue Bewertung der Originalität und Qualität zuvor ungesehener Spiele. Frühere Arbeiten zur automatisierten Spielgenerierung konzentrierten sich weitgehend auf relativ eingeschränkte Regelrepräsentationen und verließen sich auf domänenspezifische Heuristiken. In dieser Arbeit untersuchen wir die Generierung neuer Spiele in der vergleichsweise umfangreichen Ludii-Spielbeschreibungssprache, die die Regeln von über 1000 Brettspielen in verschiedenen Stilen und Spielmodi codiert. Wir lassen uns von den jüngsten Fortschritten in großen Sprachmodellen und evolutionärer Berechnung inspirieren, um ein Modell zu trainieren, das Spiele und Mechaniken intelligent mutiert und rekombiniert, die als Code ausgedrückt sind. Wir zeigen sowohl quantitativ als auch qualitativ, dass unser Ansatz in der Lage ist, neue und interessante Spiele zu generieren, auch in Bereichen des potenziellen Regelraums, die von bestehenden Spielen im Ludii-Datensatz nicht abgedeckt werden. Eine Auswahl der generierten Spiele ist über das Ludii-Portal online spielbar.
Trotz ihrer nahezu universellen Verwendung für große Sprachmodelle sind die internen Funktionsweisen von Transformatoren nicht gut verstanden. Unser Ziel ist es, die Auswirkungen des Entfernens oder Neuorganisierens von Informationen in den Schichten eines vorab trainierten Transformers besser zu verstehen. Ein solches Verständnis könnte sowohl zu einer besseren Nutzung bestehender Modelle führen als auch architektonische Verbesserungen ermöglichen, um neue Varianten zu entwickeln. Wir präsentieren eine Reihe empirischer Studien an eingefrorenen Modellen, die zeigen, dass sich die unteren und finalen Schichten vorab trainierter Transformer von den mittleren Schichten unterscheiden, aber dass die mittleren Schichten überraschend einheitlich sind. Darüber hinaus zeigen wir, dass einige Problemklassen eine Robustheit gegenüber dem Überspringen von Schichten aufweisen, indem die Schichten in einer anderen Reihenfolge als beim Training ausgeführt werden oder parallel laufen. Unsere Beobachtungen legen nahe, dass selbst eingefrorene vorab trainierte Modelle möglicherweise geschickt Genauigkeit gegen Latenz eintauschen können, indem Schichten übersprungen oder Schichten parallel ausgeführt werden.
Neueste Fortschritte bei Strahlungsfeldern haben neue Möglichkeiten zur Erstellung hochwertiger 3D-Assets und Szenen eröffnet. Stiltransfer kann diese 3D-Assets mit vielfältigen künstlerischen Stilen verbessern und so den kreativen Ausdruck transformieren. Allerdings sind bestehende Techniken oft langsam oder können den Stiltransfer nicht auf bestimmte Objekte lokal begrenzen. Wir stellen StyleSplat vor, eine leichte Methode zur Stilisierung von 3D-Objekten in Szenen, die durch 3D-Gaußsche Funktionen aus Referenzstilbildern dargestellt werden. Unser Ansatz lernt zunächst eine fotorealistische Darstellung der Szene unter Verwendung von 3D-Gaußschem Splatting und segmentiert gleichzeitig einzelne 3D-Objekte. Anschließend verwenden wir einen Verlust durch Feature-Matching mit dem nächstgelegenen Nachbarn, um die Gaußschen Funktionen der ausgewählten Objekte feinzustimmen, indem ihre sphärischen harmonischen Koeffizienten mit dem Stilbild abgeglichen werden, um Konsistenz und visuellen Reiz sicherzustellen. StyleSplat ermöglicht schnellen, anpassbaren Stiltransfer und lokalisierte Stilisierung mehrerer Objekte innerhalb einer Szene, jeweils mit einem anderen Stil. Wir zeigen seine Wirksamkeit in verschiedenen 3D-Szenen und Stilen und präsentieren eine verbesserte Steuerung und Anpassung bei der 3D-Erstellung.
Die Suche nach Antworten auf Fragen innerhalb langer wissenschaftlicher Forschungsartikel ist ein entscheidender Bereich der Studie, der Lesern dabei hilft, ihre Anfragen schnell zu beantworten. Allerdings sind bestehende Frage-Antwort (QA) Datensätze, die auf wissenschaftlichen Artikeln basieren, in ihrem Umfang begrenzt und konzentrieren sich ausschließlich auf den Textinhalt. Um diese Einschränkung zu überwinden, stellen wir SPIQA (Scientific Paper Image Question Answering) vor, den ersten umfangreichen QA Datensatz, der speziell darauf ausgelegt ist, komplexe Abbildungen und Tabellen im Kontext wissenschaftlicher Forschungsartikel in verschiedenen Bereichen der Informatik zu interpretieren. Unter Nutzung der Expertise und Fähigkeiten multimodaler großer Sprachmodelle (MLLMs) zur Interpretation von Abbildungen setzen wir automatische und manuelle Kuratierung ein, um den Datensatz zu erstellen. Wir entwerfen eine informationsuchende Aufgabe, die mehrere Bilder umfasst, die eine Vielzahl von Diagrammen, Tabellen, schematischen Darstellungen und Ergebnisvisualisierungen abdecken. SPIQA besteht aus 270.000 Fragen, aufgeteilt in Trainings-, Validierungs- und drei verschiedene Auswertungsteile. Durch umfangreiche Experimente mit 12 prominenten Grundlagenmodellen bewerten wir die Fähigkeit aktueller multimodaler Systeme, die nuancierten Aspekte von Forschungsartikeln zu verstehen. Zusätzlich schlagen wir eine Chain-of-Thought (CoT) Evaluationsstrategie mit kontextbezogener Suche vor, die eine feingranulare, schrittweise Bewertung ermöglicht und die Leistung des Modells verbessert. Wir erforschen weiterhin die Grenzen der Leistungssteigerung durch zusätzliche textuelle Informationen und heben ihr vielversprechendes Potenzial für zukünftige Forschung sowie den Einfluss des Datensatzes auf die Revolutionierung unserer Interaktion mit wissenschaftlicher Literatur hervor.
Große Sprachmodelle haben in der Vergangenheit in der Regel auf irgendeine Form von Verstärkungslernen mit menschlichem Feedback (RLHF) gesetzt, um die Modellantworten besser an menschliche Präferenzen anzupassen. Aufgrund häufig beobachteter Instabilitäten bei der Implementierung dieser RLHF-Pipelines wurden kürzlich verschiedene Reparametrisierungstechniken eingeführt, um die Notwendigkeit des separaten Lernens eines RL-Belohnungsmodells zu umgehen. Stattdessen wird die direkte Feinabstimmung auf menschliche Präferenzen durch die Minimierung eines einzigen geschlossenen Trainingsziels erreicht, ein Prozess, der ursprünglich als direkte Präferenzoptimierung (DPO) bezeichnet wurde und von mehreren bemerkenswerten Nachkommen verfolgt wird. Obwohl in bestimmten realen Umgebungen wirksam, stellen wir neue Bewertungskriterien vor, die ungelöste Mängel in der Fähigkeit der bestehenden DPO-Methoden aufzeigen, zwischen einem vorab trainierten Referenzmodell und empirischen Maßnahmen menschlicher Präferenzen zu interpolieren, sowie unvermeidliche Kompromisse bei der Regulierung von Antworten niedriger und hoher Qualität und der Behandlung von Einschränkungen. Unsere Erkenntnisse motivieren dann einen alternativen DPO-ähnlichen Verlust, der diese Einschränkungen nachweislich mildert. Empirische Ergebnisse dienen dazu, bemerkenswerte Aspekte unserer Analysen zu bestätigen.
Die Inferenz über lange Kontexte stellt auf Systemebene Herausforderungen dar, die mit erhöhten Rechen- und Speicheranforderungen einhergehen, sowie aus einer Genauigkeitsperspektive in der Lage zu sein, über lange Kontexte zu argumentieren. In letzter Zeit wurden mehrere Methoden vorgeschlagen, um den Prompt zu komprimieren und die Kontextlänge zu reduzieren. Es wurde jedoch wenig Forschung betrieben, um die verschiedenen vorgeschlagenen Methoden über verschiedene Aufgaben hinweg durch eine standardisierte Analyse zu vergleichen. Dies hat zu widersprüchlichen Ergebnissen geführt. Um dies zu lösen, führen wir hier eine umfassende Charakterisierung und Bewertung verschiedener Methoden zur Prompt-Kompression durch. Insbesondere analysieren wir extraktive Kompression, auf Zusammenfassung basierende abstraktive Kompression und Token-Pruning-Methoden. Überraschenderweise stellen wir fest, dass extraktive Kompression oft alle anderen Ansätze übertrifft und eine Kompression um das bis zu 10-fache bei minimaler Genauigkeitsverschlechterung ermöglicht. Interessanterweise stellen wir auch fest, dass trotz mehrerer jüngster Behauptungen Token-Pruning-Methoden oft hinter extraktiver Kompression zurückbleiben. Wir fanden nur marginale Verbesserungen bei Zusammenfassungsaufgaben.
Es ist noch zu früh, um zu schlussfolgern, dass Mamba eine bessere Alternative zu Transformatoren für Sprache darstellt, bevor Mamba nicht sowohl in Bezug auf Leistung als auch Effizienz in mehreren sprachbezogenen Aufgaben mit Transformatoren verglichen wird. Um zu diesem Schluss zu gelangen, schlagen wir drei Modelle für drei Aufgaben vor und evaluieren sie: Mamba-TasNet für die Sprachtrennung, ConMamba für die Spracherkennung und VALL-M für die Sprachsynthese. Wir vergleichen sie in Bezug auf Leistung, Speichernutzung und Geschwindigkeit mit Transformatoren ähnlicher Größe. Unsere Mamba- oder Mamba-Transformer-Hybridmodelle zeigen vergleichbare oder höhere Leistung als ihre Transformer-Gegenstücke: Sepformer, Conformer und VALL-E. Sie sind effizienter als Transformatoren in Speichernutzung und Geschwindigkeit für Sprache, die länger als eine bestimmte Dauer ist, die umgekehrt mit der Auflösung eines Sprachtokens zusammenhängt. Mamba für die Trennung ist am effizientesten, und Mamba für die Erkennung am wenigsten. Darüber hinaus zeigen wir, dass Mamba für Sprache, die kürzer als die Schwellendauer ist, nicht effizienter ist als Transformatoren und in Modellen, die eine gemeinsame Modellierung von Text und Sprache erfordern, wie z.B. Kreuz- oder maskierte Aufmerksamkeit von zwei Eingaben, schlechter abschneidet. Daher argumentieren wir, dass die Überlegenheit von Mamba oder Transformer von bestimmten Problemen und Modellen abhängt. Der Code ist verfügbar unter https://github.com/xi-j/Mamba-TasNet und https://github.com/xi-j/Mamba-ASR.
Pose-getriebene Modelle zur Diffusion der Animation von menschlichen Bildern haben bemerkenswerte Fähigkeiten bei der realistischen Synthese von menschlichen Videos gezeigt. Trotz der vielversprechenden Ergebnisse früherer Ansätze bestehen weiterhin Herausforderungen darin, eine zeitlich konsistente Animation zu erreichen und die Robustheit mit handelsüblichen Pose-Detektoren sicherzustellen. In diesem Artikel präsentieren wir TCAN, eine pose-getriebene Methode zur Animation von menschlichen Bildern, die robust gegen fehlerhafte Posen ist und über die Zeit konsistent bleibt. Im Gegensatz zu früheren Methoden nutzen wir das vortrainierte ControlNet ohne Feinabstimmung, um von seinem umfangreichen vorausgesetzten Wissen aus zahlreichen Pose-Bild-Beschreibungs-Paaren zu profitieren. Um das ControlNet einzufrieren, passen wir LoRA an die UNet-Schichten an, was dem Netzwerk ermöglicht, den latenten Raum zwischen den Pose- und Erscheinungsmerkmalen auszurichten. Darüber hinaus verbessern wir durch die Einführung einer zusätzlichen zeitlichen Schicht in das ControlNet die Robustheit gegen Ausreißer des Pose-Detektors. Durch die Analyse von Aufmerksamkeitskarten über die zeitliche Achse hinweg haben wir auch eine neuartige Temperaturkarte entworfen, die auf Pose-Informationen basiert und einen statischeren Hintergrund ermöglicht. Umfangreiche Experimente zeigen, dass die vorgeschlagene Methode vielversprechende Ergebnisse bei der Videosynthese erzielen kann, die verschiedene Posen umfassen, wie z.B. Chibi. Projektseite: https://eccv2024tcan.github.io/
Neueste Fortschritte bei Abruf-erweiterten Modellen für die Bildunterschriftung heben den Nutzen hervor, verwandte Untertitel abzurufen, um effiziente, leichtgewichtige Modelle mit starken Domänen-Transferfähigkeiten zu erhalten. Obwohl diese Modelle den Erfolg der Abruf-Erweiterung zeigen, sind Abrufmodelle in der Praxis noch weit von der Perfektion entfernt: Die abgerufenen Informationen können manchmal das Modell in die Irre führen, was zu inkorrekter Generierung und schlechterer Leistung führt. In diesem Papier analysieren wir die Robustheit eines Abruf-erweiterten Bildunterschriftungsmodells namens SmallCap. Unsere Analyse zeigt, dass das Modell empfindlich auf Tokens reagiert, die in der Mehrheit der abgerufenen Untertitel erscheinen, und die Eingabeattribuierung zeigt, dass diese Tokens wahrscheinlich in die generierte Ausgabe kopiert werden. Aufgrund dieser Erkenntnisse schlagen wir vor, das Modell zu trainieren, indem wir abgerufene Untertitel aus vielfältigeren Sets auswählen. Dies verringert die Wahrscheinlichkeit, dass das Modell lernt, Mehrheitstokens zu kopieren, und verbessert sowohl die Leistung in der Domäne als auch den Domänenübergang.
Diese Studie befasst sich mit einer kritischen Lücke in den Sicherheitseinstellungspraktiken für große Sprachmodelle (LLMs), indem sie eine Verweigerungspositionsvoreingenommenheit innerhalb der Sicherheitseinstellungsdaten identifiziert und angeht, die die Fähigkeit der Modelle beeinträchtigt, unsichere Inhalte angemessen abzulehnen zu generieren. Wir stellen einen neuartigen Ansatz vor, das Decoupled Refusal Training (DeRTa), das darauf abzielt, LLMs zu ermächtigen, die Einhaltung schädlicher Aufforderungen an jeder Antwortposition zu verweigern und damit ihre Sicherheitsfähigkeiten signifikant zu verbessern. DeRTa integriert zwei neuartige Komponenten: (1) Maximum-Likelihood-Schätzung (MLE) mit schädlichem Antwortpräfix, das Modelle darauf trainiert, unsichere Inhalte zu erkennen und zu vermeiden, indem ein Segment schädlicher Antwort am Anfang einer sicheren Antwort angehängt wird, und (2) Reinforced Transition Optimization (RTO), das Modelle mit der Fähigkeit ausstattet, konsistent von potenzieller Schädlichkeit zu Sicherheitsverweigerung über die gesamte schädliche Antwortsequenz zu wechseln. Unsere empirische Bewertung, durchgeführt mit den Modellfamilien LLaMA3 und Mistral über sechs Angriffsszenarien, zeigt, dass unsere Methode nicht nur die Modellsicherheit verbessert, ohne die Leistung zu beeinträchtigen, sondern auch bekannte Modelle wie GPT-4 in der Abwehr von Angriffen übertrifft. Wichtig ist, dass unser Ansatz erfolgreich vor kürzlich entwickelten fortgeschrittenen Angriffsmethoden (z. B. CodeAttack) verteidigt, die GPT-4 und LLaMA3-70B-Instruct geknackt haben. Unser Code und unsere Daten finden Sie unter https://github.com/RobustNLP/DeRTa.
Die Synthese von NeRFs unter beliebiger Beleuchtung ist in den letzten Jahren zu einem wegweisenden Problem geworden. Aktuelle Bemühungen zur Bewältigung des Problems erfolgen durch die Extraktion physikalisch basierter Parameter, die dann unter beliebiger Beleuchtung gerendert werden können, sind jedoch in Bezug auf die Bandbreite der Szenen, die sie verarbeiten können, begrenzt und behandeln in der Regel glänzende Szenen falsch. Wir schlagen RRM vor, eine Methode, die die Materialien, Geometrie und Umgebungsbeleuchtung einer Szene auch in Gegenwart stark reflektierender Objekte extrahieren kann. Unsere Methode besteht aus einer physikalisch bewussten Strahlungsfeld-Darstellung, die physikalisch basierte Parameter informiert, und einer ausdrucksstarken Umgebungslichtstruktur, die auf einer Laplace-Pyramide basiert. Wir zeigen, dass unsere Beiträge die aktuellsten auf Parameterabrufaufgaben übertreffen und zu hochwertiger Neubeleuchtung und neuartiger Ansichtssynthese auf oberflächlichen Szenen führen.