papers.description
LLMs haben durch den Einsatz von Reinforcement Learning mit langen Gedankenketten starke mathematische Fähigkeiten bewiesen, kämpfen jedoch weiterhin mit dem Beweisen von Theoremen, da bei der alleinigen Verwendung natürlicher Sprache klare Überwachungssignale fehlen. Spezielle domänenspezifische Sprachen wie Lean bieten klare Überwachung durch formale Verifizierung von Beweisen, was ein effektives Training durch Reinforcement Learning ermöglicht. In dieser Arbeit schlagen wir Seed-Prover vor, ein Lemma-basiertes Ganzbeweis-Modell. Seed-Prover kann seinen Beweis iterativ auf der Grundlage von Lean-Feedback, bewiesenen Lemmata und Selbstzusammenfassung verfeinern. Um IMO-Level-Wettbewerbsprobleme zu lösen, entwerfen wir drei Testzeit-Inferenzstrategien, die sowohl tiefes als auch breites Denken ermöglichen. Seed-Prover beweist 78,1 % der formalisierten vergangenen IMO-Probleme, sättigt MiniF2F und erreicht über 50 % auf PutnamBench, womit es den bisherigen Stand der Technik deutlich übertrifft. Um den Mangel an Geometrieunterstützung in Lean zu beheben, führen wir eine Geometrie-Engine namens Seed-Geometry ein, die bisherige formale Geometrie-Engines übertrifft. Wir verwenden diese beiden Systeme, um an der IMO 2025 teilzunehmen und 5 von 6 Problemen vollständig zu beweisen. Diese Arbeit stellt einen bedeutenden Fortschritt im automatisierten mathematischen Denken dar und demonstriert die Wirksamkeit der formalen Verifizierung mit langen Gedankenketten.
Mit der Entwicklung multimodaler Reasoning-Modelle werden Computer Use Agents (CUAs), ähnlich wie Jarvis aus „Iron Man“, zunehmend Realität. Die GUI-Grounding ist eine Kernkomponente für CUAs, um tatsächliche Aktionen auszuführen, vergleichbar mit der mechanischen Steuerung in der Robotik, und sie entscheidet direkt über den Erfolg oder Misserfolg des Systems. Sie bestimmt Aktionen wie Klicken und Tippen sowie zugehörige Parameter wie die Koordinaten für Klicks. Aktuelle end-to-end Grounding-Modelle erreichen auf anspruchsvollen Benchmarks wie ScreenSpot-pro und UI-Vision immer noch weniger als 65\% Genauigkeit, was zeigt, dass sie weit davon entfernt sind, einsatzbereit zu sein. In dieser Arbeit führen wir eine empirische Studie zum Training von Grounding-Modellen durch und untersuchen Details von der Datenerfassung bis zum Modelltraining. Letztendlich entwickelten wir die Phi-Ground-Modellfamilie, die in Agenten-Settings state-of-the-art Leistungen über alle fünf Grounding-Benchmarks für Modelle mit weniger als 10B Parametern erzielt. Im end-to-end Modell-Setting erreicht unser Modell weiterhin SOTA-Ergebnisse mit Werten von \textbf{43,2} auf ScreenSpot-pro und \textbf{27,2} auf UI-Vision. Wir glauben, dass die verschiedenen in dieser Arbeit diskutierten Details sowie unsere Erfolge und Misserfolge nicht nur den Aufbau von Grounding-Modellen klären, sondern auch anderen Wahrnehmungsaufgaben zugutekommen. Projekt-Homepage: https://zhangmiaosen2000.github.io/Phi-Ground/{https://zhangmiaosen2000.github.io/Phi-Ground/}
Gesprochene Dialogmodelle (SDMs) haben in letzter Zeit erhebliche Aufmerksamkeit erregt, da sie in der Lage sind, direkt auf gesprochene Anfragen von Nutzern mit Sprachantworten zu reagieren. Trotz ihrer zunehmenden Beliebtheit besteht eine Forschungslücke, die sich auf das umfassende Verständnis ihrer praktischen Effektivität beim Verstehen und Nachahmen menschlicher Gespräche konzentriert. Dies gilt insbesondere im Vergleich zu textbasierten Large Language Models (LLMs), die von umfangreichen Benchmarking-Studien profitieren. Menschliche Sprachinteraktionen sind aufgrund von Merkmalen, die für gesprochene Dialoge einzigartig sind, von Natur aus komplexer als Text. Mehrdeutigkeit stellt eine Herausforderung dar, die sich aus semantischen Faktoren wie Polysemie sowie phonologischen Aspekten wie Heterographie, Heteronymen und Betonungsmustern ergibt. Darüber hinaus erhöhen kontextabhängige Faktoren wie Auslassungen, Koreferenzen und mehrschrittige Interaktionen die Komplexität menschlicher Gesprächsdynamiken. Um den aktuellen Stand der SDM-Entwicklung zu beleuchten und diese Herausforderungen zu bewältigen, stellen wir in diesem Artikel einen Benchmark-Datensatz vor, der 1.079 Instanzen in Englisch und Chinesisch umfasst. Begleitet von einer LLM-basierten Evaluationsmethode, die eng mit der menschlichen Beurteilung übereinstimmt, ermöglicht dieser Datensatz eine umfassende Untersuchung der Leistung von SDMs bei der Bewältigung dieser praktischen Herausforderungen.
Empfehlungssysteme gehören zu den einflussreichsten Anwendungen der künstlichen Intelligenz und fungieren als kritische Infrastruktur, die Nutzer, Händler und Plattformen verbindet. Die meisten derzeitigen industriellen Systeme sind jedoch stark auf historische Kookkurrenzmuster und Log-Fitting-Ziele angewiesen, d. h. sie optimieren vergangene Nutzerinteraktionen, ohne die Nutzerabsicht explizit zu modellieren. Dieser Log-Fitting-Ansatz führt häufig zu einer Überanpassung an enge historische Präferenzen, wodurch sich entwickelnde und latente Interessen der Nutzer nicht erfasst werden. Infolgedessen verstärkt er Filterblasen und Long-Tail-Phänomene, was letztlich die Nutzererfahrung beeinträchtigt und die Nachhaltigkeit des gesamten Empfehlungsökosystems gefährdet. Um diese Herausforderungen zu bewältigen, überdenken wir das gesamte Designparadigma von Empfehlungssystemen und schlagen RecGPT vor, ein Framework der nächsten Generation, das die Nutzerabsicht in den Mittelpunkt des Empfehlungsprozesses stellt. Durch die Integration von großen Sprachmodellen (LLMs) in Schlüsselphasen wie der Nutzerinteressenanalyse, der Artikelrecherche und der Erklärungsgenerierung verwandelt RecGPT die Log-Fitting-Empfehlung in einen absichtszentrierten Prozess. Um allgemeine LLMs effektiv auf die oben genannten domänenspezifischen Empfehlungsaufgaben in großem Maßstab abzustimmen, integriert RecGPT ein mehrstufiges Trainingsparadigma, das eine vernunftgesteuerte Vorabstimmung und eine selbsttrainierende Evolution umfasst, geleitet durch ein kooperatives Human-LLM-Bewertungssystem. Derzeit ist RecGPT vollständig in der Taobao-App implementiert. Online-Experimente zeigen, dass RecGPT konsistente Leistungssteigerungen für alle Beteiligten erzielt: Nutzer profitieren von einer erhöhten Inhaltsvielfalt und Zufriedenheit, während Händler und die Plattform eine größere Reichweite und Konversionen erzielen. Diese umfassenden Verbesserungsergebnisse für alle Stakeholder bestätigen, dass ein LLM-gestütztes, absichtszentriertes Design ein nachhaltigeres und gegenseitig vorteilhaftes Empfehlungsökosystem fördern kann.
Visual-Language-Action (VLA)-Modelle haben sich als ein populäres Paradigma für das Erlernen von Roboter-Manipulationsstrategien etabliert, die Sprachanweisungen befolgen und sich auf neue Szenarien verallgemeinern lassen. In jüngster Zeit wurde begonnen, die Einbindung latenter Aktionen, einer abstrakten Darstellung visueller Veränderungen zwischen zwei Bildern, in das VLA-Pre-Training zu erforschen. In diesem Artikel stellen wir villa-X vor, ein neuartiges Visual-Language-Latent-Action (ViLLA)-Framework, das die Modellierung latenter Aktionen für das Erlernen generalisierbarer Roboter-Manipulationsstrategien weiterentwickelt. Unser Ansatz verbessert sowohl die Art und Weise, wie latente Aktionen gelernt werden, als auch deren Integration in das VLA-Pre-Training. Diese Beiträge ermöglichen es villa-X, überlegene Leistungen in simulierten Umgebungen wie SIMPLER und LIBERO sowie in zwei realen Robotersetups, einschließlich Greifer- und geschickter Handmanipulation, zu erzielen. Wir glauben, dass das ViLLA-Paradigma großes Potenzial birgt und dass unser villa-X eine solide Grundlage für zukünftige Forschung bietet.
Feed-forward 3D-Modellierung hat sich als vielversprechender Ansatz für schnelle und hochwertige 3D-Rekonstruktion etabliert. Insbesondere die direkte Erzeugung expliziter 3D-Darstellungen, wie 3D-Gaussian-Splatting, hat aufgrund ihrer schnellen und qualitativ hochwertigen Darstellung sowie zahlreicher Anwendungen erhebliche Aufmerksamkeit erregt. Viele state-of-the-art-Methoden, die hauptsächlich auf Transformer-Architekturen basieren, leiden jedoch unter erheblichen Skalierbarkeitsproblemen, da sie auf vollständiger Aufmerksamkeit über Bild-Tokens aus mehreren Eingabeansichten beruhen, was zu prohibitiv hohen Rechenkosten führt, wenn die Anzahl der Ansichten oder die Bildauflösung steigt. Um eine skalierbare und effiziente Feed-forward-3D-Rekonstruktion zu erreichen, führen wir ein iteratives Large 3D Reconstruction Model (iLRM) ein, das 3D-Gaussian-Darstellungen durch einen iterativen Verfeinerungsmechanismus erzeugt, der von drei Kernprinzipien geleitet wird: (1) Entkopplung der Szenendarstellung von den Eingabeansichtsbildern, um kompakte 3D-Darstellungen zu ermöglichen; (2) Zerlegung vollständig aufmerksamer Multi-View-Interaktionen in ein zweistufiges Aufmerksamkeitsschema, um die Rechenkosten zu reduzieren; und (3) Einbringen hochauflösender Informationen in jeder Schicht, um eine hochauflösende Rekonstruktion zu erreichen. Experimentelle Ergebnisse auf weit verbreiteten Datensätzen wie RE10K und DL3DV zeigen, dass iLRM bestehende Methoden sowohl in der Rekonstruktionsqualität als auch in der Geschwindigkeit übertrifft. Insbesondere zeigt iLRM eine überlegene Skalierbarkeit und liefert bei vergleichbaren Rechenkosten eine signifikant höhere Rekonstruktionsqualität, indem es effizient eine größere Anzahl von Eingabeansichten nutzt.
Große Sprachmodelle interagieren mit Nutzern über eine simulierte „Assistenten“-Persona. Obwohl der Assistent typischerweise darauf trainiert ist, hilfreich, harmlos und ehrlich zu sein, weicht er manchmal von diesen Idealen ab. In diesem Artikel identifizieren wir Richtungen im Aktivierungsraum des Modells – sogenannte Persona-Vektoren –, die mehreren Eigenschaften zugrunde liegen, wie Boshaftigkeit, Speichelleckerei und die Neigung zu Halluzinationen. Wir bestätigen, dass diese Vektoren genutzt werden können, um Schwankungen in der Persönlichkeit des Assistenten während des Einsatzes zu überwachen. Anschließend wenden wir Persona-Vektoren an, um Persönlichkeitsverschiebungen vorherzusagen und zu steuern, die während des Trainings auftreten. Wir stellen fest, dass sowohl beabsichtigte als auch unbeabsichtigte Persönlichkeitsveränderungen nach dem Feinabstimmen stark mit Verschiebungen entlang der relevanten Persona-Vektoren korrelieren. Diese Verschiebungen können durch nachträgliche Eingriffe gemildert oder von vornherein durch eine neue präventive Steuerungsmethode vermieden werden. Darüber hinaus können Persona-Vektoren genutzt werden, um Trainingsdaten zu kennzeichnen, die unerwünschte Persönlichkeitsveränderungen hervorrufen, sowohl auf der Ebene des gesamten Datensatzes als auch auf der Ebene einzelner Beispiele. Unsere Methode zur Extraktion von Persona-Vektoren ist automatisiert und kann auf jede gewünschte Persönlichkeitseigenschaft angewendet werden, wobei lediglich eine Beschreibung in natürlicher Sprache erforderlich ist.
Während Reinforcement Learning (RL) bemerkenswerte Erfolge in der Sprachmodellierung erzielt hat, hat sich dieser Triumph noch nicht vollständig auf visuomotorische Agenten übertragen. Eine zentrale Herausforderung bei RL-Modellen ist ihre Tendenz, sich auf spezifische Aufgaben oder Umgebungen zu spezialisieren, was den Erwerb generalisierbarer Verhaltensweisen über verschiedene Settings hinweg behindert. Diese Arbeit liefert eine vorläufige Antwort auf diese Herausforderung, indem sie zeigt, dass RL-feingetunte visuomotorische Agenten in Minecraft eine Zero-Shot-Generalisierung auf unbekannte Welten erreichen können. Insbesondere untersuchen wir das Potenzial von RL, generalisierbare räumliche Denk- und Interaktionsfähigkeiten in 3D-Welten zu verbessern. Um die Herausforderungen bei der Multi-Task-RL-Repräsentation zu bewältigen, analysieren und etablieren wir die spezifikationsübergreifende Zielangabe als einen einheitlichen Multi-Task-Zielraum für visuomotorische Policies. Darüber hinaus schlagen wir, um den erheblichen Engpass der manuellen Aufgabenentwürfe zu überwinden, die automatisierte Aufgaben-Synthese innerhalb der hochgradig anpassbaren Minecraft-Umgebung für das groß angelegte Multi-Task-RL-Training vor und entwickeln ein effizientes verteiltes RL-Framework, um dies zu unterstützen. Experimentelle Ergebnisse zeigen, dass RL die Interaktionserfolgsraten um das Vierfache steigert und die Zero-Shot-Generalisierung des räumlichen Denkens über verschiedene Umgebungen hinweg, einschließlich realer Settings, ermöglicht. Unsere Erkenntnisse unterstreichen das immense Potenzial des RL-Trainings in simulierten 3D-Umgebungen, insbesondere solchen, die sich für die groß angelegte Aufgaben-Generierung eignen, um das räumliche Denken visuomotorischer Agenten erheblich voranzutreiben.
Wir stellen NeRF-GS vor, ein neuartiges Framework, das Neural Radiance Fields (NeRF) und 3D Gaussian Splatting (3DGS) gemeinsam optimiert. Dieses Framework nutzt die inhärente kontinuierliche räumliche Darstellung von NeRF, um mehrere Einschränkungen von 3DGS zu mildern, darunter die Empfindlichkeit gegenüber der Gaußschen Initialisierung, das begrenzte räumliche Bewusstsein und die schwachen Inter-Gaußschen Korrelationen, wodurch die Leistung verbessert wird. In NeRF-GS überdenken wir das Design von 3DGS und passen dessen räumliche Merkmale schrittweise an NeRF an, sodass beide Darstellungen durch gemeinsame 3D-Rauminformationen innerhalb derselben Szene optimiert werden können. Wir gehen weiterhin auf die formalen Unterschiede zwischen den beiden Ansätzen ein, indem wir Residuenvektoren sowohl für implizite Merkmale als auch für Gaußsche Positionen optimieren, um die personalisierten Fähigkeiten von 3DGS zu verbessern. Experimentelle Ergebnisse auf Benchmark-Datensätzen zeigen, dass NeRF-GS bestehende Methoden übertrifft und state-of-the-art Leistung erzielt. Dieses Ergebnis bestätigt, dass NeRF und 3DGS eher komplementär als konkurrierend sind, und bietet neue Einblicke in hybride Ansätze, die 3DGS und NeRF für eine effiziente 3D-Szenendarstellung kombinieren.
Multimodale große Sprachmodelle (MLLMs) ermöglichen visuell-sprachliches Schließen, erzeugen jedoch oft plausible Ausgaben, die faktisch falsch oder visuell unbegründet sind, was ihre Zuverlässigkeit beeinträchtigt. Die direkte Präferenzoptimierung (Direct Preference Optimization, DPO) ist eine gängige Strategie zur Korrektur von Halluzinationen, indem Modellausgaben an menschliche Präferenzen angepasst werden. Bestehende DPO-Strategien behandeln halluzinationsbezogene Präferenzen typischerweise als feste Ziele und verlassen sich während des Trainings auf statische Überwachungssignale. Dieser Ansatz neigt dazu, sich an oberflächliche linguistische Hinweise in den Präferenzdaten zu überanpassen, was zu distributioneller Starrheit und falschen Korrelationen führt, die die Verankerung in kausal relevanten visuellen Informationen beeinträchtigen. Um diese Einschränkung zu überwinden, schlagen wir TARS vor, eine token-adaptive Präferenzstrategie, die DPO als ein Min-Max-Optimierungsproblem neu formuliert. TARS maximiert token-spezifische Verteilungsverschiebungen unter semantischen Einschränkungen, um Unsicherheiten in der Ausrichtung zu simulieren, und minimiert gleichzeitig den erwarteten Präferenzverlust unter diesen kontrollierten Störungen. Dieses gemeinsame Ziel bewahrt die kausale Verankerung, während es die Überanpassung an Präferenzmuster reduziert und dadurch Halluzinationen im multimodalen Schließen verringert. Wir evaluieren TARS anhand mehrerer Halluzinations-Benchmarks und finden durchweg starke Leistungen. Mit nur 4,8k Präferenzproben und ohne Expertenfeedback reduziert TARS die Halluzinationsrate von 26,4 % auf 13,2 % und verringert den Kognitionswert von 2,5 auf 0,4. Es übertrifft Standard-DPO und erreicht GPT-4o in mehreren Schlüsselmetriken.
Die präzise automatisierte Erkennung landwirtschaftlicher Aufgaben wie der Identifizierung von Krankheiten ist entscheidend für eine nachhaltige Pflanzenproduktion. Jüngste Fortschritte in Vision-Language-Modellen (VLMs) werden voraussichtlich das Spektrum landwirtschaftlicher Aufgaben erweitern, indem sie die Mensch-Modell-Interaktion durch einfache, textbasierte Kommunikation erleichtern. Hier stellen wir AgroBench (Agronomist AI Benchmark) vor, einen Benchmark zur Bewertung von VLM-Modellen in sieben landwirtschaftlichen Themenbereichen, die Schlüsselbereiche der Agrartechnik abdecken und für die reale Landwirtschaft relevant sind. Im Gegensatz zu aktuellen landwirtschaftlichen VLM-Benchmarks wird AgroBench von erfahrenen Agronomen annotiert. Unser AgroBench umfasst einen state-of-the-art Katalog, einschließlich 203 Pflanzenkategorien und 682 Krankheitskategorien, um die Fähigkeiten von VLMs umfassend zu bewerten. In unserer Auswertung auf AgroBench zeigen wir, dass VLMs bei fein abgestimmten Identifikationsaufgaben noch Verbesserungspotenzial haben. Insbesondere bei der Unkrautidentifikation liegen die meisten Open-Source-VLMs nahezu auf Zufallsniveau. Mit unserer breiten Themenpalette und den von Experten annotierten Kategorien analysieren wir die Fehlertypen von VLMs und schlagen mögliche Wege für die zukünftige Entwicklung von VLMs vor. Unser Datensatz und Code sind verfügbar unter https://dahlian00.github.io/AgroBenchPage/.
Die Klassifizierung von Kunststilen bleibt eine herausfordernde Aufgabe in der computergestützten Ästhetik, bedingt durch die Knappheit an fachkundig annotierten Datensätzen und das komplexe, oft nichtlineare Zusammenspiel stilistischer Elemente. Obwohl neuere duale Lehrer-Selbstüberwachungs-Frameworks die Abhängigkeit von annotierten Daten verringern, haben ihre linearen Projektionsschichten und der lokalisierte Fokus Schwierigkeiten, globale kompositorische Zusammenhänge und komplexe Stil-Merkmal-Interaktionen zu modellieren. Wir verbessern das duale Lehrer-Wissensdistillations-Framework, um diese Einschränkungen zu überwinden, indem wir konventionelle MLP-Projektionen und Vorhersageköpfe durch Kolmogorov-Arnold-Netzwerke (KANs) ersetzen. Unser Ansatz behält die komplementäre Führung durch zwei Lehrernetzwerke bei, wobei eines lokalisierte Textur- und Pinselstrichmuster betont und das andere breitere stilistische Hierarchien erfasst, während die spline-basierten Aktivierungen der KANs genutzt werden, um nichtlineare Merkmalskorrelationen mit mathematischer Präzision zu modellieren. Experimente auf WikiArt und Pandora18k zeigen, dass unser Ansatz die Basisarchitektur des dualen Lehrers in der Top-1-Genauigkeit übertrifft. Unsere Ergebnisse unterstreichen die Bedeutung von KANs bei der Entflechtung komplexer Stilmannigfaltigkeiten, was zu einer besseren Genauigkeit linearer Sonden im Vergleich zu MLP-Projektionen führt.
Seit seiner Einführung hat die Softmax-Attention aufgrund ihrer Ausdrucksstärke und Skalierbarkeit über eine Vielzahl von Aufgaben hinweg das Rückgrat moderner Transformer-Architekturen gebildet. Der Hauptnachteil der Softmax-Attention besteht jedoch in dem quadratischen Speicherbedarf und der Rechenkomplexität in Bezug auf die Sequenzlänge. Durch den Ersatz der Softmax-Nichtlinearität wurden lineare Attention und ähnliche Methoden eingeführt, um den quadratischen Engpass der Softmax-Attention zu vermeiden. Obwohl diese linearen Formen der Attention aus der ursprünglichen Softmax-Formulierung abgeleitet wurden, liegen sie typischerweise in Bezug auf die nachgelagerte Genauigkeit zurück. Während die starke Intuition der Softmax-Nichtlinearität auf dem inneren Produkt von Query und Key darauf hindeutet, dass sie im Vergleich zu anderen Nichtlinearitäten wünschenswerte Eigenschaften besitzt, bleibt die Frage, warum diese Diskrepanz besteht, weiterhin unbeantwortet. Diese Arbeit zeigt, dass lineare Attention eine Approximation der Softmax-Attention darstellt, indem die rekurrente Form der Softmax-Attention hergeleitet wird. Mit dieser Form kann jeder Teil der Softmax-Attention in der Sprache rekurrenter neuronaler Netze (RNNs) beschrieben werden. Die Beschreibung der Softmax-Attention als RNN ermöglicht die Ablation der Komponenten der Softmax-Attention, um die Bedeutung jedes Teils und ihre Interaktion zu verstehen. Auf diese Weise trägt unsere Arbeit dazu bei, zu erklären, warum Softmax-Attention ausdrucksstärker ist als ihre Gegenstücke.
Daten erreichen unsere Sinne als kontinuierlicher Strom, der sich nahtlos von einem Moment zum nächsten verwandelt. Diese sanften Transformationen können als kontinuierliche Symmetrien der Umgebung, die wir bewohnen, betrachtet werden und definieren Äquivalenzrelationen zwischen Reizen über die Zeit hinweg. Im Bereich des maschinellen Lernens werden neuronale Netzwerkarchitekturen, die die Symmetrien ihrer Daten respektieren, als äquivariant bezeichnet und haben nachweisbare Vorteile in Bezug auf Generalisierungsfähigkeit und Stichprobeneffizienz. Bisher wurde Äquivarianz jedoch nur für statische Transformationen und Feedforward-Netzwerke betrachtet, was ihre Anwendbarkeit auf Sequenzmodelle wie rekurrente neuronale Netze (RNNs) und entsprechende zeitparametrisierte Sequenztransformationen einschränkt. In dieser Arbeit erweitern wir die Theorie äquivarianter Netzwerke auf diesen Bereich von „Flüssen“ – einparametrige Lie-Untergruppen, die natürliche Transformationen über die Zeit erfassen, wie beispielsweise visuelle Bewegung. Wir beginnen damit zu zeigen, dass Standard-RNNs im Allgemeinen nicht flussäquivariant sind: Ihre verborgenen Zustände transformieren sich nicht in einer geometrisch strukturierten Weise für sich bewegende Reize. Anschließend zeigen wir, wie Flussäquivarianz eingeführt werden kann, und demonstrieren, dass diese Modelle ihre nicht-äquivarianten Gegenstücke in Bezug auf Trainingsgeschwindigkeit, Längengeneralisierung und Geschwindigkeitsgeneralisierung sowohl bei der Vorhersage des nächsten Schritts als auch bei der Sequenzklassifikation deutlich übertreffen. Wir präsentieren diese Arbeit als ersten Schritt hin zum Aufbau von Sequenzmodellen, die die zeitparametrisierten Symmetrien respektieren, die die Welt um uns herum bestimmen.
Arabisch stellt eine besondere Herausforderung für die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) und die Informationsbeschaffung (Information Retrieval, IR) dar, und zwar aufgrund seiner komplexen Morphologie, optionalen Diakritika sowie der Koexistenz von Modernem Standardarabisch (Modern Standard Arabic, MSA) und verschiedenen Dialekten. Trotz der wachsenden globalen Bedeutung des Arabischen ist es in der NLP-Forschung und bei Benchmark-Ressourcen nach wie vor unterrepräsentiert. In diesem Artikel präsentieren wir ein verbessertes Framework für Dense Passage Retrieval (DPR), das speziell für Arabisch entwickelt wurde. Kern unseres Ansatzes ist eine neuartige Attentive Relevance Scoring (ARS)-Methode, die Standard-Interaktionsmechanismen durch eine adaptive Bewertungsfunktion ersetzt, die die semantische Relevanz zwischen Fragen und Textpassagen effektiver modelliert. Unser Verfahren integriert vortrainierte arabische Sprachmodelle und architektonische Verfeinerungen, um die Retrieval-Leistung zu verbessern und die Ranking-Genauigkeit bei der Beantwortung arabischer Fragen deutlich zu steigern. Der Code ist öffentlich verfügbar unter https://github.com/Bekhouche/APR{GitHub}.
Aufgrund zunehmender Datenschutzbedenken hat das maschinelle Verlernen, das darauf abzielt, maschinellen Lernmodellen das „Vergessen“ spezifischer Trainingsdaten zu ermöglichen, immer mehr Aufmerksamkeit erhalten. Unter den bestehenden Methoden hat sich der einflussbasierte Ansatz des Verlernens als prominente Methode herausgestellt, da er in der Lage ist, die Auswirkungen einzelner Trainingsbeispiele auf die Modellparameter zu schätzen, ohne das Modell neu trainieren zu müssen. Dieser Ansatz leidet jedoch unter einem prohibitiv hohen Rechenaufwand, der sich aus der Notwendigkeit ergibt, die Hessian-Matrix und ihre Inverse über alle Trainingsbeispiele und Parameter hinweg zu berechnen, was ihn für großskalige Modelle und Szenarien mit häufigen Datenlöschungsanfragen unpraktisch macht. Dies unterstreicht die Schwierigkeit des Vergessens. Inspiriert von der Kognitionswissenschaft, die nahelegt, dass das Merken einfacher ist als das Vergessen, stellt diese Arbeit eine theoretische Verbindung zwischen dem Merken (inkrementelles Lernen) und dem Vergessen (Verlernen) her. Diese Verbindung ermöglicht es, das maschinelle Verlernen aus der Perspektive des inkrementellen Lernens zu betrachten. Im Gegensatz zu den zeitaufwändigen Hessian-Berechnungen beim Verlernen (Vergessen) stützt sich das inkrementelle Lernen (Merken) typischerweise auf effizientere Gradientenoptimierungen, was die genannte kognitive Theorie unterstützt. Basierend auf dieser Verbindung führen wir den Influence Approximation Unlearning (IAU)-Algorithmus für effizientes maschinelles Verlernen aus der inkrementellen Perspektive ein. Umfangreiche empirische Auswertungen zeigen, dass IAU eine überlegene Balance zwischen Entfernungsgarantie, Effizienz des Verlernens und vergleichbarer Modellnutzung erreicht, während er state-of-the-art Methoden über verschiedene Datensätze und Modellarchitekturen hinweg übertrifft. Unser Code ist verfügbar unter https://github.com/Lolo1222/IAU.