Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren das Segment Anything Model 2 (SAM 2), ein Grundlagenmodell zur Lösung der anweisbaren visuellen Segmentierung in Bildern und Videos. Wir haben eine Daten-Engine entwickelt, die das Modell und die Daten durch Benutzerinteraktion verbessert, um das bisher größte Videosegmentierungsdatenset zu sammeln. Unser Modell ist eine einfache Transformer-Architektur mit Streaming-Speicher für die Echtzeit-Videobearbeitung. SAM 2, trainiert mit unseren Daten, bietet eine starke Leistung über eine Vielzahl von Aufgaben hinweg. Bei der Videosegmentierung beobachten wir eine bessere Genauigkeit unter Verwendung von 3-mal weniger Interaktionen als bei früheren Ansätzen. Bei der Bildsegmentierung ist unser Modell genauer und 6-mal schneller als das Segment Anything Model (SAM). Wir sind der Meinung, dass unsere Daten, unser Modell und unsere Erkenntnisse einen bedeutenden Meilenstein für die Videosegmentierung und verwandte Wahrnehmungsaufgaben darstellen werden. Wir veröffentlichen eine Version unseres Modells, des Datensatzes und eine interaktive Demo.
In dieser Arbeit stellen wir Gemma 2 vor, eine neue Ergänzung zur Gemma-Familie von leichten, hochmodernen Open-Modellen, die einen Umfang von 2 Milliarden bis 27 Milliarden Parametern haben. In dieser neuen Version wenden wir mehrere bekannte technische Modifikationen an der Transformer-Architektur an, wie die Verflechtung von lokal-globalen Aufmerksamkeiten (Beltagy et al., 2020a) und Gruppenabfrage-Aufmerksamkeit (Ainslie et al., 2023). Wir trainieren auch die 2B- und 9B-Modelle mit Wissensverdichtung (Hinton et al., 2015) anstelle der Vorhersage des nächsten Tokens. Die resultierenden Modelle liefern die beste Leistung für ihre Größe und bieten sogar wettbewerbsfähige Alternativen zu Modellen, die 2-3 Mal größer sind. Wir stellen alle unsere Modelle der Gemeinschaft zur Verfügung.
Wir präsentieren SF3D, eine neuartige Methode zur schnellen und hochwertigen rekonstruktion von texturierten Objekt-Meshes aus einem einzigen Bild in nur 0,5 Sekunden. Im Gegensatz zu den meisten bestehenden Ansätzen wird SF3D explizit für die Mesh-Generierung trainiert und integriert eine schnelle UV-Entfaltungstechnik, die eine zügige Texturerzeugung ermöglicht, anstatt auf Vertexfarben zu vertrauen. Die Methode lernt auch, Materialparameter und Normalenkarten vorherzusagen, um die visuelle Qualität der rekonstruierten 3D-Meshes zu verbessern. Darüber hinaus integriert SF3D einen Schritt zur effektiven Entfernung von Beleuchtungseffekten mit niedriger Frequenz, um sicherzustellen, dass die rekonstruierten Meshes problemlos in neuen Beleuchtungsbedingungen verwendet werden können. Experimente zeigen die überlegene Leistung von SF3D gegenüber den bestehenden Techniken. Projektseite: https://stable-fast-3d.github.io
Obwohl große Sprachmodelle eine bemerkenswerte Leistung in der natürlichen Sprachverarbeitung zeigen, macht ihre ressourcenintensive Natur sie weniger zugänglich. Im Gegensatz dazu bieten kleinere Sprachmodelle wie MiniCPM eine nachhaltigere Skalierbarkeit, unterliegen jedoch oft ohne spezialisierte Optimierung. In diesem Paper untersuchen wir die Verbesserung kleinerer Sprachmodelle durch die Optimierung ihrer Texteinbettungen. Wir wählen drei Sprachmodelle, MiniCPM, Phi-2 und Gemma, um kontrastives Feintuning auf dem NLI-Datensatz durchzuführen. Unsere Ergebnisse zeigen, dass diese Feintuning-Methode die Qualität der Texteinbettungen für alle drei Modelle über verschiedene Benchmarks hinweg verbessert, wobei MiniCPM die signifikantesten Verbesserungen mit einem durchschnittlichen Leistungsanstieg von 56,33\% zeigt. Der Code für das kontrastive Feintuning ist öffentlich verfügbar unter https://github.com/trapoom555/Language-Model-STS-CFT.
Der jüngste Erfolg großer Sprach- und Bildmodelle zeigt ein großes Potenzial für die Steuerung des Agentensystems, das auf Benutzeroberflächen arbeitet. Wir argumentieren jedoch, dass die Leistung von multimodalen Modellen wie GPT-4V als allgemeiner Agent auf verschiedenen Betriebssystemen und in verschiedenen Anwendungen weitgehend unterschätzt wird, aufgrund des Mangels an einer robusten Bildschirmanalysetechnik, die in der Lage ist: 1) Interaktive Symbole innerhalb der Benutzeroberfläche zuverlässig zu identifizieren und 2) die Semantik verschiedener Elemente in einem Bildschirmfoto zu verstehen und die beabsichtigte Aktion genau mit dem entsprechenden Bereich auf dem Bildschirm zu verknüpfen. Um diese Lücken zu schließen, stellen wir OmniParser vor, eine umfassende Methode zur Analyse von Benutzeroberflächenbildern in strukturierte Elemente, die die Fähigkeit von GPT-4V erheblich verbessert, Aktionen zu generieren, die genau im entsprechenden Bereich der Benutzeroberfläche verankert werden können. Wir haben zunächst einen Datensatz zur Erkennung interaktiver Symbole unter Verwendung beliebter Webseiten und eines Datensatzes zur Beschreibung von Symbolen zusammengestellt. Diese Datensätze wurden verwendet, um spezialisierte Modelle zu feinabstimmen: ein Erkennungsmodell zur Analyse interaktiver Bereiche auf dem Bildschirm und ein Beschreibungsmodell zur Extraktion der funktionalen Semantik der erkannten Elemente. OmniParser verbessert signifikant die Leistung von GPT-4V im ScreenSpot-Benchmark. Und im Mind2Web- und AITW-Benchmark übertrifft OmniParser mit ausschließlichem Bildschirmeingang die GPT-4V-Baselines, die zusätzliche Informationen außerhalb des Bildschirms erfordern.
Multimodale Sprachmodelle (MLLMs) werden zunehmend in realen Umgebungen implementiert, was ihre Fähigkeit zur Interpretation von 3D-Räumen und zum Verständnis zeitlicher Dynamiken erfordert. Trotz ihres Potenzials sind die aktuellen Spitzenmodelle innerhalb unserer Gemeinschaft immer noch nicht in der Lage, räumliche und zeitliche Dimensionen angemessen zu verstehen. Wir stellen Coarse Correspondence vor, eine einfache, trainingsfreie, effektive und vielseitige visuelle Anregungsmethode, um 3D- und zeitliches Verständnis in multimodalen LLMs hervorzurufen. Unsere Methode verwendet ein leichtgewichtiges Tracking-Modell, um Objektkorrespondenzen zwischen Frames in einem Video oder zwischen Sets von Bildansichten zu finden. Sie wählt die häufigsten Objektinstanzen aus und visualisiert sie mit Markern mit eindeutigen IDs im Bild. Mit diesem einfachen Ansatz erzielen wir Spitzenleistungen bei 3D-Verständnis-Benchmarks, einschließlich ScanQA (+20,5 %) und einem Teil von OpenEQA (+9,7 %), sowie bei Langform-Video-Benchmarks wie EgoSchema (+6,0 %). Wir erstellen auch ein kleines diagnostisches Datenset, um zu bewerten, ob MLLMs aus einer anderen als der Kameraperspektive über einen Raum nachdenken können. Erneut verbessert Coarse Correspondence die Fähigkeiten zur räumlichen Perspektivenübernahme, aber wir betonen, dass MLLMs mit dieser Aufgabe zu kämpfen haben. Zusammen zeigen wir, dass unsere einfache Anregungsmethode wesentlich dazu beitragen kann, nachgelagerte Aufgaben zu unterstützen, die 3D- oder zeitliches Denken erfordern.
Jüngste Anwendungen großer Sprachmodelle, wie die abrufgestützte Generierung und Chatbots, haben zu einem gesteigerten Bedarf an der Verarbeitung längerer Eingabekontexte geführt. Diese Anforderung wird jedoch durch inhärente Einschränkungen beeinträchtigt. Architektonisch gesehen sind Modelle durch ein während des Trainings definiertes Kontextfenster eingeschränkt. Darüber hinaus erfordert die Verarbeitung umfangreicher Texte erheblichen GPU-Speicher. Wir schlagen einen neuartigen Ansatz namens Finch vor, um den Eingabekontext zu komprimieren, indem wir die vortrainierten Modellgewichte der Selbst-Aufmerksamkeit nutzen. Anhand einer Eingabeaufforderung und eines langen Textes identifiziert Finch iterativ die relevantesten Schlüssel (K) und Wert (V)-Paare über Textabschnitte, die auf der Eingabeaufforderung basieren. Nur solche Paare werden im KV-Cache gespeichert, der letztendlich innerhalb des durch das Kontextfenster begrenzten Raums eine komprimierte Version des langen Textes enthält. Unser Vorschlag ermöglicht es Modellen, auch bei hoher Kompression (bis zu 93-fach) große Eingaben zu verarbeiten, während die semantische Integrität ohne die Notwendigkeit einer Feinabstimmung erhalten bleibt.
Diffusionsmodelle haben den Weg zu einer Vielzahl von auf Text basierenden Bildbearbeitungsframeworks geebnet. Diese bauen jedoch in der Regel auf der mehrstufigen Natur des rückwärtigen Diffusionsprozesses auf, und ihre Anpassung an destillierte, schnelle Abtastmethoden hat sich als überraschend herausfordernd erwiesen. Hier konzentrieren wir uns auf eine beliebte Linie von auf Text basierenden Bearbeitungsframeworks - den „bearbeitungsfreundlichen“ DDPM-Rauschinversionsansatz. Wir analysieren dessen Anwendung auf schnelle Abtastmethoden und kategorisieren seine Fehler in zwei Klassen: das Auftreten von visuellen Artefakten und unzureichende Bearbeitungsstärke. Wir führen die Artefakte auf unpassende Rauschstatistiken zwischen invertierten Rauschen und dem erwarteten Rauschzeitplan zurück und schlagen einen verschobenen Rauschzeitplan vor, der diesen Versatz korrigiert. Um die Bearbeitungsstärke zu erhöhen, schlagen wir einen Pseudo-Leitungsansatz vor, der die Größe der Bearbeitungen effizient erhöht, ohne neue Artefakte einzuführen. Insgesamt ermöglicht unsere Methode die auf Text basierende Bildbearbeitung mit nur drei Diffusionsschritten und liefert neue Erkenntnisse über die Mechanismen hinter beliebten auf Text basierenden Bearbeitungsansätzen.
MM-Vet, mit offenen vision-sprachlichen Fragen zur Bewertung integrierter Fähigkeiten, ist zu einem der beliebtesten Benchmarks für die Evaluierung großer multimodaler Modelle geworden. MM-Vet bewertet sechs Kernfähigkeiten in der Vision-Sprache (VL): Erkennung, Wissen, räumliches Bewusstsein, Sprachgenerierung, OCR und Mathematik. Allerdings ist das Frageformat auf einzelne Bild-Text-Paare beschränkt und fehlt die durchmischten Bild- und Textsequenzen, die in realen Szenarien weit verbreitet sind. Um diese Einschränkung zu beheben, stellen wir MM-Vet v2 vor, das eine neue VL-Fähigkeit namens "Bild-Text-Sequenzverständnis" umfasst, um die Fähigkeit von Modellen zur Verarbeitung von VL-Sequenzen zu bewerten. Darüber hinaus erhalten wir die hohe Qualität der Bewertungsbeispiele aufrecht und erweitern gleichzeitig die Größe des Bewertungssatzes. Bei der Verwendung von MM-Vet v2 zur Bewertung großer multimodaler Modelle haben wir festgestellt, dass Claude 3.5 Sonnet das beste Modell mit einer Punktzahl von 71,8 ist, das knapp GPT-4o übertrifft, das 71,0 Punkte erzielt hat. Unter den Open-Weight-Modellen führt InternVL2-Llama3-76B mit einer Punktzahl von 68,4.
In den letzten Jahren hat die Qualität von Videoerstellung und -bearbeitungsansätzen erheblich zugenommen. Während sich mehrere Techniken auf die Bearbeitung des Erscheinungsbilds konzentrieren, behandeln nur wenige die Bewegung. Aktuelle Ansätze, die Text, Trajektorien oder Bounding-Boxen verwenden, sind auf einfache Bewegungen beschränkt. Daher spezifizieren wir Bewegungen mit einem einzelnen Bewegungsreferenzvideo. Darüber hinaus schlagen wir vor, ein vorab trainiertes Bild-zu-Video-Modell anstelle eines Text-zu-Video-Modells zu verwenden. Dieser Ansatz ermöglicht es uns, das genaue Erscheinungsbild und die Position eines Zielobjekts oder einer Szene zu bewahren und hilft dabei, das Erscheinungsbild von der Bewegung zu trennen. Unsere Methode, genannt Bewegungstext-Inversion, basiert auf unserer Beobachtung, dass Bild-zu-Video-Modelle das Erscheinungsbild hauptsächlich aus der (latenten) Bildquelle extrahieren, während die Text-/Bild-Einbettung, die über Cross-Attention injiziert wird, die Bewegung hauptsächlich steuert. Wir stellen Bewegungen daher mit Text-/Bild-Einbettungstokens dar. Durch die Bearbeitung einer aufgeblasenen Bewegungs-Text-Einbettung, die mehrere Text-/Bild-Einbettungstokens pro Frame enthält, erreichen wir eine hohe zeitliche Bewegungsgranularität. Sobald diese Einbettung auf das Bewegungsreferenzvideo optimiert ist, kann sie auf verschiedene Zielbilder angewendet werden, um Videos mit semantisch ähnlichen Bewegungen zu generieren. Unser Ansatz erfordert keine räumliche Ausrichtung zwischen dem Bewegungsreferenzvideo und dem Zielbild, generalisiert über verschiedene Domänen und kann auf verschiedene Aufgaben wie Ganzkörper- und Gesichtsnachstellung sowie die Steuerung der Bewegung von unbelebten Objekten und der Kamera angewendet werden. Wir zeigen empirisch die Wirksamkeit unserer Methode in der semantischen Video-Bewegungsübertragungsaufgabe und übertreffen bestehende Methoden in diesem Kontext signifikant.
Die audiogetriebene 3D-Gesichtsanimation zielt darauf ab, Eingabegeräusche in realistische Gesichtsbewegungen zu übertragen. Trotz signifikanter Fortschritte ergeben sich Einschränkungen durch inkonsistente 3D-Annotationen, die frühere Modelle auf spezifische Annotationen beschränken und somit den Trainingsumfang einschränken. In dieser Arbeit präsentieren wir UniTalker, ein vereinheitlichtes Modell mit einer Multi-Head-Architektur, das darauf ausgelegt ist, Datensätze mit unterschiedlichen Annotationen effektiv zu nutzen. Um die Trainingsstabilität zu verbessern und Konsistenz zwischen den Multi-Head-Ausgaben sicherzustellen, verwenden wir drei Trainingsstrategien, nämlich PCA, Modell-Aufwärmung und Pivot-Identitäts-Einbettung. Um den Trainingsumfang und die Vielfalt zu erweitern, stellen wir A2F-Bench zusammen, bestehend aus fünf öffentlich verfügbaren Datensätzen und drei neu kuratierten Datensätzen. Diese Datensätze umfassen eine Vielzahl von Audio-Domänen, die mehrsprachige Sprachstimmen und Lieder abdecken und somit die Trainingsdaten von üblicherweise weniger als 1 Stunde auf 18,5 Stunden skalieren. Mit einem einzigen trainierten UniTalker-Modell erzielen wir signifikante Reduzierungen des Lippenvertexfehlers um 9,2 % für den BIWI-Datensatz und 13,7 % für Vocaset. Darüber hinaus zeigt der vorab trainierte UniTalker vielversprechende Ergebnisse als Grundlagenmodell für audiogetriebene Gesichtsanimationsaufgaben. Durch Feinabstimmung des vorab trainierten UniTalker auf bekannten Datensätzen wird die Leistung auf jedem Datensatz weiter verbessert, mit einer durchschnittlichen Fehlerreduzierung von 6,3 % auf A2F-Bench. Darüber hinaus übertrifft die Feinabstimmung des UniTalker auf einem unbekannten Datensatz mit nur der Hälfte der Daten bisherige State-of-the-Art-Modelle, die auf dem vollständigen Datensatz trainiert wurden. Der Code und die Datensätze sind auf der Projektseite https://github.com/X-niper/UniTalker verfügbar.
Die Ermöglichung der Nutzung von Manga durch sehbehinderte Personen stellt eine bedeutende Herausforderung aufgrund seiner grundsätzlich visuellen Natur dar. Mit dem Ziel, die Zugänglichkeit zu fördern, zielt diese Arbeit darauf ab, ein Dialogtranskript eines vollständigen Manga-Kapitels vollständig automatisch zu generieren, wobei ein besonderer Schwerpunkt auf der Sicherstellung der narrativen Konsistenz liegt. Dies beinhaltet die Identifizierung (i) dessen, was gesagt wird, d. h. das Erkennen der Texte auf jeder Seite und deren Einteilung in wesentlich vs. nicht-wesentlich, und (ii) wer es sagt, d. h. das Zuordnen jedes Dialogs zu seinem Sprecher, während sichergestellt wird, dass die gleichen Charaktere im gesamten Kapitel konsistent benannt werden. Zu diesem Zweck stellen wir vor: (i) Magiv2, ein Modell, das in der Lage ist, hochwertige, kapitelweite Manga-Transkripte mit benannten Charakteren zu generieren und eine signifikant höhere Präzision bei der Sprecher-Diarisierung im Vergleich zu früheren Arbeiten aufweist; (ii) eine Erweiterung des PopManga-Evaluationsdatensatzes, der nun auch Annotationen für Sprechblasenschwänze, Zuordnungen von Text zu entsprechenden Schwänzen, Klassifizierungen von Text als wesentlich oder nicht-wesentlich und die Identität für jedes Charakterfeld umfasst; und (iii) einen neuen Charakterbank-Datensatz, der über 11.000 Charaktere aus 76 Manga-Serien umfasst, mit insgesamt 11.500 exemplarischen Charakterbildern sowie einer Liste der Kapitel, in denen sie erscheinen. Der Code, das trainierte Modell und beide Datensätze finden sich unter: https://github.com/ragavsachdeva/magi
Konditionale Diffusionsmodelle haben eine bemerkenswerte Erfolgsgeschichte bei der Generierung visueller Inhalte gezeigt, indem sie hochwertige Proben in verschiedenen Bereichen erzeugen, hauptsächlich aufgrund der leitlinienfreien Führung (CFG). Aktuelle Versuche, die Führung auf bedingungslose Modelle auszudehnen, haben sich auf heuristische Techniken verlassen, was zu suboptimaler Generierungsqualität und unbeabsichtigten Effekten geführt hat. In dieser Arbeit schlagen wir Smoothed Energy Guidance (SEG) vor, einen neuartigen Ansatz ohne Training und Bedingungen, der die energiebasierte Perspektive des Self-Attention-Mechanismus nutzt, um die Bildgenerierung zu verbessern. Indem wir die Energie des Self-Attention definieren, führen wir eine Methode ein, um die Krümmung der Energielandschaft der Aufmerksamkeit zu reduzieren und das Ergebnis als bedingungslose Vorhersage zu verwenden. Praktisch steuern wir die Krümmung der Energielandschaft, indem wir den Parameter des Gaußschen Kernels anpassen, während wir den Leitlinienmaßstabparameter konstant halten. Darüber hinaus präsentieren wir eine Abfrageverwischungsmethode, die äquivalent dazu ist, die gesamten Aufmerksamkeitsgewichte zu verwischen, ohne quadratische Komplexität in der Anzahl der Token zu verursachen. In unseren Experimenten erzielt SEG eine Pareto-Verbesserung sowohl in Bezug auf Qualität als auch auf die Reduzierung von Nebenwirkungen. Der Code ist verfügbar unter https://github.com/SusungHong/SEG-SDXL.
Rebuse sind Rätsel, die eingeschränktes, mehrstufiges Denken erfordern, um einen versteckten Ausdruck aus einer Reihe von Bildern und Buchstaben zu identifizieren. In dieser Arbeit stellen wir eine umfangreiche Sammlung verbalisierter Rebuse für die italienische Sprache vor und verwenden sie, um die Fähigkeiten von modernen Sprachmodellen bei der Lösung von Rebussen zu bewerten. Während allgemeine Systeme wie LLaMA-3 und GPT-4o bei dieser Aufgabe schlecht abschneiden, scheint eine spezielle Feinabstimmung die Leistung der Modelle zu verbessern. Allerdings stellen wir fest, dass die Leistungssteigerungen durch das Training weitgehend durch das Auswendiglernen motiviert sind. Unsere Ergebnisse legen nahe, dass das Lösen von Rebussen nach wie vor ein anspruchsvoller Test ist, um die sprachliche Kompetenz und die Fähigkeiten zur sequenziellen Anweisungsbeachtung großer Sprachmodelle zu bewerten.
Die Erkennung von Out-of-Distribution (OOD)-Proben ist entscheidend, um die Sicherheit von KI-Systemen zu gewährleisten und hat das Feld der OOD-Erkennung geprägt. Gleichzeitig sind mehrere andere Probleme eng mit der OOD-Erkennung verbunden, darunter Anomalieerkennung (AD), Neuheitenerkennung (ND), Open-Set-Erkennung (OSR) und Ausreißererkennung (OD). Zur Vereinheitlichung dieser Probleme wurde ein verallgemeinertes OOD-Erkennungsframework vorgeschlagen, das diese fünf Probleme taxonomisch kategorisiert. Allerdings haben Vision Language Models (VLMs) wie CLIP das Paradigma signifikant verändert und die Grenzen zwischen diesen Feldern verwischt, was Forscher erneut verunsichert hat. In dieser Übersicht präsentieren wir zunächst ein verallgemeinertes OOD-Erkennungsv2, das die Entwicklung von AD, ND, OSR, OOD-Erkennung und OD im VLM-Zeitalter zusammenfasst. Unser Framework zeigt auf, dass mit etwas Feldinaktivität und Integration die anspruchsvollen Herausforderungen zu OOD-Erkennung und AD geworden sind. Darüber hinaus heben wir auch die signifikante Verschiebung in der Definition, den Problemstellungen und Benchmarks hervor; wir bieten daher eine umfassende Überprüfung der Methodik für die OOD-Erkennung, einschließlich der Diskussion über andere verwandte Aufgaben, um deren Beziehung zur OOD-Erkennung zu klären. Abschließend erkunden wir die Fortschritte im aufkommenden Zeitalter der Large Vision Language Models (LVLM), wie z.B. GPT-4V. Wir schließen diese Übersicht mit offenen Herausforderungen und zukünftigen Richtungen ab.
Dieses Paper stellt einen neuartigen Ansatz namens satzweise Sprachzusammenfassung (Sen-SSum) vor, der Textzusammenfassungen aus einem gesprochenen Dokument auf satzweiser Basis generiert. Sen-SSum kombiniert die Echtzeitverarbeitung der automatischen Spracherkennung (ASR) mit der Prägnanz der Sprachzusammenfassung. Um diesen Ansatz zu erforschen, präsentieren wir zwei Datensätze für Sen-SSum: Mega-SSum und CSJ-SSum. Unter Verwendung dieser Datensätze bewertet unsere Studie zwei Arten von Transformer-basierten Modellen: 1) Kaskadenmodelle, die ASR und starke Textzusammenfassungsmodelle kombinieren, und 2) End-to-End (E2E) Modelle, die Sprache direkt in eine Textzusammenfassung umwandeln. Obwohl E2E-Modelle attraktiv sind, um recheneffiziente Modelle zu entwickeln, schneiden sie schlechter ab als Kaskadenmodelle. Daher schlagen wir das Wissensdistillation für E2E-Modelle unter Verwendung von Pseudo-Zusammenfassungen vor, die von den Kaskadenmodellen generiert wurden. Unsere Experimente zeigen, dass diese vorgeschlagene Wissensdistillation die Leistung des E2E-Modells auf beiden Datensätzen effektiv verbessert.
Diese Arbeit präsentiert ein neuartiges Framework zur Schulung von arabischen verschachtelten Einbettungsmodellen durch Matryoshka-Einbettungslernen, wobei mehrsprachige, arabisch-spezifische und auf Englisch basierende Modelle genutzt werden, um die Leistungsfähigkeit von verschachtelten Einbettungsmodellen in verschiedenen arabischen NLP-Nachfolgeaufgaben hervorzuheben. Unser innovativer Beitrag umfasst die Übersetzung verschiedener Datensätze zur Satzähnlichkeit ins Arabische, was ein umfassendes Bewertungsframework ermöglicht, um diese Modelle in verschiedenen Dimensionen zu vergleichen. Wir haben mehrere verschachtelte Einbettungsmodelle auf dem arabischen Datensatz für natürliche Sprachinferenz trainiert und ihre Leistung anhand mehrerer Bewertungsmetriken bewertet, darunter Pearson- und Spearman-Korrelationen für Kosinusähnlichkeit, Manhattan-Distanz, euklidische Distanz und Punktproduktähnlichkeit. Die Ergebnisse zeigen die überragende Leistung der Matryoshka-Einbettungsmodelle auf, insbesondere bei der Erfassung semantischer Feinheiten, die einzigartig für die arabische Sprache sind. Die Ergebnisse zeigten, dass arabische Matryoshka-Einbettungsmodelle eine überlegene Leistung bei der Erfassung semantischer Feinheiten, die einzigartig für die arabische Sprache sind, aufweisen und traditionelle Modelle signifikant um bis zu 20-25\% in verschiedenen Ähnlichkeitsmetriken übertreffen. Diese Ergebnisse unterstreichen die Wirksamkeit des trainings mit sprachspezifischen Daten und heben das Potenzial von Matryoshka-Modellen zur Verbesserung von semantischen Textähnlichkeitsaufgaben für das arabische NLP hervor.