Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen CameraBench vor, einen umfangreichen Datensatz und Benchmark, der entwickelt wurde, um das Verständnis von Kamerabewegungen zu bewerten und zu verbessern. CameraBench besteht aus ~3.000 vielfältigen Internetvideos, die von Experten durch einen strengen mehrstufigen Qualitätskontrollprozess annotiert wurden. Eine unserer Beiträge ist eine Taxonomie von Kamerabewegungsprimitiven, die in Zusammenarbeit mit Kameraleuten entwickelt wurde. Wir stellen beispielsweise fest, dass einige Bewegungen wie „Folgen“ (oder Tracking) das Verständnis von Szeneninhalten wie bewegten Objekten erfordern. Wir führen eine groß angelegte Humanstudie durch, um die Leistung menschlicher Annotationen zu quantifizieren, und zeigen, dass Fachwissen und tutorialbasierte Schulungen die Genauigkeit erheblich steigern können. Beispielsweise könnte ein Anfänger einen Zoom (eine Änderung der intrinsischen Parameter) mit einer Vorwärtsbewegung (eine Änderung der extrinsischen Parameter) verwechseln, kann jedoch geschult werden, um die beiden zu unterscheiden. Mit CameraBench evaluieren wir Structure-from-Motion (SfM)- und Video-Language-Modelle (VLMs) und stellen fest, dass SfM-Modelle Schwierigkeiten haben, semantische Primitiven zu erfassen, die von Szeneninhalten abhängen, während VLMs geometrische Primitiven, die eine präzise Schätzung von Trajektorien erfordern, nur unzureichend erfassen. Anschließend feintunen wir ein generatives VLM auf CameraBench, um das Beste aus beiden Welten zu erreichen, und zeigen seine Anwendungen, einschließlich bewegungsaugmentierter Bildbeschreibung, Video-Frage-Antwort und Video-Text-Retrieval. Wir hoffen, dass unsere Taxonomie, unser Benchmark und unsere Tutorials zukünftige Bemühungen in Richtung des ultimativen Ziels, Kamerabewegungen in jedem Video zu verstehen, vorantreiben werden.
Wir präsentieren Skywork R1V2, ein multimodales Reasoning-Modell der nächsten Generation und einen bedeutenden Fortschritt gegenüber seinem Vorgänger, Skywork R1V. Im Kern von R1V2 wird ein hybrides Reinforcement-Learning-Paradigma eingeführt, das die Anleitung durch Reward-Modelle mit regelbasierten Strategien harmonisiert und damit die langjährige Herausforderung adressiert, anspruchsvolle Reasoning-Fähigkeiten mit breiter Generalisierung in Einklang zu bringen. Um die Trainings effizienz weiter zu steigern, schlagen wir den Selective Sample Buffer (SSB)-Mechanismus vor, der das „Vanishing Advantages“-Dilemma, das in der Group Relative Policy Optimization (GRPO) inhärent ist, effektiv bekämpft, indem er hochwertige Samples während des Optimierungsprozesses priorisiert. Bemerkenswerterweise beobachten wir, dass übermäßige Reinforcement-Signale visuelle Halluzinationen auslösen können – ein Phänomen, das wir systematisch überwachen und durch kalibrierte Reward-Schwellen während des Trainingsprozesses abmildern. Empirische Ergebnisse bestätigen die außergewöhnliche Fähigkeit von R1V2 mit Benchmark-führenden Leistungen wie 62,6 auf OlympiadBench, 79,0 auf AIME2024, 63,6 auf LiveCodeBench und 74,0 auf MMMU. Diese Ergebnisse unterstreichen die Überlegenheit von R1V2 gegenüber bestehenden Open-Source-Modellen und zeigen signifikante Fortschritte bei der Schließung der Leistungslücke zu führenden proprietären Systemen, einschließlich Gemini 2.5 und OpenAI o4-mini. Die Modellgewichte von Skywork R1V2 wurden öffentlich freigegeben, um Offenheit und Reproduzierbarkeit zu fördern: https://huggingface.co/Skywork/Skywork-R1V2-38B.
Die effiziente Bereitstellung von 1-Bit Large Language Models (LLMs) wird durch Aktivierungsausreißer behindert, die die Quantisierung auf niedrige Bitbreiten erschweren. Wir stellen BitNet v2 vor, ein neuartiges Framework, das eine native 4-Bit-Aktivierungsquantisierung für 1-Bit-LLMs ermöglicht. Um Ausreißer in den Aktivierungen des Attention-Mechanismus und des Feed-Forward-Netzwerks zu bewältigen, schlagen wir H-BitLinear vor, ein Modul, das eine Online-Hadamard-Transformation vor der Aktivierungsquantisierung anwendet. Diese Transformation glättet scharfe Aktivierungsverteilungen in gaussähnliche Formen, die für die Darstellung mit niedriger Bitbreite geeignet sind. Experimente zeigen, dass BitNet v2, das von Grund auf mit 8-Bit-Aktivierungen trainiert wurde, die Leistung von BitNet b1.58 erreicht. Entscheidend ist, dass BitNet v2 bei einem Training mit nativen 4-Bit-Aktivierungen nur minimale Leistungseinbußen aufweist, wodurch der Speicherbedarf und die Rechenkosten für die Stapelverarbeitung erheblich reduziert werden.
Die Bewertung der Video-Verständnisfähigkeiten multimodaler KI-Systeme kann effektiv deren Verständnis- und Schlussfolgerungsfähigkeiten messen. Die meisten Video-Evaluierungsbenchmarks beschränken sich auf eine einzige Sprache, typischerweise Englisch, und zeigen überwiegend Videos, die in westlichen kulturellen Kontexten verwurzelt sind. In diesem Artikel präsentieren wir VideoVista-CulturalLingo, den ersten Video-Evaluierungsbenchmark, der darauf abzielt, die kulturelle, sprachliche und domänenspezifische Kluft im Video-Verständnis zu überbrücken. Unsere Arbeit unterscheidet sich von bestehenden Benchmarks in folgenden Punkten: 1) Kulturelle Vielfalt, die Kulturen aus China, Nordamerika und Europa einbezieht; 2) Mehrsprachigkeit, mit Fragen, die in Chinesisch und Englisch – zwei der am weitesten verbreiteten Sprachen – gestellt werden; und 3) Breite Domänenabdeckung, mit Videos aus Hunderten von menschengeschaffenen Bereichen. VideoVista-CulturalLingo enthält 1.389 Videos und 3.134 Frage-Antwort-Paare, und wir haben 24 aktuelle Open-Source- oder proprietäre Video-Großmodelle evaluiert. Aus den Experimentergebnissen beobachten wir Folgendes: 1) Bestehende Modelle schneiden bei chinesisch-zentrierten Fragen schlechter ab als bei westlich-zentrierten, insbesondere bei Fragen zur chinesischen Geschichte; 2) Aktuelle Open-Source-Modelle zeigen weiterhin Einschränkungen im zeitlichen Verständnis, insbesondere bei der Aufgabe der Ereignislokalisierung, mit einem maximalen Score von nur 45,2 %; 3) Mainstream-Modelle zeigen eine starke Leistung bei allgemeinen wissenschaftlichen Fragen, während Open-Source-Modelle in Mathematik schwache Leistungen aufweisen.
Wir präsentieren Kimi-Audio, ein Open-Source-Audio-Foundation-Modell, das sich durch herausragende Fähigkeiten in den Bereichen Audioverständnis, -generierung und -konversation auszeichnet. Wir erläutern detailliert die Praktiken beim Aufbau von Kimi-Audio, einschließlich der Modellarchitektur, Datenkuratierung, Trainingsrezeptur, Inferenzbereitstellung und Evaluierung. Insbesondere nutzen wir einen 12,5-Hz-Audio-Tokenizer, entwerfen eine neuartige LLM-basierte Architektur mit kontinuierlichen Merkmalen als Eingabe und diskreten Tokens als Ausgabe und entwickeln einen chunk-basierten Streaming-Detokenizer basierend auf Flow Matching. Wir kuratieren einen Pre-Training-Datensatz, der mehr als 13 Millionen Stunden Audiodaten umfasst und eine breite Palette von Modalitäten wie Sprache, Klang und Musik abdeckt, und erstellen eine Pipeline zur Konstruktion hochwertiger und vielfältiger Post-Training-Daten. Kimi-Audio, initialisiert von einem vortrainierten LLM, wird kontinuierlich auf Audio- und Textdaten mit mehreren sorgfältig gestalteten Aufgaben vorab trainiert und anschließend feinabgestimmt, um eine Vielzahl von audio-bezogenen Aufgaben zu unterstützen. Umfangreiche Evaluierungen zeigen, dass Kimi-Audio state-of-the-art Leistungen in einer Reihe von Audio-Benchmarks, einschließlich Spracherkennung, Audioverständnis, Audio-Fragebeantwortung und Sprachkonversation, erzielt. Wir veröffentlichen die Codes, Modell-Checkpoints sowie die Evaluierungstoolkits unter https://github.com/MoonshotAI/Kimi-Audio.
Die multimodale Sprachanalyse ist ein sich schnell entwickelndes Forschungsgebiet, das mehrere Modalitäten nutzt, um das Verständnis der hochgradigen Semantik hinter menschlichen Gesprächsäußerungen zu verbessern. Trotz ihrer Bedeutung wurde bisher nur wenig Forschung zur Fähigkeit multimodaler großer Sprachmodelle (MLLMs) betrieben, kognitive Semantik zu erfassen. In diesem Artikel stellen wir MMLA vor, einen umfassenden Benchmark, der speziell entwickelt wurde, um diese Lücke zu schließen. MMLA umfasst über 61.000 multimodale Äußerungen aus sowohl inszenierten als auch realen Szenarien und deckt sechs Kernbereiche der multimodalen Semantik ab: Absicht, Emotion, Dialogakt, Sentiment, Sprechstil und Kommunikationsverhalten. Wir evaluieren acht gängige Varianten von LLMs und MLLMs mit drei Methoden: Zero-Shot-Inferenz, überwachtes Fine-Tuning und Instruction Tuning. Umfangreiche Experimente zeigen, dass selbst feinabgestimmte Modelle nur eine Genauigkeit von etwa 60 % bis 70 % erreichen, was die Grenzen aktueller MLLMs beim Verständnis komplexer menschlicher Sprache verdeutlicht. Wir glauben, dass MMLA eine solide Grundlage für die Erforschung des Potenzials großer Sprachmodelle in der multimodalen Sprachanalyse bieten und wertvolle Ressourcen zur Weiterentwicklung dieses Feldes bereitstellen wird. Die Datensätze und der Code sind unter https://github.com/thuiar/MMLA open-source verfügbar.
Die Anzahl vortrainierter Large Language Models (LLMs) nimmt stetig zu, wobei die Mehrheit jedoch vorwiegend für die englische Sprache konzipiert ist. Obwohl state-of-the-art LLMs andere Sprachen verarbeiten können, bedingt durch Sprachkontamination oder einen gewissen Grad an mehrsprachigen Vortrainingsdaten, sind sie nicht für nicht-englische Sprachen optimiert, was zu ineffizienter Kodierung (hohe Token-"Fertilität") und langsamerer Inferenzgeschwindigkeit führt. In dieser Arbeit vergleichen wir umfassend verschiedene Vokabularanpassungstechniken zur Optimierung englischer LLMs für die italienische Sprache und stellen Semantic Alignment Vocabulary Adaptation (SAVA) vor, eine neuartige Methode, die neuronale Mapping für die Vokabularsubstitution nutzt. SAVA erzielt wettbewerbsfähige Leistungen in mehreren Downstream-Aufgaben und verbessert fundierte Ausrichtungsstrategien. Wir passen zwei LLMs an: Mistral-7b-v0.1, wodurch die Token-Fertilität um 25\% reduziert wird, und Llama-3.1-8B, bei dem das Vokabular optimiert und die Anzahl der Parameter um 1 Milliarde verringert wird. Wir zeigen, dass diese Modelle nach der Vokabularanpassung ihre Leistung mit einer relativ begrenzten Phase des kontinuierlichen Trainings in der Zielsprache wiedererlangen können. Schließlich testen wir die Fähigkeiten der angepassten Modelle in verschiedenen Multiple-Choice- und generativen Aufgaben.
Sparse Attention bietet eine vielversprechende Strategie, um die Fähigkeiten von Transformer-LLMs im Umgang mit langen Kontexten zu erweitern. Dennoch bleiben ihre Machbarkeit, ihre Effizienz-Genauigkeits-Abwägungen sowie systematische Skalierungsstudien bisher unerforscht. Um diese Lücke zu schließen, führen wir einen sorgfältigen Vergleich von trainingsfreien Sparse-Attention-Methoden bei variierenden Modellgrößen, Sequenzlängen und Sparsity-Levels durch, und zwar anhand einer vielfältigen Sammlung von Aufgaben mit langen Sequenzen – einschließlich neuartiger Aufgaben, die auf natürlicher Sprache basieren, dabei jedoch kontrollierbar und einfach zu evaluieren bleiben. Basierend auf unseren Experimenten präsentieren wir eine Reihe von zentralen Erkenntnissen: 1) Eine isoFLOPS-Analyse zeigt, dass für sehr lange Sequenzen größere und hochgradig sparse Modelle kleineren und dichten Modellen vorzuziehen sind. 2) Das Sparsity-Level, das bei statistischer Garantie der Genauigkeitserhaltung erreichbar ist, ist während des Decodings höher als beim Prefilling und korreliert im ersteren Fall mit der Modellgröße. 3) Es gibt keine klare Strategie, die über alle Aufgaben und Phasen hinweg am besten abschneidet, da je nach Szenario unterschiedliche Einheiten der Sparsifizierung oder Budgetanpassung benötigt werden. Selbst moderate Sparsity-Level führen oft zu erheblichen Leistungseinbußen bei mindestens einer Aufgabe, was verdeutlicht, dass Sparse Attention keine universelle Lösung ist. 4) Wir führen neuartige, speziell auf Sparse Attention zugeschnittene Skalierungsgesetze ein und validieren diese, wobei wir Belege liefern, dass unsere Erkenntnisse wahrscheinlich über den Rahmen unserer Experimente hinaus gültig sind. Durch diese Einblicke zeigen wir, dass Sparse Attention ein zentrales Werkzeug ist, um die Fähigkeiten von Transformer-LLMs zur Verarbeitung längerer Sequenzen zu verbessern, jedoch eine sorgfältige Abwägung der Kompromisse für leistungssensitive Anwendungen erfordert.
Wir stellen eine neue Generation kleiner Reasoning-Modelle für RAG, Suche und Quellenzusammenfassung vor. Pleias-RAG-350m und Pleias-RAG-1B wurden mitteltrainiert auf einem großen synthetischen Datensatz, der das Retrieval einer Vielzahl mehrsprachiger Open-Source-Daten aus dem Common Corpus nachahmt. Sie bieten native Unterstützung für Zitation und Verankerung mit wörtlichen Zitaten und integrieren mehrere Funktionen, die mit RAG-Workflows verbunden sind, wie z. B. Query-Routing, Query-Reformulierung und Quellen-Neubewertung. Pleias-RAG-350m und Pleias-RAG-1B übertreffen SLMs mit weniger als 4 Milliarden Parametern in standardisierten RAG-Benchmarks (HotPotQA, 2wiki) und sind wettbewerbsfähig mit beliebten größeren Modellen, darunter Qwen-2.5-7B, Llama-3.1-8B und Gemma-3-4B. Sie sind die bisher einzigen SLMs, die eine konsistente RAG-Leistung über führende europäische Sprachen hinweg aufrechterhalten und eine systematische Referenzverankerung für Aussagen sicherstellen. Aufgrund ihrer Größe, der einfachen Bereitstellung auf eingeschränkter Infrastruktur und der höheren Faktizität durch Design erschließen die Modelle eine Reihe neuer Anwendungsfälle für generative KI.
Wir schlagen vor, ein subjektgetriebenes, maßgeschneidertes Videogenerierungsmodell zu trainieren, indem wir das subjektspezifische Lernen von den zeitlichen Dynamiken in Zero-Shot ohne zusätzliche Feinabstimmung entkoppeln. Eine traditionelle Methode für die Videopersonalisierung, die ohne Feinabstimmung auskommt, stützt sich oft auf große, annotierte Videodatensätze, die rechenintensiv sind und umfangreiche Annotationen erfordern. Im Gegensatz zu diesem Ansatz führen wir die Verwendung eines Bildpersonalisierungsdatensatzes direkt für das Training von Videopersonalisierungsmodellen ein, wobei wir die Videopersonalisierung in zwei Schritte aufteilen: (1) Identitätsinjektion durch den Bildpersonalisierungsdatensatz und (2) Bewahrung der zeitlichen Modellierung mit einer kleinen Menge nicht annotierter Videos durch die Bild-zu-Video-Trainingsmethode. Zusätzlich setzen wir während der Bild-zu-Video-Feinabstimmung zufälliges Image-Token-Dropping mit randomisierter Bildinitialisierung ein, um das Copy-and-Paste-Problem zu mildern. Um das Lernen weiter zu verbessern, führen wir ein stochastisches Switching während der gemeinsamen Optimierung von subjektspezifischen und zeitlichen Merkmalen ein, um katastrophales Vergessen zu verhindern. Unsere Methode erreicht eine starke Subjektkonsistenz und Skalierbarkeit und übertrifft bestehende Videopersonalisierungsmodelle in Zero-Shot-Szenarien, was die Effektivität unseres Frameworks demonstriert.
Effektives Schlussfolgern bleibt eine zentrale Herausforderung für große Sprachmodelle (LLMs) im Finanzbereich, wo Aufgaben oft domänenspezifisches Wissen, präzise numerische Berechnungen und strikte Einhaltung von Compliance-Regeln erfordern. Wir stellen DianJin-R1 vor, ein reasoning-verstärktes Framework, das diese Herausforderungen durch reasoning-augmentierte Überwachung und Reinforcement Learning adressiert. Kern unseres Ansatzes ist DianJin-R1-Data, ein hochwertiger Datensatz, der aus CFLUE, FinQA und einem proprietären Compliance-Korpus (Chinese Compliance Check, CCC) konstruiert wurde und diverse Finanz-Szenarien mit verifizierten Annotationen kombiniert. Unsere Modelle, DianJin-R1-7B und DianJin-R1-32B, wurden aus Qwen2.5-7B-Instruct und Qwen2.5-32B-Instruct mittels eines strukturierten Formats feinabgestimmt, das sowohl Reasoning-Schritte als auch endgültige Antworten generiert. Um die Reasoning-Qualität weiter zu verfeinern, wenden wir Group Relative Policy Optimization (GRPO) an, eine Reinforcement-Learning-Methode, die duale Belohnungssignale einbezieht: eines fördert strukturierte Ausgaben und ein anderes belohnt die Richtigkeit der Antworten. Wir evaluieren unsere Modelle anhand von fünf Benchmarks: drei Finanzdatensätzen (CFLUE, FinQA und CCC) und zwei allgemeinen Reasoning-Benchmarks (MATH-500 und GPQA-Diamond). Die experimentellen Ergebnisse zeigen, dass die DianJin-R1-Modelle ihre nicht-reasoning-basierten Gegenstücke konsequent übertreffen, insbesondere bei komplexen Finanzaufgaben. Darüber hinaus erreichen unsere Single-Call-Reasoning-Modelle auf dem realen CCC-Datensatz eine Leistung, die der von Multi-Agenten-Systemen entspricht oder diese sogar übertrifft, die jedoch deutlich höhere Rechenkosten verursachen. Diese Ergebnisse demonstrieren die Effektivität von DianJin-R1 bei der Verbesserung des finanziellen Reasonings durch strukturierte Überwachung und belohnungsorientiertes Lernen und bieten eine skalierbare und praktische Lösung für reale Anwendungen.
Bei einem einzelnen gelabelten Beispiel zielt die In-Kontext-Segmentierung darauf ab, entsprechende Objekte zu segmentieren. Diese Einstellung, bekannt als One-Shot-Segmentierung im Few-Shot-Learning, untersucht die Generalisierungsfähigkeit des Segmentierungsmodells und wurde auf verschiedene Vision-Aufgaben angewendet, einschließlich Szenenverständnis und Bild-/Videobearbeitung. Während neuere Segment-Anything-Modelle (SAM) state-of-the-art Ergebnisse in der interaktiven Segmentierung erzielt haben, sind diese Ansätze nicht direkt auf die In-Kontext-Segmentierung anwendbar. In dieser Arbeit schlagen wir die Dual Consistency SAM (DC-SAM)-Methode basierend auf Prompt-Tuning vor, um SAM und SAM2 für die In-Kontext-Segmentierung von Bildern und Videos anzupassen. Unsere zentralen Erkenntnisse bestehen darin, die Merkmale des Prompt-Encoders von SAM in der Segmentierung durch die Bereitstellung hochwertiger visueller Prompts zu verbessern. Bei der Generierung einer Maskenpriorität fusionieren wir die SAM-Merkmale, um den Prompt-Encoder besser auszurichten. Anschließend entwerfen wir eine zyklus-konsistente Cross-Attention auf fusionierten Merkmalen und initialen visuellen Prompts. Daraufhin wird ein Dual-Branch-Design bereitgestellt, indem diskriminative positive und negative Prompts im Prompt-Encoder verwendet werden. Darüber hinaus entwerfen wir eine einfache Mask-Tube-Trainingsstrategie, um unsere vorgeschlagene Dual-Consistency-Methode in den Mask-Tube zu integrieren. Obwohl das vorgeschlagene DC-SAM primär für Bilder entwickelt wurde, kann es nahtlos mit der Unterstützung von SAM2 auf den Video-Bereich erweitert werden. Angesichts des Fehlens von In-Kontext-Segmentierung im Video-Bereich kuratieren und konstruieren wir manuell den ersten Benchmark aus bestehenden Video-Segmentierungsdatensätzen, genannt In-Context Video Object Segmentation (IC-VOS), um die In-Kontext-Fähigkeit des Modells besser zu bewerten. Umfangreiche Experimente zeigen, dass unsere Methode 55,5 (+1,4) mIoU auf COCO-20i, 73,0 (+1,1) mIoU auf PASCAL-5i und einen J&F-Score von 71,52 auf dem vorgeschlagenen IC-VOS-Benchmark erreicht. Unser Quellcode und Benchmark sind unter https://github.com/zaplm/DC-SAM verfügbar.