papers.description
Dieses Papier stellt Group Sequence Policy Optimization (GSPO) vor, unseren stabilen, effizienten und leistungsstarken Reinforcement-Learning-Algorithmus für das Training großer Sprachmodelle. Im Gegensatz zu früheren Algorithmen, die Token-basierte Wichtigkeitsverhältnisse verwenden, definiert GSPO das Wichtigkeitsverhältnis basierend auf der Sequenzwahrscheinlichkeit und führt Sequenz-basiertes Clipping, Belohnung und Optimierung durch. Wir zeigen, dass GSPO eine überlegene Trainingsleistung und Effizienz im Vergleich zum GRPO-Algorithmus erreicht, insbesondere die Mixture-of-Experts (MoE) RL-Trainings stabilisiert und das Potenzial besitzt, das Design von RL-Infrastrukturen zu vereinfachen. Diese Vorteile von GSPO haben zu den bemerkenswerten Verbesserungen in den neuesten Qwen3-Modellen beigetragen.
Jüngste Fortschritte in transformer-basierten Architekturen haben bemerkenswerte Erfolge bei Aufgaben der Videogenerierung gezeigt. Die quadratische Komplexität von vollständigen Aufmerksamkeitsmechanismen bleibt jedoch ein kritischer Engpass, insbesondere für hochauflösende und langandauernde Videosequenzen. In diesem Artikel stellen wir NABLA vor, einen neuartigen Neighborhood Adaptive Block-Level Attention-Mechanismus, der sich dynamisch an Sparsity-Muster in Video-Diffusion-Transformatoren (DiTs) anpasst. Durch die Nutzung von blockweiser Aufmerksamkeit mit einem adaptiven, sparsity-gesteuerten Schwellenwert reduziert NABLA den Rechenaufwand, während die generative Qualität erhalten bleibt. Unsere Methode erfordert kein spezielles Low-Level-Operator-Design und kann nahtlos mit PyTorchs Flex Attention-Operator integriert werden. Experimente zeigen, dass NABLA bis zu 2,7-mal schnellere Trainings- und Inferenzzeiten im Vergleich zur Baseline erreicht, fast ohne Einbußen bei quantitativen Metriken (CLIP-Score, VBench-Score, menschliche Bewertung) und visueller Qualität. Der Code und die Modellgewichte sind hier verfügbar: https://github.com/gen-ai-team/Wan2.1-NABLA.
Große Sprachmodelle (LLMs) haben beeindruckende Leistungen bei aufwendigen Denkaufgaben erzielt, doch die Optimierung ihrer Denkeffizienz bleibt eine offene Herausforderung. Während Test-Time Scaling (TTS) die Qualität des Denkens verbessert, führt es oft zu Überdenken, was Token für redundante Berechnungen verschwendet. Diese Arbeit untersucht, wie man das Test-Time Scaling von LLMs effizient und adaptiv steuern kann, ohne zusätzliches Training zu benötigen. Inspiriert vom physikalischen Konzept des Momentums schlagen wir Momentum Uncertainty-guided Reasoning (MUR) vor, das Denkbudgets dynamisch auf kritische Denkschritte verteilt, indem es schrittweise Unsicherheit über die Zeit verfolgt und aggregiert. Um eine flexible Steuerung zur Inferenzzeit zu ermöglichen, führen wir Gamma-Kontrolle ein, einen einfachen Mechanismus, der das Denkbudget über einen einzigen Hyperparameter anpasst. Wir liefern einen detaillierten theoretischen Beweis, der die Überlegenheit von MUR in Bezug auf Stabilität und Verzerrungen unterstützt. MUR wird umfassend gegen verschiedene TTS-Methoden auf vier anspruchsvollen Benchmarks (MATH-500, AIME24, AIME25 und GPQA-diamond) mit verschiedenen Größen der aktuellen Qwen3-Modelle (1,7B, 4B und 8B) evaluiert. Die Ergebnisse zeigen, dass MUR die Berechnungen im Durchschnitt um über 50 % reduziert und gleichzeitig die Genauigkeit um 0,62–3,37 % verbessert.
Wir präsentieren Captain Cinema, ein Generierungsframework zur Erstellung von Kurzfilmen. Ausgehend von einer detaillierten textuellen Beschreibung einer Filmhandlung generiert unser Ansatz zunächst eine Sequenz von Schlüsselbildern, die die gesamte Erzählung skizzieren. Dies gewährleistet eine langfristige Kohärenz sowohl in der Handlung als auch im visuellen Erscheinungsbild (z. B. Szenen und Charaktere). Wir bezeichnen diesen Schritt als Top-down-Schlüsselbildplanung. Diese Schlüsselbilder dienen anschließend als Konditionierungssignale für ein Videosynthesemodell, das langen Kontext unterstützt, um die räumlich-zeitliche Dynamik zwischen ihnen zu erzeugen. Dieser Schritt wird als Bottom-up-Videosynthese bezeichnet. Um die stabile und effiziente Generierung von mehrszenigen, narrativen Kinowerken mit langer Handlung zu ermöglichen, führen wir eine verschachtelte Trainingsstrategie für Multimodale Diffusions-Transformer (MM-DiT) ein, die speziell für langen Kontext in Videodaten angepasst ist. Unser Modell wird auf einem speziell kuratierten kinematografischen Datensatz trainiert, der aus verschachtelten Datenpaaren besteht. Unsere Experimente zeigen, dass Captain Cinema bei der automatisierten Erstellung von visuell kohärenten und narrativ konsistenten Kurzfilmen in hoher Qualität und Effizienz überzeugende Ergebnisse liefert. Projektseite: https://thecinema.ai
Große Reasoning-Modelle haben durch erweiterte Chain-of-Thought-Sequenzen bemerkenswerte Leistungen erzielt, doch diese rechnerische Freiheit führt selbst bei einfachen Problemen zu einer übermäßigen Token-Generierung. Wir präsentieren Length-Adaptive Policy Optimization (LAPO), ein neuartiges Framework, das die Kontrolle der Reasoning-Länge von einer externen Beschränkung in eine intrinsische Modellfähigkeit transformiert. Im Gegensatz zu bestehenden Ansätzen, die starre Grenzen vorgeben oder auf nachträgliche Eingriffe angewiesen sind, ermöglicht LAPO Modellen, ein Verständnis für die angemessene Reasoning-Tiefe durch einen zweistufigen Reinforcement-Learning-Prozess zu internalisieren. In der ersten Stufe lernen Modelle natürliche Reasoning-Muster, indem sie die statistische Verteilung erfolgreicher Lösungsdauern entdecken. Die zweite Stufe nutzt diese Muster als metakognitive Führung, indem sie direkt in den Reasoning-Kontext des Modells eingebettet werden, um Flexibilität zur Inferenzzeit zu gewährleisten. Experimente auf mathematischen Reasoning-Benchmarks zeigen, dass LAPO den Token-Verbrauch um bis zu 40,9\% reduziert und gleichzeitig die Genauigkeit um 2,3\% verbessert. Unsere Analyse zeigt, dass mit LAPO trainierte Modelle emergente Fähigkeiten entwickeln, um Rechenressourcen basierend auf der Problemkomplexität zuzuteilen, wodurch effizientes Reasoning ohne Qualitätseinbußen erreicht wird.
Trotz der bemerkenswerten Fortschritte, die durch aktuelle 3D-Generierungsarbeiten erzielt wurden, bleibt die Skalierung dieser Methoden auf geografische Ausmaße, wie die Modellierung von Tausenden Quadratkilometern der Erdoberfläche, eine offene Herausforderung. Wir adressieren dies durch eine doppelte Innovation in der Dateninfrastruktur und der Modellarchitektur. Zunächst stellen wir Aerial-Earth3D vor, den bisher größten 3D-Luftbilddatensatz, der aus 50.000 kuratierten Szenen (jeweils 600m x 600m) besteht, die über das gesamte US-Festland aufgenommen wurden und 45M Multi-View-Google-Earth-Bilder umfassen. Jede Szene bietet pose-annotierte Multi-View-Bilder, Tiefenkarten, Normalen, semantische Segmentierung und Kameraposen, mit expliziter Qualitätskontrolle, um die Geländevielfalt sicherzustellen. Auf dieser Grundlage aufbauend, schlagen wir EarthCrafter vor, ein maßgeschneidertes Framework für die großflächige 3D-Erdgenerierung durch spärlich-entkoppelte latente Diffusion. Unsere Architektur trennt strukturelle und texturale Generierung: 1) Duale spärliche 3D-VAEs komprimieren hochauflösende geometrische Voxel und texturale 2D-Gaussian-Splats (2DGS) in kompakte latente Räume, wodurch die rechenintensiven Kosten bei großen geografischen Maßstäben weitgehend reduziert werden, während kritische Informationen erhalten bleiben. 2) Wir schlagen bedingungsbewusste Flow-Matching-Modelle vor, die mit gemischten Eingaben (Semantik, Bilder oder keines von beiden) trainiert werden, um latente Geometrie- und Texturmerkmale unabhängig voneinander flexibel zu modellieren. Umfangreiche Experimente zeigen, dass EarthCrafter bei extrem großflächiger Generierung deutlich besser abschneidet. Das Framework unterstützt weiterhin vielseitige Anwendungen, von semantisch gesteuerter urbaner Layout-Generierung bis hin zu bedingungsloser Geländesynthese, während es durch unsere reichhaltigen Datenpriors aus Aerial-Earth3D geografische Plausibilität bewahrt. Unsere Projektseite ist verfügbar unter https://whiteinblue.github.io/earthcrafter/.
Die Skalierung von Modellen zur visuellen Generierung ist entscheidend für die Erstellung von Inhalten in der realen Welt, erfordert jedoch erhebliche Trainings- und Rechenressourcen. Alternativ hat die Skalierung zur Testzeit aufgrund der Ressourceneffizienz und vielversprechender Leistung zunehmend Aufmerksamkeit erregt. In dieser Arbeit präsentieren wir TTS-VAR, das erste allgemeine Framework zur Testzeit-Skalierung für visuelle autoregressive (VAR) Modelle, das den Generierungsprozess als Pfadsuchproblem modelliert. Um die Recheneffizienz dynamisch mit der Explorationskapazität auszubalancieren, führen wir zunächst einen adaptiven absteigenden Batch-Größenplan während des kausalen Generierungsprozesses ein. Darüber hinaus, inspiriert durch die hierarchische Grob-zu-Fein-Mehrskalen-Generierung von VAR, integriert unser Framework zwei Schlüsselkomponenten: (i) Auf groben Skalen beobachten wir, dass generierte Tokens schwer zu bewerten sind, was möglicherweise zur fehlerhaften Akzeptanz von minderwertigen Proben oder zur Ablehnung von überlegenen Proben führt. Da wir feststellen, dass die groben Skalen ausreichend strukturelle Informationen enthalten, schlagen wir eine clusterbasierte Diversitätssuche vor. Diese bewahrt die strukturelle Vielfalt durch semantische Feature-Clustering und ermöglicht eine spätere Auswahl von Proben mit höherem Potenzial. (ii) In feinen Skalen priorisiert eine resampling-basierte Potenzialauswahl vielversprechende Kandidaten mithilfe von Potenzial-Scores, die als Belohnungsfunktionen definiert sind, die die Mehrskalen-Generierungsgeschichte einbeziehen. Experimente mit dem leistungsstarken VAR-Modell Infinity zeigen eine bemerkenswerte Verbesserung des GenEval-Scores um 8,7 % (von 0,69 auf 0,75). Wichtige Erkenntnisse zeigen, dass strukturelle Merkmale in frühen Phasen die Endqualität effektiv beeinflussen und die Wirksamkeit des Resamplings über die Generierungsskalen variiert. Der Code ist verfügbar unter https://github.com/ali-vilab/TTS-VAR.
Große Reasoning-Modelle erzielen bemerkenswerte Leistungen durch umfangreiche Chain-of-Thought-Generierung, zeigen jedoch erhebliche Rechenineffizienz, indem sie unabhängig von der Problemkomplexität einheitliche Reasoning-Strategien anwenden. Wir stellen Hierarchical Budget Policy Optimization (HBPO) vor, ein Reinforcement-Learning-Framework, das es Modellen ermöglicht, problemspezifische Reasoning-Tiefen zu erlernen, ohne dabei die Fähigkeiten zu beeinträchtigen. HBPO adressiert die grundlegende Herausforderung des Explorationsraumkollapses in effizienzorientiertem Training, bei dem Strafen für lange Ausgabelängen Modelle systematisch von notwendigen langen Reasoning-Pfaden ablenken. Durch hierarchische Budget-Exploration partitioniert unser Ansatz Rollout-Samples in mehrere Untergruppen mit unterschiedlichen Token-Budgets, um eine effiziente Ressourcenallokation zu ermöglichen und gleichzeitig eine Verschlechterung der Fähigkeiten zu verhindern. Wir führen differenzierte Belohnungsmechanismen ein, die budgetbewusste Anreize schaffen, die mit der Komplexität des Problems abgestimmt sind, und es Modellen ermöglichen, natürliche Korrespondenzen zwischen Aufgabenanforderungen und Rechenaufwand zu entdecken. Umfangreiche Experimente zeigen, dass HBPO die durchschnittliche Token-Nutzung um bis zu 60,6 % reduziert und gleichzeitig die Genauigkeit über vier Reasoning-Benchmarks um 3,14 % verbessert. Im Gegensatz zu bestehenden Methoden, die externe Einschränkungen auferlegen oder auf diskrete Modusauswahl angewiesen sind, zeigt HBPO ein emergentes adaptives Verhalten, bei dem Modelle die Reasoning-Tiefe automatisch basierend auf der Problemkomplexität anpassen. Unsere Ergebnisse legen nahe, dass Reasoning-Effizienz und Fähigkeiten nicht inhärent im Konflikt stehen und gleichzeitig durch angemessen strukturiertes hierarchisches Training, das die Explorationsvielfalt erhält, optimiert werden können.
Die Informationsextraktion (IE) ist grundlegend für zahlreiche NLP-Anwendungen, doch bestehende Lösungen erfordern oft spezialisierte Modelle für verschiedene Aufgaben oder setzen auf rechenintensive große Sprachmodelle. Wir präsentieren GLiNER2, ein einheitliches Framework, das die ursprüngliche GLiNER-Architektur erweitert, um die Erkennung benannter Entitäten, Textklassifizierung und die Extraktion hierarchisch strukturierter Daten innerhalb eines einzigen effizienten Modells zu unterstützen. Basierend auf einer vortrainierten Transformer-Encoder-Architektur behält GLiNER2 CPU-Effizienz und kompakte Größe bei und führt gleichzeitig eine Multitask-Komposition durch eine intuitive schema-basierte Schnittstelle ein. Unsere Experimente zeigen eine wettbewerbsfähige Leistung bei Extraktions- und Klassifizierungsaufgaben mit erheblichen Verbesserungen in der Zugänglichkeit der Bereitstellung im Vergleich zu LLM-basierten Alternativen. Wir veröffentlichen GLiNER2 als eine Open-Source-Bibliothek, die über pip installierbar ist, und stellen vortrainierte Modelle sowie Dokumentation unter https://github.com/fastino-ai/GLiNER2 bereit.
Das Lernen aus nicht-stationären Datenströmen, die von Konzeptdrift betroffen sind, erfordert Modelle, die sich in Echtzeit anpassen können, während sie ressourceneffizient bleiben. Bestehende adaptive Ensemble-Methoden verlassen sich oft auf grobkörnige Anpassungsmechanismen oder einfache Abstimmungsschemata, die spezialisiertes Wissen nicht optimal nutzen. Dieses Papier stellt DriftMoE vor, eine Online-Mixture-of-Experts (MoE)-Architektur, die diese Einschränkungen durch einen neuartigen Co-Training-Rahmen adressiert. DriftMoE verfügt über einen kompakten neuronalen Router, der gemeinsam mit einem Pool von inkrementellen Hoeffding-Baum-Experten trainiert wird. Die Schlüsselinnovation liegt in einer symbiotischen Lernschleife, die die Spezialisierung der Experten ermöglicht: Der Router wählt den am besten geeigneten Experten für die Vorhersage aus, die relevanten Experten aktualisieren sich inkrementell mit dem wahren Label, und der Router verfeinert seine Parameter unter Verwendung einer Multi-Hot-Korrektheitsmaske, die jeden präzisen Experten verstärkt. Diese Rückkopplungsschleife liefert dem Router ein klares Trainingssignal und beschleunigt gleichzeitig die Spezialisierung der Experten. Wir bewerten die Leistung von DriftMoE anhand von neun state-of-the-art Datenstrom-Lernbenchmarks, die abrupte, graduelle und reale Drifts testen, und untersuchen dabei zwei verschiedene Konfigurationen: eine, bei der sich die Experten auf Datenregime spezialisieren (Multi-Klasse-Variante), und eine andere, bei der sie sich auf die Spezialisierung auf einzelne Klassen konzentrieren (aufgabenbasierte Variante). Unsere Ergebnisse zeigen, dass DriftMoE wettbewerbsfähige Ergebnisse mit state-of-the-art adaptiven Ensembles für das Lernen aus Datenströmen erzielt und einen prinzipiellen und effizienten Ansatz zur Anpassung an Konzeptdrift bietet. Der gesamte Code, die Datenpipelines und die Reproduzierbarkeitsskripte sind in unserem öffentlichen GitHub-Repository verfügbar: https://github.com/miguel-ceadar/drift-moe.
Wir stellen die neueste Serie der TeleChat-Modelle vor: TeleChat2, TeleChat2.5 und T1, die eine deutliche Verbesserung gegenüber ihrem Vorgänger, TeleChat, bieten. Trotz minimaler Änderungen an der Modellarchitektur erzielt die neue Serie erhebliche Leistungssteigerungen durch verbesserte Trainingsstrategien in den Vor- und Nachtrainingsphasen. Die Serie beginnt mit TeleChat2, das ein Vortraining mit 10 Billionen hochwertigen und vielfältigen Tokens durchläuft. Darauf folgen Supervised Fine-Tuning (SFT) und Direct Preference Optimization (DPO), um die Fähigkeiten weiter zu verbessern. TeleChat2.5 und T1 erweitern die Pipeline durch die Einbindung einer kontinuierlichen Vortrainingsphase mit domänenspezifischen Datensätzen, kombiniert mit Reinforcement Learning (RL), um die Leistung bei Codegenerierung und mathematischen Denkaufgaben zu steigern. Die T1-Variante ist für komplexes Denken konzipiert, unterstützt lange Chain-of-Thought (CoT)-Schlussfolgerungen und zeigt deutliche Verbesserungen in Mathematik und Programmierung. Im Gegensatz dazu priorisiert TeleChat2.5 Geschwindigkeit und ermöglicht schnelle Inferenz. Beide Flaggschiffmodelle, T1 und TeleChat2.5, basieren auf dichten Transformer-Architekturen mit 115 Milliarden Parametern und demonstrieren erhebliche Fortschritte in der Denkfähigkeit und der allgemeinen Aufgabenleistung im Vergleich zum ursprünglichen TeleChat. Bemerkenswert ist, dass T1-115B proprietäre Modelle wie OpenAI's o1-mini und GPT-4o übertrifft. Wir veröffentlichen TeleChat2, TeleChat2.5 und T1, einschließlich nachtrainierter Versionen mit 35 Milliarden und 115 Milliarden Parametern, um Entwicklern und Forschern modernste Sprachmodelle für vielfältige Anwendungen zur Verfügung zu stellen.
Jüngste Fortschritte in der Text-zu-Bild-Synthese profitieren maßgeblich von ausgeklügelten Sampling-Strategien und dem sogenannten "Classifier-Free Guidance" (CFG), um eine hochwertige Generierung zu gewährleisten. Allerdings führt die Abhängigkeit von CFG von zwei Vorwärtsdurchläufen, insbesondere in Kombination mit komplexen Sampling-Algorithmen, zu unverhältnismäßig hohen Inferenzkosten. Um dies zu adressieren, stellen wir TeEFusion (Text Embeddings Fusion) vor, eine neuartige und effiziente Distillationsmethode, die die Führungsstärke direkt in die Text-Embeddings integriert und die komplexe Sampling-Strategie des Lehrermodells destilliert. Durch die einfache Fusion von bedingten und unbedingten Text-Embeddings mittels linearer Operationen rekonstruiert TeEFusion die gewünschte Führung, ohne zusätzliche Parameter hinzuzufügen, und ermöglicht gleichzeitig dem Schülermodell, von der Ausgabe des Lehrermodells zu lernen, die durch dessen ausgeklügelte Sampling-Strategie erzeugt wird. Umfangreiche Experimente mit modernsten Modellen wie SD3 zeigen, dass unsere Methode es dem Schülermodell ermöglicht, die Leistung des Lehrermodells eng nachzuahmen, jedoch mit einer weitaus einfacheren und effizienteren Sampling-Strategie. Folglich erreicht das Schülermodell Inferenzgeschwindigkeiten, die bis zu sechsmal schneller sind als die des Lehrermodells, bei gleichbleibender Bildqualität, die mit der durch die komplexe Sampling-Strategie des Lehrermodells erzielten vergleichbar ist. Der Code ist öffentlich verfügbar unter https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.
Dieser Bericht dokumentiert, beschreibt und bewertet neue GloVe-Modelle (Global Vectors for Word Representation) für das Englische aus dem Jahr 2024. Während die ursprünglichen GloVe-Modelle aus dem Jahr 2014 weit verbreitet und nützlich waren, entwickeln sich Sprachen und die Welt weiter, und wir dachten, dass die aktuelle Nutzung von aktualisierten Modellen profitieren könnte. Darüber hinaus waren die Modelle von 2014 nicht sorgfältig in Bezug auf die genauen Datenversionen und die verwendete Vorverarbeitung dokumentiert, und wir korrigieren dies, indem wir diese neuen Modelle dokumentieren. Wir haben zwei Sätze von Wortvektoren unter Verwendung von Wikipedia, Gigaword und einer Teilmenge von Dolma trainiert. Die Bewertung durch Vokabularvergleiche, direkte Tests und NER-Aufgaben (Named Entity Recognition) zeigt, dass die Vektoren von 2024 neue kulturell und sprachlich relevante Wörter integrieren, bei strukturellen Aufgaben wie Analogien und Ähnlichkeiten vergleichbar abschneiden und eine verbesserte Leistung bei aktuellen, zeitabhängigen NER-Datensätzen wie nicht-westlichen Nachrichtendaten zeigen.
Segmente in der Computer Vision werden oft durch semantische Überlegungen definiert und sind stark von kategoriespezifischen Konventionen abhängig. Im Gegensatz dazu legt die Entwicklungspsychologie nahe, dass Menschen die Welt in Form von Spelke-Objekten wahrnehmen – Gruppierungen physischer Dinge, die sich zuverlässig gemeinsam bewegen, wenn sie durch physikalische Kräfte beeinflusst werden. Spelke-Objekte basieren somit auf kategorieunabhängigen kausalen Bewegungsbeziehungen, die potenziell Aufgaben wie Manipulation und Planung besser unterstützen. In diesem Artikel evaluieren wir zunächst das Konzept der Spelke-Objekte und stellen den SpelkeBench-Datensatz vor, der eine Vielzahl von klar definierten Spelke-Segmenten in natürlichen Bildern enthält. Anschließend entwickeln wir SpelkeNet, eine Klasse von visuellen Weltmodellen, die darauf trainiert sind, Verteilungen über zukünftige Bewegungen vorherzusagen, um Spelke-Segmente algorithmisch aus Bildern zu extrahieren. SpelkeNet unterstützt die Schätzung zweier Schlüsselkonzepte für die Entdeckung von Spelke-Objekten: (1) die Bewegungsaffordanzkarte, die Regionen identifiziert, die sich wahrscheinlich bei einem Stoß bewegen, und (2) die erwartete Verschiebungskarte, die erfasst, wie sich der Rest der Szene bewegen wird. Diese Konzepte werden für „statistisches kontrafaktisches Testen“ verwendet, bei dem diverse „virtuelle Stöße“ auf Regionen mit hoher Bewegungsaffordanz angewendet werden, und die resultierenden erwarteten Verschiebungskarten genutzt werden, um Spelke-Segmente als statistische Aggregate korrelierter Bewegungsstatistiken zu definieren. Wir stellen fest, dass SpelkeNet überwachte Baselines wie SegmentAnything (SAM) auf SpelkeBench übertrifft. Schließlich zeigen wir, dass das Spelke-Konzept praktisch nützlich für nachgelagerte Anwendungen ist und eine überlegene Leistung auf dem 3DEditBench-Benchmark für die physische Objektmanipulation erzielt, wenn es in einer Vielzahl von Standardmodellen zur Objektmanipulation eingesetzt wird.
Diffusionsbasierte Text-zu-Sprache (TTS)-Systeme haben bemerkenswerte Fortschritte in der Null-Shot-Sprachsynthese erzielt, doch die Optimierung aller Komponenten für wahrnehmungsbasierte Metriken bleibt eine Herausforderung. Frühere Arbeiten mit DMOSpeech demonstrierten die direkte Metrikoptimierung für Sprachgenerierungskomponenten, doch die Dauerprognose blieb unoptimiert. Dieses Papier stellt DMOSpeech 2 vor, das die Metrikoptimierung auf den Dauerprognosealgorithmus durch einen Reinforcement-Learning-Ansatz erweitert. Das vorgeschlagene System implementiert ein neuartiges Dauerprognose-Framework unter Verwendung von Group Relative Preference Optimization (GRPO) mit Sprecherähnlichkeit und Wortfehlerrate als Belohnungssignale. Durch die Optimierung dieser bisher unoptimierten Komponente schafft DMOSpeech 2 eine vollständigere metrikoptimierte Synthesepipeline. Zusätzlich führt dieses Papier das leitergestützte Sampling ein, einen hybriden Ansatz, der ein Lehrermodell für die ersten Entrauschungsschritte nutzt, bevor auf das Schülermodell gewechselt wird, was die Ausgabediversität erheblich verbessert, während die Effizienz erhalten bleibt. Umfassende Bewertungen zeigen eine überlegene Leistung in allen Metriken im Vergleich zu früheren Systemen, während die Sampling-Schritte halbiert werden, ohne Qualitätseinbußen. Diese Fortschritte stellen einen bedeutenden Schritt hin zu Sprachsynthesesystemen mit Metrikoptimierung über mehrere Komponenten dar. Die Audiobeispiele, der Code und die vortrainierten Modelle sind unter https://dmospeech2.github.io/ verfügbar.
Große Sprachmodelle (LLMs) zeigen beträchtliches Potenzial in finanziellen Anwendungen; jedoch weisen vorherrschende Modelle häufig Einschränkungen auf, wenn sie mit Szenarien konfrontiert werden, die anspruchsvolle Denkfähigkeiten, strenge Vertrauenswürdigkeitskriterien und effiziente Anpassung an domänenspezifische Anforderungen erfordern. Wir stellen die Agentar-Fin-R1-Serie von finanziellen großen Sprachmodellen (8B und 32B Parameter) vor, die speziell auf der Qwen3-Basismodellarchitektur entwickelt wurden, um die Denkfähigkeiten, Zuverlässigkeit und Domänenspezialisierung für finanzielle Anwendungen zu verbessern. Unser Optimierungsansatz integriert ein hochwertiges, systematisches Finanzaufgaben-Labelsystem mit einem umfassenden mehrschichtigen Vertrauenswürdigkeits-Sicherungsrahmen. Dieser Rahmen umfasst hochwertige vertrauenswürdige Wissensverarbeitung, Multi-Agenten-vertrauenswürdige Datensynthese und strenge Datenvalidierungs-Governance. Durch labelgesteuerte, automatisierte schwierigkeitsbewusste Optimierung, eine zweistufige Trainingspipeline und dynamische Attributionssysteme erreichen wir erhebliche Verbesserungen in der Trainings effizienz. Unsere Modelle werden umfassend auf gängigen finanziellen Benchmarks wie Fineva, FinEval und FinanceIQ sowie allgemeinen Denkdatensätzen wie MATH-500 und GPQA-diamond evaluiert. Um die Fähigkeiten zur realen Einsatzfähigkeit gründlich zu bewerten, schlagen wir innovativ den Finova-Evaluationsbenchmark vor, der sich auf Agentenebene finanzieller Denkfähigkeiten und Compliance-Überprüfung konzentriert. Experimentelle Ergebnisse zeigen, dass Agentar-Fin-R1 nicht nur Spitzenleistungen bei finanziellen Aufgaben erzielt, sondern auch außergewöhnliche allgemeine Denkfähigkeiten aufweist, was seine Wirksamkeit als vertrauenswürdige Lösung für hochriskante finanzielle Anwendungen bestätigt. Der Finova-Bench ist verfügbar unter https://github.com/antgroup/Finova.
Wir stellen den Iwin Transformer vor, einen neuartigen hierarchischen Vision Transformer ohne Positions-Einbettung, der direkt von niedriger zu hoher Auflösung feinabgestimmt werden kann, durch die Zusammenarbeit von innovativem Interleaved Window Attention und Tiefenweise Separierbarer Faltung. Dieser Ansatz nutzt Attention, um entfernte Tokens zu verbinden, und wendet Faltung an, um benachbarte Tokens zu verknüpfen, wodurch der globale Informationsaustausch innerhalb eines einzelnen Moduls ermöglicht wird und die Einschränkung des Swin Transformers überwunden wird, der zwei aufeinanderfolgende Blöcke benötigt, um globale Attention zu approximieren. Umfangreiche Experimente auf visuellen Benchmarks zeigen, dass der Iwin Transformer eine starke Wettbewerbsfähigkeit in Aufgaben wie Bildklassifizierung (87,4 Top-1 Genauigkeit auf ImageNet-1K), semantischer Segmentierung und Video-Aktionserkennung aufweist. Wir validieren auch die Wirksamkeit des Kernbestandteils in Iwin als eigenständiges Modul, das nahtlos das Self-Attention-Modul in der klassenbedingten Bildgenerierung ersetzen kann. Die Konzepte und Methoden, die der Iwin Transformer einführt, haben das Potenzial, zukünftige Forschungen zu inspirieren, wie z. B. Iwin 3D Attention in der Videogenerierung. Der Code und die Modelle sind unter https://github.com/cominder/Iwin-Transformer verfügbar.
Partially Relevant Video Retrieval (PRVR) befasst sich mit der entscheidenden Herausforderung, ungeschnittene Videos mit Textanfragen abzugleichen, die nur Teilinhalte beschreiben. Bestehende Methoden leiden unter geometrischer Verzerrung im euklidischen Raum, die manchmal die intrinsische hierarchische Struktur von Videos falsch darstellt und bestimmte hierarchische Semantiken übersieht, was letztendlich zu suboptimaler zeitlicher Modellierung führt. Um dieses Problem zu lösen, schlagen wir das erste hyperbolische Modellierungsframework für PRVR vor, nämlich HLFormer, das hyperbolisches Raumlernen nutzt, um die suboptimalen hierarchischen Modellierungsfähigkeiten des euklidischen Raums zu kompensieren. Konkret integriert HLFormer den Lorentz-Attention-Block und den Euklidischen-Attention-Block, um Video-Embeddings in hybriden Räumen zu kodieren, wobei das Mean-Guided Adaptive Interaction Module zur dynamischen Fusion von Merkmalen verwendet wird. Zusätzlich führen wir einen Partial Order Preservation Loss ein, der die Hierarchie „Text < Video“ durch Lorentz-Kegel-Beschränkungen erzwingt. Dieser Ansatz verbessert das cross-modale Matching weiter, indem er die partielle Relevanz zwischen Videoinhalten und Textanfragen verstärkt. Umfangreiche Experimente zeigen, dass HLFormer state-of-the-art Methoden übertrifft. Der Code ist unter https://github.com/lijun2005/ICCV25-HLFormer veröffentlicht.
Die Segmentierung medizinischer Bilder ist entscheidend für viele Aufgaben im Gesundheitswesen, einschließlich der Diagnose von Krankheiten und der Planung von Behandlungen. Ein zentraler Bereich ist die Segmentierung von Hautläsionen, die für die Diagnose von Hautkrebs und die Überwachung von Patienten von entscheidender Bedeutung ist. In diesem Zusammenhang stellt dieses Papier SegDT vor, ein neues Segmentierungsmodell, das auf einem Diffusion Transformer (DiT) basiert. SegDT ist darauf ausgelegt, auf kostengünstiger Hardware zu arbeiten und integriert Rectified Flow, was die Generierungsqualität bei reduzierten Inferenzschritten verbessert und die Flexibilität standardmäßiger Diffusionsmodelle beibehält. Unsere Methode wird auf drei Benchmark-Datensätzen evaluiert und mit mehreren bestehenden Arbeiten verglichen, wobei sie state-of-the-art Ergebnisse erzielt und gleichzeitig schnelle Inferenzgeschwindigkeiten beibehält. Dies macht das vorgeschlagene Modell für reale medizinische Anwendungen attraktiv. Diese Arbeit verbessert die Leistung und Fähigkeiten von Deep-Learning-Modellen in der medizinischen Bildanalyse und ermöglicht schnellere, genauere Diagnosewerkzeuge für medizinisches Fachpersonal. Der Code ist öffentlich verfügbar unter https://github.com/Bekhouche/SegDT{GitHub}.
Dieses Papier stellt einen neuartigen Deep-Learning-Ansatz zur gleichzeitigen Alters- und Geschlechtsklassifikation von Gesichtsbildern vor, der entwickelt wurde, um die Effektivität zielgerichteter Werbekampagnen zu steigern. Wir schlagen eine speziell angepasste Convolutional Neural Network (CNN)-Architektur vor, die für beide Aufgaben optimiert ist und die inhärente Korrelation zwischen Alters- und Geschlechtsinformationen in Gesichtsmerkmalen nutzt. Im Gegensatz zu bestehenden Methoden, die diese Aufgaben oft unabhängig voneinander behandeln, lernt unser Modell gemeinsame Repräsentationen, was zu einer verbesserten Leistung führt. Das Netzwerk wird auf einem großen, vielfältigen Datensatz von Gesichtsbildern trainiert, die sorgfältig vorverarbeitet wurden, um Robustheit gegenüber Variationen in Beleuchtung, Pose und Bildqualität zu gewährleisten. Unsere experimentellen Ergebnisse zeigen eine signifikante Verbesserung der Genauigkeit bei der Geschlechtsklassifikation mit 95 % und einen konkurrenzfähigen mittleren absoluten Fehler von 5,77 Jahren bei der Altersschätzung. Kritisch analysieren wir die Leistung über verschiedene Altersgruppen hinweg und identifizieren spezifische Herausforderungen bei der genauen Schätzung des Alters jüngerer Personen. Diese Analyse zeigt die Notwendigkeit einer gezielten Datenanreicherung und Modellverfeinerung, um diese Verzerrungen zu adressieren. Darüber hinaus untersuchen wir den Einfluss verschiedener CNN-Architekturen und Hyperparameter-Einstellungen auf die Gesamtleistung und liefern wertvolle Erkenntnisse für zukünftige Forschungen.
Multimodale Large Language Models (MLLMs), die auf leistungsstarken Sprachmodellen basieren, haben Multimodales In-Context Learning (MICL) ermöglicht – die Anpassung an neue Aufgaben anhand weniger multimodaler Demonstrationen, die Bilder, Fragen und Antworten enthalten. Trotz bemerkenswerter Verbesserungen bei standardisierten Vision-Language-Datensätzen haben aktuelle MLLMs Schwierigkeiten, visuelle Informationen in den Demonstrationen effektiv zu nutzen. Insbesondere neigen sie dazu, visuelle Hinweise zu vernachlässigen und sich übermäßig auf textuelle Muster zu verlassen, was zu bloßer Textnachahmung anstatt echter multimodaler Anpassung führt. Dieses Verhalten macht MICL weiterhin unimodal und schränkt dessen praktischen Nutzen erheblich ein. Noch wichtiger ist, dass diese Einschränkung oft durch verbesserte Leistungen bei Aufgaben verdeckt wird, die kein Verständnis des visuellen Kontexts erfordern. Infolgedessen bleibt die Frage, wie die MICL-Fähigkeit effektiv gesteigert und die MICL-Leistung zuverlässig bewertet werden kann, weitgehend unerforscht. Um diese Probleme zu adressieren, führen wir zunächst Dynamic Attention Reallocation (DARA) ein, eine effiziente Feinabstimmungsstrategie, die Modelle dazu anregt, den visuellen Kontext stärker zu berücksichtigen, indem die Aufmerksamkeit zwischen visuellen und textuellen Tokens neu ausbalanciert wird. Zusätzlich präsentieren wir TrueMICL, einen MICL-spezifischen Datensatz mit sowohl Unterstützungs- als auch Testdatensätzen, der explizit die Integration multimodaler Informationen – insbesondere visueller Inhalte – für die korrekte Aufgabenbewältigung erfordert. Umfangreiche Experimente demonstrieren die Wirksamkeit unserer ganzheitlichen Lösung und zeigen erhebliche Verbesserungen in den echten multimodalen In-Context-Lernfähigkeiten. Code und Datensätze sind unter https://chenxshuo.github.io/true-micl-colm verfügbar.