Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Mit der Veröffentlichung des o1-Modells von OpenAI haben sich nach und nach Reasoning-Modelle durchgesetzt, die langsame Denkstrategien anwenden. Da die von solchen Modellen generierten Antworten oft komplexe Schlussfolgerungen, Zwischenschritte und Selbstreflexion enthalten, sind bestehende Evaluierungsmethoden häufig unzureichend. Sie haben Schwierigkeiten, festzustellen, ob die Ausgabe des LLM tatsächlich der Referenzantwort entspricht, und es fällt ihnen schwer, die endgültige Antwort aus langen, komplexen Antworten zu identifizieren und zu extrahieren. Um dieses Problem zu lösen, schlagen wir xVerify vor, einen effizienten Antwortprüfer für die Bewertung von Reasoning-Modellen. xVerify zeigt eine starke Fähigkeit in der Äquivalenzbeurteilung, wodurch es effektiv bestimmen kann, ob die von Reasoning-Modellen erzeugten Antworten den Referenzantworten bei verschiedenen Arten von objektiven Fragen entsprechen. Um xVerify zu trainieren und zu bewerten, erstellen wir den VAR-Datensatz, indem wir Frage-Antwort-Paare sammeln, die von mehreren LLMs über verschiedene Datensätze hinweg generiert wurden, und dabei mehrere Reasoning-Modelle sowie anspruchsvolle Evaluierungssätze nutzen, die speziell für die Bewertung von Reasoning-Modellen entwickelt wurden. Ein mehrstufiger Annotationsprozess wird eingesetzt, um die Genauigkeit der Labels sicherzustellen. Basierend auf dem VAR-Datensatz trainieren wir mehrere xVerify-Modelle unterschiedlicher Größe. In Evaluierungsexperimenten, die sowohl auf dem Testset als auch auf dem Generalisierungsset durchgeführt wurden, erreichen alle xVerify-Modelle Gesamt-F1-Werte und Genauigkeiten von über 95 %. Bemerkenswerterweise übertrifft die kleinste Variante, xVerify-0.5B-I, alle Evaluierungsmethoden außer GPT-4o, während xVerify-3B-Ib GPT-4o in der Gesamtleistung übertrifft. Diese Ergebnisse bestätigen die Wirksamkeit und Generalisierbarkeit von xVerify.
Wir präsentieren Seedream 3.0, ein leistungsstarkes chinesisch-englisches bilinguales Bildgenerierungs-Grundmodell. Wir haben mehrere technische Verbesserungen entwickelt, um bestehende Herausforderungen von Seedream 2.0 zu adressieren, darunter die Ausrichtung auf komplexe Prompts, die Erzeugung feingliedriger Typografie, suboptimale visuelle Ästhetik und Bildtreue sowie begrenzte Bildauflösungen. Konkret resultieren die Fortschritte von Seedream 3.0 aus Verbesserungen entlang der gesamten Pipeline, von der Datenerstellung bis zur Modellbereitstellung. Auf der Datenebene verdoppeln wir den Datensatz durch ein defektbewusstes Trainingsparadigma und ein dual-axiales, kollaboratives Datenabtastungsframework. Darüber hinaus setzen wir im Pre-Training mehrere effektive Techniken ein, wie Mixed-Resolution-Training, Cross-Modality RoPE, Representation Alignment Loss und Resolution-Aware Timestep Sampling. In der Post-Training-Phase nutzen wir diversifizierte ästhetische Beschreibungen im SFT sowie ein skalierbares VLM-basiertes Belohnungsmodell, wodurch Ausgaben erzielt werden, die gut mit menschlichen Präferenzen übereinstimmen. Zudem führt Seedream 3.0 ein neuartiges Beschleunigungsparadigma ein. Durch den Einsatz von konsistenter Rauscherwartung und importance-aware Timestep Sampling erreichen wir eine 4- bis 8-fache Beschleunigung bei gleichbleibender Bildqualität. Seedream 3.0 zeigt signifikante Verbesserungen gegenüber Seedream 2.0: Es steigert die Gesamtfähigkeiten, insbesondere bei der Textdarstellung komplexer chinesischer Schriftzeichen, was für die professionelle Typografieerzeugung entscheidend ist. Zudem bietet es native Hochauflösungsausgaben (bis zu 2K), wodurch Bilder mit hoher visueller Qualität generiert werden können.
Die Weiterentwicklung der Denkfähigkeiten von LLMs (Large Language Models) hat großes Interesse geweckt. Aktuelle Nachschulungstechniken stützen sich jedoch stark auf überwachte Signale, wie Ergebnisüberwachung oder zusätzliche Belohnungsmodelle, die mit Problemen der Skalierbarkeit und hohen Anmerkungskosten konfrontiert sind. Dies motiviert uns, die Denkfähigkeiten von LLMs ohne externe Überwachung zu verbessern. Wir stellen ein generalisierbares und rein unüberwachtes Selbstschulungsframework namens Genius vor. Ohne externe Hilfsmittel muss Genius die optimale Antwortsequenz schrittweise ermitteln und den LLM optimieren. Um die potenziellen Schritte zu erkunden und die optimalen auszunutzen, führt Genius eine schrittweise Vorausschau-Neustichprobenstrategie ein, um die Schritte zu beproben und den Schrittwert durch die Simulation zukünftiger Ergebnisse zu schätzen. Weiterhin erkennen wir, dass die unüberwachte Einstellung unweigerlich intrinsisches Rauschen und Unsicherheit induziert. Um eine robuste Optimierung zu gewährleisten, schlagen wir eine vorteilskalibrierte Optimierungsverlustfunktion (ACO) vor, um Schätzungsinkonsistenzen zu mildern. Durch die Kombination dieser Techniken bietet Genius einen fortgeschrittenen ersten Schritt zur Selbstverbesserung der Denkfähigkeiten von LLMs mit allgemeinen Anfragen und ohne Überwachung, was die Skalierungsgesetze des Denkens angesichts der großen Verfügbarkeit allgemeiner Anfragen revolutioniert. Der Code wird unter https://github.com/xufangzhi/Genius veröffentlicht.
Während das Post-Training großer Sprachmodelle (LLMs) von der Befolgung von Anweisungen zu komplexen Denkaufgaben fortschreitet, bleibt das Verständnis darüber, wie unterschiedliche Daten die Feinabstimmungsdynamik beeinflussen, weitgehend unerforscht. In diesem Artikel präsentieren wir eine spektrale Analyse der schichtweisen Gradienten, die durch qualitativ hochwertige und minderwertige Anweisungs- und Denkdaten für das Post-Training von LLMs induziert werden. Unsere Analyse zeigt, dass weit verbreitete Metriken zur Datenbewertung, z. B. IFD, InsTag, Schwierigkeit und Belohnung, durch spektrale Eigenschaften erklärt und vereinheitlicht werden können, die aus der Singulärwertzerlegung (SVD) der Gradienten berechnet werden. Insbesondere sind qualitativ höherwertige Daten in der Regel mit niedrigeren nuklearen Normen und höheren effektiven Rängen verbunden. Bemerkenswerterweise zeigt der effektive Rang eine bessere Robustheit und Auflösung als die nukleare Norm bei der Erfassung subtiler Qualitätsunterschiede. Beispielsweise erreichen Denkdaten deutlich höhere effektive Ränge als Anweisungsdaten, was auf reichere Gradientenstrukturen bei komplexeren Aufgaben hindeutet. Unsere Experimente zeigen auch, dass Modelle innerhalb derselben Familie unabhängig von ihrer Größe ähnliche Gradientenmuster aufweisen, während sich verschiedene Modellfamilien erheblich unterscheiden. Indem diese Arbeit eine einheitliche Sicht auf die Auswirkungen der Datenqualität über Anweisungs- und Denkdaten hinweg bietet, beleuchtet sie das Zusammenspiel zwischen Datenqualität und Trainingsstabilität und liefert neue Erkenntnisse für die Entwicklung besserer Datenexplorationsstrategien für das Post-Training.
Ein KI-System kann Wissen nur in dem Maße schaffen und aufrechterhalten, in dem es dieses Wissen selbst überprüfen kann. Aktuelle Arbeiten zur langen Chain-of-Thought-Argumentation haben das große Potenzial von LLMs bei der Lösung von Wettbewerbsproblemen aufgezeigt, doch ihre Fähigkeit zur Überprüfung bleibt schwach und wurde bisher nicht ausreichend untersucht. In diesem Artikel stellen wir Heimdall vor, das langkettige CoT-Überprüfungs-LLM, das die Korrektheit von Lösungen präzise beurteilen kann. Durch rein bestärkendes Lernen steigern wir die Überprüfungsgenauigkeit von 62,5 % auf 94,5 % bei Wettbewerbsmathematikproblemen. Durch Skalierung mit wiederholter Stichprobenentnahme erhöht sich die Genauigkeit weiter auf 97,5 %. In menschlichen Bewertungen zeigt Heimdall beeindruckende Generalisierungsfähigkeiten und erkennt erfolgreich die meisten Probleme in anspruchsvollen mathematischen Beweisen, deren Typ während des Trainings nicht enthalten war. Darüber hinaus schlagen wir die Pessimistische Überprüfung vor, um die Funktionalität von Heimdall zur Skalierung der Problemlösung zu erweitern. Sie ruft Heimdall auf, um die Lösungen eines Lösungsmodells zu beurteilen, und wählt basierend auf dem pessimistischen Prinzip die wahrscheinlich korrekte Lösung mit der geringsten Unsicherheit aus. Mit DeepSeek-R1-Distill-Qwen-32B als Lösungsmodell verbessert die Pessimistische Überprüfung die Lösungsgenauigkeit bei AIME2025 von 54,2 % auf 70,0 % mit einem 16-fachen Rechenbudget und auf 83,3 % mit einem höheren Rechenbudget. Mit dem stärkeren Lösungsmodell Gemini 2.5 Pro erreicht die Punktzahl 93,0 %. Schließlich prototypisieren wir ein automatisches Wissensentdeckungssystem, ein ternäres System, in dem eine Komponente Fragen stellt, eine andere Lösungen liefert und die dritte die Lösungen überprüft. Mit der Datensynthesearbeit NuminaMath für die ersten beiden Komponenten identifiziert Heimdall effektiv problematische Datensätze innerhalb des Datensatzes und zeigt, dass fast die Hälfte der Daten fehlerhaft ist, was interessanterweise mit den jüngsten Ablationsstudien von NuminaMath übereinstimmt.
TextArena ist eine Open-Source-Sammlung von wettbewerbsorientierten textbasierten Spielen zur Schulung und Bewertung von agentenbasiertem Verhalten in Large Language Models (LLMs). Es umfasst über 57 einzigartige Umgebungen (einschließlich Einzelspieler-, Zwei-Spieler- und Mehrspieler-Setups) und ermöglicht eine einfache Bewertung der Modellfähigkeiten über ein Online-Spielsystem (gegen Menschen und andere eingereichte Modelle) mit Echtzeit-TrueSkill-Werten. Traditionelle Benchmarks bewerten selten dynamische soziale Fähigkeiten wie Verhandlung, Theory of Mind und Täuschung, wodurch eine Lücke entsteht, die TextArena schließt. Mit Fokus auf Forschung, Gemeinschaft und Erweiterbarkeit betont TextArena die einfache Hinzufügung neuer Spiele, die Anpassung des Frameworks, das Testen von Modellen, das Spielen gegen die Modelle und das Trainieren von Modellen. Detaillierte Dokumentationen der Umgebungen, Spiele, Bestenlisten und Beispiele sind auf https://github.com/LeonGuertler/TextArena und https://www.textarena.ai/ verfügbar.
Multimodale Large Language Models (MLLMs) erzielen bemerkenswerte Leistungen bei feingranularen, pixelgenauen Verständnisaufgaben. Allerdings basieren alle bisherigen Arbeiten stark auf zusätzlichen Komponenten wie Vision-Encodern (CLIP) oder Segmentierungsexperten, was zu einer hohen Systemkomplexität führt und die Skalierbarkeit der Modelle einschränkt. In dieser Arbeit ist unser Ziel, ein stark vereinfachtes MLLM zu erforschen, ohne zusätzliche Komponenten einzuführen. Unsere Arbeit wird durch aktuelle Ansätze zur Single-Transformer-Designs als vereinheitlichte Vision-Sprache-Modelle (SAIL) inspiriert, bei denen Vision-Token und Text-Token gemeinsam in Transformern gelernt werden. Wir präsentieren Pixel-SAIL, einen einzelnen Transformer für pixelweise MLLM-Aufgaben. Insbesondere führen wir drei technische Verbesserungen gegenüber der einfachen Baseline ein. Erstens entwerfen wir ein lernbares Upsampling-Modul, um visuelle Token-Features zu verfeinern. Zweitens schlagen wir eine neuartige Strategie zur Einbindung visueller Prompts vor, die es dem einzelnen Transformer ermöglicht, visuelle Prompt-Eingaben zu verstehen und von der frühen Fusion von visuellen Prompt-Embeddings und Vision-Tokens zu profitieren. Drittens führen wir eine Vision-Expert-Distillationsstrategie ein, um die feingranulare Feature-Extraktionsfähigkeit des einzelnen Transformers effizient zu verbessern. Zusätzlich haben wir einen umfassenden Benchmark für das Pixelverständnis (PerBench) durch manuelle Überprüfung zusammengestellt. Dieser umfasst drei Aufgaben: detaillierte Objektbeschreibung, visuelle Prompt-basierte Frage-Antwort-Systeme und visuell-textuelle Referenzsegmentierung. Umfangreiche Experimente auf vier Referenzsegmentierungs-Benchmarks, einem visuellen Prompt-Benchmark und unserem PerBench zeigen, dass Pixel-SAIL mit einer deutlich einfacheren Pipeline vergleichbare oder sogar bessere Ergebnisse erzielt. Code und Modelle werden unter https://github.com/magic-research/Sa2VA veröffentlicht.
Die Schätzung von Oberflächennormalen bildet einen Grundpfeiler für eine Vielzahl von Computer-Vision-Anwendungen. Während zahlreiche Bemühungen auf statische Bildszenarien ausgerichtet waren, bleibt die Gewährleistung zeitlicher Kohärenz bei der Normalenschätzung in Videos eine beträchtliche Herausforderung. Anstatt bestehende Methoden lediglich mit zeitlichen Komponenten zu erweitern, präsentieren wir NormalCrafter, um die inhärenten zeitlichen Prioritäten von Video-Diffusionsmodellen zu nutzen. Um eine hochwertige Normalenschätzung über Sequenzen hinweg zu sichern, schlagen wir die Semantische Merkmalsregularisierung (Semantic Feature Regularization, SFR) vor, die Diffusionsmerkmale mit semantischen Hinweisen abstimmt und das Modell dazu anregt, sich auf die intrinsische Semantik der Szene zu konzentrieren. Darüber hinaus führen wir ein zweistufiges Trainingsprotokoll ein, das sowohl latente als auch Pixelraum-Lernprozesse nutzt, um räumliche Genauigkeit zu bewahren und gleichzeitig einen langen zeitlichen Kontext aufrechtzuerhalten. Umfangreiche Auswertungen belegen die Wirksamkeit unserer Methode und zeigen eine überlegene Leistung bei der Erzeugung zeitlich konsistenter Normalensequenzen mit detaillierten Strukturen aus diversen Videos.
Reinforcement Learning (RL) hat sich zu einem vorherrschenden Ansatz für das Feinabstimmen großer Sprachmodelle (LLMs) bei komplexen Denkaufgaben entwickelt. Unter den jüngsten Methoden sticht GRPO durch seinen empirischen Erfolg bei der Ausbildung von Modellen wie DeepSeek-R1 hervor, doch die Quellen seiner Effektivität bleiben weitgehend unverstanden. In dieser Arbeit betrachten wir GRPO aus der Perspektive eines reinforce-ähnlichen Algorithmus und analysieren seine Kernkomponenten. Überraschenderweise stellen wir fest, dass eine einfache Rejection-Sampling-Baseline, RAFT, die nur auf positiv belohnten Stichproben trainiert, eine vergleichbare Leistung wie GRPO und PPO erzielt. Unsere Ablationsstudien zeigen, dass der Hauptvorteil von GRPO darin besteht, Eingaben mit vollständig falschen Antworten zu verwerfen, und nicht in seiner Belohnungsnormalisierung. Motiviert durch diese Erkenntnis schlagen wir Reinforce-Rej vor, eine minimale Erweiterung des Policy Gradient, das sowohl vollständig falsche als auch vollständig korrekte Stichproben filtert. Reinforce-Rej verbessert die KL-Effizienz und Stabilität und dient als leichtgewichtige, aber effektive Alternative zu komplexeren RL-Algorithmen. Wir plädieren dafür, RAFT als robuste und interpretierbare Baseline zu verwenden, und schlagen vor, dass zukünftige Fortschritte sich auf prinzipiellere Designs für die Einbindung negativer Stichproben konzentrieren sollten, anstatt sie unkritisch zu nutzen. Unsere Erkenntnisse bieten Orientierung für zukünftige Arbeiten im Bereich der belohnungsbasierten Nachschulung von LLMs.
Vernunftmodelle haben bemerkenswerte Fortschritte bei der Lösung komplexer und logikintensiver Aufgaben gezeigt, indem sie ausgedehnte Chain-of-Thoughts (CoTs) generieren, bevor sie zu einer endgültigen Antwort gelangen. Doch das Aufkommen dieses „langsamen Denkens“-Paradigmas, bei dem zahlreiche Token in Folge erzeugt werden, führt unweigerlich zu einem erheblichen Rechenaufwand. Dies unterstreicht die dringende Notwendigkeit einer effektiven Beschleunigung. Diese Übersichtsarbeit zielt darauf ab, einen umfassenden Überblick über die jüngsten Fortschritte im Bereich des effizienten Schließens zu geben. Sie kategorisiert bestehende Arbeiten in drei Schlüsselrichtungen: (1) kürzer – die Komprimierung langer CoTs in prägnante, aber effektive Schließketten; (2) kleiner – die Entwicklung kompakter Sprachmodelle mit starken Schließfähigkeiten durch Techniken wie Wissensdistillation, andere Modellkompressionsverfahren und bestärkendes Lernen; und (3) schneller – die Gestaltung effizienter Dekodierungsstrategien zur Beschleunigung der Inferenz. Eine ausgewählte Sammlung der in dieser Übersichtsarbeit diskutierten Arbeiten ist in unserem GitHub-Repository verfügbar.
Da das Pretraining großer Sprachmodelle auf verschiedenen Datensätzen kostspielig ist, ist die Verwendung von kleineren Experimenten zur Entscheidungsfindung über Daten entscheidend, um Kosten zu reduzieren. Welche Benchmarks und Methoden zur Entscheidungsfindung basierend auf beobachteter Leistung im kleinen Maßstab sagen die Datensätze, die die besten großen Modelle liefern, am genauesten voraus? Um die offene Erforschung dieser Frage zu ermöglichen, veröffentlichen wir Modelle, Daten und Auswertungen in DataDecide – die umfangreichste offene Sammlung von Modellen mit Unterschieden in Daten und Skalierung. Wir führen kontrollierte Pretraining-Experimente über 25 Korpora mit unterschiedlichen Quellen, Deduplizierung und Filterung bis zu 100 Milliarden Tokens, Modellgrößen bis zu 1 Milliarde Parametern und 3 zufälligen Seeds durch. Wir stellen fest, dass die Rangfolge der Modelle bei einer einzigen, kleinen Größe (z.B. 150 Millionen Parameter) eine starke Baseline für die Vorhersage der besten Modelle in unserem größeren Zielmaßstab (1 Milliarde) ist (~80 % der Vergleiche korrekt). Keine der 8 Baseline-Methoden zur Skalierungsgesetzgebung übertrifft die Compute-Entscheidungsgrenze von Vorhersagen auf einer einzigen Skala, aber DataDecide kann Verbesserungen in zukünftigen Skalierungsgesetzen messen. Wir identifizieren auch, dass die Verwendung kontinuierlicher Wahrscheinlichkeitsmetriken als Stellvertreter in kleinen Experimenten Benchmarks wie MMLU, ARC, HellaSwag, MBPP und HumanEval zu mehr als 80 % vorhersagbar macht, und dies bei nur 0,01 % des Rechenaufwands im Zielmaßstab von 1 Milliarde.
Retrieval-Augmented Generation (RAG) verbessert die Leistung von Large Language Models (LLMs) bei wissensintensiven Aufgaben, hängt jedoch stark von der Qualität der anfänglichen Suchanfrage ab. Aktuelle Methoden, die oft Reinforcement Learning (RL) verwenden, konzentrieren sich typischerweise auf die Formulierung von Anfragen oder das Schlussfolgern über Ergebnisse, ohne explizit das Beharren nach einer gescheiterten Suche zu fördern. Wir stellen ReZero (Retry-Zero) vor, ein neuartiges RL-Framework, das direkt den Akt des Wiederholens einer Suchanfrage nach einem anfänglich erfolglosen Versuch belohnt. Dies motiviert das LLM, alternative Anfragen zu erkunden, anstatt vorzeitig abzubrechen. ReZero zeigt eine signifikante Verbesserung und erreicht eine Genauigkeit von 46,88 % im Vergleich zu einem Basiswert von 25 %. Durch die Belohnung von Beharrlichkeit erhöht ReZero die Robustheit von LLMs in komplexen Informationssuchszenarien, in denen anfängliche Anfragen möglicherweise unzureichend sind.
Dieses Papier stellt SAIL vor, ein einheitliches multimodales großes Sprachmodell (MLLM) auf Basis eines einzelnen Transformers, das die Rohpixelkodierung und Sprachdekodierung innerhalb einer einzigen Architektur integriert. Im Gegensatz zu bestehenden modularen MLLMs, die auf einen vortrainierten Vision Transformer (ViT) angewiesen sind, eliminiert SAIL die Notwendigkeit eines separaten Vision-Encoders und präsentiert damit ein minimalistisches Architekturdesign. Anstatt neue architektonische Komponenten einzuführen, passt SAIL Mix-Attention-Mechanismen und multimodale Positionskodierungen an, um besser mit den unterschiedlichen Eigenschaften der visuellen und textuellen Modalitäten in Einklang zu kommen. Wir vergleichen systematisch die Eigenschaften von SAIL – einschließlich Skalierbarkeit, Muster des cross-modalen Informationsflusses und visueller Repräsentationsfähigkeiten – mit denen modularer MLLMs. Durch die Skalierung sowohl der Trainingsdaten als auch der Modellgröße erreicht SAIL eine Leistung, die mit der modularer MLLMs vergleichbar ist. Insbesondere die Entfernung der vortrainierten ViT-Komponenten verbessert die Skalierbarkeit von SAIL und führt zu deutlich unterschiedlichen Mustern des cross-modalen Informationsflusses. Darüber hinaus zeigt SAIL starke visuelle Repräsentationsfähigkeiten und erzielt Ergebnisse, die mit ViT-22B in Vision-Aufgaben wie semantischer Segmentierung vergleichbar sind. Code und Modelle sind unter https://github.com/bytedance/SAIL verfügbar.
Diese Arbeit stellt SimpleAR vor, ein einfaches autoregressives Framework zur visuellen Generierung ohne komplexe Architekturmodifikationen. Durch sorgfältige Untersuchung von Trainings- und Inferenzoptimierung zeigen wir, dass: 1) unser Modell mit nur 0,5 Milliarden Parametern Bilder in 1024x1024 Auflösung mit hoher Detailtreue erzeugen und wettbewerbsfähige Ergebnisse auf anspruchsvollen Text-zu-Bild-Benchmarks erzielen kann, z.B. 0,59 auf GenEval und 79,66 auf DPG; 2) sowohl überwachtes Feintuning (SFT) als auch Group Relative Policy Optimization (GRPO) zu signifikanten Verbesserungen in der Generierungsästhetik und Prompt-Ausrichtung führen können; und 3) die Zeit für SimpleAR, ein 1024x1024 Bild zu generieren, durch Inferenzbeschleunigungstechniken wie vLLM auf etwa 14 Sekunden reduziert werden kann. Durch die Veröffentlichung dieser Erkenntnisse und die Open-Source-Bereitstellung des Codes hoffen wir, das Potenzial der autoregressiven visuellen Generierung aufzuzeigen und mehr Beteiligung in diesem Forschungsbereich zu fördern. Der Code ist verfügbar unter https://github.com/wdrink/SimpleAR.
Die Fähigkeit zu komplexem mathematischem Denken ist ein zentraler Maßstab für künstliche Intelligenz. Obwohl Reinforcement Learning (RL), das auf Large Language Models (LLMs) angewendet wird, vielversprechend ist, wird der Fortschritt erheblich durch den Mangel an groß angelegten Trainingsdaten behindert, die ausreichend herausfordernd sind, überprüfbare Antwortformate für RL bieten und frei von Kontamination mit Evaluierungsbenchmarks sind. Um diese Einschränkungen zu überwinden, stellen wir DeepMath-103K vor, einen neuen, groß angelegten Datensatz, der etwa 103.000 mathematische Probleme umfasst und speziell dafür entwickelt wurde, fortschrittliche Denkmodelle durch RL zu trainieren. DeepMath-103K wird durch einen rigorosen Prozess kuratiert, der Quellenanalyse, strenge Dekontamination gegenüber zahlreichen Benchmarks und Filterung nach hohem Schwierigkeitsgrad (hauptsächlich Stufen 5-9) umfasst, wodurch es bestehende offene Ressourcen deutlich an Herausforderung übertrifft. Jedes Problem enthält eine überprüfbare Endantwort, die regelbasiertes RL ermöglicht, sowie drei verschiedene, durch R1 generierte Lösungen, die sich für verschiedene Trainingsparadigmen wie überwachtes Feintuning oder Distillation eignen. DeepMath-103K deckt ein breites Spektrum mathematischer Themen ab und fördert die Entwicklung generalisierbaren Denkens. Wir zeigen, dass Modelle, die auf DeepMath-103K trainiert werden, signifikante Verbesserungen bei anspruchsvollen mathematischen Benchmarks erzielen, was seine Wirksamkeit bestätigt. Wir veröffentlichen DeepMath-103K öffentlich, um den Fortschritt der Gemeinschaft beim Aufbau leistungsfähigerer KI-Denksysteme zu fördern: https://github.com/zwhe99/DeepMath.
Process Reward Models (PRMs) bieten schrittweise Überwachung für große Sprachmodelle (LLMs), doch die Skalierung der Annotation von Trainingsdaten bleibt sowohl für Menschen als auch für LLMs eine Herausforderung. Um diese Einschränkung zu überwinden, schlagen wir einen aktiven Lernansatz vor, ActPRM, der proaktiv die unsichersten Samples für das Training auswählt und so die Labeling-Kosten erheblich reduziert. Während des Trainings verwenden wir das PRM, um die Unsicherheit nach dem Forward-Pass zu schätzen und behalten nur hochgradig unsichere Daten bei. Ein leistungsfähiges, aber kostspieliges Reasoning-Modell labelt dann diese Daten. Anschließend berechnen wir den Verlust in Bezug auf die Labels und aktualisieren die Gewichte des PRMs. Wir vergleichen ActPRM mit dem herkömmlichen Fine-Tuning in einem Pool-basierten aktiven Lernsetting und zeigen, dass ActPRM 50 % der Annotationen reduziert, dabei aber vergleichbare oder sogar bessere Leistungen erzielt. Über die Effizienz der Annotation hinaus verbessern wir das aktiv trainierte PRM weiter, indem wir über 1M+ mathematische Reasoning-Trajektorien mit ActPRM filtern und 60 % der Daten behalten. Ein anschließendes Training auf diesem ausgewählten Datensatz führt zu einem neuen State-of-the-Art (SOTA) PRM auf ProcessBench (75,0 %) und PRMBench (65,5 %) im Vergleich zu Modellen gleicher Größe.
Diffusionsmodelle zeichnen sich durch die Erzeugung hochdimensionaler Daten aus, bleiben jedoch in Bezug auf Trainings effizienz und Repräsentationsqualität hinter selbstüberwachten Methoden zurück. Wir identifizieren einen zentralen Engpass: Die unzureichende Nutzung hochwertiger, semantisch reicher Repräsentationen während des Trainings verlangsamt die Konvergenz erheblich. Unsere systematische Analyse deckt eine kritische Repräsentationsverarbeitungsregion auf – hauptsächlich in den frühen Schichten –, in der das Lernen semantischer und struktureller Muster stattfindet, bevor die Generierung erfolgen kann. Um dies zu adressieren, schlagen wir Embedded Representation Warmup (ERW) vor, ein Plug-and-Play-Framework, bei dem das ERW-Modul in der ersten Phase als Warmup dient, das die frühen Schichten des Diffusionsmodells mit hochwertigen, vortrainierten Repräsentationen initialisiert. Dieses Warmup minimiert die Belastung, Repräsentationen von Grund auf zu lernen, und beschleunigt dadurch die Konvergenz und steigert die Leistung. Unsere theoretische Analyse zeigt, dass die Wirksamkeit von ERW von seiner präzisen Integration in bestimmte neuronale Netzwerkschichten abhängt – bezeichnet als die Repräsentationsverarbeitungsregion –, in der das Modell hauptsächlich Merkmalsrepräsentationen für die spätere Generierung verarbeitet und transformiert. Wir belegen weiterhin, dass ERW nicht nur die Trainingskonvergenz beschleunigt, sondern auch die Repräsentationsqualität verbessert: Empirisch erreicht unsere Methode eine 40-fache Beschleunigung der Trainingsgeschwindigkeit im Vergleich zu REPA, den derzeitigen State-of-the-Art-Methoden. Der Code ist verfügbar unter https://github.com/LINs-lab/ERW.
Diffusionsmodelle sind weithin für ihre Fähigkeit bekannt, hochwertige Bilder zu erzeugen. Trotz der hervorragenden Leistung und Skalierbarkeit der Diffusion Transformer (DiT)-Architektur wendet sie während des Diffusionsprozesses eine feste Kompression auf verschiedene Bildregionen an, ohne die natürlicherweise variierenden Informationsdichten in diesen Regionen zu berücksichtigen. Eine starke Kompression führt jedoch zu einer begrenzten lokalen Realitätsnähe, während eine geringe Kompression die Rechenkomplexität erhöht und die globale Konsistenz beeinträchtigt, was letztlich die Qualität der erzeugten Bilder beeinflusst. Um diese Einschränkungen zu überwinden, schlagen wir eine dynamische Kompression verschiedener Bildregionen vor, indem wir die Bedeutung unterschiedlicher Regionen erkennen, und führen ein neuartiges zweistufiges Framework ein, das die Effektivität und Effizienz der Bildgenerierung verbessern soll: (1) Der Dynamic VAE (DVAE) in der ersten Stufe verwendet einen hierarchischen Encoder, um verschiedene Bildregionen mit unterschiedlichen Downsampling-Raten zu kodieren, die an ihre spezifischen Informationsdichten angepasst sind, und liefert dadurch genauere und natürlichere latente Codes für den Diffusionsprozess. (2) Der Dynamic Diffusion Transformer (D^2iT) in der zweiten Stufe erzeugt Bilder, indem er mehrkörniges Rauschen vorhersagt, das aus grobkörnigem (weniger latenter Code in glatten Regionen) und feinkörnigem (mehr latenter Code in detaillierten Regionen) besteht, durch eine neuartige Kombination des Dynamic Grain Transformers und des Dynamic Content Transformers. Die Strategie, die grobe Vorhersage des Rauschens mit der Korrektur detaillierter Regionen zu kombinieren, erreicht eine Vereinigung von globaler Konsistenz und lokaler Realitätsnähe. Umfassende Experimente zu verschiedenen Generierungsaufgaben bestätigen die Wirksamkeit unseres Ansatzes. Der Code wird unter https://github.com/jiawn-creator/Dynamic-DiT veröffentlicht.
Aktuelle multimodale Benchmarks vermischen oft logisches Denken mit domänenspezifischem Wissen, was es schwierig macht, allgemeine Denkfähigkeiten in nicht-expertenbasierten Umgebungen zu isolieren und zu bewerten. Um dies zu adressieren, führen wir VisualPuzzles ein, einen Benchmark, der gezielt visuelles Denken anspricht und dabei bewusst die Abhängigkeit von spezialisiertem Wissen minimiert. VisualPuzzles besteht aus vielfältigen Fragen, die fünf Kategorien umfassen: algorithmisches, analoges, deduktives, induktives und räumliches Denken. Eine wichtige Quelle unserer Fragen sind manuell übersetzte logische Denkaufgaben aus dem chinesischen Beamtenprüfungssystem. Experimente zeigen, dass VisualPuzzles deutlich weniger intensives domänenspezifisches Wissen und komplexeres Denken erfordert als Benchmarks wie MMMU, was es uns ermöglicht, echtes multimodales Denken besser zu bewerten. Evaluierungen zeigen, dass state-of-the-art multimodale Large Language Models durchweg hinter der menschlichen Leistung bei VisualPuzzles zurückbleiben und dass starke Leistungen bei wissensintensiven Benchmarks nicht zwangsläufig zu Erfolg bei denkfokussierten, wissensarmen Aufgaben führen. Zudem führen Denkverbesserungen wie das Hochskalieren von Inferenzrechenleistung (mit „Denk“-Modi) zu inkonsistenten Gewinnen über Modelle und Aufgabentypen hinweg, und wir beobachten keine klare Korrelation zwischen Modellgröße und Leistung. Wir fanden auch heraus, dass Modelle bei VisualPuzzles unterschiedliche Denk- und Antwortmuster zeigen im Vergleich zu Benchmarks, die stärker auf Wissen ausgerichtet sind. VisualPuzzles bietet eine klarere Linse, durch die Denkfähigkeiten jenseits von Faktenwiedergabe und Domänenwissen bewertet werden können.
Der Einsatz von Sprachmodellen in Anwendungen für Endverbraucher birgt zahlreiche Risiken. Während bestehende Forschung zu Schäden und Gefahren solcher Anwendungen überwiegend top-down-Ansätze verfolgt, die sich aus regulatorischen Rahmenwerken und theoretischen Analysen ableiten, bleibt die empirische Evidenz für reale Fehlermodi weitgehend unerforscht. In dieser Arbeit stellen wir RealHarm vor, einen Datensatz annotierter problematischer Interaktionen mit KI-Agenten, der auf einer systematischen Auswertung öffentlich gemeldeter Vorfälle basiert. Bei der Analyse von Schäden, Ursachen und Gefahren speziell aus der Perspektive der Anbieter stellen wir fest, dass Reputationsschäden den vorherrschenden organisatorischen Schaden darstellen, während Fehlinformationen die häufigste Gefahrenkategorie bilden. Wir evaluieren empirisch state-of-the-art Schutzmechanismen und Inhaltsmoderationssysteme, um zu untersuchen, ob solche Systeme die Vorfälle hätten verhindern können, und decken dabei eine erhebliche Lücke im Schutz von KI-Anwendungen auf.
Hybride LLM-Architekturen, die Attention- und State-Space-Modelle (SSMs) kombinieren, erreichen state-of-the-art Genauigkeit und Laufzeitleistung. Jüngste Arbeiten haben gezeigt, dass die Anwendung von Kompression und Distillation auf reine Attention-Modelle kleinere, genauere Modelle zu einem Bruchteil der Trainingskosten liefert. In dieser Arbeit untersuchen wir die Effektivität der Kompression hybrider Architekturen. Wir führen eine neuartige gruppenbewusste Pruning-Strategie ein, die die strukturelle Integrität der SSM-Blöcke und ihre Fähigkeiten zur Sequenzmodellierung bewahrt. Darüber hinaus demonstrieren wir die Notwendigkeit eines solchen SSM-Prunings, um im Vergleich zu traditionellen Ansätzen eine verbesserte Genauigkeit und Inferenzgeschwindigkeit zu erreichen. Unser Kompressionsrezept kombiniert SSM-, FFN-, Embedding-Dimensionen- und Layer-Pruning, gefolgt von einer auf Wissensdistillation basierenden Nachschulung, ähnlich der MINITRON-Technik. Mit diesem Ansatz komprimieren wir das Nemotron-H 8B Hybridmodell auf 4B Parameter mit bis zu 40x weniger Trainings-Tokens. Das resultierende Modell übertrifft die Genauigkeit ähnlich großer Modelle und erreicht eine 2x schnellere Inferenz, wodurch die Pareto-Front signifikant vorangetrieben wird.
Wir stellen AI University (AI-U) vor, ein flexibles Framework für die KI-gestützte Bereitstellung von Kursinhalten, das sich an die Lehrstile der Dozenten anpasst. Im Kern von AI-U wird ein großes Sprachmodell (LLM) mit Retrieval-Augmented Generation (RAG) feinabgestimmt, um dozentenorientierte Antworten aus Vorlesungsvideos, Notizen und Lehrbüchern zu generieren. Anhand eines Fallbeispiels aus einem fortgeschrittenen Kurs zur Finite-Elemente-Methode (FEM) präsentieren wir eine skalierbare Pipeline, um systematisch Trainingsdaten zu erstellen, ein Open-Source-LLM mit Low-Rank Adaptation (LoRA) feinzutunen und dessen Antworten durch RAG-basierte Synthese zu optimieren. Unsere Evaluierung – eine Kombination aus Kosinus-Ähnlichkeit, LLM-basierter Bewertung und Expertenprüfung – zeigt eine starke Übereinstimmung mit den Kursmaterialien. Zudem haben wir eine Prototyp-Webanwendung entwickelt, die unter https://my-ai-university.com verfügbar ist und die Nachvollziehbarkeit verbessert, indem KI-generierte Antworten mit spezifischen Abschnitten des relevanten Kursmaterials und zeitgestempelten Stellen der frei zugänglichen Vorlesungsvideos verknüpft werden. Unser Expertenmodell erreichte in 86 % der Testfälle eine höhere Kosinus-Ähnlichkeit mit einem Referenztext. Ein LLM-basierter Bewerter stellte außerdem fest, dass unser Expertenmodell in etwa vier von fünf Fällen das Basismodell Llama 3.2 übertraf. AI-U bietet einen skalierbaren Ansatz für KI-gestützte Bildung und ebnet den Weg für eine breitere Einführung in der Hochschulbildung. Hier wurde unser Framework im Kontext eines FEM-Kurses vorgestellt – einem Fach, das zentral für die Ausbildung von Promotions- und Masterstudierenden in den Ingenieurwissenschaften ist. Diese Anwendung ist jedoch ein spezifisches Beispiel eines umfassenderen Kontexts: das Feinabstimmen von LLMs auf Forschungsinhalte in den Wissenschaften.
Dieser Bericht bietet einen umfassenden Überblick über die 4. Pixel-level Video Understanding in the Wild (PVUW) Challenge, die im Rahmen der CVPR 2025 stattfand. Er fasst die Ergebnisse der Challenge, die eingesetzten Methoden und zukünftige Forschungsrichtungen zusammen. Die Challenge umfasst zwei Bereiche: MOSE, der sich auf die Segmentierung von Objekten in komplexen Szenenvideos konzentriert, und MeViS, der sich mit sprachbasierter, bewegungsgesteuerter Videosegmentierung befasst. Beide Bereiche führen neue, anspruchsvollere Datensätze ein, die realistische Szenarien besser abbilden sollen. Durch detaillierte Auswertungen und Analysen bietet die Challenge wertvolle Einblicke in den aktuellen Stand der Technik und aufkommende Trends in der komplexen Videosegmentierung. Weitere Informationen finden Sie auf der Workshop-Website: https://pvuw.github.io/.
Die Anwendung von Diffusionsmodellen in der 3D-LiDAR-Szenenvervollständigung ist aufgrund der langsamen Abtastgeschwindigkeit der Diffusion begrenzt. Score-Destillation beschleunigt die Diffusion, führt jedoch zu Leistungseinbußen, während das Nachtraining mit Direct Policy Optimization (DPO) die Leistung unter Verwendung von Präferenzdaten steigert. Dieses Papier schlägt Distillation-DPO vor, ein neuartiges Diffusionsdestillationsframework für die LiDAR-Szenenvervollständigung mit Präferenzausrichtung. Zunächst generiert das Schülermodell gepaarte Vervollständigungsszenen mit unterschiedlichen Anfangsrauschen. Zweitens konstruieren wir unter Verwendung von LiDAR-Szenenbewertungsmetriken als Präferenz gewinnende und verlierende Beispielpaare. Diese Konstruktion ist sinnvoll, da die meisten LiDAR-Szenenmetriken informativ, aber nicht differenzierbar sind, um direkt optimiert zu werden. Drittens optimiert Distillation-DPO das Schülermodell, indem es die Differenz in den Score-Funktionen zwischen dem Lehrer- und dem Schülermodell auf den gepaarten Vervollständigungsszenen ausnutzt. Dieser Vorgang wird bis zur Konvergenz wiederholt. Umfangreiche Experimente zeigen, dass Distillation-DPO im Vergleich zu modernsten LiDAR-Szenenvervollständigungs-Diffusionsmodellen eine höhere Qualität der Szenenvervollständigung erreicht und die Vervollständigungsgeschwindigkeit um mehr als das Fünffache beschleunigt. Unseres Wissens ist unsere Methode die erste, die Präferenzlernen in der Destillation untersucht, und sie liefert Einblicke in die präferenzausgerichtete Destillation. Unser Code ist öffentlich verfügbar unter https://github.com/happyw1nd/DistillationDPO.
Peer Review ist ein Eckpfeiler der Qualitätskontrolle in der wissenschaftlichen Veröffentlichungspraxis. Mit zunehmender Arbeitsbelastung hat sich die unbeabsichtigte Verwendung von „schnellen“ Heuristiken, die als faules Denken bezeichnet werden, als wiederkehrendes Problem herausgestellt, das die Qualität der Begutachtung beeinträchtigt. Automatisierte Methoden zur Erkennung solcher Heuristiken können dazu beitragen, den Peer-Review-Prozess zu verbessern. Allerdings gibt es nur begrenzte NLP-Forschung zu diesem Thema, und es existiert kein realer Datensatz, der die Entwicklung von Erkennungstools unterstützt. Diese Arbeit stellt LazyReview vor, einen Datensatz von Peer-Review-Sätzen, die mit fein abgestuften Kategorien des faulen Denkens annotiert sind. Unsere Analyse zeigt, dass Large Language Models (LLMs) Schwierigkeiten haben, diese Instanzen in einem Zero-Shot-Setting zu erkennen. Eine anweisungsbasierte Feinabstimmung auf unserem Datensatz verbessert die Leistung jedoch signifikant um 10-20 Leistungspunkte, was die Bedeutung von hochwertigen Trainingsdaten unterstreicht. Darüber hinaus zeigt ein kontrolliertes Experiment, dass Reviews, die mit Feedback zum faulen Denken überarbeitet wurden, umfassender und handlungsorientierter sind als solche, die ohne solches Feedback verfasst wurden. Wir werden unseren Datensatz sowie die erweiterten Richtlinien veröffentlichen, die zur Schulung von Nachwuchsgutachtern in der Community verwendet werden können. (Code verfügbar hier: https://github.com/UKPLab/arxiv2025-lazy-review)
Jüngste Fortschritte bei Large Language Models (LLMs) haben zu bedeutenden Durchbrüchen im Bereich des Videoverständnisses geführt. Dennoch kämpfen bestehende Modelle nach wie vor mit der Verarbeitung langer Videos aufgrund der Kontextlängenbegrenzung von LLMs und der enormen Informationsmenge innerhalb des Videos. Obwohl einige neuere Methoden für das Verständnis langer Videos entwickelt wurden, verlieren sie oft entscheidende Informationen während der Token-Komprimierung und haben Schwierigkeiten mit zusätzlichen Modalitäten wie Audio. In dieser Arbeit schlagen wir eine dynamische Methode zur Kodierung langer Videos vor, die die zeitliche Beziehung zwischen den Bildern nutzt, genannt Temporal Dynamic Context (TDC). Zunächst segmentieren wir das Video in semantisch konsistente Szenen basierend auf Ähnlichkeiten zwischen den Bildern und kodieren dann jedes Bild mithilfe von visuellen und auditiven Encodern in Tokens. Anschließend schlagen wir einen neuartigen temporalen Kontextkompressor vor, um die Anzahl der Tokens innerhalb jedes Segments zu reduzieren. Konkret verwenden wir einen Query-basierten Transformer, um Video-, Audio- und Instruktionstext-Tokens in eine begrenzte Menge von temporalen Kontext-Tokens zu aggregieren. Schließlich speisen wir die statischen Bild-Tokens und die temporalen Kontext-Tokens in das LLM ein, um das Video zu verstehen. Darüber hinaus schlagen wir für extrem lange Videos eine trainingsfreie Chain-of-Thought-Strategie vor, die schrittweise Antworten aus mehreren Videosegmenten extrahiert. Diese Zwischenantworten dienen als Teil des Denkprozesses und tragen zur endgültigen Antwort bei. Wir führen umfangreiche Experimente auf Benchmarks für allgemeines Videoverständnis und Audio-Video-Verständnis durch, bei denen unsere Methode eine starke Leistung zeigt. Der Code und die Modelle sind unter https://github.com/Hoar012/TDC-Video verfügbar.
Vision-Language-Modelle (VLMs) können visuelle und textuelle Informationen in mehreren Formaten verarbeiten: Texte, Bilder, verschachtelte Texte und Bilder oder sogar stundenlange Videos. In dieser Arbeit führen wir detaillierte quantitative und qualitative Analysen zur automatischen Zusammenfassung von multimodalen Präsentationen durch, wobei VLMs mit verschiedenen Darstellungen als Eingabe verwendet werden. Aus diesen Experimenten leiten wir kosteneffiziente Strategien ab, um Zusammenfassungen aus textlastigen multimodalen Dokumenten unter verschiedenen Eingabelängenbudgets mithilfe von VLMs zu generieren. Wir zeigen, dass aus dem Videostream extrahierte Folien vorteilhaft als Eingabe gegenüber dem Rohvideo verwendet werden können und dass eine strukturierte Darstellung aus verschachtelten Folien und Transkripten die beste Leistung erzielt. Abschließend reflektieren und kommentieren wir die Art der cross-modalen Interaktionen in multimodalen Präsentationen und teilen Vorschläge, um die Fähigkeiten von VLMs zum Verständnis von Dokumenten dieser Art zu verbessern.
Der kürzlich vorgeschlagene Forgetting Transformer (FoX) integriert ein Vergessens-Gate in die Softmax-Attention und hat durchweg bessere oder gleichwertige Leistungen im Vergleich zum standardmäßigen RoPE-basierten Transformer gezeigt. Bemerkenswerterweise neigen viele Aufmerksamkeitsköpfe in FoX dazu, schnell zu vergessen, wodurch ihre Ausgabe zu jedem Zeitpunkt hauptsächlich auf dem lokalen Kontext basiert. Basierend auf dieser Beobachtung schlagen wir Adaptive Computation Pruning (ACP) für FoX vor, eine Methode, die Berechnungen dynamisch beschneidet, die Eingabe-Ausgabe-Abhängigkeiten betreffen, die durch das Vergessens-Gate stark abgeschwächt wurden. Dies wird durch einen dynamisch festgelegten Beschneidungsschwellenwert erreicht, der sicherstellt, dass die beschnittenen Aufmerksamkeitsgewichte vernachlässigbar bleiben. Wir wenden ACP auf das Pretraining von Sprachmodellen mit FoX an und zeigen, dass es die Anzahl der FLOPs in der Softmax-Attention durchweg um etwa 70 % über verschiedene Modellgrößen und Kontextlängen reduziert, was zu einer ungefähr 10 % bis 35 % Verbesserung im Trainingsdurchsatz führt. Darüber hinaus führen längere Kontextlängen zu größeren Einsparungen bei den Berechnungen. Alle diese Geschwindigkeitsverbesserungen werden ohne jegliche Leistungseinbußen erreicht. Wir führen auch mehrere Analysen durch, um tiefere Einblicke in unsere Methode zu bieten, wie z. B. die Untersuchung der Beschneidungsmuster und die Analyse der Verteilung der FLOP-Einsparungen über verschiedene Aufmerksamkeitsköpfe hinweg. Unser Code ist unter https://github.com/zhixuan-lin/arctic-fox verfügbar.
Mit dem Erfolg der Bildgenerierung werden generative Diffusionsmodelle zunehmend für diskriminative Aufgaben übernommen, da die Pixelgenerierung eine einheitliche Wahrnehmungsschnittstelle bietet. Die direkte Umwidmung des generativen Entrauschungsprozesses für diskriminative Ziele offenbart jedoch kritische Lücken, die bisher kaum angesprochen wurden. Generative Modelle tolerieren Zwischensamplingfehler, wenn die endgültige Verteilung plausibel bleibt, aber diskriminative Aufgaben erfordern durchgängig strenge Genauigkeit, wie in anspruchsvollen multimodalen Aufgaben wie der referenziellen Bildsegmentierung deutlich wird. Motiviert durch diese Lücke analysieren und verbessern wir die Ausrichtung zwischen generativen Diffusionsprozessen und Wahrnehmungsaufgaben, wobei wir uns darauf konzentrieren, wie sich die Wahrnehmungsqualität während des Entrauschens entwickelt. Wir stellen fest: (1) Frühere Entrauschungsschritte tragen überproportional zur Wahrnehmungsqualität bei, was uns veranlasst, maßgeschneiderte Lernziele vorzuschlagen, die die unterschiedlichen Beiträge der Zeitschritte widerspiegeln; (2) spätere Entrauschungsschritte zeigen unerwartete Wahrnehmungsverschlechterungen, was die Empfindlichkeit gegenüber Verschiebungen in der Trainings-Entrauschungsverteilung hervorhebt, die durch unsere diffusionsspezifische Datenaugmentierung angegangen wird; und (3) generative Prozesse ermöglichen einzigartige Interaktivität und dienen als steuerbare Benutzerschnittstellen, die sich an Korrekturhinweise in mehrfachen Interaktionen anpassen lassen. Unsere Erkenntnisse verbessern diffusionsbasierte Wahrnehmungsmodelle erheblich, ohne architektonische Änderungen vorzunehmen, und erreichen Spitzenleistungen bei der Tiefenschätzung, der referenziellen Bildsegmentierung und allgemeinen Wahrnehmungsaufgaben. Code verfügbar unter https://github.com/ziqipang/ADDP.
Trotz ihrer häufigen Verwendung für die Veränderungserkennung weisen sowohl Convolutional Neural Networks (ConvNets) als auch Vision Transformer (ViT) bekannte Einschränkungen auf: Erstere haben Schwierigkeiten, langreichweitige Abhängigkeiten zu modellieren, während Letztere rechnerisch ineffizient sind, was ihre Ausbildung auf großen Datensätzen erschwert. Vision Mamba, eine auf State Space Models basierende Architektur, hat sich als Alternative etabliert, die die genannten Mängel adressiert, und wurde bereits für die Fernerkundung zur Veränderungserkennung eingesetzt, allerdings meist als Feature-Extraktion-Backbone. In diesem Artikel wird das Change State Space Model vorgestellt, das speziell für die Veränderungserkennung entwickelt wurde, indem es sich auf die relevanten Veränderungen zwischen bi-temporalen Bildern konzentriert und irrelevante Informationen effektiv herausfiltert. Durch die Konzentration ausschließlich auf die veränderten Merkmale wird die Anzahl der Netzwerkparameter reduziert, was die Recheneffizienz erheblich steigert, während gleichzeitig eine hohe Erkennungsleistung und Robustheit gegenüber Eingabedegradation erhalten bleibt. Das vorgeschlagene Modell wurde anhand von drei Benchmark-Datensätzen evaluiert, wobei es ConvNets, ViTs und Mamba-basierte Gegenstücke bei einem Bruchteil ihrer Rechenkomplexität übertraf. Die Implementierung wird nach der Annahme unter https://github.com/Elman295/CSSM verfügbar gemacht.