papers.description
Wir schlagen FlowRL vor: die Anpassung der vollständigen Belohnungsverteilung durch Flussbalancierung anstelle der Maximierung von Belohnungen im Reinforcement Learning (RL) für große Sprachmodelle (LLM). Aktuelle fortschrittliche Reasoning-Modelle verwenden belohnungsmaximierende Methoden (z.B. PPO und GRPO), die dazu neigen, dominante Belohnungssignale zu überoptimieren, während weniger häufige, aber gültige Reasoning-Pfade vernachlässigt werden, was die Diversität verringert. Im Gegensatz dazu transformieren wir skalare Belohnungen in eine normalisierte Zielverteilung mithilfe einer lernbaren Partitionierungsfunktion und minimieren dann die reverse KL-Divergenz zwischen der Policy und der Zielverteilung. Wir implementieren diesen Ansatz als eine flussbalancierte Optimierungsmethode, die vielfältige Exploration und generalisierbare Reasoning-Trajektorien fördert. Wir führen Experimente zu mathematischen und Code-Reasoning-Aufgaben durch: FlowRL erzielt eine signifikante durchschnittliche Verbesserung von 10,0 % gegenüber GRPO und 5,1 % gegenüber PPO auf mathematischen Benchmarks und schneidet durchweg besser bei Code-Reasoning-Aufgaben ab. Diese Ergebnisse unterstreichen die Anpassung der Belohnungsverteilung als einen entscheidenden Schritt hin zu effizienter Exploration und diversem Reasoning im LLM-Reinforcement-Learning.
Vision-Language Models (VLMs) haben Computer Use Agents (CUAs) ermöglicht, die GUIs autonom bedienen und dabei großes Potenzial gezeigt. Dennoch wird der Fortschritt durch den Mangel an groß angelegten, quelloffenen Computer Use-Daten und Foundation-Modellen begrenzt. In dieser Arbeit stellen wir ScaleCUA vor, einen Schritt zur Skalierung quelloffener CUAs. Es bietet einen umfangreichen Datensatz, der 6 Betriebssysteme und 3 Aufgabenbereiche abdeckt und über eine geschlossene Pipeline erstellt wurde, die automatisierte Agenten mit menschlichen Experten verbindet. Mit diesen skalierten Daten trainiert, kann ScaleCUA nahtlos über Plattformen hinweg agieren. Insbesondere erzielt es deutliche Verbesserungen gegenüber Baselines (+26,6 auf WebArena-Lite-v2, +10,7 auf ScreenSpot-Pro) und setzt neue State-of-the-Art-Ergebnisse (94,4 % auf MMBench-GUI L1-Hard, 60,6 % auf OSWorld-G, 47,4 % auf WebArena-Lite-v2). Diese Ergebnisse unterstreichen die Kraft datengetriebener Skalierung für allgemeine Computer Use Agents. Wir werden Daten, Modelle und Code veröffentlichen, um zukünftige Forschung voranzutreiben: https://github.com/OpenGVLab/ScaleCUA.
Große Sprachmodelle (LLMs) werden zunehmend in verschiedenen realen Anwendungsszenarien eingesetzt, die jeweils durch spezifische Verhaltens- und Sicherheitsvorgaben (Spec) gesteuert werden, die von Benutzern oder Organisationen maßgeschneidert sind. Diese Vorgaben, die in Sicherheits-Spec und Verhaltens-Spec kategorisiert werden, variieren je nach Szenario und entwickeln sich mit sich ändernden Präferenzen und Anforderungen weiter. Wir formalisieren diese Herausforderung als Spezifikationsausrichtung, wobei der Fokus auf der Fähigkeit von LLMs liegt, dynamische, szenariospezifische Vorgaben sowohl aus Verhaltens- als auch aus Sicherheitsperspektiven zu befolgen. Um diese Herausforderung zu bewältigen, schlagen wir Align3 vor, eine leichtgewichtige Methode, die Test-Time Deliberation (TTD) mit hierarchischer Reflexion und Überarbeitung einsetzt, um über die Grenzen der Spezifikationen nachzudenken. Wir stellen außerdem SpecBench vor, einen einheitlichen Benchmark zur Messung der Spezifikationsausrichtung, der 5 Szenarien, 103 Vorgaben und 1.500 Prompts abdeckt. Experimente mit 15 Reasoning- und 18 Instruct-Modellen sowie mehreren TTD-Methoden, darunter Self-Refine, TPO und MoreThink, ergeben drei zentrale Erkenntnisse: (i) Test-Time Deliberation verbessert die Spezifikationsausrichtung; (ii) Align3 erweitert die Grenze des Sicherheits-Hilfsbereitschafts-Kompromisses mit minimalem Aufwand; (iii) SpecBench deckt effektiv Ausrichtungslücken auf. Diese Ergebnisse unterstreichen das Potenzial von Test-Time Deliberation als effektive Strategie zur Reflexion über die realen Grenzen von Spezifikationen.
Wir präsentieren AToken, den ersten einheitlichen visuellen Tokenizer, der sowohl hochwertige Rekonstruktion als auch semantisches Verständnis über Bilder, Videos und 3D-Assets hinweg erreicht. Im Gegensatz zu bestehenden Tokenizern, die sich entweder auf Rekonstruktion oder Verständnis für einzelne Modalitäten spezialisieren, kodiert AToken diese vielfältigen visuellen Eingaben in einen gemeinsamen 4D-Latenzraum und vereint sowohl Aufgaben als auch Modalitäten in einem einzigen Framework. Konkret führen wir eine reine Transformer-Architektur mit 4D-Rotations-Positionseinbettungen ein, um visuelle Eingaben beliebiger Auflösungen und zeitlicher Dauer zu verarbeiten. Um ein stabiles Training zu gewährleisten, führen wir ein adversarienfrei gestaltetes Trainingsziel ein, das perzeptuelle und Gram-Matrix-Verluste kombiniert und damit eine state-of-the-art Rekonstruktionsqualität erreicht. Durch den Einsatz eines progressiven Trainingscurriculums erweitert sich AToken schrittweise von einzelnen Bildern, Videos und 3D-Assets und unterstützt sowohl kontinuierliche als auch diskrete latente Tokens. AToken erreicht 0,21 rFID bei 82,2 % ImageNet-Genauigkeit für Bilder, 3,01 rFVD bei 32,6 % MSRVTT-Retrieval für Videos und 28,19 PSNR bei 90,9 % Klassifikationsgenauigkeit für 3D. In nachgelagerten Anwendungen ermöglicht AToken sowohl visuelle Generierungsaufgaben (z. B. Bildgenerierung mit kontinuierlichen und diskreten Tokens, Text-zu-Video-Generierung, Bild-zu-3D-Synthese) als auch Verständnisaufgaben (z. B. multimodale LLMs) und erzielt dabei wettbewerbsfähige Leistungen über alle Benchmarks hinweg. Diese Ergebnisse werfen ein Licht auf die nächste Generation multimodaler KI-Systeme, die auf einheitlicher visueller Tokenisierung basieren.
Große Sprachmodelle (LLMs) werden zunehmend mit Verstärkungslernen aus überprüfbaren Belohnungen (RLVR) trainiert, doch die reale Anwendung erfordert Modelle, die sich selbst verbessern können, ohne Labels oder externe Bewertungen. Bestehende labelfreie Methoden wie Confidence-Minimierung, Selbstkonsistenz oder Mehrheitsentscheidungsziele stabilisieren das Lernen, verringern jedoch kontinuierlich die Exploration, was zu einem Entropiekollaps führt: Die Generierungen werden kürzer, weniger vielfältig und brüchig. Im Gegensatz zu früheren Ansätzen wie Test-Time Reinforcement Learning (TTRL), die Modelle hauptsächlich an den unmittelbaren, ungelabelten Datensatz anpassen, ist unser Ziel umfassender: allgemeine Verbesserungen zu ermöglichen, ohne die inhärente Explorationsfähigkeit und Generalisierungsfähigkeit des Modells zu opfern, d.h. eine Evolution zu ermöglichen. Wir formalisieren dieses Problem und schlagen EVolution-Oriented and Label-free Reinforcement Learning (EVOL-RL) vor, eine einfache Regel, die Stabilität mit Variation in einem labelfreien Setting kombiniert. EVOL-RL behält die mehrheitlich gewählte Antwort als stabilen Anker (Selektion) bei, fügt jedoch eine neuartigkeitsbewusste Belohnung hinzu, die Antworten bevorzugt, deren Begründung sich von bereits produzierten unterscheidet (Variation), gemessen im semantischen Raum. Implementiert mit GRPO, verwendet EVOL-RL auch asymmetrisches Clipping, um starke Signale zu erhalten, und einen Entropie-Regularisierer, um die Suche aufrechtzuerhalten. Dieses Design aus Mehrheit-für-Selektion + Neuheit-für-Variation verhindert den Kollaps, erhält längere und informativer Gedankenketten und verbessert sowohl pass@1 als auch pass@n. EVOL-RL übertrifft durchweg die Mehrheits-TTRL-Baseline; z.B. steigert das Training auf labelfreiem AIME24 den Qwen3-4B-Base AIME25 pass@1 von TTRLs 4,6% auf 16,4% und pass@16 von 18,5% auf 37,9%. EVOL-RL verhindert nicht nur den Diversitätskollaps, sondern ermöglicht auch eine stärkere Generalisierung über Domänen hinweg (z.B. GPQA). Darüber hinaus zeigen wir, dass EVOL-RL auch die Leistung im RLVR-Setting steigert, was seine breite Anwendbarkeit unterstreicht.
Aktuelle Video-Diffusionsmodelle zeigen ein starkes Potenzial bei räumlichen Intelligenzaufgaben aufgrund ihrer umfangreichen latenten Welt-Priors. Dieses Potenzial wird jedoch durch ihre begrenzte Steuerbarkeit und geometrische Inkonsistenz eingeschränkt, was eine Lücke zwischen ihren starken Priors und ihrer praktischen Anwendung in 3D/4D-Aufgaben schafft. Infolgedessen greifen aktuelle Ansätze oft auf Neuanpassung oder Feinabstimmung zurück, was das Risiko birgt, vortrainiertes Wissen zu verschlechtern und hohe Rechenkosten verursacht. Um dies zu beheben, schlagen wir WorldForge vor, ein trainingsfreies, Inferenzzeit-Framework, das aus drei eng gekoppelten Modulen besteht. Intra-Step Recursive Refinement führt einen rekursiven Verfeinerungsmechanismus während der Inferenz ein, der die Netzwerkvorhersagen innerhalb jedes Denoising-Schritts wiederholt optimiert, um eine präzise Trajektorieninjektion zu ermöglichen. Flow-Gated Latent Fusion nutzt die Ähnlichkeit des optischen Flusses, um Bewegung von Erscheinung im latenten Raum zu entkoppeln und selektiv Trajektorienführung in bewegungsbezogene Kanäle zu injizieren. Dual-Path Self-Corrective Guidance vergleicht geführte und ungeführte Denoising-Pfade, um Trajektoriendrift, die durch verrauschte oder falsch ausgerichtete Struktursignale verursacht wird, adaptiv zu korrigieren. Zusammen ermöglichen diese Komponenten die Injektion fein abgestimmter, trajektorienausgerichteter Führung ohne Training, wodurch sowohl eine präzise Bewegungssteuerung als auch fotorealistische Inhaltsgenerierung erreicht wird. Umfangreiche Experimente über diverse Benchmarks bestätigen die Überlegenheit unserer Methode in Bezug auf Realismus, Trajektorienkonsistenz und visuelle Treue. Diese Arbeit führt ein neuartiges Plug-and-Play-Paradigma für kontrollierbare Videosynthese ein und bietet eine neue Perspektive auf die Nutzung generativer Priors für räumliche Intelligenz.
Die Suche hat sich als zentrale Infrastruktur für LLM-basierte Agenten etabliert und wird allgemein als entscheidend auf dem Weg zu einer allgemeineren Intelligenz angesehen. Die Finanzwelt stellt dabei ein besonders anspruchsvolles Testfeld dar: Analysten führen routinemäßig komplexe, mehrstufige Suchen über zeitkritische, domänenspezifische Daten durch, was sie ideal zur Bewertung sowohl der Suchkompetenz als auch des wissensbasierten Denkens macht. Dennoch gibt es keine bestehenden offenen Finanzdatensätze, die die Datenrecherchefähigkeit von End-to-End-Agenten bewerten, da die Erstellung realistischer, komplizierter Aufgaben tiefgehende Finanzexpertise erfordert und zeitkritische Daten schwer zu bewerten sind. Wir stellen FinSearchComp vor, den ersten vollständig Open-Source-Agenten-Benchmark für realistische, domänenübergreifende Finanzrecherche und -logik. FinSearchComp umfasst drei Aufgaben – Zeitkritische Datenbeschaffung, Einfache Historische Recherche und Komplexe Historische Untersuchung –, die die Arbeitsabläufe von Finanzanalysten in der Praxis eng nachbilden. Um Schwierigkeit und Zuverlässigkeit zu gewährleisten, haben wir 70 professionelle Finanzexperten für die Annotation engagiert und eine rigorose mehrstufige Qualitätssicherungspipeline implementiert. Der Benchmark umfasst 635 Fragen zu globalen und Greater-China-Märkten, und wir bewerten 21 Modelle (Produkte) darauf. Grok 4 (Web) führt im globalen Subset an und nähert sich der Experten-Genauigkeit. DouBao (Web) führt im Greater-China-Subset. Experimentelle Analysen zeigen, dass die Ausstattung von Agenten mit Web-Suche und Finanz-Plugins die Ergebnisse auf FinSearchComp erheblich verbessert, und dass die Herkunft der Modelle und Tools die Leistung signifikant beeinflusst. Durch die Ausrichtung an realistischen Analystenaufgaben und die Bereitstellung einer End-to-End-Bewertung bietet FinSearchComp ein professionelles, hochanspruchsvolles Testfeld für komplexe Finanzrecherche und -logik.
Aktuelle Studien haben die Bedeutung hochwertiger visueller Repräsentationen für die Bildgenerierung aufgezeigt und die Grenzen generativer Modelle im Bereich des Bildverständnisses hervorgehoben. Als ein ursprünglich für natürliche Sprache entwickeltes generatives Paradigma stehen autoregressive Modelle vor ähnlichen Herausforderungen. In dieser Arbeit präsentieren wir die erste systematische Untersuchung der Mechanismen zur Anwendung des Next-Token-Prediction-Paradigmas auf den visuellen Bereich. Wir identifizieren drei Schlüsseleigenschaften, die das Erlernen hochwertiger visueller Semantik behindern: lokale und bedingte Abhängigkeit, semantische Inkonsistenz zwischen Schritten und Mangel an räumlicher Invarianz. Wir zeigen, dass diese Probleme effektiv durch die Einführung selbstüberwachter Ziele während des Trainings gelöst werden können, was zu einem neuartigen Trainingsframework führt: Self-guided Training for AutoRegressive models (ST-AR). Ohne auf vortrainierte Repräsentationsmodelle zurückzugreifen, verbessert ST-AR die Bildverständnisfähigkeit autoregressiver Modelle erheblich und führt zu einer gesteigerten Generierungsqualität. Konkret bringt ST-AR eine Verbesserung des FID-Werts um etwa 42 % für LlamaGen-L und 49 % für LlamaGen-XL, während die gleiche Sampling-Strategie beibehalten wird.
Dieses Paper stellt RynnVLA-001 vor, ein Vision-Language-Action (VLA)-Modell, das auf groß angelegtem generativem Vortraining mit menschlichen Demonstrationsvideos basiert. Wir schlagen eine neuartige zweistufige Vortrainingsmethodik vor. Die erste Stufe, das Ego-Centric Video Generative Pretraining, trainiert ein Bild-zu-Video-Modell anhand von 12 Millionen egozentrischen Manipulationsvideos, um zukünftige Frames basierend auf einem Ausgangsbild und einer Sprachinstruktion vorherzusagen. Die zweite Stufe, das Human-Centric Trajectory-Aware Modeling, erweitert dies durch die gemeinsame Vorhersage zukünftiger Keypoint-Trajektorien, wodurch visuelle Frame-Vorhersage effektiv mit Aktionsvorhersage verknüpft wird. Darüber hinaus schlagen wir ActionVAE vor, einen Variational Autoencoder, der Aktionssequenzen in kompakte latente Einbettungen komprimiert und so die Komplexität des VLA-Ausgaberaums reduziert. Wenn RynnVLA-001 auf denselben nachgelagerten Robotik-Datensätzen feinabgestimmt wird, erzielt es eine überlegene Leistung im Vergleich zu state-of-the-art Baselines, was zeigt, dass die vorgeschlagene Vortrainingsstrategie eine effektivere Initialisierung für VLA-Modelle bietet.
Aktuelle Methoden zur bildbasierten Bearbeitung durch Anweisungen (Instruction-Based Image Editing, IBIE) haben Schwierigkeiten mit anspruchsvollen Bearbeitungsaufgaben, da sowohl die Bearbeitungstypen als auch die Stichprobenanzahl in bestehenden Datensätzen begrenzt sind. Darüber hinaus enthalten traditionelle Datensatzkonstruktionen oft verrauschte Bild-Beschreibungs-Paare, die Vorurteile einführen und die Modellfähigkeiten in komplexen Bearbeitungsszenarien einschränken können. Um diese Einschränkungen zu überwinden, stellen wir MultiEdit vor, einen umfassenden Datensatz mit über 107.000 hochwertigen Bildbearbeitungsbeispielen. Er umfasst 6 anspruchsvolle Bearbeitungsaufgaben durch eine vielfältige Sammlung von 18 nicht-stilübertragenden Bearbeitungstypen und 38 Stiltransferoperationen, die ein Spektrum von anspruchsvollem Stiltransfer bis hin zu komplexen semantischen Operationen wie Personenreferenzbearbeitung und Textbearbeitung innerhalb von Bildern abdecken. Wir verwenden eine neuartige Datensatzkonstruktionspipeline, die zwei multimodale große Sprachmodelle (MLLMs) nutzt, um visuell adaptive Bearbeitungsanweisungen zu generieren und hochwertige bearbeitete Bilder zu erzeugen. Umfangreiche Experimente zeigen, dass das Feinabstimmen grundlegender Open-Source-Modelle mit unserem MultiEdit-Train-Datensatz die Leistung der Modelle bei anspruchsvollen Bearbeitungsaufgaben in unserem vorgeschlagenen MultiEdit-Test-Benchmark erheblich verbessert, während ihre Fähigkeiten im Standard-Bearbeitungsbenchmark effektiv erhalten bleiben. Wir glauben, dass MultiEdit eine wertvolle Ressource für die Weiterentwicklung der Forschung zu vielfältigeren und anspruchsvolleren IBIE-Fähigkeiten darstellt. Unser Datensatz ist verfügbar unter https://huggingface.co/datasets/inclusionAI/MultiEdit.
Spatio-temporal Video Grounding (STVG) zielt darauf ab, die spatio-temporale Röhre eines Videos zu lokalisieren, wie sie durch die eingegebene Textabfrage spezifiziert wird. In diesem Artikel nutzen wir multimodale Large Language Models (MLLMs), um eine Zero-Shot-Lösung für STVG zu erforschen. Wir enthüllen zwei zentrale Erkenntnisse über MLLMs: (1) MLLMs neigen dazu, dynamisch spezielle Tokens, sogenannte Grounding-Tokens, zuzuweisen, um die Textabfrage zu verankern; und (2) MLLMs leiden oft unter suboptimaler Verankerung, da sie die Hinweise in der Textabfrage (z.B. Attribute, Aktionen) nicht vollständig integrieren können, um Rückschlüsse zu ziehen. Basierend auf diesen Erkenntnissen schlagen wir ein MLLM-basiertes Zero-Shot-Framework für STVG vor, das neuartige Strategien zur dekomponierten spatio-temporalen Hervorhebung (DSTH) und zur temporal-augmentierten Zusammenführung (TAS) enthält, um die Schlussfolgerungsfähigkeit von MLLMs freizusetzen. Die DSTH-Strategie entkoppelt zunächst die ursprüngliche Abfrage in Attribut- und Aktions-Unterabfragen, um die Existenz des Ziels sowohl räumlich als auch zeitlich zu untersuchen. Anschließend verwendet sie ein neuartiges Logit-gesteuertes Re-Attention (LRA)-Modul, um latente Variablen als räumliche und zeitliche Prompts zu lernen, indem die Token-Vorhersagen für jede Unterabfrage regularisiert werden. Diese Prompts heben jeweils Attribut- und Aktionshinweise hervor und lenken die Aufmerksamkeit des Modells auf zuverlässige räumliche und zeitlich verwandte visuelle Regionen. Zusätzlich führen wir die TAS-Strategie ein, um die Vorhersagen unter Verwendung der ursprünglichen Videobilder und der temporal-augmentierten Bilder als Eingaben zusammenzuführen, um die zeitliche Konsistenz zu verbessern, da die räumliche Verankerung durch die Attribut-Unterabfrage zeitlich konsistent sein sollte. Wir evaluieren unsere Methode auf verschiedenen MLLMs und zeigen, dass sie State-of-the-Art-Methoden auf drei gängigen STVG-Benchmarks übertrifft. Der Code wird unter https://github.com/zaiquanyang/LLaVA_Next_STVG verfügbar sein.
Die Ultraschallbildgebung hat sich aufgrund ihrer Vorteile wie der Verwendung von nicht-ionisierender Strahlung, niedrigen Kosten und Echtzeit-Bildgebung als bevorzugte Bildgebungsmethode für das frühe Krebs-Screening etabliert. Allerdings stützt sich die konventionelle Ultraschalldiagnostik stark auf die Expertise des Arztes, was Herausforderungen wie hohe Subjektivität und geringe diagnostische Effizienz mit sich bringt. Vision-Sprach-Modelle (VLMs) bieten vielversprechende Lösungen für dieses Problem, doch bestehende allgemeine Modelle zeigen begrenztes Wissen in Bezug auf ultraschallmedizinische Aufgaben, mit schlechter Generalisierung bei der Erkennung von Läsionen in multiplen Organen und geringer Effizienz in der Multi-Task-Diagnostik. Um diese Einschränkungen zu überwinden, schlagen wir EchoVLM vor, ein speziell für die Ultraschallbildgebung entwickeltes Vision-Sprach-Modell. Das Modell verwendet eine Mixture of Experts (MoE)-Architektur, die mit Daten aus sieben anatomischen Regionen trainiert wurde. Dieser Ansatz ermöglicht es dem Modell, mehrere Aufgaben zu bewältigen, einschließlich der Generierung von Ultraschallberichten, Diagnosen und visuellen Frage-Antwort-Aufgaben (VQA). Die experimentellen Ergebnisse zeigten, dass EchoVLM im Vergleich zu Qwen2-VL bei der Aufgabe der Ultraschallberichtsgenerierung signifikante Verbesserungen von 10,15 und 4,77 Punkten in den BLEU-1- und ROUGE-1-Scores erzielte. Diese Ergebnisse deuten darauf hin, dass EchoVLM ein erhebliches Potenzial besitzt, die diagnostische Genauigkeit in der Ultraschallbildgebung zu verbessern und somit eine praktikable technische Lösung für zukünftige klinische Anwendungen bietet. Der Quellcode und die Modellgewichte sind unter https://github.com/Asunatan/EchoVLM verfügbar.
Die Veränderungserkennung aus hochauflösenden Fernerkundungsbildern stellt einen Eckpfeiler von Erdbeobachtungsanwendungen dar, doch ihre Wirksamkeit wird häufig durch zwei kritische Herausforderungen beeinträchtigt. Erstens sind Fehlalarme weit verbreitet, da Modelle radiometrische Variationen aufgrund zeitlicher Verschiebungen (z. B. Beleuchtung, Jahreszeit) fälschlicherweise als echte Veränderungen interpretieren. Zweitens behindert eine nicht zu vernachlässigende semantische Lücke zwischen tiefen abstrakten Merkmalen und flachen, detailreichen Merkmalen deren effektive Fusion, was zu schlecht abgegrenzten Rändern führt. Um diese Probleme weiter zu adressieren, schlagen wir das Frequency-Spatial Synergistic Gated Network (FSG-Net) vor, ein neuartiges Paradigma, das darauf abzielt, semantische Veränderungen systematisch von störenden Variationen zu trennen. Konkret arbeitet FSG-Net zunächst im Frequenzbereich, wo ein Discrepancy-Aware Wavelet Interaction Module (DAWIM) Pseudoveränderungen adaptiv reduziert, indem es verschiedene Frequenzkomponenten differenziert verarbeitet. Anschließend werden die verfeinerten Merkmale im räumlichen Bereich durch ein Synergistic Temporal-Spatial Attention Module (STSAM) verstärkt, das die Auffälligkeit echter Veränderungsregionen erhöht. Um schließlich die semantische Lücke zu überbrücken, nutzt eine Lightweight Gated Fusion Unit (LGFU) hochrangige Semantik, um entscheidende Details aus flachen Schichten selektiv zu steuern und zu integrieren. Umfassende Experimente auf den Benchmarks CDD, GZ-CD und LEVIR-CD bestätigen die Überlegenheit von FSG-Net und etablieren einen neuen State-of-the-Art mit F1-Scores von 94,16 %, 89,51 % bzw. 91,27 %. Der Code wird nach einer möglichen Veröffentlichung unter https://github.com/zxXie-Air/FSG-Net verfügbar gemacht.