papers.description
Die Automatisierung der Transformation von Benutzeroberflächendesigns (UI) in Frontend-Code birgt erhebliches Potenzial, um die Softwareentwicklung zu beschleunigen und Design-Workflows zu demokratisieren. Obwohl aktuelle große Sprachmodelle (LLMs) Fortschritte bei der Text-zu-Code-Generierung gezeigt haben, stützen sich viele bestehende Ansätze ausschließlich auf natürliche Sprachprompts, was ihre Effektivität bei der Erfassung von räumlichen Layouts und visuellen Designabsichten einschränkt. Im Gegensatz dazu ist die UI-Entwicklung in der Praxis inhärent multimodal und beginnt oft mit visuellen Skizzen oder Mockups. Um diese Lücke zu schließen, führen wir ein modulares Multi-Agenten-Framework ein, das die UI-zu-Code-Generierung in drei interpretierbaren Stufen durchführt: Verankerung, Planung und Generierung. Der Verankerungsagent verwendet ein Vision-Sprache-Modell, um UI-Komponenten zu erkennen und zu beschriften, der Planungsagent konstruiert ein hierarchisches Layout unter Verwendung von Frontend-Engineering-Prioritäten, und der Generierungsagent erzeugt HTML/CSS-Code durch adaptive Prompt-basierte Synthese. Dieser Ansatz verbessert die Robustheit, Interpretierbarkeit und Treue im Vergleich zu end-to-end Black-Box-Methoden. Darüber hinaus erweitern wir das Framework zu einer skalierbaren Daten-Engine, die automatisch groß angelegte Bild-Code-Paare erzeugt. Mit diesen synthetischen Beispielen feintunen und verstärken wir ein Open-Source-VLM, was zu bemerkenswerten Verbesserungen im UI-Verständnis und der Codequalität führt. Umfangreiche Experimente zeigen, dass unser Ansatz Spitzenleistungen in Bezug auf Layoutgenauigkeit, strukturelle Kohärenz und Codekorrektheit erzielt. Unser Code ist öffentlich unter https://github.com/leigest519/ScreenCoder verfügbar.
In diesem Bericht stellen wir Falcon-H1 vor, eine neue Serie von Large Language Models (LLMs) mit hybriden Architekturdesigns, die für hohe Leistung und Effizienz in diversen Anwendungsfällen optimiert sind. Im Gegensatz zu früheren Falcon-Modellen, die ausschließlich auf Transformer- oder Mamba-Architekturen basierten, verfolgt Falcon-H1 einen parallelen hybriden Ansatz, der Transformer-basierte Aufmerksamkeitsmechanismen mit State Space Models (SSMs) kombiniert, die für überlegene Langzeitgedächtnisfähigkeit und Recheneffizienz bekannt sind. Wir haben das Modelldesign, die Datenstrategie und die Trainingsdynamik systematisch überarbeitet und dabei konventionelle Praktiken in diesem Bereich hinterfragt. Falcon-H1 wird in mehreren Konfigurationen veröffentlicht, darunter Basis- und instruktionsoptimierte Varianten mit 0,5B, 1,5B, 1,5B-deep, 3B, 7B und 34B Parametern. Quantisierte instruktionsoptimierte Modelle sind ebenfalls verfügbar, was insgesamt über 30 Checkpoints auf dem Hugging Face Hub ergibt. Die Falcon-H1-Modelle demonstrieren state-of-the-art Leistung sowie außergewöhnliche Parameter- und Trainingseffizienz. Das Flaggschiff Falcon-H1-34B erreicht oder übertrifft Modelle mit bis zu 70B Parametern, wie Qwen3-32B, Qwen2.5-72B und Llama3.3-70B, während es weniger Parameter und Daten verwendet. Kleinere Modelle zeigen ähnliche Trends: Falcon-H1-1.5B-Deep konkurriert mit aktuellen führenden 7B-10B Modellen, und Falcon-H1-0.5B erreicht vergleichbare Leistungen wie typische 7B Modelle aus dem Jahr 2024. Diese Modelle zeichnen sich in den Bereichen logisches Denken, Mathematik, mehrsprachige Aufgaben, Befolgung von Anweisungen und wissenschaftlichem Wissen aus. Mit Unterstützung für bis zu 256K Kontext-Tokens und 18 Sprachen eignet sich Falcon-H1 für eine breite Palette von Anwendungen. Alle Modelle werden unter einer permissiven Open-Source-Lizenz veröffentlicht, was unser Engagement für zugängliche und wirkungsvolle KI-Forschung unterstreicht.
Die 3D-Erstellung war schon immer eine einzigartige menschliche Stärke, angetrieben durch unsere Fähigkeit, Objekte mit unseren Augen, unserem Geist und unseren Händen zu dekonstruieren und wieder zusammenzusetzen. Aktuelle 3D-Design-Tools haben jedoch Schwierigkeiten, diesen natürlichen Prozess nachzubilden, da sie beträchtliche künstlerische Expertise und manuelle Arbeit erfordern. Dieses Papier stellt BANG vor, einen neuartigen generativen Ansatz, der 3D-Generierung und -Logik verbindet und eine intuitive und flexible partielle Dekomposition von 3D-Objekten ermöglicht. Im Kern von BANG steht die „Generative Exploded Dynamics“, die eine flüssige Abfolge von Explosionszuständen für eine Eingabegeometrie erzeugt und dabei Teile schrittweise trennt, während ihre geometrische und semantische Kohärenz bewahrt wird. BANG nutzt ein vortrainiertes großskaliges latentes Diffusionsmodell, das für Exploded Dynamics mit einem leichtgewichtigen Exploded-View-Adapter feinabgestimmt wurde, um eine präzise Steuerung des Dekompositionsprozesses zu ermöglichen. Es integriert zudem ein temporales Aufmerksamkeitsmodul, um flüssige Übergänge und Konsistenz über die Zeit sicherzustellen. BANG verbessert die Steuerung durch räumliche Eingabeaufforderungen wie Begrenzungsrahmen und Oberflächenbereiche, wodurch Benutzer spezifizieren können, welche Teile dekomponiert werden sollen und wie. Diese Interaktion kann mit multimodalen Modellen wie GPT-4 erweitert werden, was 2D-zu-3D-Manipulationen für intuitivere und kreativere Arbeitsabläufe ermöglicht. Die Fähigkeiten von BANG erstrecken sich auf die Generierung detaillierter partieler Geometrien, die Zuordnung von Teilen zu funktionalen Beschreibungen und die Erleichterung von komponentenbewussten 3D-Erstellungs- und Fertigungsprozessen. Darüber hinaus bietet BANG Anwendungen im 3D-Druck, bei dem trennbare Teile für einfaches Drucken und Wiederzusammenbau erzeugt werden. Im Wesentlichen ermöglicht BANG eine nahtlose Transformation von imaginativen Konzepten zu detaillierten 3D-Assets und bietet eine neue Perspektive auf die Erstellung, die mit der menschlichen Intuition in Einklang steht.
Reinforcement Learning hat seine Wirksamkeit bei der Verbesserung der Denkfähigkeiten großer Sprachmodelle unter Beweis gestellt. Jüngste Forschungsbemühungen haben dieses Paradigma zunehmend auf multimodale Denkaufgaben ausgeweitet. Aufgrund der inhärenten Komplexität und Vielfalt multimodaler Aufgaben, insbesondere in Bezug auf semantische Inhalte und Problemformulierungen, zeigen bestehende Modelle oft instabile Leistungen über verschiedene Domänen und Schwierigkeitsgrade hinweg. Um diese Einschränkungen zu überwinden, schlagen wir VL-Cogito vor, ein fortschrittliches multimodales Denkmodell, das durch ein neuartiges mehrstufiges Progressive Curriculum Reinforcement Learning (PCuRL)-Framework trainiert wird. PCuRL führt das Modell systematisch durch Aufgaben mit schrittweise steigendem Schwierigkeitsgrad und verbessert so erheblich seine Denkfähigkeiten in verschiedenen multimodalen Kontexten. Das Framework führt zwei Schlüsselinnovationen ein: (1) einen Online-Schwierigkeitsgrad-Soft-Weighting-Mechanismus, der die Trainingsschwierigkeit dynamisch über aufeinanderfolgende RL-Trainingsphasen hinweg anpasst; und (2) einen dynamischen Längenbelohnungsmechanismus, der das Modell dazu anregt, die Länge seines Denkpfads adaptiv entsprechend der Aufgabenkomplexität zu regulieren und so die Denkeffizienz mit der Korrektheit in Einklang zu bringen. Experimentelle Auswertungen zeigen, dass VL-Cogito durchweg mit bestehenden denkorientierten Modellen auf Mainstream-Multimodal-Benchmarks in den Bereichen Mathematik, Naturwissenschaften, Logik und allgemeinem Verständnis mithält oder diese übertrifft, was die Wirksamkeit unseres Ansatzes bestätigt.
Contrastive Language-Image Pretraining (CLIP) ist ein weit verbreitetes Basismodell, das von Zero-Shot-Klassifikation und Retrieval bis hin zu Encodern für multimodale Large Language Models (MLLMs) unterstützt. Obwohl CLIP erfolgreich mit milliardenfachen Bild-Text-Paaren aus der englischsprachigen Welt trainiert wurde, bleibt die Skalierung des CLIP-Trainings auf weltweite Webdaten eine Herausforderung: (1) Es gibt keine Kuratierungsmethode, um Datenpunkte aus der nicht-englischsprachigen Welt zu verarbeiten; (2) die Leistung im Englischen bei bestehenden mehrsprachigen CLIP-Modellen ist schlechter als bei ihrem rein englischsprachigen Gegenstück, ein Phänomen, das als „Fluch der Mehrsprachigkeit“ bekannt ist und in LLMs häufig auftritt. Hier präsentieren wir MetaCLIP 2, das erste Rezept, um CLIP von Grund auf mit weltweiten Web-basierten Bild-Text-Paaren zu trainieren. Um unsere Erkenntnisse zu verallgemeinern, führen wir rigorose Ablationen mit minimalen Änderungen durch, die notwendig sind, um die oben genannten Herausforderungen zu bewältigen, und präsentieren ein Rezept, das gegenseitige Vorteile aus englisch- und nicht-englischsprachigen Daten ermöglicht. Bei der Zero-Shot-Klassifikation auf ImageNet übertrifft MetaCLIP 2 ViT-H/14 sein rein englischsprachiges Gegenstück um 0,8 % und mSigLIP um 0,7 % und setzt überraschenderweise neue State-of-the-Art-Werte ohne systembedingte Störfaktoren (z. B. Übersetzung, spezifische Architekturänderungen) auf mehrsprachigen Benchmarks, wie CVQA mit 57,4 %, Babel-ImageNet mit 50,2 % und XM3600 mit 64,3 % beim Bild-Text-Retrieval.
Große Sprachmodelle (LLMs) weisen während des Decodierens eine geringe Hardwareeffizienz auf, insbesondere bei Aufgaben mit langem Kontext. Diese Arbeit stellt Step-3 vor, ein 321B-Parameter-VLM mit hardwarebewusstem Modell-System-Co-Design, das optimiert ist, um die Decodierungskosten zu minimieren. Step-3 innoviert in zwei Schlüsselbereichen: (1) Ein neuartiger Multi-Matrix-Faktorisierungs-Attention-Mechanismus (MFA), der sowohl die Größe des KV-Caches als auch die Berechnungen signifikant reduziert, während eine hohe Ausdrucksstärke der Attention beibehalten wird, und (2) Attention-FFN-Disaggregation (AFD), ein verteiltes Inferenzsystem, das Attention- und Feed-Forward-Network-Schichten (FFN) in spezialisierte Subsysteme entkoppelt. Dieses Co-Design erreicht eine beispiellose Kosteneffizienz: Step-3 reduziert die theoretischen Decodierungskosten im Vergleich zu Modellen wie DeepSeek-V3 und Qwen3 MoE 235B erheblich, wobei die Vorteile bei längeren Kontexten noch deutlicher werden. Step-3 erreicht niedrige Kosten, während pro Token 38B Parameter aktiviert werden (mehr als bei DeepSeek-V3 und Qwen3 MoE 235B), was zeigt, dass hardwareorientierte Attention-Arithmetikintensität, MoE-Sparsity und AFD entscheidend für die Kosteneffektivität sind. Wir führen einen direkten Vergleich mit DeepSeek-V3 in dessen bevorzugten Szenarien durch. Unsere Implementierung auf Hopper-GPUs erreicht einen Decodierungsdurchsatz von bis zu 4.039 Token pro Sekunde pro GPU unter einem 50ms TPOT SLA (4K-Kontext, FP8, kein MTP). Dies ist höher als DeepSeek-V3s 2.324 im gleichen Setup und setzt eine neue Pareto-Grenze für die LLM-Decodierung.
Die Erkennung von Fahrzeugen in Luftbildern ist eine entscheidende Aufgabe mit Anwendungen in der Verkehrsüberwachung, Stadtplanung und Verteidigungsnachrichtendiensten. Deep-Learning-Methoden haben hierbei state-of-the-art (SOTA) Ergebnisse erzielt. Eine erhebliche Herausforderung besteht jedoch darin, dass Modelle, die mit Daten aus einer geografischen Region trainiert wurden, oft nicht effektiv auf andere Gebiete verallgemeinern können. Variabilitäten in Faktoren wie Umweltbedingungen, städtischen Strukturen, Straßennetzen, Fahrzeugtypen und Bildaufnahmeparametern (z. B. Auflösung, Beleuchtung und Winkel) führen zu Domänenverschiebungen, die die Modellleistung beeinträchtigen. In diesem Artikel wird eine neuartige Methode vorgeschlagen, die generative KI zur Synthese hochwertiger Luftbilder und deren Beschriftungen nutzt, um das Training von Detektoren durch Datenaugmentierung zu verbessern. Unser wesentlicher Beitrag ist die Entwicklung eines mehrstufigen, multimodalen Wissensübertragungsrahmens, der feinabgestimmte latente Diffusionsmodelle (LDMs) verwendet, um die Verteilungslücke zwischen der Quell- und der Zielumgebung zu verringern. Umfangreiche Experimente in verschiedenen Luftbilddomänen zeigen konsistente Leistungsverbesserungen in AP50 im Vergleich zu überwachtem Lernen auf Quelldomänendaten, schwach überwachten Adaptionsmethoden, unüberwachten Domänenanpassungsmethoden und Open-Set-Objektdetektoren um 4–23 %, 6–10 %, 7–40 % bzw. mehr als 50 %. Darüber hinaus stellen wir zwei neu annotierte Luftbilddatensätze aus Neuseeland und Utah vor, um weitere Forschungen in diesem Bereich zu unterstützen. Die Projektseite ist verfügbar unter: https://humansensinglab.github.io/AGenDA
Obwohl GRPO die Flow-Matching-Modelle bei der Ausrichtung der Bildgenerierung an menschlichen Präferenzen erheblich verbessert, weisen Methoden wie FlowGRPO aufgrund der Notwendigkeit, über alle in dem Markov-Entscheidungsprozess (MDP) spezifizierten Denoising-Schritte zu sampeln und zu optimieren, immer noch Ineffizienzen auf. In diesem Artikel schlagen wir MixGRPO vor, ein neuartiges Framework, das die Flexibilität gemischter Sampling-Strategien durch die Integration stochastischer Differentialgleichungen (SDE) und gewöhnlicher Differentialgleichungen (ODE) nutzt. Dies optimiert den Optimierungsprozess innerhalb des MDP, um die Effizienz zu steigern und die Leistung zu verbessern. Insbesondere führt MixGRPO einen Schiebefenster-Mechanismus ein, der SDE-Sampling und GRPO-gesteuerte Optimierung nur innerhalb des Fensters verwendet, während außerhalb ODE-Sampling angewendet wird. Dieser Ansatz beschränkt die Zufälligkeit des Samplings auf die Zeitschritte innerhalb des Fensters, reduziert dadurch den Optimierungsaufwand und ermöglicht gezieltere Gradientenaktualisierungen, um die Konvergenz zu beschleunigen. Da Zeitschritte außerhalb des Schiebefensters nicht in die Optimierung einbezogen werden, werden zudem höherwertige Solver für das Sampling unterstützt. Daher präsentieren wir eine schnellere Variante, genannt MixGRPO-Flash, die die Trainings effizienz weiter verbessert, während sie eine vergleichbare Leistung erzielt. MixGRPO zeigt erhebliche Verbesserungen in mehreren Dimensionen der Ausrichtung an menschlichen Präferenzen und übertrifft DanceGRPO sowohl in der Effektivität als auch in der Effizienz, mit einer um fast 50 % geringeren Trainingszeit. Bemerkenswerterweise reduziert MixGRPO-Flash die Trainingszeit um weitere 71 %. Codes und Modelle sind verfügbar unter https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.
Die referenzielle audiovisuelle Segmentierung (RAVS) hat in letzter Zeit bedeutende Fortschritte erzielt, doch bestehen weiterhin Herausforderungen bei der Integration multimodaler Informationen sowie beim tiefgreifenden Verständnis und der Schlussfolgerung von audiovisuellen Inhalten. Um die Grenzen von RAVS zu erweitern und zukünftige Forschung in diesem Bereich zu fördern, schlagen wir Omnimodal Referring Audio-Visual Segmentation (OmniAVS) vor, einen neuen Datensatz, der 2.098 Videos und 59.458 multimodale Referenzausdrücke enthält. OmniAVS zeichnet sich durch drei wesentliche Innovationen aus: (1) 8 Arten multimodaler Ausdrücke, die Text, Sprache, Klang und visuelle Hinweise flexibel kombinieren; (2) eine Betonung des Verständnisses von Audioinhalten über die bloße Erkennung ihrer Anwesenheit hinaus; und (3) die Einbeziehung komplexer Schlussfolgerungen und Weltwissen in den Ausdrücken. Darüber hinaus stellen wir den Omnimodal Instructed Segmentation Assistant (OISA) vor, um die Herausforderungen multimodaler Schlussfolgerungen und des feingranularen Verständnisses audiovisueller Inhalte in OmniAVS zu bewältigen. OISA nutzt MLLM, um komplexe Hinweise zu verstehen und eine auf Schlussfolgerungen basierte Segmentierung durchzuführen. Umfangreiche Experimente zeigen, dass OISA bestehende Methoden auf OmniAVS übertrifft und wettbewerbsfähige Ergebnisse bei anderen verwandten Aufgaben erzielt.
APR (Automated Program Repair) zielt darauf ab, Programmfehler automatisch zu lokalisieren, Patches zu generieren und die Reparaturen zu validieren. Bestehende Techniken für APR werden häufig mit LLMs (Large Language Models) kombiniert, die das codebezogene Wissen der LLMs nutzen, um die Reparaturwirksamkeit zu verbessern. Aktuelle LLM-basierte APR-Methoden verwenden Testfälle typischerweise nur während der Inferenzphase und verfolgen einen iterativen Ansatz, bei dem zunächst eine Reparatur durchgeführt und diese anschließend durch Testausführung validiert wird. Dieses konventionelle Paradigma vernachlässigt zwei wichtige Aspekte: den potenziellen Beitrag von Testfällen in der Trainingsphase und die Möglichkeit, Tests vor der Reparatur zu nutzen. Um dies zu adressieren, schlagen wir Repair-R1 vor, das Testfälle in die Trainingsphase des Modells einführt und die Testgenerierung vor die Reparatur verlagert. Das Modell muss zunächst diskriminative Testfälle generieren, die fehlerhaftes Verhalten erkennen können, und dann basierend auf diesen Tests die Reparatur durchführen. Dies ermöglicht es dem Modell, Fehler besser zu lokalisieren und die zugrunde liegenden Ursachen von Fehlern zu verstehen, wodurch die Reparaturwirksamkeit verbessert wird. Wir implementieren Repair-R1 mit drei verschiedenen Basismodellen und verwenden RL (Reinforcement Learning), um die Testgenerierung und die Fehlerbehebung gemeinsam zu optimieren. Experimentelle Ergebnisse auf vier weit verbreiteten Benchmarks demonstrieren die Überlegenheit von Repair-R1. Insbesondere verbessert Repair-R1 im Vergleich zu Standardmodellen die Reparaturerfolgsrate um 2,68\% bis 48,29\%, die Testgenerierungserfolgsrate um 16,38\% bis 53,28\% und die Testabdeckung um 0,78\% bis 53,96\%. Wir veröffentlichen den Code und die Gewichte unter https://github.com/Tomsawyerhu/APR-RL und https://huggingface.co/tomhu/Qwen3-4B-RL-5000-step.
Die Spannung zwischen Datenschutz und Modellnutzen hat sich zum entscheidenden Engpass für den praktischen Einsatz großer Sprachmodelle (LLMs) entwickelt, die auf sensiblen Datenkorpora, einschließlich des Gesundheitswesens, trainiert wurden. Differenziell privater stochastischer Gradientenabstieg (DP-SGD) gewährleistet formale Privatsphäre, jedoch zu einem erheblichen Preis: Gradienten werden zwangsweise beschnitten und mit Rauschen versehen, was die Stichprobeneffizienz und die endgültige Genauigkeit beeinträchtigt. Zahlreiche Varianten wurden vorgeschlagen, um diesen Kompromiss abzumildern, aber sie alle teilen eine Schwäche: Ihre Steuerungsparameter sind fest kodiert, global und ignorieren die sich entwickelnde Optimierungslandschaft. Folglich sind Praktiker gezwungen, entweder das Privatsphäre-Budget übermäßig auszugeben, um Nutzen zu erzielen, oder mittelmäßige Modelle zu akzeptieren, um innerhalb der Privatsphäre-Grenzen zu bleiben. Wir präsentieren RLDP, das erste Framework, das die DP-Optimierung selbst als ein geschlossenes Regelkreisproblem darstellt, das sich für modernes Deep Reinforcement Learning (RL) eignet. RLDP erfasst kontinuierlich umfangreiche Statistiken der Lern-Dynamik und handelt, indem es fein abgestimmte Gradienten-Beschneidungsschwellen pro Parameter sowie die Stärke des injizierten Gaußschen Rauschens auswählt. Eine Soft Actor-Critic (SAC)-Hyper-Policy wird während der Feinabstimmung des Sprachmodells online trainiert; sie lernt von Grund auf, wie das Privatsphäre-Budget dort und dann zugeteilt wird, wo und wann es wichtig ist. In über 1.600 Ablationsexperimenten mit GPT2-small, Llama-1B, Llama-3B und Mistral-7B erzielt RLDP Reduktionen der Perplexität von 1,3-30,5 % (Durchschnitt 5,4 %) und einen durchschnittlichen Nutzengewinn von 5,6 % in nachgelagerten Aufgaben. RLDP erreicht den endgültigen Nutzen jedes Baselines nach nur 13-43 % des Gradienten-Update-Budgets (durchschnittliche Beschleunigung 71 %), während es denselben (epsilon, delta)-DP-Vertrag einhält und eine gleichwertige oder geringere Anfälligkeit für Mitgliedschafts-Inferenz- und Kanarienvogel-Extraktionsangriffe zeigt.
Die Erzeugung von 3D-Szenen aus natürlicher Sprache birgt großes Potenzial für Anwendungen in den Bereichen Gaming, Film und Design. Allerdings kämpfen bestehende Methoden mit Automatisierung, 3D-Konsistenz und fein abgestufter Kontrolle. Wir stellen DreamScene vor, ein End-to-End-Framework für die hochwertige und bearbeitbare Erzeugung von 3D-Szenen aus Text oder Dialogen. DreamScene beginnt mit einem Szenenplanungsmodul, in dem ein GPT-4-Agent Objektsemantik und räumliche Einschränkungen ableitet, um einen hybriden Graphen zu konstruieren. Ein graphenbasierter Platzierungsalgorithmus erzeugt daraufhin ein strukturiertes, kollisionsfreies Layout. Basierend auf diesem Layout generiert Formation Pattern Sampling (FPS) die Objektgeometrie durch Multi-Timestep-Sampling und rekonstruktive Optimierung, was eine schnelle und realistische Synthese ermöglicht. Um globale Konsistenz zu gewährleisten, verwendet DreamScene eine progressive Kamera-Sampling-Strategie, die sowohl für Innen- als auch für Außenbereiche geeignet ist. Schließlich unterstützt das System die fein abgestufte Bearbeitung von Szenen, einschließlich Objektbewegung, Änderungen des Erscheinungsbilds und 4D-dynamischer Bewegung. Experimente zeigen, dass DreamScene bisherige Methoden in Bezug auf Qualität, Konsistenz und Flexibilität übertrifft und eine praktische Lösung für die offene Domäne der 3D-Inhaltserstellung bietet. Code und Demos sind verfügbar unter https://jahnsonblack.github.io/DreamScene-Full/.