papers.description
In diesem Bericht stellen wir UltraShape 1.0 vor, ein skalierbares 3D-Diffusionsframework zur Erzeugung hochwertiger 3D-Geometrien. Der vorgeschlagene Ansatz verfolgt eine zweistufige Generierungspipeline: Zunächst wird eine grobe globale Struktur synthetisiert und anschließend verfeinert, um eine detaillierte, hochwertige Geometrie zu erzeugen. Um eine zuverlässige 3D-Generierung zu ermöglichen, entwickelten wir eine umfassende Datenverarbeitungspipeline, die eine neuartige Wasserdicht-Verarbeitungsmethode und hochwertige Datenfilterung umfasst. Diese Pipeline verbessert die geometrische Qualität öffentlich verfügbarer 3D-Datensätze durch Entfernen minderwertiger Proben, Schließen von Lücken und Verdicken dünner Strukturen, wobei feingranulare geometrische Details erhalten bleiben. Um eine feingranulare geometrische Verfeinerung zu ermöglichen, entkoppeln wir die räumliche Lokalisierung von der Synthese geometrischer Details im Diffusionsprozess. Dies erreichen wir durch eine voxelbasierte Verfeinerung an festen räumlichen Positionen, wobei Voxel-Abfragen, die aus der Grobgeometrie abgeleitet werden, explizite Positionsanker bereitstellen, die via RoPE kodiert werden. Dies ermöglicht es dem Diffusionsmodell, sich auf die Synthese lokaler geometrischer Details innerhalb eines reduzierten, strukturierten Lösungsraums zu konzentrieren. Unser Modell wurde ausschließlich auf öffentlich verfügbaren 3D-Datensätzen trainiert und erreicht dennoch trotz begrenzter Trainingsressourcen eine hohe geometrische Qualität. Umfangreiche Evaluationen zeigen, dass UltraShape 1.0 in Bezug auf Datenverarbeitungsqualität und Geometriegenerierung wettbewerbsfähig mit bestehenden Open-Source-Methoden abschneidet. Der gesamte Code und die trainierten Modelle werden veröffentlicht, um zukünftige Forschung zu unterstützen.
Kürzlich vereinheitlichte Generierungs- und Bearbeitungsmodelle haben bemerkenswerte Erfolge mit beeindruckender Leistung erzielt. Diese Modelle stützen sich hauptsächlich auf Textprompts für instruktionsbasierte Bearbeitung und Generierung, doch Sprache erfasst oft nicht die beabsichtigten Bearbeitungsbereiche der Nutzer oder fein granulare visuelle Details. Zu diesem Zweck schlagen wir zwei Aufgaben vor: scribbelbasierte Bearbeitung und Generierung, die eine flexiblere Erstellung auf grafischen Benutzeroberflächen (GUI) durch die Kombination von Text, Bildern und Freihandskizzen ermöglichen. Wir stellen DreamOmni3 vor, das zwei Herausforderungen angeht: Datenerstellung und Framework-Design. Unsere Daten-Synthese-Pipeline umfasst zwei Teile: scribbelbasierte Bearbeitung und Generierung. Für scribbelbasierte Bearbeitung definieren wir vier Aufgaben: Scribbel- und instruktionsbasierte Bearbeitung, Scribbel- und multimodal instruktionsbasierte Bearbeitung, Bildfusion und Scribbel-Bearbeitung (Doodling). Basierend auf dem DreamOmni2-Datensatz extrahieren wir bearbeitbare Regionen und überlagern handgezeichnete Kästen, Kreise, Kritzeleien oder zugeschnittene Bilder, um Trainingsdaten zu konstruieren. Für scribbelbasierte Generierung definieren wir drei Aufgaben: Scribbel- und instruktionsbasierte Generierung, Scribbel- und multimodal instruktionsbasierte Generierung sowie Scribbel-Generierung (Doodling), nach ähnlichen Daten-Erstellungs-Pipelines. Für das Framework schlagen wir statt der Verwendung binärer Masken, die bei komplexen Bearbeitungen mit mehreren Scribbeln, Bildern und Instruktionen Schwierigkeiten haben, ein gemeinsames Eingabeschema vor, das sowohl das Original- als auch das scribbelbearbeitete Quellbild in das Model einspeist und dabei verschiedene Farben zur Unterscheidung der Regionen und Vereinfachung der Verarbeitung nutzt. Durch Anwendung derselben Index- und Positionskodierungen auf beide Bilder kann das Model scribbelierte Regionen präzise lokalisieren und gleichzeitig eine genaue Bearbeitung aufrechterhalten. Schließlich etablieren wir umfassende Benchmarks für diese Aufgaben, um die weitere Forschung zu fördern. Experimentelle Ergebnisse zeigen, dass DreamOmni3 herausragende Leistungen erzielt; Modelle und Code werden öffentlich zugänglich gemacht.
Wir formulieren Sprachmodellierung mit langem Kontext als Problem des kontinuierlichen Lernens und nicht der Architekturgestaltung. Unter dieser Formulierung verwenden wir ausschließlich eine Standardarchitektur – einen Transformer mit Sliding-Window-Aufmerksamkeit. Unser Modell setzt das Lernen jedoch zur Testzeit mittels Next-Token-Prediction auf dem gegebenen Kontext fort und komprimiert den gelesenen Kontext in seinen Gewichten. Zusätzlich verbessern wir die Initialisierung des Modells für das Lernen zur Testzeit durch Meta-Lernen während der Trainingszeit. Insgesamt ist unsere Methode, eine Form von Test-Time Training (TTT), sowohl zur Testzeit (durch Next-Token-Prediction) als auch zur Trainingszeit (durch Meta-Lernen) End-to-End (E2E), im Gegensatz zu früheren Ansätzen. Wir führen umfangreiche Experimente durch mit Fokus auf Skalierungseigenschaften. Insbesondere skaliert bei 3B-Modellen, die mit 164B Tokens trainiert wurden, unsere Methode (TTT-E2E) mit der Kontextlänge auf die gleiche Weise wie ein Transformer mit vollständiger Aufmerksamkeit, während andere, wie Mamba 2 und Gated DeltaNet, dies nicht tun. Ähnlich wie RNNs weist TTT-E2E jedoch eine konstante Inferenzlatenz unabhängig von der Kontextlänge auf, was es für 128K Kontext 2,7-mal schneller als vollständige Aufmerksamkeit macht. Unser Code ist öffentlich verfügbar.
Wir evaluieren systematisch Parameter-Efficient Fine-Tuning (PEFT)-Methoden unter dem Paradigma von Reinforcement Learning with Verifiable Rewards (RLVR). RLVR motiviert Sprachmodelle, ihre Fähigkeiten zum logischen Schlussfolgern durch überprüfbares Feedback zu verbessern; jedoch bleibt die optimale PEFT-Architektur für RLVR ungeklärt, obwohl Methoden wie LoRA häufig verwendet werden. In dieser Arbeit führen wir die erste umfassende Evaluation von über 12 PEFT-Methoden anhand der DeepSeek-R1-Distill-Modellfamilien auf mathematischen Reasoning-Benchmarks durch. Unsere empirischen Ergebnisse stellen die standardmäßige Verwendung von klassischem LoRA infrage und liefern drei Haupterkenntnisse. Erstens zeigen wir, dass strukturelle Varianten wie DoRA, AdaLoRA und MiSS durchweg besser abschneiden als LoRA. Zweitens decken wir ein Spektralkollaps-Phänomen bei SVD-informierten Initialisierungsstrategien (z.B. PiSSA, MiLoRA) auf und führen deren Versagen auf eine grundlegende Fehlausrichtung zwischen Principal-Component-Updates und RL-Optimierung zurück. Des Weiteren zeigen unsere Ablationstudien, dass extreme Parameterreduktion (z.B. VeRA, Rank-1) die Reasoning-Fähigkeit stark einschränkt. Wir führen zusätzlich Ablationsstudien und Skalierungsexperimente durch, um unsere Erkenntnisse zu validieren. Diese Arbeit liefert eine wegweisende Handlungsempfehlung für die Notwendigkeit weiterer Erforschung parameter-effizienter RL-Methoden.
Die Aufgabe der Issue-Lokalisierung zielt darauf ab, die Stellen in einem Software-Repository zu identifizieren, die bei einer gegebenen Problembeschreibung in natürlicher Sprache angepasst werden müssen. Diese Aufgabe ist grundlegend, aber dennoch herausfordernd in der automatisierten Softwareentwicklung, was auf die semantische Lücke zwischen Problembeschreibung und Quellcode-Implementierung zurückzuführen ist. Diese Lücke zeigt sich in zwei Arten von Diskrepanzen: (1) Symptom-Ursache-Diskrepanzen, bei denen Beschreibungen die zugrundeliegenden Ursachen nicht explizit offenlegen; (2) Eins-zu-viele-Diskrepanzen, bei denen ein einzelnes Problem mehreren voneinander abhängigen Code-Entitäten entspricht. Um diese beiden Diskrepanzen zu adressieren, schlagen wir GraphLocator vor, einen Ansatz, der Symptom-Ursache-Diskrepanzen durch die Entdeckung kausaler Strukturen mildert und Eins-zu-viele-Diskrepanzen durch dynamische Issue-Entflechtung löst. Das zentrale Artefakt ist der kausale Issue-Graph (CIG), in dem Knoten entdeckte Teilprobleme zusammen mit ihren zugehörigen Code-Entitäten repräsentieren und Kanten die kausalen Abhängigkeiten zwischen ihnen abbilden. Der Arbeitsablauf von GraphLocator besteht aus zwei Phasen: Lokalisierung von Symptomknoten und dynamische CIG-Entdeckung; zunächst identifiziert er Symptompositionen im Repository-Graphen und erweitert dann dynamisch den CIG durch iteratives Schließen auf benachbarte Knoten. Experimente mit drei realen Datensätzen demonstrieren die Wirksamkeit von GraphLocator: (1) Im Vergleich zu Baseline-Verfahren erzielt GraphLocator eine genauere Lokalisierung mit durchschnittlichen Verbesserungen von +19,49 % beim Recall auf Funktionsebene und +11,89 % bei der Präzision. (2) GraphLocator übertrifft die Baseline-Verfahren sowohl bei Symptom-Ursache- als auch bei Eins-zu-viele-Diskrepanzen und erreicht Recall-Verbesserungen von +16,44 % bzw. +19,18 % sowie Präzisionsverbesserungen von +7,78 % bzw. +13,23 %. (3) Der von GraphLocator generierte CIG erzielt die höchste relative Verbesserung, was zu einer Steigerung von 28,74 % der Leistung bei nachgelagerten Lösungsaufgaben führt.
Mixture-of-Experts (MoE)-Architekturen haben die Skalierung von Large Language Models (LLMs) vorangetrieben, indem sie pro Eingabe nur eine spärliche Teilmenge von Parametern aktivieren, was state-of-the-art Leistung bei reduziertem Rechenaufwand ermöglicht. Da diese Modelle zunehmend in kritischen Domänen eingesetzt werden, ist das Verständnis und die Stärkung ihrer Alignment-Mechanismen entscheidend, um schädliche Ausgaben zu verhindern. Die bestehende Sicherheitsforschung zu LLMs hat sich jedoch fast ausschließlich auf dichte Architekturen konzentriert, wodurch die einzigartigen Sicherheitseigenschaften von MoEs weitgehend unerforscht blieben. Das modulare, spärlich aktivierte Design von MoEs legt nahe, dass Sicherheitsmechanismen anders funktionieren könnten als in dichten Modellen, was Fragen zu ihrer Robustheit aufwirft. In diesem Artikel stellen wir GateBreaker vor, das erste trainierungsfreie, leichtgewichtige und architektur-agnostische Angriffsframework, das die Safety-Alignment moderner MoE-LLMs zur Inferenzzeit kompromittiert. GateBreaker operiert in drei Stufen: (i) Gate-Level-Profiling, das Safety-Experten identifiziert, die bei schädlichen Eingaben überproportional häufig angesteuert werden, (ii) Expert-Level-Lokalisierung, die die Sicherheitsstruktur innerhalb der Safety-Experten lokalisiert, und (iii) gezielte Safety-Entfernung, die die identifizierte Sicherheitsstruktur deaktiviert, um das Safety-Alignment zu brechen. Unsere Studie zeigt, dass sich die MoE-Sicherheit auf eine kleine Teilmenge von Neuronen konzentriert, die durch sparse Routing koordiniert werden. Die selektive Deaktivierung dieser Neuronen – etwa 3 % der Neuronen in den Ziel-Experten-Layern – erhöht die durchschnittliche Angriffserfolgsrate (Attack Success Rate, ASR) gegen die acht neuesten alignierten MoE-LLMs signifikant von 7,4 % auf 64,9 % bei begrenzter Nutzungsqualitätsverschlechterung. Diese Safety-Neuronen sind übertragbar auf Modelle innerhalb derselben Familie und erhöhen die ASR mittels One-Shot-Transfer-Angriff von 17,9 % auf 67,7 %. Darüber hinaus verallgemeinert GateBreaker auf fünf MoE-Vision-Language-Models (VLMs) mit einer ASR von 60,9 % bei unsicheren Bildeingaben.