papers.description
Wir stellen Drivelology vor, ein einzigartiges linguistisches Phänomen, das als „Unsinn mit Tiefe“ charakterisiert wird – Äußerungen, die syntaktisch kohärent, aber pragmatisch paradox, emotional aufgeladen oder rhetorisch subversiv sind. Obwohl solche Ausdrücke oberflächlich betrachtet wie Unsinn erscheinen mögen, kodieren sie implizite Bedeutungen, die kontextuelle Schlussfolgerungen, moralisches Denken oder emotionale Interpretation erfordern. Wir stellen fest, dass aktuelle große Sprachmodelle (LLMs), trotz ihrer herausragenden Leistungen in vielen Aufgaben der natürlichen Sprachverarbeitung (NLP), durchweg daran scheitern, die vielschichtige Semantik von Drivelology-Texten zu erfassen. Um dies zu untersuchen, haben wir einen kleinen, aber diversen Benchmark-Datensatz mit über 1.200 sorgfältig kuratierten Beispielen erstellt, darunter ausgewählte Instanzen in Englisch, Mandarin, Spanisch, Französisch, Japanisch und Koreanisch. Die Annotation war besonders herausfordernd: Jedes der Beispiele erforderte eine sorgfältige Expertenüberprüfung, um sicherzustellen, dass es tatsächlich die Merkmale von Drivelology widerspiegelt. Der Prozess umfasste mehrere Runden von Diskussionen und Entscheidungen, um Meinungsverschiedenheiten zu klären, was die subtile und subjektive Natur der Drivelology unterstreicht. Wir bewerten eine Reihe von LLMs in Bezug auf Klassifikations-, Generierungs- und Schlussfolgerungsaufgaben. Unsere Ergebnisse zeigen deutliche Grenzen der LLMs auf: Modelle verwechseln oft Drivelology mit oberflächlichem Unsinn, liefern inkohärente Begründungen oder übersehen die implizierte rhetorische Funktion vollständig. Diese Erkenntnisse verdeutlichen eine tiefere Repräsentationslücke im pragmatischen Verständnis von LLMs und stellen die Annahme infrage, dass statistische Flüssigkeit kognitive Verständlichkeit impliziert. Wir veröffentlichen unseren Datensatz und Code, um weitere Forschungen zur Modellierung linguistischer Tiefe jenseits oberflächlicher Kohärenz zu ermöglichen.
Die Nutzung visueller Priors aus vortrainierten Text-zu-Bild (T2I) generativen Modellen hat sich bei der dichten Vorhersage als erfolgreich erwiesen. Allerdings ist die dichte Vorhersage von Natur aus eine Bild-zu-Bild-Aufgabe, was darauf hindeutet, dass Bildbearbeitungsmodelle anstelle von T2I generativen Modellen eine geeignetere Grundlage für das Feinabstimmen sein könnten. Motiviert durch diese Überlegung führen wir eine systematische Analyse des Feinabstimmungsverhaltens sowohl von Bearbeitungs- als auch von Generierungsmodellen für die dichte Geometrieschätzung durch. Unsere Ergebnisse zeigen, dass Bearbeitungsmodelle inhärente strukturelle Priors besitzen, die es ihnen ermöglichen, stabiler zu konvergieren, indem sie ihre angeborenen Merkmale „verfeinern“, und letztendlich eine höhere Leistung als ihre generativen Gegenstücke zu erzielen. Basierend auf diesen Erkenntnissen stellen wir FE2E vor, ein Framework, das erstmals ein fortschrittliches Bearbeitungsmodell auf Basis der Diffusion Transformer (DiT)-Architektur für die dichte Geometrievorhersage adaptiert. Konkret reformulieren wir den ursprünglichen Flow-Matching-Verlust des Bearbeitungsmodells in das „konsistente Geschwindigkeit“-Trainingsziel, um den Editor für diese deterministische Aufgabe anzupassen. Zudem verwenden wir logarithmische Quantisierung, um den Präzisionskonflikt zwischen dem nativen BFloat16-Format des Editors und den hohen Präzisionsanforderungen unserer Aufgaben zu lösen. Darüber hinaus nutzen wir die globale Aufmerksamkeit des DiT für eine kostenneutrale gemeinsame Schätzung von Tiefe und Normalen in einem einzigen Vorwärtsdurchlauf, wodurch ihre Überwachungssignale sich gegenseitig verstärken können. Ohne die Trainingsdaten zu skalieren, erzielt FE2E beeindruckende Leistungssteigerungen bei der Null-Shot-Monokular-Tiefen- und Normalenschätzung über mehrere Datensätze hinweg. Insbesondere erreicht es über 35\% Leistungssteigerung auf dem ETH3D-Datensatz und übertrifft die DepthAnything-Serie, die mit 100-fachen Daten trainiert wurde. Die Projektseite kann unter https://amap-ml.github.io/FE2E/{hier} aufgerufen werden.
Es gibt zwei Hauptquellen für Trainingsdaten zur Nachschulung moderner Sprachmodelle: Online-Daten (modellgenerierte Rollouts) und Offline-Daten (Demonstrationen von Menschen oder anderen Modellen). Diese beiden Datentypen werden typischerweise von Ansätzen wie Reinforcement Learning (RL) und Supervised Fine-Tuning (SFT) verwendet. In diesem Artikel zeigen wir, dass diese Ansätze nicht im Widerspruch zueinander stehen, sondern Instanzen eines einzigen Optimierungsprozesses sind. Wir leiten einen Vereinheitlichten Policy-Gradient-Schätzer ab und stellen die Berechnungen eines breiten Spektrums von Nachschulungsansätzen als Gradient eines gemeinsamen Ziels unter verschiedenen Annahmen zur Datenverteilung und verschiedenen Bias-Varianz-Kompromissen dar. Der Gradientenschätzer besteht aus vier austauschbaren Komponenten: Stabilisierungsmaske, Referenzrichtlinien-Nenner, Vorteilsschätzung und Likelihood-Gradient. Motiviert durch unsere theoretischen Erkenntnisse schlagen wir Hybrid Post-Training (HPT) vor, einen Algorithmus, der dynamisch verschiedene Trainingssignale auswählt. HPT ist darauf ausgelegt, sowohl eine effektive Nutzung von Demonstrationen als auch eine stabile Exploration zu ermöglichen, ohne dabei gelernte Denkmuster zu opfern. Wir führen umfangreiche Experimente und Ablationsstudien durch, um die Wirksamkeit unseres vereinheitlichten theoretischen Rahmens und von HPT zu überprüfen. Über sechs mathematische Denkbenchmarks und zwei Out-of-Distribution-Testsuiten hinweg übertrifft HPT durchweg starke Baselines über Modelle verschiedener Größen und Familien hinweg.
Tiefe Forschungsagenten haben zunehmend Aufmerksamkeit für ihr Potenzial erregt, mehrstufige Forschungsabläufe zu orchestrieren, die von der Literaturrecherche über methodisches Design bis hin zur empirischen Überprüfung reichen. Trotz dieser Fortschritte ist die zuverlässige Bewertung ihrer Forschungsfähigkeiten äußerst herausfordernd, da es schwierig ist, aktuelle Forschungsfragen zu sammeln, die das Interesse und die intellektuelle Neugier von Forschern wirklich einfangen. Um diese Lücke zu schließen, stellen wir DeepResearch Arena vor, einen Benchmark, der auf akademischen Seminaren basiert, die reichhaltige Experten-Diskurse und Interaktionen erfassen und somit realistische Forschungsumgebungen besser widerspiegeln und das Risiko von Datenlecks reduzieren. Um DeepResearch Arena automatisch zu konstruieren, schlagen wir ein Multi-Agent Hierarchical Task Generation (MAHTG) System vor, das forschungswürdige Inspirationen aus Seminartranskripten extrahiert. Das MAHTG-System übersetzt diese forschungswürdigen Inspirationen weiterhin in hochwertige Forschungsaufgaben, wodurch die Nachvollziehbarkeit der Formulierung von Forschungsaufgaben sichergestellt wird, während gleichzeitig Rauschen gefiltert wird. Mit dem MAHTG-System haben wir DeepResearch Arena mit über 10.000 hochwertigen Forschungsaufgaben aus mehr als 200 akademischen Seminaren kuratiert, die 12 Disziplinen wie Literatur, Geschichte und Wissenschaft abdecken. Unsere umfangreiche Evaluierung zeigt, dass DeepResearch Arena erhebliche Herausforderungen für aktuelle State-of-the-Art-Agenten darstellt, wobei deutliche Leistungsunterschiede zwischen verschiedenen Modellen beobachtet werden.
Große Sprachmodelle (LLMs) erzielen starke Leistungen bei vielfältigen Aufgaben, zeigen jedoch oft kognitive Trägheit und haben Schwierigkeiten, Anweisungen zu befolgen, die den standardisierten Mustern widersprechen, die während des überwachten Feinabstimmens (SFT) gelernt wurden. Um diese Einschränkung zu bewerten, schlagen wir Inverse IFEval vor, einen Benchmark, der die kontraintuitive Fähigkeit der Modelle misst – ihre Fähigkeit, trainingsinduzierte Verzerrungen zu überwinden und adversarischen Anweisungen zu folgen. Inverse IFEval führt acht Arten solcher Herausforderungen ein, darunter Fragenkorrektur, absichtliche Textfehler, Code ohne Kommentare und kontrafaktisches Beantworten. Mithilfe einer Human-in-the-Loop-Pipeline erstellen wir einen Datensatz von 1012 hochwertigen chinesischen und englischen Fragen aus 23 Domänen, die unter einem optimierten LLM-as-a-Judge-Framework bewertet werden. Experimente mit führenden existierenden LLMs demonstrieren die Notwendigkeit unseres vorgeschlagenen Inverse IFEval-Benchmarks. Unsere Ergebnisse betonen, dass zukünftige Alignment-Bemühungen nicht nur Flüssigkeit und faktische Korrektheit anstreben sollten, sondern auch die Anpassungsfähigkeit unter unkonventionellen Kontexten berücksichtigen müssen. Wir hoffen, dass Inverse IFEval sowohl als Diagnosewerkzeug als auch als Grundlage für die Entwicklung von Methoden dient, die kognitive Trägheit mindern, Overfitting auf enge Muster reduzieren und letztendlich die Zuverlässigkeit der Anweisungsbefolgung von LLMs in vielfältigen und unvorhersehbaren realen Szenarien verbessern.
Ein grundlegendes Dilemma in der generativen Modellierung besteht weiterhin: Iterative Diffusionsmodelle erreichen herausragende Detailtreue, jedoch zu erheblichen Rechenkosten, während effiziente Alternativen mit wenigen Schritten durch eine harte Qualitätsgrenze eingeschränkt sind. Dieser Konflikt zwischen Generierungsschritten und Ausgabequalität ergibt sich aus restriktiven Trainingszielen, die sich ausschließlich auf infinitesimale Dynamiken (PF-ODEs) oder direkte Endpunktvorhersagen konzentrieren. Wir begegnen dieser Herausforderung, indem wir eine exakte, zeitkontinuierliche Dynamikgleichung einführen, die Zustandsübergänge über beliebige endliche Zeitintervalle analytisch definiert. Dies führt zu einem neuartigen generativen Paradigma, den Transition Models (TiM), die sich an beliebige Schrittübergänge anpassen und nahtlos die generative Trajektorie von einzelnen Sprüngen bis hin zu fein abgestufter Verfeinerung mit mehr Schritten durchlaufen. Trotz nur 865M Parametern erreichen TiM state-of-the-art Leistungen und übertreffen führende Modelle wie SD3.5 (8B Parameter) und FLUX.1 (12B Parameter) über alle bewerteten Schrittanzahlen hinweg. Wichtig ist, dass TiM im Gegensatz zu früheren Generatoren mit wenigen Schritten eine monotone Qualitätsverbesserung zeigt, wenn das Sampling-Budget erhöht wird. Zudem liefert TiM bei Anwendung unserer nativen Auflösungsstrategie außergewöhnliche Detailtreue bei Auflösungen von bis zu 4096x4096.
Die Analyse von Langform-Videos, die durch langfristige zeitliche Abhängigkeiten und multiple Ereignisse gekennzeichnet ist, bleibt eine Herausforderung. Bestehende Methoden stützen sich oft auf statische Schlussfolgerungen oder externe visuell-sprachliche Modelle (VLMs), die aufgrund des Mangels an end-to-end-Training mit Problemen wie Komplexität und suboptimaler Leistung konfrontiert sind. In diesem Artikel schlagen wir Video-MTR vor, ein verstärktes Multi-Turn-Schlussfolgerungsframework, das darauf ausgelegt ist, eine iterative Auswahl von Schlüsselvideosegmenten und das Verständnis von Fragen zu ermöglichen. Im Gegensatz zur traditionellen Video-Schlussfolgerungspipeline, die Vorhersagen in einem einzigen Durchlauf generiert, führt Video-MTR die Schlussfolgerung in mehreren Durchläufen durch, wobei Videosegmente schrittweise basierend auf dem sich entwickelnden Verständnis der zuvor verarbeiteten Segmente und der aktuellen Frage ausgewählt werden. Dieser iterative Prozess ermöglicht eine verfeinerte und kontextbewusste Analyse des Videos. Um den Zwischenschlussfolgerungsprozess zu gewährleisten, führen wir ein neuartiges gated bi-level Belohnungssystem ein, das trajektorienbasierte Belohnungen auf der Grundlage der Antwortkorrektheit und turn-basierte Belohnungen, die die Relevanz von Frame und Abfrage betonen, kombiniert. Dieses System optimiert sowohl die Auswahl von Videosegmenten als auch das Verständnis von Fragen, wodurch der Bedarf an externen VLMs entfällt und ein end-to-end-Training ermöglicht wird. Umfangreiche Experimente auf Benchmarks wie VideoMME, MLVU und EgoSchema zeigen, dass Video-MTR bestehende Methoden sowohl in Bezug auf Genauigkeit als auch Effizienz übertrifft und den Stand der Technik in der Analyse von Langform-Videos voranbringt.
Wir stellen NER Retriever vor, ein Zero-Shot-Retrieval-Framework für ad-hoc Named Entity Retrieval, eine Variante der Named Entity Recognition (NER), bei der die interessierenden Typen nicht im Voraus festgelegt sind und eine benutzerdefinierte Typbeschreibung verwendet wird, um Dokumente zu finden, die Entitäten dieses Typs erwähnen. Anstatt auf feste Schemata oder feinabgestimmte Modelle angewiesen zu sein, basiert unsere Methode auf internen Repräsentationen großer Sprachmodelle (LLMs), um sowohl Entitätserwähnungen als auch benutzerdefinierte, offene Typbeschreibungen in einen gemeinsamen semantischen Raum einzubetten. Wir zeigen, dass interne Repräsentationen, insbesondere die Wertvektoren aus mittleren Transformer-Blöcken, feinkörnige Typinformationen effektiver kodieren als häufig verwendete Top-Layer-Embeddings. Um diese Repräsentationen zu verfeinern, trainieren wir ein leichtgewichtiges kontrastives Projektionsnetzwerk, das typkompatible Entitäten ausrichtet, während es nicht verwandte Typen trennt. Die resultierenden Entitäts-Embeddings sind kompakt, typbewusst und eignen sich gut für die nächste-Nachbar-Suche. Auf drei Benchmarks getestet, übertrifft NER Retriever sowohl lexikalische als auch dichte Satzebenen-Retrieval-Baselines deutlich. Unsere Ergebnisse liefern empirische Unterstützung für die Repräsentationsauswahl innerhalb von LLMs und demonstrieren eine praktische Lösung für skalierbare, schemafreie Entitätsretrieval. Der NER Retriever Codebase ist öffentlich verfügbar unter https://github.com/ShacharOr100/ner_retriever.
Flow-basierte 3D-Generierungsmodelle erfordern typischerweise Dutzende von Sampling-Schritten während der Inferenz. Obwohl Few-Step-Distillationsmethoden, insbesondere Consistency Models (CMs), erhebliche Fortschritte bei der Beschleunigung von 2D-Diffusionsmodellen erzielt haben, bleiben sie für komplexere 3D-Generierungsaufgaben weitgehend unerforscht. In dieser Studie schlagen wir ein neuartiges Framework, MDT-dist, für die Few-Step-3D-Flow-Distillation vor. Unser Ansatz basiert auf einem primären Ziel: die Distillation des vortrainierten Modells, um den Marginal-Data-Transport zu erlernen. Das direkte Erlernen dieses Ziels erfordert die Integration der Geschwindigkeitsfelder, während dieses Integral jedoch schwer umsetzbar ist. Daher schlagen wir zwei optimierbare Ziele vor, Velocity Matching (VM) und Velocity Distillation (VD), um das Optimierungsziel äquivalent von der Transportebene auf die Geschwindigkeits- bzw. die Verteilungsebene umzuwandeln. Velocity Matching (VM) lernt, die Geschwindigkeitsfelder zwischen dem Schüler- und dem Lehrermodell stabil abzugleichen, liefert jedoch zwangsläufig verzerrte Gradientenschätzungen. Velocity Distillation (VD) verbessert den Optimierungsprozess weiter, indem es die gelernten Geschwindigkeitsfelder nutzt, um eine Wahrscheinlichkeitsdichte-Distillation durchzuführen. Bei der Evaluierung auf dem wegweisenden 3D-Generierungsframework TRELLIS reduziert unsere Methode die Sampling-Schritte jedes Flow-Transformers von 25 auf 1 oder 2 und erreicht eine Latenz von 0,68s (1 Schritt x 2) bzw. 0,94s (2 Schritte x 2) mit einer Beschleunigung um den Faktor 9,0x bzw. 6,5x auf der A800, während eine hohe visuelle und geometrische Treue erhalten bleibt. Umfangreiche Experimente zeigen, dass unsere Methode bestehende CM-Distillationsmethoden deutlich übertrifft und es TRELLIS ermöglicht, eine überlegene Leistung in der Few-Step-3D-Generierung zu erzielen.
Wir präsentieren Durian, die erste Methode zur Erzeugung von Porträtanimationsvideos mit Gesichtsattributtransfer von einem gegebenen Referenzbild zu einem Zielporträt in einem Zero-Shot-Verfahren. Um einen hochauflösenden und räumlich konsistenten Attributtransfer über die Frames hinweg zu ermöglichen, führen wir duale Referenznetzwerke ein, die räumliche Merkmale sowohl aus dem Porträt- als auch aus dem Attributbild in den Denoising-Prozess eines Diffusionsmodells injizieren. Wir trainieren das Modell mit einer Selbstrekonstruktionsformulierung, bei der zwei Frames aus demselben Porträtvideo entnommen werden: einer wird als Attributreferenz und der andere als Zielporträt behandelt, während die verbleibenden Frames basierend auf diesen Eingaben und ihren entsprechenden Masken rekonstruiert werden. Um den Transfer von Attributen mit unterschiedlicher räumlicher Ausdehnung zu unterstützen, schlagen wir eine Maskenerweiterungsstrategie vor, die eine keypoint-bedingte Bildgenerierung für das Training verwendet. Zusätzlich erweitern wir die Attribut- und Porträtbilder mit räumlichen und erscheinungsbasierten Transformationen, um die Robustheit gegenüber Positionsfehlausrichtungen zwischen ihnen zu verbessern. Diese Strategien ermöglichen es dem Modell, effektiv über diverse Attribute und In-the-Wild-Referenzkombinationen zu generalisieren, obwohl es ohne explizite Tripletten-Supervision trainiert wurde. Durian erreicht state-of-the-art Leistung bei der Porträtanimation mit Attributtransfer, und bemerkenswerterweise ermöglicht sein duales Referenzdesign die Komposition mehrerer Attribute in einem einzigen Generierungsschritt ohne zusätzliches Training.
Computer-Aided Design (CAD)-Generative Modeling treibt bedeutende Innovationen in industriellen Anwendungen voran. Jüngste Arbeiten haben bemerkenswerte Fortschritte bei der Erstellung von Volumenmodellen aus verschiedenen Eingaben wie Punktwolken, Netzen und Textbeschreibungen gezeigt. Diese Methoden weichen jedoch grundlegend von traditionellen industriellen Workflows ab, die mit 2D-Konstruktionszeichnungen beginnen. Die automatische Generierung parametrischer CAD-Modelle aus diesen 2D-Vektorzeichnungen bleibt trotz ihrer entscheidenden Rolle im Engineering-Design weitgehend unerforscht. Um diese Lücke zu schließen, besteht unsere zentrale Erkenntnis darin, die CAD-Generierung als ein Sequence-to-Sequence-Lernproblem neu zu formulieren, bei dem Vektorzeichnungsprimitive direkt die Generierung parametrischer CAD-Operationen informieren und dabei geometrische Präzision und Designabsicht während des Transformationsprozesses bewahren. Wir stellen Drawing2CAD vor, ein Framework mit drei zentralen technischen Komponenten: eine netzwerkfreundliche Darstellung von Vektorprimitiven, die präzise geometrische Informationen bewahrt, eine Dual-Decoder-Transformer-Architektur, die die Generierung von Befehlstypen und Parametern entkoppelt, während eine präzise Korrespondenz aufrechterhalten wird, sowie eine Soft-Target-Distribution-Verlustfunktion, die die inhärente Flexibilität in CAD-Parametern berücksichtigt. Um Drawing2CAD zu trainieren und zu evaluieren, haben wir CAD-VGDrawing erstellt, einen Datensatz gepaarter Konstruktionszeichnungen und parametrischer CAD-Modelle, und umfangreiche Experimente durchgeführt, um die Effektivität unserer Methode zu demonstrieren. Code und Datensatz sind unter https://github.com/lllssc/Drawing2CAD verfügbar.
Der Erfolg leistungsstarker Open-Source-Large-Language-Modelle (LLMs) hat es der Community ermöglicht, eine umfangreiche Sammlung nachtrainierter Modelle zu erstellen, die an spezifische Aufgaben und Domänen angepasst sind. Die Navigation und das Verständnis dieser Modelle bleiben jedoch aufgrund inkonsistenter Metadaten und unstrukturierter Repositories eine Herausforderung. Wir stellen Delta-Aktivierungen vor, eine Methode zur Darstellung feinabgestimmter Modelle als Vektoreinbettungen, indem Verschiebungen in ihren internen Aktivierungen im Vergleich zu einem Basismodell gemessen werden. Diese Darstellung ermöglicht eine effektive Clusterbildung nach Domäne und Aufgabe und offenbart Strukturen in der Modelllandschaft. Delta-Aktivierungen weisen zudem wünschenswerte Eigenschaften auf: Sie sind robust gegenüber verschiedenen Feinabstimmungseinstellungen und zeigen eine additive Eigenschaft, wenn Feinabstimmungsdatensätze gemischt werden. Darüber hinaus zeigen wir, dass Delta-Aktivierungen Aufgaben durch Few-Shot-Feinabstimmung einbetten können, und untersuchen ihre Verwendung für die Modellauswahl und -zusammenführung. Wir hoffen, dass Delta-Aktivierungen die Praxis der Wiederverwendung öffentlich verfügbarer Modelle erleichtern können. Der Code ist unter https://github.com/OscarXZQ/delta_activations verfügbar.
Große Sprachmodelle (LLMs) können schädlichen Anweisungen folgen, was trotz ihrer beeindruckenden Fähigkeiten ernsthafte Sicherheitsbedenken aufwirft. In jüngster Arbeit wurden auf Sondierung basierende Ansätze genutzt, um die Trennbarkeit von bösartigen und gutartigen Eingaben in den internen Repräsentationen von LLMs zu untersuchen, und Forscher haben vorgeschlagen, solche Sondierungsmethoden für die Sicherheitserkennung einzusetzen. Wir überprüfen dieses Paradigma systematisch neu. Motiviert durch schlechte Leistung bei Out-of-Distribution-Daten, stellen wir die Hypothese auf, dass Sonden oberflächliche Muster anstelle von semantischer Schädlichkeit erlernen. Durch kontrollierte Experimente bestätigen wir diese Hypothese und identifizieren die spezifischen erlernten Muster: Anweisungsmuster und Triggerwörter. Unsere Untersuchung folgt einem systematischen Ansatz, der von der Demonstration vergleichbarer Leistung einfacher n-Gramm-Methoden über kontrollierte Experimente mit semantisch bereinigten Datensätzen bis hin zur detaillierten Analyse von Musterabhängigkeiten reicht. Diese Ergebnisse offenbaren ein falsches Sicherheitsgefühl gegenüber aktuellen auf Sondierung basierenden Ansätzen und unterstreichen die Notwendigkeit, sowohl Modelle als auch Evaluierungsprotokolle neu zu gestalten, wofür wir weitere Diskussionen anbieten, um verantwortungsbewusste weitere Forschung in diese Richtung anzuregen. Wir haben das Projekt unter https://github.com/WangCheng0116/Why-Probe-Fails open-source gestellt.