papers.description
Menschen erlernen abstrakte Konzepte durch multisensorische Synergie, und einmal gebildet können solche Repräsentationen oft aus einer einzelnen Modalität abgerufen werden. Inspiriert von diesem Prinzip führen wir Concerto ein, eine minimalistische Simulation menschlichen Begriffslernens für räumliche Kognition, die 3D-intramodale Selbst-Distillation mit 2D-3D-kreuzmodaler Joint Embedding kombiniert. Trotz seiner Einfachheit erlernt Concerto kohärentere und informativer räumliche Merkmale, wie durch Zero-Shot-Visualisierungen demonstriert wird. Es übertrifft sowohl eigenständige SOTA-2D- als auch 3D-selbstüberwachte Modelle um 14,2 % bzw. 4,8 % sowie deren Merkmalsverkettung bei linearer Abtastung für 3D-Szenenwahrnehmung. Mit vollständigem Fine-Tuning erzielt Concerto neue SOTA-Ergebnisse über mehrere Szenenverständnis-Benchmarks hinweg (z.B. 80,7 % mIoU auf ScanNet). Wir präsentieren weiterhin eine Variante von Concerto, die für räumliches Verständnis von videobasierten Punktwolken maßgeschneidert ist, sowie einen Translator, der Concerto-Repräsentationen linear in den Sprachraum von CLIP projiziert und damit Open-World-Wahrnehmung ermöglicht. Diese Ergebnisse unterstreichen, dass Concerto räumliche Repräsentationen mit überlegener feinkörniger geometrischer und semantischer Konsistenz hervorbringt.
Echtweltaufgaben erfordern Entscheidungen auf unterschiedlichen Detaillierungsebenen, und Menschen sind darin besonders gut, indem sie auf eine einheitliche kognitive Repräsentation zurückgreifen, in der Planung grundsätzlich als eine hochrangige Form von Handeln verstanden wird. Jedoch fehlt es aktuellen, auf großen Sprachmodellen (LLM) basierenden Agenten an dieser entscheidenden Fähigkeit, fließend über verschiedene Entscheidungsgranularitäten hinweg zu operieren. Diese Einschränkung rührt von bestehenden Paradigmen her, die eine strikte Trennung zwischen hochrangiger Planung und niederrangigem Handeln erzwingen, was die dynamische Anpassungsfähigkeit beeinträchtigt und die Generalisierung limitiert. Wir schlagen ReCode (Rekursive Code-Generierung) vor, ein neuartiges Paradigma, das diese Limitation adressiert, indem es Planung und Handlung innerhalb einer einzigen Code-Repräsentation vereint. In dieser Repräsentation behandelt ReCode hochrangige Pläne als abstrakte Platzhalterfunktionen, die der Agent dann rekursiv in feiner granulierte Unterfunktionen zerlegt, bis er primitive Aktionen erreicht. Dieser rekursive Ansatz löst die starre Grenze zwischen Plan und Aktion auf und ermöglicht es dem Agenten, seine Entscheidungsgranularität dynamisch zu steuern. Darüber hinaus erzeugt die rekursive Struktur inhärent umfangreiche, multi-granulare Trainingsdaten, die es Modellen ermöglichen, hierarchische Entscheidungsprozesse zu erlernen. Umfangreiche Experimente zeigen, dass ReCode fortschrittliche Vergleichsbaselines in der Inferenzleistung signifikant übertrifft und eine außergewöhnliche Dateneffizienz im Training demonstriert. Dies validiert unsere zentrale Erkenntnis, dass die Vereinheitlichung von Planung und Handlung durch rekursive Code-Generierung ein leistungsstarker und effektiver Ansatz zur Erreichung universeller Granularitätskontrolle ist. Der Code ist verfügbar unter https://github.com/FoundationAgents/ReCode.
Die rasante Entwicklung großer Sprachmodelle (LLMs) hat die Entstehung von Datenagenten beschleunigt – autonome Systeme, die darauf ausgelegt sind, Data+AI-Ökosysteme zur Bewältigung komplexer datenbezogener Aufgaben zu orchestrieren. Allerdings leidet der Begriff "Datenagent" derzeit unter terminologischer Mehrdeutigkeit und uneinheitlicher Verwendung, wobei einfache Abfragebeantworter mit komplexen autonomen Architekturen vermischt werden. Diese terminologische Unschärfe fördert unangemessene Nutzererwartungen, Verantwortungsprobleme und Wachstumshemmnisse in der Industrie. Inspiriert durch den SAE-J3016-Standard für Fahrzeugautomatisierung führt diese Übersichtsarbeit die erste systematische, hierarchische Taxonomie für Datenagenten ein. Sie umfasst sechs Stufen, die progressive Autonomieverschiebungen abgrenzen und nachzeichnen – von manuellen Operationen (L0) bis hin zur Vision generativer, vollautonomer Datenagenten (L5) – und damit Fähigkeitsgrenzen und Verantwortungszuweisungen klären. Durch diese Linse bieten wir einen strukturierten Überblick über bestehende Forschung, geordnet nach zunehmender Autonomie. Dies umfasst spezialisierte Datenagenten für Datenmanagement, -aufbereitung und -analyse sowie neuere Bestrebungen hin zu vielseitigen, umfassenden Systemen mit erweiterter Autonomie. Wir analysieren weiterhin kritische Entwicklungssprünge und technische Lücken für den Fortschritt von Datenagenten, insbesondere den laufenden Übergang von L2 zu L3, bei dem Datenagenten von prozeduraler Ausführung zu autonomer Orchestrierung evolvieren. Abschließend schließen wir mit einem vorausschauenden Fahrplan, der die Ankunft proaktiver, generativer Datenagenten antizipiert.
Die direkte Modellierung der expliziten Likelihood der Rohdatenverteilung ist ein zentrales Thema im Bereich des maschinellen Lernens, das durch autoregressive Modellierung die Skalierungserfolge von Large Language Models ermöglicht. Kontinuierliche autoregressive Modellierung visueller Pixeldaten leidet jedoch unter extrem langen Sequenzen und hochdimensionalen Räumen. In diesem Artikel stellen wir FARMER vor, ein neuartiges end-to-end-Generativframework, das Normalizing Flows (NF) und autoregressive (AR) Modelle für berechenbare Likelihood-Schätzung und hochwertige Bildsynthese direkt aus Rohpixeln vereint. FARMER verwendet einen invertierbaren autoregressiven Flow, um Bilder in latente Sequenzen zu transformieren, deren Verteilung implizit durch ein autoregressives Modell modelliert wird. Um Redundanzen und Komplexität bei der Pixelmodellierung zu adressieren, schlagen wir ein selbstüberwachtes Dimensionsreduktionsverfahren vor, das NF-latente Kanäle in informative und redundante Gruppen aufteilt, was eine effektivere und effizientere AR-Modellierung ermöglicht. Darüber hinaus entwerfen wir ein Ein-Schritt-Distillationsverfahren zur signifikanten Beschleunigung der Inferenzgeschwindigkeit und führen einen resampling-basierten Classifier-Free-Guiding-Algorithmus ein, um die Bildgenerierungsqualität zu steigern. Umfangreiche Experimente zeigen, dass FARMER eine wettbewerbsfähige Leistung im Vergleich zu bestehenden pixelbasierten Generativmodellen erzielt, während es exakte Likelihoods und skalierbares Training bietet.
Aktuelle Vision-Language-Action (VLA)-Modelle sind oft durch ein starres, statisches Interaktionsparadigma eingeschränkt, das nicht in der Lage ist, gleichzeitig zu sehen, zu hören, zu sprechen und zu handeln sowie Echtzeit-Unterbrechungen durch Benutzer dynamisch zu verarbeiten. Dies behindert eine nahtlose verkörperte Zusammenarbeit und führt zu einer unflexiblen und nicht reaktionsschnellen Benutzererfahrung. Um diese Einschränkungen zu überwinden, stellen wir VITA-E vor, ein neuartiges Framework für verkörperte Interaktion, das sowohl Verhaltensparallelität als auch nahezu Echtzeit-Unterbrechbarkeit ermöglicht. Der Kern unseres Ansatzes ist eine Dual-Modell-Architektur, bei der zwei parallele VLA-Instanzen als „Aktives Modell“ und „Standby-Modell“ agieren. Dies ermöglicht es dem verkörperten Agenten, seine Umgebung zu beobachten, Benutzersprache zu verarbeiten, verbale Antworten zu geben und Aktionen auszuführen – alles gleichzeitig und unterbrechbar, ähnlich menschlichen Multitasking-Fähigkeiten. Wir schlagen weiterhin ein „Model-as-Controller“-Paradigma vor, bei dem das VLM feinabgestimmt wird, um spezielle Tokens zu erzeugen, die als direkte Systembefehle dienen und die Modelllogik mit dem Systemverhalten koppeln. Experimente auf einer humanoiden Roboterplattform demonstrieren, dass VITA-E komplexe interaktive Szenarien zuverlässig bewältigen kann. Unser Framework ist mit verschiedenen Dual-System-VLA-Modellen kompatibel und erreicht eine extrem hohe Erfolgsquote bei Notstopps und Sprachunterbrechungen, während es gleichzeitig parallele Sprach- und Aktionsausführung erfolgreich durchführt. Dies stellt einen bedeutenden Schritt hin zu natürlicheren und leistungsfähigeren verkörperten Assistenten dar.
Audio-gesteuerte Human-Animation-Modelle leiden häufig unter Identitätsdrift während der temporal autoregressiven Generierung, bei der Charaktere mit der Zeit allmählich ihre Identität verlieren. Eine Lösung besteht darin, Keyframes als intermediäre temporale Anker zu generieren, die einen Qualitätsverlust verhindern. Dies erfordert jedoch eine zusätzliche Keyframe-Generierungsstufe und kann die natürliche Bewegungsdynamik einschränken. Um dieses Problem zu lösen, schlagen wir Lookahead Anchoring vor, das Keyframes aus zukünftigen Zeitschritten vor dem aktuellen Generierungsfenster nutzt, anstatt innerhalb desselben. Dies wandelt Keyframes von festen Grenzen in richtungsweisende Leitsignale um: Das Modell verfolgt kontinuierlich diese zukünftigen Anker, während es auf unmittelbare Audio-Hinweise reagiert, und bewahrt so durch persistente Führung eine konsistente Identität. Dies ermöglicht auch Self-Keyframing, bei dem das Referenzbild selbst als Lookahead-Ziel dient und die Notwendigkeit einer Keyframe-Generierung vollständig entfällt. Wir stellen fest, dass die temporale Lookahead-Distanz natürlich das Gleichgewicht zwischen Expressivität und Konsistenz steuert: Größere Distanzen ermöglichen mehr Bewegungsfreiheit, während kleinere die Identitätstreue verstärken. Bei der Anwendung auf drei aktuelle Human-Animation-Modelle erzielt Lookahead Anchoring eine überlegene Lippensynchronisation, Identitätserhaltung und visuelle Qualität und demonstriert verbesserte temporale Konditionierung über mehrere verschiedene Architekturen hinweg. Videoergebnisse sind unter folgendem Link verfügbar: https://lookahead-anchoring.github.io.
Menschen nehmen die geometrische Struktur und semantische Inhalte einer 3D-Welt natürlicherweise als verwobene Dimensionen wahr, was ein kohärentes und präzises Verständnis komplexer Szenen ermöglicht. Die meisten bisherigen Ansätze priorisieren jedoch das Training großer Geometriemodelle für niedrigschwellige 3D-Rekonstruktion und behandeln hochleveliges räumliches Verständnis isoliert, wodurch das entscheidende Wechselspiel zwischen diesen beiden fundamentalen Aspekten der 3D-Szenenanalyse übersehen wird. Dies limitiert die Generalisierungsfähigkeit und führt zu schwacher Leistung in nachgelagerten 3D-Verstehenstasks. Jüngste Versuche milderten dieses Problem durch simples Alignment von 3D-Modellen mit spezifischen Sprachmodellen, beschränken die Wahrnehmung jedoch auf die Kapazität des alignierten Modells und begrenzen die Anpassungsfähigkeit an Downstream-Tasks. In dieser Arbeit präsentieren wir InstanceGrounded Geometry Transformer (IGGT), einen end-to-end großen unified Transformer zur Vereinheitlichung des Wissens für sowohl räumliche Rekonstruktion als auch instanzenbasiertes kontextuelles Verstehen. Konkret entwickeln wir eine 3D-konsistente Contrastive-Learning-Strategie, die IGGT anleitet, eine unified Repräsentation mit geometrischen Strukturen und instanzbasiertem Clustering ausschließlich durch 2D-Visualinputs zu encodieren. Diese Repräsentation unterstützt konsistentes Lifting von 2D-Visualinputs in eine kohärente 3D-Szene mit explizit distincten Objektinstanzen. Zur Unterstützung dieser Aufgabe konstruieren wir zusätzlich InsScene-15K, einen großskaligen Datensatz mit hochwertigen RGB-Bildern, Poses, Tiefenkarten und 3D-konsistenten instanzenbasierten Maskenannotationen mittels einer neuartigen Data-Curation-Pipeline.
Diffusions- und Flow-Matching-Modelle haben sich als leistungsstarke Robotik-Policies etabliert, die Vision-Language-Action (VLA)-Modelle in die Lage versetzen, über verschiedene Szenen und Anweisungen hinweg zu generalisieren. Bei Training durch Imitationslernen macht sie jedoch ihre hohe generative Kapazität anfällig für Rauschen in menschlichen Demonstrationen: Rucken, Pausen und Zittern, welche die Aktionskohärenz verringern. Geringere Aktionskohärenz verursacht Instabilität und Trajektoriendrift während des Einsatzes – Fehler, die bei feinmotorischen Manipulationsaufgaben, bei denen Präzision entscheidend ist, katastrophal sind. In diesem Beitrag stellen wir Action Coherence Guidance (ACG) für VLA-Modelle vor, einen trainierungsfreien Guidance-Algorithmus zur Testzeit, der die Aktionskohärenz verbessert und dadurch Leistungssteigerungen erzielt. Evaluierungen auf RoboCasa, DexMimicGen und realen SO-101-Aufgaben zeigen, dass ACG konsistent die Aktionskohärenz verbessert und die Erfolgsquoten über verschiedene Manipulationsaufgaben hinweg steigert. Code und Projektseite sind verfügbar unter https://github.com/DAVIAN-Robotics/ACG bzw. https://DAVIAN-Robotics.github.io/ACG.
Text-Embedding-Modelle stellen eine grundlegende Komponente in realen Suchanwendungen dar. Durch die Abbildung von Anfragen und Dokumenten in einen gemeinsamen Embedding-Raum liefern sie wettbewerbsfähige Retrieval-Leistung bei hoher Effizienz. Ihre Ranking-Genauigkeit bleibt jedoch im Vergleich zu spezialisierten Rerankern, insbesondere neueren listenbasierten LLM-Rerankern, die feinkörnige Anfrage-Dokument- und Dokument-Dokument-Interaktionen erfassen, begrenzt. In diesem Artikel schlagen wir ein einfaches, aber effektives einheitliches Framework namens E^2Rank vor (steht für Efficient Embedding-based Ranking bzw. Embedding-to-Rank), das ein einzelnes Text-Embedding-Modell erweitert, um sowohl hochwertiges Retrieval als auch listenbasiertes Reranking durch weiterführendes Training unter einem listenbasierten Ranking-Ziel durchzuführen, wodurch starke Effektivität bei bemerkenswerter Effizienz erreicht wird. Indem die Kosinus-Ähnlichkeit zwischen den Anfrage- und Dokument-Embeddings als einheitliche Ranking-Funktion verwendet wird, dient der listenbasierte Ranking-Prompt, der aus der ursprünglichen Anfrage und ihren Kandidatendokumenten konstruiert wird, als eine verbesserte Anfrage, die mit Signalen aus den Top-K-Dokumenten angereichert ist, ähnlich dem Pseudo-Relevance-Feedback (PRF) in traditionellen Retrieval-Modellen. Dieses Design erhält die Effizienz und Repräsentationsqualität des Basis-Embedding-Modells bei gleichzeitiger signifikanter Verbesserung seiner Reranking-Leistung. Empirisch erzielt E^2Rank state-of-the-art Ergebnisse auf dem BEIR-Reranking-Benchmark und zeigt wettbewerbsfähige Leistung auf dem reasoning-intensiven BRIGHT-Benchmark bei sehr geringer Reranking-Latenz. Wir zeigen auch, dass der Ranking-Trainingsprozess die Embedding-Leistung auf dem MTEB-Benchmark verbessert. Unsere Ergebnisse deuten darauf hin, dass ein einzelnes Embedding-Modell Retrieval und Reranking effektiv vereinheitlichen kann und sowohl Recheneffizienz als auch wettbewerbsfähige Ranking-Genauigkeit bietet.
Große Multimodale Modelle (LMMs) haben bemerkenswerte Fortschritte bei der Erzeugung fotorealistischer und promptkonformer Bilder erzielt, produzieren jedoch häufig Ausgaben, die überprüfbarem Wissen widersprechen, insbesondere wenn Prompts feinkörnige Attribute oder zeitkritische Ereignisse betreffen. Konventionelle retrieval-augmentierte Ansätze versuchen, dieses Problem durch die Einführung externer Informationen zu lösen, sind jedoch grundsätzlich nicht in der Lage, die Generierung auf akkuratem und sich entwickelndem Wissen zu verankern, da sie auf statischen Quellen und flacher Evidenzintegration beruhen. Um diese Lücke zu schließen, stellen wir ORIG vor, einen agentenbasierten, offenen multimodalen retrieval-augmentierten Rahmen für Faktische Bildgenerierung (FIG), eine neue Aufgabe, die sowohl visuelle Realität als auch faktische Verankerung erfordert. ORIG ruft multimodale Evidenz iterativ aus dem Web ab, filtert sie und integriert das verfeinerte Wissen schrittweise in angereicherte Prompts, um die Generierung zu steuern. Zur systematischen Evaluation entwickeln wir FIG-Eval, einen Benchmark, der zehn Kategorien über perzeptive, kompositionelle und temporale Dimensionen hinweg abdeckt. Experimente zeigen, dass ORIG die faktische Konsistenz und die gesamte Bildqualität im Vergleich zu starken Baselines erheblich verbessert und damit das Potenzial des offenen multimodalen Retrievals für die faktische Bildgenerierung unterstreicht.
Die Videogenerierung ist ein entscheidender Weg zur Entwicklung von Weltmodellen, wobei effiziente Langzeit-Videoinferenz eine Schlüsselfähigkeit darstellt. Zu diesem Zweck führen wir LongCat-Video ein, ein fundamentales Videogenerierungsmodell mit 13,6 Milliarden Parametern, das starke Leistungen über mehrere Videogenerierungsaufgaben hinweg liefert. Es zeichnet sich insbesondere durch effiziente und hochwertige Langzeit-Videogenerierung aus und repräsentiert unseren ersten Schritt in Richtung Weltmodelle. Zu den Hauptmerkmalen gehören: - **Vereinheitlichte Architektur für mehrere Aufgaben**: Basierend auf dem Diffusion-Transformer (DiT)-Framework unterstützt LongCat-Video Text-zu-Video-, Bild-zu-Video- und Video-Fortführungsaufgaben mit einem einzigen Modell. - **Langzeit-Videogenerierung**: Vortraining auf Video-Fortführungsaufgaben ermöglicht es LongCat-Video, hohe Qualität und zeitliche Kohärenz bei der Generierung von minutenlangen Videos beizubehalten. - **Effiziente Inferenz**: LongCat-Video erzeugt 720p-Videos mit 30 Bildern pro Sekunde innerhalb weniger Minuten durch eine Grob-zu-Fein-Generierungsstrategie entlang der zeitlichen und räumlichen Achsen. Block-Sparse-Attention steigert die Effizienz weiter, insbesondere bei hohen Auflösungen. - **Starke Leistung durch Multi-Reward-RLHF**: Multi-Reward-RLHF-Training ermöglicht es LongCat-Video, Leistungen auf Augenhöhe mit neuesten proprietären und führenden Open-Source-Modellen zu erzielen. Code und Modellgewichte sind öffentlich verfügbar, um Fortschritte auf diesem Gebiet zu beschleunigen.
Multi-Head-Attention (MHA) hat sich zum Eckpfeiler moderner großer Sprachmodelle entwickelt und erhöht die Repräsentationskapazität durch parallele Aufmerksamkeitsköpfe. Die Erhöhung der Anzahl der Köpfe schwächt jedoch inhärent die Kapazität einzelner Köpfe, und bestehende Aufmerksamkeitsmechanismen – ob Standard-MHA oder Varianten wie Grouped-Query-Attention (GQA) und Grouped-Tied-Attention (GTA) – verketteten lediglich die Ausgaben isolierter Köpfe ohne starke Interaktion. Um diese Einschränkung zu adressieren, schlagen wir Knocking-Heads-Attention (KHA) vor, das es Aufmerksamkeitsköpfen ermöglicht, aneinander „anzuklopfen“ und so feature-basierte Interaktionen zwischen Köpfen vor der skalierten dot-product-Attention zu ermöglichen. Dies wird durch Anwendung einer gemeinsamen, diagonal initialisierten Projektionsmatrix über alle Köpfe erreicht. Die diagonale Initialisierung bewahrt zu Beginn des Trainings die kopf-spezifische Spezialisierung, während das Modell schrittweise integrierte, kopfübergreifende Repräsentationen erlernt. KHA fügt nur minimale Parameter und FLOPs hinzu und kann nahtlos in MHA, GQA, GTA und andere Aufmerksamkeitsvarianten integriert werden. Wir validieren KHA durch das Training eines 6,1B-Parameter-MoE-Modells (1,01B aktiviert) mit 1T hochwertigen Tokens. Im Vergleich zu Baseline-Aufmerksamkeitsmechanismen erzielt KHA überlegene und stabilere Trainingsdynamiken und erreicht eine bessere Leistung in nachgelagerten Aufgaben.
Belohnungsmodelle (RMs) spielen eine entscheidende Rolle bei der Ausrichtung des KI-Verhaltens an menschlichen Präferenzen, sehen sich jedoch zwei grundlegenden Herausforderungen gegenüber: (1) Modalitätsungleichgewicht, bei dem sich die meisten RMs hauptsächlich auf Text- und Bildmodalitäten konzentrieren und nur begrenzte Unterstützung für Video, Audio und andere Modalitäten bieten; und (2) Präferenzstarrheit, bei der das Training auf festen binären Präferenzpaaren die Komplexität und Vielfalt personalisierter Präferenzen nicht erfassen kann. Um diese Herausforderungen zu bewältigen, schlagen wir Omni-Reward vor, einen Schritt in Richtung eines generalistischen omni-modalen Belohnungsmodellierungsansatzes mit Unterstützung für freiformulierte Präferenzen, bestehend aus: (1) Evaluation: Wir führen Omni-RewardBench ein, den ersten omni-modalen RM-Benchmark mit freiformulierten Präferenzen, der neun Aufgaben über fünf Modalitäten hinweg abdeckt, einschließlich Text, Bild, Video, Audio und 3D; (2) Daten: Wir erstellen Omni-RewardData, einen multimodalen Präferenzdatensatz mit 248K allgemeinen Präferenzpaaren und 69K Instruction-Tuning-Paaren zum Training generalistischer omni-modaler RMs; (3) Modell: Wir schlagen Omni-RewardModel vor, das sowohl diskriminierende als auch generative RMs umfasst und auf Omni-RewardBench sowie anderen weit verbreiteten Benchmarks für Belohnungsmodellierung eine hohe Leistung erzielt.
Multimodale große Sprachmodelle (MLLMs) haben starke Allzweckfähigkeiten im visuellen Verständnis offener Welten demonstriert. Die meisten existierenden MLLMs konzentrieren sich jedoch primär auf ein holistisches, szenenbezogenes Verständnis und übersehen häufig den Bedarf an feinkörniger, objektzentrierter Reasoning. In diesem Artikel stellen wir PixelRefer vor, einen vereinheitlichten regionsbasierten MLLM-Rahmen, der fortschrittliches feinkörniges Verständnis für benutzerdefinierte Regionen in sowohl Bildern als auch Videos ermöglicht. Angeregt durch die Beobachtung, dass sich die Aufmerksamkeit von LLMs überwiegend auf objektbezogene Tokens konzentriert, schlagen wir einen skalierungsadaptiven Object Tokenizer (SAOT) vor, um kompakte und semantisch reiche Objektrepräsentationen aus freiform Regionen zu generieren. Unsere Analyse zeigt, dass globale visuelle Tokens hauptsächlich in frühen LLM-Schichten beitragen, was das Design von PixelRefer-Lite inspiriert, einer effizienten Variante, die ein Object-Centric Infusion-Modul einsetzt, um globalen Kontext vorab in Objekt-Tokens zu fusionieren. Dies ergibt ein leichtgewichtiges Object-Only Framework, das die Rechenkosten erheblich reduziert und gleichzeitig eine hohe semantische Treue beibehält. Um feinkörniges Instruction Tuning zu ermöglichen, haben wir PixelRefer-2.2M kuratiert, einen hochwertigen, objektzentrierten Instruktionsdatensatz. Umfangreiche Experimente über eine Reihe von Benchmarks validieren, dass PixelRefer mit weniger Trainingsdaten eine führende Leistung erzielt, während PixelRefer-Lite eine wettbewerbsfähige Genauigkeit mit bemerkenswerten Effizienzgewinnen bietet.
Die Anwendung von Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) in mathematischen und Programmierdomänen hat signifikante Verbesserungen der Reasoning- und Problemlösungsfähigkeiten von Large Language Models demonstriert. Trotz der Erfolge bei der Einzelgenerations-Problemlösung kann der Reinforcement-Learning-Feinabstimmungsprozess die Explorationsfähigkeit des Models beeinträchtigen, was sich in einer verringerten Diversität der Generierungen und einer daraus resultierenden Leistungsverschlechterung während Best-of-N-Sampling für große N-Werte äußert. In dieser Arbeit konzentrieren wir uns auf die Optimierung der max@k-Metrik, einer kontinuierlichen Verallgemeinerung von pass@k. Wir leiten eine unverzerrte On-Policy-Gradientenschätzung zur direkten Optimierung dieser Metrik her. Darüber hinaus erweitern wir unsere Herleitungen auf Off-Policy-Updates, einem gängigen Element moderner RLVR-Algorithmen, das eine bessere Stichprobeneffizienz ermöglicht. Empirisch zeigen wir, dass unser Zielkriterium die max@k-Metrik in Off-Policy-Szenarien effektiv optimiert und somit das Modell mit der Best-of-N-Inferenzstrategie in Einklang bringt.
Einheitliche multimodale Modelle haben in letzter Zeit bemerkenswerte Fortschritte in Bezug auf Fähigkeiten und Vielseitigkeit gezeigt, doch die meisten führenden Systeme werden immer noch von Grund auf trainiert und erfordern erhebliche Rechenressourcen. In diesem Artikel zeigen wir, dass eine wettbewerbsfähige Leistung weitaus effizienter erzielt werden kann, indem öffentlich verfügbare Modelle, die entweder auf Generierung oder Verständnis spezialisiert sind, strategisch fusioniert werden. Unser zentrales Konzept besteht darin, die ursprünglichen Blöcke beizubehalten und zusätzlich multimodale Self-Attention-Blöcke netzwerkweit zwischenzuschalten. Dieser Doppelfusionsmechanismus (1) ermöglicht effektiv eine reichhaltige multimodale Fusion, während weitgehend die ursprünglichen Stärken der Basismodelle erhalten bleiben, und (2) katalysiert die synergetische Fusion von hochleveligen semantischen Repräsentationen aus dem Verständnis-Encoder mit low-level räumlichen Signalen aus dem Generierungs-Encoder. Durch Training mit nur ~35B Tokens erzielt dieser Ansatz starke Ergebnisse über mehrere Benchmarks hinweg: 0,91 auf GenEval für kompositionelle Text-zu-Bild-Generierung, 82,16 auf DPG-Bench für komplexe Text-zu-Bild-Generierung, 6,06 auf GEditBench und 3,77 auf ImgEdit-Bench für Bildbearbeitung. Indem wir den gesamten Code, die Modellgewichte und Datensätze vollständig veröffentlichen, hoffen wir, zukünftige Forschung zur einheitlichen multimodalen Modellierung zu unterstützen.
Die Ausrichtung von Vision und Sprache in multimodalen großen Sprachmodellen (MLLMs) stützt sich typischerweise auf überwachtes Feinabstimmen (SFT) oder bestärkendes Lernen (RL). SFT ist stabil und effizient, erfordert jedoch großangelegte menschliche Annotationen und kann subtile Präferenzen nicht erfassen, während RL ein Belohnungssignal für das Training einführt, aber unter Overhead und Instabilität leidet. Diese Einschränkungen verdeutlichen einen Zielkonflikt zwischen Skalierbarkeit, Robustheit und Ausrichtungsqualität. Um dies zu adressieren, schlagen wir MergeMix vor, ein Augmentationsparadigma zur Trainingszeit, das SFT und RL verbindet. Es wendet zunächst ein aufmerksamkeitsbasiertes Bildmixing mittels Token-Zusammenführung mit stärkerer Cluster-Repräsentation und räumlichem Kontext an und präsentiert dann ein präferenzgetriebenes Trainingsparadigma für MLLMs, indem Präferenzpaare mit gemischten und originalen Bildern erstellt und mittels SimPO-Verlust optimiert werden. Als Mixup-Augmentierung verbessert MergeMix die Aufmerksamkeitskonsistenz und -effizienz und übertrifft andere heuristikbasierte Methoden in der Klassifikation. Umfangreiche Experimente belegen, dass MergeMix eine wettbewerbsfähige Genauigkeit bei verbesserter Effizienz erreicht und einen skalierbaren Ansatz für die Präferenzausrichtung in Klassifikation und MLLMs bietet.
Reinforcement Learning (RL) hat ein erhebliches Potenzial bei der Verbesserung der Reasoning-Fähigkeiten von Large Language Models (LLMs) gezeigt. Der Erfolg von RL für LLMs ist jedoch stark von menschlich kuratierten Datensätzen und überprüfbaren Belohnungen abhängig, was ihre Skalierbarkeit und Allgemeingültigkeit einschränkt. Neuere Self-Play-RL-Methoden, inspiriert durch den Erfolg dieses Paradigmas in Spielen und Go, zielen darauf ab, die Reasoning-Fähigkeiten von LLMs ohne menschlich annotierte Daten zu verbessern. Ihre Methoden sind jedoch primär auf eine geerdete Umgebung für Feedback angewiesen (z. B. einen Python-Interpreter oder eine Game-Engine); ihre Erweiterung auf allgemeine Domänen bleibt eine Herausforderung. Um diese Herausforderungen zu adressieren, schlagen wir Multi-Agent Evolve (MAE) vor, ein Framework, das es LLMs ermöglicht, sich selbstständig in der Lösung verschiedener Aufgaben weiterzuentwickeln, darunter Mathematik, logisches Schließen und allgemeine Wissensfragen. Das Kerndesign von MAE basiert auf einem Triplet interagierender Agenten (Proposer, Solver, Judge), die aus einem einzigen LLM instanziiert werden, und wendet Reinforcement Learning an, um ihr Verhalten zu optimieren. Der Proposer generiert Fragen, der Solver versucht Lösungen, und der Judge bewertet beide, während sie sich ko-evolutiv weiterentwickeln. Experimente mit Qwen2.5-3B-Instruct zeigen, dass MAE eine durchschnittliche Verbesserung von 4,54 % auf mehreren Benchmarks erreicht. Diese Ergebnisse unterstreichen, dass MAE eine skalierbare, dateneffiziente Methode zur Verbesserung der allgemeinen Reasoning-Fähigkeiten von LLMs mit minimaler Abhängigkeit von menschlich kuratierten Aufsichtsdaten ist.
Die Entwicklung von Robotergeneralisten – instruierbaren Agenten, die in der Lage sind, verschiedene Aufgaben in verschiedenen Umgebungen auszuführen – erfordert rigorose und skalierbare Evaluierungsverfahren. Dennoch ist die Tests von Robotik-Policies in der realen Welt nach wie vor grundlegend eingeschränkt: sie ist arbeitsintensiv, langsam, in großem Maßstab unsicher und schwer zu reproduzieren. Bestehende Simulations-Benchmarks sind ähnlich limitiert, da sie Policies innerhalb derselben synthetischen Domänen trainieren und testen und keine Modelle bewerten können, die auf realen Demonstrationen oder alternativen Simulationsumgebungen trainiert wurden. Mit zunehmendem Umfang und Komplexität der Policies verschärfen sich diese Hindernisse noch weiter, da die Definition von "Erfolg" in der Robotik oft von nuancierten menschlichen Urteilen über die Ausführungsqualität abhängt. In diesem Artikel stellen wir ein neues Benchmarking-Framework vor, das diese Herausforderungen überwindet, indem es die VLA-Evaluierung in groß angelegte simulierte Umgebungen verlagert, die mit Online-Menschliches-Feedback angereichert sind. Unter Ausnutzung von Fortschritten bei Vision-Language-Modellen, generativer 2D-zu-3D-Modellierung und differentiellem Rendering wandelt unser Ansatz automatisch Video-Demonstrationen aus weit verbreiteten Robotik-Datensätzen in simulierte Gegenstücke um. Innerhalb dieser digitalen Zwillinge bewerten wir VLA-Policies sowohl mit automatischer, VLM-gestützter Bewertung als auch mit skalierbaren menschlichen Präferenzurteilen, die von Crowdworkern gesammelt werden. Dadurch wandelt sich die menschliche Beteiligung von mühsamer Szeneneinrichtung, Zurücksetzung und Sicherheitsüberwachung in leichgewichtige Präferenzvergleiche. Um die Robustheit zu messen, stören wir die simulierten Umgebungen systematisch entlang mehrerer Achsen, wie z.B. Texturen und Objektplatzierungen, und testen so die Policy-Generalisation unter kontrollierten Variationen stress. Das Ergebnis ist ein sich kontinuierlich weiterentwickelnder, reproduzierbarer und skalierbarer Benchmark für Policies der Robotermanipulation, die in der realen Welt trainiert wurden, und adressiert damit eine kritische fehlende Fähigkeit im heutigen Robotik-Umfeld.
Bisherige Ansätze sind in der Regel auf umfangreiches Fine-Tuning angewiesen, um LLMs für Informations-Reranking-Aufgaben zu adaptieren, was rechenintensiv ist. In dieser Arbeit zeigen wir, dass moderne LLMs effektiv mit nur minimaler, hochwertiger Supervision angepasst werden können. Um dies zu ermöglichen, entwickeln wir LIMRANK-SYNTHESIZER, eine wiederverwendbare und quelloffene Pipeline zur Erzeugung diverser, anspruchsvoller und realistischer Reranking-Beispiele. Mit diesen synthetischen Daten führen wir ein Fine-Tuning unseres Reranking-Modells LIMRANK durch. Wir evaluieren LIMRANK anhand zweier anspruchsvoller Benchmarks: BRIGHT für reasoning-intensives Retrieval und FollowIR für instruktionsbasiertes Retrieval. Unsere Experimente zeigen, dass LIMRANK eine wettbewerbsfähige Leistung erzielt, obwohl es mit weniger als 5 % der typischerweise in früheren Arbeiten verwendeten Daten trainiert wurde. Weitere Ablationsstudien belegen die Wirksamkeit von LIMRANK-SYNTHESIZER sowie die starken Generalisierungsfähigkeiten von LIMRANK über verschiedene Downstream-Aufgaben hinweg, einschließlich wissenschaftlicher Literatursuche und Retrieval-Augmented Generation für wissensintensive Problemlösungen.
Große Sprachmodelle (LLMs) haben sich als wertvolle Assistenten für Entwickler bei codebezogenen Aufgaben etabliert. Während LLMs bei traditionellen Programmieraufgaben wie Code-Generierung und Fehlerbehebung hervorragende Leistungen erbringen, haben sie Schwierigkeiten mit visuell orientierten Codieraufgaben und erzeugen oft suboptimale Ästhetik. In diesem Artikel stellen wir eine neue Pipeline zur Verbesserung der ästhetischen Qualität von LLM-generiertem Code vor. Zunächst erstellen wir AesCode-358K, einen groß angelegten Instruction-Tuning-Datensatz mit Fokus auf Code-Ästhetik. Anschließend schlagen wir agentisches Belohnungsfeedback vor, ein Multi-Agenten-System, das Ausführbarkeit, statische Ästhetik und interaktive Ästhetik bewertet. Darauf aufbauend entwickeln wir GRPO-AR, das diese Signale in den GRPO-Algorithmus zur gemeinsamen Optimierung von Funktionalität und Code-Ästhetik integriert. Abschließend entwickeln wir OpenDesign, einen Benchmark zur Bewertung von Code-Ästhetik. Experimentelle Ergebnisse zeigen, dass die Kombination von überwachtem Fein-Tuning auf AesCode-358K mit bestärkendem Lernen unter Verwendung von agentischem Belohnungsfeedback die Leistung auf OpenDesign signifikant verbessert und auch die Ergebnisse auf bestehenden Benchmarks wie PandasPlotBench steigert. Bemerkenswerterweise übertrifft unser AesCoder-4B GPT-4o und GPT-4.1 und erreicht eine Leistung, die mit großen Open-Source-Modellen mit 480B-685B Parametern vergleichbar ist, was die Wirksamkeit unseres Ansatzes unterstreicht.
Bild-Autoregressive (AR) Modelle haben sich als leistungsstarkes Paradigma für visuelle generative Modelle etabliert. Trotz vielversprechender Leistung leiden sie unter einer langsamen Erzeugungsgeschwindigkeit, die auf die große Anzahl erforderlicher Abtastschritte zurückzuführen ist. Obwohl kürzlich Distilled Decoding 1 (DD1) vorgeschlagen wurde, um eine Abtastung mit wenigen Schritten für bild-AR-Modelle zu ermöglichen, führt es im Ein-Schritt-Modus immer noch zu einer erheblichen Leistungseinbuße und ist auf eine vordefinierte Abbildung angewiesen, die seine Flexibilität einschränkt. In dieser Arbeit schlagen wir eine neue Methode, Distilled Decoding 2 (DD2), vor, um die Machbarkeit der Ein-Schritt-Abtastung für bild-AR-Modelle weiter voranzutreiben. Im Gegensatz zu DD1 ist DD2 nicht auf eine vordefinierte Abbildung angewiesen. Wir betrachten das ursprüngliche AR-Modell als ein Lehrermodell, das den wahren bedingten Score im latenten Einbettungsraum an jeder Token-Position liefert. Basierend darauf schlagen wir einen neuartigen Verlust für die bedingte Score-Destillation vor, um einen Ein-Schritt-Generator zu trainieren. Konkret trainieren wir ein separates Netzwerk, um den bedingten Score der erzeugten Verteilung vorherzusagen, und wenden die Score-Destillation an jeder Token-Position unter Bedingung der vorherigen Token an. Experimentelle Ergebnisse zeigen, dass DD2 die Ein-Schritt-Abtastung für bild-AR-Modelle mit einem minimalen FID-Anstieg von 3,40 auf 5,43 auf ImageNet-256 ermöglicht. Im Vergleich zum stärksten Baseline-Modell DD1 verringert DD2 die Lücke zwischen der Ein-Schritt-Abtastung und dem ursprünglichen AR-Modell um 67 % und erreicht gleichzeitig eine bis zu 12,3-fache Beschleunigung des Trainings. DD2 macht einen bedeutenden Schritt in Richtung des Ziels einer Ein-Schritt-AR-Erzeugung und eröffnet neue Möglichkeiten für schnelles und hochwertiges AR-Modellieren. Der Code ist verfügbar unter https://github.com/imagination-research/Distilled-Decoding-2.
Physikalische Simulationen basieren auf räumlich variierenden mechanischen Eigenschaften, die oft aufwändig manuell erstellt werden. VoMP ist ein vorwärtsgerichtetes Verfahren, das darauf trainiert ist, den Elastizitätsmodul (E), die Querkontraktionszahl (ν) und die Dichte (ρ) im gesamten Volumen von 3D-Objekten vorherzusagen – und zwar in jeder Darstellungsform, die gerendert und voxelisiert werden kann. VoMP aggregiert pro-Voxel-Merkmale aus Mehrfachansichten und leitet diese an unseren trainierten Geometry Transformer weiter, um pro-Voxel materielle latente Codes zu prognostizieren. Diese Latenten liegen auf einer Mannigfaltigkeit physikalisch plausibler Materialien, die wir aus einem realen Datensatz lernen und die die Gültigkeit der decodierten pro-Voxel-Materialien gewährleistet. Um Trainingsdaten auf Objektebene zu erhalten, schlagen wir einen Annotationsprozess vor, der Wissen aus segmentierten 3D-Datensätzen, Materialdatenbanken und einem Vision-Language-Model kombiniert, ergänzt durch einen neuen Benchmark. Experimente zeigen, dass VoMP volumetrische Eigenschaften präzise schätzt und dabei bisherige Verfahren in Genauigkeit und Geschwindigkeit deutlich übertrifft.
Wir stellen PRISM-Bench vor, einen Benchmark für rätselbasierte visuelle Herausforderungen, der nicht nur bewertet, ob Modelle Probleme lösen können, sondern auch, wie sich ihre Schlussfolgerungen entfalten. Im Gegensatz zu früheren Evaluationen, die nur die Endantwort-Genauigkeit messen, führt PRISM-Bench eine diagnostische Aufgabe ein: Bei einem visuellen Rätsel und einer schrittweisen Gedankenkette (Chain-of-Thought, CoT), die genau einen Fehler enthält, müssen Modelle den ersten inkorrekten Schritt identifizieren. Dieser Aufbau ermöglicht eine feinkörnige Bewertung von logischer Konsistenz, Fehlererkennung und visuellem Reasoning. Die Rätsel in PRISM-Bench erfordern mehrstufiges symbolisches, geometrisches und analogisches Schließen und widersetzen sich Abkürzungen, die auf oberflächlichem Pattern-Matching basieren. Evaluationen mit modernsten MLLMs zeigen eine anhaltende Lücke zwischen flüssiger Generierung und zuverlässigem Reasoning: Modelle, die plausible Gedankengänge produzieren, scheitern oft daran, einfache logische Fehler zu lokalisieren. Indem PRISM-Bench die Antwortgenerierung von der Reasoning-Überprüfung entkoppelt, bietet es eine präzisere Betrachtung multimodaler Reasoning-Kompetenz und unterstreicht die Notwendigkeit diagnostischer Evaluationsprotokolle für die Entwicklung vertrauenswürdiger MLLMs.
Aktuelle 3D/4D-Generierungsmethoden sind in der Regel auf Fotorealismus, Effizienz und Ästhetik optimiert. Allerdings gelingt es ihnen oft nicht, die semantische Identität des Subjekts über verschiedene Blickwinkel hinweg zu erhalten. Die Anpassung von Generierungsmethoden mit einem oder wenigen Bildern eines bestimmten Subjekts (auch bekannt als Personalisierung oder subjektgesteuerte Generierung) ermöglicht die Erzeugung von visuellen Inhalten, die mit der Identität des Subjekts übereinstimmen. Die personalisierte 3D/4D-Generierung ist jedoch noch weitgehend unerforscht. In dieser Arbeit stellen wir TIRE (Track, Inpaint, REsplat) vor, eine neuartige Methode für die subjektgesteuerte 3D/4D-Generierung. Sie nimmt ein initiales 3D-Asset, das von einem bestehenden 3D-Generativmodell erzeugt wurde, als Eingabe und verwendet Videotracking, um die Regionen zu identifizieren, die modifiziert werden müssen. Anschließend setzen wir ein subjektgesteuertes 2D-Inpainting-Modell ein, um die identifizierten Regionen progressiv zu vervollständigen. Schließlich projizieren wir die modifizierten 2D-Multi-View-Beobachtungen zurück in den 3D-Raum und wahren dabei gleichzeitig die Konsistenz. Umfangreiche Experimente belegen, dass unser Ansatz die Identitätserhaltung in der 3D/4D-Generierung im Vergleich zu state-of-the-art Methoden signifikant verbessert. Unsere Projektwebsite ist unter https://zsh2000.github.io/track-inpaint-resplat.github.io/ verfügbar.
Die photorealistische 3D-Ganzkörperrekonstruktion von Menschen aus einem einzelnen Bild ist eine kritische, aber herausfordernde Aufgabe für Anwendungen in Filmen und Videospielen aufgrund inhärenter Mehrdeutigkeiten und schwerer Selbstokklusionen. Während aktuelle Ansätze SMPL-Schätzungen und SMPL-konditionierte Bildgenerierungsmodelle nutzen, um neue Ansichten zu halluzinieren, leiden sie unter ungenauen 3D-Priors, die aus SMPL-Meshes geschätzt werden, und haben Schwierigkeiten mit schwierigen menschlichen Posen und der Rekonstruktion feiner Details. In diesem Artikel schlagen wir SyncHuman vor, ein neuartiges Framework, das erstmals ein 2D-Multiview-Generativmodell und ein 3D-natives Generativmodell kombiniert und so eine hochwertige Rekonstruktion bekleideter menschlicher Meshes aus einseitigen Bildansichten selbst bei anspruchsvollen Posen ermöglicht. Multiview-Generativmodelle erfassen hervorragend feine 2D-Details, kämpfen aber mit struktureller Konsistenz, während 3D-native Generativmodelle grobe, aber strukturell konsistente 3D-Formen erzeugen. Durch die Integration dieser komplementären Stärken entwickeln wir ein effektiveres Generierungsframework. Konkret feintunen wir zunächst gemeinsam das Multiview-Generativmodell und das 3D-native Generativmodell mit einem vorgeschlagenen pixelausgerichteten 2D-3D-Synchronisations-Attentionsmechanismus, um geometrisch ausgerichtete 3D-Formen und 2D-Multiview-Bilder zu erzeugen. Um Details weiter zu verbessern, führen wir einen Feature-Injection-Mechanismus ein, der feine Details aus 2D-Multiview-Bildern auf die ausgerichteten 3D-Formen überträgt und so eine präzise, hochaufgelöste Rekonstruktion ermöglicht. Umfangreiche Experimente zeigen, dass SyncHuman eine robuste und photorealistische 3D-Menschenrekonstruktion erreicht, selbst für Bilder mit anspruchsvollen Posen. Unsere Methode übertrifft Baseline-Methoden in geometrischer Genauigkeit und visueller Treue und weist eine vielversprechende Richtung für zukünftige 3D-Generierungsmodelle auf.
Große Sprachmodelle halluzinieren routinemäßig APIs und lokalisieren Bearbeitungen falsch, während Sprachserver verifizierte, IDE-taugliche Fakten über echten Code berechnen. Wir stellen Lanser-CLI vor, eine CLI-zentrierte Orchestrierungsebene, die einen Language Server Protocol (LSP)-Server für Coding-Agenten und CI festpinnt und vermittelt, und deterministische, wiederabspielbare Workflows bereitstellt. Unsere Position ist, dass Sprachserver nicht nur strukturelle Informationen (Definitionen, Referenzen, Typen, Diagnosen) liefern, sondern auch eine handlungsorientierte Prozessbelohnung: maschinell geprüfte, schrittweise Signale, die die Planungsschleife eines Agenten mit der Programmrealität in Einklang bringen. In dieser Arbeit leistet Lanser-CLI folgende Beiträge: (i) ein robustes Adressierungsschema über brüchige "Datei:Zeile:Spalte"-Angaben hinaus via einer Selector-DSL (symbolische, AST-Pfad- und inhaltsverankerte Selektoren) mit einem prinzipienbasierten Relokationsalgorithmus; (ii) deterministische Analyse-Bündel, die Sprachserver-Antworten normalisieren und Metadaten zu Umgebung/Fähigkeiten mit stabilen Inhalts-Hashes erfassen; (iii) eine Sicherheitshülle für mutierende Operationen (Umbenennen, Code-Aktionen) mit Vorschau, Workspace-Jails und Git-bewusster, transaktionaler Anwendung; und (iv) eine prozessbezogene Belohnungsfunktion, die aus Sprachserver-Fakten abgeleitet wird (Diagnose-Deltas, Disambiguierungs-Konfidenz und Safe-Apply-Prüfungen), die online berechenbar und offline wiederabspielbar ist. Wir formalisieren Determinismus unter eingefrorenen Snapshots und etablieren eine Monotonie-Eigenschaft für die Prozessbelohnung, die sie für Prozessüberwachung und kontrafaktische Analyse geeignet macht. Projektseite: https://github.com/yifanzhang-pro/lanser-cli
Diese Arbeit präsentiert eine systematische Untersuchung von Skalierungsgesetzen für die Deepfake-Erkennung. Konkret analysieren wir die Modellleistung in Abhängigkeit von der Anzahl realer Bilddomänen, Deepfake-Erzeugungsmethoden und Trainingsbildern. Da kein bestehender Datensatz die Anforderungen an den Umfang für diese Forschung erfüllt, erstellen wir ScaleDF, den bislang größten Datensatz in diesem Bereich, der über 5,8 Millionen reale Bilder aus 51 verschiedenen Datensätzen (Domänen) und mehr als 8,8 Millionen durch 102 Deepfake-Methoden generierte Fälschungsbilder enthält. Mithilfe von ScaleDF beobachten wir eine Skalierung nach Potenzgesetzen, ähnlich der bei großen Sprachmodellen (LLMs) gezeigten. Insbesondere folgt der durchschnittliche Detektionsfehler einem vorhersagbaren, potenzgesetzlichen Abfall, sobald entweder die Anzahl realer Domänen oder die Anzahl der Deepfake-Methoden zunimmt. Diese zentrale Beobachtung ermöglicht es uns nicht nur abzuschätzen, wie viele zusätzliche reale Domänen oder Deepfake-Methoden erforderlich sind, um eine Zielleistung zu erreichen, sondern inspiriert uns auch, der sich weiterentwickelnden Deepfake-Technologie auf datenzentrierte Weise zu begegnen. Darüber hinaus untersuchen wir die Rolle von Pre-Training und Datenanreicherung bei der Deepfake-Erkennung unter Skalierung sowie die Grenzen der Skalierung selbst.
Große Sprachmodelle (LLMs) zeichnen sich durch Zero-Shot-Inferenz aus, haben aber nach wie vor Schwierigkeiten mit komplexen, mehrstufigen Denkprozessen. Neuere Methoden, die LLMs mit Zwischenschritten für das logische Schließen anreichern, wie Chain of Thought (CoT) und Program of Thought (PoT), verbessern zwar die Leistung, produzieren aber oft unerwünschte Lösungen, insbesondere in algorithmischen Domänen. Wir stellen Per-Instance Program Synthesis (PIPS) vor, eine Methode, die Programme auf Instanzenebene unter Verwendung von strukturellem Feedback generiert und verfeinert, ohne auf aufgabenspezifische Anleitungen oder explizite Testfälle angewiesen zu sein. Um die Leistung weiter zu steigern, integriert PIPS eine Konfidenzmetrik, die dynamisch auf Pro-Instanz-Basis zwischen direkter Inferenz und Programmsynthese wählt. Experimente mit drei führenden LLMs und 30 Benchmarks, darunter alle Aufgaben von Big Bench Extra Hard (BBEH), Aufgaben zur visuellen Fragebeantwortung, Aufgaben zum relationalen Schließen und Aufgaben zum mathematischen Schließen, zeigen, dass PIPS die absolute harmonische Mittelgenauigkeit im Vergleich zu PoT bzw. CoT um bis zu 8,6 % und 9,4 % steigert und die unerwünschten Programmgenerationen bei den algorithmischen Aufgaben im Vergleich zu PoT mit Gemini-2.0-Flash um 65,1 % reduziert.
Jüngste Fortschritte bei der Beschleunigung von Text-zu-Bild (T2I) Diffusionsmodellen ermöglichen die Synthese hochwertiger Bilder sogar in einem einzigen Schritt. Die Personalisierung dieser Modelle zur Integration neuer Konzepte bleibt jedoch eine Herausforderung, da Ein-Schritt-Modelle nur begrenzt in der Lage sind, neue Konzeptverteilungen effektiv zu erfassen. Wir schlagen einen bidirektionalen Konzept-Distillationsrahmen namens EchoDistill vor, um die Ein-Schritt-Diffusionspersonalisierung (1-SDP) zu ermöglichen. Unser Ansatz umfasst einen End-to-End-Trainingsprozess, bei dem ein Mehrschritt-Diffusionsmodell (Lehrermodell) und ein Ein-Schritt-Diffusionsmodell (Schülermodell) gleichzeitig trainiert werden. Das Konzept wird zunächst vom Lehrermodell zum Schülermodell destilliert und dann vom Schüler- zurück zum Lehrermodell "zurückgegeben" (Echo). Während EchoDistill teilen wir den Textencoder zwischen beiden Modellen, um ein konsistentes semantisches Verständnis zu gewährleisten. Anschließend wird das Schülermodell mit adversarialen Verlusten optimiert, um es an die reale Bildverteilung anzupassen, und mit Alignment-Verlusten, um die Konsistenz mit der Ausgabe des Lehrermodells beizubehalten. Darüber hinaus führen wir eine bidirektionale Echo-Verfeinerungsstrategie ein, bei der das Schülermodell seine schnellere Generierungsfähigkeit nutzt, um an das Lehrermodell zurückzumelden. Dieser bidirektionale Konzept-Distillationsmechanismus verbessert nicht nur die Fähigkeit des Schülermodells, neue Konzepte zu personalisieren, sondern steigert auch die generative Qualität des Lehrermodells. Unsere Experimente zeigen, dass dieser kollaborative Rahmen bestehende Personalisierungsmethoden im 1-SDP-Setup signifikant übertrifft und ein neuartiges Paradigma für schnelle und effektive Personalisierung in T2I-Diffusionsmodellen etabliert.
Wir präsentieren modellbasierte Sprachmodellierung als eine effiziente, umweltfreundliche Alternative zu sprachlicher Modellierung auf Basis tiefer neuronaler Netze. Sie bietet eine logarithmisch skalierbare Leistung bei der Next-Token-Prädiktion sowie starke Memorierungsfähigkeiten. Durch die Implementierung schneller Approximationen der k-nächste-Nachbarn-Klassifikation hinterlässt die modellbasierte Sprachmodellierung sowohl im Trainings- als auch im Inferenzmodus einen relativ kleinen ökologischen Fußabdruck, da sie vollständig auf CPUs basiert und niedrige Token-Latenzzeiten erreicht. Ihre interne Funktionsweise ist einfach und vollständig transparent. Wir vergleichen unsere Implementierung der modellbasierten Sprachmodellierung, OLIFANT, mit GPT-2 und GPT-Neo hinsichtlich der Next-Token-Prädiktionsgenauigkeit, geschätzter Emissionen und Geschwindigkeiten und bieten einige tiefgehende Analysen des Modells.
In diesem Beitrag stellen wir ein neuartiges, diffusionsbasiertes Modell für die Fahrspurerkennung vor, genannt DiffusionLane, das die Aufgabe der Fahrspurerkennung als einen Denoising-Diffusionsprozess im Parameterraum der Fahrspur behandelt. Zunächst fügen wir den Parametern (Startpunkt und Winkel) der Ground-Truth-Fahrspuren Gaußsches Rauschen hinzu, um verrauschte Fahrspur-Anker zu erhalten, und das Modell lernt, diese verrauschten Anker schrittweise zu verfeinern, um die Ziel-Fahrspuren zu erhalten. Zweitens schlagen wir eine hybride Decodierstrategie vor, um die schwache Merkmalsrepräsentation des Encoders, die durch die verrauschten Fahrspur-Anker verursacht wird, zu adressieren. Konkret entwerfen wir einen hybriden Diffusions-Decoder, der globale und lokale Decoder für hochwertige Fahrspur-Anker kombiniert. Um dann die Merkmalsrepräsentation des Encoders zu verbessern, setzen wir während des Trainings einen zusätzlichen Head ein, der lernbare Fahrspur-Anker verwendet, um die Überwachung des Encoders zu verstärken. Experimentelle Ergebnisse auf vier Benchmarks – Carlane, Tusimple, CULane und LLAMAS – zeigen, dass DiffusionLane im Vergleich zu früheren State-of-the-Art-Methoden eine starke Generalisierungsfähigkeit und vielversprechende Detektionsleistung aufweist. Beispielsweise übertrifft DiffusionLane mit ResNet18 die vorhandenen Methoden um mindestens 1 % Genauigkeit auf dem Domain-Adaptation-Datensatz Carlane. Zudem erzielt DiffusionLane mit MobileNetV4 einen F1-Score von 81,32 % auf CULane, 96,89 % Genauigkeit auf Tusimple mit ResNet34 und 97,59 % F1-Score auf LLAMAS mit ResNet101. Der Code wird unter https://github.com/zkyntu/UnLanedet verfügbar sein.
Diffusion Transformers (DiTs) erzielen state-of-the-art Generative Performance, doch ihre quadratischen Trainingskosten in Abhängigkeit von der Sequenzlänge machen groß angelegtes Pre-Training prohibitiv teuer. Token Dropping kann die Trainingskosten senken, doch naive Strategien verschlechtern die Repräsentationen, und bestehende Methoden sind entweder parameterintensiv oder versagen bei hohen Drop-Raten. Wir stellen SPRINT vor, Sparse-Dense Residual Fusion for Efficient Diffusion Transformers, eine einfache Methode, die aggressives Token Dropping (bis zu 75 %) bei gleichbleibender Qualität ermöglicht. SPRINT nutzt die komplementären Rollen von flachen und tiefen Schichten: Frühe Schichten verarbeiten alle Tokens, um lokale Details zu erfassen, tiefere Schichten operieren auf einer spärlichen Teilmenge, um Berechnungen zu reduzieren, und ihre Ausgaben werden durch Residual Connections fusioniert. Das Training folgt einem Zwei-Stufen-Plan: Langes maskiertes Pre-Training für Effizienz, gefolgt von kurzem Fine-Tuning mit allen Tokens, um die Trainings-Inferenz-Lücke zu schließen. Auf ImageNet-1K 256x256 erzielt SPRINT eine 9,8-fache Trainingsersparnis bei vergleichbarem FID/FDD, und bei der Inferenz halbiert seine Path-Drop Guidance (PDG) die FLOPs nahezu und verbessert gleichzeitig die Qualität. Diese Ergebnisse etablieren SPRINT als eine einfache, effektive und allgemeine Lösung für effizientes DiT-Training.
Der bemerkenswerte Erfolg von Diffusions- und Flow-Matching-Modellen hat eine Welle von Arbeiten ausgelöst, die sich mit deren Anpassung zur Laufzeit für kontrollierte Generierungsaufgaben befassen. Die Beispiele reichen von Bildbearbeitung über Restaurierung und Kompression bis hin zu Personalisierung. Aufgrund des iterativen Charakters des Sampling-Prozesses in diesen Modellen ist es jedoch rechentechnisch unpraktikabel, gradientenbasierte Optimierung zur direkten Steuerung des am Ende des Prozesses generierten Bildes zu verwenden. Infolgedessen greifen bestehende Methoden typischerweise auf eine separate Manipulation jedes Zeitschritts zurück. Hier stellen wir FlowOpt vor – ein Optimierungsframework nullter Ordnung (gradientenfrei), das den gesamten Flow-Prozess als Black Box behandelt und eine Optimierung über den gesamten Sampling-Pfad ohne Backpropagation durch das Modell ermöglicht. Unsere Methode ist sowohl hocheffizient als auch erlaubt es Nutzern, die Zwischenergebnisse der Optimierung zu verfolgen und bei Bedarf ein frühes Abbrechen durchzuführen. Wir beweisen eine hinreichende Bedingung für die Schrittweite von FlowOpt, unter der die Konvergenz zum globalen Optimum garantiert ist. Wir zeigen weiterhin, wie diese Obergrenze empirisch geschätzt werden kann, um eine angemessene Schrittweite zu wählen. Wir demonstrieren, wie FlowOpt für die Bildbearbeitung eingesetzt werden kann, und präsentieren zwei Optionen: (i) Inversion (Bestimmung des initialen Rauschens, das ein gegebenes Bild erzeugt) und (ii) direktes Lenken des bearbeiteten Bildes, sodass es dem Quellbild ähnlich bleibt, während es einem Ziel-Text-Prompt entspricht. In beiden Fällen erzielt FlowOpt state-of-the-art Ergebnisse bei nahezu gleicher Anzahl von Auswertungen der neuronalen Funktion (NFEs) wie bestehende Methoden. Code und Beispiele sind auf der Projektwebseite verfügbar.
Matrixbasierte vorkonditionierte Optimierer wie Muon haben sich kürzlich als effizienter erwiesen als skalare Optimierer für das Training großskaliger neuronaler Netze, einschließlich großer Sprachmodelle (LLMs). Andererseits haben aktuelle Benchmarks zu Optimierern für das Pre-Training von LLMs gezeigt, dass varianzreduzierende Techniken wie MARS erhebliche Beschleunigungen gegenüber Standardoptimierern ohne Varianzreduktion erzielen können. In diesem Artikel führen wir, um die Vorteile beider Welten zu vereinen, MARS-M ein – einen neuen Optimierer, der die Varianzreduktionstechnik von MARS mit Muon integriert. Unter Standard-Regularitätsbedingungen beweisen wir, dass Muon-M mit einer Rate von 𝒪(T^{-1/3}) zu einem stationären Punkt erster Ordnung konvergiert, was eine Verbesserung gegenüber der von Muon erreichten Rate von 𝒪(T^{-1/4}) darstellt. Unsere empirischen Ergebnisse zu Sprachmodellierungs- und Computer-Vision-Aufgaben zeigen, dass MARS-M durchgängig niedrigere Loss-Werte und verbesserte Leistung in verschiedenen Downstream-Benchmarks erzielt. Die Implementierung von MARS-M ist unter https://github.com/AGI-Arena/MARS/MARS_M verfügbar.
Große Sprachmodelle (LLMs) haben in letzter Zeit die auditive Spracherkennung (ASR), die visuelle Spracherkennung (VSR) und die audiovisuelle Spracherkennung (AVSR) vorangetrieben. Das Verständnis ihrer internen Dynamik unter Feinabstimmung bleibt jedoch begrenzt. In der natürlichen Sprachverarbeitung haben neuere Arbeiten Aufmerksamkeitssenken (Attention Sinks) aufgezeigt – Token, die unverhältnismäßig hohe Aufmerksamkeit auf sich ziehen – und damit verbundene massive Aktivierungen, bei denen einige Merkmale der Senken-Token enorme Aktivierungen in LLMs zeigen. In dieser Arbeit untersuchen wir als Erste diese Phänomene in der multimodalen Spracherkennung. Durch eine detaillierte Analyse audiovisueller LLMs identifizieren wir Aufmerksamkeitssenken und massive Aktivierungen nicht nur beim BOS-Token, sondern auch bei Token mit niedrigem Semantikgehalt in ASR, VSR und AVSR. Wir zeigen, dass die massiven Aktivierungen in den MLP-Schichten (Multilayer Perceptron) entstehen und festen Merkmalsindizes über alle Senken-Token hinweg entsprechen. Des Weiteren zeigen wir, dass intermediäre Senken-Token eine hohe Kosinus-Ähnlichkeit zum BOS-Token aufweisen und dadurch Aufmerksamkeit und Aktivierung verstärken. Aufbauend auf diesen Erkenntnissen führen wir einen einfachen Dekorrelationsverlust (Decorrelation Loss) ein, der die Kosinus-Ähnlichkeit zwischen dem BOS- und anderen Token reduziert und so effektiv intermediäre Senken und massive Aktivierungen abschwächt. Darüber hinaus verbessert unsere Methode die Wortfehlerrate (WER) bei starker Audiovisual-Downsampling, während sie bei geringeren Downsampling-Raten stabil bleibt.