papers.description
Jüngste Fortschritte unterstreichen die Bedeutung von GRPO-basierten Reinforcement-Learning-Methoden und Benchmarking bei der Verbesserung der Text-zu-Bild (T2I)-Generierung. Allerdings sind aktuelle Methoden, die punktuelle Belohnungsmodelle (RM) zur Bewertung generierter Bilder verwenden, anfällig für Reward Hacking. Wir zeigen, dass dies geschieht, wenn minimale Bewertungsunterschiede zwischen Bildern nach der Normalisierung verstärkt werden, was illusorische Vorteile schafft, die das Modell dazu veranlassen, sich übermäßig auf triviale Gewinne zu optimieren, was letztendlich den Bildgenerierungsprozess destabilisiert. Um dies zu beheben, schlagen wir Pref-GRPO vor, eine GRPO-Methode basierend auf paarweisen Präferenzbelohnungen, die das Optimierungsziel von der Bewertungsmaximierung auf die Anpassung von Präferenzen verlagert und so ein stabileres Training gewährleistet. Bei Pref-GRPO werden Bilder innerhalb jeder Gruppe paarweise mit einem Präferenz-RM verglichen, und die Gewinnrate wird als Belohnungssignal verwendet. Umfangreiche Experimente zeigen, dass Pref-GRPO subtile Unterschiede in der Bildqualität unterscheidet, stabilere Vorteile bietet und Reward Hacking reduziert. Darüber hinaus sind bestehende T2I-Benchmarks durch grobe Bewertungskriterien eingeschränkt, was eine umfassende Modellbewertung behindert. Um dies zu lösen, führen wir UniGenBench ein, einen einheitlichen T2I-Benchmark, der 600 Prompts über 5 Hauptthemen und 20 Unterthemen umfasst. Er bewertet die semantische Konsistenz durch 10 primäre und 27 sekundäre Kriterien und nutzt MLLM für die Konstruktion und Bewertung des Benchmarks. Unsere Benchmarks decken die Stärken und Schwächen sowohl offener als auch proprietärer T2I-Modelle auf und validieren die Wirksamkeit von Pref-GRPO.
Wir stellen rStar2-Agent vor, ein 14B-Modell für mathematisches Denken, das mit agentenbasierter Verstärkungslernmethode trainiert wurde, um Spitzenleistungen zu erzielen. Über den aktuellen langen Chain-of-Thought (CoT) hinaus zeigt das Modell fortgeschrittene kognitive Verhaltensweisen, wie beispielsweise sorgfältiges Nachdenken vor der Verwendung von Python-Codierungswerkzeugen und die Reflexion über Code-Ausführungsfeedback, um Zwischenschritte bei der Lösung komplexer Probleme autonom zu erkunden, zu überprüfen und zu verfeinern. Diese Fähigkeit wird durch drei Schlüsselinnovationen ermöglicht, die agentenbasiertes Reinforcement Learning (RL) in großem Maßstab effektiv machen: (i) eine effiziente RL-Infrastruktur mit einer zuverlässigen Python-Code-Umgebung, die eine hohe Durchsatzausführung unterstützt und die hohen Rollout-Kosten reduziert, wodurch das Training mit begrenzten GPU-Ressourcen (64 MI300X GPUs) ermöglicht wird; (ii) GRPO-RoC, ein agentenbasiertes RL-Algorithmus mit einer Resample-on-Correct-Rollout-Strategie, die die inhärenten Umgebungsgeräusche von Codierungswerkzeugen adressiert und es dem Modell ermöglicht, in einer Code-Umgebung effektiver zu schlussfolgern; (iii) ein effizientes Agenten-Trainingsrezept, das mit einem nicht-schlussfolgernden Supervised Fine-Tuning (SFT) beginnt und sich durch mehrere RL-Stufen entwickelt, wodurch fortgeschrittene kognitive Fähigkeiten mit minimalem Rechenaufwand erreicht werden. Dadurch steigert rStar2-Agent ein vortrainiertes 14B-Modell in nur 510 RL-Schritten innerhalb einer Woche auf den neuesten Stand der Technik und erreicht durchschnittliche Pass@1-Werte von 80,6 % auf AIME24 und 69,8 % auf AIME25, wobei es DeepSeek-R1 (671B) mit deutlich kürzeren Antworten übertrifft. Über Mathematik hinaus zeigt rStar2-Agent-14B auch eine starke Generalisierungsfähigkeit in den Bereichen Alignment, wissenschaftliches Denken und agentenbasierte Werkzeugnutzung. Code und Trainingsrezepte sind unter https://github.com/microsoft/rStar verfügbar.
Die bestehende Literatur behandelt stilgetriebene und subjektgetriebene Generierung typischerweise als zwei getrennte Aufgaben: Erstere priorisiert stilistische Ähnlichkeit, während Letztere auf Subjektkonsistenz besteht, was zu einem offensichtlichen Antagonismus führt. Wir argumentieren, dass beide Ziele in einem einzigen Rahmen vereinheitlicht werden können, da sie letztendlich die Entflechtung und Neuzusammensetzung von Inhalt und Stil betreffen, ein langjähriges Thema in der stilgetriebenen Forschung. Zu diesem Zweck präsentieren wir USO, ein Unified Style-Subject Optimized Customization-Modell. Zunächst erstellen wir einen groß angelegten Tripel-Datensatz, der aus Inhaltsbildern, Stilbildern und ihren entsprechenden stilisierten Inhaltsbildern besteht. Zweitens führen wir ein entflochtenes Lernschema ein, das gleichzeitig Stilmerkmale ausrichtet und Inhalt von Stil durch zwei komplementäre Ziele entflechtet: Stilausrichtungstraining und Inhalt-Stil-Entflechtungstraining. Drittens integrieren wir ein Stil-Belohnungslernparadigma, das als SRL bezeichnet wird, um die Leistung des Modells weiter zu verbessern. Schließlich veröffentlichen wir USO-Bench, den ersten Benchmark, der stilistische Ähnlichkeit und Subjekttreue über mehrere Metriken hinweg gemeinsam bewertet. Umfangreiche Experimente zeigen, dass USO in beiden Dimensionen der Subjektkonsistenz und stilistischen Ähnlichkeit eine state-of-the-art Leistung unter Open-Source-Modellen erzielt. Code und Modell: https://github.com/bytedance/USO
Wir stellen MCP-Bench vor, einen Benchmark zur Bewertung großer Sprachmodelle (LLMs) anhand realistischer, mehrstufiger Aufgaben, die den Einsatz von Werkzeugen, die Koordination zwischen Werkzeugen, präzise Parametersteuerung sowie Planungs- und Denkfähigkeiten zur Lösung von Aufgaben erfordern. Basierend auf dem Model Context Protocol (MCP) verbindet MCP-Bench LLMs mit 28 repräsentativen, aktiven MCP-Servern, die 250 Werkzeuge in Bereichen wie Finanzen, Reisen, wissenschaftliches Rechnen und akademische Suche abdecken. Im Gegensatz zu früheren API-basierten Benchmarks bietet jeder MCP-Server eine Reihe komplementärer Werkzeuge, die darauf ausgelegt sind, zusammenzuarbeiten, wodurch die Konstruktion authentischer, mehrstufiger Aufgaben mit reichhaltiger Ein- und Ausgabekopplung ermöglicht wird. Die Aufgaben in MCP-Bench testen die Fähigkeit von Agenten, relevante Werkzeuge aus vagen Anweisungen ohne explizite Werkzeugnamen abzurufen, mehrstufige Ausführungspfade für komplexe Ziele zu planen, Antworten in Zwischenergebnissen von Werkzeugen zu verankern und domänenübergreifende Workflows zu orchestrieren – Fähigkeiten, die von bestehenden Benchmarks, die sich auf explizite Werkzeugspezifikationen, flache, wenige Schritte umfassende Workflows und isolierte Domänenoperationen stützen, nicht ausreichend bewertet werden. Wir schlagen ein vielschichtiges Bewertungsframework vor, das das Verständnis und die Nutzung von Werkzeugschemata auf Werkzeugebene, die Planung auf Trajektorienebene und die Aufgabenabwicklung abdeckt. Experimente mit 20 fortschrittlichen LLMs offenbaren anhaltende Herausforderungen in MCP-Bench. Code und Daten: https://github.com/Accenture/mcp-bench.
Das Paradigma des Lernens durch Praxis ist entscheidend für die Entwicklung leistungsfähiger agentenbasierter KI-Systeme, wird jedoch durch ineffiziente Erfahrungsgenerierung stark behindert, ein Engpass, der besonders in komplexen Benchmarks wie GAIA deutlich wird. Um dies zu adressieren, stellen wir AWorld vor, ein Open-Source-System, das für groß angelegte Interaktionen zwischen Agenten und Umgebungen entwickelt wurde. Durch die Verteilung von Aufgaben über einen Cluster beschleunigt AWorld die Erfahrungssammlung um das 14,6-fache im Vergleich zur Standardausführung auf einem einzelnen Knoten. Diese entscheidende Beschleunigung macht umfangreiches Reinforcement Learning praktisch und skalierbar. Mit dieser Fähigkeit trainierten wir einen auf Qwen3-32B basierenden Agenten, der sein Basismodell deutlich übertrifft und seine Gesamtgenauigkeit bei GAIA von 21,59 % auf 32,23 % steigert. Auf den anspruchsvollsten Stufen des Benchmarks erreicht unser Agent eine Punktzahl von 16,33 % und übertrifft damit die Leistung führender proprietärer Modelle. Unser Open-Source-System und der daraus resultierende Agent bieten einen praktischen Leitfaden für einen vollständigen Trainingspipeline für agentenbasierte KI, von effizienter Interaktion bis hin zu nachweisbarer Modellverbesserung.
Die Erzeugung langer Videos ist im Kern ein Problem des Langzeitgedächtnisses: Modelle müssen wichtige Ereignisse über einen langen Zeitraum hinweg behalten und abrufen können, ohne zusammenzubrechen oder abzudriften. Die Skalierung von Diffusions-Transformatoren zur Generierung von Videos mit langem Kontext ist jedoch grundlegend durch die quadratischen Kosten der Selbstaufmerksamkeit begrenzt, was Speicher und Berechnung für lange Sequenzen unhandlich und schwer zu optimieren macht. Wir formulieren die Generierung von Videos mit langem Kontext als eine interne Informationsabfrage und schlagen ein einfaches, lernbares Modul für sparsame Aufmerksamkeitsrouting vor, Mixture of Contexts (MoC), als effektive Engine für das Langzeitgedächtnis. In MoC wählt jede Abfrage dynamisch einige informative Abschnitte sowie obligatorische Anker (Beschriftungen, lokale Fenster) aus, um sie zu berücksichtigen, mit kausalem Routing, das Schleifenschlüsse verhindert. Wenn wir die Daten skalieren und das Routing schrittweise vereinfachen, weist das Modell Rechenleistung der relevanten Geschichte zu und bewahrt Identitäten, Handlungen und Szenen über Minuten hinweg. Effizienz ergibt sich als Nebenprodukt der Abfrage (nahezu lineare Skalierung), was praktisches Training und Synthese ermöglicht und das Entstehen von Gedächtnis und Konsistenz im Minutenmaßstab fördert.
Vielfältige Instruktionsdaten sind entscheidend für das effektive Instruction Tuning großer Sprachmodelle, da sie es dem Modell ermöglichen, über verschiedene Arten von Eingaben zu generalisieren. Der Aufbau eines solchen diversifizierten Instruktionsdatensatzes ist ein wesentlicher Schritt in diesem Prozess. Bestehende Ansätze nutzen oft große Sprachmodelle, um automatisch vielfältige Instruktionen zu erkunden und zu generieren, wodurch sowohl die Datenvielfalt als auch die Qualität sichergestellt werden. Allerdings übersehen sie dabei häufig einen wichtigen Faktor in realen Anwendungen: die Aufgabenrelevanz. In der Praxis benötigen nur wenige reale Anwendungen ein wirklich allgemeines Modell; die meisten profitieren von aufgabenspezifischem Wissen, das auf ihren speziellen Anwendungsfall zugeschnitten ist. Daher ist es entscheidend, Methoden zur Instruktionserweiterung zu entwickeln, die nicht nur die Vielfalt bewahren, sondern auch für spezifische, reale Szenarien optimiert sind. Wir stellen daher Task Centric Instruction Augmentation (TCIA) vor, ein Framework, das Instruktionen systematisch erweitert und dabei sowohl die Vielfalt als auch die Aufgabenausrichtung bewahrt. Indem Instruktionen in einem diskreten Abfrage-Einschränkungs-Raum dargestellt werden, erzeugt TCIA eine umfangreiche Menge von aufgabenrelevanten Instruktionen und ermöglicht es Modellen, auf diese aufgabenspezifischen Instruktionen zu generalisieren, ohne die Gesamtleistung zu beeinträchtigen. Experimente zeigen, dass TCIA die Leistung von Open-Source-LLMs in vier realen, aufgabenspezifischen Anwendungen im Durchschnitt um 8,7 % verbessert und in einigen Fällen führende Closed-Source-Modelle übertrifft. Diese Verbesserungen gehen nicht zulasten der allgemeinen Fähigkeit, Instruktionen zu befolgen, was TCIA zu einer skalierbaren und effizienten Lösung für die Anpassung von LLMs an reale, aufgabenfokussierte Anwendungen macht.
Die Sicherheitsausrichtung in großen Sprachmodellen (LLMs) beinhaltet oft die Vermittlung interner Repräsentationen, um schädliche Anfragen abzulehnen. Jüngste Forschungen haben gezeigt, dass diese Sicherheitsmechanismen umgangen werden können, indem bestimmte repräsentative Richtungen innerhalb des Modells abgetragen oder entfernt werden. In diesem Artikel schlagen wir den gegenteiligen Ansatz vor: Rank-One Safety Injection (ROSI), eine White-Box-Methode, die die Sicherheitsausrichtung eines Modells verstärkt, indem sie dessen Aktivierungen dauerhaft in den vermittelnden Ablehnungsunterraum lenkt. ROSI funktioniert als einfache, feinabstimmungsfreie Rang-Eins-Gewichtsmodifikation, die auf alle Residual-Stream-Schreibmatrizen angewendet wird. Die erforderliche Sicherheitsrichtung kann aus einer kleinen Menge von schädlichen und harmlosen Instruktionspaaren berechnet werden. Wir zeigen, dass ROSI die Sicherheitsablehnungsraten – bewertet durch Llama Guard 3 – konsequent erhöht, während die Nützlichkeit des Modells auf Standard-Benchmarks wie MMLU, HellaSwag und Arc erhalten bleibt. Darüber hinaus zeigen wir, dass ROSI auch ‚unkontrollierte‘ Modelle neu ausrichten kann, indem es deren eigene latente Sicherheitsrichtungen verstärkt, was seinen Nutzen als effektives letztes Sicherheitsverfahren unterstreicht. Unsere Ergebnisse deuten darauf hin, dass gezielte, interpretierbare Gewichtslenkung ein kostengünstiger und wirksamer Mechanismus zur Verbesserung der LLM-Sicherheit ist, der ressourcenintensive Feinabstimmungsparadigmen ergänzt.
Wir stellen den ersten datengetriebenen Multi-View-3D-Punkt-Tracker vor, der entwickelt wurde, um beliebige Punkte in dynamischen Szenen mithilfe mehrerer Kameraperspektiven zu verfolgen. Im Gegensatz zu bestehenden monokularen Trackern, die mit Tiefenunschärfen und Verdeckungen kämpfen, oder früheren Multi-Kamera-Methoden, die über 20 Kameras und aufwendige pro-Sequenz-Optimierung erfordern, sagt unser Feed-Forward-Modell 3D-Korrespondenzen direkt mit einer praktikablen Anzahl von Kameras (z.B. vier) voraus, was robustes und präzises Online-Tracking ermöglicht. Bei bekannten Kameraposen und entweder sensor-basierten oder geschätzten Multi-View-Tiefen fusioniert unser Tracker Multi-View-Merkmale in eine einheitliche Punktwolke und wendet k-nächste-Nachbarn-Korrelation zusammen mit einem Transformer-basierten Update an, um zuverlässig langstreckige 3D-Korrespondenzen zu schätzen, selbst bei Verdeckungen. Wir trainieren auf 5K synthetischen Multi-View-Kubric-Sequenzen und evaluieren auf zwei realen Benchmarks: Panoptic Studio und DexYCB, wobei wir mediane Trajektorienfehler von 3,1 cm bzw. 2,0 cm erreichen. Unsere Methode verallgemeinert gut auf diverse Kamerasetups mit 1-8 Ansichten und variierenden Blickwinkeln sowie Videolängen von 24-150 Frames. Durch die Veröffentlichung unseres Trackers zusammen mit Trainings- und Evaluierungsdatensätzen streben wir an, einen neuen Standard für die Multi-View-3D-Tracking-Forschung zu setzen und ein praktisches Werkzeug für reale Anwendungen bereitzustellen. Projektseite verfügbar unter https://ethz-vlg.github.io/mvtracker.
In diesem Artikel stellen wir OneReward vor, ein einheitliches Reinforcement-Learning-Framework, das die generativen Fähigkeiten des Modells über mehrere Aufgaben hinweg unter verschiedenen Bewertungskriterien verbessert, indem es nur ein einziges Belohnungsmodell verwendet. Durch den Einsatz eines einzigen Vision-Language-Modells (VLM) als generatives Belohnungsmodell, das den Gewinner und Verlierer für eine gegebene Aufgabe und ein gegebenes Bewertungskriterium unterscheiden kann, kann es effektiv auf Multi-Task-Generationsmodelle angewendet werden, insbesondere in Kontexten mit variierten Daten und unterschiedlichen Aufgabenzielen. Wir verwenden OneReward für maskengeführte Bildgenerierung, die weiter in mehrere Unteraufgaben wie Bildfüllung, Bildverlängerung, Objektentfernung und Textdarstellung unterteilt werden kann, wobei eine binäre Maske als Bearbeitungsbereich dient. Obwohl diese domänenspezifischen Aufgaben dasselbe Konditionierungsparadigma teilen, unterscheiden sie sich erheblich in den zugrunde liegenden Datenverteilungen und Bewertungsmetriken. Bestehende Methoden verlassen sich oft auf aufgabenspezifisches Supervised Fine-Tuning (SFT), was die Generalisierung und Trainings effizienz einschränkt. Aufbauend auf OneReward entwickeln wir Seedream 3.0 Fill, ein maskengeführtes Generationsmodell, das über Multi-Task-Reinforcement-Learning direkt auf einem vortrainierten Basismodell trainiert wird und so aufgabenspezifisches SFT überflüssig macht. Experimentelle Ergebnisse zeigen, dass unser einheitliches Bearbeitungsmodell sowohl kommerzielle als auch Open-Source-Konkurrenten wie Ideogram, Adobe Photoshop und FLUX Fill [Pro] über mehrere Bewertungsdimensionen hinweg konsequent übertrifft. Code und Modell sind verfügbar unter: https://one-reward.github.io
Große Sprachmodelle (LLMs) können Schwierigkeiten haben, die Anfälligkeit für Fehlinformationen und die Widerstandsfähigkeit gegenüber gültigen Korrekturen in überzeugenden Dialogen auszubalancieren, eine entscheidende Herausforderung für den zuverlässigen Einsatz. Wir stellen DuET-PD (Duale Evaluierung für Vertrauen in Überzeugungsdialogen) vor, ein Framework, das die Dynamik der Standpunktänderung über mehrere Dialogschritte in zwei Dimensionen bewertet: Überzeugungstyp (korrigierend/irreführend) und Domäne (Wissen via MMLU-Pro und Sicherheit via SALAD-Bench). Wir stellen fest, dass selbst ein modernstes Modell wie GPT-4o unter anhaltender irreführender Überzeugung nur eine Genauigkeit von 27,32 % in MMLU-Pro erreicht. Darüber hinaus zeigen die Ergebnisse einen besorgniserregenden Trend zunehmender Unterwürfigkeit bei neueren Open-Source-Modellen. Um dies zu adressieren, führen wir Holistic DPO ein, einen Trainingsansatz, der positive und negative Überzeugungsbeispiele ausbalanciert. Im Gegensatz zu Prompting oder reinem Widerstandstraining verbessert Holistic DPO sowohl die Robustheit gegenüber Fehlinformationen als auch die Aufgeschlossenheit gegenüber Korrekturen und steigert die Genauigkeit von Llama-3.1-8B-Instruct unter irreführender Überzeugung in Sicherheitskontexten von 4,21 % auf 76,54 %. Diese Beiträge bieten einen Weg zur Entwicklung zuverlässigerer und anpassungsfähigerer LLMs für mehrschrittige Dialoge. Der Code ist verfügbar unter https://github.com/Social-AI-Studio/DuET-PD.
Aktuelle Vision-Language-Action (VLA)-Modelle, die auf vortrainierten Vision-Language Models (VLMs) basieren, erfordern umfangreiches Nachtraining, was zu einem hohen Rechenaufwand führt, der die Skalierbarkeit und den Einsatz einschränkt. Wir schlagen CogVLA vor, ein kognitionsorientiertes Vision-Language-Action-Framework, das durch instruktionsgesteuertes Routing und Sparsification sowohl die Effizienz als auch die Leistung verbessert. CogVLA lässt sich von der multimodalen Koordination des Menschen inspirieren und führt eine dreistufige progressive Architektur ein. 1) Encoder-FiLM-basiertes Aggregations-Routing (EFA-Routing) injiziert Instruktionsinformationen in den Vision-Encoder, um duale visuelle Tokens selektiv zu aggregieren und zu komprimieren, wodurch eine instruktionsbewusste latente Repräsentation gebildet wird. 2) Aufbauend auf dieser kompakten visuellen Kodierung führt LLM-FiLM-basiertes Pruning-Routing (LFP-Routing) die Handlungsabsicht in das Sprachmodell ein, indem instruktionsirrelevante visuell verankerte Tokens beschnitten werden, wodurch Token-Level-Sparsity erreicht wird. 3) Um sicherzustellen, dass komprimierte Wahrnehmungseingaben dennoch eine präzise und kohärente Handlungsgenerierung unterstützen können, führen wir V-L-A-gekoppelte Aufmerksamkeit (CAtten) ein, die kausale Vision-Language-Aufmerksamkeit mit bidirektionaler paralleler Handlungsdekodierung kombiniert. Umfangreiche Experimente auf dem LIBERO-Benchmark und realen Robotikaufgaben zeigen, dass CogVLA mit Erfolgsquoten von 97,4 % bzw. 70,0 % Spitzenleistungen erzielt, während die Trainingskosten um das 2,5-fache reduziert und die Inferenzlatenz im Vergleich zu OpenVLA um das 2,8-fache verringert werden. CogVLA ist quelloffen und öffentlich unter https://github.com/JiuTian-VL/CogVLA verfügbar.
Wir stellen FakeParts vor, eine neue Klasse von Deepfakes, die sich durch subtile, lokalisierte Manipulationen an spezifischen räumlichen Regionen oder zeitlichen Segmenten ansonsten authentischer Videos auszeichnen. Im Gegensatz zu vollständig synthetischen Inhalten verschmelzen diese partiellen Manipulationen, die von veränderten Gesichtsausdrücken über Objektaustausche bis hin zu Hintergrundmodifikationen reichen, nahtlos mit realen Elementen, was sie besonders trügerisch und schwer zu erkennen macht. Um die kritische Lücke in den Erkennungsfähigkeiten zu schließen, präsentieren wir FakePartsBench, den ersten groß angelegten Benchmark-Datensatz, der speziell entwickelt wurde, um das gesamte Spektrum partieller Deepfakes zu erfassen. Unser Datensatz umfasst über 25.000 Videos mit pixelgenauen und frame-spezifischen Manipulationsannotationen und ermöglicht eine umfassende Bewertung von Erkennungsmethoden. Unsere Nutzerstudien zeigen, dass FakeParts die menschliche Erkennungsgenauigkeit im Vergleich zu traditionellen Deepfakes um über 30 % reduziert, wobei ähnliche Leistungseinbußen bei modernsten Erkennungsmodellen beobachtet werden. Diese Arbeit identifiziert eine dringende Schwachstelle in aktuellen Deepfake-Erkennungsansätzen und stellt die notwendigen Ressourcen bereit, um robustere Methoden für partielle Videomanipulationen zu entwickeln.
Die Entfernung von Objekten in Videos hat aufgrund der jüngsten Erfolge von Video-Generierungsmodellen fortgeschrittene Leistungen erzielt. Allerdings kämpfen bestehende Ansätze damit, die Nebeneffekte von Objekten, wie z.B. deren Schatten und Reflexionen, zu beseitigen, da es an gepaarten Videodaten als Supervision mangelt. Dieses Papier stellt ROSE vor, kurz für „Remove Objects with Side Effects“, ein Framework, das systematisch die Auswirkungen von Objekten auf die Umgebung untersucht, die in fünf häufige Fälle kategorisiert werden können: Schatten, Reflexionen, Licht, Transluzenz und Spiegel. Angesichts der Herausforderungen bei der Erstellung gepaarter Videos, die die genannten Effekte zeigen, nutzen wir eine 3D-Rendering-Engine zur Erzeugung synthetischer Daten. Wir haben sorgfältig eine vollautomatische Pipeline für die Datenvorbereitung entwickelt, die einen groß angelegten gepaarten Datensatz mit vielfältigen Szenen, Objekten, Aufnahmewinkeln und Kameratrajektorien simuliert. ROSE wird als Video-Inpainting-Modell implementiert, das auf einem Diffusion Transformer basiert. Um alle objektbezogenen Bereiche zu lokalisieren, wird das gesamte Video in das Modell eingespeist, um eine referenzbasierte Löschung durchzuführen. Darüber hinaus wird zusätzliche Supervision eingeführt, um explizit die von Nebeneffekten betroffenen Bereiche vorherzusagen, die durch die Differenzmaske zwischen den gepaarten Videos aufgedeckt werden können. Um die Modellleistung bei der Entfernung verschiedener Nebeneffekte vollständig zu untersuchen, stellen wir einen neuen Benchmark vor, genannt ROSE-Bench, der sowohl gängige Szenarien als auch die fünf speziellen Nebeneffekte für eine umfassende Bewertung beinhaltet. Experimentelle Ergebnisse zeigen, dass ROSE eine überlegene Leistung im Vergleich zu bestehenden Video-Objektlöschmodellen erzielt und sich gut auf reale Video-Szenarien verallgemeinern lässt. Die Projektseite ist https://rose2025-inpaint.github.io/.
Wir präsentieren Dress&Dance, ein Video-Diffusions-Framework, das hochwertige 5-Sekunden-lange 24-FPS-Virtual-Try-On-Videos in einer Auflösung von 1152x720 erzeugt. Diese zeigen einen Nutzer, der gewünschte Kleidungsstücke trägt und sich entsprechend eines gegebenen Referenzvideos bewegt. Unser Ansatz benötigt lediglich ein einzelnes Nutzerbild und unterstützt eine Vielzahl von Oberteilen, Unterteilen sowie einteiligen Kleidungsstücken, ebenso wie das gleichzeitige Anprobieren von Ober- und Unterteilen in einem einzigen Durchlauf. Kern unseres Frameworks ist CondNet, ein neuartiges Konditionierungsnetzwerk, das Aufmerksamkeitsmechanismen nutzt, um multimodale Eingaben (Text, Bilder und Videos) zu vereinen und dadurch die Registrierung der Kleidungsstücke sowie die Bewegungsgenauigkeit zu verbessern. CondNet wird auf heterogenen Trainingsdaten trainiert, die begrenzte Videodaten und einen größeren, leichter verfügbaren Bilddatensatz in einem mehrstufigen, progressiven Verfahren kombinieren. Dress&Dance übertrifft bestehende Open-Source- und kommerzielle Lösungen und ermöglicht ein hochwertiges und flexibles Try-On-Erlebnis.
Werkzeuggestützte Sprachmodelle, die mit Retrieval, Speicher oder externen APIs ausgestattet sind, gestalten die KI neu, doch ihre theoretischen Vorteile bleiben weitgehend unerforscht. In diesem Artikel gehen wir dieser Frage nach, indem wir die Vorteile des Lernens mit Werkzeugen (externes Retrieval) gegenüber dem Lernen in den Gewichten (Speicherung) für die Faktenwiedergabe aufzeigen. Wir zeigen, dass die Anzahl der Fakten, die ein Modell allein in seinen Gewichten speichern kann, grundsätzlich durch die Anzahl seiner Parameter begrenzt ist. Im Gegensatz dazu beweisen wir, dass die Nutzung von Werkzeugen eine unbegrenzte Faktenwiedergabe durch eine einfache und effiziente Schaltungskonstruktion ermöglicht. Diese Ergebnisse werden in kontrollierten Experimenten validiert, bei denen werkzeugnutzende Modelle durchweg besser abschneiden als speichernde Modelle. Wir zeigen weiterhin, dass es für vortrainierte große Sprachmodelle effektiver ist, die Nutzung von Werkzeugen und allgemeine Regeln zu vermitteln, als Fakten durch Feinabstimmung ins Gedächtnis zu übertragen. Unsere Arbeit liefert sowohl eine theoretische als auch eine empirische Grundlage und begründet, warum werkzeuggestützte Arbeitsabläufe nicht nur praktisch, sondern nachweislich skalierbarer sind.
3D-Inhalte weisen von Natur aus multimodale Eigenschaften auf und können in verschiedene Modalitäten projiziert werden (z.B. RGB-Bilder, RGBD und Punktwolken). Jede Modalität bietet spezifische Vorteile bei der Modellierung von 3D-Assets: RGB-Bilder enthalten lebendige 3D-Texturen, während Punktwolken fein abgestufte 3D-Geometrien definieren. Die meisten bestehenden 3D-nativen generativen Architekturen operieren jedoch überwiegend in Einzelmodalitäts-Paradigmen – und übersehen damit die komplementären Vorteile multimodaler Daten – oder beschränken sich auf 3D-Strukturen, wodurch der Umfang der verfügbaren Trainingsdatensätze eingeschränkt wird. Um multimodale Daten ganzheitlich für die 3D-Modellierung zu nutzen, stellen wir TriMM vor, das erste feed-forward 3D-native generative Modell, das aus grundlegenden multimodalen Daten (z.B. RGB, RGBD und Punktwolken) lernt. Konkret: 1) TriMM führt zunächst eine kollaborative multimodale Kodierung ein, die modalitätsspezifische Merkmale integriert, während deren einzigartige repräsentative Stärken bewahrt werden. 2) Darüber hinaus werden zusätzliche 2D- und 3D-Supervisionen eingeführt, um die Robustheit und Leistung der multimodalen Kodierung zu steigern. 3) Basierend auf dem eingebetteten multimodalen Code verwendet TriMM ein Triplane-Latent-Diffusionsmodell, um 3D-Assets von höchster Qualität zu generieren, wodurch sowohl die Textur als auch die geometrische Detailgenauigkeit verbessert werden. Umfangreiche Experimente mit mehreren bekannten Datensätzen zeigen, dass TriMM durch die effektive Nutzung multimodaler Daten eine wettbewerbsfähige Leistung mit Modellen erreicht, die auf großen Datensätzen trainiert wurden, obwohl nur eine geringe Menge an Trainingsdaten verwendet wird. Darüber hinaus führen wir zusätzliche Experimente mit aktuellen RGB-D-Datensätzen durch, die die Machbarkeit der Einbindung anderer multimodaler Datensätze in die 3D-Generierung bestätigen.
Da Mehrrunden-Dialoge mit großen Sprachmodellen (LLMs) länger und komplexer werden, wie können Nutzer den Fortschritt ihrer Gesprächsziele besser bewerten und überprüfen? Wir stellen OnGoal vor, eine LLM-Chat-Oberfläche, die Nutzern hilft, den Zielfortschritt besser zu verwalten. OnGoal bietet Echtzeit-Feedback zur Zielausrichtung durch LLM-gestützte Bewertung, Erklärungen für Bewertungsergebnisse mit Beispielen sowie Übersichten über den Zielverlauf im Zeitverlauf, wodurch Nutzer komplexe Dialoge effektiver navigieren können. In einer Studie mit 20 Teilnehmern zu einer Schreibaufgabe bewerten wir OnGoal im Vergleich zu einer Basis-Chat-Oberfläche ohne Zielverfolgung. Mit OnGoal benötigten die Teilnehmer weniger Zeit und Aufwand, um ihre Ziele zu erreichen, während sie neue Prompting-Strategien erkundeten, um Missverständnisse zu überwinden. Dies deutet darauf hin, dass die Verfolgung und Visualisierung von Zielen die Engagement und Resilienz in LLM-Dialogen steigern kann. Unsere Erkenntnisse inspirierten Designimplikationen für zukünftige LLM-Chat-Oberflächen, die die Zielkommunikation verbessern, die kognitive Belastung reduzieren, die Interaktivität erhöhen und Feedback ermöglichen, um die Leistung von LLMs zu verbessern.
Menschliche Sozialverhalten sind von Natur aus multimodal, was die Entwicklung leistungsstarker audiovisueller Modelle zu ihrer Wahrnehmung erforderlich macht. In diesem Artikel präsentieren wir Social-MAE, unseren vortrainierten audiovisuellen Masked Autoencoder, basierend auf einer erweiterten Version des Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE), der auf audiovisuellen Sozialdaten vortrainiert wurde. Insbesondere modifizieren wir CAV-MAE, um eine größere Anzahl von Frames als Eingabe zu erhalten, und trainieren ihn in einem selbstüberwachten Verfahren auf einem großen Datensatz menschlicher sozialer Interaktionen (VoxCeleb2) vor. Wir demonstrieren die Effektivität dieses Modells, indem wir das Modell auf verschiedenen sozialen und affektiven Downstream-Aufgaben feinabstimmen und evaluieren, nämlich Emotionserkennung, Lachenserkennung und Schätzung der wahrgenommenen Persönlichkeit. Das Modell erzielt state-of-the-art Ergebnisse bei der multimodalen Emotionserkennung und Lachenserkennung sowie wettbewerbsfähige Ergebnisse bei der Schätzung der wahrgenommenen Persönlichkeit, was die Effektivität des domänenspezifischen selbstüberwachten Vortrainings unterstreicht. Code und Modellgewichte sind hier verfügbar: https://github.com/HuBohy/SocialMAE.